JP5228283B2 - Speech synthesis dictionary construction device, speech synthesis dictionary construction method, and program - Google Patents

Speech synthesis dictionary construction device, speech synthesis dictionary construction method, and program Download PDF

Info

Publication number
JP5228283B2
JP5228283B2 JP2006115992A JP2006115992A JP5228283B2 JP 5228283 B2 JP5228283 B2 JP 5228283B2 JP 2006115992 A JP2006115992 A JP 2006115992A JP 2006115992 A JP2006115992 A JP 2006115992A JP 5228283 B2 JP5228283 B2 JP 5228283B2
Authority
JP
Japan
Prior art keywords
phoneme
learning
lsp
speech synthesis
phoneme hmm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006115992A
Other languages
Japanese (ja)
Other versions
JP2007286511A (en
Inventor
勝彦 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2006115992A priority Critical patent/JP5228283B2/en
Publication of JP2007286511A publication Critical patent/JP2007286511A/en
Application granted granted Critical
Publication of JP5228283B2 publication Critical patent/JP5228283B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Description

本発明は、与えられた音声データベースを参照することにより、音声合成に用いるデータベースを構築する、音声合成辞書構築装置及び音声合成辞書構築方法に関する。   The present invention relates to a speech synthesis dictionary construction apparatus and a speech synthesis dictionary construction method for constructing a database used for speech synthesis by referring to a given speech database.

隠れマルコフモデル(以下、HMMと称する。)に基づいた音声認識技術及び音声合成技術は、広く利用されている。   Speech recognition technology and speech synthesis technology based on a hidden Markov model (hereinafter referred to as HMM) are widely used.

HMMに基づいた音声認識技術及び音声合成技術に係る文献例としては、特許文献1乃至3に記載されるものがあった。   Examples of documents related to the speech recognition technology and speech synthesis technology based on the HMM are those described in Patent Documents 1 to 3.

特開2002−62890号公報JP 2002-62890 A 特開2002−244689号公報Japanese Patent Laid-Open No. 2002-244689 特開2002−268660号公報JP 2002-268660 A

HMMに基づいた音声認識及び音声合成においては、音素ラベルとスペクトルパラメータデータ列等の対応関係を記録した音声合成辞書が必要になる。   In speech recognition and speech synthesis based on the HMM, a speech synthesis dictionary that records the correspondence between phoneme labels and spectral parameter data strings is required.

音声合成辞書は、通例、音素ラベル列とそれに対応する音声データとの組から構成されているデータベース(以下、音声データベースと称呼する。)に記録されているデータについて、スペクトル分析とピッチ抽出を行い、HMMに基づく学習過程を経ることにより、構築される。   A speech synthesis dictionary usually performs spectrum analysis and pitch extraction on data recorded in a database (hereinafter referred to as a speech database) composed of a set of phoneme label sequences and corresponding speech data. It is constructed through a learning process based on HMM.

従来は、音声合成辞書を構築する際、音声データから算出された音声スペクトルパラメータデータ列を、特に加工等を施すことなく、そのままHMMに基づく学習に用いて、音声合成辞書を構築していた。   Conventionally, when a speech synthesis dictionary is constructed, the speech synthesis parameter dictionary is constructed by using the speech spectrum parameter data string calculated from the speech data as it is for learning based on the HMM without any particular processing.

また、HMMに基づく学習過程は、しばしば、尤度を向上させるための、単数回または複数回の再学習過程を含む。   Also, the learning process based on HMM often includes a single or multiple re-learning processes for improving the likelihood.

HMMに基づく学習過程が、このように、複数段階の学習過程を含む場合、段階毎に音素ラベルに対する音素HMMが決定され、当該対応関係が次の学習段階に伝達され、学習が進んでいくことになる。   When the learning process based on the HMM includes a learning process of a plurality of stages as described above, the phoneme HMM for the phoneme label is determined for each stage, and the corresponding relationship is transmitted to the next learning stage, and the learning proceeds. become.

従来、段階毎に生成される音素HMMは、特に加工等をなされることなく、次の段階に送られていた。   Conventionally, the phoneme HMM generated at each stage has been sent to the next stage without any special processing.

このようにして構築された音声合成辞書は、音声合成装置に用いられる。   The speech synthesis dictionary constructed in this way is used in a speech synthesizer.

音声データに対してLSP分析を施して生成したLSP係数群時系列データや、音素HMM学習の結果LSP係数に関する音素HMMを定義するパラメータ、例えば平均値に乱れが生じることがある。   The LSP coefficient group time-series data generated by performing the LSP analysis on the speech data and the parameters defining the phoneme HMM related to the LSP coefficients as a result of the phoneme HMM learning, for example, the average value may be disturbed.

従来の音声合成辞書構築法では、LSP係数群時系列データの乱れを無視して音素HMM学習過程に進んだり、LSP係数に関する音素HMMを定義するパラメータの乱れを無視して学習を進行させたりしている。このために、従来の音声合成辞書構築方法では、品質の不十分な音声合成辞書が構築されてしまう場合があった。   The conventional speech synthesis dictionary construction method ignores the disturbance of the LSP coefficient group time series data and proceeds to the phoneme HMM learning process, or ignores the disturbance of the parameter defining the phoneme HMM related to the LSP coefficient and advances the learning. ing. For this reason, in the conventional speech synthesis dictionary construction method, a speech synthesis dictionary with insufficient quality may be constructed.

本発明は、上記実情に鑑みてなされたもので、高品質のテキスト音声の合成を可能とする音声合成辞書構築装置及び方法を提供することを目的とする。   The present invention has been made in view of the above circumstances, and an object of the present invention is to provide a speech synthesis dictionary construction apparatus and method capable of synthesizing high-quality text speech.

本発明にかかる音声合成辞書構築装置は、
音声データに対してLSP分析を施して多次元のLSP(Line Spectrum Pair)係数を含むLSP係数群時系列データを生成するLSP係数群時系列データ生成部と、
前記LSP係数群時系列データ生成部により生成された前記LSP係数群時系列データに、所定の安定条件を満たすように、補正処理を施す学習前スペクトルパラメータ補正部と、
音素ラベル列と前記学習前スペクトルパラメータ補正部から出力された前記補正済LSP係数群時系列データを受け取り、隠れマルコフモデルに基づく学習により音素ラベル毎に音素HMMを対応させる音素HMM学習を複数段階行う音素HMM学習部と、
前記音素HMM学習部の各段階での音素HMM学習において得られた音素ラベル毎に対応付けられた音素HMMを定義するLSP係数について、所定の安定条件を満たすように補正処理を施して、次段の音素HMM学習に引き渡す学習中スペクトルパラメータ補正部と、
前記音素HMM学習部によって対応付けられた音素ラベルと音素HMMとを音声合成辞書に記録するデータ書き出し部と、
を備えることを特徴とする。
The speech synthesis dictionary construction apparatus according to the present invention is
An LSP coefficient group time series data generating unit that performs LSP analysis on voice data and generates LSP coefficient group time series data including multidimensional LSP (Line Spectrum Pair) coefficients;
A pre-learning spectral parameter correction unit that performs a correction process on the LSP coefficient group time-series data generated by the LSP coefficient group time-series data generation unit so as to satisfy a predetermined stability condition;
The phoneme label sequence and the corrected LSP coefficient group time-series data output from the pre-learning spectrum parameter correction unit are received, and phoneme HMM learning is performed in a plurality of stages by associating the phoneme HMM for each phoneme label by learning based on the hidden Markov model. A phoneme HMM learning unit;
The LSP coefficient defining the phoneme HMM associated with each phoneme label obtained in the phoneme HMM learning at each stage of the phoneme HMM learning unit is subjected to correction processing so as to satisfy a predetermined stability condition. A learning spectral parameter correction unit that is handed over to the phoneme HMM learning of
A data writing unit for recording a phoneme label and a phoneme HMM associated by the phoneme HMM learning unit in a speech synthesis dictionary;
It is characterized by providing.

本発明によれば、LSP係数群時系列データ、LSP係数に関する音素HMMを定義するパラメータに補正が行われるため、適切なデータを有する音声合成辞書が構築される。その結果、当該音声合成辞書を参照することにより音声を合成する音声合成装置は、高品質の合成音声を発することができる。   According to the present invention, since the parameters defining the phoneme HMM related to the LSP coefficient group time series data and the LSP coefficients are corrected, a speech synthesis dictionary having appropriate data is constructed. As a result, a speech synthesizer that synthesizes speech by referring to the speech synthesis dictionary can emit high-quality synthesized speech.

以下、本発明の実施形態に係る音声合成辞書構築装置及び方法について説明する。   Hereinafter, a speech synthesis dictionary construction apparatus and method according to an embodiment of the present invention will be described.

(実施形態1)
図1は、実施形態1に係るスペクトルパラメータ補正機能を備えた音声合成辞書構築装置11の概要構成図である。
(Embodiment 1)
FIG. 1 is a schematic configuration diagram of a speech synthesis dictionary construction device 11 having a spectrum parameter correction function according to the first embodiment.

音声合成辞書構築装置11は、データ取り出し部13と、スペクトル分析部15と、学習前スペクトルパラメータ補正部17と、音素HMM学習部19と、データ書き出し部29と、を備える。   The speech synthesis dictionary construction device 11 includes a data extraction unit 13, a spectrum analysis unit 15, a pre-learning spectrum parameter correction unit 17, a phoneme HMM learning unit 19, and a data writing unit 29.

音素HMM学習部19は、第1音素HMM学習部21と、学習中スペクトルパラメータ補正部23と、第2音素HMM学習部25〜第N音素HMM学習部27と、を備える。   The phoneme HMM learning unit 19 includes a first phoneme HMM learning unit 21, a learning spectral parameter correction unit 23, and a second phoneme HMM learning unit 25 to an Nth phoneme HMM learning unit 27.

音声合成辞書構築装置11は、音声データベース31と音声合成辞書33に接続されている。   The speech synthesis dictionary construction device 11 is connected to the speech database 31 and the speech synthesis dictionary 33.

音声データベース31は、音素ラベル列とそれに対応する音声データとの組から構成されているデータベースであり、例えばハードディスク装置に記憶されている。   The voice database 31 is a database composed of a set of phoneme label strings and corresponding voice data, and is stored in, for example, a hard disk device.

音声合成辞書33は、音声合成辞書構築装置11によって生成された音素ラベル毎の音素HMMを格納するデータベースであり、例えばハードディスクに記憶されている。この音声合成辞書33は、音声の合成に使用される。   The speech synthesis dictionary 33 is a database that stores phoneme HMMs for each phoneme label generated by the speech synthesis dictionary construction device 11, and is stored in, for example, a hard disk. This speech synthesis dictionary 33 is used for speech synthesis.

データ取り出し部13は、音声データベース31から音声ラベル列と音声データの組を読み込み、音素ラベル列と音声データとに分離する。データ取り出し部13は、音素ラベル列を第1音素HMM学習部21に引き渡し、音声データをスペクトル分析部15に引き渡す。   The data extraction unit 13 reads a set of a voice label string and voice data from the voice database 31 and separates it into a phoneme label string and voice data. The data extraction unit 13 delivers the phoneme label string to the first phoneme HMM learning unit 21 and delivers the speech data to the spectrum analysis unit 15.

スペクトル分析部15は、データ取り出し部13から引き渡された音声データを解析して、音声データのスペクトル包絡を表す音声スペクトルパラメータデータ列を生成し、学習前スペクトルパラメータ補正部17に引き渡す。本実施形態においては、音声スペクトルパラメータデータ列は、LSP係数列である。   The spectrum analysis unit 15 analyzes the voice data delivered from the data extraction unit 13, generates a voice spectrum parameter data string representing the spectrum envelope of the voice data, and delivers it to the pre-learning spectrum parameter correction unit 17. In the present embodiment, the speech spectrum parameter data sequence is an LSP coefficient sequence.

学習前スペクトルパラメータ補正部17は、スペクトル分析部15から引き渡された音声スペクトルパラメータデータ列に対し、所定の安定条件を満たすよう、補正操作を施し、補正済音声スペクトルパラメータデータ列を第1音素HMM学習部21に供給する。   The pre-learning spectrum parameter correction unit 17 performs a correction operation on the speech spectrum parameter data sequence delivered from the spectrum analysis unit 15 so as to satisfy a predetermined stability condition, and converts the corrected speech spectrum parameter data sequence into the first phoneme HMM. This is supplied to the learning unit 21.

所定の安定条件とは、同一フレーム内のLSP係数が、全て0より大きくπより小さく、かつ、当該係数の次元の昇順に並べた場合に、小さい順に並ぶことである。すなわち、原則としては、隣接するフレームのLSP係数群同士で、同次元のLSP係数を時間軸に沿って線でつないだとき、それぞれの線が交差することはなく、かつ、これらの線がLSP係数についての0とπの間の領域をはみ出すことはない。   The predetermined stability condition is that LSP coefficients in the same frame are all larger than 0 and smaller than π, and are arranged in ascending order when the coefficients are arranged in ascending order. That is, in principle, when LSP coefficients of the same frame are connected by lines along the time axis between LSP coefficient groups of adjacent frames, the lines do not cross each other, and these lines do not intersect with LSP. The region between 0 and π for the coefficient does not protrude.

ここで、フレームとは、音声データをLSP分析する周期のことである。   Here, the term “frame” refers to a cycle in which audio data is LSP analyzed.

第1音素HMM学習部21は、データ取り出し部13から供給された音素ラベル列と学習前スペクトルパラメータ補正部17から供給される補正済音声スペクトルパラメータデータ列の対の群を用いて、音素HMMに基づく学習により、音素ラベル毎に音素HMMを構築し、これらを学習中スペクトルパラメータ補正部23に供給する。   The first phoneme HMM learning unit 21 uses the group of pairs of the phoneme label sequence supplied from the data extraction unit 13 and the corrected speech spectrum parameter data sequence supplied from the pre-learning spectrum parameter correction unit 17 as a phoneme HMM. Based on the learning, a phoneme HMM is constructed for each phoneme label, and these are supplied to the in-learning spectral parameter correction unit 23.

第2音素HMM学習部25〜第N音素HMM学習部27は、学習中スペクトルパラメータ補正部23から供給される補正済音素HMMを、音素HMMに基づき再学習し、これらを学習中スペクトルパラメータ補正部23に供給する。   The second phoneme HMM learning unit 25 to the Nth phoneme HMM learning unit 27 re-learns the corrected phoneme HMM supplied from the learning spectral parameter correction unit 23 based on the phoneme HMM, and learns these spectral parameter correction units. 23.

学習中スペクトルパラメータ補正部23は、第1音素HMM学習部21〜第N音素HMM学習部27から供給される、音素HMMを定義するパラメータのうち、平均値について、所定の安定条件をみたすような補正を行う。その後、学習中スペクトルパラメータ補正部23は、音素HMMを次段の音素HMM学習部に供給する。即ち、学習中スペクトルパラメータ補正部23は、第1〜第(N−1)音素HMM学習部から供給された、音素HMMを定義するパラメータのうち、平均値を、第2〜第N音素HMM学習部に供給する。また、学習中スペクトルパラメータ補正部23は、第N音素HMM学習部27から供給された補正済音素HMMを、データ書き出し部29に供給する。   The in-learning spectral parameter correction unit 23 satisfies a predetermined stability condition with respect to the average value among the parameters defining the phoneme HMM supplied from the first phoneme HMM learning unit 21 to the Nth phoneme HMM learning unit 27. Make corrections. Thereafter, the in-learning spectral parameter correction unit 23 supplies the phoneme HMM to the next phoneme HMM learning unit. That is, the in-learning spectral parameter correction unit 23 calculates the average value of the parameters defining the phoneme HMM supplied from the first to (N-1) th phoneme HMM learning units, and the second to Nth phoneme HMM learning. Supply to the department. The in-learning spectral parameter correction unit 23 supplies the corrected phoneme HMM supplied from the Nth phoneme HMM learning unit 27 to the data writing unit 29.

データ書き出し部29は、音素HMMを、音声合成辞書33に記録する。   The data writing unit 29 records the phoneme HMM in the speech synthesis dictionary 33.

図1に示す音声合成辞書構築装置11は、物理的には、図2に示すような一般的なコンピュータ装置41により、構成される。CPU43、ROM45、記憶部47、データ入出力I/F51、ユーザI/F49は、バス71で相互に接続されている。   The speech synthesis dictionary construction device 11 shown in FIG. 1 is physically configured by a general computer device 41 as shown in FIG. The CPU 43, ROM 45, storage unit 47, data input / output I / F 51, and user I / F 49 are connected to each other via a bus 71.

ROM45は、HMMに基づいた学習のための動作プログラム、特に、この実施の形態においては、スペクトルパラメータを補正する動作を含む動作プログラムを記憶する。   The ROM 45 stores an operation program for learning based on the HMM, and in particular, in this embodiment, an operation program including an operation for correcting a spectrum parameter.

記憶部47は、RAM65やハードディスク67から構成されて、学習のための定数、音素ラベル列、音声データ、スペクトルパラメータデータ、音素ラベルとスペクトルパラメータデータ列の対応関係、を記憶する。   The storage unit 47 includes a RAM 65 and a hard disk 67 and stores learning constants, phoneme label strings, speech data, spectrum parameter data, and correspondences between phoneme labels and spectrum parameter data strings.

データ入出力I/F51は、元データ入りハードディスク55等及び処理済データ記録用ハードディスク57等に接続するためのインタフェースである。   The data input / output I / F 51 is an interface for connecting to the original data-containing hard disk 55 and the like and the processed data recording hard disk 57 and the like.

データ入出力I/F51は、図1に示す音声データベース31に接続され、図2に示すCPU43の制御下に、学習対象の音素ラベル列と音声データの対を読み出してきて、記憶部37に格納する。   The data input / output I / F 51 is connected to the speech database 31 shown in FIG. 1, reads out a pair of phoneme label strings to be learned and speech data, and stores them in the storage unit 37 under the control of the CPU 43 shown in FIG. To do.

データ入出力I/F51は、図1に示す音声合成辞書33に接続され、図2に示すCPU43による処理の結果である、音素HMMを、図1に示す音声合成辞書33に出力する。   The data input / output I / F 51 is connected to the speech synthesis dictionary 33 shown in FIG. 1, and outputs the phoneme HMM, which is the result of the processing by the CPU 43 shown in FIG. 2, to the speech synthesis dictionary 33 shown in FIG.

図2に示すユーザI/F49は、キーボード61と、モニタ63と、から構成され、任意の指示、データ及びプログラムを入力するために設けられている。   The user I / F 49 shown in FIG. 2 includes a keyboard 61 and a monitor 63, and is provided for inputting arbitrary instructions, data, and programs.

CPU43は、ROM45に格納された動作プログラムを実行することにより、音声合成辞書生成動作を実行する。   The CPU 43 executes a speech synthesis dictionary generation operation by executing an operation program stored in the ROM 45.

図1に示すように、本実施形態に係る音声合成辞書構築装置11の特徴は、1又は2以上のスペクトルパラメータ補正部を設けて、スペクトルパラメータデータが所定の安定条件を満たすよう所定の補正処理を行うことである。   As shown in FIG. 1, the feature of the speech synthesis dictionary construction device 11 according to the present embodiment is that a predetermined correction process is performed so that one or two or more spectral parameter correction units are provided so that the spectral parameter data satisfies a predetermined stability condition. Is to do.

学習前スペクトルパラメータ補正部17及び学習中スペクトルパラメータ補正部23が実行する補正処理は、所定の安定条件を満たす操作であれば、いかなる操作でもよい。以下では、理解を容易にするため、特定の補正処理を参照しつつこの音声合成装置の具体的動作について説明する。   The correction process executed by the pre-learning spectral parameter correction unit 17 and the in-learning spectral parameter correction unit 23 may be any operation as long as the operation satisfies a predetermined stability condition. Hereinafter, in order to facilitate understanding, a specific operation of the speech synthesizer will be described with reference to specific correction processing.

まず、データ取り出し部13は、音声データベース31に記憶されている音素ラベルと音声データとの対を順次取り出し、音素ラベルと音声データとに分離し、音素ラベル列を第1学習部21に、音声データをスペクトル分析部15に供給する。   First, the data extraction unit 13 sequentially extracts pairs of phoneme labels and audio data stored in the audio database 31, separates them into phoneme labels and audio data, and stores the phoneme label string in the first learning unit 21. Data is supplied to the spectrum analyzer 15.

スペクトル分析部15は、供給された音声データを既知の手法で分析して、LSP係数を順次生成し、学習前スペクトルパラメータ補正部17に供給する。   The spectrum analysis unit 15 analyzes the supplied voice data by a known method, sequentially generates LSP coefficients, and supplies the LSP coefficients to the pre-learning spectrum parameter correction unit 17.

図3に示すフローチャートを参照しつつ、学習前スペクトルパラメータ補正部17が行う補正操作について説明する。   The correction operation performed by the pre-learning spectrum parameter correction unit 17 will be described with reference to the flowchart shown in FIG.

まず、NSp個の音声データを取り出して記憶し(ステップS301)、その中から、m番目の音声データSpを特定する(ステップS303)。次に、m番目の音声データSpのNfm個のフレームのLSP係数群のうちから、第fmフレーム(ステップS305)のLSP係数群ωm、k[fm]を取り出す(なお、1≦k≦N、NはLSP係数の次数である。)(ステップS307)。次に、取り出したLSP係数ωm、k[fm](但し、1≦k≦N、0≦fm≦Nfm[m]、NはLSP係数の次数、Nfm[m]は音声データSpに対するフレーム数)において、LSP係数の所定の安定条件が満たされているか判別する(ステップS309)。 First, N Sp pieces of audio data are extracted and stored (step S301), and the m-th audio data Sp m is specified from among them (step S303). Next, the LSP coefficient group ω m, k [fm] of the fm-th frame (step S305) is extracted from the LFM coefficient group of N fm frames of the m-th audio data Sp m (where 1 ≦ k ≦ N d and N d are the orders of the LSP coefficients.) (Step S307). Next, the extracted LSP coefficient ω m, k [fm] (where 1 ≦ k ≦ N d , 0 ≦ fm ≦ N fm [m], N d is the order of the LSP coefficient, and N fm [m] is the voice data. in the number of frames) with respect sp m, it determines whether a predetermined stability condition of the LSP coefficients is satisfied (step S309).

ここで、LSP係数の所定の安定条件とは、
0<ωm、1[fm]<ωm、2[fm]<……<ωm、Nd[fm]<π
である。
Here, the predetermined stability condition of the LSP coefficient is
0 <ω m, 1 [fm] <ω m, 2 [fm] <...... <ω m, Nd [fm] <π
It is.

なお、LSP係数ωm、kは、フレームfm毎に、即ち、LSP係数ωm、k[fm]毎に前記の安定条件を満たしているか判別する。つまり、0≦fm≦Nfm[m]の範囲でfmが走査されるようなループが設定されている(ステップS315;未完了ならfm←fm+1)。 Incidentally, the LSP coefficients omega m, k, for each frame fm, i.e., determines whether or meets the stability condition for each LSP coefficients ω m, k [fm]. That is, a loop is set such that fm is scanned in the range of 0 ≦ fm ≦ N fm [m] (step S315; fm ← fm + 1 if not completed).

前記所定の安定条件を満たしている場合(ステップS309;満たす)、LSP係数確認フラグcf[fm]を1にセットし(cf[fm]=1)(ステップS311)、満たしていない場合には(ステップS309;満たさない)、LSP係数確認フラグcf[fm]を0にセット(cf[fm]=0)する(ステップS313)。   When the predetermined stability condition is satisfied (step S309; satisfied), the LSP coefficient confirmation flag cf [fm] is set to 1 (cf [fm] = 1) (step S311). Step S309; not satisfied), the LSP coefficient confirmation flag cf [fm] is set to 0 (cf [fm] = 0) (Step S313).

fmをNfm[m]まで走査し終えたら(ステップS315;完了)、続いて、cf[fmNG]=0となるLSP係数確認フラグが存在するか判別する(ステップS317)。 When fm has been scanned to N fm [m] (step S315; completion), it is then determined whether or not there is an LSP coefficient confirmation flag that satisfies cf [fm NG ] = 0 (step S317).

cf[fmNG]=0となるLSP係数確認フラグが存在しない場合には(ステップS317;存在しない)、m番目の音声データSpについての補正操作を終了する。 If there is no LSP coefficient confirmation flag for cf [fm NG ] = 0 (step S317; does not exist), the correction operation for the m-th audio data Sp m ends.

cf[fmNG]=0となるLSP係数確認フラグが存在する場合には(ステップS317;存在する)、cf[fm=fmNG]=0となるフレームfmNGに対するLSP係数ωm、k[fmNG]を、補正し(ステップS321、S323、S325)、m番目の音声データSpについての補正操作を終了する。 If there is an LSP coefficient confirmation flag for cf [fm NG ] = 0 (step S317; present), the LSP coefficient ω m, k [fm for the frame fm NG for cf [fm = fm NG ] = 0. the NG], corrected (step S321, S323, S325), and terminates the correction operation for the m-th audio data Sp m.

補正の内容について説明する。まず、fmNGが0であるか、0<fmNG<Nfm[m]であるか、Nfm[m]であるか判別する(ステップS319)。 The contents of correction will be described. First, it is determined whether fm NG is 0, 0 <fm NG <N fm [m], or N fm [m] (step S319).

ステップS319で、fmNG=0であると判別されたときは、2番目以降のフレームのLSP係数を参照して補正を行う(ステップS321)。例えば、ωm、k[fmNG]=ωm、k[fmOK、H](但し、1≦k≦Nであり、fmOK、Hは、fmNGより大きくcf[fmOK、H]=1を満たす最小値である。)とする。 If it is determined in step S319 that fm NG = 0, correction is performed with reference to the LSP coefficients of the second and subsequent frames (step S321). For example, ω m, k [fm NG ] = ω m, k [fm OK, H ] (where 1 ≦ k ≦ N d , fm OK, H is larger than fm NG , cf [fm OK, H ]) = 1 is the minimum value satisfying 1).

ステップS319で、0<fmNG<Nfm[m]であると判別されたときは、0≦fm≦Nfm[m]であるような、fmNGに隣接等するフレームのLSP係数を参照して補正を行う(ステップS323)。例えば、ωm、k[fmNG]=ωm、k[fmOK、L]×α+ωm、k[fmOK、H]×β(但し、1≦k≦Nであり、fmOK、Lは、fmNGより小さくcf[fmOK、L]=1を満たす最大値、fmOK、Hは、fmNGより大きくcf[fmOK、H]=1を満たす最小値、α及びβは重み係数である。)とする。 If it is determined in step S319 that 0 <fm NG <N fm [m], refer to the LSP coefficient of the frame adjacent to fm NG such that 0 ≦ fm ≦ N fm [m]. Then, correction is performed (step S323). For example, ω m, k [fm NG ] = ω m, k [fm OK, L ] × α + ω m, k [fm OK, H ] × β (where 1 ≦ k ≦ N d , fm OK, L Is a maximum value smaller than fm NG and satisfies cf [fm OK, L ] = 1, fm OK, H is a minimum value larger than fm NG and satisfies cf [fm OK, H ] = 1, and α and β are weighting factors ).

ステップS21で、fmNG=Nfm[m]であると判別されたときは、最後尾から2番目以前のフレームを参照して補正を行う(ステップS325)。例えば、ωm、k[fmNG]=ωm、k[fmOK、L](但し、1≦k≦Nであり、fmOK、Lは、fmNGより小さくcf[fmOK、L]=1を満たす最大値である。)とする。 When it is determined in step S21 that fm NG = N fm [m], correction is performed with reference to the second and previous frames from the tail (step S325). For example, ω m, k [fm NG ] = ω m, k [fm OK, L ] (where 1 ≦ k ≦ N d , fm OK, L is smaller than fm NG , cf [fm OK, L ]) = 1 is the maximum value satisfying 1).

学習前スペクトルパラメータ補正部17は、音声データとフレームとを順次更新しつつ上述の補正処理を繰り返す(ステップS315;未完了ならfm←fm+1、ステップS327;未完了ならm←m+1)。一方、更新の継続の結果、全ての音声データの全てのフレームについての処理が終わったら、ループを抜ける(ステップS315;完了、ステップS327;完了)   The pre-learning spectrum parameter correction unit 17 repeats the above correction process while sequentially updating the audio data and the frame (step S315; fm ← fm + 1 if not completed, step S327; m ← m + 1 if not completed). On the other hand, when the processing for all the frames of all the audio data is completed as a result of the continuation of the update, the process exits the loop (step S315; completion, step S327; completion).

学習前スペクトルパラメータ補正部17は、補正済音声スペクトルパラメータデータ列(補正済みLSP係数群の列)を第1音素HMM学習部21に供給する。   The pre-learning spectrum parameter correction unit 17 supplies the corrected speech spectrum parameter data string (corrected LSP coefficient group string) to the first phoneme HMM learning unit 21.

第1音素HMM学習部21は、音素ラベルと補正済みの音声スペクトルパラメータデータ列(補正済LSP係数群の列)とを対応付けて、音素HMMに基づく学習を行う。学習手法自体は、既知の任意手法を採用できる。   The first phoneme HMM learning unit 21 associates the phoneme label with the corrected speech spectrum parameter data string (corrected LSP coefficient group string), and performs learning based on the phoneme HMM. As the learning method itself, a known arbitrary method can be adopted.

学習中スペクトルパラメータ補正部23は、第1音素HMM学習部21から供給された音素HMMについて、後述の具体例に示す補正処理を行って、次段の音素HMM学習部に供給する。   The in-learning spectral parameter correction unit 23 performs correction processing shown in a specific example described later on the phoneme HMM supplied from the first phoneme HMM learning unit 21 and supplies the phoneme HMM to the next phoneme HMM learning unit.

以後、同様の処理が繰り返されて、最終的な音素HMMがデータ書き出し部29に供給され、音声合成辞書33に書き込まれる。   Thereafter, the same processing is repeated, and the final phoneme HMM is supplied to the data writing unit 29 and written into the speech synthesis dictionary 33.

本実施の形態の音声合成辞書構築装置では、学習前スペクトルパラメータ補正部17及び学習中スペクトルパラメータ補正部23において、スペクトルパラメータが生成されるたびに、所定の安定条件を満たすように補正がなされるので、より音質の高い合成音声を出力するのに資する音声合成辞書の構築が達成できる。   In the speech synthesis dictionary construction device of the present embodiment, the pre-learning spectral parameter correction unit 17 and the in-learning spectral parameter correction unit 23 make corrections so as to satisfy a predetermined stability condition each time a spectral parameter is generated. Therefore, the construction of a speech synthesis dictionary that contributes to outputting synthesized speech with higher sound quality can be achieved.

ここまでは、cf[fmNG]=0のとき、1≦k≦Nなる全ての次数kに対して、ωm、k[fmNG]の補正を行うことを想定してきたが、安定条件を満たさない原因となった次数kについてのみωm、k[fmNG]の補正を行ってもよい。 Up to this point, it has been assumed that when cf [fm NG ] = 0, correction of ω m, k [fm NG ] is performed for all orders k satisfying 1 ≦ k ≦ N d. The correction of ω m, k [fm NG ] may be performed only for the order k that caused the condition not to be satisfied.

そのようにすれば、必要な次数kについてのLSP係数の補正は行われ安定条件が満たされる一方、フレームfmNGに属している全てのLSP係数が補正の対象となる場合と異なり、元来安定条件を満たしていた次数kについてのLSP係数は余計な補正を受けずに済むから、より適切な補正が実現される。 In such a case, the LSP coefficient is corrected for the required order k and the stability condition is satisfied. However, unlike the case where all LSP coefficients belonging to the frame fm NG are to be corrected, it is inherently stable. Since the LSP coefficient for the order k that satisfies the condition does not need to be subjected to extra correction, a more appropriate correction is realized.

(学習中補正の具体例1)
第1実施形態に係る音声合成辞書構築装置11における、音素HMM学習部19の内部の具体例を、図4に示すフローチャートを参照して説明する。
(Specific example of correction during learning 1)
A specific example of the inside of the phoneme HMM learning unit 19 in the speech synthesis dictionary construction device 11 according to the first embodiment will be described with reference to the flowchart shown in FIG.

本具体例に係る音声合成辞書構築装置は、音素HMM学習部は、第1〜第5音素HMM学習部と、学習中スペクトルパラメータ補正部と、を備えることを特徴とする。   The speech synthesis dictionary construction device according to this example is characterized in that the phoneme HMM learning unit includes first to fifth phoneme HMM learning units and a learning spectral parameter correction unit.

第1〜第5音素HMM学習部は、それぞれ、モノフォンHMMの初期化学習、モノフォンHMMの再学習、トライフォンHMMの初期化学習、トライフォンHMMの再学習、及び、決定木を用いたクラスタリング処理を担う。   The first to fifth phoneme HMM learning units respectively perform initialization learning of the monophone HMM, re-learning of the monophone HMM, initialization learning of the triphone HMM, re-learning of the triphone HMM, and clustering processing using a decision tree Take on.

モノフォンHMMとして状態数5のHMMを採用する。状態Sは初期状態、状態Sは終了状態であり、いずれの状態もLSP係数を出力しない。LSP係数は、状態S、S、Sから出力される。 An HMM with 5 states is used as the monophone HMM. State S 0 is an initial state and state S 4 is an end state, and neither state outputs an LSP coefficient. LSP coefficients are output from states S 1 , S 2 , S 3 .

第1音素HMM学習部では、音素ラベル列と音声スペクトルパラメータデータ列ωm、k[fm]を学習データとして、音素ラベル毎に、LSP係数に関するモノフォンHMMを初期化学習する(ステップS401)。 The first phoneme HMM learning unit uses the phoneme label string and the speech spectrum parameter data string ω m, k [fm] as learning data to initialize and learn the monophone HMM related to the LSP coefficient for each phoneme label (step S401).

学習結果は、図1に示す学習中スペクトルパラメータ補正部23に引き渡される。   The learning result is delivered to the in-learning spectrum parameter correction unit 23 shown in FIG.

学習中スペクトルパラメータ補正部では、各音素ラベルのLSP係数に関するモノフォンHMMに対して、各状態のLSP係数の平均値ωk、Ave[S](但し、iは1乃至3であり、1≦k≦Nであり、NはLSP係数の次数である。)が安定条件0<ω1、Ave[S]<ω2、Ave[S]<……<ωNd、Ave[S]<πを満たしているか判別する(ステップS425)。判別は、S、S、Sの全てについて行う必要があるので、カウンタiを用いて順次処理する(ステップS423、ステップS429)。 In the learning spectral parameter correction unit, the average value ω k, Ave [S i ] of the LSP coefficients in each state (where i is 1 to 3 and 1 ≦ 1) with respect to the monophone HMM related to the LSP coefficient of each phoneme label k ≦ N d , where N d is the order of the LSP coefficient.) is the stability condition 0 <ω 1, Ave [S i ] <ω 2, Ave [S i ] <…… <ω Nd, Ave [S i ] <π is discriminated (step S425). Since it is necessary to perform discrimination for all of S 1 , S 2 , and S 3 , processing is sequentially performed using the counter i (steps S 423 and S 429).

安定条件が満たされている場合(ステップS425;満たす)には、状態S、S、Sの全てについての処理が終わっていれば(ステップS429;YES)、補正操作を終了する。 If the stability condition is satisfied (step S425; satisfied), the correction operation is ended if the processing for all of the states S 1 , S 2 , and S 3 is completed (step S429; YES).

安定条件が満たされていない場合には(ステップS425;満たさない)、満たすように補正する操作を施す(ステップS427)。   If the stability condition is not satisfied (step S425; not satisfied), an operation of correcting to satisfy is performed (step S427).

補正操作の結果は、第2音素HMM学習部に引き渡される。   The result of the correction operation is delivered to the second phoneme HMM learning unit.

第2音素HMM学習部では、音素ラベル毎に、LSP係数に関するモノフォンHMMを再学習する。   The second phoneme HMM learning unit relearns the monophone HMM related to the LSP coefficient for each phoneme label.

学習結果は、学習中スペクトルパラメータ補正部23に引き渡される。   The learning result is transferred to the in-learning spectrum parameter correction unit 23.

学習中スペクトルパラメータ補正部23は、前記の操作と同様な補正操作を行い、その結果を、第3音素HMM学習部に引き渡す。   The in-learning spectral parameter correction unit 23 performs the same correction operation as described above, and passes the result to the third phoneme HMM learning unit.

第3音素HMM学習部では、トライフォンHMMの初期化学習を行う。すなわち、LSP係数に関するモノフォンHMMを、前後の音素ラベルを考慮したLSP係数に関するトライフォンHMMにコピーし、初期化学習する。   The third phoneme HMM learning unit performs initialization learning of the triphone HMM. That is, the monophone HMM related to the LSP coefficient is copied to the triphone HMM related to the LSP coefficient considering the preceding and following phoneme labels, and is subjected to initialization learning.

トライフォンHMMも、モノフォンHMMと同様に、状態数5のHMMとし、HMM内の各状態におけるLSP係数の平均値をωk、Ave[S]で表すものとする。 Similarly to the monophone HMM, the triphone HMM is an HMM having five states, and the average value of the LSP coefficients in each state in the HMM is represented by ω k, Ave [S i ].

学習結果は、学習中スペクトルパラメータ補正部23に引き渡される。   The learning result is transferred to the in-learning spectrum parameter correction unit 23.

学習中スペクトルパラメータ補正部23は、前記の操作と同様な補正操作を行い、その結果を、第4音素HMM学習部に引き渡す。   The in-learning spectral parameter correction unit 23 performs the same correction operation as described above, and passes the result to the fourth phoneme HMM learning unit.

第4音素HMM学習部では、トライフォンHMMの再学習を行う。   The fourth phoneme HMM learning unit performs relearning of the triphone HMM.

学習結果は、学習中スペクトルパラメータ補正部23に引き渡される。   The learning result is transferred to the in-learning spectrum parameter correction unit 23.

学習中スペクトルパラメータ補正部23は、前記の操作と同様な補正操作を行い、その結果を、第5音素HMM学習部に引き渡す。   The in-learning spectral parameter correction unit 23 performs the same correction operation as described above, and passes the result to the fifth phoneme HMM learning unit.

第5音素学習部では、LSP係数に関するトライフォンHMMに対して、決定木を用いたクラスタリングを行い、学習データ中に存在しない音素ラベルの組み合わせにも対応できるモデルを生成して、再度、LSP係数に関するトライフォンHMMを再学習する。   The fifth phoneme learning unit performs clustering using a decision tree on the triphone HMM related to the LSP coefficient, generates a model that can also deal with combinations of phoneme labels that do not exist in the learning data, and again generates the LSP coefficient. Re-learn triphone HMM for

学習結果は、学習中スペクトルパラメータ補正部23に引き渡される。   The learning result is transferred to the in-learning spectrum parameter correction unit 23.

学習中スペクトルパラメータ補正部は、前記の操作と同様な補正操作を行い、その結果を、図1に示すデータ書き出し部29に引き渡す。   The in-learning spectral parameter correction unit performs a correction operation similar to the above-described operation, and delivers the result to the data writing unit 29 shown in FIG.

このように、音素HMM学習部の内部では、各段階の学習が済む毎に、学習中スペクトルパラメータ補正部により、LSP係数の補正操作が施される。以下では、図5に示すフローチャートを参照して、当該補正操作の具体的な内容を説明する。   In this manner, in the phoneme HMM learning unit, every time learning is completed, the LSP coefficient correction operation is performed by the in-learning spectral parameter correction unit. Below, the specific content of the said correction operation is demonstrated with reference to the flowchart shown in FIG.

モノフォンHMM又はトライフォンHMMの各状態のLSP係数の平均値ωk、Ave[S]を読み出し(ステップS501)、これらに対して、安定条件0<ω1、Ave[S]<ω2、Ave[S]<……<ωNd、Ave[S]<πが満たされているか判別する。 The average values ω k and Ave [S i ] of the LSP coefficients in each state of the monophone HMM or the triphone HMM are read (step S501), and for these, the stability condition 0 <ω 1 and Ave [S i ] <ω 2 , Ave [S i ] <... <Ω Nd, Ave [S i ] <π is determined.

状態S乃至Sの全てについて前記安定条件が満たされている場合(ステップS503;YES、ステップS505;YES、ステップS509;YES)は、補正をせずに、補正操作を終了する。 If the stability condition for all states S 1 to S 3 is satisfied (step S503; YES, Step S505; YES, Step S509; YES), without correction, and terminates the correction operation.

状態Sについては前記安定条件が満たされていないが(ステップS503;NO)、S及びSについては満たさされている場合(ステップS507;YES、ステップS513;YES)は、状態SのLSP係数の平均値ωk、Ave[S]に対しては、
ωk、Ave[S]=ωk、Ave[S](但し、1≦k≦Nとする。)
のように補正し(ステップS521)、状態S及びSに関するLSP係数は補正せずに、補正操作を終了する。
Although the state S 1 is not satisfied the stability condition (step S503; NO), if it is satisfied for the S 2 and S 3 (step S507; YES, Step S513; YES), the state S 1 For the mean value ω k, Ave [S 1 ] of the LSP coefficients,
ω k, Ave [S 1 ] = ω k, Ave [S 2 ] (where 1 ≦ k ≦ N d )
Is corrected (step S521), LSP coefficients for the state S 2 and S 3 as without correction, and terminates the correction operation.

状態Sについては前記安定条件が満たされていないが、S及びSについては満たさされている場合(ステップS503;YES、ステップS505;NO、ステップS511;YES)は、状態SのLSP係数の平均値ωk、Ave[S]に対しては、
ωk、Ave[S]=(ωk、Ave[S]+ωk、Ave[S])/2(但し、1≦k≦N)のように補正し(ステップS519)、状態S及びSに関するLSP係数は補正せずに、補正操作を終了する。
Although the state S 2 has not been met the stability criteria, if it is satisfied for S 1 and S 3 (step S503; YES, Step S505; NO, step S511; YES), the state S 2 LSP For the mean value ω k, Ave [S 2 ] of the coefficients,
ω k, Ave [S 2 ] = (ω k, Ave [S 1 ] + ω k, Ave [S 3 ]) / 2 (where 1 ≦ k ≦ N d ) (step S519) The correction operation is terminated without correcting the LSP coefficients related to S 1 and S 3 .

状態Sについては前記安定条件が満たされていないが、S及びSについては満たさされている場合(ステップS503;YES、ステップS505;YES、ステップS509;NO)は、状態SのLSP係数の平均値ωk、Ave[S]に対しては、
ωk、Ave[S]=ωk、Ave[S](但し、1≦k≦Nとする。)
のように補正し(ステップS517)、状態S及びSに関するLSP係数は補正せずに、補正操作を終了する。
Although the state S 3 is not the stability condition is satisfied, if it is satisfied for S 1 and S 2 (step S503; YES, Step S505; YES, Step S509; NO) is, LSP state S 3 For the mean value ω k, Ave [S 3 ] of the coefficients,
ω k, Ave [S 3 ] = ω k, Ave [S 2 ] (where 1 ≦ k ≦ N d )
Is corrected (step S517), LSP coefficients for the state S 1 and S 2 as uncorrected, and terminates the correction operation.

状態S及び状態Sについては前記安定条件が満たされていないが、Sについては満たさされている場合(ステップS503;NO、ステップS507;NO、ステップS515;YES)は、状態S及び状態SのLSP係数の平均値ωk、Ave[S]及びωk、Ave[S]に対しては、
ωk、Ave[S]=ωk、Ave[S]、ωk、Ave[S]=ωk、Ave[S](但し、1≦k≦Nとする。)
のように補正し(ステップS527)、状態Sに関するLSP係数は補正せずに、補正操作を終了する。
Although the state S 1 and the state S 2 is not the stability condition is satisfied, if it is satisfied for S 3 (step S503; NO, step S507; NO, step S515; YES), the state S 1 and For the mean value ω k, Ave [S 1 ] and ω k, Ave [S 2 ] of the LSP coefficients in state S 2 ,
ω k, Ave [S 1 ] = ω k, Ave [S 3 ], ω k, Ave [S 2 ] = ω k, Ave [S 3 ] (where 1 ≦ k ≦ N d )
Is corrected (step S527), LSP coefficients for the state S 3 as without correction, and terminates the correction operation.

状態S及び状態Sについては前記安定条件が満たされていないが、Sについては満たさされている場合(ステップS503;NO、ステップS507;YES、ステップS513;NO)は、状態S及び状態SのLSP係数の平均値ωk、Ave[S]及びωk、Ave[S]に対しては、
ωk、Ave[S]=ωk、Ave[S]、ωk、Ave[S]=ωk、Ave[S](但し、1≦k≦Nとする。)
のように補正し(ステップS525)、状態Sに関するLSP係数は補正せずに、補正操作を終了する。
Although for the state S 1 and the state S 3 not the stability condition is satisfied, if it is satisfied for S 2 (step S503; NO, step S507; YES, Step S513; NO), the state S 1 and For the mean value ω k, Ave [S 1 ] and ω k, Ave [S 3 ] of the LSP coefficients in state S 3 ,
ω k, Ave [S 1 ] = ω k, Ave [S 2 ], ω k, Ave [S 3 ] = ω k, Ave [S 2 ] (where 1 ≦ k ≦ N d )
Is corrected (step S525), LSP coefficients for the state S 2 as uncorrected, and terminates the correction operation.

状態S及び状態Sについては前記安定条件が満たされていないが、Sについては満たされている場合(ステップS503;YES、ステップS505;NO、ステップS511;NO)は、状態S及び状態SのLSP係数の平均値ωk、Ave[S]及びωk、Ave[S]に対しては、
ωk、Ave[S]=ωk、Ave[S]、ωk、Ave[S]=ωk、Ave[S](但し、1≦k≦Nとする。)
のように補正し(ステップS523)、状態Sに関するLSP係数は補正せずに、補正操作を終了する。
Although for the state S 2, and the state S 3 not the stability condition is satisfied, if it is satisfied for S 1 (step S503; YES, Step S505; NO, step S511; NO), the state S 2 and For the mean value ω k, Ave [S 2 ] and ω k, Ave [S 3 ] of LSP coefficients in state S 3 ,
ω k, Ave [S 2 ] = ω k, Ave [S 1 ], ω k, Ave [S 3 ] = ω k, Ave [S 1 ] (where 1 ≦ k ≦ N d )
Is corrected (step S523), LSP coefficients for the state S 1 as without correction, and terminates the correction operation.

状態S乃至Sについて前記安定条件が満たされていない場合(ステップS503;NO、ステップS507;NO、ステップS515;NO)は、学習前の状態に戻して(ステップS529)、補正操作を終了する。 If the stability condition for the state S 1 to S 3 is not satisfied (step S503; NO, step S507; NO, step S515; NO) is returned to the pre-learning state (step S529), ends the correction operation To do.

(学習中補正の具体例2)
前記具体例においては、安定条件が満たされていない場合に行われる補正操作は、LSP係数の全ての次数k、すなわち1≦k≦Nなる全てのkについて行われる。これに対し、本実施例においては、安定条件を満たさない原因となった次数kについてのみ行う。
(Specific example 2 of correction during learning)
In the specific example, the correction operation performed when the stability condition is not satisfied is performed for all orders k of the LSP coefficient, that is, all k satisfying 1 ≦ k ≦ N d . On the other hand, in the present embodiment, only the order k that causes the stability condition not to be satisfied is performed.

このように補正対象を限定することにより、本来補正の必要のなかった次数kに関してまで補正が行われてしまうことを防ぐことができ、結果として、第4実施例に係る音声合成辞書構築装置により構築される音声合成辞書よりも、高音質な合成音声の出力に資する音声合成辞書の構築が達成される。   By limiting the correction target in this way, it is possible to prevent the correction from being performed up to the order k that originally did not need to be corrected. As a result, the speech synthesis dictionary construction device according to the fourth embodiment The construction of a speech synthesis dictionary that contributes to the output of synthesized speech with higher sound quality than the constructed speech synthesis dictionary is achieved.

(学習中補正の具体例3)
本実施例では、具体例1におけるLSP係数の補正に加えて、HMM内の各状態におけるLSP係数の分散値ωk、Var[S]に対して、所定の適切性判別基準を課し、不適切な値を有する次数kの分散値に対しては、適切な値に補正する操作を加える。
(Specific example 3 of correction during learning)
In the present embodiment, in addition to the correction of the LSP coefficient in the specific example 1, a predetermined appropriateness determination criterion is imposed on the variance value ω k, Var [S i ] of the LSP coefficient in each state in the HMM, For the variance value of the order k having an inappropriate value, an operation for correcting to an appropriate value is added.

(実施形態2)
本実施例に係る音声合成辞書構築装置は、第1実施例に係る音声合成辞書構築装置において、学習前スペクトルパラメータ補正部を省略することを特徴とする、音声合成辞書構築装置である。
(Embodiment 2)
The speech synthesis dictionary construction device according to the present embodiment is a speech synthesis dictionary construction device in which the pre-learning spectrum parameter correction unit is omitted in the speech synthesis dictionary construction device according to the first embodiment.

音素HMM学習部19の内部で学習中スペクトルパラメータ補正部23により補正が繰り返されるため、本実施例に係る音声合成辞書構築装置により構築された音声合成辞書を音声合成装置に用いた場合、従来の音声合成辞書構築装置により構築された音声合成辞書を音声合成装置に用いた場合に比べて、高音質の合成音声の出力が達成される。   Since the correction is repeated by the in-learning spectral parameter correction unit 23 inside the phoneme HMM learning unit 19, when the speech synthesis dictionary constructed by the speech synthesis dictionary construction device according to the present embodiment is used for the speech synthesis device, Compared to the case where the speech synthesis dictionary constructed by the speech synthesis dictionary construction device is used in the speech synthesis device, the output of the synthesized speech with high sound quality is achieved.

学習前スペクトルパラメータ補正部が省略されているため、本実施例に係る音声合成辞書構築装置により構築された音声合成辞書を音声合成装置に用いた場合、第1実施例に係る音声合成辞書構築装置により構築された音声合成辞書を音声合成装置に用いた場合に比べて、出力される合成音声の品質は劣る。   Since the pre-learning spectrum parameter correction unit is omitted, when the speech synthesis dictionary constructed by the speech synthesis dictionary construction device according to the present embodiment is used for the speech synthesis device, the speech synthesis dictionary construction device according to the first embodiment Compared with the case where the speech synthesis dictionary constructed by the above is used in a speech synthesizer, the quality of the synthesized speech output is inferior.

しかし、学習前スペクトルパラメータ補正部を省略することにより、本実施例に係る音声合成辞書構築装置は、第1実施例に係る音声合成辞書構築装置に比べて、構造が単純になるというメリットがある。   However, by omitting the pre-learning spectrum parameter correction unit, the speech synthesis dictionary construction device according to the present embodiment has an advantage that the structure is simpler than the speech synthesis dictionary construction device according to the first embodiment. .

なお、この発明は、条規実施形態に限定されず、種々の変形及び応用が可能である。例えば、上述のハードウェア構成やブロック構成、フローチャートは例示であって、限定されるものではない。また、この発明は、音声合成辞書構築装置に限定されるものではなく、任意のコンピュータを用いて構築可能である。例えば、上述の処理をコンピュータに実行させるためのコンピュータプログラムを記録媒体や通信により配布し、これをコンピュータにインストールして実行させることにより、この発明の音声合成辞書構築装置として機能させることも可能である。   In addition, this invention is not limited to rule embodiment, A various deformation | transformation and application are possible. For example, the above-described hardware configuration, block configuration, and flowchart are examples, and are not limited. The present invention is not limited to the speech synthesis dictionary construction device, and can be constructed using any computer. For example, by distributing a computer program for causing a computer to execute the above-described processing through a recording medium or communication, and installing and executing the computer program on the computer, the computer can function as the speech synthesis dictionary construction device of the present invention. is there.

本発明による音声合成辞書構築装置及び方法の概要構成図である。It is a schematic block diagram of the speech synthesis dictionary construction apparatus and method by this invention. 実施形態1に係る音声合成辞書構築装置の物理的な構成を示す図である。It is a figure which shows the physical structure of the speech synthesis dictionary construction apparatus which concerns on Embodiment 1. FIG. 学習前補正における動作の流れを示すフローチャートである。It is a flowchart which shows the flow of operation | movement in the correction before learning. 第1音素HMM学習部における学習の流れを示すフローチャートである。It is a flowchart which shows the flow of learning in a 1st phoneme HMM learning part. 学習中補正における動作の流れを示すフローチャートである。It is a flowchart which shows the flow of operation | movement in correction | amendment during learning.

符号の説明Explanation of symbols

11・・・音声合成辞書構築装置、13・・・データ取り出し部、15・・・スペクトル分析部、17・・・学習前スペクトルパラメータ補正部、19・・・音素HMM学習部、21・・・第1音素HMM学習部、23・・・学習中スペクトルパラメータ補正部、25・・・第2音素HMM学習部、27・・・第N音素HMM学習部、29・・・データ書き出し部、31・・・音声データベース、33・・・音声合成辞書、41・・・コンピュータ装置、43・・・CPU、45・・・ROM、47・・・記憶部、49・・・ユーザI/F、51・・・データ入出力I/F、55・・・元データ入りハードディスク、57・・・処理済データ記録用ハードディスク、61・・・キーボード、63・・・モニタ、65・・・RAM、67・・・ハードディスク、71・・・バス DESCRIPTION OF SYMBOLS 11 ... Speech synthesis dictionary construction apparatus, 13 ... Data extraction part, 15 ... Spectrum analysis part, 17 ... Pre-learning spectrum parameter correction part, 19 ... Phoneme HMM learning part, 21 ... 1st phoneme HMM learning unit, 23... Learning spectral parameter correction unit, 25... 2nd phoneme HMM learning unit, 27... Nth phoneme HMM learning unit, 29. .. Voice database, 33... Speech synthesis dictionary, 41... Computer device, 43... CPU, 45... ROM, 47. Data input / output I / F, 55: Hard disk with original data, 57: Hard disk for recording processed data, 61: Keyboard, 63: Monitor, 65 ... RAM, 67・Dodisuku, 71 ... bus

Claims (5)

音声データに対してLSP分析を施して多次元のLSP(Line Spectrum Pair)係数を含むLSP係数群時系列データを生成するLSP係数群時系列データ生成部と、
前記LSP係数群時系列データ生成部により生成された前記LSP係数群時系列データに、所定の安定条件を満たすように、補正処理を施す学習前スペクトルパラメータ補正部と、
音素ラベル列と前記学習前スペクトルパラメータ補正部から出力された前記補正済LSP係数群時系列データを受け取り、隠れマルコフモデルに基づく学習により音素ラベル毎に音素HMMを対応させる音素HMM学習を複数段階行う音素HMM学習部と、
前記音素HMM学習部の各段階での音素HMM学習において得られた音素ラベル毎に対応付けられた音素HMMを定義するLSP係数について、所定の安定条件を満たすように補正処理を施して、次段の音素HMM学習に引き渡す学習中スペクトルパラメータ補正部と、
前記音素HMM学習部によって対応付けられた音素ラベルと音素HMMとを音声合成辞書に記録するデータ書き出し部と、
を備えることを特徴とする音声合成辞書構築装置。
An LSP coefficient group time series data generating unit that performs LSP analysis on voice data and generates LSP coefficient group time series data including multidimensional LSP (Line Spectrum Pair) coefficients;
A pre-learning spectral parameter correction unit that performs a correction process on the LSP coefficient group time-series data generated by the LSP coefficient group time-series data generation unit so as to satisfy a predetermined stability condition;
The phoneme label sequence and the corrected LSP coefficient group time-series data output from the pre-learning spectrum parameter correction unit are received, and phoneme HMM learning is performed in a plurality of stages by associating the phoneme HMM for each phoneme label by learning based on the hidden Markov model. A phoneme HMM learning unit;
The LSP coefficient defining the phoneme HMM associated with each phoneme label obtained in the phoneme HMM learning at each stage of the phoneme HMM learning unit is subjected to correction processing so as to satisfy a predetermined stability condition. A learning spectral parameter correction unit that is handed over to the phoneme HMM learning of
A data writing unit for recording a phoneme label and a phoneme HMM associated by the phoneme HMM learning unit in a speech synthesis dictionary;
A speech synthesis dictionary construction device comprising:
前記補正処理は、LSP係数群について、前記所定の安定条件を満たすか否かを判別し、満たしていない場合に、前記所定の安定条件を満たすようなLSP係数群に置換する処理から構成される、
ことを特徴とする請求項1に記載の音声合成辞書構築装置。
The correction process, for LSP coefficient group, to determine whether the predetermined stability condition is satisfied, if not satisfied, and a process of replacing the LSP coefficient group that satisfies predetermined stability condition ,
The speech synthesis dictionary construction apparatus according to claim 1.
前記補正処理は、LSP係数群について、前記所定の安定条件を満たすような係数群に置換する処理から構成され、
前記所定の安定条件とは、LSP係数が、全て0より大きくπより小さく、かつ、当該係数の次元の昇順に並べた場合に、小さい順に並ぶことである、
ことを特徴とする請求項1に記載の音声合成辞書構築装置。
The correction process includes a process of replacing the LSP coefficient group with a coefficient group that satisfies the predetermined stability condition,
The predetermined stability condition is that LSP coefficients are all larger than 0 and smaller than π, and are arranged in ascending order when the coefficients are arranged in ascending order.
The speech synthesis dictionary construction apparatus according to claim 1.
音声データに対してLSP分析を施して多次元のLSP(Line Spectrum Pair)係数を含むLSP係数群時系列データを生成し、
生成された前記LSP係数群時系列データに、所定の安定条件を満たすように、補正処理を施し、
音素ラベル列と前記補正済LSP係数群時系列データを受け取り、隠れマルコフモデルに基づく学習により音素ラベル毎に音素HMMを対応させる音素HMM学習を複数段階行い、
前記音素HMM学習において、各段階での音素HMM学習で得られた音素ラベル毎に対応付けられた音素HMMを定義するLSP係数について、所定の安定条件を満たすように補正処理を施して、次段の音素HMM学習に引き渡し、
対応付けられた音素ラベルと音素HMMとを音声合成辞書に記録する、
ことを特徴とする音声合成辞書構築方法。
LSP analysis is performed on voice data to generate LSP coefficient group time series data including multidimensional LSP (Line Spectrum Pair) coefficients,
A correction process is performed on the generated LSP coefficient group time series data so as to satisfy a predetermined stability condition,
Receiving a phoneme label sequence and the corrected LSP coefficient group time-series data, and performing phoneme HMM learning to associate a phoneme HMM for each phoneme label by learning based on a hidden Markov model;
In the phoneme HMM learning, the LSP coefficient defining the phoneme HMM associated with each phoneme label obtained by the phoneme HMM learning in each step is subjected to correction processing so as to satisfy a predetermined stability condition, and the next step Handed over to phoneme HMM learning
Record the associated phoneme label and the phoneme HMM in the speech synthesis dictionary;
A speech synthesis dictionary construction method characterized by that.
コンピュータに、
音声データに対してLSP分析を施して多次元のLSP(Line Spectrum Pair)係数を含むLSP係数群時系列データを生成し、
生成された前記LSP係数群時系列データに、所定の安定条件を満たすように、補正処理を施し、
音素ラベル列と前記補正済LSP係数群時系列データを受け取り、隠れマルコフモデルに基づく学習により音素ラベル毎に音素HMMを対応させる音素HMM学習を複数段階行い、
前記音素HMM学習において、各段階での音素HMM学習で得られた音素ラベル毎に対応付けられた音素HMMを定義するLSP係数について、所定の安定条件を満たすように補正処理を施して、次段の音素HMM学習に引き渡し、
対応付けられた音素ラベルと音素HMMとを音声合成辞書に記録する、
処理を実行させるためのコンピュータプログラム。
On the computer,
LSP analysis is performed on voice data to generate LSP coefficient group time series data including multidimensional LSP (Line Spectrum Pair) coefficients,
A correction process is performed on the generated LSP coefficient group time series data so as to satisfy a predetermined stability condition,
Receiving a phoneme label sequence and the corrected LSP coefficient group time-series data, and performing phoneme HMM learning to associate a phoneme HMM for each phoneme label by learning based on a hidden Markov model;
In the phoneme HMM learning, the LSP coefficient defining the phoneme HMM associated with each phoneme label obtained by the phoneme HMM learning in each step is subjected to correction processing so as to satisfy a predetermined stability condition, and the next step Handed over to phoneme HMM learning
Record the associated phoneme label and the phoneme HMM in the speech synthesis dictionary;
A computer program for executing processing.
JP2006115992A 2006-04-19 2006-04-19 Speech synthesis dictionary construction device, speech synthesis dictionary construction method, and program Active JP5228283B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006115992A JP5228283B2 (en) 2006-04-19 2006-04-19 Speech synthesis dictionary construction device, speech synthesis dictionary construction method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006115992A JP5228283B2 (en) 2006-04-19 2006-04-19 Speech synthesis dictionary construction device, speech synthesis dictionary construction method, and program

Publications (2)

Publication Number Publication Date
JP2007286511A JP2007286511A (en) 2007-11-01
JP5228283B2 true JP5228283B2 (en) 2013-07-03

Family

ID=38758307

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006115992A Active JP5228283B2 (en) 2006-04-19 2006-04-19 Speech synthesis dictionary construction device, speech synthesis dictionary construction method, and program

Country Status (1)

Country Link
JP (1) JP5228283B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5717097B2 (en) * 2011-09-07 2015-05-13 独立行政法人情報通信研究機構 Hidden Markov model learning device and speech synthesizer for speech synthesis
KR101125859B1 (en) 2011-09-27 2012-03-28 주식회사 스마트송 System and method for synthesizing speech using index of sound source vector
CN113223503B (en) * 2020-04-29 2022-06-14 浙江大学 Core training voice selection method based on test feedback

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2993396B2 (en) * 1995-05-12 1999-12-20 三菱電機株式会社 Voice processing filter and voice synthesizer
JPH10254350A (en) * 1997-03-13 1998-09-25 Mitsubishi Electric Corp Speech recognition device
JP3842432B2 (en) * 1998-04-20 2006-11-08 株式会社東芝 Vector quantization method
JP2000242298A (en) * 1999-02-24 2000-09-08 Mitsubishi Electric Corp Lsp correcting device, voice encoding device, and voice decoding device
JP2002062890A (en) * 2000-08-18 2002-02-28 Seiko Epson Corp Method and device for speech synthesis and recording medium which records voice synthesis processing program
JP2002123280A (en) * 2000-10-16 2002-04-26 Seiko Epson Corp Speech synthesis method, speech synthesizer, and recording medium recording speech synthesis processing program

Also Published As

Publication number Publication date
JP2007286511A (en) 2007-11-01

Similar Documents

Publication Publication Date Title
CN110556100B (en) Training method and system of end-to-end speech recognition model
US8401847B2 (en) Speech recognition system and program therefor
JP4103639B2 (en) Acoustic model creation method, acoustic model creation device, and speech recognition device
US6490555B1 (en) Discriminatively trained mixture models in continuous speech recognition
JP2004109464A (en) Device and method for speech recognition
CN110737764A (en) personalized dialogue content generating method
JP2002500779A (en) Speech recognition system using discriminatively trained model
JP6103564B2 (en) Pattern recognition apparatus and pattern recognition method
CN101548285A (en) Automatic speech recognition method and apparatus
JPH0962291A (en) Pattern adaptive method using describing length minimum reference
JP5228283B2 (en) Speech synthesis dictionary construction device, speech synthesis dictionary construction method, and program
US6173076B1 (en) Speech recognition pattern adaptation system using tree scheme
CN113191133B (en) Audio text alignment method and system based on Doc2Vec
JP6027754B2 (en) Adaptation device, speech recognition device, and program thereof
JP5184467B2 (en) Adaptive acoustic model generation apparatus and program
JP7359028B2 (en) Learning devices, learning methods, and learning programs
JP2570448B2 (en) Standard pattern learning method
JPH0895592A (en) Pattern recognition method
JP4760471B2 (en) Speech synthesis dictionary construction device, speech synthesis dictionary construction method, and program
Calvo et al. A multilingual SLU system based on semantic decoding of graphs of words
Tian et al. End-to-end speech recognition with Alignment RNN-Transducer
JPH0822296A (en) Pattern recognition method
JPH1097270A (en) Speech recognition device
JP2705537B2 (en) Speaker learning device
JP2003022091A (en) Method, device, and program for voice recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090402

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110309

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110607

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110801

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120529

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120723

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130304

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160329

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5228283

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150