JPH01197799A - Articulation and sound source parameter producing method for sound synthesizer - Google Patents

Articulation and sound source parameter producing method for sound synthesizer

Info

Publication number
JPH01197799A
JPH01197799A JP63022487A JP2248788A JPH01197799A JP H01197799 A JPH01197799 A JP H01197799A JP 63022487 A JP63022487 A JP 63022487A JP 2248788 A JP2248788 A JP 2248788A JP H01197799 A JPH01197799 A JP H01197799A
Authority
JP
Japan
Prior art keywords
sound source
parameter
waveform
section
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63022487A
Other languages
Japanese (ja)
Inventor
Norio Suda
典雄 須田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Original Assignee
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Meidensha Corp, Meidensha Electric Manufacturing Co Ltd filed Critical Meidensha Corp
Priority to JP63022487A priority Critical patent/JPH01197799A/en
Publication of JPH01197799A publication Critical patent/JPH01197799A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE:To obtain articulation and sound source parameters which are close to actual sounds by finding the sound source parameters from the response data of the input side of a digital filter having an optionally set articulating parameter when actual sound data are given from the output side of the filter. CONSTITUTION:When a sound source (syllable or phoneme) is commanded, a control section 16 designates the sound source to a sound reading-out section 12 and, at the same time, sets sectional-area factor data corresponding to the sound source in a digital filter calculating section 13 and registers the data in a parameter registering section 15. Upon receiving the designation of the sound source, the section 12 reads out the sampling data of the sound source and successively gives the data to the output side of the calculating section 13. The section 13 performs calculation in accordance with a calculation formula decided from an equivalent circuit and the set sectional-area factor and outputs sampling data having the waveform of the sound source against the waveform of the inputted sounds. A parameter calculating section 14 registers a sound source parameter in the parameter registering section 15 against the data.

Description

【発明の詳細な説明】 A、産業上の利用分野 本発明は、規則合成方式による音声合成装置に係り、特
に調音パラメータと音源パラメータの生成方法に関する
DETAILED DESCRIPTION OF THE INVENTION A. Field of Industrial Application The present invention relates to a speech synthesis device using a rule synthesis method, and particularly to a method for generating articulatory parameters and sound source parameters.

B1発明の概要 本発明は、音節又は音素に対応づけた調音パラメータ及
び音源パラメータを生成するにおいて、任意設定した調
音パラメータを持つディジタルフィルタの出力側から実
音声データを与えたときの該フィルタの入力側応答デー
タから音源パラメータを求め、このときの調音パラメー
タとの組合せで当該音節又は音素の合成でのパラメータ
とすることにより、 ディジタルフィルタの簡単化及び音源パラメータ生成の
簡単化を図りながら音声品質を向上できるようにしたも
のである。
B1 Summary of the Invention The present invention provides a method for generating articulatory parameters and sound source parameters associated with syllables or phonemes, when real speech data is given from the output side of a digital filter having arbitrarily set articulatory parameters. By determining the sound source parameters from the side response data and using them in combination with the articulatory parameters at this time as parameters for synthesis of the syllable or phoneme, it is possible to improve speech quality while simplifying the digital filter and sound source parameter generation. This is something that can be improved.

C0従来の技術 規則合成方式による音声合成装置は、例えば第3図に示
す構成にされる。文章解析部lは日本語入力テキストの
文字列に対して辞書1aと文章解析装置、tbによる文
章解析を行う。辞書1aには単語の読みがな変換のため
の辞書のほかに単語の文節区切1句区切等のための日本
語文法辞書を有し、さらには単語のアクセントや基本イ
ントネーションの規則辞書を有する。文章解析装置!b
は辞書1aを参照して入力テキストを音素あるいは音節
の音韻記号列に変換すると共に、単語アクセントや基本
イントネーション等の韻律情報を発生する。
C0 A speech synthesis apparatus using a conventional technical rule synthesis method has a configuration shown in FIG. 3, for example. The text analysis unit 1 performs text analysis on a character string of a Japanese input text using a dictionary 1a and a text analysis device tb. In addition to a dictionary for converting the pronunciation of words, the dictionary 1a has a Japanese grammar dictionary for dividing words into clauses and phrases, and also has a dictionary of rules for word accents and basic intonation. Sentence analysis device! b
converts the input text into a phoneme symbol string of phonemes or syllables with reference to the dictionary 1a, and also generates prosodic information such as word accents and basic intonation.

音声合成規則部2は、ファイル2aとパラメータ生成装
置2bによって構成される。ファイル2aは音韻単位の
特徴パラメータとそれらの接続規則及び韻律情報の制御
規則を蓄積しておく。パラメータ生成装置2bは音韻情
報に対する特徴パラメータをその持続時間等の情報と共
に連結した制御パラメータ列を生成すると共に、韻律情
報による音源のピッチ、エネルギー、イントネーション
処理を施した音源パターン列を生成する。
The speech synthesis rule section 2 is composed of a file 2a and a parameter generation device 2b. The file 2a stores feature parameters of phoneme units, their connection rules, and prosodic information control rules. The parameter generation device 2b generates a control parameter sequence in which feature parameters for phoneme information are linked together with information such as its duration, and also generates a sound source pattern sequence in which pitch, energy, and intonation processing of the sound source is processed using prosody information.

音声生成部3は、音源生成装置3aと音声合成ディジタ
ルフィルタ3bと音声変換器3cとによって構成される
。音源生成装置3aは、音源パターン列に従ったピッチ
、エネルギー等の音源信号を発生する。ディジタルフィ
ルタ3bは制御パラメータ列に従ってパーコール係数や
伝達関数又はフォルマント周波数のパラメータが変えら
れ、このパラメータでの音源信号に対する応答出力に合
成音声データ列を得る。音声変換器3cはフィルタ3b
の出力をアナログ信号に変換して音声波形を得、スピー
カ等の電気−音変換手段による合成音声を出力する。
The speech generation section 3 is composed of a sound source generation device 3a, a speech synthesis digital filter 3b, and a speech converter 3c. The sound source generation device 3a generates sound source signals such as pitch and energy according to the sound source pattern sequence. In the digital filter 3b, the parameters of the Percoll coefficient, transfer function, or formant frequency are changed according to the control parameter string, and a synthesized speech data string is obtained as a response output to the sound source signal with these parameters. The audio converter 3c is a filter 3b
The output of the converter is converted into an analog signal to obtain an audio waveform, and synthesized audio is output by an electro-sound conversion means such as a speaker.

上述のような音声合成装置において、音声波形の生成に
は音源の生成と声道形による調音に分離し、音源及び調
音が電気的等価回路にモデル化される。例えば、音源に
は2質量モデルによる声帯振動モデルを求め、調音には
声道断面積モデルや調音器官の構造とその運動上の特性
を直接的に求める調音モデルが求められる。こうしたモ
デル化による音声の特徴パラメータが求められるが、音
声の特徴パラメータを求めるのに音声波形を直接扱う代
わりに音声スペクトルによる分析から求められる。例え
ば、音声の短時間スペクトルは周波数と共にゆるやかに
変化するスペクトル包絡と、細かく周期的(有声音)又
は非周期的(無声音)に変化するスペクトル微細構造に
分解される。スペクトル包絡は発声器官の共振・反共振
特性等の大局的なものに相当し、スペクトル微細構造は
音源の周期性に相当する。そして、スペクトル包絡の抽
出には、自己相関関数分析やケプストラム分析によるノ
ンパラメトリック分析法か、又はABSや線形予測分析
(パーコール分析、LSP分析等)によるパラメトリッ
ク分析法が使用される。
In the speech synthesis device as described above, generation of a speech waveform is separated into sound source generation and articulation based on vocal tract shape, and the sound source and articulation are modeled in an electrical equivalent circuit. For example, a vocal cord vibration model using a two-mass model is required for a sound source, and a vocal tract cross-sectional area model and an articulation model that directly determines the structure of the articulatory organ and its motion characteristics are required for articulation. Speech characteristic parameters are determined by such modeling, but instead of directly handling the voice waveform, the voice characteristic parameters are determined by analyzing the voice spectrum. For example, the short-time spectrum of speech is decomposed into a spectral envelope that changes slowly with frequency and a spectral fine structure that changes finely periodically (voiced sounds) or aperiodically (unvoiced sounds). The spectral envelope corresponds to the overall resonance and anti-resonance characteristics of the vocal organs, and the spectral fine structure corresponds to the periodicity of the sound source. To extract the spectral envelope, a nonparametric analysis method using autocorrelation function analysis or cepstral analysis, or a parametric analysis method using ABS or linear predictive analysis (Percoll analysis, LSP analysis, etc.) is used.

また、スペクトル微細構造のうち、音源の基本周波数(
ピッチ)の抽出には相関処理やスペクトル処理方法が使
用される。
Also, among the spectral fine structures, the fundamental frequency of the sound source (
Correlation processing and spectral processing methods are used to extract pitch).

また、調音の特徴パラメータを求めるのに、声道をその
断面積変化を多数の一次元音響管の縦続接続と見なして
各音響管での前向き進行波と後向き進行波の線形結合で
表して面積比と反射係数で記述するモデル化や共振周波
数(フォルマント周波数)と振幅スペクトル特性で記述
するモデル化が行われる。さらには調音器官の構造とそ
の運動上の特性を直接的に表したモデル化が行われる。
In addition, to find the characteristic parameters of articulation, we consider the change in the cross-sectional area of the vocal tract as a cascade of many one-dimensional acoustic tubes, and express it as a linear combination of forward traveling waves and backward traveling waves in each acoustic tube. Modeling is performed using ratios and reflection coefficients, and modeling using resonance frequencies (formant frequencies) and amplitude spectrum characteristics. Furthermore, a model that directly represents the structure of the articulatory organ and its motion characteristics will be created.

D1発明が解決しようとする課題 従来、音声の特徴パラメータを求める種々の方法は、線
形予測分析法に代表されるように、音声波形やスペクト
ルの性質を少数のパラメータで能率的かつ正確に求めよ
うとするしのであるが、実際に出力される合成音には実
音声に較べて明瞭性。
D1 Problem to be Solved by the Invention Conventionally, various methods for determining voice characteristic parameters, as typified by linear predictive analysis, have attempted to efficiently and accurately determine the characteristics of voice waveforms and spectra using a small number of parameters. However, the synthesized sound that is actually output has less clarity than real speech.

自然性に著しく劣るものになる。これは、例えばABS
法や線形予測分析法では信号の生成モデルにより生成さ
れた値と観測値との誤差(予測残差)が最小となるよう
なパラメータをフィードバック制御により求めるもので
あるが、仮定する生成モデルと複雑に変化する声帯振動
や声道形との差が大きく、完全な分析1合成になし得な
いことに因る。
It becomes significantly less natural. This is for example ABS
The method and linear predictive analysis method use feedback control to find parameters that minimize the error (prediction residual) between the value generated by the signal generation model and the observed value. This is because there are large differences between vocal fold vibration and vocal tract shape that change, and it is impossible to perform complete analysis and synthesis.

また、従来ではパラメータを求めるのに何回ものフィー
ドバック制御を必要とし、情報処理量が非常に多くなる
問題があった。この問題において、モデル化を細密にす
るほど著しく情報処理量を多くするし、必要な記憶容量
を増大させる。
Furthermore, conventional methods require feedback control many times to obtain parameters, resulting in a problem of an extremely large amount of information processing. In this problem, the more detailed the modeling is, the more the amount of information processing increases, and the required storage capacity increases.

本発明の目的は、情報処理量を少なくしながら実音声に
近づけた調音パラメータ及び音源パラメータを得ること
ができる調音・音源パラメータ生成方法を提供するにあ
る。
An object of the present invention is to provide an articulatory/sound source parameter generation method that can obtain articulatory parameters and sound source parameters that approximate actual speech while reducing the amount of information processing.

60課題を解決するための手段 本発明は上記目的を達成するため、音声波形の生成に音
源の生成と声道断面積による調音に分離し、音源パラメ
ータにより音源波形を生成し、調音パラメータによる声
道断面積のディジタルフィルタに音源波形を与えて該フ
ィルタの出力に音声信号を得る規則合成方式の音声合成
装置において、音節又は音素に対応づけて任意に設定し
た調音パラメータにより前記ディジタルフィルタの声道
断面積係数を固定させ、該フィルタの出力側に実音節又
は実音素波形を与えたときの該フィルタの入力側に表れ
る信号波形から音源パラメータを求め、該音源パラメー
タ及び前記調音パラメータを対応する音節又は音素のパ
ラメータとすることを特徴とする。
60 Means for Solving the Problems In order to achieve the above object, the present invention separates sound waveform generation into sound source generation and articulation based on vocal tract cross-sectional area, generates a sound source waveform based on sound source parameters, and generates voice based on articulatory parameters. In a speech synthesizer using a regular synthesis method, which applies a sound source waveform to a digital filter with a cross-sectional area of the vocal tract and obtains a speech signal as the output of the filter, the vocal tract of the digital filter is When the cross-sectional area coefficient is fixed and a real syllable or real phoneme waveform is given to the output side of the filter, a sound source parameter is determined from the signal waveform appearing on the input side of the filter, and the sound source parameter and the articulatory parameter are converted to the corresponding syllable. Or, it is characterized in that it is a parameter of a phoneme.

F1作用 ディジタルフィルタとして声道断面積関数を採用すると
きにはその入力に対する応答出力を求めるのとは逆に、
出力側の波形から人力波形を求めることができる。これ
を以下に詳細に説明する。
When adopting a vocal tract cross-sectional area function as an F1 effect digital filter, contrary to finding the response output to its input,
The manual waveform can be determined from the output waveform. This will be explained in detail below.

声道による調音は、音源波形に対して断面積の異なる複
数個の音響管を縦続接続した一次元音響管での進行波と
反射波による振動現象として見なすことができる。そし
て、音響管は声道の長さ、太さと音波長との関係から分
布定数系として取り扱うのが適切となり、また音源の伝
搬損失は無視できる。
Articulation by the vocal tract can be viewed as a vibration phenomenon caused by traveling waves and reflected waves in a one-dimensional acoustic tube, which is a cascade of multiple acoustic tubes with different cross-sectional areas relative to the sound source waveform. It is appropriate to treat the acoustic tube as a distributed constant system due to the relationship between the length and thickness of the vocal tract and the sound wave length, and the propagation loss of the sound source can be ignored.

上述のことから、声道を断面積A、〜Anを持つn個の
一次元音響管を縦続接続した第2図(ア)の等価モデル
で表し、各音響管S、−SnをLC成分のみの無損失分
布定数線路T、〜Tnと見なすと同図(イ)の電気回路
に変換され、この電気回路に音源に代えたインパルス性
の電圧又は電流信号を印加したときの出力波形が音声波
形に相当する応答出力と見なすことができる。そして、
声道の調音状態を変えるには各線路T、〜T、、の定数
り。
From the above, the vocal tract is represented by the equivalent model shown in Figure 2 (A) in which n one-dimensional acoustic tubes with cross-sectional areas A, ~An are connected in cascade, and each acoustic tube S, -Sn is represented by the LC component only. When considered as lossless distributed constant lines T, ~Tn, it is converted to the electric circuit shown in the same figure (a), and the output waveform when an impulsive voltage or current signal instead of a sound source is applied to this electric circuit is the audio waveform. It can be considered as a response output corresponding to . and,
To change the articulatory state of the vocal tract, the constants of each line T, ~T,, etc. are required.

C全変えることによるサージインピーダンスの変更にな
る。
By changing C completely, the surge impedance will be changed.

同図(イ)の等価回路において、音源に代えたインパル
ス性の電流を印加したとき、各線路T。
In the equivalent circuit of the same figure (a), when an impulsive current is applied in place of the sound source, each line T.

〜Trlは夫々サージインピーダンスZ1〜Z、を内部
抵抗とする電流源を持ち、各線路T I””’ T−の
接続点で反射と透過を伴う等価回路に変換される。
~Trl each has a current source whose internal resistance is the surge impedance Z1~Z, and is converted into an equivalent circuit with reflection and transmission at the connection point of each line T I""' T-.

この等価回路は同図(つ)に示すようになる。同図にお
いて、Eは音源に相当する電圧源電圧、Z。
This equivalent circuit is shown in the same figure. In the figure, E is the voltage source voltage corresponding to the sound source, and Z is the voltage source voltage corresponding to the sound source.

はその出力インピーダンス、ZLは口唇からの放射イン
ピーダンス、i OA−i (1%−11A  は線路
T。
is its output impedance, ZL is the radiation impedance from the lips, i OA-i (1%-11A is the line T.

〜Tnの各接続点の前進波電流、foe〜Ln−++a
は各接続点の後進波電流、Z I〜Znは夫々断面積A
t〜Anと空気密度ρと音速CからρC/Al〜ρC/
Anになるサージインピーダンス、IOA〜1111−
+1A  及びI IB−1nBは線路T、−Tnの接
続点に現れる電流源電流&。6〜a (n−+lA及び
ale〜ansは電流源の分流電流である。
~Forward wave current at each connection point of Tn, foe~Ln-++a
is the backward wave current at each connection point, and Z I to Zn are the cross-sectional areas A, respectively.
From t~An, air density ρ, and sound speed C, ρC/Al~ρC/
Surge impedance that becomes An, IOA ~ 1111-
+1A and IIB-1nB are the current source currents & appearing at the connection point of the lines T and -Tn. 6~a (n-+lA and ale~ans are the shunt currents of the current source.

これら各電流には第2図(1)に示す関係にある。同式
中、S +a= A +/ (A ++ A t)、S
 1A=At/(A++At)〜S +n−+1B=A
 (n−117(A+n−t++A11)、S +1l
−119= A n/ A (n−11+A nを示す
These currents have the relationship shown in FIG. 2 (1). In the same formula, S + a = A + / (A ++ A t), S
1A=At/(A++At)~S +n-+1B=A
(n-117(A+n-t++A11), S +1l
-119=A n/A (indicates n-11+A n).

また、メモリ項目は現在値のlステップ前の演算結果を
格納する項目を示す。こうした関係式の演算はメモリ項
目に初期値0を与え、電圧Eを与えたときの各メモリ項
目について、線路T、〜T7まで基本周期で順次演算し
、最終段の電流1neを基本周期で求め、この電流la
gに調音音声出力デー□りを得ることができる。
Furthermore, the memory item indicates an item that stores the calculation result l steps before the current value. To calculate such a relational expression, give an initial value 0 to the memory item, and calculate the voltage E for each memory item sequentially up to the line T, up to T7 at the fundamental cycle, and calculate the final stage current 1ne at the fundamental cycle. , this current la
The articulatory speech output data □ can be obtained in g.

ここで、第2図(つ)の等価回路は線形回路になって重
ねの理が成立し、電圧Eを零として放射インピーダンス
ZLに直列に電圧E+、を印加したときの各部電流を求
めること、即ち、インピーダンスE。の電流を求めるこ
とができる。そこで、本発明はディジタルフィルタの声
道断面積係数を音節又は音素に対応づけて任意に設定し
ておき、ディジタルフィルタの出力側に実音節又は実音
素を与えたときの入力側に表れる信号波形を求め、この
信号波形の分析によって当該音節又は音素の音源パラメ
ータを求め、併せて声道断面積係数を調音パラメータと
して求める。
Here, the equivalent circuit in Fig. 2 (2) becomes a linear circuit, and the superposition principle is established, and when voltage E is set to zero and voltage E+ is applied in series to radiation impedance ZL, find the current at each part, That is, impedance E. The current can be found. Therefore, in the present invention, the vocal tract cross-sectional area coefficient of a digital filter is arbitrarily set in association with a syllable or a phoneme, and the signal waveform appearing on the input side when a real syllable or real phoneme is given to the output side of the digital filter. The sound source parameters of the syllable or phoneme are determined by analyzing this signal waveform, and the vocal tract cross-sectional area coefficient is also determined as an articulatory parameter.

このようにして求めた音源パラメータ及び調音パラメー
タは、ディジタルフィルタと人の発声器官との誤差及び
音源波形と声帯振動との誤差をそのままにして出力音声
波形を実音声に近づけることができる。そして、音源パ
ラメータ及び調音パラメータを求めるのに、従来のフィ
ードバック方式と異なり一回の実音声に対する応答を求
めるのみで済み、情報処理型を少なくする。また、調音
パラメータは声道のモデル化を細密にすることを不要に
し、音節又は音素パラメータとして必要な情報量を低減
、即ち情報圧縮とディジタルフィルタの演算速度向上も
しくは演算量低減を可能にする。
The sound source parameters and articulation parameters obtained in this way can bring the output speech waveform closer to the actual speech while leaving the errors between the digital filter and the human vocal organs and the errors between the sound source waveform and vocal cord vibration unchanged. Further, in order to obtain the sound source parameters and articulatory parameters, unlike the conventional feedback method, it is only necessary to obtain a response to one actual voice, thereby reducing the amount of information processing required. Furthermore, the articulatory parameters make it unnecessary to model the vocal tract in detail and reduce the amount of information required as syllable or phoneme parameters, that is, it makes it possible to compress information and improve the calculation speed of digital filters or reduce the amount of calculations.

G、実施例 第1図は本発明の一実施例を示すブロック図である。音
声登録部11にはアナウンサー等が発声した音節又は音
素単位の実音声波形をサンプリングデータとして登録し
ておく。音声続出部12は音声登録部11から指定され
る音節又は音素のサンプリングデータを読出し、このデ
ータに比例する電圧波形を増幅出力する。ディジタルフ
ィルタ演算部13は、音声続出部12からの電圧波形を
出力側の入力とし、該電圧波形に対応する音節又は音素
の声道断面積係数が設定され、この声道断面積係数での
入力側の応答出力(音源データ)を演算で求める。パラ
メータ演算部14はディジタルフィルタ演算部13から
の音源データを分析して音源パラメータを求め、この音
源パラメータをパラメータ登録部15に登録する。この
登録において、ディジタルフィルタ演算部13に設定し
た声道断面積係数も併せて登録する。コントロール部1
6はキーボード等の入力装置17からの指令によって各
部を制御し、制御状態を表示装置18に表示する。
G. Embodiment FIG. 1 is a block diagram showing an embodiment of the present invention. In the voice registration section 11, an actual voice waveform in units of syllables or phonemes uttered by an announcer or the like is registered as sampling data. The voice succession section 12 reads sampling data of a designated syllable or phoneme from the voice registration section 11, and amplifies and outputs a voltage waveform proportional to this data. The digital filter calculation unit 13 receives the voltage waveform from the voice succession unit 12 as an input on the output side, sets the vocal tract cross-sectional area coefficient of the syllable or phoneme corresponding to the voltage waveform, and inputs the vocal tract cross-sectional area coefficient with this vocal tract cross-sectional area coefficient. Calculate the side response output (sound source data). The parameter calculation unit 14 analyzes the sound source data from the digital filter calculation unit 13 to obtain sound source parameters, and registers the sound source parameters in the parameter registration unit 15. In this registration, the vocal tract cross-sectional area coefficient set in the digital filter calculation section 13 is also registered. Control part 1
Reference numeral 6 controls each section according to commands from an input device 17 such as a keyboard, and displays the control status on a display device 18.

上述の構成における調音・音源パラメータの生成処理を
以下に詳細に説明する。
The articulation/sound source parameter generation process in the above configuration will be described in detail below.

登録すべき音源(音節又は音素)が指令されると、コン
トロール部16は音声読出部12に該音源を指定すると
共に、ディジタルフィルタ演算部13に当該音源に対応
する断面積係数データを設定及びパラメータ登録部15
への登録を行う。音源指定された音声続出部12は該音
源のサンプリングデータを音声登録部11から読出し、
このデータをディジタルフィルタ演算部13の出力側に
順次与える。ディジタルフィルタ演算部13は、第2図
(つ)に示す等価回路と設定断面積係数から定める演算
式(同図工の関係式)による演算を行い、放射インピー
ダンスZLに直列の電圧源として音声続出部12からの
サンプリングデータを与え、出力インピーダンスZ。の
電圧値のデータ列を応答出力として求める。このとき求
められるデータ列は設定される断面積係数において入力
音声波形に対する音源波形のサンプリングデータになる
。このデータに対して、パラメータ演算部14ではスペ
クトル包絡やスペクトル微細構造等への分析によって音
源パラメータを求め、この音源パラメータをパラメータ
登録部15に登録する。
When a sound source (syllable or phoneme) to be registered is instructed, the control unit 16 specifies the sound source to the audio reading unit 12, and sets and parameters the cross-sectional area coefficient data corresponding to the sound source in the digital filter calculation unit 13. Registration section 15
Register. The audio successive section 12 to which the sound source is specified reads the sampling data of the sound source from the audio registration section 11,
This data is sequentially applied to the output side of the digital filter calculation section 13. The digital filter calculation unit 13 performs calculations based on the calculation formula (the diagrammatic relational formula) determined from the equivalent circuit and the set cross-sectional area coefficient shown in FIG. 12, output impedance Z. Find the data string of voltage values as the response output. The data string obtained at this time becomes sampling data of the sound source waveform for the input voice waveform at the set cross-sectional area coefficient. The parameter calculating section 14 calculates sound source parameters from this data by analyzing the spectrum envelope, spectral fine structure, etc., and registers the sound source parameters in the parameter registration section 15 .

H,発明の効果 本発明の調音・音源パラメータ生成方法によれば、求め
ようとする音節又は音素の音源パラメータについて、声
道断面積関数の設定による1回の演算によって音源波形
を求めることができ、従来のフィードバック方式による
繰り返し演算に較べて情報処理量及び処理時間を短縮す
る。また、声道断面積関数及び声道等価回路と実際の人
の声道構造との間に誤差が存在するも、該誤差分は求め
る音源波形にも含まれており、実際の音声合成時に音源
波形に含まれる該誤差分はディジタルフィルタの声道断
面積関数等の誤差分と相殺され、音声合成時には求めた
音源波形と音源パラメータの間の誤差分のみになる。こ
のことは、合成音声を実音声に近づける効果のほか、声
道断面積係数の単純化(例えば縦続接続音響管の個数低
減)や各音響管で複雑に変化する断面積変化の単純化に
よる演算処理の簡単化、処理速度の向上効果を得ること
ができる。
H. Effects of the Invention According to the articulatory/sound source parameter generation method of the present invention, the sound source waveform can be obtained for the sound source parameter of the syllable or phoneme to be determined by a single calculation by setting the vocal tract cross-sectional area function. This reduces the amount of information to be processed and the processing time compared to repetitive calculations using conventional feedback methods. Furthermore, although there is an error between the vocal tract cross-sectional area function and vocal tract equivalent circuit and the actual human vocal tract structure, this error is also included in the desired sound source waveform, and the sound source is used during actual speech synthesis. The error included in the waveform is canceled out by the error in the vocal tract cross-sectional area function of the digital filter, and only the error between the obtained sound source waveform and the sound source parameters is generated during speech synthesis. This has the effect of making synthesized speech closer to real speech, as well as simplifying the vocal tract cross-sectional area coefficient (for example, reducing the number of cascaded acoustic tubes) and simplifying the computation of cross-sectional area changes that vary complexly in each acoustic tube. The effect of simplifying processing and improving processing speed can be obtained.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明の一実施例を示すブロック図、第2図は
本発明を原理的に説明するための音響管の等価モデルと
演算態様図、第3図は規則合成方式の音声合成装置のブ
ロック図である。 11・・・音声登録部、12・・・音声読出部、13・
・・ディジタルフィルタ演算部、14・・・パラメータ
演算部、!5・・・パラメータ登録部、16・・・コン
トロール部、17・・・入力装置、18・・・表示装置
。 11間+1−197799 (7)
Fig. 1 is a block diagram showing an embodiment of the present invention, Fig. 2 is an equivalent model of an acoustic tube and a calculation mode diagram for explaining the principle of the present invention, and Fig. 3 is a speech synthesizer using a regular synthesis method. FIG. 11... Voice registration section, 12... Voice reading section, 13.
...Digital filter calculation section, 14...Parameter calculation section,! 5... Parameter registration section, 16... Control section, 17... Input device, 18... Display device. 11+1-197799 (7)

Claims (1)

【特許請求の範囲】[Claims] (1)音声波形の生成に音源の生成と声道断面積による
調音に分離し、音源パラメータにより音源波形を生成し
、調音パラメータによる声道断面積のディジタルフィル
タに音源波形を与えて該フィルタの出力に音声信号を得
る規則合成方式の音声合成装置において、音節又は音素
に対応づけて任意に設定した調音パラメータにより前記
ディジタルフィルタの声道断面積係数を固定させ、該フ
ィルタの出力側に実音節又は実音素波形を与えたときの
該フィルタの入力側に表れる信号波形から音源パラメー
タを求め、該音源パラメータ及び前記調音パラメータを
対応する音節又は音素のパラメータとすることを特徴と
する音声合成装置の調音・音源パラメータ生成方法。
(1) Separate sound waveform generation into sound source generation and articulation based on the vocal tract cross-sectional area, generate the sound source waveform using the sound source parameters, apply the sound source waveform to a digital filter for the vocal tract cross-sectional area based on the articulatory parameters, and then In a speech synthesizer using a regular synthesis method that obtains a speech signal as an output, the vocal tract cross-sectional area coefficient of the digital filter is fixed by an articulation parameter arbitrarily set in association with a syllable or phoneme, and a real syllable is output on the output side of the filter. Or, a speech synthesis device characterized in that a sound source parameter is determined from a signal waveform appearing on the input side of the filter when an actual phoneme waveform is given, and the sound source parameter and the articulation parameter are used as parameters of a corresponding syllable or phoneme. Articulatory/sound source parameter generation method.
JP63022487A 1988-02-02 1988-02-02 Articulation and sound source parameter producing method for sound synthesizer Pending JPH01197799A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63022487A JPH01197799A (en) 1988-02-02 1988-02-02 Articulation and sound source parameter producing method for sound synthesizer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63022487A JPH01197799A (en) 1988-02-02 1988-02-02 Articulation and sound source parameter producing method for sound synthesizer

Publications (1)

Publication Number Publication Date
JPH01197799A true JPH01197799A (en) 1989-08-09

Family

ID=12084086

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63022487A Pending JPH01197799A (en) 1988-02-02 1988-02-02 Articulation and sound source parameter producing method for sound synthesizer

Country Status (1)

Country Link
JP (1) JPH01197799A (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58162999A (en) * 1982-03-23 1983-09-27 松下電器産業株式会社 Drive wave extraction for voice synthesization
JPS62150398A (en) * 1985-12-25 1987-07-04 日本電気株式会社 Voice rule synthesizer

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58162999A (en) * 1982-03-23 1983-09-27 松下電器産業株式会社 Drive wave extraction for voice synthesization
JPS62150398A (en) * 1985-12-25 1987-07-04 日本電気株式会社 Voice rule synthesizer

Similar Documents

Publication Publication Date Title
US5729694A (en) Speech coding, reconstruction and recognition using acoustics and electromagnetic waves
JPH031200A (en) Regulation type voice synthesizing device
JPH0677200B2 (en) Digital processor for speech synthesis of digitized text
JPH0632020B2 (en) Speech synthesis method and apparatus
JPH0641557A (en) Method of apparatus for speech synthesis
JPH0772900A (en) Method of adding feelings to synthetic speech
JP2904279B2 (en) Voice synthesis method and apparatus
US6829577B1 (en) Generating non-stationary additive noise for addition to synthesized speech
Sondhi Articulatory modeling: a possible role in concatenative text-to-speech synthesis
Peterson et al. Objectives and techniques of speech synthesis
JPH01197799A (en) Articulation and sound source parameter producing method for sound synthesizer
JPH02106799A (en) Synthetic voice emotion imparting circuit
JP2990693B2 (en) Speech synthesizer
JPH02293900A (en) Voice synthesizer
Kim Singing voice analysis, synthesis, and modeling
JP2990691B2 (en) Speech synthesizer
JP2992995B2 (en) Speech synthesizer
Singh et al. Removal of spectral discontinuity in concatenated speech waveform
CN114974271A (en) Voice reconstruction method based on sound channel filtering and glottal excitation
JPH01292400A (en) Speech synthesis system
JPH0464080B2 (en)
JPH0833749B2 (en) Sound synthesis method
JPH01219899A (en) Speech synthesizing device
JPH0833752B2 (en) Speech synthesizer
JPH01262598A (en) Utterance speed control circuit for voice synthesizing device