JPS63244100A - Voice analyzer and voice synthesizer - Google Patents

Voice analyzer and voice synthesizer

Info

Publication number
JPS63244100A
JPS63244100A JP62079208A JP7920887A JPS63244100A JP S63244100 A JPS63244100 A JP S63244100A JP 62079208 A JP62079208 A JP 62079208A JP 7920887 A JP7920887 A JP 7920887A JP S63244100 A JPS63244100 A JP S63244100A
Authority
JP
Japan
Prior art keywords
sound source
parameter
signal
parameters
source waveform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP62079208A
Other languages
Japanese (ja)
Other versions
JP2583883B2 (en
Inventor
藤崎 博也
マッツ・ユンクヴィスト
佐藤 泰雄
大山 隆之
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP62079208A priority Critical patent/JP2583883B2/en
Publication of JPS63244100A publication Critical patent/JPS63244100A/en
Application granted granted Critical
Publication of JP2583883B2 publication Critical patent/JP2583883B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Table Equipment (AREA)
  • Liquid Crystal Substances (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 〔目 次〕 概要 産業上の利用分野 従来の技術 (i)波形符号化方式 (ii)分析合成方式 発明が解決しようとする問題点 問題点を解決するための手段 (i)第1発明 (i+)第2発明 作用 (i)第1発明 (ii )第2発明 実施例 ■、実施例と第1図との対応関係 (i)第1発明 (:i)第2発明 ■、実施例の構成および動作 (i)音声分析装置 (i−1)音声分析装置の構成 (i−2)音声分析装置の動作 (11)音声合成装置 (ii −1)音声合成装置の構成 (ii −2)音声合成装置の動作 ■、実施例のまとめ ■0発明の変形態様 発明の効果 〔概 要〕 音声分析装置であって、複数のパラメータを選択的に決
定して音源波形をモデル化し、そのモデル化による音源
波形に基づいて入力音声信号を自己回帰移動平均分析し
、そのときの誤差に応じて最適なパラメータを決定する
ことによって音声分析を行なうことにより、音声に関す
る情報量が効率的に圧縮される。
[Detailed Description of the Invention] [Table of Contents] Overview Industrial Field of Application Prior Art (i) Waveform Coding System (ii) Analysis and Synthesis System Problems to be Solved by the Invention Means for Solving the Problems ( i) First invention (i+) Second invention effect (i) First invention (ii) Second invention embodiment ■, Correspondence between the embodiment and FIG. 1 (i) First invention (:i) Second Invention ■, Structure and operation of embodiments (i) Speech analysis device (i-1) Structure of speech analysis device (i-2) Operation of speech analysis device (11) Speech synthesis device (ii-1) Speech synthesis device Configuration (ii-2) Operation of speech synthesis device■, Summary of embodiments■0 Variations of the invention Effects of the invention [Summary] A speech analysis device that selectively determines a plurality of parameters to determine a sound source waveform. By modeling the input audio signal, performing an autoregressive moving average analysis on the input audio signal based on the modeled sound source waveform, and performing audio analysis by determining the optimal parameters according to the error at that time, the amount of information about the audio can be increased. Efficiently compressed.

また、音声合成装置であって、そのような自己回帰移動
平均分析によって得られた各種のパラメータに応じて、
音源波形のモデル化用に導入されるパラメータに基づい
て音源波形をモデル化と共に、自己回帰移動平均分析に
おいて得られた複数のパラメータを受けて、音声合成を
行なうことにより、高品質な合成音声が得られる。
In addition, the speech synthesis device is a voice synthesizer, and according to various parameters obtained by such autoregressive moving average analysis,
By modeling the sound source waveform based on the parameters introduced for modeling the sound source waveform and performing speech synthesis based on the multiple parameters obtained through autoregressive moving average analysis, high-quality synthesized speech can be created. can get.

〔産業上の利用分野〕[Industrial application field]

本発明は、音声分析装置および音声合成装置に関し、特
に、所謂A −b −S (Analysis−by−
5ynthesis)の手法を採ることにより、平均二
乗誤差が最小となるように声帯音源波形モデルのパラメ
ータを定め、声帯音源波形モデルを自己回帰移動平均(
以後ARMAと称する)と組み合わせことにより音声を
分析および音声の合成を行なうようにした音声分析装置
および音声合成装置に関するものである。
The present invention relates to a speech analysis device and a speech synthesis device, and particularly to a so-called A-b-S (Analysis-by-S).
The parameters of the vocal cord sound source waveform model are determined so that the mean square error is minimized by adopting the method of
The present invention relates to a speech analysis device and a speech synthesis device that analyze speech and synthesize speech by combining it with ARMA (hereinafter referred to as ARMA).

〔従来の技術〕[Conventional technology]

従来から、音声の認識、伝送、蓄積等にあっては、音声
に関する情報量をできるだけ圧縮し、且つ、その音声に
関する情報から高品質の音声の再生を可能とするものと
して、各種の方式が提案されている。その際、音声に関
する情報量の圧縮率を高めることおよび自然性に富む音
声の再現が望まれる。
Various methods have been proposed for the recognition, transmission, storage, etc. of speech in order to compress the amount of speech-related information as much as possible and to make it possible to reproduce high-quality speech from the speech-related information. has been done. In this case, it is desired to increase the compression ratio of the amount of information related to speech and to reproduce speech with rich naturalness.

そのような要請に応えるものとして、例えば、ADPC
M等の音声の波形をそのまま符号化する「波形符号化方
式」がある、また、これに対するものとして、ボコーダ
(VOCODBR)による狭義の「分析合成方式」があ
る。これらの方式を分けて説明しておく。
For example, ADPC
There is a ``waveform encoding method'' that encodes the waveform of a voice such as M as it is, and as an alternative to this, there is a narrowly defined ``analysis and synthesis method'' using a vocoder (VOCODBR). These methods will be explained separately.

(i)波形符 化 工 「波形符号化方式」にあっては、音声信号を線形予測分
析し、線形予測係数と予測誤差を得ることによって、そ
の予測誤差を量子化するものである。また、再生する場
合には、量子化された予測誤差を分析で得られた線形予
測係数によるフィルタで駆動する。この波形符号化方式
による再生音声の歪みは予測誤差の量子化によるもので
あり、高品質の再生音声が得られる。
(i) Waveform Coding The ``waveform coding method'' performs linear prediction analysis on an audio signal, obtains linear prediction coefficients and prediction errors, and then quantizes the prediction errors. Furthermore, in the case of reproduction, the quantized prediction error is driven by a filter using the linear prediction coefficient obtained by analysis. The distortion of the reproduced audio due to this waveform encoding method is due to the quantization of prediction errors, and high quality reproduced audio can be obtained.

しかしながら、その情報量は、例えば16 kbps〜
64 kbpsであり、音声に関する情報量はかなり多
くなる。つまり、この「波形符号化方式」の圧縮率はあ
まり大きくなく、音声の認識、伝送、蓄積等が効率的で
はない。
However, the amount of information is, for example, 16 kbps ~
64 kbps, and the amount of information regarding audio is quite large. In other words, the compression rate of this "waveform encoding method" is not very high, and speech recognition, transmission, storage, etc. are not efficient.

(ii)   ム  工 「分析合成方式」にあっては、人の発する音声を分析す
る際に、当該音声の周波数スペクトル包絡情報と音源情
報とに分けて情報圧縮を行なうようにしている。従って
、音声の生成機構をモデル化し、音源信号と調音器官に
よる音響フィルタ特性とに着目している。
(ii) In the ``Analysis and Synthesis Method,'' when a human voice is analyzed, information is compressed separately into frequency spectrum envelope information and sound source information of the voice. Therefore, we model the speech generation mechanism and focus on the sound source signal and the acoustic filter characteristics of the articulator.

例えば、音響フィルタを線形予測フィルタとして、有音
声の音源信号を周期的インパルス列とすると共に無声音
の音源信号を白色雑音とする。これによれば、例えば、
音声は有声音/無声音の区別情報2周期音源に関するピ
ッチ周波数、振幅情報、線形予測係数によって表される
。言い換えれば、予測誤差分をモデル化しているとみる
ことができ、音声情報を例えば1.2 kbps 〜9
,6 kbps程度に圧縮できる。
For example, the acoustic filter is a linear prediction filter, the sound source signal of a voice is a periodic impulse train, and the sound source signal of an unvoiced sound is white noise. According to this, for example,
Speech is expressed by voiced/unvoiced sound discrimination information, pitch frequency, amplitude information, and linear prediction coefficients regarding a two-period sound source. In other words, it can be considered that the prediction error is modeled, and the audio information is processed at, for example, 1.2 kbps to 9 kbps.
, 6 kbps.

しかしながら、この分析合成方式により合成される音声
の品質は、上述した「波形符号化方式」に比べるとかな
り低い。
However, the quality of speech synthesized by this analysis and synthesis method is considerably lower than that of the above-mentioned "waveform encoding method."

〔発明が解決しようとする問題点〕[Problem that the invention seeks to solve]

このように、上述した「波形符号化方式」および「分析
合成方式」による音声の分析または合成にあっても、音
声に関する情報量が多く、あるいは、合成後の音質が不
充分であった。そのため、「波形符号化方式」なみに高
品質であり、また、「分析合成方式」なみに情報圧縮で
きる音声の分析方式および合成方式が要望されていた。
As described above, even when analyzing or synthesizing speech using the above-mentioned "waveform encoding method" and "analysis/synthesis method," the amount of information regarding speech is large, or the sound quality after synthesis is insufficient. Therefore, there has been a need for a speech analysis and synthesis method that is as high quality as a waveform encoding method and that can compress information as well as an analysis and synthesis method.

このような要請に応えるものとして、本出願人は、特開
昭61−128299 (特願昭59−250133)
r音声分析/分析合成方式」を既に提案した。
In order to meet such demands, the present applicant has filed Japanese Patent Application Laid-Open No. 61-128299 (Japanese Patent Application No. 59-250133).
We have already proposed the ``Speech Analysis/Analysis and Synthesis Method''.

この特許側による技法は、音源波形のモデル化にあたっ
て音源をパルスと雑音信号とで近似するのではなく、ロ
ーゼフィルタ(Rosenberg)波形等の声帯音源
波形を使用することとしている。ここで、この声帯音源
波形モデルを規定するためのピッチ周期、立ち上がり時
間、立ち下がり時間および振幅の4種パラメータを、A
−b−3手法によって求めるようにしている。
The technique proposed by this patent uses a vocal fold sound source waveform such as a Rosenberg waveform to model the sound source waveform, rather than approximating the sound source with a pulse and a noise signal. Here, the four parameters of pitch period, rise time, fall time, and amplitude for defining this vocal cord sound source waveform model are A
-b-3 method is used to find it.

つまり、音源波形をモデル化した情報に基づいて音声の
分析または音声の分析合成を行なう場合に、少なくとも
ピッチ周期、立ち上がり時間、立ち下がり時間および振
幅の4種パラメータによって規定される音源信号で駆動
される線形予測フィルタニよって音声信号を生成する音
声合成系を有し、4種のパラメータを逐次選択して、そ
の選択された4種のパラメータについて線形予測フィル
タにより得られる合成音声信号と入力音声信号との誤差
を求め、その合成音声信号と入力音声信号との誤差がよ
り小となるように4種のパラメータに関する最適化を行
ない、当該4種のパラメータを決定するようにして、該
4種のパラメータおよび線形予測係数に基づいて音声の
分析または音声の分析合成を行なうようにするものであ
る。
In other words, when performing speech analysis or speech analysis and synthesis based on information modeling a sound source waveform, the sound source signal is driven by a sound source signal defined by at least four parameters: pitch period, rise time, fall time, and amplitude. It has a speech synthesis system that generates a speech signal using a linear prediction filter, which sequentially selects four types of parameters, and generates a synthesized speech signal obtained by the linear prediction filter and an input speech signal for the four selected parameters. , and optimize the four types of parameters so that the error between the synthesized voice signal and the input voice signal becomes smaller, and determine the four types of parameters. and speech analysis or speech analysis and synthesis based on the linear prediction coefficients.

しかしながら、このような技法にあっても、音声に関す
るパラメータを得て圧縮する場合、いまだ情報量の圧縮
率が低く、また、合成音声の品質が低いという問題点が
あった。
However, even with such a technique, there are still problems in that the compression ratio of the amount of information is low when obtaining and compressing parameters related to speech, and the quality of synthesized speech is also low.

本発明は、このような点に鑑みて創作されたものであっ
て、音声に関する情I[iの圧縮率が大きい音声分析装
置と、その分析結果によって音声合成を行なう場合に高
品質な合成音声が得られる音声合成装置とを提供するこ
とを目的としている。
The present invention was created in view of these points, and includes a speech analysis device that has a high compression rate for speech-related information I[i], and a speech analysis device that can produce high-quality synthesized speech when performing speech synthesis based on the analysis results. The purpose of the present invention is to provide a speech synthesis device that can obtain the following.

〔問題点を解決するための手段〕[Means for solving problems]

本発明による問題点を解決するための手段としては、「
音声分析装置Jおよび「音声合成装置」がある。
As a means for solving the problems according to the present invention, "
There is a speech analysis device J and a "speech synthesis device."

」ユニ」LL1肌 第1図(A)は、第1発明による音声分析装置の原理ブ
ロック図である。
"UNI" LL1 skin FIG. 1 (A) is a principle block diagram of the speech analysis device according to the first invention.

図において、パラメータ決定手段113は、音源波形の
モデル化に必要な複数のパラメータを選択的に決定し、
その決定されたパラメータを表すモデル化パラメータ信
号111を出力する。
In the figure, parameter determining means 113 selectively determines a plurality of parameters necessary for modeling the sound source waveform,
A modeling parameter signal 111 representing the determined parameters is output.

音源波形生成手段117は、モデル化パラメータ信号1
11によって表される複数のパラメータに応じて音源波
形のモデル化を行ない、そのモデル化された音源波形を
表す音源波形信号115を出力する。
The sound source waveform generating means 117 generates the modeling parameter signal 1
A sound source waveform is modeled according to a plurality of parameters represented by 11, and a sound source waveform signal 115 representing the modeled sound source waveform is output.

自己回帰移動平均分析手段125は、分析対象の入力音
声信号119および音源波形信号115を受けて自己回
帰移動平均分析を行なって誤差を求め、その誤差を表す
誤差信号121をパラメータ決定手段113に供給する
すると共に、自己回帰移動平均分析によるパラメータを
表す分析パラメータ出力信号123を出力する。
The autoregressive moving average analysis means 125 receives the input audio signal 119 and the sound source waveform signal 115 to be analyzed, performs an autoregressive moving average analysis to obtain an error, and supplies an error signal 121 representing the error to the parameter determination means 113. At the same time, it outputs an analysis parameter output signal 123 representing a parameter based on autoregressive moving average analysis.

従って、全体として、誤差信号121によって表される
前記誤差に応じて、パラメータ決定手段113の前記複
数のパラメータを変化させるように構成されている。
Therefore, as a whole, the plurality of parameters of the parameter determining means 113 are changed in accordance with the error represented by the error signal 121.

」」ユJiλ吸 第1図(B)は、第2発明による音声合成装置の原理ブ
ロック図である。
FIG. 1(B) is a block diagram of the principle of the speech synthesis device according to the second invention.

図において、音源波形生成手段135は、分析対象の音
声信号を自己回帰移動平均分析する際に必要とされる音
源波形をモデル化するために得られる複数の第1パラメ
ータを表すモデル化パラメータ信号131を受け、該第
1パラメータに基づいて音源波形をモデル化し、そのモ
デル化した音源波形を表す音源波形信号133を出力す
る。
In the figure, the sound source waveform generation means 135 generates a modeling parameter signal 131 representing a plurality of first parameters obtained for modeling the sound source waveform required when performing autoregressive moving average analysis on the audio signal to be analyzed. is received, the sound source waveform is modeled based on the first parameter, and a sound source waveform signal 133 representing the modeled sound source waveform is output.

自己回帰移動平均合成手段141は、自己回帰移動平均
分析において得られた複数の第2パラメータを表すパラ
メータ信号137と、音源波形生成手段135からの音
源波形信号133とを受けて、第1パラメータおよび第
2パラメータに基づいて音声合成を行なって合成音声出
力信号139を出力する。
The autoregressive moving average synthesis means 141 receives the parameter signal 137 representing the plurality of second parameters obtained in the autoregressive moving average analysis and the sound source waveform signal 133 from the sound source waveform generation means 135, and synthesizes the first parameter and Speech synthesis is performed based on the second parameter and a synthesized speech output signal 139 is output.

従って、全体として、自己回帰移動平均分析によって得
られた各種のパラメータに応じて、音源波形のモデル化
を行なうと共に、自己回帰移動平均分析パラメータに基
づいて音声合成を行なうように構成されている。
Therefore, the overall structure is such that the sound source waveform is modeled according to various parameters obtained by autoregressive moving average analysis, and speech synthesis is performed based on the autoregressive moving average analysis parameters.

(作 用〕 一口」」」L1哩 パラメータ決定手段113において選択的に決定された
複数のパラメータに応じて、音源波形生成手段117は
音源波形をモデル化する。そのモデル化された音源波形
の音源波形信号115に基づいて、自己回帰移動平均分
析手段125は入力音声信号119を自己回帰移動平均
分析する。
(Function) The sound source waveform generating means 117 models the sound source waveform according to the plurality of parameters selectively determined by the parameter determining means 113.The sound source of the modeled sound source waveform Based on the waveform signal 115, the autoregressive moving average analysis means 125 performs an autoregressive moving average analysis on the input audio signal 119.

そのときの誤差がパラメータ決定手段113に与えられ
て、該パラメータ決定手段113は、複数のパラメータ
を最適化する。
The error at that time is given to the parameter determining means 113, and the parameter determining means 113 optimizes the plurality of parameters.

このパラメータ決定手段113でのパラメータの最適化
の結果として、該パラメータ決定手段l13から音源波
形パラメータが得られると共に、自己回帰移動平均分析
手段125から自己回帰移動平均パラメータが得られる
As a result of parameter optimization by the parameter determining means 113, sound source waveform parameters are obtained from the parameter determining means 113, and autoregressive moving average parameters are obtained from the autoregressive moving average analyzing means 125.

なお、本発明装置がより具体的な動作を行なう上では(
実施態様に相当する)、パラメータ決定手段113にお
いて選択され且つ最適化される複数のパラメータは、ピ
ッチ周期、声門開放時間。
Note that when the device of the present invention performs more specific operations, (
(corresponding to an embodiment), the plurality of parameters selected and optimized in the parameter determining means 113 are pitch period, glottis opening time.

声門開放区間内での音源の歪み、声門閉鎖から体積流が
負の最大値に達する時間、声門開放開始時の体積流波形
の傾き、声門閉鎖直前の体積流波形の傾きおよび声門閉
鎖直後の体積流波形の傾きの7種のである。これらのパ
ラメータによって音源波形をモデル化する。
Distortion of the sound source within the glottal opening section, time from glottal closure until the volume flow reaches its negative maximum value, slope of the volume flow waveform at the start of glottal opening, slope of the volume flow waveform just before glottal closure, and volume immediately after glottal closure. There are seven types of slopes of flow waveforms. The sound source waveform is modeled using these parameters.

本発明にあっては、パラメータ決定手段113でのパラ
メータの最適化によって、音源波形パラメータおよび自
己回帰移動平均パラメータが得られるので、音声に関す
る情報量が効率的に圧縮される。
In the present invention, the sound source waveform parameters and the autoregressive moving average parameters are obtained by optimizing the parameters in the parameter determining means 113, so that the amount of information related to speech is efficiently compressed.

」ユ上m盟 既に得られている音源波形パラメータに基づいて、モデ
ル化パラメータ信号131は音源波形をモデル化する。
Based on the sound source waveform parameters already obtained, the modeling parameter signal 131 models the sound source waveform.

このモデル化によって得られた音源波形と、既に得られ
た自己回帰移動平均バラメークとに基づいて、自己回帰
移動平均合成手段141は音声合成を行なう。
The autoregressive moving average synthesis means 141 performs speech synthesis based on the sound source waveform obtained by this modeling and the already obtained autoregressive moving average variation.

なお、本発明装置がより具体的な動作を行なう上では(
実施態様に相当する)、既に得られている音源波形パラ
メータは、ピッチ周期、声門開放時間、声門開放区間内
での音源の歪み、声門閉鎖から体積流が負の最大値に達
する時間、声門開放開始時の体積流波形の傾き、声門閉
鎖直前の体積流波形の傾きおよび声門閉鎖直後の体積流
波形の傾きの7種である。これらのパラメータによって
音源波形をモデル化する。
Note that when the device of the present invention performs more specific operations, (
(corresponding to the embodiment), the sound source waveform parameters already obtained are pitch period, glottal opening time, distortion of the sound source within the glottal opening section, time from glottal closure until the volume flow reaches the negative maximum value, glottal opening. There are seven types: the slope of the volume flow waveform at the start, the slope of the volume flow waveform immediately before glottis closure, and the slope of the volume flow waveform immediately after glottis closure. The sound source waveform is modeled using these parameters.

本発明にあっては、既に得られた音源波形パラメータお
よび自己回帰移動平均パラメータに基づいて、自己回帰
移動平均によって音声合成を行なうことにより、高品質
な合成音声が得られる。
In the present invention, high-quality synthesized speech can be obtained by performing speech synthesis using an autoregressive moving average based on the already obtained sound source waveform parameters and autoregressive moving average parameters.

(実施例〕 以下、図面に基づいて本発明の実施例について詳細に説
明する。
(Example) Hereinafter, an example of the present invention will be described in detail based on the drawings.

第2図は、本発明の一実施例による音声分析装置を示す
、第3図は第2図の音声分析装置において利用される音
源波形モデルを示す、第4図は本発明の一実施例による
音声合成装置を示す。第5図は第4図に示す音声合成装
置におけるARMAフィルタを具体的に示す。
FIG. 2 shows a speech analysis device according to an embodiment of the present invention, FIG. 3 shows a sound source waveform model used in the speech analysis device of FIG. 2, and FIG. 4 shows a speech analysis device according to an embodiment of the invention. A speech synthesis device is shown. FIG. 5 specifically shows the ARMA filter in the speech synthesizer shown in FIG. 4.

1、・方 と第1゛との対応関係 ここで、本発明の実施例と第1図との対応関係を示して
おく。
1. Correspondence between . and 1. Here, the correspondence between the embodiment of the present invention and FIG. 1 will be shown.

−Qユ」」Lλ里 モデル化パラメータ信号IIIは、音源波形パラメータ
信号227に相当する。
The modeling parameter signal III corresponds to the sound source waveform parameter signal 227.

パラメータ決定手段113は、最適パラメータ決定部2
23.パラメータ選択部225に相当する。
The parameter determining means 113 includes the optimal parameter determining unit 2
23. This corresponds to the parameter selection section 225.

音源波形信号115は、声帯音源波形信号2エフに相当
する。
The sound source waveform signal 115 corresponds to the vocal cord sound source waveform signal 2F.

音源波形生成手段117は、声帯音源波形生成部215
に相当する。
The sound source waveform generation means 117 includes the vocal cord sound source waveform generation section 215
corresponds to

入力音声信号119は、入力音声信号211に相当する
Input audio signal 119 corresponds to input audio signal 211.

誤差信号121は、ARMA分析部213がらの誤差信
号221に相当する。
The error signal 121 corresponds to the error signal 221 from the ARMA analysis section 213.

分析パラメータ出力信号123は、ARMAパラメータ
信号219に相当する。
Analysis parameter output signal 123 corresponds to ARMA parameter signal 219.

自己回帰移動平均分析手段125は、ARMA分析部2
13に相当する。
The autoregressive moving average analysis means 125 includes the ARMA analysis section 2
It corresponds to 13.

」工と玉1又所 モデル化パラメータ信号131は、音源波形パラメータ
信号411に相当する。
The ``work and ball'' modeling parameter signal 131 corresponds to the sound source waveform parameter signal 411.

音源波形信号133は、声帯音源波形信号415に相当
する。
The sound source waveform signal 133 corresponds to the vocal cord sound source waveform signal 415.

音源波形生成手段135は、声帯音源波形生成部413
に相当する。
The sound source waveform generation means 135 includes the vocal cord sound source waveform generation section 413
corresponds to

パラメータ信号137は、ARMAパラメータ信号41
7に相当する。
The parameter signal 137 is the ARMA parameter signal 41
Corresponds to 7.

合成音声出力信号1°39は、合成音声信号421に相
当する。
The synthesized speech output signal 1°39 corresponds to the synthesized speech signal 421.

自己回帰移動平均合成手段141は、ARMAフィルタ
419に相当する。
The autoregressive moving average synthesis means 141 corresponds to the ARMA filter 419.

第1発明および第2発明が、以上のような対応関係があ
るものとして、以下本発明の実施例について説明する。
Examples of the present invention will be described below, assuming that the first invention and the second invention have the above-mentioned correspondence relationship.

■、    の  および 本発明は、「音声分析装置」および「音声合成装置」に
関するので、以下、場合を分けて説明する。
(2) The present invention relates to a "speech analysis device" and a "speech synthesis device," so each case will be explained separately below.

(i)音声  ′I4+置 先ず、第1発明が適用された音声分析装置について、以
下説明する。ここで、分析対象となっているのは、人に
よって発声された音声であるものとする。
(i) Voice 'I4+ First, the voice analysis device to which the first invention is applied will be described below. Here, it is assumed that what is being analyzed is speech uttered by a person.

(i−1)!  舅の 第2図において、マイクロホン231は分析対象となっ
ている発音を採取するものであり、該マイクロホン23
1からの採取信号はアナログ−ディジタル(A/D)変
換器233に供給されるようになっている。
(i-1)! In Fig. 2 of the father-in-law, the microphone 231 is used to collect the pronunciation that is the subject of analysis;
The sampled signal from 1 is supplied to an analog-to-digital (A/D) converter 233.

このA/D変換器233において量子化され、ディジタ
ル化されて得られた入力音声信号211が、分析対象と
してARMA分析部213に供給される。このARMA
分析部213は、声帯音源波形生成部215からの声帯
音源波形信号217に基づいて音声分析をして、ARM
Aパラメータを表すARMAパラメータ信号219を出
力するものである。
The input audio signal 211 obtained by being quantized and digitized in this A/D converter 233 is supplied to the ARMA analysis section 213 as an analysis target. This ARMA
The analysis unit 213 performs voice analysis based on the vocal cord sound source waveform signal 217 from the vocal cord sound source waveform generation unit 215, and
It outputs an ARMA parameter signal 219 representing the A parameter.

音声分析の過程にあっては、入力音声信号211と声帯
音源波形信号217とによる誤差を表す誤差信号221
が発生されて、最適パラメータ決定部223に供給され
る。この最適パラメータ決定部223は、パラメータ選
択部225を具えており、該最適パラメータ決定部22
3でのパラメータを適宜選択して切り換えるものである
。パラメータ選択部225によって選択された音源波形
パラメータを表す音源波形パラメータ信号227が出力
され、声帯音源波形生成部215に供給されるようにな
っている。
In the process of voice analysis, an error signal 221 representing an error between the input voice signal 211 and the vocal cord sound source waveform signal 217 is generated.
is generated and supplied to the optimal parameter determining section 223. The optimal parameter determining section 223 includes a parameter selecting section 225.
The parameters in step 3 are appropriately selected and switched. A sound source waveform parameter signal 227 representing the sound source waveform parameter selected by the parameter selection section 225 is output and supplied to the vocal cord sound source waveform generation section 215.

(i−2)の 上記構成の本発明実施例にあっては、音声分析のための
音源のモデル化には、周期音源としてインパルスを用い
るのではなく、声帯音源波形モデルを採用している0例
えば人の声には、明瞭な声や唆れ声など種々の変化があ
る。これには、音源の相違による影響が考えられ、−律
にインパルスで近似した場合、妥当な結果を得ることは
困難である。声帯音源波形モデルを用いることにより、
より近似性を向上させることができる。
In the embodiment of the present invention having the above configuration (i-2), a vocal cord sound source waveform model is adopted instead of using an impulse as a periodic sound source to model the sound source for voice analysis. For example, there are various changes in the human voice, such as a clear voice and a melodious voice. This may be due to the influence of differences in sound sources, and it is difficult to obtain reasonable results when approximating the -temporal impulse. By using the vocal cord sound source waveform model,
Approximation can be further improved.

第3図は、−例としての声帯音源波形g(t)およびそ
の微分波形#(1)を示す。
FIG. 3 shows an example vocal cord sound source waveform g(t) and its differential waveform #(1).

ところで、モデル化された声帯音源波形は、ピッチ周期
T、声門開放時間W、声門開放区間内での音源の歪みS
、声門閉鎖から体積流が負の最大値に達する時間り、声
門開放開始時の体積流波形の傾きA、声門閉鎖直前の体
積流波形の傾きBおよび声門閉鎖直後の体積流波形の傾
きCの7種のパラメータによって表すことができる。そ
こで、声帯音源波形の微分波形#(1)を、時間tによ
って分けて表す。
By the way, the modeled vocal cord sound source waveform has pitch period T, glottal opening time W, and sound source distortion S within the glottal opening section.
, the time from glottal closure until the volume flow reaches its negative maximum value, the slope A of the volume flow waveform at the start of glottal opening, the slope B of the volume flow waveform immediately before glottal closure, and the slope C of the volume flow waveform immediately after glottal closure. It can be expressed by seven types of parameters. Therefore, the differential waveform #(1) of the vocal cord sound source waveform is divided and expressed by time t.

■ g<t≦Rの場合、 g(t)−A−(2A+R,α)  t/R+ (2A
 + R3α)  tZ /R2・・・・・・(1) ■ R<t≦Wの場合、 gct”)=α(t−R) +(3B−2αF)(t−R)”/F”+(2B=αF
)(t−R)’ /F3・・・・・・ (2) ■ W< t5W+Dの場合、 g(t)=C−2(C−β)(t −W) /D+ (
C−β)(t−W)” /D” ・・・・・・ (3) ■ W+D<t≦Tの場合、 #(1)=β          ・・・・・・(4)
となる。
■ If g<t≦R, g(t)-A-(2A+R,α) t/R+ (2A
+ R3α) tZ /R2・・・・・・(1) ■ If R<t≦W, gct”)=α(t-R) +(3B-2αF)(t-R)”/F”+ (2B=αF
)(t-R)' /F3... (2) ■ If W< t5W+D, g(t)=C-2(C-β)(t-W)/D+ (
C-β)(t-W)"/D" ...... (3) ■ If W+D<t≦T, #(1)=β ......(4)
becomes.

ここで、α、βは、以下のように表される。Here, α and β are expressed as follows.

α= (4AR+6FB)/ (2R” −F” )・
・・・・・(5) β=CD/ (D−3(T−W))  ・・・・・・(
6)ところで、声門開放時間Wおよび声門開放区間内で
の音源の歪みSは、 W=R+F           ・・・・・・(7)
S−(R−F)/ (R+F)   ・・・・・・(8
)によって表される。
α= (4AR+6FB)/(2R"-F")・
・・・・・・(5) β=CD/ (D-3(T-W)) ・・・・・・(
6) By the way, the glottis opening time W and the distortion S of the sound source within the glottis opening section are as follows: W=R+F (7)
S-(R-F)/(R+F)...(8
).

そこで、第2図に示す構成において、予め定められたピ
ッチ周期T、声門開放時間W、声門開放区間内での音源
の歪みS、声門閉鎖から体積流が負の最大値に達する時
間り、声門開放開始時の体積流波形の傾きA、声門閉鎖
直前の体積流波形の傾きBおよび声門閉鎖直後の体積流
波形の傾きCの7種のパラメータの適当な初期値が、最
適パラメータ決定部223に与えられる。
Therefore, in the configuration shown in FIG. 2, a predetermined pitch period T, glottal opening time W, distortion S of the sound source within the glottal opening section, time from glottal closure until the volume flow reaches the negative maximum value, glottis Appropriate initial values of seven parameters including the slope A of the volume flow waveform at the start of opening, the slope B of the volume flow waveform immediately before glottis closure, and the slope C of the volume flow waveform immediately after glottis closure are sent to the optimal parameter determination unit 223. Given.

パラメータ選択部225では、最初に、これら7種のパ
ラメータを初期値により選択し、音源波形パラメータ信
号227として出力し、声帯音源波形生成部215に与
える。
The parameter selection unit 225 first selects these seven types of parameters using initial values, outputs them as a sound source waveform parameter signal 227, and provides the signal to the vocal cord sound source waveform generation unit 215.

声帯、音源波形生成部215では、これら7種のパラメ
ータ(ピッチ周期T、声門開放時間W、声門開放区間内
での音源の歪みS、声門閉鎖から体積流が負の最大値に
達する時間り、声門開放開始時の体積流波形の傾きA、
声門閉鎖直前の体積流波形の傾きBおよび声門閉鎖直後
の体積流波形の傾きC)に基づいて積分により、第3図
に示すような声帯音源波形g(t)を合成して得る。そ
の合成結果たる声帯音源波形g(t)を表す声帯音源波
形信号217がARMA分析部213に与えられる。
The vocal fold and sound source waveform generation unit 215 uses these seven parameters (pitch period T, glottal opening time W, distortion S of the sound source within the glottal opening section, time from glottal closure until the volume flow reaches the negative maximum value, Slope A of the volume flow waveform at the start of glottis opening,
A vocal cord sound source waveform g(t) as shown in FIG. 3 is synthesized by integration based on the slope B of the volume flow waveform immediately before glottis closure and the slope C) of the volume flow waveform immediately after glottis closure. A vocal cord sound source waveform signal 217 representing a vocal cord sound source waveform g(t) as a result of the synthesis is provided to the ARMA analysis section 213.

なお、この声帯音源波形g(t)には、必要に応じて、
所謂放射特性を加味した補正が為されていてもよい。
Note that this vocal cord sound source waveform g(t) may include, as necessary,
Correction may be made taking into account so-called radiation characteristics.

声帯音源波形信号217と入力音声信号211とに基づ
いて音声分析を行なうARMA分析部213は、ARM
Aパラメータに基づく周波数スペクトル包絡に従って疑
似音声を合成し、声帯音源波形信号217とを比較する
。これら両信号間での誤差が最小となるように、音源波
形パラメータおよびARMAパラメータを求める。
The ARMA analysis unit 213 performs voice analysis based on the vocal cord sound source waveform signal 217 and the input voice signal 211.
Pseudo speech is synthesized according to the frequency spectrum envelope based on the A parameter, and compared with the vocal cord sound source waveform signal 217. The sound source waveform parameters and ARMA parameters are determined so that the error between these two signals is minimized.

いま、ARMA分析部213でのARMA分析では、音
声信号s (n)は、 ・・・・・・(9) として表される。
Now, in the ARMA analysis performed by the ARMA analysis section 213, the audio signal s(n) is expressed as . . . (9).

ここで、α1はARパラメータであり、βjはMAパラ
メータである。pおよびqはそれぞれの予測次数、g 
(n)は音源信号、e(n)は予測誤差信号である。α
ム、βjを合わせてARMAパラメータと称し、周波数
スペクトル包絡を示すものであり、これらのパラメータ
はARMAパラメータ信号219として外部(例えば、
第4図において後述する音声合成装置)に供される。
Here, α1 is an AR parameter and βj is an MA parameter. p and q are respective prediction orders, g
(n) is the sound source signal, and e(n) is the prediction error signal. α
The parameters βj and βj are collectively referred to as ARMA parameters and indicate the frequency spectrum envelope, and these parameters are externally transmitted as the ARMA parameter signal 219 (for example,
In FIG. 4, the signal is provided to a speech synthesis device (to be described later).

ARMA分析部213において、最小化されるべき誤差
E(誤差信号221によって表される)は、 として表される。
In the ARMA analysis section 213, the error E (represented by the error signal 221) to be minimized is expressed as:

このようにして求められた誤差Eは最適パラメータ決定
部223へ供給される。
The error E obtained in this manner is supplied to the optimum parameter determining section 223.

最適パラメータ決定部223は、この予測誤差を小さく
するために、声帯音源波形を規定するパラメータを少し
ずつ変化させてい(ように、パラメータ選択部225に
指示を与える。このパラメータ選択部225は、以前の
パラメータと異なる値をとるパラメータを選択して、声
帯音源波形生成部215に出力する。
In order to reduce this prediction error, the optimal parameter determining section 223 instructs the parameter selecting section 225 to change the parameters defining the vocal cord sound source waveform little by little. A parameter that takes a value different from the parameter is selected and output to the vocal cord sound source waveform generation section 215.

ところで、このパラメータの選択は、例えばホルマント
抽出に採られるA −b −S (Analysis−
by−Synthesis)手法としている。
By the way, the selection of this parameter is, for example, A-b-S (Analysis-
by-Synthesis) method.

以上のような手順を繰り返して、最適な7種のパラメー
タ(ピッチ周期T、声門開放時間W、声門開放区間内で
の音源の歪みS、声門閉鎖から体積流が負の最大値に達
する時間り、声門開放開始時の体積流波形の傾きA、声
門閉鎖直前の体積流波形の傾きBおよび声門閉鎖直後の
体積流波形の傾きC)を決定する。即ち、所謂A−b−
S手法を用いることにより、時間領域における平均二乗
誤差が最小となるように、上記7種のパラメータを定め
る。
By repeating the above steps, the seven optimal parameters (pitch period T, glottal opening time W, sound source distortion S within the glottal opening section, time from glottal closure until the volume flow reaches its negative maximum value) are determined. , the slope A of the volume flow waveform at the start of glottis opening, the slope B of the volume flow waveform immediately before glottis closure, and the slope C) of the volume flow waveform immediately after glottis closure are determined. That is, the so-called A-b-
By using the S method, the above seven types of parameters are determined so that the mean square error in the time domain is minimized.

このようにして入力音声信号211に対するARMA分
析が行なわれ、その分析結果として、ARMAパラメー
タ信号219によって表されるARMAパラメータおよ
び音源波形パラメータ信号227によって表される音源
波形パラメータ(ピッチ周期T、声門開放時間W、声門
開放区間内での音源の歪みS、声門閉鎖から体積流が負
の最大値に達する時間り、声門開放開始時の体積流波形
の傾きA、声門閉鎖直前の体積流波形の傾きBおよび声
門閉鎖直後の体積流波形の傾きCの7種のパラメータ)
が得られる。
In this way, ARMA analysis is performed on the input speech signal 211, and as a result of the analysis, the ARMA parameter represented by the ARMA parameter signal 219 and the sound source waveform parameters (pitch period T, glottal opening) represented by the sound source waveform parameter signal 227 are obtained. Time W, distortion S of the sound source within the glottal opening section, time from glottal closure until the volume flow reaches the negative maximum value, slope A of the volume flow waveform at the start of glottal opening, slope of the volume flow waveform just before glottal closure B and 7 parameters of the slope C of the volume flow waveform immediately after glottis closure)
is obtained.

これらARMAパラメータおよび音源パラメータによっ
て入力音声が表されるので、それらを圧縮情報として、
該音声の情報を圧縮したことになる。また、後の音声合
成のために、これら複数のパラメータを外部装置(メモ
リ等)によって蓄積しておけばよい。従って、これらの
パラメータを利用して、音声分析装置とは別個に構成さ
れた音声合成装置(後述する)によって、逆に音声合成
を行なうことができる。
Since the input audio is represented by these ARMA parameters and sound source parameters, we use them as compressed information,
This means that the audio information has been compressed. Furthermore, for later speech synthesis, these multiple parameters may be stored in an external device (memory, etc.). Therefore, by using these parameters, it is possible to conversely perform speech synthesis using a speech synthesis device (described later) that is configured separately from the speech analysis device.

(ii )音声合成装置 次に、第2発明が適用された音声合成装置について以下
説明する。この音声合成装置は、上述した音源分析装置
によるARMA分析によって得られたパラメータで駆動
されるものである。なお、各種のパラメータは、音声合
成を行なう際に通信回線を介して受領してもよく、また
、予めROM化されたものを利用してもよい。
(ii) Speech synthesis device Next, a speech synthesis device to which the second invention is applied will be described below. This speech synthesis device is driven by parameters obtained through ARMA analysis by the above-mentioned sound source analysis device. Note that various parameters may be received via a communication line when performing speech synthesis, or may be stored in a ROM in advance.

(ii −1)”入 社 の 第4図に示す「音声合成装置」は、その音声合成のため
の各種パラメータを、第2図に示した「音声分析装置」
から直にもらうものとする。
(ii-1) The ``speech synthesis device'' shown in Figure 4 of ``Joining the Company'' is different from the ``speech analysis device'' shown in Figure 2, which has various parameters for speech synthesis.
shall be obtained directly from.

第4図において、音源波形パラメータ信号411が入力
される声帯音源波形生成部413は、第2図に示した声
帯音源波形生成部215と同じである。音源波形パラメ
ータ信号411によって表される音源波形パラメータに
基づいて、音源波形をモデル化し、そのモデル化によっ
て得られた声帯音源波形信号415を発生するものであ
る。
In FIG. 4, a vocal cord sound source waveform generation section 413 to which the sound source waveform parameter signal 411 is input is the same as the vocal cord sound source waveform generation section 215 shown in FIG. A sound source waveform is modeled based on the sound source waveform parameter represented by the sound source waveform parameter signal 411, and a vocal cord sound source waveform signal 415 obtained by the modeling is generated.

また、ARMAパラメータ信号417を受けるARMA
フィルタ419は、声帯音源波形生成部413からの声
帯音源波形信号415に基づいて音声合成をして、その
合成結果たる合成音声信号421を出力するものである
Also, the ARMA parameter signal 417 that receives the ARMA parameter signal 417 is
The filter 419 performs speech synthesis based on the vocal fold sound source waveform signal 415 from the vocal fold sound source waveform generation section 413 and outputs a synthesized speech signal 421 as the synthesis result.

ところで、音源波形パラメータ信号411およびARM
Aパラメータ信号417によって表される音源波形パラ
メータおよびARMAパラメータは、上述した音声分析
装置での分析結果として得られるパラメータである。従
って、音源波形パラメータは、ピッチ周期T、声門開放
時間W、声門開放区間内での音源の歪みS、声門閉鎖か
ら体積流が負の最大値に達する時間り、声門開放開始時
の体積流波形の傾きA、声門閉鎖直前の体積流波形の傾
きBおよび声門閉鎖直後の体積流波形の傾きCの7種の
パラメータで成る。
By the way, the sound source waveform parameter signal 411 and the ARM
The sound source waveform parameters and ARMA parameters represented by the A parameter signal 417 are parameters obtained as an analysis result by the above-mentioned speech analysis device. Therefore, the sound source waveform parameters are pitch period T, glottal opening time W, sound source distortion S within the glottal opening section, time from glottal closure until the volume flow reaches the negative maximum value, and volume flow waveform at the start of glottal opening. It consists of seven parameters: slope A of the volume flow waveform immediately before glottis closure, slope B of the volume flow waveform immediately before glottis closure, and slope C of the volume flow waveform immediately after glottis closure.

第5図は、第4図のARMAフィルタ419の詳細構成
を示す。ここで、ARMAパラメータ信号417によっ
て表されるARMAパラメータ(ARパラメータα五お
よびMAパラメータβj)は、p個の係数器511..
511.、・・・・・・、5139.・・・・・・、5
11.に、また、他のq個の513、.5132.・・
・・・・、513.にそれぞれ供給されるようになって
いる。ここで、pおよびqは、予測次数である。
FIG. 5 shows a detailed configuration of the ARMA filter 419 shown in FIG. 4. Here, the ARMA parameters (AR parameter α5 and MA parameter βj) represented by the ARMA parameter signal 417 are calculated by p coefficient multipliers 511 . ..
511. ,...,5139.・・・・・・、5
11. Also, there are q other 513, . 5132.・・・
..., 513. are supplied to each. Here, p and q are the prediction orders.

更に、直列に接続されたp個の遅延素子515+、51
5z、・・・・・・、515.、・・・・・・、515
゜が具わっており、それぞれの遅延素子は、時間要素Z
で定まる単位時間の時間遅れ要素である。各遅延素子に
よって、順次遅延された出力信号が、対応する次数の係
数器511および係数器513に共通に供給されるよう
になっている。
Further, p delay elements 515+, 51 connected in series
5z,...,515. ,...,515
゜, and each delay element has a time element Z
It is a time delay element of unit time determined by . Output signals sequentially delayed by each delay element are commonly supplied to the coefficient multiplier 511 and the coefficient multiplier 513 of the corresponding order.

声帯音源波形生成部413からの声帯音源波形信号41
5と、p個の係数器511.〜511゜からの出力信号
が加算器517に供給され、該加算器517の加算出力
信号は、係数器5111および別な加算器519に共通
に供給されるものである。また、加算器519には、q
個の係数器513+〜513qの出力信号も供給され、
合成音声信号421が出力されるようになっている。
Vocal cord sound source waveform signal 41 from vocal cord sound source waveform generation section 413
5, and p coefficient multipliers 511. The output signal from .about.511.degree. Further, the adder 519 has q
Output signals of coefficient units 513+ to 513q are also supplied,
A synthesized audio signal 421 is output.

(ii−2)″−人壮装の作 上述した構成による音声合成装置において、「(i)音
声分析装置」にて前述した「音声分析装置」の最適パラ
メータ決定部223からの音源波形パラメータ信号22
7によって提供される音源波形パラメータが、先ず、声
帯音源波形生成部413に与えられる。この声帯音源波
形生成部413は、前述した「音声分析装置」の声帯音
源波形生成部215と同じ構成および動作を為すもので
あり、与えられた音源波形パラメータ(ピッチ周期T、
声門開放時間W、声門開放区間内での音源の歪みS、声
門閉鎖から体積流が負の最大値に達する時間り、声門開
放開始時の体積流波形の傾きA、声門閉鎖直前の体積流
波形の傾きBおよび声門閉鎖直後の体積流波形の傾きC
の7種のパラメータ)に基づいて、音源波形をモデル化
して声帯音源波形g(t)を生成し、声帯音源波形信号
415として出力する。
(ii-2)''-In the speech synthesis device with the configuration described above, the sound source waveform parameter signal from the optimal parameter determining unit 223 of the "speech analysis device" described above in "(i) Speech analysis device" 22
The sound source waveform parameters provided by 7 are first given to the vocal cord sound source waveform generation section 413. This vocal cord sound source waveform generation unit 413 has the same configuration and operation as the vocal cord sound source waveform generation unit 215 of the above-mentioned “speech analysis device”, and has the same configuration and operation as the vocal cord sound source waveform generation unit 215 of the “speech analysis device” described above.
Glottal opening time W, distortion of the sound source within the glottal opening section S, time from glottal closure until the volume flow reaches the negative maximum value, slope A of the volume flow waveform at the start of glottal opening, volume flow waveform just before glottal closure. and the slope C of the volume flow waveform immediately after glottal closure.
(7 types of parameters), the sound source waveform is modeled to generate a vocal cord sound source waveform g(t), which is output as a vocal cord sound source waveform signal 415.

一方、これに対して、ARMAフィルタ419内のp個
の係数器5111.511g、・・・・・・、511Q
、・・・・・・、511pの係数は、ARパラメータα
! (α1.αz、°9°I”、 Q’q、 ”−−−
−、αp)に応じて変化し、当該ARMAフィルタ41
9にとって最適な係数が決定される。同様にして、他の
q個の係数器513..513g、・・・・・・、51
3qのそれぞれの係数も、MAパラメータβ五 (β1
.β2.・・・・・・、βQ)に応じて変化して決定さ
れる。
On the other hand, p coefficient units 5111.511g, . . . , 511Q in the ARMA filter 419
,..., the coefficient of 511p is the AR parameter α
! (α1.αz, °9°I", Q'q, "---
−, αp), and the ARMA filter 41
The optimal coefficient for 9 is determined. Similarly, other q coefficient units 513. .. 513g, 51
Each coefficient of 3q is also determined by the MA parameter β5 (β1
.. β2. . . . , βQ).

そのように、音声合成する上で最適なものとして決定さ
れたp個の係数器5111〜511.および他のq個の
係数器5131〜513.のそれぞれの係数に基づいて
、声帯音源波形生成部413においてモデル化された声
帯音源波形信号415  (g(t))をフィルタリン
グする。
In this way, p coefficient units 5111 to 511 . and other q coefficient units 5131 to 513. The modeled vocal fold sound source waveform signal 415 (g(t)) is filtered in the vocal fold sound source waveform generation unit 413 based on each coefficient of .

いま、加算器517の出力信号をS %17とすると、
第1遅延素子5151の出力信号5SISIは、加算器
517の出力信号5SI7を単位時間(時間要素Zで定
まる)だけ遅延させたものである。また、第2遅延素子
515□の出力信号ss+szは、第1遅延素子515
Iの出力信号5sISIを単位時間だけ遅延させたもの
である。同様にして、他の遅延素子の出力信号は、順次
単位時間だけ遅延されている。
Now, if the output signal of the adder 517 is S%17, then
The output signal 5SISI of the first delay element 5151 is the output signal 5SI7 of the adder 517 delayed by a unit time (determined by the time element Z). Further, the output signal ss+sz of the second delay element 515□ is the output signal ss+sz of the second delay element 515
The output signal 5sISI of I is delayed by a unit time. Similarly, the output signals of other delay elements are sequentially delayed by a unit time.

そのため、係数器511.および他の係数器513+の
出力信号S!1111およびS S13+は、α、・S
 s1%1およびβ2 ・5sts+で表される。また
、次の係数器5118および他の係数器513gの出力
信号SS+□およびSSt。は、α2・ SSI□およ
びβ2 ・ss+szで表される。その他の係数器につ
いても同様にして、各遅延素子による出力信号を係数倍
して出力する。
Therefore, the coefficient unit 511. and the output signal S of the other coefficient multiplier 513+! 1111 and S S13+ are α,・S
It is expressed as s1%1 and β2 ·5sts+. Further, the output signals SS+□ and SSt of the next coefficient multiplier 5118 and the other coefficient multiplier 513g. is expressed as α2・SSI□ and β2・ss+sz. Similarly, for the other coefficient units, the output signal from each delay element is multiplied by the coefficient and outputted.

これらp個の係数器511.〜511.の出力信号が前
段の加算器517に供給され、声帯音源波形生成部41
3からの声帯音源波形(g(t) )信号415との総
計和が取られる。
These p coefficient units 511. ~511. The output signal is supplied to the adder 517 in the previous stage, and
3 is summed with the vocal cord source waveform (g(t)) signal 415 from 3.

また、他のq個の係数器5131〜513qの出力信号
が後段の係数供給519に供給され、加算器517の出
力信号S、17と共に総計和が取られる。この加算器5
19によって合成された音声信号が、当該音声合成装置
の合成音声信号421として出力される。
Further, the output signals of the other q coefficient units 5131 to 513q are supplied to the subsequent stage coefficient supply 519, and the total sum is taken together with the output signals S and 17 of the adder 517. This adder 5
The voice signal synthesized by step 19 is output as a synthesized voice signal 421 of the voice synthesizer.

見−大施斑曵圭上泣 このように、本発明実施例の「音声分析装置」にあって
は、複数のモデル化パラメータを選択的に決定して音源
波形をモデル化し、そのモデル化による音源波形に基づ
いて入力音声信号211を自己回帰移動平均分析し、そ
のときの誤差に応じて、最適なパラメータを決定するこ
とにより、音声分析を行なう。
As described above, in the "speech analysis device" according to the embodiment of the present invention, the sound source waveform is modeled by selectively determining a plurality of modeling parameters, and the Audio analysis is performed by performing autoregressive moving average analysis on the input audio signal 211 based on the sound source waveform and determining optimal parameters according to the error at that time.

また、「音声合成装置」にあっては、音声分析装置側で
の自己回帰移動平均分析によって得られた音源波形パラ
メータに応じて声帯音源波形生成部413で音源波形を
モデル化している。更に、音声分析装置側での自己回帰
移動平均分析によって得られたARパラメータα、、M
Aパラメータβ直に応じて、ARMAフィルタ419が
音声合成を行なっている。
Further, in the "speech synthesis device", the vocal cord sound source waveform generation unit 413 models the sound source waveform according to the sound source waveform parameters obtained by autoregressive moving average analysis on the speech analysis device side. Furthermore, the AR parameters α, , M obtained by autoregressive moving average analysis on the voice analysis device side
An ARMA filter 419 performs speech synthesis in accordance with the A parameter β.

いずれも、ARMAによっているので、音声に関する情
報量が効率的に圧縮され、且つ、高品質な合成音声が得
られることとなる。
Since both are based on ARMA, the amount of information related to speech is efficiently compressed, and high-quality synthesized speech can be obtained.

第6図は、原音声の周波数スペクトル(ORIG)と本
方式(GARMA)および従来方式(ARMA、GLP
C,LPC)によって推定された鼻音化母音の周波数ス
ペクトル包絡の比較を示している。
Figure 6 shows the frequency spectrum of the original voice (ORIG), this method (GARMA), and the conventional methods (ARMA, GLP).
Figure 3 shows a comparison of the frequency spectral envelopes of nasalized vowels estimated by C, LPC).

ここで、本方式(GARMA)は、分析用の「音響フィ
ルタ」としてARMAモデルに基づく極零フィルタを、
また、「音源」として第3図に示す声帯音源波形を採用
している。
Here, this method (GARMA) uses a pole-zero filter based on the ARMA model as an "acoustic filter" for analysis.
Furthermore, the vocal cord sound source waveform shown in FIG. 3 is used as the "sound source".

これに対して、従来方式としてのARMAは、分析用の
「音響フィルタ」としてARMAモデルに基づく極零フ
ィルタを、「音源」としてパルスを採用した場合である
。また、従来方式のGLPCは、「音響フィルタ」とし
て線形予測法による全権型フィルタを、「音源」として
第3図に示す声帯音源波形を採用した場合である。更に
、従来方式のLPGは、「音響フィルタ」として線形予
測法による全極型フィルタを、「音源」としてパルスを
採用した場合である。
On the other hand, ARMA as a conventional method employs a pole-zero filter based on the ARMA model as an "acoustic filter" for analysis and a pulse as a "sound source." Furthermore, in the conventional GLPC, an all-powerful filter based on a linear prediction method is used as an "acoustic filter", and a vocal cord sound source waveform shown in FIG. 3 is used as a "sound source". Further, in the conventional LPG, an all-pole filter based on a linear prediction method is used as the "acoustic filter" and a pulse is used as the "sound source".

このように、本方式(GARMA)は、従来方式に比較
してより良く原音のスペクトル包絡ヲ近似しており、再
生の際には原音に忠実となることが分かる。
In this way, it can be seen that the present method (GARMA) approximates the spectral envelope of the original sound better than the conventional method, and is faithful to the original sound during reproduction.

ところで、本発明実施例は、特に、有声音に対して有効
であり、無声音部分に対して分析を行なう場合、例えば
、その部分だけ、従来の波形符号化方式を用い、本発明
実施例による方式と従来用いられている方式とを組み合
わせて、本発明を実施することができる。
By the way, the embodiments of the present invention are particularly effective for voiced sounds, and when analyzing an unvoiced sound part, for example, only that part can be analyzed using the conventional waveform encoding method and the method according to the embodiments of the present invention. The present invention can be implemented by combining this method with a conventionally used method.

■、  の・形態様 なお、上述した本発明の実施例にあっては、「音声分析
装置」および「音声合成装置」を対として一体的に構成
されるようにしたが、これに限られることはない。つま
り、音声分析装置および音声合成装置は互いに別々に構
成され且つ使用され得るものである。従って、例えば、
ある1つの「音声分析装置」によって得られた分析結果
たる種々のパラメータ(音源波形パラメータおよびAR
MAパラメータ)をROM等によって、複数の「音声合
成装置」のそれぞれに個別に提供し、各音声合成装置に
おいて個別に音声合成を行なうよにしてもよい。
■Form of the invention In the embodiment of the present invention described above, the "speech analysis device" and the "speech synthesis device" are integrally configured as a pair, but the invention is not limited to this. There isn't. That is, the speech analysis device and the speech synthesis device can be configured and used separately from each other. Therefore, for example,
Various parameters (sound source waveform parameters and AR
MA parameters) may be individually provided to each of a plurality of "speech synthesis devices" using a ROM or the like, and the speech synthesis may be performed individually in each speech synthesis device.

また、「1.実施例と第1図との対応関係」において、
第1図と本発明との対応関係を説明しておいたが、これ
に限られることはなく、各種の変形態様があることは当
業者であれば容易に推考できるであろう。
In addition, in "1. Correspondence between Examples and FIG. 1",
Although the correspondence between FIG. 1 and the present invention has been described, those skilled in the art will easily imagine that the present invention is not limited to this and that there are various modifications.

〔発明の効果〕〔Effect of the invention〕

上述したように、本発明による音声分析装置では、音源
波形モデル化のパラメータを選択的に決定して音源波形
をモデル化し、そのモデル化による音源波形に基づいて
入力音声信号を自己回帰移動平均分析し、そのときの誤
差に応じて最適なパラメータを決定することによって音
声分析を行なうようにしている。
As described above, in the speech analysis device according to the present invention, the sound source waveform is modeled by selectively determining the sound source waveform modeling parameters, and the input speech signal is subjected to autoregressive moving average analysis based on the modeled sound source waveform. Then, voice analysis is performed by determining the optimal parameters according to the error at that time.

また、本発明による音声合成装置では、そのような自己
回帰移動平均分析によって得られた各種のパラメータに
応し、音源波形のモデル化用に導入されるパラメータに
基づいて音源波形をモデル化し、自己回帰移動平均分析
において得られた複数のパラメータを受けて音声合成を
行なうようにしている。
Furthermore, in the speech synthesis device according to the present invention, the sound source waveform is modeled based on the parameters introduced for modeling the sound source waveform in accordance with the various parameters obtained by such autoregressive moving average analysis. Speech synthesis is performed in response to a plurality of parameters obtained in regression moving average analysis.

従って、自己回帰移動平均分析および合成による結果と
して、音声に関する情報量が効率的に圧縮され且つ高品
質な合成音声が得られるので、実用的には極めて有用で
ある。
Therefore, as a result of autoregressive moving average analysis and synthesis, the amount of information regarding speech is efficiently compressed and high-quality synthesized speech is obtained, which is extremely useful in practice.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は本発明の原理ブロック図、 第2図は本発明の一実施例による音声分析装置の構成ブ
ロック図、 第3図は第2図に示す音声分析装置において利用される
音源波形の説明図、 第4図は本発明の一実施例による音声合成装置の構成ブ
ロック図、 第5図は第4図に示す音声合成装置に用いられるARM
Aフィルタの具体的な構成を示すブロック図、 第6図は本発明実施例による方式と従来方式とによる音
声の周波数スペクトル包絡の比較を示す説明図である。 図において、 111はモデル化パラメータ信号、 113はパラメータ決定手段、 115は音源波形信号、 117は音源波形生成手段、 119は入力音声信号、 121は誤差信号、 123は分析パラメータ出力信号、 125は自己回帰移動平均分析手段、 131はモデル化パラメータ信号、 133は音源波形信号、 135は音源波形生成手段、 137はパラメータ信号、 139は合成音声出力信号、 141は自己回帰移動平均合成手段、 211は入力音声信号、 213はARMA分析部、 215は声帯音源波形生成部、 217は声帯音源波形信号、 219はARMAパラメータ信号、 223は最適パラメータ決定部、 225はパラメータ選択部、 227は音源波形パラメータ信号、 411は音源波形パラメータ信号、 413は声帯音源波形生成部、 415は声帯音源波形信号、 417はARMAパラメータ信号、 419はARMAフィルタ、 421は合成音声信号、 5111〜511..5131〜513.は係数器、 515I〜515.は遅延素子、 517.519は加算器である。 不順←日月め原理ブ゛ロツク口 第1図(A) 不釜明の馴す17亡ツク図 第1図CB) ¥1色詩1]の塙へ図 第2図 音左1奇簡説哨口 第3図 第4図 第6図
FIG. 1 is a block diagram of the principle of the present invention. FIG. 2 is a block diagram of the configuration of a speech analysis device according to an embodiment of the invention. FIG. 3 is an explanation of the sound source waveform used in the speech analysis device shown in FIG. 4 is a block diagram of the configuration of a speech synthesis device according to an embodiment of the present invention, and FIG. 5 is an ARM used in the speech synthesis device shown in FIG. 4.
FIG. 6 is a block diagram showing a specific configuration of the A filter. FIG. 6 is an explanatory diagram showing a comparison of frequency spectrum envelopes of audio between the method according to the embodiment of the present invention and the conventional method. In the figure, 111 is a modeling parameter signal, 113 is a parameter determining means, 115 is a sound source waveform signal, 117 is a sound source waveform generating means, 119 is an input audio signal, 121 is an error signal, 123 is an analysis parameter output signal, and 125 is a self Regression moving average analysis means, 131 is a modeling parameter signal, 133 is a sound source waveform signal, 135 is a sound source waveform generation means, 137 is a parameter signal, 139 is a synthesized audio output signal, 141 is an autoregressive moving average synthesis means, 211 is an input 213 is an ARMA analysis unit, 215 is a vocal cord sound source waveform generation unit, 217 is a vocal cord sound source waveform signal, 219 is an ARMA parameter signal, 223 is an optimal parameter determination unit, 225 is a parameter selection unit, 227 is a sound source waveform parameter signal, 411 is a sound source waveform parameter signal, 413 is a vocal cord sound source waveform generator, 415 is a vocal cord sound source waveform signal, 417 is an ARMA parameter signal, 419 is an ARMA filter, 421 is a synthesized speech signal, 5111 to 511. .. 5131-513. is a coefficient unit, 515I to 515. is a delay element, and 517 and 519 are adders. Irregular← Sun Moon Principle Block Diagram 1 (A) 17 Deaths of Uncooked Memories Diagram 1 CB) ¥1 Color Poetry 1] To the Hanawa Diagram 2 Symbol Sound Left 1 Odd Simplified Explanation Guard gate Figure 3 Figure 4 Figure 6

Claims (6)

【特許請求の範囲】[Claims] (1)音源波形のモデル化に必要な複数のパラメータを
選択的に決定し、該決定されたパラメータを表すモデル
化パラメータ信号(111)を出力するパラメータ決定
手段(113)と、 該モデル化パラメータ信号(111)によって表される
前記複数のパラメータに応じて音源波形のモデル化を行
ない、そのモデル化された音源波形を表す音源波形信号
(115)を出力する音源波形生成手段(117)と、 分析対象の入力音声信号(119)および音源波形信号
(115)を受けて自己回帰移動平均分析を行なって誤
差を求め、該誤差を表す誤差信号(121)をパラメー
タ決定手段(113)に供給するすると共に、前記自己
回帰移動平均分析によるパラメータを表す分析パラメー
タ出力信号(123)を出力する自己回帰移動平均分析
手段(125)と、 を具え、誤差信号(121)によって表される前記誤差
に応じて、パラメータ決定手段(113)の前記複数の
パラメータを変化させて最適なパラメータを決定するよ
うに構成したことを特徴とする音声分析装置。
(1) Parameter determining means (113) for selectively determining a plurality of parameters necessary for modeling a sound source waveform and outputting a modeling parameter signal (111) representing the determined parameters; and the modeling parameters. a sound source waveform generating means (117) that models a sound source waveform according to the plurality of parameters represented by the signal (111) and outputs a sound source waveform signal (115) representing the modeled sound source waveform; Upon receiving the input audio signal (119) to be analyzed and the sound source waveform signal (115), an autoregressive moving average analysis is performed to obtain an error, and an error signal (121) representing the error is supplied to the parameter determining means (113). and an autoregressive moving average analysis means (125) for outputting an analysis parameter output signal (123) representing a parameter resulting from the autoregressive moving average analysis, and according to the error represented by the error signal (121). A speech analysis device characterized in that the plurality of parameters of the parameter determining means (113) are changed to determine the optimum parameters.
(2)前記音源波形のモデル化に必要な複数のパラメー
タは、声帯音源波形モデルを規定するピッチ周期、声門
開放時間、声門開放区間内での音源の歪み、声門閉鎖か
ら体積流が負の最大値に達する時間、声門開放開始時の
体積流波形の傾き、声門閉鎖直前の体積流波形の傾きお
よび声門閉鎖直後の体積流波形の傾きの7種であること
を特徴とする特許請求の範囲第1項記載の音声分析装置
(2) The multiple parameters necessary for modeling the sound source waveform are the pitch period that defines the vocal fold sound source waveform model, the glottal opening time, the distortion of the sound source within the glottal opening section, and the negative maximum volume flow from glottal closure. Claim 1, characterized in that there are seven types of volume flow waveforms: the time to reach a value, the slope of the volume flow waveform at the start of glottal opening, the slope of the volume flow waveform immediately before glottal closure, and the slope of the volume flow waveform immediately after glottal closure. The speech analysis device according to item 1.
(3)パラメータ決定手段(113)における前記複数
のパラメータの最適化は、誤差信号(121)によって
表される誤差が最小となる方向で、前記複数のパラメー
タを変化させるように構成したことを特徴とする特許請
求の範囲第1項記載の音声分析装置。
(3) Optimization of the plurality of parameters in the parameter determining means (113) is characterized in that the plurality of parameters are changed in a direction in which the error represented by the error signal (121) is minimized. A speech analysis device according to claim 1.
(4)分析パラメータ出力信号(123)によって表さ
れる前記パラメータは、自己回帰移動平均分析手段(1
25)での自己回帰移動平均分析によって得られる自己
回帰移動平均パラメータであることを特徴とする特許請
求の範囲第1項記載の音声分析装置。
(4) The parameter represented by the analysis parameter output signal (123) is determined by the autoregressive moving average analysis means (1
25) The speech analysis device according to claim 1, wherein the speech analysis device is an autoregressive moving average parameter obtained by autoregressive moving average analysis in step 25).
(5)分析対象の音声信号を自己回帰移動平均分析する
際に必要とされる音源波形をモデル化するために得られ
る複数の第1パラメータを表すモデル化パラメータ信号
(131)を受け、該第1パラメータに基づいて音源波
形をモデル化し、該モデル化した音源波形を表す音源波
形信号(133)を出力する音源波形生成手段(135
)と、前記自己回帰移動平均分析において得られた複数
の第2パラメータを表すパラメータ信号(137)を受
けると共に、音源波形生成手段(135)からの音源波
形信号(133)を受けて、前記第1パラメータおよび
第2パラメータに基づいて音声合成を行なって合成音声
出力信号(139)を出力する自己回帰移動平均合成手
段(141)と、を具えるように構成したことを特徴と
する音声合成装置。
(5) Receive a modeling parameter signal (131) representing a plurality of first parameters obtained for modeling a sound source waveform required when performing an autoregressive moving average analysis of an audio signal to be analyzed; a sound source waveform generating means (135) that models a sound source waveform based on one parameter and outputs a sound source waveform signal (133) representing the modeled sound source waveform;
), a parameter signal (137) representing a plurality of second parameters obtained in the autoregressive moving average analysis, and a sound source waveform signal (133) from the sound source waveform generating means (135). A speech synthesis device comprising an autoregressive moving average synthesis means (141) that performs speech synthesis based on one parameter and a second parameter and outputs a synthesized speech output signal (139). .
(6)前記第1パラメータは声帯音源波形モデルを規定
するのに必要なピッチ周期、声門開放時間、声門開放区
間内での音源の歪み、声門閉鎖から体積流が負の最大値
に達する時間、声門開放開始時の体積流波形の傾き、声
門閉鎖直前の体積流波形の傾きおよび声門閉鎖直後の体
積流波形の傾きの7種のパラメータであり、また、前記
第2パラメータは自己回帰移動平均パラメータであるこ
とを特徴とする特許請求の範囲第5項記載の音声合成装
置。
(6) The first parameter is the pitch period necessary to define the vocal fold sound source waveform model, the glottal opening time, the distortion of the sound source within the glottal opening section, the time from which the volume flow reaches the negative maximum value from glottal closure, There are seven parameters: the slope of the volume flow waveform at the start of glottis opening, the slope of the volume flow waveform just before glottis closure, and the slope of the volume flow waveform immediately after glottis closure, and the second parameter is an autoregressive moving average parameter. A speech synthesis device according to claim 5, characterized in that:
JP62079208A 1987-03-31 1987-03-31 Speech analyzer and speech synthesizer Expired - Fee Related JP2583883B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62079208A JP2583883B2 (en) 1987-03-31 1987-03-31 Speech analyzer and speech synthesizer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62079208A JP2583883B2 (en) 1987-03-31 1987-03-31 Speech analyzer and speech synthesizer

Publications (2)

Publication Number Publication Date
JPS63244100A true JPS63244100A (en) 1988-10-11
JP2583883B2 JP2583883B2 (en) 1997-02-19

Family

ID=13683526

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62079208A Expired - Fee Related JP2583883B2 (en) 1987-03-31 1987-03-31 Speech analyzer and speech synthesizer

Country Status (1)

Country Link
JP (1) JP2583883B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03222000A (en) * 1990-01-29 1991-09-30 Nec Corp Voice analyzing device using vocal cord sound source wave model
JP2009244723A (en) * 2008-03-31 2009-10-22 Nippon Telegr & Teleph Corp <Ntt> Speech analysis and synthesis device, speech analysis and synthesis method, computer program and recording medium
JP2018141917A (en) * 2017-02-28 2018-09-13 国立研究開発法人情報通信研究機構 Learning device, speech synthesis system and speech synthesis method

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6118887A (en) * 1984-07-06 1986-01-27 Yokogawa Hokushin Electric Corp Chopper

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6118887A (en) * 1984-07-06 1986-01-27 Yokogawa Hokushin Electric Corp Chopper

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03222000A (en) * 1990-01-29 1991-09-30 Nec Corp Voice analyzing device using vocal cord sound source wave model
JP2009244723A (en) * 2008-03-31 2009-10-22 Nippon Telegr & Teleph Corp <Ntt> Speech analysis and synthesis device, speech analysis and synthesis method, computer program and recording medium
JP2018141917A (en) * 2017-02-28 2018-09-13 国立研究開発法人情報通信研究機構 Learning device, speech synthesis system and speech synthesis method

Also Published As

Publication number Publication date
JP2583883B2 (en) 1997-02-19

Similar Documents

Publication Publication Date Title
JP2787179B2 (en) Speech synthesis method for speech synthesis system
RU2439721C2 (en) Audiocoder for coding of audio signal comprising pulse-like and stationary components, methods of coding, decoder, method of decoding and coded audio signal
JP4843124B2 (en) Codec and method for encoding and decoding audio signals
US7228272B2 (en) Continuous time warping for low bit-rate CELP coding
US8229738B2 (en) Method for differentiated digital voice and music processing, noise filtering, creation of special effects and device for carrying out said method
JP4705203B2 (en) Voice quality conversion device, pitch conversion device, and voice quality conversion method
US7013270B2 (en) Determining linear predictive coding filter parameters for encoding a voice signal
US6041297A (en) Vocoder for coding speech by using a correlation between spectral magnitudes and candidate excitations
EP0380572A1 (en) Generating speech from digitally stored coarticulated speech segments.
JPH0677200B2 (en) Digital processor for speech synthesis of digitized text
WO2003010752A1 (en) Speech bandwidth extension apparatus and speech bandwidth extension method
Rabiner et al. Computer synthesis of speech by concatenation of formant-coded words
JPS63244100A (en) Voice analyzer and voice synthesizer
JP4433668B2 (en) Bandwidth expansion apparatus and method
JP4438280B2 (en) Transcoder and code conversion method
Verfaille et al. Adaptive effects based on STFT, using a source-filter model
JP4451633B2 (en) Optimal window generation method, window optimization processing device, program, linear prediction analysis optimization method, and linear prediction analysis optimization device
US7130799B1 (en) Speech synthesis method
JP3394281B2 (en) Speech synthesis method and rule synthesizer
JPS61128299A (en) Voice analysis/analytic synthesization system
JP2003323200A (en) Gradient descent optimization of linear prediction coefficient for speech coding
JP3199128B2 (en) Audio encoding method
JPS61259300A (en) Voice synthesization system
Wiggins Low Cost Voice Response Systems Based on Speech Synthesis
JPS5950079B2 (en) Speech synthesis method

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees