JP2004226968A - Device and method for speech synthesis - Google Patents
Device and method for speech synthesis Download PDFInfo
- Publication number
- JP2004226968A JP2004226968A JP2004008193A JP2004008193A JP2004226968A JP 2004226968 A JP2004226968 A JP 2004226968A JP 2004008193 A JP2004008193 A JP 2004008193A JP 2004008193 A JP2004008193 A JP 2004008193A JP 2004226968 A JP2004226968 A JP 2004226968A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- audio signal
- processor
- sampling
- latch circuit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000015572 biosynthetic process Effects 0.000 title abstract description 33
- 238000003786 synthesis reaction Methods 0.000 title abstract description 33
- 238000000034 method Methods 0.000 title abstract description 13
- 238000005070 sampling Methods 0.000 claims abstract description 79
- 230000001960 triggered effect Effects 0.000 claims abstract description 16
- 230000005236 sound signal Effects 0.000 claims description 112
- 238000001308 synthesis method Methods 0.000 claims 3
- 230000004044 response Effects 0.000 claims 1
- 238000012546 transfer Methods 0.000 abstract description 23
- 238000012545 processing Methods 0.000 abstract description 7
- 230000002194 synthesizing effect Effects 0.000 description 7
- 230000003111 delayed effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
- Analogue/Digital Conversion (AREA)
Abstract
Description
本発明は音声合成装置及び方法に関し、特に、ラッチ回路を用い音声信号のジッターを防止する音声合成装置及び方法に関する。 The present invention relates to a voice synthesizing apparatus and method, and more particularly, to a voice synthesizing apparatus and method for preventing jitter of a voice signal using a latch circuit.
情報技術の急速な発展及び通信ネットワークの普及に伴い、ディジタル化音声合成技術は広く応用されている。例えば、電子玩具や移動電話などにおいて、音声の符号化技術は音声の転送によく用いられている。特に、音声合成技術を音声の圧縮に用いることによって、ユーザが合成後の音声効果を明確に視聴でき、娯楽及び相互交流の目的を達成できる。 With the rapid development of information technology and the spread of communication networks, digitized speech synthesis technology has been widely applied. For example, in an electronic toy, a mobile phone, or the like, a voice coding technique is often used for voice transfer. In particular, by using the voice synthesis technology for voice compression, the user can clearly view the voice effect after the synthesis, thereby achieving the purpose of entertainment and mutual exchange.
図1は従来の音声合成システムの構成を示すブロック図である。 FIG. 1 is a block diagram showing the configuration of a conventional speech synthesis system.
図1に示す音声合成システムは、プロセッサ100、レジスター102、ディジタル・アナログ(D/A)変換器104、及びスピーカ106を含む。
The speech synthesis system shown in FIG. 1 includes a
動作中に、クロック信号108はプロセッサ100とレジスター102に入力され、プロセッサ100はクロック信号108の周期で音声信号データについて復号化の計算を行ない、復号された音声信号を生成する(以下、プロセッサが出力した復号された音声信号を復号化音声信号と言う)。レジスター102もクロック信号108にトリガーされ、プロセッサ100から出力された復号化音声信号を取り入れ、当該信号は順次D/A変換器104及びスピーカ106に転送される。
During operation, the
図2は、図1に示す音声合成システムの出力のタイミング・チャートである。 FIG. 2 is a timing chart of the output of the speech synthesis system shown in FIG.
図2において、横軸は時間、縦軸は信号の振幅をそれぞれ表し、T1、T2、…、Tnは音声信号のサンプリング・サイクル(sampling cycle: SP)を表し、D1、D2、…、Dnは、プロセッサ100が各サンプリング・サイクル(T1、T2、…、Tn)の範囲内にファームウエアによるサブルーチン計算で得られた復号化音声信号を表す。 In FIG. 2, the horizontal axis represents time, the vertical axis represents signal amplitude, T1, T2,..., And Tn represent sampling cycles (SP) of the audio signal, and D1, D2,. , Tn represents the decoded audio signal obtained by the subroutine calculation by the firmware within the range of each sampling cycle (T1, T2,..., Tn).
理論上、信号D1とD2を例とすれば、プロセッサ100はサンプリング・サイクルT1とT2がそれぞれ終了する前に信号D1とD2を順次レジスター102に転送すれば、D/A変換器104に信号D1とD2を供給することができる。D3など他の信号についても同様である。
In theory, taking the signals D1 and D2 as an example, the
しかし、実際に、例えば、サンプリング・サイクルT2において、プロセッサ100が音声データについて復号化を行なう以外に、周辺からの割り込み信号I1を受信することもあり、そのため、プロセッサ100は命令時間を使ってこのような割り込み信号I1を処理しなければならない、その結果、プロセッサ100はサンプリング・サイクルT2内に信号D2を得るための計算を完了できず、次のサンプリング・サイクルT3に遅延することになる。即ち、プロセッサ100はサンプリング・サイクルT2の範囲内に音声信号D2をレジスター102に転送することができず、その転送は次のサンプリング・サイクルT3に遅延される。
However, in practice, for example, in the sampling cycle T2, the
特にマルチ・メディア音声合成システムにおいて、一つのサンプリング・サイクルにおいて、プロセッサ100は多くの割り込み信号Inを受信することがある。このような割り込み信号の処理はプロセッサ100の命令時間を使用するので、プロセッサ100は所定のサンプリング・サイクル内に復号化音声信号を生成することができない。その結果、D/A変換器104は予定通りにレジスター102から音声信号を読み取ることができず、よって、音声信号全体の合成波形に歪みが生じ、音声信号のジッター(jitter)現象は起きる。言い換えれば、音声信号のジッターは、プロセッサ100が音声データを合成する際に、合成音声信号における信号の歪み或いは雑音を伴い、音声合成の品質を低減させる。
Particularly in a multimedia speech synthesis system, in one sampling cycle, the
したがって、音声合成システムにおいて、いかに音声信号のジッターを除去し、高品質な音声合成信号を生成するかは、この分野における重要な課題となっている。 Therefore, how to remove jitter of a voice signal and generate a high-quality voice synthesized signal in a voice synthesis system is an important issue in this field.
本発明の一つの目的は、計時手段からのサンプリング信号を用いラッチ回路を制御しレジスターから復号化音声信号を読み取ることにより、プロセッサにおける命令時間の競合の問題を解決し、処理能力を高めた音声合成装置及び方法を提供することにある。 One object of the present invention is to solve the problem of instruction time contention in a processor by controlling a latch circuit using a sampling signal from a timing unit and reading a decoded audio signal from a register, thereby improving audio processing. An object of the present invention is to provide a synthesizing apparatus and method.
また、本発明の他の目的は、複数の計時手段からの非同期の複数のサンプリング信号により複数のラッチ回路をトリガーし、サンプリング信号の周期で復号化音声信号を転送することにより、合成音声信号におけるジッターを防止することができる音声合成装置及び方法を提供することにある。 Further, another object of the present invention is to trigger a plurality of latch circuits by a plurality of asynchronous sampling signals from a plurality of time measuring means, and to transfer a decoded voice signal at a period of the sampling signal, thereby obtaining a synthesized voice signal. It is an object of the present invention to provide a voice synthesizing apparatus and method capable of preventing jitter.
また、本発明の他の目的は、複数の計時手段からの非同期の複数のサンプリング信号によりサンプリング周波数の異なる複数チャンネルの音声信号を生成することにより、復号音声信号を記憶するのに必要な記憶容量を低減し、システムの製造コストを削減することができる音声合成装置及び方法を提供することにある。 Further, another object of the present invention is to generate a plurality of channels of audio signals having different sampling frequencies by using a plurality of asynchronous sampling signals from a plurality of time measuring means, so that a storage capacity required for storing decoded audio signals is obtained. It is an object of the present invention to provide a speech synthesizing apparatus and method that can reduce the cost of the system and reduce the manufacturing cost of the system.
以上の目的を達成するために、本発明の音声合成装置は、音声信号データから合成音声信号を生成する音声合成装置であって、前記音声信号データを記憶するメモリ、クロック信号によりトリガーされて前記メモリから前記音声信号データを読み取り復号化を行い、復号化音声信号を生成するプロセッサ、前記クロック信号によりトリガーされて前記プロセッサから前記復号化音声信号を受け取るレジスター、サンプリング信号出力する計時手段、計時手段から出力されたサンプリング信号により当該サンプリング信号の周期でトリガーされて前記レジスターから前記復号化音声信号を読み取るラッチ回路、及び前記ラッチ回路からの前記復号化音声信号をディジタル信号からアナログ信号へ変換し、前記合成音声信号を生成するディジタル・アナログ変換器を含む。 In order to achieve the above object, a voice synthesizer of the present invention is a voice synthesizer that generates a synthesized voice signal from voice signal data, wherein the memory stores the voice signal data, and is triggered by a clock signal. A processor that reads and decodes the audio signal data from a memory to generate a decoded audio signal; a register that is triggered by the clock signal to receive the decoded audio signal from the processor; a timer that outputs a sampling signal; A latch circuit that is triggered by the sampling signal output by the sampling signal and reads the decoded audio signal from the register, and converts the decoded audio signal from the latch circuit from a digital signal to an analog signal, Digital for generating the synthesized speech signal Including analog converter.
具体的に、一つ又は複数の計時手段を設け、当該計時手段からのサンプリング信号を用いてラッチ回路の動作を制御することによって、ラッチ回路は所定の周期でレジスター復号化音声信号を読み取り、次の回路に転送する。本発明により、サンプリング信号に同期してすべての復号化音声信号を転送することができるので、合成音声信号におけるジッターを除去することができる。 Specifically, by providing one or a plurality of timing means and controlling the operation of the latch circuit using the sampling signal from the timing means, the latch circuit reads the register decoded audio signal at a predetermined cycle, and To the circuit. According to the present invention, all decoded audio signals can be transferred in synchronization with the sampling signal, so that jitter in the synthesized audio signal can be removed.
また、計時手段とプロセッサは独立して動作し、なおラッチ回路はハードウエアとして音声合成装置に設けられているので、プロセッサの動作が影響されない。即ち、ラッチ回路はプロセッサの命令時間を使用しない、よって、ラッチ回路はサンプリング信号の周期で定時的に復号音声信号を取り込んで転送することができる。 In addition, the clock means and the processor operate independently, and the operation of the processor is not affected since the latch circuit is provided as hardware in the speech synthesizer. That is, the latch circuit does not use the instruction time of the processor, so that the latch circuit can fetch and transfer the decoded audio signal periodically at the cycle of the sampling signal.
プロセッサの実行周期の範囲内に、音声信号データの計算のための命令時間が十分にあり、2以上のサンプリング周期に対応する復号音声信号を形成することができる場合は、本発明の音声合成装置に2以上の計時手段を設け、各計時手段のサンプリング信号にそれぞれ同期して復号化音声信号を取り込んで転送することができる。 If the instruction time for calculating the audio signal data is sufficiently long within the execution cycle of the processor and a decoded audio signal corresponding to two or more sampling cycles can be formed, the speech synthesis apparatus according to the present invention is used. Provided with two or more clocking means, and can fetch and transfer the decoded audio signal in synchronization with the sampling signal of each clocking means.
本発明は特に複数の異なるサンプリング周期(非同期サンプリング信号)による多チャンネル音声合成システムに適している。従来の多チャンネル音声合成システムにおいて、プロセッサが復号音声信号の転送を制御するので、プロセッサは一つの実行周期内に1つ又は複数の音声チャンネルの音声信号データの復号化を完了する必要がある。また、システムの動作の簡略化及び動作の安定性のために、音声チャンネルの間において割り込み信号の共用が禁止されている、即ち、第1の音声チャンネルが第1のサンプリング信号を利用して復号化音声信号を転送している間に、第2の音声チャンネルが第2のサンプリング信号を利用し復号化音声信号を転送することを要求しても、第1の音声チャンネルが音声信号の転送を完了したあとでなければ、プロセッサは第2の音声チャンネルの割り込み要求を処理しない。 The present invention is particularly suitable for a multi-channel speech synthesis system using a plurality of different sampling periods (asynchronous sampling signals). In the conventional multi-channel speech synthesis system, since the processor controls the transfer of the decoded speech signal, the processor needs to complete the decoding of the speech signal data of one or more speech channels within one execution cycle. Also, for simplification of system operation and stability of operation, sharing of interrupt signals between audio channels is prohibited, that is, the first audio channel is decoded using the first sampling signal. While transmitting the decoded audio signal, if the second audio channel requests to transmit the decoded audio signal using the second sampling signal, the first audio channel may transmit the audio signal. Only after completion, the processor will not process the interrupt request for the second audio channel.
これに対して、本発明の場合は、2つの計時手段が別々にラッチ回路をトリガーし、ラッチ回路は第1及び第2のサンプリング周期でレジスターから復号音声信号を取り込んで、定期的に転送する、そのため、各音声チャンネルにおいて復号音声信号が遅滞しない。換言すれば、各音声チャンネルの間に、復号音声信号が相互に影響せず、それぞれの計時手段のサンプリング周期で転送の順序を決めるので、多チャンネル音声合成システムにおいて音声信号のジッター現象は大幅に抑えられる。 On the other hand, in the case of the present invention, the two timing means separately trigger the latch circuit, and the latch circuit takes in the decoded audio signal from the register at the first and second sampling periods and transfers it periodically. Therefore, the decoded audio signal is not delayed in each audio channel. In other words, between the audio channels, the decoded audio signals do not affect each other, and the transfer order is determined by the sampling period of each time-measurement means. Can be suppressed.
本発明によれば、計時手段を用いてラッチ回路を制御し、ラッチ回路がレジスターから復号化音声信号を読み取ることにより、プロセッサにおける命令時間の競合の問題を解決し、特にマルチ・メディア音声合成システムにおけるプロセッサの処理能力を高めることができる。 According to the present invention, a latch circuit is controlled by using a timing unit, and the latch circuit reads a decoded audio signal from a register, thereby solving the problem of instruction time contention in a processor. Can increase the processing capability of the processor.
また、複数の計時手段を用いて非同期の複数のサンプリング信号を生成し、ラッチ回路は各サンプリング信号の周期で順次復号化音声信号を転送することにより、合成音声信号におけるジッターを防止することができる。 Also, a plurality of asynchronous sampling signals are generated by using a plurality of timing means, and the latch circuit can prevent the jitter in the synthesized audio signal by sequentially transmitting the decoded audio signal at the cycle of each sampling signal. .
従来の音声合成装置の問題点を解消すべく、計時手段からのサンプリング信号を用いラッチ回路を制御し、ラッチ回路に能動的にレジスターから復号化音声信号を読み取らせることにより、プロセッサにおける命令時間の競合の問題を解決することができる音声合成装置及び方法を提供する。また、複数の計時手段を用い非同期の複数のサンプリング信号を生成し複数のラッチ回路をトリガーし、ラッチ回路が各サンプリング信号の周期で異なるチャンネルの復号化音声信号を順次転送することにより、音声チャンネルの間に合成音声信号におけるジッターを防止することができる音声合成装置及び方法を提供する。 In order to solve the problem of the conventional speech synthesizer, the latch circuit is controlled by using the sampling signal from the timing means, and the latch circuit is made to actively read the decoded speech signal from the register, thereby reducing the instruction time in the processor. Provided is a speech synthesis device and method capable of solving a contention problem. Also, a plurality of asynchronous sampling signals are generated by using a plurality of timing means, a plurality of latch circuits are triggered, and the latch circuits sequentially transfer decoded audio signals of different channels in a cycle of each sampling signal, thereby providing an audio channel. The present invention provides a voice synthesizing apparatus and method capable of preventing a jitter in a synthesized voice signal during the period.
次に、添付した図面を参照しながら、本発明の実施形態を説明する。 Next, embodiments of the present invention will be described with reference to the accompanying drawings.
図3は本発明の音声合成システムの構成を示すブロック図である。 FIG. 3 is a block diagram showing the configuration of the speech synthesis system of the present invention.
図3に示す音声合成システムは、音声信号データから合成音声信号を生成し、合成音声信号におけるジッターを防止する。音声信号データはメモリに記憶されている。 The voice synthesis system shown in FIG. 3 generates a synthesized voice signal from voice signal data and prevents jitter in the synthesized voice signal. The audio signal data is stored in the memory.
当該音声合成システムは、プロセッサ200、レジスター202、ラッチ回路204、計時手段206、ディジタル・アナログ(D/A)変換器208、メモリ210、及びスピーカ214を含む。
The speech synthesis system includes a
プロセッサ200はメモリ210と接続している。また、プロセッサ200は、クロック信号212にトリガーされ、メモリ210から音声信号データを読み取り、プロセッサ200において復号化を行い、復号化音声信号を生成する。
The
レジスター202はプロセッサ200に接続されている。また、レジスター202もクロック信号212にトリガーされ、プロセッサ200から復号化音声信号を受け取る。
ラッチ回路204はレジスター202に接続されている。また、ラッチ回路204は計時手段206に制御され、レジスター202から復号化音声信号を読み取る。
The
計時手段206はサンプリング信号をラッチ回路204に出力する。ラッチ回路204は当該サンプリング信号の周期でトリガーされ、能動的にレジスター202から復号化音声信号を読み取る。
The
例えば、計時手段206は、一つ又は複数の時間を計測するカウンター(タイマー)からなる。
For example, the
D/A変換器208はラッチ回路204に接続されており、ラッチ回路204からの復号化音声信号をディジタル信号からアナログ信号へ変換し、合成音声信号を生成する。D/A変換器208は該合成音声信号をスピーカ214に出力する。
The D /
好適に、ラッチ回路204は、複数層のデータ構造を有し、複数層の復号化音声信号を格納する。たとえば、これらデータ構造はFIFO(First In First Out)回路を含み、First In First Outの法則で復号化音声信号をD/A変換器208に転送する。
Preferably, the
プロセッサ200は、例えば、6502シリーズのマイクロ・コントローラ、又は、シングル・ボード若しくは汎用の中央演算処理装置CPU(Central Processing Unit)からなる。
The
メモリ210における音声信号データは、例えば、時間ドメインにおいて使われる波形符号化により符号化されたものである、例えば、適応的差分パルス符号変調方式(Adaptive Differential Pulse Code Modulation: ADPCM)、又は、差分パルス符号変調方式(Differential Pulse Code Modulation: DPCM)などがある。
The audio signal data in the
ADPCMは、ディジタル・サンプリング符号化(Digital Sampling Encoding)技術を用い、アナログ音声信号をディジタル信号に変換する。ADPCMは、音声が連続的に変化することを利用して、隣接するサンプルの差を記録するので、同じ音声を記憶するに必要とする容量は、他の符号化方式(例えば、PCM)より少ない。 ADPCM converts an analog audio signal into a digital signal by using digital sampling encoding (Digital Sampling Encoding) technology. Since ADPCM records the difference between adjacent samples using the fact that speech continuously changes, the capacity required to store the same speech is smaller than that of other encoding schemes (eg, PCM). .
具体的に、ラッチ回路204に対して一つ又は複数の計時手段206を設け、計時手段206はサンプリング信号を生成し、ラッチ回路の読み書き動作を制御し、ラッチ回路は所定の周期でレジスター202から復号化音声信号を読み取り、スピーカ214に出力する。プロセッサが復号音声信号の転送を制御する従来の方式と比較して、本発明は、プロセッサ200の使用可能な命令時間を大幅に節約することができる。
Specifically, one or a plurality of timekeeping means 206 is provided for the
本発明において、サンプリング信号に同期してすべての復号化音声信号を転送することができるので、合成音声信号におけるジッターを完全に除去することができる。 In the present invention, all decoded audio signals can be transferred in synchronization with the sampling signal, so that jitter in the synthesized audio signal can be completely removed.
次に、ラッチ回路204に対して一つ又は複数の計時手段206が設けられた場合の動作を説明する。複数の計時手段206が設けられた場合に、各計時手段206を一つの音声チャンネルとして定義する。言い換えれば、複数の音声チャンネルは、複数の計時手段206、複数のラッチ回路204、複数のレジスター202(又はRAM:Random Access Memory)、及び複数のファームウエアに対応する。
Next, an operation in the case where one or a plurality of timing
図4は、図3に示す音声合成システムにおいて、ラッチ回路204に対して1つの計時手段206を設けられる場合のタイミング・チャートを示す。
FIG. 4 is a timing chart in the case where one
図4において、横軸は時間、縦軸は信号の振幅をそれぞれ表し、SCはプロセッサ200の入力信号を、TCは入力信号SCの実行周期をそれぞれ表す。D1は、プロセッサ200の一つの実行周期内に算出した復号化音声信号を表す。SLは、計時手段206のサンプリング信号を、TLはサンプリング信号SLの周期をそれぞれ表す。
4, the horizontal axis represents time, the vertical axis represents signal amplitude, SC represents an input signal of the
動作中に、計時手段206はサンプリング信号SLを用いてラッチ回路204をトリガーし、よって、ラッチ回路204はレジスター202から復号化音声信号D1を読み取り、なお、所定の時間P1に復号化音声信号D1をD/A変換器208に転送する。D/A変換器208は復号化音声信号D1を合成音声信号に変換し、スピーカ214に出力する。
In operation, the timing means 206 triggers the
同じように、ラッチ回路204は順次レジスター202から復号化音声信号D2、…、Dnを読み取り、所定の時間P1、…、PnにD/A変換器208に転送する。
Similarly, the
本発明において、ラッチ回路204は、計時手段206からのサンプリング信号SLを用いてレジスター202から信号を読み取り、なお、計時手段206とプロセッサ200は独立して動作するので、ラッチ回路204はプロセッサ200の動作を影響しない、即ち、ラッチ回路204はプロセッサ200の命令時間を使用しない。
In the present invention, the
具体的に、プロセッサ200は、ラッチ回路204の所定のサンプリング周期の前に、当該サンプリング周期に対応する音声信号データの復号化を完了し、復号化音声信号をレジスター202に記憶すれば、ラッチ回路204はサンプリング信号の周期で順次復号化音声信号を読み込んで、定時的に復号化音声信号をD/A変換器208に転送する。これによって、単一チャンネルの音声合成システムにおいて復号化信号の転送の遅延による音声信号のジッターを完全に抑えられる。
Specifically, the
図5は、図3に示す音声合成システムにおいて、ラッチ回路204に対して複数の計時手段206を設けられる場合のタイミング・チャートを示す。
FIG. 5 shows a timing chart in the case where a plurality of time measuring means 206 are provided for the
図5は基本的に図4と同様であり、ただし、図4は一つの計時手段206の場合を示すのに対して、図5は複数の計時手段206の場合を示している。説明の便宜上、2つの計時手段206を有するとし、それぞれT1とT2とする。 FIG. 5 is basically the same as FIG. 4 except that FIG. 4 shows the case of one clock means 206, whereas FIG. 5 shows the case of a plurality of clock means 206. For convenience of explanation, it is assumed that there are two timekeeping means 206, which are T1 and T2, respectively.
図5において、横軸は時間、縦軸は信号の振幅をそれぞれ表し、SCはプロセッサ200の入力信号を、TCは入力信号SCの実行周期をそれぞれ表す。D11、D21は、プロセッサ200の一つの実行周期内に算出した2つの復号化音声信号を表す。SL1は、第1の計時手段T1のサンプリング信号、TL1はサンプリング信号SL1の周期をそれぞれ表す。SL2は、第2の計時手段T2のサンプリング信号、TL2はサンプリング信号SL2の周期をそれぞれ表す。
5, the horizontal axis represents time, the vertical axis represents signal amplitude, SC represents an input signal of the
動作中に、第1の計時手段T1と第2の計時手段T2はそれぞれサンプリング信号SL1とサンプリング信号SL2によりラッチ回路204をトリガーし、これによって、ラッチ回路204はレジスター202から復号化音声信号D11とD21を読み取り、なお、所定の時間P11、P21に復号化音声信号D11、D21をD/A変換器208に転送する。D/A変換器208は復号化音声信号D11、D21を合成音声信号に変換し、スピーカ214に出力する。同じように、ラッチ回路204は第1の計時手段T1と第2の計時手段T2に順次トリガーされ、レジスター202から順次復号化音声信号(D11、D21)、(D12、D13、D22)、…、(D1m、D2n)を読み取り、所定の時間(P11、P21)、(P12、P13、P22)、…、(P1m、P2n)にD/A変換器208に転送する。
In operation, the first timing means T1 and the second timing means T2 trigger the
本発明において、第1の計時手段T1と第2の計時手段T2とプロセッサ200は独立して動作し、また、ラッチ回路204はハードウエアとして音声合成システムに設置されているので、ラッチ回路204はプロセッサ200の動作を影響しない、即ち、ラッチ回路204はプロセッサ200の命令時間を使用しない。従って、ラッチ回路204は、第1のサンプリング周期と第2のサンプリング周期で定時的に復号化音声信号D11とD21を読み取り、所定の時間P11、P21にD/A変換器208に転送することができる。これによって、合成音声信号におけるジッターは完全に抑えられる。
In the present invention, the first clock unit T1, the second clock unit T2, and the
言い換えれば、プロセッサ200は、実行周期TCの範囲内に、音声信号データの計算のための命令時間が十分にあり、2以上のサンプリング周期に対応する復号音声信号を形成することができる場合は、本発明の音声合成装置におけるラッチ回路204に対して2以上の計時手段206を設け、ラッチ回路204は各計時手段のサンプリング信号にそれぞれ同期して復号化音声信号を読み込んで転送することができる。
In other words, the
本発明は特に複数の異なるサンプリング周期(非同期サンプリング信号)による多チャンネル音声合成システムに適している。従来の多チャンネル音声合成システムにおいて、プロセッサが復号音声信号の転送を制御するので、プロセッサは一つの実行周期内に1つ又は複数の音声チャンネルの音声信号データの復号化を完了する必要がある。また、システムの動作の簡略化及び動作の安定性のために、音声チャンネルの間において割り込み信号の共用が禁止されている、即ち、第1の音声チャンネルが第1のサンプリング信号を利用して復号化音声信号を転送している間に、第2の音声チャンネルが第2のサンプリング信号を利用し復号化音声信号を転送することを要求しても、第1の音声チャンネルが音声信号の転送を完了したあとでなければ、プロセッサは第2の音声チャンネルの割り込み要求を処理しない。そのため、第2の音声チャンネルにおける復号化音声信号が第1の音声チャンネルに制限され、出力された合成音声信号にジッターが生じる。 The present invention is particularly suitable for a multi-channel speech synthesis system using a plurality of different sampling periods (asynchronous sampling signals). In the conventional multi-channel speech synthesis system, since the processor controls the transfer of the decoded speech signal, the processor needs to complete the decoding of the speech signal data of one or more speech channels within one execution cycle. Also, for simplification of system operation and stability of operation, sharing of interrupt signals between audio channels is prohibited, that is, the first audio channel is decoded using the first sampling signal. If the second audio channel uses the second sampling signal to request the transmission of the decoded audio signal while the encoded audio signal is being transmitted, the first audio channel can transmit the audio signal. Only after completion, the processor will not process the interrupt request for the second audio channel. For this reason, the decoded audio signal in the second audio channel is limited to the first audio channel, and jitter is generated in the output synthesized audio signal.
これに対して、本発明の場合は、ラッチ回路204とプロセッサ200は独立しており、また、複数の計時手段206が別々にラッチ回路204をトリガーし、ラッチ回路は能動的に第1及び第2のサンプリング周期でレジスター202から復号音声信号を読み込んで、定時的に転送する、そのため、各音声チャンネルにおいて復号音声信号が遅滞しない。即ち、各音声チャンネルの間に、復号音声信号が相互に影響せず、それぞれの計時手段のサンプリング周期で転送の順序を決めるので、多チャンネル音声合成システムにおいて合成音声信号のジッター現象は大幅に抑えられる。
On the other hand, in the case of the present invention, the
図6は、本発明の音声合成システムの動作を示すフローチャートである。 FIG. 6 is a flowchart showing the operation of the speech synthesis system of the present invention.
ステップS600において、クロック信号212によりプロセッサ200をトリガーし、メモリ210から音声信号データを読み取る。
In step S600, the
ステップS602において、プロセッサ200は音声信号データについて復号化を行い、復号化音声信号を生成する。
At step S602, the
ステップS604において、クロック信号212によりレジスター202をトリガーし、レジスター202はプロセッサ200から復号化音声信号を受け取る。
In step S604, register 202 is triggered by
ステップS606において、複数の計時手段206から出力された複数のサンプリング信号により当該サンプリング信号の各々の周期でラッチ回路204をトリガーし、ラッチ回路204は、当該複数のサンプリング信号の各々に対応して、レジスター202から複数チャンネルの復号化音声信号を読み取る。一つのサンプリング信号は、一つの音声チャンネルの合成音声信号に対応する。ラッチ回路204は各サンプリング信号に基づいて、定時的にレジスター202から復号音声信号を読み込んで、定時的に転送する。これによって、合成音声信号のジッター現象は抑えられる。
In step S606, the
ステップS608において、当該複数チャンネルの復号化音声信号をディジタル信号からアナログ信号へ変換し、複数チャンネルの合成音声信号を生成する。 In step S608, the multi-channel decoded audio signal is converted from a digital signal to an analog signal to generate a multi-channel synthesized audio signal.
ステップS610において、アナログ合成音声信号をスピーカに出力する。 In step S610, an analog synthesized voice signal is output to a speaker.
以上のように、本発明の音声合成装置は、ラッチ回路でレジスターを制御し、計時手段でラッチ回路を制御し、ラッチ回路が能動的にレジスターから復号化音声信号を読み取ることができる。これによって、プロセッサにおける命令時間の競合の問題を解決し、音声合成システムにおけるプロセッサの処理能力を高めることができる。 As described above, in the speech synthesizer of the present invention, the register is controlled by the latch circuit, the latch circuit is controlled by the timing unit, and the latch circuit can actively read the decoded speech signal from the register. As a result, the problem of instruction time contention in the processor can be solved, and the processing capability of the processor in the speech synthesis system can be increased.
また、本発明の音声合成装置は、複数の計時手段を用いて非同期の複数のサンプリング信号を生成し、ラッチ回路は各サンプリング信号の周期で順次復号化音声信号を転送することにより、合成音声信号におけるジッターを防止することができる。 Also, the speech synthesizer of the present invention generates a plurality of asynchronous sampling signals using a plurality of time measuring means, and the latch circuit sequentially transfers the decoded speech signal at a cycle of each sampling signal, thereby obtaining a synthesized speech signal. Can be prevented.
また、本発明の音声合成装置は、複数の計時手段からの非同期の複数のサンプリング信号によりサンプリング周波数の異なる複数チャンネルの音声信号を生成することにより、復号音声信号を記憶するのに必要な記憶容量を低減し、システムの製造コストを削減することができる。 In addition, the speech synthesizer of the present invention generates a plurality of channels of audio signals having different sampling frequencies by using a plurality of asynchronous sampling signals from a plurality of time measuring means, so that a storage capacity required for storing a decoded audio signal is obtained. And the manufacturing cost of the system can be reduced.
以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は本発明の範囲に属する。 Although the preferred embodiment of the present invention has been described above, the present invention is not limited to this embodiment, and any modifications to the present invention fall within the scope of the present invention unless departing from the spirit of the present invention.
100、200 プロセッサ
102、202 レジスター
204 ラッチ回路
206 計時手段
104、208 D/A変換器
210 メモリ
108、212 クロック信号
106、214 スピーカ
100, 200
Claims (4)
前記音声信号データを記憶するメモリ;
クロック信号によりトリガーされ、前記メモリから前記音声信号データを読み取って復号化し、復号化音声信号を生成するプロセッサ;
前記クロック信号によりトリガーされ、前記プロセッサから前記復号化音声信号を受け取るレジスター;
サンプリング信号を出力する計時手段;
当該計時手段から出力された前記サンプリング信号によりトリガーされ、前記レジスターから前記復号化音声信号を読み取るラッチ回路;及び
前記ラッチ回路からの前記復号化音声信号をディジタル信号からアナログ信号へ変換し、前記合成音声信号を生成するディジタル・アナログ変換器;
を含む音声合成装置。 A speech synthesizer for generating a synthesized speech signal from speech signal data, comprising:
A memory for storing the audio signal data;
A processor triggered by a clock signal to read and decode the audio signal data from the memory to generate a decoded audio signal;
A register triggered by the clock signal and receiving the decoded audio signal from the processor;
Timing means for outputting a sampling signal;
A latch circuit that is triggered by the sampling signal output from the timing means and reads the decoded audio signal from the register; and converts the decoded audio signal from the latch circuit from a digital signal to an analog signal, and A digital-to-analog converter for generating an audio signal;
A speech synthesizer including:
少なくとも一つの前記データ構造はFIFO回路を含む、
請求項1に記載の音声合成装置。 The latch circuit has a multi-layer data structure for storing the decoded audio signal,
At least one of the data structures includes a FIFO circuit;
The speech synthesizer according to claim 1.
プロセッサをクロック信号によりトリガーし、前記メモリから前記音声信号データを読み取る工程;
前記プロセッサは前記音声信号データを復号化し、復号化音声信号を生成する工程、
レジスターを前記クロック信号によりトリガーし、前記プロセッサから前記復号化音声信号を受け取る工程;
複数の計時手段から出力された複数のサンプリング信号により、当該サンプリング信号の各々の周期でラッチ回路をトリガーし、前記複数のサンプリング信号の各々に対応して、前記レジスターから複数チャンネルの前記復号化音声信号を読み取る工程;及び
前記複数チャンネルの復号化音声信号をディジタル信号からアナログ信号へ変換し、前記複数チャンネルの合成音声信号を生成する工程;
を含む音声合成方法。 A speech synthesis method for generating a multi-channel synthesized speech signal from speech signal data stored in a memory, comprising:
Triggering a processor with a clock signal to read the audio signal data from the memory;
The processor decoding the audio signal data to generate a decoded audio signal;
Triggering a register with the clock signal and receiving the decoded audio signal from the processor;
A plurality of sampling signals output from a plurality of timing means triggers a latch circuit at each cycle of the sampling signal, and the plurality of channels of the decoded sound are output from the register in response to each of the plurality of sampling signals. Reading the signal; and converting the decoded audio signal of the plurality of channels from a digital signal to an analog signal to generate the synthesized audio signal of the plurality of channels;
A speech synthesis method that includes
少なくとも一つの前記データ構造はFIFO回路を含む、
請求項3に記載の音声合成方法。
The latch circuit has a multi-layer data structure for storing the decoded audio signal,
At least one of the data structures includes a FIFO circuit;
The speech synthesis method according to claim 3.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW092101050A TWI226601B (en) | 2003-01-17 | 2003-01-17 | System and method of synthesizing a plurality of voices |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004226968A true JP2004226968A (en) | 2004-08-12 |
Family
ID=29778291
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004008193A Pending JP2004226968A (en) | 2003-01-17 | 2004-01-15 | Device and method for speech synthesis |
Country Status (4)
Country | Link |
---|---|
JP (1) | JP2004226968A (en) |
DE (1) | DE10356054A1 (en) |
GB (1) | GB2397737B (en) |
TW (1) | TWI226601B (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101333685B1 (en) * | 2011-12-28 | 2013-12-03 | (주) 반도전기통신 | Apparatur and Method for Control the Descrambling Timing of Data Under the M2M Modem |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7974713B2 (en) | 2005-10-12 | 2011-07-05 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Temporal and spatial shaping of multi-channel audio signals |
GB2545718A (en) | 2015-12-23 | 2017-06-28 | Nordic Semiconductor Asa | Radio transceivers |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4774686A (en) * | 1986-03-21 | 1988-09-27 | Rca Licensing Corporation | Serial digital signal processing circuitry |
JPH0782423B2 (en) * | 1987-09-16 | 1995-09-06 | 三洋電機株式会社 | Data input / output circuit |
JPH04371032A (en) * | 1991-06-19 | 1992-12-24 | Mitsubishi Electric Corp | Digital data processing circuit |
JP3052824B2 (en) * | 1996-02-19 | 2000-06-19 | 日本電気株式会社 | Audio playback time adjustment circuit |
DE10035965A1 (en) * | 2000-07-24 | 2002-02-21 | Infineon Technologies Ag | Data stream output method for MPEG decoder of digital TV receiver, involves changing frequency of clock signal used for reading-out data from FIFO memory, based on its storage level |
US20020052744A1 (en) * | 2000-10-31 | 2002-05-02 | Chaur-Wen Jih | Synchronized output speech synthesizer device |
JP4396877B2 (en) * | 2000-12-14 | 2010-01-13 | コロムビアミュージックエンタテインメント株式会社 | Jitter elimination apparatus and digital audio reproduction system |
CN1144171C (en) * | 2001-04-06 | 2004-03-31 | 华邦电子股份有限公司 | Synchronous output device with sound synthesis |
-
2003
- 2003-01-17 TW TW092101050A patent/TWI226601B/en not_active IP Right Cessation
- 2003-12-01 DE DE10356054A patent/DE10356054A1/en not_active Ceased
- 2003-12-05 GB GB0328325A patent/GB2397737B/en not_active Expired - Fee Related
-
2004
- 2004-01-15 JP JP2004008193A patent/JP2004226968A/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101333685B1 (en) * | 2011-12-28 | 2013-12-03 | (주) 반도전기통신 | Apparatur and Method for Control the Descrambling Timing of Data Under the M2M Modem |
Also Published As
Publication number | Publication date |
---|---|
DE10356054A1 (en) | 2004-08-05 |
TW200414125A (en) | 2004-08-01 |
GB2397737A (en) | 2004-07-28 |
GB2397737B (en) | 2005-03-09 |
GB0328325D0 (en) | 2004-01-07 |
TWI226601B (en) | 2005-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6732240B2 (en) | Signal processor with a plurality of kinds of processors and a shared memory accessed through a versatile control unit | |
JP2011188508A (en) | Synchronization of haptic effect data in media transport stream | |
CN108885880A (en) | For disposing the silent system and method in audio stream | |
JP3552667B2 (en) | Communication system and recording medium recording communication program | |
JP2004226968A (en) | Device and method for speech synthesis | |
JP2013152477A (en) | Electric musical instrument digital interface hardware instruction set | |
JP2005101766A5 (en) | ||
JP2004039138A5 (en) | ||
US5386529A (en) | Digital signal processor for use in sound quality treatment by filtering | |
US5936859A (en) | Method and apparatus for performing decimation and interpolation of PCM data | |
TW201248496A (en) | Method and system for processing audio signals in a central audio hub | |
JP5857644B2 (en) | Sound data transmission / reception system, transmission device, reception device, sound data transmission method and reception method | |
KR20050040800A (en) | Audio signal processor | |
JP2007109328A (en) | Reproducing device | |
JP2007148377A (en) | Tone output device and integrated circuit for tone output | |
JP2007088994A (en) | Traffic shaping apparatus and method | |
US20040186709A1 (en) | System and method of synthesizing a plurality of voices | |
TWI427619B (en) | Audio mixer and method thereof | |
KR100748370B1 (en) | Method and moving picture reproducing apparatus for synchronizing video and audio data | |
KR20020096465A (en) | Tempo controller for digital audio decoder chip | |
Ausin | Audio Processing on a Multicore Platform | |
JPH1195750A (en) | Digital voice reproducer | |
JPH06152547A (en) | Transmitting method for audio signal | |
JPH04354436A (en) | Data synthesis circuit | |
KR930001797B1 (en) | Audio/video signal composition apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061128 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070424 |