JP2004515800A - Apparatus for converting voice into data - Google Patents

Apparatus for converting voice into data Download PDF


Publication number
JP2004515800A JP2002533275A JP2002533275A JP2004515800A JP 2004515800 A JP2004515800 A JP 2004515800A JP 2002533275 A JP2002533275 A JP 2002533275A JP 2002533275 A JP2002533275 A JP 2002533275A JP 2004515800 A JP2004515800 A JP 2004515800A
Grant status
Patent type
Prior art keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Application number
Other languages
Japanese (ja)
Original Assignee
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date




    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders


【解決手段】デジタル音声のスペクトル成分を得ることによって音声を送信するときに送られるデータ量を少なくする方法と装置である。 By obtaining spectral components A digital audio is an apparatus and method for a small amount of data to be sent to transmit audio. 最初に、アナログ音声がデジタル音声に変換される(406)。 First, the analog voice is converted into digital audio (406). 次に、デジタル音声はフレームに分割され、該フレームについて所定のステップにてスペクトル分析が行われる(408)。 Then, the digital sound is divided into frames, the spectral analysis is performed at a predetermined step for the frame (408). 同様なスペクトルを有するフレームが合成される(410)。 Frame is synthesized with the same spectrum (410). 次に、所定のステップにて第2スペクトル分析が行われる(412)。 Next, a second spectral analysis is performed at a predetermined step (412). 各フレームのスペクトル分析で得られたデータは圧縮され、他のフレームと合成され、デジタル信号が再生される(420)。 Data obtained by the spectral analysis of each frame is compressed, and combined with other frames, the digital signal is reproduced (420). 次に、デジタル信号はプレイバックされ、これによってアナログ音声が再現される(422)。 Then, the digital signal is played back, thereby the analog voice is reproduced (422).
【選択図】図4 .FIELD 4


【0001】 [0001]
本願は、2000年10月5日出願の米国特許出願第60/238166号の利益を主張するものであり、この出願は引用を以て本願への記載加入とする。 This application claims the benefit of U.S. Patent Application No. 60/238166, filed Oct. 5, 2000, which application is that described subscription to herein with a reference.
本発明は、一般的には、音声処理技術に関し、具体的には、話された音声(speech)の送信に関する。 The present invention relates generally to speech processing technology, in particular, to transmission of voice (speech) that are spoken. より具体的には、本発明は、少量のデータを用いて音声を送信する改良された方法に関する。 More particularly, the present invention relates to an improved method for transmitting voice using a small amount of data.
【0002】 [0002]
デジタル技術による音声の送信は、特に、長距離のデジタル式無線電話用において広く行なわれてきている。 Transmission of voice by digital techniques, in particular, been performed extensively in long distance digital radiotelephone. これはまた、チャンネル上で送信されることができ、再構築された(reconstructed)音声の感知品質を維持できる最少量の情報を決定することに関心がもたれている。 This also can be transmitted on the channel, interest in determining the least amount of information that has been reconstructed to (Reconstructed) sensing audio quality can be maintained is leaning. 音声を簡単なサンプリングとデジタル処理によって送信する場合、従来のアナログ電話の音声品質を達成するには、データレートは、毎秒64キロビット(kbps)のオーダであらねばならない。 When transmitting voice by simple sampling and digital processing, to achieve the speech quality of conventional analog telephones, the data rate must roughness on the order of 64 kilobits per second (kbps). しかしながら、音声分析を使用し、受信機で適当なコーディング、送信及び再合成を行なうことにより、データレートを実質的に遅くすることができる。 However, using speech analysis, appropriate coding at the receiver by performing transmission and resynthesis can slow the data rate substantially.
【0003】 [0003]
人間の音声発生モデルに関するパラメータを抽出することによって有声音を圧縮する技術を用いた装置は、一般的にボコーダと呼ばれる。 Apparatus using a technique to compress voiced by extracting parameters of human speech generation model, commonly referred to as vocoder. この装置は、入力音声を分析して関連パラメータを抽出するエンコーダと、送信チャンネル上で受信するパラメータを用いて音声を再合成するデコーダとから構成される。 This device is composed of an encoder for extracting relevant parameters by analyzing the input speech, a decoder to re-synthesize the speech using the parameters received over a transmission channel. 正確であるには、モデルは常に変化していなければならない。 To be accurate, the model must be constantly changing. 音声は、時間のブロック、又は分析フレームに分割され、その間のパラメータが計算される。 Speech is divided into blocks of time, or analysis frames, during which the parameters are calculated. パラメータは、次に、新たなフレーム毎に更新される。 Parameters are then updated for each new frame.
【0004】 [0004]
ボコーダの機能は、音声に固有の自然な冗長を全て取り除くことにより、デジタル化された音声信号を低ビットレート信号に圧縮することである。 Function of vocoder by removing all the unique natural redundancy in speech is to compress the digitized speech signal into a low bit rate signal. ボコーディング技術を用いると、再構築された音声品質を維持しながら、チャンネル上を送信される情報量を低減できるけれども、さらなる低減を達成するには、他の技術を用いる必要がある。 With vocoding techniques, while maintaining the voice quality of the reconstructed, although the upper channel can be reduced the amount of information to be transmitted, in order to achieve further reduction, it is necessary to use other techniques.
【0005】 [0005]
音声は本質的に、沈黙区間つまりポーズ(pauses)を含んでいるので、これらの区間を表すのに要するデータ量を少なくすることができる。 Voice is essentially because it contains the silence period, i.e. pause (pauses), it is possible to reduce the amount of data required to represent these segments. この事実を最も効果的に利用しているのは、可変レートのボコーディングであり、沈黙区間に対するデータレートを低くしている。 What advantage of this fact most effectively is the vocoding of variable rate, and low data rate for a silence period. 言葉と言葉の間の沈黙を少なくするのに、幾つかのストライド(strides)が作られているが、話された言葉そのものを少なくできる方法の開発が必要とされる。 To reduce the silence between the words and the words, but some of the stride (strides) is made, and it is required to develop a method that can reduce the word itself has been talking about.
比較的遅いデータレートを維持しながら品質を向上させることにより、システムを最適化する方法が必要とされている。 By improving the quality while maintaining a relatively slow data rate, there is a need for a method to optimize the system.
【0006】 [0006]
それゆえ、本発明の目的は、音声フレームのスペクトル成分を正確に表すことである。 It is therefore an object of the present invention is to accurately represent the spectral content of the speech frame.
本発明の他の目的は、音声を低データレート送信するための改良された方法を提供することである。 Another object of the present invention is to provide an improved method for low data rate transmission voice.
本発明のさらに他の目的は、音声送信の品質を改良することである。 Still another object of the present invention is to improve the quality of voice transmission.
それゆえ、本発明の目的は、圧縮音声に関し、新規で改良された方法及びシステムを提供することである。 It is therefore an object of the present invention relates to compressed audio, it is to provide a method and system for new and improved.
【0007】 [0007]
前記目的は、以下に記載の要領にて達成される。 The object is achieved in the manner described below.
音声を送信するとき、デジタル音声のスペクトル成分を得ることにより、送信されるデータ量を少なくする方法及び装置である。 When transmitting voice, by obtaining the spectral components of the digital audio is a method and apparatus for reducing the amount of data transmitted. 第1に、アナログ音声をデジタル音声に変換する。 First, to convert the analog voice to digital voice. 次に、デジタル音声をフレームに分割し、フレームについて、スペクトル分析が行われる。 Then, the digital audio is divided into frames, the frames, the spectral analysis is performed. 同様なスペクトルを有するフレームを合成する。 Synthesizing a frame having a similar spectrum. 次に、第2のスペクトル分析が予め定められた工程で行なわれる。 Next, a second spectral analysis is performed with a predetermined process. 各フレームのスペクトル分析で得たデータが圧縮され、受信機へ送られる。 Data obtained by spectral analysis of each frame is compressed and sent to the receiver. 受信機はそのデータを用いて、フレームを再構築する。 Receiver using the data to reconstruct the frame. フレームは他のフレームと合成され、デジタル信号を再現する(reproduce)。 Frame is combined with other frames, to reproduce the digital signal (Reproduce). 次に、デジタル信号はプレイバックされ、これにより、アナログ音声を再現する。 Then, the digital signal is played back, thereby to reproduce the analog audio.
【0008】 [0008]
本発明の追加の目的及び特徴並びに利点については、以下の詳細な説明によって明らかになるであろう。 The objects and features and advantages of the additional invention will become apparent from the following detailed description.
本発明の新規な特徴は、特許請求の範囲に記載されている。 The novel features of the invention are set forth in the appended claims. しかしながら、発明そのものについては、望ましい使用形態、さらなる目的及び利点と同様、添付の図面に示す実施例に関する詳細な説明によって最も良く理解されるであろう。 However, the invention itself, preferred use form, as with further objects and advantages, will be best understood from the detailed description of embodiments shown in the accompanying drawings.
【0009】 [0009]
図面、特に図1Aを参照すると、本発明に係る音声デジタル変換器(VDC)(102)のブロック図が示されている。 Drawings, and specifically referring to Figure 1A, a block diagram of a speech-to-digital converter according to the present invention (VDC) (102) is shown. アナログ信号(104)は、エンコーダ(108)で受信される。 Analog signal (104) is received by the encoder (108). 図1Bに示されるように、エンコーダ(106)はアナログ信号(104)をデジタル信号(108)に変換する。 As shown in Figure 1B, the encoder (106) converts the analog signal (104) into a digital signal (108). これは、アナログ−デジタル変換器を用いて行われ、そのプロセスは当該分野で知られている。 This analog - performed using a digital converter, a process known in the art. アナログ信号は、1サンプル8ビットにて、毎秒500000〜1000000回の速度でサンプリングされる。 Analog signal at 1 sample 8-bit, is sampled per second from 500,000 to 1,000,000 times speed. 周波数範囲は、約50Hz〜10000Hzである。 Frequency range is about 50Hz~10000Hz. この範囲はシステムの要求よりも大きいが、下記のとおり、周波数範囲をさらに狭くすることができる。 This range is greater than the system requirements, as described below, it is possible to further narrow the frequency range.
【0010】 [0010]
電話品質の音の場合、デジタル信号(108)の周波数範囲は、図1Cに示されるように、約75Hzから約3000Hzまでさらに狭められる。 For telephone quality sound, the frequency range of the digital signal (108), as shown in FIG. 1C, further narrowed from about 75Hz to about 3000 Hz. 周波数を狭くすることは、帯域通過フィルター(107)を用いて行なうことができ、そのプロセスは当該分野で知られている。 Narrowing the frequency can be performed using a bandpass filter (107), a process known in the art. 異なる目的に対しては、異なる周波数範囲を用いることができる。 For different purposes, you can use different frequency ranges.
【0011】 [0011]
次に、図1Dに示されるように、デジタル信号(108)は、毎秒約150フレームのフレームレートを用いてフレーム(110)に分割される。 Next, as shown in FIG. 1D, the digital signal (108) is divided into frames (110) using the frame rate per second to about 150 frames. 伝送しなければならないデータ量を少なくするために、フレーム(110)についてスペクトル分析を行ない、同様なスペクトルを有するフレームが結合される。 In order to reduce the amount of data that must be transmitted, performs a spectral analysis on the frame (110) is coupled a frame having a similar spectrum.
【0012】 [0012]
高速フーリエ変換(fast Fourier transform; FFT)を用いてスペクトル分析を行ない、図1Eと同様なピークを発生させる。 Fast Fourier transform; performs spectral analysis using (fast Fourier transform FFT), to generate a similar peak and Figure 1E. 望ましい実施例では、75Hz〜3000Hz(3kHz)の間で50Hzの間隔に設定しているので、殆んど全ての範囲を用いることができる。 In the preferred embodiment, since the set interval 50Hz between 75Hz~3000Hz (3kHz), it is possible to use all ranges almost. 各間隔の振幅は4ビット(16のレベル)で評価され、各フレーム(110)の分析が一旦完了すると、レベル2以下の振幅は全て消去され、ピーク振幅はそれら周波数と共に格納される。 The amplitude of each interval is evaluated by 4 bits (16 levels), the analysis of each frame (110) is completed once erases all level 2 following amplitude, peak amplitude is stored together with their frequency. 図1Eは、各フレームにスペクトル分析を実行した後の一連のフレーム(110)を示している。 Figure 1E shows a series of frames (110) after performing spectral analysis on each frame. (116)は、各フレームにおける最大振幅を示している。 (116) shows a maximum amplitude in each frame.
【0013】 [0013]
望ましい実施例では、最大5つのピークが格納されているが、用いるピークの数は任意であってよい。 In the preferred embodiment, up to five peaks are stored, the number of peaks used may be arbitrary. 最大振幅を求めた後、各フレームは次のフレームと比較される。 After determining the maximum amplitude, each frame is compared with the next frame. 例えば、図1Eのフレーム(118)はフレーム(120)と比較される。 For example, the frame of FIG. 1E (118) is compared with the frame (120). そのデータが比較的近いものであるとき、次に、その2つのフレームは結合される。 When the data is relatively close, then two frames thereof are combined. あるフレームが、先のフレーム又は一連のフレームの一般的範囲と異なるとき、又は加えられたフレームの合計数が15を越えるとき、そのフレームは終了し、一緒に加えられたフレームの合計数が時間スライスに変換される。 A frame is, when different from the general scope of the previous frame or sequence of frames, or when the total number of the added frames exceeds 15, the frame is terminated and the total number of frames added together time It is converted to slice. この時間スライスが、送信されるデータとして分析される。 The time slice is analyzed as the data to be transmitted.
【0014】 [0014]
フレーム(118)とフレーム(120)が近似している場合、15のフレームは、フレーム(118)(120)に近似した1つのフレームに合成されたかどうかのチェックが行われる。 If the frame (118) and the frame (120) are close, 15 frames, check whether it has been combined into one frame approximated to the frame (118) (120) is performed. 1つのフレームに合成されたフレームの数が15よりも少ないときは、図1Fに示されるように、フレーム(118)(120)はフレーム(122)に合成される。 When the number of one frame that has been synthesized in the frame is less than 15, so as shown in FIG. 1F, the frame (118) (120) is synthesized in a frame (122). 次に、フレーム(122)はフレーム(124)と比較され、両者が近似するかどうかのチェックが行われる。 The frame (122) is compared to the frame (124), both whether approximate check is made. 近似していないとき、フレーム(122)の長さはフレームヘッダーの中に記録される。 When not close, the length of the frame (122) is recorded in the frame header. 処理はもう一度開始し、フレーム(124)はフレーム(126)と比較される。 The process starts again, frames (124) is compared with the frame (126).
【0015】 [0015]
フレーム(128)は無音フレームを表す。 Frame (128) represents a silent frame. 無音(silence)は特別の長さを有している。 Silence (silence) has a special length. 無音は、言葉又は文の間にある場合でも、又、傾聴中にある場合でも、音声信号の大部分を占める。 Silence, even if they are between words or sentences, also, even if you are in listening, occupies a large portion of the audio signal. 無音フレームに与えられる長さ表示は16フレームであり、一方、音声フレームが使用する最大長さは15フレームである。 The length indication given to the silent frame is 16 frames, while the maximum length of speech frame uses a 15 frame. 無音フレームだけが16フレームの長さを有することができる。 Only silence frames may have a length of 16 frames. 16のフレーム長さを有する全てのフレームは追加の処理を必要としないので、これはデータの流れをかなり簡素化する。 Since 16 all frames having a frame length of not requiring additional processing, which considerably simplifies the flow of data. もし、無音フレームが16フレームよりも少なかった場合、そのフレームを分析せねばならないから、追加の処理が必要となるであろう。 If the silence frame was less than 16 frames, because must be analyzed for its frame, will the additional processing is required.
【0016】 [0016]
次に、フレーム(122)は、スペクトル成分領域が分析される。 The frame (122), the spectral component region is analyzed. スペクトル分析はフレーム(122)について行われる。 Spectral analysis is performed for the frame (122). 図2Aは、スペクトル分析が行われる前のフレーム(122)を表している。 Figure 2A represents a frame (122) before the spectral analysis is performed. フレーム(122)のスペクトル成分を分析することにより、フレーム(122)の電力分布(power distribution)を求めることができる。 By analyzing the spectral content of the frame (122), the power distribution of the frame (122) (power distribution) can be obtained. 各フレームの電力分布は特定フレームに対する音(sound)を決定する。 Power distribution of each frame determines the sound (sound) for a particular frame. 電力分布がうまく行なわれるほど、再現性は良好なものとなる。 The more power distribution is carried out successfully, reproducibility becomes good.
【0017】 [0017]
スペクトル分析を行なうのにFFTが用いられる。 FFT is used to perform a spectral analysis. FFTは、与えられた範囲、例えば100Hzから、全ての電力をとることができ、正弦波に関する電力分布を表す。 FFT is a given range, for example from 100 Hz, can take all the power represents a power distribution for a sine wave. 望ましい実施例では殆んど全ての範囲を設定することができるものであり、75Hz〜3000Hz(3kHz)の範囲で100Hz毎に設定される。 In the preferred embodiment are those which are capable of setting the full range almost, is set to 100Hz each in the range of 75Hz~3000Hz (3kHz). 電力分布が75Hzより低い部分は、大部分がノイズによるものであるから、最小周波数は75Hzに設定される。 Partial power distribution is lower than 75Hz is largely because those due to noise, the minimum frequency is set to 75Hz. また、人間の音声が3kHzを越えることは滅多にないので、最高周波数は3kHzに設定される。 Also, human voice is so rarely exceeding 3 kHz, maximum frequency is set to 3 kHz. 3kHzよりも低い周波数を用いることはできるが、高さ(pitch)と音色(timber)が損なわれる。 The use of a lower frequency than 3kHz is possible, tone height (pitch) (timber) is impaired. なお、周波数間隔が許容品質レベルで音声を複製するのに十分近いものであれば、他の周波数間隔を用いることもできる。 Incidentally, as long as the frequency spacing close enough to replicate the audio acceptable quality level, it is also possible to use other frequency intervals. 周波数間隔が大きいほど、送られるデータポイントは少なくなる。 As the frequency interval is larger, the data points to be sent is reduced. しかしながら、送られるデータポイントが少ないほど、受信機の再現品質は劣る。 However, the more data points to be sent is small, reproduction quality of the receiver is inferior.
【0018】 [0018]
スペクトルの分析データをプロット又は得る際、まず最初に、0〜100の振幅スケールに振幅をプロットする。 In obtaining plot or analytical data of the spectrum, first, plotting the amplitude to the amplitude scale of 0-100. 次に、最も高い1つの振幅が、フレームの絶対振幅として格納される。 Then, the highest one amplitude is stored as an absolute amplitude of the frame. 例えば、図2Bで最も大きな振幅は、周波数が1075のところで39である。 For example, the largest amplitude in FIG. 2B is a 39 at the frequency 1075. 次に、0から絶対振幅までの領域は16段階に分割される。 Next, the region from 0 to absolute amplitude is divided into 16 stages. 例えば、フレーム(122)の最大振幅は、0〜100単位スケールで39であり、絶対振幅は図2Cに示されるように39に設定される。 For example, the maximum amplitude of the frame (122) is a 39 0-100 unit scale, the absolute amplitude is set to 39 as shown in Figure 2C. 次に、0〜39の領域は、16段階に分割される。 Next, the region of 0-39 is divided into 16 stages. 各段階は、0〜100スケールでは2.4375に等しい。 Each step is equal to 2.4375 at 0-100 scale. 最大振幅を設定する目的は、フレームの絶対振幅の如何に拘わらず、4ビット解像度を維持することである。 The purpose of setting the maximum amplitude, regardless of the absolute amplitude of the frame, is to maintain a 4-bit resolution. そうでないと、フレーム解像度はフレーム振幅に直接比例することになる。 Otherwise, frame resolution will be directly proportional to the frame amplitude. 最大振幅を設定することにより、フレーム振幅はフレーム解像度から独立する。 By setting the maximum amplitude, the frame amplitude is independent of the frame resolution. 絶対振幅は、フレームのヘッダーの中に、フレームの長さと共に含められる。 Absolute amplitude in the header of the frame, is included with the length of the frame. 16段階の中で測定することにより、適当な解像を行なうのに必要な最少量のデータが受信機に送られる。 By measuring in 16 steps, the data of the minimum amount needed to carry out the appropriate resolution is sent to the receiver. 振幅分割の間隔を少なくすることもできるが、受信機へはより多くのデータを送る必要がある。 Although it is also possible to reduce the distance between the amplitude division, it is necessary to send more data to the receiver. 振幅分割の間隔を大きくすることもできるが、品質が犠牲になるであろう。 Although it is also possible to increase the spacing of the amplitude division would quality is sacrificed. 図2Cは、0〜100単位のスケール上での振幅を示している。 Figure 2C shows the amplitude on the scale of 0 to 100 units. 図2Dは、最大振幅が39に設定された後の振幅を示している。 Figure 2D shows the amplitude after the maximum amplitude is set to 39. この図2Dのデータが受信機(103)へ送られる。 This figure 2D the data is sent to the receiver (103).
【0019】 [0019]
100Hz毎の振幅データは、フレームデータの一部として含まれる。 Amplitude data for each 100Hz is included as part of the frame data. 各フレームに対する振幅データの数は30以下にする必要がある。 The number of amplitude data for each frame should be 30 or less. しかしながら、一実施例では、2単位より小さい振幅は全て除去している。 However, in one embodiment, less amplitude than 2 units are all removed. この結果、振幅データの多くは0となる。 As a result, many of the amplitude data becomes 0. 各フレームのビット数は、フレームの開始を確認するために約6ビット、フレーム長さに4ビット、絶対振幅に6ビット、30以下の振幅データの各々に対して4ビットである。 Number of bits in each frame is 4 bits for about 6 bits, 4 bits to the frame length, 6-bit absolute amplitude, 30 each of the following amplitude data to confirm the start of a frame. その結果、1フレーム当たりの最大ビットは136ビットである。 As a result, the maximum bits per frame is 136 bits. データ数をさらに少なくしたい場合、2単位より少ない振幅を全て除去する。 If you want to the number of data even less, to remove any less than 2 unit amplitude. 圧縮アルゴリズムを用いることにより、フレームデータを60%〜80%又は1フレームあたり25〜55ビット少なくすることができる。 By using a compression algorithm, it can be 25 to 55 bits less 60% 80% or per frame frame data. 1秒あたりの平均フレームレートが約18〜20フレームの場合、1秒あたり平均1000ビットを得ることが出来る。 If the average frame rate per second of about 18-20 frames, it is possible to obtain an average of 1000 bits per second. データは、当該分野で既知の手段により、受信機(103)へ送られる。 Data by means known in the art, are sent to the receiver (103).
【0020】 [0020]
データを受信すると、受信機(103)はフレーム長さと絶対振幅をフレームヘッダーから読み取り、正しい周波数の中から振幅を指定する。 Upon receiving the data, the receiver (103) is read frame length and the absolute amplitude from the frame header specifies the amplitude from the correct frequency. 受信機(103)は、周波数間隔が100Hzずつの割合で増すことを認識しており、図3A乃至図3Hに示されるように、各周波数間隔の正弦波を作り、また対応する振幅を作る。 Receiver (103) is aware that the frequency spacing is increased at a rate of every 100 Hz, as shown in FIGS. 3A-3H, made a sine wave of each frequency interval, also make corresponding amplitude. プレイバックされる場合、正弦波はトーンを生成するだけである。 When played back, the sine wave will only generate tones. 音声を再現するには、フレーム中の周波数間隔に対して正弦波を再現し、フレーム中の他の正弦波と合成して、正弦波が形成される。 To reproduce the sound, reproduce the sine wave with respect to the frequency interval in the frame, by combining with other sine wave in the frame, the sine wave is formed. 例えば、図3Bは、振幅から再作成された(recreated)正弦波を表しており、175Hzの周波数に対応する。 For example, Figure 3B represents the the recreated from the amplitude (Recreated) sine wave, corresponding to the frequency of 175 Hz. 図3Cは、データから作られた正弦波と合成された再作成正弦波を表しており、75Hzに対応する。 Figure 3C represents the re-creation sinusoidal synthesized sine wave made from data, corresponding to 75 Hz. 図3Dは、図3Cに示される2つの正弦波を合成して得られた正弦波を示している。 Figure 3D shows a sine wave obtained by combining two sine waves shown in FIG. 3C. フレームの正弦波の全てが再作成され、再作成波が作られるまでのプロセスを図3F乃至図3Hに示している。 All of the sine wave frame is recreated, it shows a process to recreate wave is created in Figure 3F to FIG 3H. 再作成波は図2Aの波と近似している。 Recreate wave approximates a wave of Figure 2A.
【0021】 [0021]
自らプレイバックされる場合、各フレームは認識不可能な音つまりビープ音を生成する。 If it is their own play back, each frame to generate the unrecognized sound clogging beep. しかしながら、フレームが順に再生されるとき、デジタル信号(108)が複製される。 However, when a frame is sequentially reproduced, a digital signal (108) is replicated. 不連続によって生じるフラッター(flutter)を除去するために、各フレームは次のプロセス又は当該分野で既知の他のプロセスに移される。 To remove the flutter (flutter) caused by discontinuities, each frame is transferred to other processes known in the following process or the art.
【0022】 [0022]
プロセスの全体を図4に示している。 It shows the entire process in FIG. ブロック(402)は、アナログ信号(104)の作成と伝播を示している。 Block (402) shows the creation of propagation analog signal (104). ブロック(404)は、エンコーダ(106)がアナログ信号(104)を受信することを示している。 Block (404) indicates that the encoder (106) receives an analog signal (104). ブロック(406)は、エンコーダ(106)がアナログ信号(104)をデジタル信号(108)に変換することを示している。 Block (406), the encoder (106) indicates that converts an analog signal (104) into a digital signal (108). ブロック(408)は、デジタル信号(108)がフレーム(110)に分割されることを示している。 Block (408) the digital signal (108) indicates that it is divided into frames (110). ブロック(410)は、同様なフレーム(110)を合成することにより、フレーム(110)の長さが短くなることを示している。 Block (410), by combining the same frame (110), the length of the frame (110) indicates that the shorter. ブロック(412)は、フレーム(110)にスペクトル分析が行われることを示している。 Block (412) indicates that the spectrum analysis is performed in the frame (110). ブロック(414)は、フレームデータが受信機(103)に送られることを示している。 Block (414) indicates that the frame data is sent to the receiver (103). ブロック(416)は、受信機(103)がフレームデータを受信することを示している。 Block (416), the receiver (103) indicates that the received frame data. ブロック(418)は、受信機(103)が、送られるフレームデータに基づいてフレームを再構築することを示している。 Block (418), the receiver (103) have shown that reconstructing the frame based on the frame data to be sent. ブロック(420)は、再構築されたフレームが合成され、デジタル信号(108)を再現することを示している。 Block (420) was reconstructed frame is synthesized, it has been shown to reproduce the digital signal (108). ブロック(422)は、再構築されたデジタル信号(108)がアナログ信号(104)としてプレイバックされることを示している。 Block (422) is reconstructed digital signal (108) indicates that it is played back as an analog signal (104).
【0023】 [0023]
図5は、汎用翻訳機の使用を示している。 Figure 5 shows the use of general-purpose translator. ブロック(502)は、第1の使用者が第1の言語を第1の翻訳システムの中に吹き込むことを示している。 Block (502), the first user indicates that blowing first language into the first translation system. 第1の翻訳システムは、あらゆる言語の翻訳システムであり、1のテキスト言語を、単一の遷移言語(transition language)のテキストに変換することができる。 First translation system is a translation system of any language can be converted first text language, the text of a single transition language (transition language). 翻訳システムは音声認識を有することが望ましいが、必ずしも必要なものではない。 Translation system it is desirable to have a speech recognition but not necessarily required. ブロック(504)は、第1の言語の音声を第1の言語テキストに変換することを示している。 Block (504) indicates that converts sound of the first language into the first language text. ブロック(506)は、第1言語テキストが遷移言語テキストに変換されることを示している。 Block (506) shows that the first language text is converted to transition language text. 望ましい実施例において、遷移言語は英語であるが、他のどんな言語を用いることもできる。 In a preferred embodiment, the transition language but English, can also be used any other language. ブロック(508)は、遷移言語テキストが第2の翻訳システムに送信されることを示している。 Block (508) shows that the transition language text is transmitted to the second translation system. 第2の翻訳システムの要件は、第1の翻訳システムのものと同じである。 The requirements of the second translation system is the same as that of the first translation system. ブロック(510)は、遷移言語テキストを受信する第2の翻訳システムを示している。 Block (510) shows a second translation system for receiving a transition language text. ブロック(512)は、第2の言語システムが遷移言語テキストを第2の言語テキストに変換することを示している。 Block (512) shows that the second language system to convert a transition language text in the second language text. ブロック(514)は、第2の言語テキストが第2の使用者に送達されることを示している。 Block (514) shows that the second language text is delivered to the second user. 他の実施例として、テキストが第2の使用者に送達された後、第2の言語テキストが遷移言語に翻訳され、第1の言語テキストに戻されることを示している。 As another example, after the text has been delivered to the second user, the second language text is translated into a transition language, indicating that back to the first language text. これにより、第1の使用者は、翻訳が第1の使用者の意味通りだったかどうかを調べることができる。 As a result, the first user is able to determine whether the translation was the meaning as of the first user.
【0024】 [0024]
各翻訳システムは、言語を翻訳言語に変換するか、又は翻訳言語を使用者の言語に変換するものである。 Each translation system is designed to convert either to convert the language translation language, or a translation language to the language of the user. 従って、翻訳システムは、複数の言語を翻訳するのではなく、文法及び語彙について真の翻訳を行なうのに重点がおかれる。 Therefore, the translation system, rather than translating the plurality of languages, emphasis is placed to perform a true translation grammar and vocabulary. その結果、より正確な音声翻訳システムが開発されるだろう。 As a result, will be more accurate speech translation system is developed.
【図1】 [Figure 1]
図1Aは本発明の一実施例であって、音声をデータに変換する変換器のブロック図を示しており、図1Bは一般的に使用されるアナログデジタル変換器のブロック図であり、図1Cは一般的に使用される帯域通過フィルターのブロック図であり、図1Dは本発明の一実施例に基づいてデジタル信号がフレームに分割されるブロック図であり、図1Eは本発明の一実施例に基づいてスペクトル分析が行われた後の一連のフレームのブロック図であり、図1Fは本発明の一実施例に基づいてフレーム比較が行われた後の一連のフレームのブロック図である。 Figure 1A is one embodiment of the present invention shows a block diagram of a converter for converting the audio data, Fig. 1B is a block diagram of the analog-to-digital converters that are commonly used, FIG. 1C is a block diagram of a bandpass filter which is commonly used, FIG. 1D is a block diagram a digital signal is divided into frames in accordance with one embodiment of the present invention, an embodiment of FIG. 1E present invention in a block diagram of a series of frames after the spectral analysis is performed on the basis, FIG. 1F is a block diagram of a series of frames after the frame comparison is performed in accordance with one embodiment of the present invention.
【図2】 [Figure 2]
図2Aは本発明の一実施例に基づいてスペクトル分析が行われる前のフレームのブロック図であり、図2Bは本発明の望ましい実施例に基づくスペクトル分析の結果のブロック図であり、図2Cは本発明の一実施例に基づいて0〜100単位のスケールで振幅を測定したスペクトル分析結果のブロック図であり、図2Dは本発明の一実施例に基づいて0〜16単位のスケールで振幅を測定したスペクトル分析結果のブロック図である。 2A is a block diagram of a previous frame spectral analysis is performed based on an embodiment of the present invention, FIG. 2B is a block diagram of the results of spectral analysis based on a preferred embodiment of the present invention, FIG. 2C is a block diagram of a spectral analysis of measuring the amplitude scale of 0 to 100 units based on an embodiment of the present invention, the amplitude scale of 0 to 16 units in accordance with an embodiment of FIG. 2D invention measured is a block diagram of a spectral analysis.
【図3】 [Figure 3]
図3A乃至図3Hは本発明の一実施例に係り、特定周波数(specific frequency)の正弦波とフレームの正弦波のブロック図である。 3A to 3H relates to an embodiment of the present invention, it is a block diagram of a sine wave of the sine wave and the frame of a specific frequency (specific frequency).
【図4】 [Figure 4]
本発明の一実施例に係り、音声をデータに変換する変換器のステップを示すフローチャートである。 Relates to an embodiment of the present invention, is a flow chart illustrating the steps of a converter for converting the voice into data.
【図5】 [Figure 5]
本発明の一実施例に係り、汎用翻訳機のステップを示すフローチャートである。 Relates to an embodiment of the present invention, is a flow chart illustrating the steps of a generic translator.

Claims (23)

  1. データを伝達する方法であって、 A method for transmitting data,
    データの流れを受信する工程、 Receiving a stream of data,
    データの流れを、少なくとも第1フレームと第2フレームに変換する工程、 Step of converting the flow of data, at least first and second frames,
    第1フレームに高速フーリエ変換(FFT)を実行して第1FFTフレームとし、第2フレームに高速フーリエ変換を実行して第2FFTフレームとする工程、 Run fast Fourier transform (FFT) on the first frame and the 1FFT frame, the step of the first 2FFT frame running fast Fourier transform to the second frame,
    第1FFTフレームと第2FFTフレームが近似しているとき、第1FFTフレームと第2FFTフレームを合成FFTフレームに変換する工程、 When the first 1FFT frame and the 2FFT frame are close to the step of converting the first 1FFT frame and the 2FFT frame synthesis FFT frame,
    合成FFTフレームを表す単一パケットを送信するか、又は、第1FFTフレームを表す第1パケットと第2FFTフレームを表す第2パケットを送信する工程、を含んでいる方法。 To send a single packet that represents the synthesis FFT frame, or a method comprising steps a to transmit the second packet that represents the first packet and the second 2FFT frame representing the first 1FFT frame.
  2. 単一パケットを送信する工程は、単一パケットの中の第1FFTフレームのデータを送信する工程をさらに含んでいる請求項1の方法。 Step The method of claim 1 further comprising the step of transmitting the data of the 1FFT frames within a single packet to send a single packet.
  3. 単一パケットを送信する工程は、単一パケットの中の第2FFTフレームのデータを送信する工程をさらに含んでいる請求項1の方法。 Step The method of claim 1 further comprising the step of transmitting the data of the 2FFT frames within a single packet to send a single packet.
  4. 第1パケットを送信する工程は、第1パケットの中の第1FFTフレームのデータを送信し、第2パケットの中の第2FFTフレームのデータを送信する工程をさらに含んでいる請求項1の方法。 Step of transmitting the first packet, and sends the data of the 1FFT frame in the first packet, The method of claim 1, which further comprises a step of transmitting the data of the 2FFT frame in the second packet.
  5. データの流れは帯域通過フィルターにかけられる請求項1の方法。 The method of claim 1 the flow of data to be subjected to band-pass filter.
  6. 単一パケットを送信する工程は、合成FFTフレームの中の所定周波数における電力振幅(power amplitudes)を調べる工程、 Step process, to examine the power amplitude (power amplitudes) at a predetermined frequency in the synthesis FFT frame for transmitting a single packet,
    合成FFTフレームの中の所定周波数における電力振幅がしきい値より低いときはその電力振幅を切り捨てる工程、 Step of truncating the power amplitude when the power amplitude at a predetermined frequency in the synthesis FFT frame is less than the threshold value,
    合成FFTフレームの中の所定周波数における電力振幅を単一パケットに挿入する工程、を含んでいる請求項5の方法。 The method of claim 5 comprising step, the inserting power amplitude to a single packet at a predetermined frequency in the synthesis FFT frame.
  7. 得られた電力振幅は、合成FFTフレームの最大振幅によって分割された電力振幅である請求項6の方法。 The resulting power amplitude The method of claim 6 is a power amplitude divided by the maximum amplitude of the composite FFT frame.
  8. 送信のための単一パケットを作る工程は、得られた電力振幅と一致する周波数を単一パケットに挿入する工程をさらに含んでいる請求項7の方法。 Step, the resulting method of claim 7, the frequency that matches the power amplitude further comprises a step of inserting a single packet to make a single packet for transmission.
  9. 所定周波数は75Hz〜3000Hzの周波数帯域である請求項7の方法。 The method of claim 7 predetermined frequency is a frequency band of 75Hz~3000Hz.
  10. 所定周波数は75Hz〜3000Hzの周波数帯域で、周波数間隔は100Hzである請求項7の方法。 Predetermined frequency in the frequency band of 75Hz~3000Hz, The method of claim 7 frequency interval is 100 Hz.
  11. しきい値は2である請求項7の方法。 The method of claim 7 threshold is 2.
  12. データの流れはアナログ音声信号である請求項7の方法。 The method of claim 7 data stream is an analog audio signal.
  13. 音声を受信し、データの流れを供給する入力と、 Receive audio, an input for supplying a flow of data,
    入力に連結され、データの流れを受信して、パケットを含む出力を送信機へ供給するエンコーダと、を具える通信システムであって、 Is connected to the input, receives the flow of data, a communication system comprising a encoder supplies to the transmitter output containing packets,
    データの流れを少なくとも第1フレームと第2フレームに変換し、第1フレームに高速フーリエ変換(FFT)を実行して第1FFTフレームとし、第2フレームに高速フーリエ変換を実行して第2FFTフレームとし、第1FFTフレームと第2FFTフレームが近似しているとき、第1FFTフレームと第2FFTフレームを合成フレームに変換して合成FFTフレームを表す単一パケットを送信機へ供給するか、又は、第1FFTフレームを表す第1パケットと第2FFTフレームを表す第2パケットを送信機へ供給できるようにしている通信システム。 Converting the flow of data into at least a first and second frames, high-speed running Fourier transform (FFT) and the 1FFT frame, a first 2FFT frame running fast Fourier transform to the second frame to the first frame , when the first 1FFT frame and the 2FFT frame are close to, or a single packet that represents the first 1FFT frame and synthetic FFT frame by converting the first 2FFT frame in composite frame is supplied to the transmitter, or the 1FFT frame communication systems that can be supplied to the transmitter a second packet that represents the first packet and the second 2FFT frame representing a.
  14. エンコーダは帯域通過フィルターを含んでいる請求項13の通信システム。 Communication system of claim 13 encoder that includes a band pass filter.
  15. 単一パケットは合成FFTフレームの中の所定周波数における電力振幅を含んでいる請求項14の通信システム。 Communication system of claim 14 single packet containing a power amplitude at a predetermined frequency in the synthesis FFT frame.
  16. 得られた電力振幅は合成FFTフレームの最大振幅で分割された電力増幅である請求項15の通信システム。 The resulting communication system according to claim 15 power amplitude is divided power amplifier at the maximum amplitude of the composite FFT frame.
  17. 単一パケットは、得られた電力増幅と一致する周波数をさらに含んでいる請求項15の通信システム。 Communication system for a single packet further includes a frequency matching the resulting power amplifier according to claim 15.
  18. 所定周波数は75Hz〜3000Hzの帯域である請求項16の通信システム。 Communication system of claim 16 the predetermined frequency is a band of 75Hz~3000Hz.
  19. 所定周波数は75Hz〜3000Hzの周波数帯域で、周波数間隔は100Hzである通信システム。 Communication system predetermined frequency in the frequency band of 75Hz~3000Hz, the frequency interval is 100 Hz.
  20. データを翻訳する方法であって、 A method to translate the data,
    第1音声を第1データに変換する工程、 Step of converting a first sound into a first data,
    第1データを基本の遷移データに変換する工程、 Step of converting the first data to the base of the transition data,
    基本の遷移データを第2データに変換する工程、 Step of converting the basic transition data to the second data,
    第2データを第2音声に変換する工程、を含んでいる方法。 The method comprising steps of converting the second data to the second audio.
  21. 第1データと第2データはテキストデータである請求項20の方法。 The method of claim 20 the first data and the second data is text data.
  22. 基本の遷移データは英語以外のデータである請求項21の方法。 The method of claim 21 transition data of the base is the data other than English.
  23. 第1音声はフランス語であり、第2音声は英語である請求項22の方法。 First audio is French method of claim 22 second audio is English.
JP2002533275A 2000-10-05 2001-10-05 Apparatus for converting voice into data Withdrawn JP2004515800A (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US23816600 true 2000-10-05 2000-10-05
PCT/US2001/042526 WO2002029781A3 (en) 2000-10-05 2001-10-05 Speech to data converter

Publications (1)

Publication Number Publication Date
JP2004515800A true true JP2004515800A (en) 2004-05-27



Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002533275A Withdrawn JP2004515800A (en) 2000-10-05 2001-10-05 Apparatus for converting voice into data

Country Status (5)

Country Link
EP (1) EP1410379A2 (en)
JP (1) JP2004515800A (en)
KR (1) KR20030063357A (en)
CA (1) CA2425137A1 (en)
WO (1) WO2002029781A3 (en)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4435831A (en) * 1981-12-28 1984-03-06 Mozer Forrest Shrago Method and apparatus for time domain compression and synthesis of unvoiced audible signals
NL8202318A (en) * 1982-06-09 1984-01-02 Koninkl Philips Electronics Nv A system for the transmission of speech over a disturbed transmission path.
US5765131A (en) * 1986-10-03 1998-06-09 British Telecommunications Public Limited Company Language translation system and method
US4864503A (en) * 1987-02-05 1989-09-05 Toltran, Ltd. Method of using a created international language as an intermediate pathway in translation between two national languages
US5450522A (en) * 1991-08-19 1995-09-12 U S West Advanced Technologies, Inc. Auditory model for parametrization of speech
US5615301A (en) * 1994-09-28 1997-03-25 Rivers; W. L. Automated language translation system
US6167374A (en) * 1997-02-13 2000-12-26 Siemens Information And Communication Networks, Inc. Signal processing method and system utilizing logical speech boundaries
US6138089A (en) * 1999-03-10 2000-10-24 Infolio, Inc. Apparatus system and method for speech compression and decompression

Also Published As

Publication number Publication date Type
WO2002029781A3 (en) 2002-08-22 application
KR20030063357A (en) 2003-07-28 application
EP1410379A2 (en) 2004-04-21 application
CA2425137A1 (en) 2002-04-11 application
WO2002029781A2 (en) 2002-04-11 application

Similar Documents

Publication Publication Date Title
US6725190B1 (en) Method and system for speech reconstruction from speech recognition features, pitch and voicing with resampled basis functions providing reconstruction of the spectral envelope
US4220819A (en) Residual excited predictive speech coding system
US4790016A (en) Adaptive method and apparatus for coding speech
US5933805A (en) Retaining prosody during speech analysis for later playback
US5953696A (en) Detecting transients to emphasize formant peaks
US6161091A (en) Speech recognition-synthesis based encoding/decoding method, and speech encoding/decoding system
US5574823A (en) Frequency selective harmonic coding
US5903866A (en) Waveform interpolation speech coding using splines
US6885986B1 (en) Refinement of pitch detection
US5924061A (en) Efficient decomposition in noise and periodic signal waveforms in waveform interpolation
US5742930A (en) System and method for performing voice compression
US4661915A (en) Allophone vocoder
US5915237A (en) Representing speech using MIDI
US4301329A (en) Speech analysis and synthesis apparatus
US6094629A (en) Speech coding system and method including spectral quantizer
US4821324A (en) Low bit-rate pattern encoding and decoding capable of reducing an information transmission rate
US6018706A (en) Pitch determiner for a speech analyzer
US6119082A (en) Speech coding system and method including harmonic generator having an adaptive phase off-setter
EP0140249A1 (en) Speech analysis/synthesis with energy normalization
US6138092A (en) CELP speech synthesizer with epoch-adaptive harmonic generator for pitch harmonics below voicing cutoff frequency
US5873059A (en) Method and apparatus for decoding and changing the pitch of an encoded speech signal
US6141637A (en) Speech signal encoding and decoding system, speech encoding apparatus, speech decoding apparatus, speech encoding and decoding method, and storage medium storing a program for carrying out the method
EP0140777A1 (en) Process for encoding speech and an apparatus for carrying out the process
US5659658A (en) Method for converting speech using lossless tube models of vocals tracts
US20030088400A1 (en) Encoding device, decoding device and audio data distribution system

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination


Effective date: 20041207