FI110220B - Compression and reconstruction of speech signal - Google Patents

Compression and reconstruction of speech signal Download PDF

Info

Publication number
FI110220B
FI110220B FI933182A FI933182A FI110220B FI 110220 B FI110220 B FI 110220B FI 933182 A FI933182 A FI 933182A FI 933182 A FI933182 A FI 933182A FI 110220 B FI110220 B FI 110220B
Authority
FI
Finland
Prior art keywords
frames
speech signal
converter
algorithm
compression
Prior art date
Application number
FI933182A
Other languages
Finnish (fi)
Swedish (sv)
Other versions
FI933182A0 (en
FI933182A (en
Inventor
Ari Sinisalo
Original Assignee
Nokia Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Corp filed Critical Nokia Corp
Priority to FI933182A priority Critical patent/FI110220B/en
Publication of FI933182A0 publication Critical patent/FI933182A0/en
Priority to GB9414078A priority patent/GB2280827B/en
Publication of FI933182A publication Critical patent/FI933182A/en
Application granted granted Critical
Publication of FI110220B publication Critical patent/FI110220B/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

110220 ί110220 ί

Puhesignaalin kompressio ja rekonstruktio - Komprimering och rekonstrue- | ring av talsignal jCompression and Reconstruction of the Speech Signal - Komprimering och rekonstrue- | ring av talsignal j

Keksintö kohdistuu patenttivaatimuksen 1 johdannon mukaiseen menetelmään pu-5 hesignaalin kompressoimiseksi sekä edelleen menetelmään näin kompressoidun signaalin rekonstruoimiseksi. Lisäksi keksintö kohdistuu vastaaviin laitteisiin puhesignaalin kompressoimiseksi ja rekonstruoimiseksi.The invention relates to a method for compressing a speech signal according to the preamble of claim 1, and to a method for reconstructing a signal thus compressed. Furthermore, the invention relates to corresponding devices for compressing and reconstructing a speech signal.

Digitaalisen signaalin kompressiolla tarkoitetaan signaalin pakkaamista kompressioalgoritmin avulla sellaiseen muotoon, että käsiteltävän tiedon määrä vähenee 10 oleellisesti. Yleensä signaalia vastaava tietomäärä pyritään puristamaan (engl. compress) esimerkiksi l/10:aantai l/20:aan alkuperäisestä tietomäärästä. Kompressio-algoritmi valitaan yleensä käyttötarkoituksen mukaan. Audioalueen signaaleille, erityisesti puheelle, on olemassa omat kompressioalgoritminsa, samoin kuvankäsittelyyn.Digital signal compression refers to the compression of a signal by means of a compression algorithm such that the amount of data to be processed is substantially reduced. Usually, the amount of data corresponding to the signal is compressed, for example, from 1/10 to 1/20 of the original amount of data. The compression algorithm is usually selected according to the application. Audio signals, especially speech, have their own compression algorithms, as well as image processing.

15 Signaalin rekonstruktiolla tarkoitetaan tässä tapauksessa kompressoidun signaalin purkamista alkuperäiseen muotoon. Rekonstruktion asemasta käytetään myös termiä dekompressio (engl. decompress). Dekompressioon käytetään periaatteessa samaa algoritmia kuin kompressioon, mutta käänteisessä järjestyksessä. Tyypillisesti kompressio-dekompressioalgoritmin soveltaminen liittyy signaalin siirtoon tietolii-20 kennekanavassa, esimerkiksi puhelin- tai dataverkossa, lähettäjältä vastaanottajalle. ;··· Signaali kompressoidaan ennen lähetystä ja dekompressoidaan vastaanottopäässä.In this case, reconstruction of a signal means decompression of the compressed signal to its original form. Instead of reconstruction, the term decompress is also used. In principle, the same algorithm is used for decompression as for compression, but in reverse order. Typically, the application of a compression-decompression algorithm involves the transmission of a signal in a communication channel, such as a telephone or data network, from the sender to the recipient. ; ··· The signal is compressed before transmission and decompressed at the receiving end.

Signaalin siirto tehostuu, sillä samalle siirtokaistanleveydelle saadaan sopimaan : ·. ·. enemmän tietoa. Töinen yleinen kompressio-dekompressioalgoritmin sovelluskohde on signaalin tallennus. Signaali kompressoidaan tallennettaessa esim. levykkeelle ja 25 vastaavasti rekonstruoidaan lukuvaiheessa tallennuskapasiteetin säästämiseksi. Käytännölliset kompressioalgoritmit eivät ole häviöttömiä, joitakin poikkeuksia lukuun-' · ': ottamatta, joten rekonstruoitu signaali ei ole täysin identtinen alkuperäisen signaalin kanssa.Signal transmission is enhanced by matching the following transmission bandwidth:. ·. more information. A common working application of the compression-decompression algorithm is signal recording. The signal is compressed during recording on, for example, a floppy disk and reconstructed accordingly in the read phase to save storage capacity. Practical compression algorithms are not lossless, with some exceptions, so the reconstructed signal is not completely identical to the original signal.

Kompressiosuhteella tarkoitetaan kompressoimattoman signaalin tietomäärän suh- I ♦ 30 detta kompressoidun signaalin tietomäärään. Kompressiosuhde on tavallisesti algo- :' ·.. riimin valinnainen muuttuja ja se määritellään signaalin käyttötarkoitukseen nähden : * ·. i sopivaksi. Kompressointialgoritmit aiheuttavat jo sinänsä jonkin verran häviöitä ai- • » kuperäiseen signaaliin nähden. Kompressiosuhteen kasvattaminen lisää häviöiden määrää. Esimerkiksi puhesignaalin siirrossa voidaan käyttää suuria kompressiosuh- 2 110220 teitä, jos laadun kriteeriksi valitaan pelkästään ymmärrettävyys ja painotetaan erityisesti lopputuloksena saatavaa vähäistä tietomäärää. Toisaalta asetettaessa laadun kriteeriksi ymmärrettävyyden lisäksi äänen värin ja sävyn säilyminen joudutaan todennäköisesti tyytymään pieneen kompressiosuhteeseen, sillä signaalin yksityis-5 kohdat eivät ole suurilla kompressiosuhteilla enää toistettavissa.By compression ratio is meant the ratio of the amount of uncompressed signal to ♦ 30 the amount of data of the compressed signal. The compression ratio is usually an algo: '.. .. an optional variable of the rhyme and is defined by the purpose of the signal: * ·. i fit. Compression algorithms, by themselves, cause some loss compared to the original signal. Increasing the compression ratio increases the amount of losses. For example, high compression ratios can be used in the transmission of a speech signal, provided that the criterion of quality is purely intelligibility and that particular emphasis is placed on the small amount of data that is obtained. On the other hand, when setting quality as a criterion for comprehension, in addition to comprehensibility, the preservation of the color and tone of the sound is likely to be confined to a low compression ratio, since the private portions of the signal are no longer reproducible at high compression ratios.

Puhesignaalin kompressio perustuu yleensä signaalin koodaamiseen, ts. erityyppisille signaalimuodoille määritellään omat koodinsa, jossa koodin sisältämä tietomäärä on alkuperäisen signaalin tietomäärää pienempi. Digitaalinen signaalinkäsittely on mahdollistanut sofistikoitujen puhekooderien kehittämisen, joissa käytetään 10 hyväksi näytteistetyn puheen näytteiden välisiä riippuvuuksia: lyhyen aikavälin ennustusta ja pitkän aikavälin ennustusta. Lyhyen aikavälin ennustuksessa käytettäviä koodausalgoritmeja nimitetään lineaarisen ennustuksen koodaukseksi (Linear Predictive Coding, LPC) ja ne tutkivat peräkkäisten näytteiden korrelaatiota, kun taas pitkän aikavälin ennustuksessa (Long Term Prediction, LTP) käytettävät algoritmit 15 tutkivat pitkän aikavälin korrelaatiota perättäisten perustaajuussegmenttien välillä. Pitkän aikavälin ennustusta sovelletaan Regular Pulse Excitation - Long Term Prediction (RPE- LTP) -kooderissa, jossa näytteenotto tapahtuu 8 kHz:n taajuudella ja koodauksen tuloksena saadaan 20 ms:n pituisia 260 bittiä sisältäviä kehyksiä. Toinen merkittävä kooderi käyttää koodiherätteisen lineaarisen ennustuksen, toiselta 20 nimeltään stokastisen koodauksen, koodausalgoritmin variaatiota nk. VSELP (Vec-’·.· tor- Sum Excited Linear Excited Predictive Coding) -koodausalgoritmia, jossa käy-. y. tetään laskentaa nopeuttavaa ns. koodikirjaa.Speech signal compression is generally based on signal coding, i.e., different types of signal forms are defined by their own codes, where the amount of data contained in the code is smaller than the amount of data in the original signal. Digital signal processing has enabled the development of sophisticated speech encoders using interdependencies between samples of 10 sampled speech: short-term prediction and long-term prediction. The coding algorithms used in short-term prediction are called Linear Predictive Coding (LPC) and they investigate the correlation of consecutive samples, while the algorithms used in Long Term Prediction (LTP) study the long-term correlation between successive fundamental frequencies. Long-term prediction is applied in a Regular Pulse Excitation - Long Term Prediction (RPE-LTP) encoder, where sampling is performed at 8 kHz and the coding results in 20 msec 260 bit frames. Another major encoder uses a variation of a coding algorithm for code-driven linear prediction, another called stochastic coding, called the VSELP (Vec- '· · Tor-Sum Excited Linear Excited Predictive Coding) encoding algorithm. y. so-called computational accelerators are implemented. code book.

• · · · * ' Puhesignaalille kehitetyt kompressioalgoritmit eivät ole kovin tehokkaita. Algorit- : V min kompressiosuhteeksi saadaan enimmillään n. 10-15 eli kompressoitu signaali • '.*· 25 on 1/10-1/15 alkuperäisen signaalin tietomäärästä. Keksinnön kehitystyössä on py- : : : ritty saamaan aikaan menetelmä, jolla puhesignaalin kompressiosuhde saadaan suu remmaksi kuin, mihin tekniikan tason menetelmät kykenevät. Tämän tavoitteen saavuttamiseksi on keksinnön mukaiselle kompressiomenetelmälle tunnusomaista • * .···. se, mikä on esitetty patenttivaatimuksessa 1, kun taas rekonstruointimenetelmän • 30 tunnusmerkit selviävät vaatimuksesta 2.• · · · * 'The compression algorithms developed for the speech signal are not very efficient. Algorithm: V min compression ratio gives a maximum of about 10-15, ie the compressed signal • '. * · 25 is 1 / 10-1 / 15 of the amount of data in the original signal. In the development of the invention, there has been a desire to provide a method by which the compression ratio of a speech signal is higher than that of the prior art methods. To achieve this object, the compression method according to the invention is characterized by * *. ···. that of claim 1, while the characteristics of the reconstruction method • 30 are clear from claim 2.

Keksinnön menetelmää soveltamalla puhesignaalin kompressiosuhde voidaan nostaa vähintään kaksinkertaiseksi tekniikan tason kompressioalgoritmeihin verrattuna :. . puheen ymmärrettävyyden ja äänen persoonallisten piirteiden siitä kärsimättä. Me- ‘ ‘: netelmä perustuu kaksiulotteisten, kuvankäsittelyyn kehitettyjen algoritmien sovel- 35 tamiseen. Perusajatuksena on muuntaa yksiulotteinen puhesignaali kehyksittäin ai katasosta taajuustasoon käyttäen aikataso/taajuustasomuunnoksessa jotain tunnettua 3 110220 muunnosalgoritmia. Edullisen suoritusmuodon mukaan muunnos suoritetaan FFT-algoritmin (Fast Fourier Transform) avulla, koska se on yleisin ja helpoin tapa muuntaa aikataso taajuustasoon. Peräkkäisiä kehyksiä kerätään puhesignaalista haluttu määrä ja muodostetaan kaksiulotteinen kuvamatriisi (spektrogrammi), jossa 5 taajuustason kehykset esitetään ajan funktiona. Kuvamatriisin esittämä kuva kompressoidaan tehokkaalla kuvankäsittelyyn kehitetyllä kompressioalgoritmilla. Puheen rekonstruktio tapahtuu päinvastaisessa järjestyksessä käyttäen dekompressiota ja käänteis-FFT-muunnosta.By applying the method of the invention, the compression ratio of the speech signal can be increased to at least twice that of the prior art compression algorithms:. . without compromising on the intelligibility of the speech and the personal features of the voice. The Me '' method is based on the application of two-dimensional image processing algorithms. The basic idea is to convert a one-dimensional speech signal from frame to frame into frequency domain using some known 3 110220 conversion algorithm in time domain / frequency domain conversion. According to a preferred embodiment, the conversion is performed by the Fast Fourier Transform (FFT) algorithm because it is the most common and easiest way to convert a time domain to a frequency domain. The desired number of consecutive frames is collected from the speech signal and a two-dimensional image matrix (spectrogram) is formed in which the 5 frequency level frames are plotted against time. The image represented by the image matrix is compressed using a compression algorithm developed for efficient image processing. Speech reconstruction occurs in reverse order using decompression and inverse FFT conversion.

FFT- eli nopea Fourier-muunnos toteuttaa matematiikasta tunnetun diskreetin Fou-10 rier-muunnoksen likiarvoitusta käyttäen, jolloin muunnoksen sisältämien kertolaskujen määrä on pystytty pienentämään naista 2nlogn:iin, jossa n on laskentapisteiden lukumäärä. Fourier-muunnoksen avulla voidaan kuvata aikatason signaali taajuustasossa. Fourier-muunnettu signaali sisältää sekä reaali- että imaginäärikomponentit. Fourier-muunnetun signaalin käänteismuunnos tuottaa lop-15 putulokseksi alkuperäisen signaalin. FFT-muunnin on nykyään kaupallinen komponentti.The FFT, or fast Fourier transform, implements the discrete Fou-10 rier transform known in mathematics, by approximating the number of multiplications contained in the transform to 2nlogn, where n is the number of computation points. Fourier transform can be used to represent a time domain signal in the frequency domain. The Fourier transformed signal contains both real and imaginary components. The inverse transform of a Fourier transformed signal produces the original signal into a final 15 result. The FFT converter is nowadays a commercial component.

Eräässä edullisessa sovellutusmuodossa kehyksen Fourier-muunnospisteiden lukumäärä ja muunnettavien kehysten lukumäärä on sama, joka on myöhemmin tehtävän kompression kannalta optimi valinta.In a preferred embodiment, the number of Fourier transform points in the frame and the number of frames to be converted are the same, which is the optimum choice for the compression to be performed later.

20 Eräässä edullisessa sovellutusmuodossa kompressioalgoritmina käytetään JPEG-:··· algoritmia. JPEG (Joint Photographic Experts Group) on ISO:n standardoima kompressioalgoritmi jatkuvasävyisille pysäytyskuville. JPEG on kehitetty kom-··.·. pressoimaan väri- tai harmaasävykuvia, jotka esittävät ns. luonnonmukaisia maise-mia hitaasti muuttuvine sävyineen. Keksinnön kuvamatriisi muodostaa JPEG.lle * 25 soveltuvan harmaasävykuvan. JPEG:in etuna muihin kompressioalgoritmeihin näh den on, että koska se on standardoitu ovat laite- ja piirivalmistajat kiinnostuneita ’ · ’ · valmistamaan algoritmin toteuttavia komponentteja.In a preferred embodiment, the JPEG: ··· algorithm is used as the compression algorithm. JPEG (Joint Photographic Experts Group) is an ISO-standardized compression algorithm for continuous-tone still images. JPEG has been developed for com ··. ·. extrude color or grayscale images that represent so-called organic flavors with slowly changing shades. The image matrix of the invention forms a grayscale image suitable for JPEG * 25. An advantage of JPEG over other compression algorithms is that, since it is standardized, device and circuit manufacturers are interested in '' 'making components that implement the algorithm.

. ‘, Eräässä edullisessa sovellutusmuodossa FFT-muunnoksen ulostulon reaali- ja ima- ginäärikehysten sijasta voidaan kuvamatriisin muodostamiseen käyttää vastaavia ' 30 amplitudi- ja vaihekehyksiä tai myöskin pelkkää amplitudikehystä.. In a preferred embodiment, instead of the real and image frames of the output of the FFT conversion, the corresponding amplitude and phase frames may be used to form the image matrix, or the amplitude frame itself.

’ . . Keksinnön mukaisen kompressiolaitteen sekä rekonstruktiolaitteen tunnusmerkit * ' selviävät patenttivaatimuksesta 10 sekä vastaavasti vaatimuksesta 11.'. . The characteristics * 'of the compression device and the reconstruction device according to the invention are apparent from claim 10 and claim 11, respectively.

4 1102204, 110220

Keksinnön mukaista menetelmää ja laitetta kuvataan tarkemmin liitteenä olevissa piirustuksissa, joissa kuva 1 esittää puheen muuntamisen kuvamuotoon FFT-muunnoksen avulla kuva 2 esittää kompressioon ja rekonstruktioon liittyvän signaaliketjun ja 5 kuva 3 esittää esimerkin JPEG-algoritmin soveltamisesta eri parametreillä.The method and apparatus of the invention are described in more detail in the accompanying drawings, in which Figure 1 illustrates the conversion of speech to image by FFT conversion, Figure 2 shows a signal chain associated with compression and reconstruction, and Figure 3 shows an example of applying JPEG algorithm with different parameters.

Keksinnön mukaisen kompressiomenetelmän ensimmäinen vaihe on yksiulotteisen puhesignaalin muuntaminen kaksiulotteiseksi kuvaksi. Periaate on esitetty kuvassa 1. Puhesignaali syötetään FFT-muuntimelle, joka kuvan mukaisessa esimerkissä laskee muunnoksen puhesignaalin kehyksen 256 pisteelle, n = 256. Fourier-muun-10 nettu reaalinen puhesignaali sisältää sekä reaali- että imaginääriosan. Kuvamatriisi voidaan muodostaa käyttäen hyväksi sekä reaali- että imaginääriosaa tai vastaavia amplitudi- ja vaihekehyksiä tai pelkästään amplitudikehystä. Kuvan 1 kaksiulotteinen esitys sisältää ainoastaan amplitudikehyksen. Vaaka-akseli kuvaa aikaa, joka koostuu n-mittaisista peräkkäisistä kehyksistä, joissa Fourier-muunnos suoritetaan. 15 Pystyakseli kuvaa taajuuden vaihtelua eri pisteissä. Kuva on käytännössä amplitu-dikehysten intensiteettikuva. Koska signaalin taajuustason esitys on aina symmetrinen välillä -1/n ... 1/n, voidaan FFT-muuntimen ulostulokehys puolittaa, siis valita pelkästään positiivinen spektrin osa, ilman haittoja.The first step of the compression method according to the invention is the conversion of a one-dimensional speech signal into a two-dimensional image. The principle is illustrated in Figure 1. The speech signal is supplied to an FFT converter which, in the example shown, calculates a conversion to a point 256 of the speech signal frame, n = 256. The Fourier transformed real speech signal includes both a real and an imaginary part. The image matrix can be formed utilizing both the real and imaginary parts or the corresponding amplitude and phase frames, or the amplitude frame alone. The two-dimensional representation of Figure 1 contains only the amplitude frame. The horizontal axis represents the time consisting of successive frames of n-length in which the Fourier transform is performed. 15 The vertical axis represents the frequency variation at different points. In practice, the image is an intensity image of the amplitude frames. Since the frequency representation of the signal is always symmetric between -1 / n ... 1 / n, the output frame of the FFT converter can be halved, so that only the positive part of the spectrum is selected, without any drawbacks.

, . Menetelmän toisessa vaiheessa kuva kompressoidaan olemassa olevia kuvakom- ; ’· 20 pressioalgoritmeja käyttäen. Koetilanteissa on standardoidulla JPEG-algoritmilla • · · ·'· päästy hyviin kompressiosuhteisiin, esimerkiksi 20-30. JPEG ei ole häviötön, joten tietty määrä kuvan yksityiskohtia menetetään. Kuvan 2 esittämästä signaaliketjusta • · · • V voidaan helposti erottaa menetelmän eri vaiheet. Alkuperäinen puhesignaali johde- :*·*: taan FFT-muuntimelle, joka muuntaa aikatason signaalikehyksen taajuustasoon.,. In the second step of the method, the image is compressed into existing image commands; '· 20 using compression algorithms. In experimental situations, the standard JPEG algorithm • · · · '· has achieved good compression ratios, for example 20-30. JPEG is not lossless, so a certain amount of image detail is lost. From the signal chain • · · • V shown in Fig. 2, the different steps of the method can be easily distinguished. The original speech signal is wired: * · * to an FFT converter which converts a time domain signal frame to a frequency domain.

25 Ennen varsinaista muunnosta FFT-muunnin myös kvantisoi signaalin tai signaalin kvantisointi voidaan suorittaa erillisellä kvantisointipiirillä. Taajuustason kehyksistä : kerätään kuvamatriisi, jonka dimensiot ovat m, kehysten lukumäärä aikatasossa, ja .···’ n, aikatason kehyksiä vastaavien taajuuksien lukumäärä. Kuvamatriisi vastaa käy- tännössä muutaman sekunnin mittaista otosta puhesignaalista. Kuvan 2 FFT-muun-:.· : 30 nin laskee muunnoksen kehyksen 256 pisteelle, n=256. On edullista valita kerättä-•., / vien kehysten lukumääräksi samaksi kuin kehyksen pituus, jolloin, m = 256. Komp-ressio, JPEG, suoritetaan ennen signaalin siirtoa tai tallennusta, jota kuvaa lohko ; ’siirto/tallennus’. Dekompressio, IJPEG (Inverse JPEG), suoritetaan signaalin vas-’ ‘ taanoton/lukuoperaation yhteydessä. Dekompressio tuottaa tulokseksi periaatteessa 35 samanlaisen, mutta kompression ja siirron aiheuttamien häviöiden takia yksityiskohdiltaan hiukan muuntuneen, kuvamatriisin kuin signaaliketjun alkupäässä. Koe- 5 110220 tilanteissa suurimmat häviöt tapahtuivat signaalin siirtotiessä, kompressoinnin itsessään aiheuttamat häviöt olivat sen sijaan pieniä. Kuvamatriisi muunnetaan takaisin yksiulotteiseksi signaaliksi käänteis-FFT-muunnoksen, IFFT, avulla.Before the actual conversion, the FFT converter also quantizes the signal, or the quantization of the signal can be performed by a separate quantization circuit. From frequency domain frames: Collects an image matrix with dimensions m, the number of frames in the time domain, and ··· 'n, the number of frequencies corresponding to the time domain frames. In practice, the image matrix is responsible for taking a few seconds of the speech signal. The FFT transform -:. ·: 30 nin in Figure 2 calculates the transform frame to 256 points, n = 256. It is preferable to choose the number of frames to be collected as the length of the frame, where m = 256. The compression, JPEG, is performed before the signal is transmitted or stored, represented by the block; "Transfer / Storage '. Decompression, IJPEG (Inverse JPEG), is performed in connection with a signal reception / reading operation. Decompression yields basically 35 similar but slightly modified details at the upstream end of the image matrix due to compression and transmission. In experimental 110220 situations, the largest losses occurred in the signal transmission path, whereas the losses caused by the compression itself were small. The image matrix is converted back into a one-dimensional signal by the inverse FFT conversion, IFFT.

Esitettyä menetelmää on kokeiltu JPEG-algoritmilla erilaisilla kompressiosuhteilla 5 käyttäen sekä amplitudikehyksistä koostettua kuvaa että erillisiä reaali- ja imaginää-rikehyksistä koostettuja kuvia. Pelkästään amplitudikehyksen käyttäminen tekee laskennasta yksinkertaisemman. Tosin vaihekehyksen poisjättäminen aiheuttaa selvästi erottuvia häiriöitä rekonstruoidussa signaalissa. Sekä reaali- että imaginääri-kuvien käyttäminen tuottaa laadullisesti parhaimman lopputuloksen rekonstruktio-10 vaiheessa, mutta kompressiosuhde jää alle viiden ilman että puheen tunnistettavuus menetetään. Pelkän amplitudikehyksen käytöllä päästään hyvään kompressiosuhteeseen 20:1-30:1 puheen tunnistettavuuden säilyessä. Vaikka JPEG-algoritmi aiheuttaa häviöitä taajuustason signaaliin, niiden vaikutus aikatason puhesignaaliin on yllättävän vähäinen.The presented method has been experimented with JPEG algorithm at different compression ratios 5 using both an image of amplitude frames and separate images of real and imaginary frames. Simply using the amplitude frame makes the calculation simpler. However, the omission of the phase frame causes a distinct interference in the reconstructed signal. The use of both real and imaginary images produces the best quality in the reconstruction phase, but the compression ratio is less than five without loss of speech recognition. The use of the amplitude frame alone achieves a good compression ratio of 20: 1-30: 1 while maintaining speech recognition. Although the JPEG algorithm causes losses in the frequency domain signal, their effect on the time domain speech signal is surprisingly small.

15 Suoritetussa kokeessa todennettiin, että signaalin siirto ilman kompressointia aiheutti enemmän häiriötä signaaliin verrattuna kompressoinnin aiheuttamiin lisähäiriöi-hin. Algoritmeja parantamalla voidaan kompression aiheuttamia häiriöitä pienentää lisää.In the experiment performed, it was verified that the transmission of the signal without compression caused more interference to the signal than the additional interference caused by the compression. Improving algorithms can further reduce compression interference.

Kuvan 3 taulukossa on esitetty koetuloksia kuuden sekunnin pituisen 8-bittisen pu- • ” 20 hesignaalin kompressiosta käytettäessä JPEG-algoritmia. JPEG-algoritmille voidaan antaa parametrina haluttu kuvan yksityiskohtien säilyvyys. Mitä vähemmän yksi-tyiskohtia säilytetään, sitä suuremmaksi kompressiosuhde muodostuu. Taulukon : · .* tiedostonimessä esiintyvä luku, esim. r_90, kuvaa prosentteina yksityiskohtien säi- : ’ · ‘: lymisastetta. Arvolla r_60 puhe on vielä selvästi ymmärrettävää ja puhuja on tunnis- 25 tettavissa. Taulukon muut sarakkeet kuvaavat signaalia vastaavaa tietomäärää (Ko-ko/Tavu, Tavua/s, Bittiä/s) eri kompressiosuhteilla. Patenttivaatimuksen 1 mukai-: nen menetelmä ei rajoita kompressioalgoritmia edellä esimerkinomaisesti esitettyyn !. / JPEG-algoritmiin.The table in Figure 3 shows test results of a six-second compression of an 8-bit • 20-bit signal using the JPEG algorithm. The JPEG algorithm can be given as a parameter the desired retention of image detail. The fewer details are preserved, the higher the compression ratio becomes. The number in the table: ·. * Filename, eg r_90, represents the percentage retention of details: '·':. At r_60 the speech is still clearly understandable and the speaker is identifiable. The other columns in the table represent the amount of data corresponding to the signal (Ko-ko / Byte, Byte / s, Bits / s) at different compression ratios. The method of claim 1 does not limit the compression algorithm to the one exemplified above. / JPEG algorithm.

• k : Keksinnön mukaisella menetelmällä saadaan puhesignaali pakattua jopa l/30:aan • ·« · .*··. 30 alkuperäisen signaalin muodostamasta tietomäärästä olemassa olevia ja tunnettuja menetelmiä hyväksi käyttäen puheen ja puhujan tunnistettavuuden säilyessä. Mene-i " telmä on edullinen erityisesti puheen siirrossa ja puheen tallennuksessa. Laskennal- :.' · i lisesti on todettu, että normaalille 1.44 Mbitin levykkeelle voidaan helposti tallentaa tunti puhetta. Tämä tulos edustaa vähintään kaksinkertaista tietomäärää vertailtaessa 35 puhesignaalille kehitettyjen yksiulotteisten kompressioalgoritmien kanssa. Lisäksi 6 110220 menetelmän avulla pystytään säilyttämään puheen persoonalliset piirteet suurillakin kompressiosuhteilla. Menetelmän haittapuolena on, että se on laskennallisesti raskas useine vaiheineen. Tähän on saatavissa helpotusta piiriteknologian kehityksen myö- tä. Menetelmä ei myöskään sovi reaaliaikaiseen käsittelyyn, sillä kuvamatriisin 5 koostamiseksi puhesignaalia on kerättävä useiden sekuntien ajan ennen varsinaista kompressointia.• k: By the method of the invention, the speech signal can be compressed up to 1/30 • · «·. * ··. 30 of the original signal using existing and known methods while maintaining speech and speaker recognition. The go-to method is particularly useful for speech transmission and speech recording. Computation: '. · It has been found that one hour of speech can easily be recorded on a standard 1.44 Mbit floppy disk, representing at least double the amount of data compared to the one-dimensional compression algorithms developed for 35 speech signals, and 6101020 can maintain personal characteristics of speech at high compression ratios. The method is also unsuitable for real-time processing, since in order to compile the image matrix 5, the speech signal must be collected several seconds before the actual compression.

Keksinnön mukaisen menetelmän käyttökohteina ovat erityisesti puheentallennus-ja äänipostisovellutukset, jotka eivät vaadi tiukkaa reaaliaikaisuutta. Eräänä tulevaisuuden käyttökohteena voidaan ajatella esimerkiksi mikrotietokoneen multime-10 diaohjelmistoja, joihin puheen siirto ja tallennus liittyy oleellisena osana. Menetelmän soveltamista helpottavat jo nykyään ASIC-piireillä toteutettavat sekä FFT-muuntimet että kuvankäsittelyalgoritmit.The method according to the invention is used in particular for voice recording and voice mail applications that do not require strict real-time. For example, one of the future applications is the multime-10 slide software of a microcomputer, to which speech transmission and recording are an integral part. The application of the method is already facilitated by both FFT converters and image processing algorithms implemented with ASICs.

• · • » I * · «M ♦ • ·• · • »I * ·« M ♦ • ·

Claims (13)

1. Menetelmä puhesignaalin kompressoimiseksi, jossa - puhesignaalista erotetaan valitun mittaisia, peräkkäisiä kehyksiä aikatasossa, ja - johdetaan aikatason kehykset aikataso/taajuustasomuuntimeen, esimerkiksi nope-5 aan Fourier-muuntimeen, jonka ulostulosta saadaan kehykset taajuustasossa, tunnettu siitä, että - järjestetään taajuustason kehykset kuvamatriisiksi eli spektrogrammiksi, jossa taajuustason kehykset esitetään ajan funktiona, ja - johdetaan kuvamatriisi kuvan kompressioalgoritmia toteuttavaan elimeen, jonka 10. ulostulosta saadaan kompressoitu puhesignaali.A method for compressing a speech signal, comprising: - extracting from the speech signal, sequential frames of a selected length in a time domain, and - delivering the time domain frames to a time domain / frequency converter, such as a fast Fourier converter output from frames to frequency domain, that is, a spectrogram in which the frequency domain frames are plotted versus time, and - a picture matrix is passed to a body implementing the image compression algorithm, the 10th output of which produces a compressed speech signal. 2. Menetelmä patenttivaatimuksen 1 mukaisella menetelmällä kompressoidun puhesignaalin rekonstruoimiseksi, tunnettu siitä, että - kompressoitu puhesignaali johdetaan dekompressioalgoritmia toteuttavaan eli-15 meen, jonka ulostulona on taajuustason kehykset ajan funktiona esittävä kuvamatriisi, - erotetaan kuvamatriisista taajuustason kehykset, - johdetaan kehykset taajuustaso/aikatasomuunnoksen suorittavaan muuntimeen, jonka ulostulona saadaan aikatason puhesignaalin muodostavat kehykset. 20 • ·A method for reconstructing a compressed speech signal according to claim 1, characterized in that: - the compressed speech signal is output to a decompression algorithm implementing entity, the output of which is an image matrix representing frequency domain frames as a function of time, , the output of which produces frames which form a time domain speech signal. 20 • · 3. Patenttivaatimuksen 2 mukainen menetelmä, tunnettu siitä, että taajuusta- * so/aikatasomuunnin on käänteisen Fourier-muunnoksen tekevä muunnin. • · · ·3. A method according to claim 2, characterized in that the frequency / time domain converter is a inverse Fourier transform converter. • · · · 4. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että kompressio-25 algoritmi on sinänsä tunnettu JPEG (Joint Photographic Experts Group) ja dekom- .··,·. pressioalgoritmi on sinänsä tunnettu IJPEG (Inverse JPEG).Method according to Claim 1, characterized in that the compression-algorithm is a JPEG (Joint Photographic Experts Group) and a decom. the press algorithm is known as IJPEG (Inverse JPEG). 5. Patenttivaatimuksen 1 tai 3 mukainen menetelmä, tunnettu siitä, että taa-;,.' juustason kehys koostuu erillisistä reaali- ja imaginaarikehyksistä. *·;·: 30Method according to claim 1 or 3, characterized in that the cheese-level frame consists of separate real and imaginary frames. * ·; ·: 30 : 6. Patenttivaatimuksen 1 tai 3 mukainen menetelmä, tunnettu siitä, että taa- : ” ’: juustason kehys koostuu erillisistä amplitudi- ja vaihekehyksistä. y ’ 7. Patenttivaatimuksen 1 tai 3 mukainen menetelmä, tunnettu siitä, että taa- ' · ': 35 juustason kehys muodostuu pelkästään amplitudikehyksestä. 110220 OA method according to claim 1 or 3, characterized in that the rear frame of the cheese: "": consists of separate amplitude and phase frames. y '7. The method according to claim 1 or 3, characterized in that the frame of the' ': 35 cheese level consists solely of an amplitude frame. 110220 O 7 1102207 110220 8. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että kaksiulotteisen kuvamatriisin muodostamiseen käytetään taajuustason kehyksen puolikasta.A method according to claim 1, characterized in that half of the frequency domain frame is used to form the two-dimensional image matrix. 9. Patenttivaatimuksen 1 tai 3 mukainen menetelmä, tunnettu siitä, että kehyk-5 sen Fourier-muunnospisteiden lukumäärä ja muunnettavien kehysten lukumäärä on sama, jolloin saadaan neliömäinen kuvamatriisi.Method according to Claim 1 or 3, characterized in that the number of Fourier transform points of the frame and the number of frames to be converted are the same, thereby obtaining a square image matrix. 10. Laite puhesignaalin kompressoimiseksi, joka laite käsittää - A/D-muuntimen puhesignaalin muuttamiseksi digitaaliseen muotoon, 10 ensimmäiset välineet puhesignaalin jakamiseksi peräkkäisiin kehyksiin, sekä - ensimmäisen muuntimen, esimerkiksi nopean Fourier-muuntimen, joka toteuttaa aikataso/taajuustasomuunnoksen, tunnettu siitä, että se käsittää - toiset välineet kaksiulotteisen kuvamatriisin muodostamiseksi ensimmäisen muun-15 timen lähtösignaaleista - kolmannet välineet kompressioalgoritmin suorittamiseksi kuvamatriisille ja - muistivälineet väli- ja lopputulosten tallentamiseen.A device for compressing a speech signal, the device comprising: - an A / D converter for converting a speech signal into a digital format, 10 first means for dividing the speech signal into successive frames, and - a first converter, for example a fast Fourier converter comprising: - second means for forming a two-dimensional image matrix from the output signals of the first converter; - third means for performing a compression algorithm on the image matrix; and - memory means for storing intermediate and final results. 11. Laite patenttivaatimuksen 10 mukaisella laitteella kompressoidun puhesig-20 naalin rekonstruoimiseksi, tunnettu siitä, että laite käsittää - neljännet välineet dekompressioalgoritmin suorittamiseksi, ; . * - viidennet välineet taajuustason kehysten erottamiseksi kaksiulotteisesta kuvamat- ♦ * ♦ '·'·* riisistä, ‘ * - toisen muuntimen, joka toteuttaa taajuustaso/aikatasomuunnoksen, ί V 25 - kuudennet välineet aikatason kehysten yhdistämiseksi peräkkäin, • V - D/A-muuntimen digitaalisen puhesignaalin muuntamiseksi analogiseen muotoon, : i : sekä - muistivälineet välitulosten tallentamiseen. • »· .••*.30An apparatus for reconstructing a speech signal compressed by a device according to claim 10, characterized in that the apparatus comprises: - a fourth means for performing a decompression algorithm; . * - Fifth means for separating frequency domain frames from two-dimensional imaging- ♦ * ♦ '·' · * rice, '* - Second converter implementing frequency level / time domain conversion, ί V 25 - Sixth means for combining time domain frames sequentially, • V - D / A- a converter for converting a digital speech signal into an analog format,: i: and - memory means for storing intermediate results. • »·. •• * .30 12. Patenttivaatimuksen 11 mukainen laite, tunnettu siitä, että toinen muunnin ·’ on nopean käänteisen Fourier-muunnoksen suorittava muunnin. • · · »Device according to Claim 11, characterized in that the second converter · 'is a converter that performs a fast inverse Fourier transform. • · · » 13. Patenttivaatimuksen 10 tai 11 mukainen laite, tunnettu siitä, että kolmannet : ·. välineet ovat JPEG-algoritmin toteuttavat välineet ja neljännet välineet ovat IJPEG- .·. : 35 algoritmin toteuttavat välineet. 9 110220Device according to Claim 10 or 11, characterized in that the third parties: ·. the tools are the tools implementing the JPEG algorithm and the fourth tools are the IJPEG tools. : 35 tools implementing the algorithm. 9 110220
FI933182A 1993-07-13 1993-07-13 Compression and reconstruction of speech signal FI110220B (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
FI933182A FI110220B (en) 1993-07-13 1993-07-13 Compression and reconstruction of speech signal
GB9414078A GB2280827B (en) 1993-07-13 1994-07-12 Compression and reconstruction of speech signal

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FI933182A FI110220B (en) 1993-07-13 1993-07-13 Compression and reconstruction of speech signal
FI933182 1993-07-13

Publications (3)

Publication Number Publication Date
FI933182A0 FI933182A0 (en) 1993-07-13
FI933182A FI933182A (en) 1995-01-14
FI110220B true FI110220B (en) 2002-12-13

Family

ID=8538313

Family Applications (1)

Application Number Title Priority Date Filing Date
FI933182A FI110220B (en) 1993-07-13 1993-07-13 Compression and reconstruction of speech signal

Country Status (2)

Country Link
FI (1) FI110220B (en)
GB (1) GB2280827B (en)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5781880A (en) * 1994-11-21 1998-07-14 Rockwell International Corporation Pitch lag estimation using frequency-domain lowpass filtering of the linear predictive coding (LPC) residual
GB2351889B (en) 1999-07-06 2003-12-17 Ericsson Telefon Ab L M Speech band expansion
DE19939387A1 (en) * 1999-08-19 2001-02-22 Siemens Ag Audio signal coding method for speech or music signals
AU2003262451B2 (en) * 1999-09-22 2006-01-19 Macom Technology Solutions Holdings, Inc. Multimode speech encoder
CN1151485C (en) * 2000-05-02 2004-05-26 莫绍祥 Sound and beat image display method and equipment
US7574352B2 (en) 2002-09-06 2009-08-11 Massachusetts Institute Of Technology 2-D processing of speech
UA91827C2 (en) * 2006-09-29 2010-09-10 Общество С Ограниченной Ответственностью "Парисет" Method of multi-component coding and decoding electric signals of different origin
CN111768799A (en) * 2019-03-14 2020-10-13 富泰华工业(深圳)有限公司 Voice recognition method, voice recognition apparatus, computer apparatus, and storage medium

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4045616A (en) * 1975-05-23 1977-08-30 Time Data Corporation Vocoder system
IL79775A (en) * 1985-08-23 1990-06-10 Republic Telcom Systems Corp Multiplexed digital packet telephone system

Also Published As

Publication number Publication date
GB2280827A (en) 1995-02-08
FI933182A0 (en) 1993-07-13
FI933182A (en) 1995-01-14
GB9414078D0 (en) 1994-08-31
GB2280827B (en) 1998-01-07

Similar Documents

Publication Publication Date Title
JP4426483B2 (en) Method for improving encoding efficiency of audio signal
KR100427753B1 (en) Method and apparatus for reproducing voice signal, method and apparatus for voice decoding, method and apparatus for voice synthesis and portable wireless terminal apparatus
RU2257556C2 (en) Method for quantizing amplification coefficients for linear prognosis speech encoder with code excitation
KR100873836B1 (en) Celp transcoding
US6493666B2 (en) System and method for processing data from and for multiple channels
US5091944A (en) Apparatus for linear predictive coding and decoding of speech using residual wave form time-access compression
US5623575A (en) Excitation synchronous time encoding vocoder and method
KR100840439B1 (en) Audio coding apparatus and audio decoding apparatus
EP2360682A1 (en) Audio packet loss concealment by transform interpolation
JPWO2007088853A1 (en) Speech coding apparatus, speech decoding apparatus, speech coding system, speech coding method, and speech decoding method
JP2000305599A (en) Speech synthesizing device and method, telephone device, and program providing media
KR20010087391A (en) Synthesis of speech from pitch prototype waveforms by time-synchronous waveform interpolation
FI119576B (en) Speech processing device and procedure for speech processing, as well as a digital radio telephone
FI110220B (en) Compression and reconstruction of speech signal
US5673364A (en) System and method for compression and decompression of audio signals
US6269332B1 (en) Method of encoding a speech signal
US6141639A (en) Method and apparatus for coding of signals containing speech and background noise
US7164719B2 (en) System to reduce distortion due to coding with a sample-by-sample quantizer
JP2004302259A (en) Hierarchical encoding method and hierarchical decoding method for sound signal
JP2796408B2 (en) Audio information compression device
JP5491193B2 (en) Speech coding method and apparatus
JP3576485B2 (en) Fixed excitation vector generation apparatus and speech encoding / decoding apparatus
BAKIR Compressing English Speech Data with Hybrid Methods without Data Loss
Ooi et al. A computationally efficient wavelet transform CELP coder
JP2906596B2 (en) Audio coding device

Legal Events

Date Code Title Description
MA Patent expired