RU2432624C1 - Method of reducing data volume during wideband speech coding - Google Patents

Method of reducing data volume during wideband speech coding Download PDF

Info

Publication number
RU2432624C1
RU2432624C1 RU2010115915/09A RU2010115915A RU2432624C1 RU 2432624 C1 RU2432624 C1 RU 2432624C1 RU 2010115915/09 A RU2010115915/09 A RU 2010115915/09A RU 2010115915 A RU2010115915 A RU 2010115915A RU 2432624 C1 RU2432624 C1 RU 2432624C1
Authority
RU
Russia
Prior art keywords
speech signal
speech
signal
decimation
coding
Prior art date
Application number
RU2010115915/09A
Other languages
Russian (ru)
Inventor
Андрей Алексеевич Афанасьев (RU)
Андрей Алексеевич Афанасьев
Владимир Геннадьевич Трубицын (RU)
Владимир Геннадьевич Трубицын
Олег Николаевич Титов (RU)
Олег Николаевич Титов
Original Assignee
Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) filed Critical Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России)
Priority to RU2010115915/09A priority Critical patent/RU2432624C1/en
Application granted granted Critical
Publication of RU2432624C1 publication Critical patent/RU2432624C1/en

Links

Images

Abstract

FIELD: information technology. ^ SUBSTANCE: during wideband speech coding at the output of an analogue-to-digital converter, the speech signal is split into quasi-stationary parts, on each of which the autocorrelation function of the signal is calculated. Further, the value of the correlation interval is determined and the effective bandwidth is calculated. The decimation coefficient is then calculated and the analysed speech signal undergoes decimation to obtain at the output of the decimation system the necessary and sufficient number of readings for presenting the speech signal during wideband coding. ^ EFFECT: reduced volume of data during wideband speech coding. ^ 4 dwg

Description

Изобретение относится к области цифровой связи и может быть использовано в системах телеинформационных коммуникаций при широкополосном кодировании речевого сигнала.The invention relates to the field of digital communications and can be used in telecommunication communication systems for broadband coding of a speech signal.

В настоящее время наиболее важной тенденцией является широкое использование информационных технологий в телекоммуникационных сетях связи. Переход к цифровой обработке сигналов и пакетной передаче данных позволил предоставить пользователям более широкий спектр инфокоммуникационных услуг. При этом достаточно большую часть телетрафика в различных приложениях составляет передача речевых сигналов.Currently, the most important trend is the widespread use of information technology in telecommunication networks. The transition to digital signal processing and packet data transmission has allowed us to provide users with a wider range of information and communication services. Moreover, a rather large part of teletraffic in various applications is the transmission of speech signals.

Для повышения естественности и узнаваемости звучания синтезированного речевого сигнала в последние годы наблюдается тенденция к расширению спектральной области кодируемого сигнала до 7 кГц.To increase the naturalness and recognition of the sound of the synthesized speech signal in recent years, there has been a tendency to expand the spectral region of the encoded signal to 7 kHz.

Переход к кодированию широкополосного речевого сигнала определен тем, что ранее в телефонных сетях ограничивали полосу частот речевого сигнала в диапазоне 300-3400 Гц. Это ограничение ухудшало качество речи в части естественности, разборчивости и узнаваемости диктора. Однако переход к цифровым сетям связи позволяет увеличить анализируемую полосу частот речевых сигналов. В настоящее время к кодированию и передаче широкополосной речи с диапазоном частот 50-7000 Гц возникает достаточно большой интерес, так как расширение низкочастотного диапазона вниз до 50 Гц способствует большей естественности, а высокочастотный диапазон 3400-7000 Гц улучшает разборчивость. Кодирование широкополосной речи находит применение в конференцсвязи на основе протоколов IP-телефонии и видеоконференцсвязи, но постепенно оно начинает использоваться в большинстве наиболее важных приложений систем телекоммуникаций, связанных с кодированием и передачей речевых сигналов (М.З.Лившиц, М.Парфенюк, А.А.Петровский. Широкополосный CELP-кодер с мультиполосным возбуждением и многоуровневым векторным квантованием по кодовой книге с реконфигурируемой структурой // Цифровая обработка сигналов - 2005 - №2, с.20-35). При кодировании широкополосной речи частота дискретизации выбирается обычно 16000 Гц, в зависимости от реализации алгоритма кодирования (Peter Noll Speech and audio coding for multimedia communications/ Proceedings International Cost 254 workshop on intelligent communication technologies and applications, Neuchatel, Schweiz, In print, 1999).The transition to the encoding of a broadband speech signal is determined by the fact that previously in telephone networks the frequency band of a speech signal was limited in the range of 300-3400 Hz. This restriction impaired the quality of speech in terms of naturalness, legibility and recognition of the speaker. However, the transition to digital communication networks allows you to increase the analyzed frequency band of speech signals. Currently, there is quite a lot of interest in encoding and transmitting broadband speech with a frequency range of 50-7000 Hz, since expanding the low-frequency range down to 50 Hz contributes to greater naturalness, and the high-frequency range of 3400-7000 Hz improves intelligibility. Broadband speech encoding is used in conferencing based on IP telephony and video conferencing protocols, but gradually it begins to be used in most of the most important telecommunication systems applications related to encoding and transmission of speech signals (M.Z. Livshits, M. Parfenyuk, A.A. .Petrovsky. Broadband CELP encoder with multi-band excitation and multi-level vector quantization according to a codebook with reconfigurable structure // Digital Signal Processing - 2005 - No. 2, p.20-35). When encoding broadband speech, the sampling frequency is usually selected at 16000 Hz, depending on the implementation of the encoding algorithm (Peter Noll Speech and audio coding for multimedia communications / Proceedings International Cost 254 workshop on intelligent communication technologies and applications, Neuchatel, Schweiz, In print, 1999).

Основной проблемой цифрового представления широкополосного речевого сигнала является задача качественного и компактного кодирования данных для их передачи по цифровым каналам связи. Решение этой проблемы позволит в условиях заданного критерия качества связи увеличить пропускную способность линейных трактов и каналов передачи. Часто в некоторых задачах кодирования речевого сигнала предполагается снизить скорость передачи при сохранении качественных показателей ее восприятия. В кодеках речевых сигналов с переменной скоростью передачи, ориентированных на использование в системах связи, основанных на принципе коммутации пакетов, уместно говорить о снижении средней скорости передачи при сохранении качественных показателей синтезированного речевого сигнала.The main problem of digital representation of a broadband speech signal is the task of high-quality and compact data encoding for their transmission over digital communication channels. The solution to this problem will allow, under the conditions of a specified communication quality criterion, to increase the throughput of linear paths and transmission channels. Often, in some tasks of encoding a speech signal, it is supposed to reduce the transmission rate while maintaining qualitative indicators of its perception. In codecs of speech signals with a variable transmission rate, oriented to use in communication systems based on the principle of packet switching, it is appropriate to talk about a decrease in the average transmission rate while maintaining the quality of the synthesized speech signal.

Известны способы кодирования широкополосного речевого сигнала (О.И.Шелухин, Н.Ф.Лукьянцев. Цифровая обработка и передача речи. - М.: Радио и связь, 2000 - С.167-175; патенты US №5235669 от 10.08.1993, RU 2326449 от 10.06.2008, US №2009/0292537 A1 от 26.11.2009).Known methods for encoding a broadband speech signal (O.I.Shelukhin, N.F. Lukyantsev. Digital processing and voice transmission. - M .: Radio and communications, 2000 - S.167-175; US patents No. 5235669 from 08/10/1993, RU 2326449 dated 06/10/2008, US No. 2009/0292537 A1 dated 11.26.2009).

В устройствах, реализующих данные способы, осуществляется анализ широкополосного речевого сигнала и его эффективное кодирование, при этом частота дискретизации всегда остается постоянной, что приводит к фиксированной, зачастую избыточной полосе частот.In devices that implement these methods, the analysis of a broadband speech signal and its effective coding is carried out, while the sampling frequency always remains constant, which leads to a fixed, often excessive frequency band.

Одной из ключевых характеристик при кодировании широкополосного речевого сигнала является понятие участка квазистационарности. Речевой сигнал не является стационарным на длительных участках времени, но возможно допущение о его стационарности на коротких промежутках времени. В существующих стандартах речевого кодирования с использованием линейного предсказания эти промежутки варьируются от 2,5 до 30 мс.One of the key characteristics when encoding a broadband speech signal is the concept of a quasi-stationarity section. The speech signal is not stationary for long periods of time, but it is possible to assume its stationarity for short periods of time. In existing linear prediction speech coding standards, these gaps range from 2.5 to 30 ms.

При анализе случайных дискретных сигналов используется автокорреляционная функция (1):When analyzing random discrete signals, the autocorrelation function (1) is used:

Figure 00000001
Figure 00000001

где S(i) - значение отсчета речевого сигнала.where S (i) is the value of the count of the speech signal.

Рассмотрим взаимосвязь между функцией автокорреляции речевого сигнала на участке квазистационарности и его спектральной плотностью мощности. Эти функции однозначно связанны со спектральными характеристиками речевого сигнала, а именно со спектральной плотностью мощности σ(ω). Между B(τ) и σ(ω) существует пара преобразований Фурье (2) и (3).Consider the relationship between the autocorrelation function of a speech signal in a quasistationary region and its power spectral density. These functions are uniquely related to the spectral characteristics of the speech signal, namely, the spectral power density σ (ω). Between B (τ) and σ (ω) there is a pair of Fourier transforms (2) and (3).

Figure 00000002
Figure 00000002

Figure 00000003
Figure 00000003

Представленная пара преобразований позволяет определить спектральную плотность мощности по автокорреляционной функции случайного речевого сигнала на основании теоремы А.Я.Хинчина и Н.Винера. При этом необходимо учитывать требования стационарности для случайного речевого сигнала (А.Г.Зюко, Д.Д.Кловский, В.И.Коржик, М.В.Назаров. Теория электрической связи: Учебник для вузов / Под ред. Д.Д.Кловского. - М.: Радио и связь, 1998. - с.36-44, 56-60).The presented pair of transformations makes it possible to determine the spectral power density from the autocorrelation function of a random speech signal based on the theorem of A.Ya. Khinchin and N. Wiener. In this case, it is necessary to take into account the stationary requirements for a random speech signal (A.G. Zyuko, D.D. Klovsky, V.I. Korzhik, M.V. Nazarov. Theory of electrical communications: Textbook for universities / Ed. D.D. Klovsky. - M.: Radio and Communications, 1998 .-- p. 36-44, 56-60).

В соответствии с существующей связью между B(τ) и σ(ω) можно определить другие важные показатели, характеризующие случайный речевой сигнал. К ним можно отнести интервал корреляции τкор, характеризующий промежуток времени для случайного речевого сигнала, мгновенные значения которого взаимосвязаны, следовательно, имеют одну структуру формирования и эффективную полосу частот Fэф, определяющую полосу, в которой сосредоточено 90-95% мощности.In accordance with the existing relationship between B (τ) and σ (ω), other important indicators characterizing a random speech signal can be determined. These include the correlation interval τ cor , which characterizes the time interval for a random speech signal, the instantaneous values of which are interconnected, therefore, have one formation structure and an effective frequency band F eff , which determines the band in which 90-95% of the power is concentrated.

B(τ) и σ(ω) одного случайного сигнала однозначно определяют друг друга, то есть существует взаимосвязь между τкор и Fэф. Эта взаимосвязь устанавливается через произведение этих параметров (4).B (τ) and σ (ω) of one random signal uniquely determine each other, that is, there is a relationship between τ cor and F eff . This relationship is established through the product of these parameters (4).

Figure 00000004
Figure 00000004

Значение κ для различных моделей случайных сигналов имеет различные величины. При анализе речевых сигналов τкор принято κ=0,5, следовательно Fэф=0.5/τкор. Значение τкор определяется точкой первого перехода автокорреляционной функции через ноль.The κ value for different models of random signals has different values. When analyzing the speech signals τ cor , κ = 0.5, therefore, F eff = 0.5 / τ cor . The value of τ cor is determined by the point of the first transition of the autocorrelation function through zero.

Соотношение (4) указывает на явную связь между шириной спектра и шириной корреляции. Чем меньше интервал корреляции, тем шире спектр (А.Г.Зюко, Д.Д.Кловский, В.И.Коржик, М.В.Назаров. Теория электрической связи: Учебник для вузов / Под ред. Д.Д.Кловского. - М.: Радио и связь, 1998. - с.56-60).Relation (4) indicates an explicit relationship between the width of the spectrum and the width of the correlation. The smaller the correlation interval, the wider the spectrum (A.G. Zyuko, D.D. Klovsky, V.I. Korzhik, M.V. Nazarov. Theory of electrical communications: Textbook for high schools / Ed. By D. D. Klovsky. - M .: Radio and communications, 1998 .-- p.56-60).

Математические модели и установленные соотношения между τкор и Fэф позволяют использовать их для анализа реальных речевых сигналов, при этом правомерность применения подтверждают результаты эксперимента.Mathematical models and the established relations between τ cor and F eff allow using them for analysis of real speech signals, while the validity of the application is confirmed by the experimental results.

Для речевого сигнала слитной русской речи, помимо возможности классификации активного участка на тоновой или шумовой, важной характеристикой является эффективная полоса частот Fэф, занимаемая речью. На фиг.1 и фиг.2 представлены временное представление, автокорреляционная функция и спектральное представление звуков “А” и “Ш” соответственно. Данные чертежи получены при произношении звуков слитной речи с использованием микропроцессорной техники и программного обеспечения, сформированного с использованием пакета прикладных программ LabView. Аналого-цифровое преобразование речевого сигнала реализовано на временных интервалах в 24 мс с частотой дискретизации 22050 Гц с использованием 16-битного квантователя.For the speech signal of continuous Russian speech, in addition to the ability to classify the active section as tone or noise, an important characteristic is the effective frequency band F eff occupied by the speech. Figure 1 and figure 2 presents a temporal representation, autocorrelation function and spectral representation of the sounds "A" and "W", respectively. These drawings were obtained when pronouncing the sounds of continuous speech using microprocessor technology and software generated using the LabView application package. The analog-to-digital conversion of the speech signal is implemented at 24 ms time intervals with a sampling frequency of 22050 Hz using a 16-bit quantizer.

Анализ графиков кратковременной спектральной плотности мощности речевого сигнала показывает, что в полосе частот от 3 до 7 кГц появляются всплески спектральной энергии только при произнесении некоторой части согласных звуков (например, “ш”, “с”, “ф”, “х”). Данный факт указывает на возможность адаптивного изменения границ спектральной области кодируемого речевого сигнала для минимизации объема обрабатываемых данных при реализации процедуры сжатия и сохранении качественных показателей речи не ниже требуемых. Изменение границ спектральной области кодируемого речевого сигнала можно реализовать с использованием процедуры децимации с дробными коэффициентами.An analysis of the graphs of the short-term power spectral density of a speech signal shows that in the frequency band from 3 to 7 kHz, bursts of spectral energy appear only when a certain part of consonant sounds is pronounced (for example, “w”, “c”, “f”, “x”). This fact indicates the possibility of adaptively changing the boundaries of the spectral region of the encoded speech signal to minimize the amount of processed data when implementing the compression procedure and maintaining the quality of speech not lower than required. Changing the boundaries of the spectral region of the encoded speech signal can be implemented using the decimation procedure with fractional coefficients.

Соответствующие преобразования исходного дискретного сигнала с частотой дискретизации fд=1/T, T - интервал дискретизации исходного сигнала, в дискретный сигнал с частотой дискретизации fду=1/Tу, Tу - интервал дискретизации преобразованного дискретного сигнала, осуществляются системами интерполяции и децимации, характеризующимися коэффициентами интерполяции L=fду/fд=Т/Tу и децимации М=fд/fду=Tу/T (в простейшем случае - целочисленными) соответственно. Помимо систем интерполяции и децимации с целочисленными коэффициентами L и М существуют системы преобразования частоты дискретизации с рациональным коэффициентом L/M. Они формируются по принципу последовательного выполнения интерполяции и децимации, а следовательно являются многократными многоскоростными системами. Например, понижение частоты дискретизации в 1,25 раза может быть реализовано последовательным соединением системы интерполяции с коэффициентом L=4 и системы децимации с коэффициентом M=5, таким образом, реализуется система децимации с коэффициентом M=1,25. Процедуры многоскоростной обработки, интерполяция и децимация достаточно подробно описаны в (Солонина А.И., Улахович Д.А., Арбузов С.М., Соловьева Е.Б. Основы цифровой обработки сигналов: Курс лекций. Изд. 2-е испр. и перераб.- СПб.: БХВ - Петербург, 2005. - с.587-620). Таким образом, fду=fд/(2·Fэф).Appropriate transformation of the source digital signal with a sampling frequency f A = 1 / T, T - the initial signal sampling interval in digital signal with a sampling frequency f dy = 1 / T y, T y - sampling interval of the converted digital signal are carried out the interpolation and decimation systems characterized interpolation coefficients dy L = f / f e = T / T v and decimation M = f d / f dy = T y / T (in the simplest case - integer), respectively. In addition to interpolation and decimation systems with integer coefficients L and M, there are systems for converting the sampling frequency with a rational coefficient L / M. They are formed on the principle of sequential execution of interpolation and decimation, and therefore are multiple multi-speed systems. For example, a 1.25-fold reduction in the sampling frequency can be realized by connecting the interpolation system with a coefficient of L = 4 and the decimation system with a coefficient of M = 5 by a series of steps; thus, a decimation system with a coefficient of M = 1.25 is implemented. The multi-speed processing procedures, interpolation and decimation are described in sufficient detail in (Solonina A.I., Ulakhovich D.A., Arbuzov S.M., Solovieva E.B. Fundamentals of Digital Signal Processing: Lecture Course. Ed. 2nd ed. and revised .- SPb .: BHV - Petersburg, 2005. - p. 587-620). Thus, f du = f d / (2 · F eff ).

Наиболее близким по технической сущности к заявленному изобретению является патент RU №2331933 от 20.08.2008, в котором производится кодирование широкополосного речевого сигнала на основе разновидности алгоритма линейного предсказания.The closest in technical essence to the claimed invention is the patent RU No. 2331933 dated 08/20/2008, which encodes a broadband speech signal based on a variation of the linear prediction algorithm.

Различные варианты реализации алгоритмов кодирования речи на основе линейного предсказания представлены в (О.И.Шелухин, Н.Ф.Лукьянцев. Цифровая обработка и передача речи. - М.: Радио и связь, 2000. - С.102-166; Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов. - М.: Радио и связь, 1981. - С.365-428).Various options for the implementation of speech coding algorithms based on linear prediction are presented in (O.I.Shelukhin, N.F. Lukyantsev. Digital processing and transmission of speech. - M .: Radio and communications, 2000. - P.102-166; Rabiner L .R., Shafer R.V. Digital processing of speech signals. - M .: Radio and communications, 1981. - S.365-428).

Согласно известному способу широкополосный речевой сигнал подвергают аналого-цифровому преобразованию, после чего разделяют его на участки квазистационарности и подвергают кодированию на основе разновидности метода линейного предсказания.According to the known method, the broadband speech signal is subjected to analog-to-digital conversion, after which it is divided into quasi-stationary sections and encoded based on a variation of the linear prediction method.

Недостатком данного способа является достаточно большой объем анализируемых данных, что связано с высокой фиксированной частотой дискретизации речевого сигнала при широкополосном кодировании.The disadvantage of this method is the rather large amount of data being analyzed, which is associated with a high fixed sampling rate of the speech signal in broadband coding.

Использование такой частоты дискретизации не всегда является необходимым условием получения высокого качества синтезированной речи при кодировании, а ее фиксация на достаточно высоком уровне приводит к избыточному объему данных и соответственно достаточно высокой скорости передачи и высокой вычислительной сложности алгоритмов кодирования речевого сигнала. Анализ фиг.1 и фиг.2 показывает, что расширение эффективной полосы частот кодируемого широкополосного речевого сигнала необходимо для некоторых согласных звуков, что также подтверждается исследованиями, представленными в (Михайлов В.Г., Златоустова Л.В. Измерение параметров речи. - М.: Радио и связь, 1987. - 168 с.).The use of such a sampling rate is not always a necessary condition for obtaining high quality synthesized speech during encoding, and its fixation at a sufficiently high level leads to an excessive amount of data and, accordingly, a sufficiently high transmission rate and high computational complexity of speech signal encoding algorithms. The analysis of figure 1 and figure 2 shows that the expansion of the effective frequency band of the encoded broadband speech signal is necessary for some consonants, which is also confirmed by the studies presented in (Mikhailov V.G., Zlatoustova L.V. Measurement of speech parameters. - M .: Radio and communications, 1987. - 168 p.).

Задачей изобретения является уменьшение объема данных при широкополосном кодировании речевого сигнала.The objective of the invention is to reduce the amount of data in broadband coding of a speech signal.

Эта задача решается тем, что в способе уменьшения объема данных при широкополосном кодировании речевого сигнала на выходе аналого-цифрового преобразователя речевой сигнал разделяют на участки квазистационарности, на каждом из которых вычисляют автокорреляционную функцию сигнала, после этого определяют значение интервала корреляции и вычисляют эффективную полосу частот, далее рассчитываю коэффициент децимации и подвергают анализируемый сигнал децимации, получая на выходе системы децимации необходимое и достаточное количество отсчетов для представления речевого сигнала.This problem is solved by the fact that in the method of reducing the amount of data during wideband coding of the speech signal at the output of the analog-to-digital converter, the speech signal is divided into quasi-stationary sections, on each of which the autocorrelation function of the signal is calculated, then the value of the correlation interval is determined and the effective frequency band is calculated, then I calculate the decimation coefficient and subjected to the analyzed decimation signal, receiving at the output of the decimation system the necessary and sufficient count Pets for presenting a speech signal.

Алгоритм функционирования предложенной системы, реализующей способ уменьшения объема данных при широкополосном кодировании речевого сигнала, представлен на фиг.3.The algorithm of the functioning of the proposed system that implements a method of reducing the amount of data when broadband coding of a speech signal is presented in figure 3.

Проведенный анализ уровня техники позволил установить, что аналоги, характеризующиеся совокупностью признаков, тождественных всем признакам заявленного технического решения, отсутствуют, что указывает на соответствие заявленного способа условию патентоспособности “новизна”.The analysis of the prior art made it possible to establish that analogues that are characterized by a combination of features that are identical to all the features of the claimed technical solution are absent, which indicates the compliance of the claimed method with the condition of patentability “novelty”.

Благодаря новой совокупности существенных признаков системы, обеспечивающих возможность вычисления автокорреляционной функции речевого сигнала, определение значения интервала корреляции, вычисление эффективной полосы частот, расчет коэффициента децимации, обработку речевого сигнала системой децимации, представляется возможным уменьшить объем данных при широкополосном кодировании речевого сигнала, что приводит к получению необходимого и достаточного количества отсчетов для качественного представления речевого сигнала при широкополосном кодировании.Thanks to a new set of essential features of the system, which enable the calculation of the autocorrelation function of the speech signal, the determination of the correlation interval, the calculation of the effective frequency band, the calculation of the decimation coefficient, and the processing of the speech signal by the decimation system, it seems possible to reduce the amount of data in the case of broadband coding of the speech signal, which leads to the necessary and sufficient number of samples for a high-quality presentation of the speech signal with wide Rinse coding.

Анализ существующих технических решений в данной и смежных областях техники показал, что введенные отличительные признаки в них отсутствуют и не следуют явным образом из уровня техники. Из уровня техники также не выявлена известность влияния предусматриваемых существенными признаками заявленного изобретения преобразований на достижение указанного технического результата. Следовательно, заявленное техническое решение удовлетворяет критерию “изобретательский уровень”.Analysis of existing technical solutions in this and related fields of technology showed that the introduced distinguishing features are absent and do not follow explicitly from the prior art. The prior art also did not reveal the popularity of the impact provided by the essential features of the claimed invention, the transformations on the achievement of the specified technical result. Therefore, the claimed technical solution meets the criterion of "inventive step".

Заявленное техническое решение поясняется чертежом (фиг.4), на котором показана функциональная схема устройства, реализующего способ уменьшения объема данных при широкополосном кодировании речевого сигнала.The claimed technical solution is illustrated by the drawing (figure 4), which shows a functional diagram of a device that implements a method of reducing the amount of data in broadband coding of a speech signal.

Устройство, реализующее данный способ, состоит из блока 1, выполняющего процедуру аналого-цифрового преобразования речевого сигнала, выход которого соединен со входом блока сегментации речевого сигнала на участки квазистационарности 2, выход которого соединен со входом блока вычисления автокорреляционной функции 3, выход которого соединен со входом блока вычисления интервала корреляции 4, выход которого соединен со входом блока вычисления коэффициента децимации 5, выход которого соединен со входом системы децимации 6, на другой вход которой поступает сигнал со второго выхода блока 2, выход которой соединен со входом блока накопления данных для реализации процедуры кодирования 7.A device that implements this method consists of a unit 1 performing the procedure of analog-to-digital conversion of a speech signal, the output of which is connected to the input of the segmentation unit of the speech signal into quasi-stationary sections 2, the output of which is connected to the input of the autocorrelation function calculation unit 3, the output of which is connected to the input unit for calculating the correlation interval 4, the output of which is connected to the input of the unit for calculating the decimation coefficient 5, the output of which is connected to the input of the decimation system 6, to another input A signal is received from the second output of block 2, the output of which is connected to the input of the data storage block to implement the encoding procedure 7.

Процедура аналого-цифрового преобразования, выполняемая в блоке 1, достаточно подробно освещена в (Радзишевский А.Ю. Основы аналогового и цифрового звука. - М.: Изд. дом «Вильямс», 2006. - с.157-210). Описание сегментирования и накопления речевого сигнала, выполняемых блоками 2 и 7, представлено в (Быков С.В., Журавлев В.И., Шалимов И.А. Цифровая телефония: Учеб. пособие для вузов. - М.: Радио и связь, 2003. - с.66-72). Функционирование блоков 3 и 4 подробно изложено в (А.Г.Зюко, Д.Д.Кловский, В.И.Коржик, М.В.Назаров. Теория электрической связи: Учебник для вузов / Под ред. Д.Д.Кловского. - М.: Радио и связь, 1998. - с.36-44, 56-60). Операции, выполняемые блоками 5 и 6, изложены в (Солонина А.И., Улахович Д.А., Арбузов С.М., Соловьева Е.Б. Основы цифровой обработки сигналов: Курс лекций. Изд. 2-е испр. и перераб. - СПб.: БХВ - Петербург, 2005. - С.587-620).The procedure of analog-to-digital conversion, performed in block 1, is covered in sufficient detail in (Radzishevsky A.Yu. Fundamentals of analog and digital sound. - M.: Williams Publishing House, 2006. - p.157-210). A description of the segmentation and accumulation of the speech signal performed by blocks 2 and 7 is presented in (Bykov S.V., Zhuravlev V.I., Shalimov I.A.Digital telephony: Textbook for universities. - M.: Radio and communications, 2003. - p. 66-72). The functioning of blocks 3 and 4 is described in detail in (A.G. Zyuko, D.D. Klovsky, V.I. Korzhik, M.V. Nazarov. Theory of electrical communication: Textbook for high schools / Edited by D.D. Klovsky. - M.: Radio and Communications, 1998 .-- p. 36-44, 56-60). The operations performed by blocks 5 and 6 are described in (Solonina A.I., Ulahovich D.A., Arbuzov S.M., Solovieva E.B. Fundamentals of Digital Signal Processing: Lecture Course. Ed. 2nd ed. And revised .-- St. Petersburg: BHV - Petersburg, 2005 .-- S.587-620).

Промышленная применимость введенных элементов обусловлена наличием элементной базы, на основе которой они могут быть выполнены.The industrial applicability of the introduced elements is due to the presence of the element base on the basis of which they can be performed.

Устройство, реализующее заявленный способ, работает следующим образом. Речевой сигнал подается на блок 1, где осуществляется его аналого-цифровое преобразование, далее речевой сигнал в блоке 2 сегментируется на участки квазистационарности и подается на блок 3, в котором производится вычисление автокорреляционной функции, анализ автокорреляционной функции в блоке 4 позволяет выявить интервал корреляции, информация с блока 4 о значении интервала корреляции поступает на блок 5, где реализуется вычисление коэффициента децимации, информация о данном значении подается на блок 6, в котором производится децимация речевого сигнала, поступающего с блока 2, с выхода блока 6 речевой сигнал, подвергнутый децимации, поступает в блок 7, где реализуется его накопление на участке квазистационарности с целью дальнейшей обработки при широкополосном речевом кодировании.A device that implements the claimed method works as follows. The speech signal is fed to block 1, where its analog-to-digital conversion is performed, then the speech signal in block 2 is segmented into quasi-stationary sections and fed to block 3, in which the autocorrelation function is calculated, the analysis of the autocorrelation function in block 4 allows you to identify the correlation interval, information from block 4, the value of the correlation interval goes to block 5, where the decimation coefficient is calculated, information about this value is sent to block 6, in which p chevogo signal coming from block 2, the output unit 6, the speech signal subjected to decimation is supplied to unit 7, where it is implemented in accumulation portion quasistationarity for further processing in wideband speech coding.

К достоинствам способа следует отнести тот факт, что уменьшение объема данных при широкополосном кодировании речи приведет к снижению средней скорости передачи речевого сигнала по каналам цифровой связи, а также уменьшит количество требуемых вычислений при реализации процедуры кодирования.The advantages of the method include the fact that a decrease in the amount of data during broadband coding of speech will lead to a decrease in the average transmission rate of a speech signal through digital communication channels, as well as reduce the number of required calculations when implementing the coding procedure.

Были проведены экспериментальные исследования для выявления возможности применения предлагаемого способа, которые показали уменьшение объема анализируемых данных речевого сигнала при широкополосном кодировании в среднем на 40%.Experimental studies were conducted to identify the possibility of using the proposed method, which showed a decrease in the volume of the analyzed data of the speech signal with broadband coding by an average of 40%.

Приведенные технические решения показывают, что устройство, воплощающее изобретение, при его осуществлении способно уменьшить объем данных при широкополосном кодировании речевого сигнала, что приведет к снижению средней скорости передачи речи по каналам цифровой связи, а также уменьшит количество требуемых вычислений при реализации процедуры кодирования.The above technical solutions show that the device embodying the invention, when implemented, is able to reduce the amount of data for broadband coding of a speech signal, which will lead to a decrease in the average speed of speech transmission through digital channels, as well as reduce the number of required calculations when implementing the encoding procedure.

Claims (1)

Способ уменьшения объема данных при широкополосном кодировании речевого сигнала, основанный на том, что в системах кодирования широкополосного речевого сигнала на выходе аналого-цифрового преобразователя речевой сигнал разделяют на участки квазистационарности, отличающийся тем, что на каждом из них вычисляют автокорреляционную функцию сигнала, после этого определяют значение интервала корреляции и вычисляют эффективную полосу частот, далее рассчитывают коэффициент децимации и подвергают анализируемый речевой сигнал децимации, получая на выходе системы децимации необходимое и достаточное количество отсчетов для представления речевого сигнала при широкополосном кодировании. A method of reducing the amount of data in broadband coding of a speech signal, based on the fact that in coding systems of a broadband speech signal at the output of an analog-to-digital converter, the speech signal is divided into quasi-stationary sections, characterized in that the autocorrelation function of the signal is calculated on each of them, after which it is determined the value of the correlation interval and calculate the effective frequency band, then calculate the decimation coefficient and subject the analyzed speech decimation signal, according to uchaya output decimation system necessary and sufficient number of samples to represent a speech signal in wideband coding.
RU2010115915/09A 2010-04-21 2010-04-21 Method of reducing data volume during wideband speech coding RU2432624C1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2010115915/09A RU2432624C1 (en) 2010-04-21 2010-04-21 Method of reducing data volume during wideband speech coding

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2010115915/09A RU2432624C1 (en) 2010-04-21 2010-04-21 Method of reducing data volume during wideband speech coding

Publications (1)

Publication Number Publication Date
RU2432624C1 true RU2432624C1 (en) 2011-10-27

Family

ID=44998188

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2010115915/09A RU2432624C1 (en) 2010-04-21 2010-04-21 Method of reducing data volume during wideband speech coding

Country Status (1)

Country Link
RU (1) RU2432624C1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2505921C2 (en) * 2012-02-02 2014-01-27 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Method and apparatus for encoding and decoding audio signals (versions)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2505921C2 (en) * 2012-02-02 2014-01-27 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Method and apparatus for encoding and decoding audio signals (versions)

Similar Documents

Publication Publication Date Title
US10559313B2 (en) Speech/audio signal processing method and apparatus
KR101428608B1 (en) Spectrum flatness control for bandwidth extension
US9406307B2 (en) Method and apparatus for polyphonic audio signal prediction in coding and networking systems
US8392176B2 (en) Processing of excitation in audio coding and decoding
US20100169082A1 (en) Enhancing Receiver Intelligibility in Voice Communication Devices
US9830920B2 (en) Method and apparatus for polyphonic audio signal prediction in coding and networking systems
WO2011127832A1 (en) Time/frequency two dimension post-processing
EP3671737A1 (en) Noise signal processing method, noise signal generation method, encoder, decoder, and encoding and decoding system
US11335355B2 (en) Estimating noise of an audio signal in the log2-domain
EP3174050A1 (en) Acoustic signal encoding device, acoustic signal decoding device, method for encoding acoustic signal, and method for decoding acoustic signal
EP3550563B1 (en) Encoder, decoder, encoding method, decoding method, and associated programs
RU2432624C1 (en) Method of reducing data volume during wideband speech coding
RU2445718C1 (en) Method of selecting speech processing segments based on analysis of correlation dependencies in speech signal
RU2445719C2 (en) Method of enhancing synthesised speech perception when performing analysis through synthesis in linear predictive vocoders

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20120422