Claims (3)
1. Способ анализа речи, в котором осуществляют выборки из входного сигнала с заданной частотой дискретизации и с помощью аналого-цифрового преобразования формируют из них цифровой сигнал, запоминают цифровой сигнал на временном отрезке, длина которого по крайней мере вдвое превышает максимально допустимый период сигнала основного тона, обнаруживают в запомненном цифровом сигнале наличие речевого сигнала и/или паузы, при обнаружении паузы определяют ее длительность, при обнаружении сигнала основного тона и при наличии на указанном временном отрезке цифрового сигнала не менее двух периодов сигнала основного тона, разность между которыми не превышает заданный порог, принимают решение о наличии в речевом сигнале "гласной" и затем запомненный цифровой сигнал разбивают на кадры, длительность каждого из которых устанавливают равной Т отсчетам и периоду сигнала основного тона, в каждом кадре интерполируют Т отсчетов в N отсчетов, где N = 2n, n - целое число, полученный цифровой сигнал из N отсчетов подвергают N-точечному преобразованию Фурье, на основании которого выделяют и/или измеряют спектр сигнала, если в запомненном цифровом сигнале сигнал основного тона не обнаруживают, то измеряют изменения амплитуды запомненного цифрового сигнала, и, если изменения амплитуды запомненного цифрового сигнала находятся в заданном диапазоне, принимают решение о наличии "шипящей согласной" и затем из запомненного цифрового сигнала выбирают N отсчетов, нормируют их по действующему значению и подвергают N-точечному преобразованию Фурье, на основании которого измеряют энергии полученного спектра по критическим зонам слуха, если не обнаруживают "гласной" и "шипящей согласной", то принимают решение о наличии "взрывной согласной" и затем из запомненного цифрового сигнала выбирают N отсчетов, подвергают их N-точечному преобразованию Фурье, на основании которого выделяют и/или измеряют спектр сигнала.1. A method for analyzing speech, in which samples are taken from an input signal with a given sampling frequency and, using an analog-to-digital conversion, a digital signal is formed from them, a digital signal is stored on a time period whose length is at least twice the maximum allowable period of the fundamental signal , the presence of a speech signal and / or pause is detected in the stored digital signal, when a pause is detected, its duration is determined, when a pitch signal is detected and if there is a specified time In a given segment of a digital signal, at least two periods of the fundamental signal, the difference between which does not exceed a predetermined threshold, decide on the presence of a vowel in the speech signal and then the stored digital signal is divided into frames, the duration of each of which is set equal to T samples and the signal period fundamental tone, in each frame T samples are interpolated into N samples, where N = 2 n , n is an integer, the digital signal obtained from N samples is subjected to an N-point Fourier transform, based on which both / and the signal spectrum is measured if no fundamental signal is detected in the stored digital signal, then the amplitude changes of the stored digital signal are measured, and if the changes in the amplitude of the stored digital signal are in a predetermined range, a decision is made on the presence of an “hissing consonant” and then from the stored digital signal select N samples, normalize them according to the actual value and undergo the N-point Fourier transform, on the basis of which the energies of the obtained spectrum are measured over critical hearing zones, if and do not detect a "vowel" and "hissing consonant", then decide on the presence of an "explosive consonant" and then N samples are selected from the stored digital signal, subjected to N-point Fourier transform, based on which the signal spectrum is extracted and / or measured.
2. Способ по п.1, отличающийся тем, что при принятии решения о наличии "взрывной согласной" перед N-точечным преобразованием Фурье длительность кадра из N выборок уменьшают. 2. The method according to claim 1, characterized in that when deciding on the presence of an "explosive consonant" before the N-point Fourier transform, the frame duration of N samples is reduced.
3. Способ по п.2, отличающийся тем, что длительность кадра уменьшают не более чем на 5 - 15%. 3. The method according to claim 2, characterized in that the frame duration is reduced by no more than 5-15%.