Claims (24)
1. Способ верификации говорящего, в соответствии с которым выделяют по меньшей мере один признак из первого речевого фрагмента, произнесенного говорящим, классифицируют указанный по меньшей мере один признак с помощью множества классификаторов для формирования множества результатов классификации, объединяют указанное множества результатов классификации для формирования объединенных результатов классификации, распознают указанные объединенные результаты классификации путем определения сходства указанных объединенных результатов классификации и второго речевого фрагмента, произнесенного говорящим до указанной верификации говорящего, и на основании указанных распознанных объединенных результатов классификации принимают решение принять или отвергнуть указанного говорящего.1. The method of verifying the speaker, according to which at least one attribute is distinguished from the first speech fragment spoken by the speaker, the at least one attribute is classified using a plurality of classifiers to form a plurality of classification results, the aforementioned plurality of classification results are combined to form the combined results classifications, recognize the specified combined results of the classification by determining the similarity of the specified combined results the labeling moiety and the second speech spoken by said speaker to speaker verification and, based on these detected results of the combined classification decide to accept or reject said speaker.
2. Способ по п.1, отличающийся тем, что дополнительно определяют достоверность на основании указанных распознанных объединенных результатов классификации. 2. The method according to claim 1, characterized in that it further determines the reliability based on the specified recognized combined classification results.
3. Способ по п.2, отличающийся тем, что дополнительно перед классификацией указанного по меньшей мере одного признака проводят распознавание слов в указанном первом речевом фрагменте, произнесенном указанным говорящим, путем сравнения указанного по меньшей мере одного признака с данными, соответствующими указанному говорящему и запомненными до верификации говорящего, чтобы предварительно принять указанного говорящего или предварительно отвергнуть указанного говорящего и осуществляют указанную операцию классификации по меньшей мере одного признака, если решено предварительно принять указанного говорящего, и приводят в действие модуль повторного запроса, если решено предварительно отвергнуть указанного говорящего. 3. The method according to claim 2, characterized in that, in addition to classifying said at least one feature, words are recognized in said first speech fragment spoken by said speaker by comparing said at least one feature with data corresponding to said speaker and stored before verifying the speaker, in order to pre-accept the specified speaker or previously reject the specified speaker and carry out the specified classification operation at least one sign, if it is decided to preliminarily accept the specified speaker, and the re-request module is activated if it is decided to first reject the specified speaker.
4. Способ по п.3, отличающийся тем, что указанный первый речевой фрагмент содержит по меньшей мере один пароль для указанного говорящего. 4. The method according to claim 3, characterized in that said first speech fragment contains at least one password for said speaker.
5. Способ по п.4, отличающийся тем, что указанные данные содержат шаблон, зависящий от говорящего, сформированный из первого речевого фрагмента, заранее произнесенного указанным говорящим, и шаблон, не зависящий от говорящего, сформированный из первого речевого фрагмента, заранее произнесенного по меньшей мере одним вторым говорящим. 5. The method according to claim 4, characterized in that said data comprises a speaker-dependent pattern formed from a first speech fragment pre-spoken by said speaker and a speaker-independent pattern formed from a first speech fragment pre-spoken at least at least one second speaker.
6. Способ по п.1, отличающийся тем, что указанную операцию классификации выполняют с помощью классификатора, использующего нейронную древовидную сеть, и классификатора, использующего динамическое предыскажение шкалы времени. 6. The method according to claim 1, characterized in that the classification operation is performed using a classifier using a neural tree network and a classifier using dynamic timeline predistortion.
7. Способ по п.1, отличающийся тем, что указанную классификацию выполняют с помощью классификатора, использующего модифицированную нейронную древовидную сеть, и классификатора, использующего динамическое предыскажение шкалы времени. 7. The method according to claim 1, characterized in that the classification is performed using a classifier using a modified neural tree network, and a classifier using dynamic timeline predistortion.
8. Способ по п. 1, отличающийся тем, что при указанном распознавании подают на пару из указанного множества классификаторов множество первых фрагментов речи указанного говорящего и отбрасывают один из указанных фрагментов, образующий отброшенный фрагмент, для обучения указанных классификаторов, подают указанный отброшенный фрагмент в указанные пары классификаторов для независимого тестирования указанных классификаторов, вычисляют первую вероятность для первого из классификаторов из указанной пары классификаторов и вторую вероятность для второго классификатора из указанной пары классификаторов и определяют первый порог для первого классификатора из указанной пары классификаторов на основании указанной первой вероятности и второй порог для второго классификатора из указанной пары классификаторов на основании указанной второй вероятности, причем указанное сходство множества результатов классификации определяют путем сравнения указанного первого классификатора из пары классификаторов с указанным первым порогом и указанного второго классификатора из пары классификаторов с указанным вторым порогом. 8. The method according to p. 1, characterized in that when the specified recognition serves for a pair of the specified set of classifiers, the set of the first speech fragments of the specified speaker and discard one of these fragments forming the discarded fragment, for training these classifiers, the specified discarded fragment is fed to the specified pairs of classifiers for independent testing of these classifiers, calculate the first probability for the first of the classifiers from the specified pair of classifiers and the second probability l for the second classifier from the specified pair of classifiers and determine the first threshold for the first classifier from the specified pair of classifiers based on the specified first probability and the second threshold for the second classifier from the specified pair of classifiers based on the specified second probability, and the indicated similarity of the set of classification results is determined by comparing the specified the first classifier from a pair of classifiers with the specified first threshold and the specified second classifier from a pair of keys codifiers with the indicated second threshold.
9. Способ по п.1, отличающийся тем, что указанное выделение выполняют путем модификации полюсов в полюсном фильтре указанных первого и второго речевых фрагментов для выделения указанного по меньшей мере одного признака. 9. The method according to claim 1, characterized in that the selection is performed by modifying the poles in the pole filter of the specified first and second speech fragments to highlight the specified at least one feature.
10. Способ по п. 1, отличающийся тем, что дополнительно сегментируют указанный по меньшей мере один признак указанного первого речевого фрагмента на множество первых подслов после указанной операции выделения. 10. The method according to p. 1, characterized in that it further segmentes said at least one feature of said first speech fragment into a plurality of first subwords after said extraction operation.
11. Способ по п. 10, отличающийся тем, что указанные подслова являются фонемами. 11. The method according to p. 10, characterized in that said subwords are phonemes.
12. Способ по п.1, отличающийся тем, что указанный по меньшей мере один признак корректируют с использованием афинного преобразования
y = Ax + b,
где y - указанное афинное преобразование вектора х, А - матрица, соответствующая линейному преобразованию, b - вектор, соответствующий переносу.12. The method according to claim 1, characterized in that said at least one feature is adjusted using the affinity conversion
y = Ax + b,
where y is the indicated affine transformation of the vector x, A is the matrix corresponding to the linear transformation, b is the vector corresponding to the transfer.
13. Система верификации говорящего, содержащая средства выделения по меньшей мере одного признака из первого речевого фрагмента, произнесенного указанным говорящим, средства классификации указанного по меньшей мере одного признака с помощью множества классификаторов для формирования множества результатов классификации, средства объединения указанного множества выходных сигналов классификации для формирования объединенных результатов классификации, средства распознавания указанных объединенных результатов классификации путем определения сходства указанных объединенных результатов классификации и второго речевого фрагмента, произнесенного говорящим до указанной верификации говорящего, и средства принятия решения, на основании указанных распознанных объединенных результатов классификации, принять или отвергнуть указанного говорящего. 13. The speaker verification system, comprising means for extracting at least one feature from the first speech fragment spoken by said speaker, means for classifying said at least one feature using a plurality of classifiers to generate a plurality of classification results, means for combining said plurality of classification output signals to generate combined classification results, means of recognition of the specified combined classification results by o definiteness said combined similarity classification results and the second speech fragment speaker spoken before said speaker verification and the decision means, on the basis of said detected combined classification result to accept or reject said speaker.
14. Система по п.13, отличающаяся тем, что дополнительно содержит средства распознавания слов в указанном первом речевом фрагменте, произнесенном указанным говорящим, путем сравнения указанного по меньшей мере одного признака с данными, относящимися к указанному говорящему и запомненными до верификации говорящего, для определения, принять указанного говорящего предварительно или отвергнуть указанного говорящего предварительно, и средства приведения в действие указанных средств классификации по меньшей мере одного признака, если решено принять указанного говорящего предварительно, и приведения в действие модуля повторного запроса, если решено отвергнуть указанного говорящего предварительно. 14. The system according to item 13, characterized in that it further comprises means for recognizing words in the specified first speech fragment spoken by the specified speaker, by comparing the specified at least one attribute with data related to the specified speaker and stored prior to verification of the speaker, to determine , accept the specified speaker in advance or reject the specified speaker in advance, and means of activating said means of classifying at least one attribute, if resolved preliminarily accept said speaker, and actuating module re-request, if it is decided to reject said speaker in advance.
15. Система по п. 14, отличающаяся тем, что указанные данные содержат шаблон, зависящий от говорящего и сформированный из первого речевого фрагмента, заранее произнесенного указанным говорящим, и шаблон, не зависящий от говорящего и сформированный из первого речевого фрагмента, заранее произнесенного по меньшей мере одним вторым говорящим. 15. The system of claim 14, wherein said data comprises a pattern dependent on the speaker and formed from the first speech fragment pre-spoken by the specified speaker and a pattern independent of the speaker and formed from the first speech fragment pre-spoken at least at least one second speaker.
16. Система по п.15, отличающаяся тем, что указанные средства классификации содержат классификатор, использующий модифицированную нейронную древовидную сеть, и классификатор, использующий динамическое предыскажение шкалы времени. 16. The system of Claim 15, wherein said classification means comprises a classifier using a modified neural tree network and a classifier using dynamic timeline predistortion.
17. Система по п.16, отличающаяся тем, что указанные средства выделения реализованы путем ограничения полюсов во всеполюсном фильтре. 17. The system according to clause 16, characterized in that the said means of selection are implemented by limiting the poles in an all-pole filter.
18. Система по п. 17, отличающаяся тем, что указанный по меньшей мере один признак является кепстральным коэффициентом, который корректируется с использованием афинного преобразования. 18. The system of claim 17, wherein said at least one feature is a cepstral coefficient that is adjusted using an affinity transform.
19. Способ по п.10, отличающийся тем, что указанные полюсы модифицируют путем определения спектральной компоненты указанного по меньшей мере одного признака и ограничения узкой полосы частот для получения оценки канала. 19. The method according to claim 10, characterized in that said poles are modified by determining the spectral component of the specified at least one feature and limiting the narrow frequency band to obtain a channel estimate.
20. Способ по п.19, отличающийся тем, что дополнительно выполняют деконволюцию указанного первого речевого фрагмента и указанного второго речевого фрагмента с использованием указанной оценки канала для получения нормализованного речевого фрагмента и вычисляют спектральные признаки указанного нормализованного речевого фрагмента для получения векторов признаков нормализованного речевого фрагмента, которые используют при указанной классификации. 20. The method according to claim 19, characterized in that it further deconvolution of the specified first speech fragment and the specified second speech fragment using the specified channel estimation to obtain a normalized speech fragment and calculate the spectral characteristics of the specified normalized speech fragment to obtain the feature vectors of the normalized speech fragment, which are used in this classification.
21. Способ по п. 19, отличающийся тем, что дополнительно преобразуют указанную оценку канала в кепстральные коэффициенты для получения модифицированной оценки канала в кепстральной области и вычитают указанную модифицированную оценку канала из кепстральных кадров указанного первого речевого фрагмента и указанного второго речевого фрагмента. 21. The method according to p. 19, characterized in that it further converts said channel estimate into cepstral coefficients to obtain a modified channel estimate in the cepstral region and subtracts said modified channel estimate from the cepstral frames of said first speech fragment and said second speech fragment.
22. Способ по п.12, отличающийся тем, что указанный по меньшей мере один признак является кепстральными коэффициентами, которые корректируют с использованием афинного преобразования. 22. The method according to p. 12, characterized in that the at least one feature is cepstral coefficients, which are corrected using the affinity conversion.
23. Способ по п.7, отличающийся тем, что дополнительно выделяют по меньшей мере один признак из второго речевого фрагмента, произнесенного другими говорящими, присваивают первую метку указанному по меньшей мере одному признаку из первого речевого фрагмента, произнесенного указанным говорящим, присваивают вторую метку указанному по меньшей мере одному признаку из второго речевого фрагмента, произнесенного другими говорящими, и обучают указанные классификаторы первой и второй метке. 23. The method according to claim 7, characterized in that at least one more characteristic is distinguished from the second speech fragment uttered by other speakers, a first label is assigned to the indicated at least one feature from the first speech fragment pronounced by the said speaker, the second label is assigned to the specified at least one attribute from the second speech fragment uttered by other speakers and these classifiers are taught the first and second label.
24. Способ по п.10, отличающийся тем, что дополнительно выделяют по меньшей мере один признак из второго речевого фрагмента, произнесенного другими говорящими, сегментируют указанный по меньшей мере один признак указанного второго речевого фрагмента на множество вторых подслов после указанного выделения, запоминают указанное первое множество подслов и второе множество подслов в базе данных подслов, определяют из указанных запомненных первых подслов первые метки для указанного говорящего, а из указанных вторых подслов вторые метки для других говорящих и обучают указанные классификаторы первым и вторым меткам. 24. The method according to claim 10, characterized in that at least one feature is further extracted from a second speech fragment spoken by other speakers, said at least one feature of said second speech fragment is segmented into a plurality of second subwords after said selection, said first is stored the set of subwords and the second set of subwords in the database of subwords, determine the first marks for the specified speaker from the indicated first stored subwords, and the second marks for the other specified second subwords ogih speakers and teach these classifiers the first and second marks.