KR100832556B1 - Speech Recognition Methods for the Robust Distant-talking Speech Recognition System - Google Patents

Speech Recognition Methods for the Robust Distant-talking Speech Recognition System Download PDF

Info

Publication number
KR100832556B1
KR100832556B1 KR1020060092216A KR20060092216A KR100832556B1 KR 100832556 B1 KR100832556 B1 KR 100832556B1 KR 1020060092216 A KR1020060092216 A KR 1020060092216A KR 20060092216 A KR20060092216 A KR 20060092216A KR 100832556 B1 KR100832556 B1 KR 100832556B1
Authority
KR
South Korea
Prior art keywords
model
speech recognition
word
speech
recognition system
Prior art date
Application number
KR1020060092216A
Other languages
Korean (ko)
Other versions
KR20080026951A (en
Inventor
정희석
Original Assignee
(주)한국파워보이스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)한국파워보이스 filed Critical (주)한국파워보이스
Priority to KR1020060092216A priority Critical patent/KR100832556B1/en
Publication of KR20080026951A publication Critical patent/KR20080026951A/en
Application granted granted Critical
Publication of KR100832556B1 publication Critical patent/KR100832556B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Abstract

본 발명은 음성 인식 시스템에 있어서 패턴 매칭 부분에서의 원거리 음성 인식 기능에 대한 성능을 향상하거나, 후처리 부분에서의 미등록어 거절 기능에 대한 성능을 향상하도록 한 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법에 관한 것으로, 음성 인식 시스템의 패턴 매칭 부분에서 좌우 음소 연결 기법 및 음성 데이터베이스 구축을 위한 잡음 합성 및 적응 알고리즘을 적용하여 신뢰도가 높은 원거리 음성 인식 시스템의 인식률(즉, 원거리 음성 인식 성능)을 향상시켜 주며, 또한 후처리 부분에서 새로운 반음소 모델을 이용하거나 새로운 언어 모델을 이용하여 미등록어에 대한 거절 기능을 수행하도록 함으로써 오인식될 확률을 낮추어 미등록어에 대한 거절 확률을 향상시켜 신뢰도를 측정하기 위한 음소 대 반음소 우도비의 계산량을 줄이도록 한다.The present invention provides a speech recognition method for a robust remote speech recognition system for improving the performance of the remote speech recognition function in the pattern matching part or the performance of the non-registered word rejection function in the post-processing part in the speech recognition system. In the pattern matching part of the speech recognition system, the recognition rate (ie, far speech recognition performance) of the reliable speech recognition system is improved by applying the left and right phoneme connection technique and the noise synthesis and adaptive algorithm for the speech database construction. In addition, by using the new half-phoneme model or the new language model in the post-processing part, the rejection function for the non-registered words is reduced, thereby reducing the probability of misrecognition and improving the rejection probability for the non-registered words. To calculate the semitone phone likelihood ratio To reduce it.

그리고, 본 발명은 음성 인식 시스템의 후처리 부분에서 새로운 반음소 모델을 이용한 발화 검증과 소규모 연속 음성 인식 시스템용 언어 모델을 응용한 순차적 미등록어 거절 기능을 수행하도록 해 줌으로써, 소규모 연속 음성 인식 시스템의 인식률을 유지하면서도 미등록어 오인식률을 크게 향상시켜 연속 음성 인식 시스템의 상용화에 크게 기여할 수 있다.In the post-processing part of the speech recognition system, the present invention enables speech verification using a new half-phone model and a sequential unregistered word rejection function applying a language model for a small continuous speech recognition system. It can greatly contribute to the commercialization of the continuous speech recognition system by greatly improving the recognition rate of unregistered words while maintaining the recognition rate.

Description

강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법 {Speech Recognition Methods for the Robust Distant-talking Speech Recognition System}Speech Recognition Methods for Robust Distant-talking Speech Recognition System

도 1은 일반적인 음성 인식 시스템을 설명하기 위한 구성 블록도.1 is a block diagram illustrating a general speech recognition system.

도 2는 도 1에 있어 패턴 매칭 부분에서의 음성 신호에 대한 HMM(Hidden Markov Model)을 예로 나타낸 도면.FIG. 2 is a diagram showing a Hidden Markov Model (HMM) of an audio signal in a pattern matching part as shown in FIG.

도 3은 도 1에 있어 패턴 인식 부분에서 혼합 신호들로부터 분리된 신호들을 얻기 위한 신호 분리 네트워크를 예로 나타낸 도면.FIG. 3 is a diagram illustrating a signal separation network for obtaining signals separated from mixed signals in the pattern recognition part of FIG. 1 as an example; FIG.

도 4는 도 1에 있어 후처리 부분에서의 언어 모델링 시에 두 단어에 대한 모든 전이가 가능한 바이그램 네트워크(Bigram Network)를 예로 나타낸 도면.FIG. 4 illustrates an example of a bigram network capable of all transitions for two words in language modeling in the post-processing part of FIG. 1.

도 5는 도 1에 있어 후처리 부분에서의 언어 모델링을 설명하기 위한 인식 네트워크를 예로 나타낸 도면.FIG. 5 is a diagram illustrating a recognition network for explaining language modeling in a post-processing portion in FIG. 1 as an example; FIG.

도 6은 본 발명의 일 실시 예에 따른 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법을 나타낸 순서도.6 is a flowchart illustrating a speech recognition method for a robust far-field speech recognition system according to an embodiment of the present invention.

도 7은 도 6에 있어 발음열 생성 단계를 예를 들어 도식화한 도면.FIG. 7 is a diagram illustrating, for example, a pronunciation string generating step in FIG. 6; FIG.

도 8은 본 발명의 이 실시 예에 따른 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법을 나타낸 순서도.8 is a flowchart illustrating a speech recognition method for a robust far-field speech recognition system according to this embodiment of the present invention.

도 9는 도 8에 있어 패턴 인식 부분에서 음성 신호와 다양한 잡음 신호들을 혼합한 신호를 얻기 위한 신호 합성 네트워크를 예로 나타낸 도면.FIG. 9 illustrates a signal synthesis network for obtaining a signal obtained by mixing a voice signal and various noise signals in the pattern recognition part of FIG. 8; FIG.

도 10은 도 9에 있어 실제 원신호를 잡음 신호와 섞은 혼합 신호를 예로 나타낸 도면.FIG. 10 is a diagram illustrating an example of a mixed signal in which an actual original signal is mixed with a noise signal in FIG. 9; FIG.

도 11은 도 8에 있어 모델 재추정(Re-estimation) 시스템을 예로 나타낸 구성 블록도.FIG. 11 is a block diagram illustrating an example model re-estimation system in FIG. 8; FIG.

도 12는 본 발명의 삼 실시 예에 따른 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법을 나타낸 순서도.12 is a flowchart illustrating a speech recognition method for a robust far-field speech recognition system according to an embodiment of the present invention.

도 13은 도 12에 있어 트라이폰 모델 군집화 단계를 나타낸 순서도.FIG. 13 is a flow chart illustrating the triphone model clustering step in FIG. 12. FIG.

도 14는 도 12에 있어 최적화된 음성 데이터베이스의 구축 예를 설명하기 위한 도면.FIG. 14 is a view for explaining an example of constructing a voice database optimized in FIG. 12; FIG.

도 15는 본 발명의 사 실시 예에 따른 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법을 나타낸 순서도.15 is a flowchart illustrating a speech recognition method for a robust far-field speech recognition system according to an embodiment of the present invention.

도 16은 도 15에 있어 상태 천이 확률을 설명하기 위한 도면.FIG. 16 is a view for explaining a state transition probability in FIG. 15. FIG.

도 17은 본 발명의 오 실시 예에 따른 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법을 나타낸 순서도.17 is a flowchart illustrating a speech recognition method for a robust far-field speech recognition system according to an exemplary embodiment of the present invention.

도 18은 도 17에 있어 후처리 부분에서의 언어 모델링을 설명하기 위한 인식 네트워크를 예로 나타낸 도면.FIG. 18 is a diagram illustrating a recognition network for explaining language modeling in a post-processing portion in FIG. 17 as an example; FIG.

도 19는 도 17에 있어 인식 네트워크 구성을 설명하기 위한 도면.FIG. 19 is a diagram for explaining a recognition network configuration in FIG. 17; FIG.

* 도면의 주요 부분에 대한 부호의 설명 *Explanation of symbols on the main parts of the drawings

11: 전처리 부분 12: 패턴 매칭 부분11: preprocessing part 12: pattern matching part

13: 후처리 부분13: post-processing part

본 발명은 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법에 관한 것으로, 특히 음성 인식 시스템에 있어서 패턴 매칭 부분에서의 원거리 음성 인식 기능에 대한 성능을 향상하거나, 후처리 부분에서의 미등록어 거절 기능에 대한 성능을 향상하도록 한 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법에 관한 것이다.The present invention relates to a speech recognition method for a robust far-field speech recognition system. In particular, the present invention relates to improving the performance of the far-field speech recognition function in the pattern matching part or to the non-registered word rejection function in the post-processing part. The present invention relates to a speech recognition method for a robust far-field speech recognition system to improve performance.

일반적으로, 인간이 그들의 생각을 다른 사람에게 표현할 수 있는 수단은 여러 가지의 형태를 보이는데, 그 중에서 음성은 인간이 사용하는 가장 기본적인 의사소통을 위한 수단이며, 편리함과 경제성의 측면에서 다른 방법에 비하여 우수한 특성을 가진다.In general, the means by which humans can express their thoughts to others take many forms, of which voice is the most basic means of communication used by humans, compared to other methods in terms of convenience and economy. Has excellent properties.

인간에 의한 음성 처리는 크게 음성 생성(Speech Production)과, 음성 인지(Speech Perception)의 두 가지 측면으로 나누어 볼 수 있다. 해당 음성 생성은 발화자(Speaker)가 의도한 바를 전달하기 위한 일련의 과정이고, 해당 음성 인지는 상대 발화자에 의해서 발성된 음성으로부터 발화 내용을 인식하는 과정을 말한다. 이러한 음성의 두 가지 측면과 관련된 연구들이 각기 개별적으로 이루어져 왔으며, 언어학, 음성학, 음운학, 생리학, 해부학 등의 다양한 학문적인 배경 하에 진행되어 왔다.Speech processing by humans can be divided into two aspects, speech production and speech perception. The speech generation is a series of processes for delivering a speaker's intention, and the speech recognition refers to a process of recognizing speech contents from a voice spoken by the other speaker. Studies related to these two aspects of speech have been conducted separately, and have been conducted under various academic backgrounds such as linguistics, phonetics, phonology, physiology and anatomy.

그러한 결과들이 신호 처리 기술, 기억장치의 대용량화, 그리고 고속의 컴퓨터 처리 기술의 발달 등으로 급격한 기술의 발전을 이룰 수 있었으며, 이로 인해서 단순히 실험적인 결과가 아닌 실용적인 측면에서 그러한 결과들을 활용하는 연구가 활발히 진행되어 왔으며, 계산 이론적인 측면에서 음성 처리와 관련된 다양한 연구들이 이루어지게 되었다.Such results have led to rapid advances in technology such as signal processing technology, large storage capacity, and high-speed computer processing technology. As a result, research that utilizes these results in practical terms, rather than just experimental results, is actively conducted. In terms of computational theory, various studies related to speech processing have been conducted.

상기 음성 처리의 음성 인지의 측면에서 음성 인식을 수행하기 위한 접근 방법은, 크게 가청 음성학(Acoustic-Phonetic) 방법과, 통계적인 패턴 인식(Statistical Pattern Recognition) 방법과, 인공 지능(Artificial Intelligence) 방법과, 신경망(Neural Network) 방법의 4가지로 분류할 수 있다.Approaches for performing speech recognition in terms of speech recognition of speech processing are largely acoustic-phonetic method, statistical pattern recognition method, artificial intelligence method and It can be classified into four types, neural network method.

첫 번째로, 상기 가청 음성 표시 방법은, 음성 인식 수행 중의 전처리 부분에 비중을 둔 접근 방법으로, '음성은 어떠한 신호이고 해당 신호 속에 언어 정보가 포함되어 있기 때문에 그 신호들이 음소의 열이나 단어의 열로 구성되어 있다'는 것을 전재로 한다. 그래서, 어떠한 신호를 캡처한 후에, 해당 신호로부터 음성의 특징을 이용해서 어떤 동일한 특성을 같은 신호의 세그먼트(Segment)들로 나누며, 그 세그먼트들이 음소(Phoneme)라고 하는 언어에 어떻게 매칭이 되는지 그 관련성을 이용해서 해당 신호로부터 음소열을 찾으며, 해당 음소열로부터 단어의 열을 찾으며, 최종적으로 입력된 음성이 어떠한 문장인지를 찾아내는 방법이다.First, the audible speech display method is an approach focused on the preprocessing part of performing speech recognition. Since the speech is a signal and the language information is included in the signal, the signals are divided into a series of phonemes or words. It is composed of heat '. So, after capturing a signal, the same characteristic is divided into segments of the same signal using the characteristics of the speech from that signal, and how the segments match the language called the phoneme. This method finds a phoneme sequence from the corresponding signal, finds a string of words from the phoneme sequence, and finds out which sentence is the last input voice.

두 번째로, 상기 통계적인 패턴 인식 방법은, 템플릿 기본(Template-Based) 접근 방법과 모델 기본(Model-Based) 접근 방법으로 분류할 수 있는데, 해당 템플릿 기본 접근 방법인 DTW(Dynamic Time Warping)은 통계적인 방법 중의 일부만을 사용한 접근 방법이고, 해당 모델 기본 접근 방법은 어떠한 세그먼트된 일정 단위의 통계량을 이용하여 그 단위의 통계량을 가지고 일정 단위를 모델화시킨 것으로 최근에 가장 많이 쓰이고 있는 HMM(Hidden Markov Model)에 의한 접근 방법이 이에 속한다.Secondly, the statistical pattern recognition method may be classified into a template-based approach and a model-based approach. The template-based approach, Dynamic Time Warping (DTW), It is an approach that uses only some of the statistical methods, and the model's basic approach is to model certain units using statistics of some segmented schedule unit, and the most widely used HID (Hidden Markov Model). ) Is the approach.

세 번째로, 상기 인공 지능 방법은, 인간의 두뇌에서 음성을 받아들여 어떻게 음성을 인식하는지를 지식 처리 과정의 상위 레벨 단계에 중점을 두고 음성 인식을 수행하는 접근 방법이다.Third, the artificial intelligence method is an approach that performs speech recognition with an emphasis on the upper level stages of the knowledge processing process, how to recognize speech in the human brain.

네 번째로, 상기 신경망 방법은, 상호 연결된 많은 수의 인공 신경 세포를 이용하여 생물학적인 계산 능력을 모방한 접근 방법이다.Fourth, the neural network method is an approach that mimics biological computational power by using a large number of interconnected artificial neurons.

상술한 바와 같은 다양한 접근 방법을 통한 음성 인식 시스템은, 발성 형태에 따라 고립 단어를 인식하는 고립 단어 음성 인식(Isolated Word Speech Recognition)과, 단어를 연속하여 발성한 음성을 인식하는 연속 음성 인식(Continuous Speech Recognition)으로 분류할 수 있다. 이때, 연속 음성의 경우, 비교적 어휘가 작은 단어를 대상으로 한 경우에 주로 음향학적 특징에 의해 인식하는 연결 단어 인식(Connected Word Recognition)과, 비교적 많은 어휘를 대상으로 하고 언어적 지식을 이용하여 그 내용을 인식하는 문장 음성 인식(Sentence Speech Recognition)으로 분류할 수 있다. 또한, 화자(Speaker)의 종속성에 따라 특정 화자만이 인식 을 수행할 수 있는 화자 종속(Speaker Dependent) 음성 인식과, 어느 화자라도 모두 인식을 수행할 수 있는 화자 독립(Speaker Independent) 음성 인식으로 나눌 수 있다.The speech recognition system using various approaches as described above includes Isolated Word Speech Recognition for recognizing isolated words according to a speech form, and Continuous Speech Recognition for recognizing speech in successive words. Speech Recognition). In this case, in the case of continuous speech, in the case of a word having a relatively small vocabulary, it is mainly connected word recognition recognized by acoustic characteristics, and a relatively large vocabulary is used for linguistic knowledge. It can be classified into sentence speech recognition that recognizes content. In addition, depending on the speaker's dependency, it can be divided into Speaker Dependent speech recognition that can be recognized only by a specific speaker and Speaker Independent speech recognition that can recognize all speakers. Can be.

상술한 바와 같은 여러 가지의 접근 방법과 분류를 통한 음성 인식 시스템은, 실제 실용화 시스템을 구현하기 위해서 음성 특징의 정확한 분석과 화자의 개인성, 발성의 종류, 어휘 수, 언어의 복잡성, 환경요인, 인식의 단위 등의 여러 가지 문제점을 극복하기 위한 연구가 필요하며, 음성 인식 기술의 최종 목표인 자연스런 음성을 인식할 수 있는 시스템을 개발하기 위해 세계 각국에서 많은 연구를 수행해 오고 있다.The speech recognition system through various approaches and classifications as described above is used for accurate analysis of speech features, speaker's personality, type of speech, number of vocabulary, language complexity, environmental factors, and perception in order to implement a practical practical system. There is a need for research to overcome various problems such as the unit of, and many studies have been conducted in various countries around the world to develop a system capable of recognizing natural speech, which is the final goal of speech recognition technology.

최근 들어, 음성 인식 시스템은 상술한 바와 같은 통계적 패턴 인식 방법이 그 주류를 이루고 있는데, 그 패턴 인식은 도 1에 도시된 바와 같이, 크게 전처리 부분(11), 패턴 매칭 부분(12), 후처리 부분(13)의 세 부분으로 나눌 수 있다.Recently, in the speech recognition system, the statistical pattern recognition method as described above has become mainstream, and the pattern recognition is largely shown in FIG. 1, with a preprocessing portion 11, a pattern matching portion 12, and a post-processing. It can be divided into three parts of the part (13).

다시 말해서, 상술한 통계적 패턴 인식 방법에 의한 음성 인식 시스템은, 도 1에 도시된 바와 같이, 음성의 언어 정보의 특징을 추출해 파라미터화하는 전처리 부분(11)과, 해당 전처리 부분(11)에서 추출된 특징 파라미터의 패턴을 분석하여 모델링하는 학습 과정을 수행하거나, 정해진 모델과 비교하여 매칭하는 인식 과정을 수행하는 패턴 매칭 부분(12)과, 어휘나 문법과 같은 언어모델을 이용한 인식률을 향상시키거나, 미등록어를 거절하기 위한 거절 기능, 환경 변화에 적응하는 적응 기법 등과 같은 기능을 수행하는 후처리 부분(13)으로 나뉘게 된다.In other words, the speech recognition system using the statistical pattern recognition method described above, as shown in FIG. 1, extracts from the preprocessing portion 11 which extracts and parameterizes the language information of the speech and parameterizes it, and extracts from the preprocessing portion 11. Improve the recognition rate using a pattern matching part 12 for performing a learning process by analyzing and modeling the pattern of the feature parameter, or by performing a recognition process for matching with a predetermined model. It is divided into a post-processing portion 13 that performs a function such as a rejection function for rejecting unregistered words, an adaptation technique for adapting to environmental changes, and the like.

상기 전처리 부분(11)은 음성 특징 분석부(11-1)를 구비하여, 마이크 등의 음성 입 력 장치를 통해 입력받은 음성에 대해서 끝점 추출/분절, 성도 모델 분석, 청각 모델 분석, 잡음 제거, 채널 왜곡 보상 등을 처리한다.The preprocessing portion 11 includes a voice feature analyzer 11-1, which extracts / segments an endpoint, analyzes a vocal model, analyzes an auditory model, removes noise, and receives a voice input through a voice input device such as a microphone. Channel distortion compensation and the like.

상기 패턴 매칭 부분(12)은 패턴 인식부(12-1)와, 음향 모델(즉, 음소, 단어)을 저장하는 데이터베이스(12-2)를 구비하여, 상기 전처리 부분(11)에서 치리된 정보에 대해서 집단화(Clustering), 동적 정합, 벡터 양자화(VQ), 신경망(NN), 확률 모델(GMM/HMM) 등을 처리한다.The pattern matching part 12 includes a pattern recognizing part 12-1 and a database 12-2 for storing an acoustic model (ie, a phoneme or a word), and the information processed by the preprocessing part 11. Clustering, dynamic matching, vector quantization (VQ), neural network (NN), probability model (GMM / HMM) are processed.

상기 후처리 부분(13)은 언어 처리부(13-1)와, 언어 모델(즉, 어휘, 문법, 주제)을 저장하는 데이터베이스(13-2)를 구비하여, 언어 모델, 적응(MAP, MLLR), 거절(OOV(Out of Vocabulary)) 등을 처리한다.The post-processing portion 13 includes a language processor 13-1 and a database 13-2 for storing language models (ie, vocabulary, grammar, and subject), so that the language model and adaptation (MAP, MLLR) are provided. , Rejection (OOV (Out of Vocabulary)).

그리고, 상기 패턴 매칭 부분(12)에서 수행되어지는 모델 기본 HMM에 의한 접근 방법은, 음성 신호의 스펙트럼 변화 및 시간 변화를 동시에 모델링할 수 있으며, 이를 위하여 유한개의 상태와 상태 전이들을 사용한다.In addition, the model-based HMM approach performed in the pattern matching part 12 may simultaneously model the spectral change and the time change of the speech signal, and use finite state and state transitions for this purpose.

상기 HMM의 유용성은, 음성 생성 과정을 정확히 모델링할 수 있는 것이 아니라, 오히려 주어진 데이터를 사용하여 파라미터를 추정하고 새로이 입력된 음성에 대하여 가장 적합한 모델을 찾는 데에 있다. 즉, 훈련과 인식을 위한 효율적인 알고리즘이 존재한다는 것이다.The usefulness of the HMM is not to accurately model the speech generation process, but rather to estimate the parameters using the given data and find the most suitable model for the newly input speech. In other words, there is an efficient algorithm for training and recognition.

이때, 음성을 모델링하기 위해서 여러 가지 형태의 HMM이 사용되고 있지만, 도 2에 도시된 바와 같은 간단한 구조의 LTR(Left-to-Right) 모델이 많이 사용되고 있다. 도 2에 도시된 바와 같이, 상태 2번, 3번 및 4번은 출력이 있는 상태들이며, 1번과 5번의 상태는 출력은 없고 단지 모델의 연결을 도와주는 기능을 수행한다. '

Figure 112006068668217-pat00001
'는 음성 벡터 혹은 관측을 나타내고, '
Figure 112006068668217-pat00002
'와 '
Figure 112006068668217-pat00003
'는 각각 상태 천이 확률과 심볼 관측 확률 분포함수를 의미한다.At this time, various types of HMMs are used to model the voice, but a Left-to-Right (LTR) model having a simple structure as shown in FIG. 2 is used. As shown in Fig. 2, states 2, 3, and 4 are outputs, and states 1 and 5 have no outputs, and only serve to connect the model. '
Figure 112006068668217-pat00001
'Represents a negative vector or observation, and'
Figure 112006068668217-pat00002
'Wow '
Figure 112006068668217-pat00003
'Means state transition probability and symbol observation probability distribution function, respectively.

상기 천이 확률(

Figure 112006068668217-pat00004
)은 제1상태(i)에 있던 모델이 제2상태(j)로 상태를 변화시킬 조건부 확률로서 아래의 수학식 1과 같다. 여기서, '
Figure 112006068668217-pat00005
'는 임의의 시간(t)에서의 모델의 상태를 나타낸다.The transition probability (
Figure 112006068668217-pat00004
) Is a conditional probability that the model in the first state (i) changes state to the second state (j), as shown in Equation 1 below. here, '
Figure 112006068668217-pat00005
'Represents the state of the model at any time t.

Figure 112006068668217-pat00006
Figure 112006068668217-pat00006

그리고, 상기 천이 확률(

Figure 112006068668217-pat00007
)은 상수로 가정하여 시간에 따라 변하지 않으며, 전체 상태의 개수를 'N'이라 했을 때에, 모든 초기 상태들(i = 1, ..., N-1)은 아래의 수학식 2와 같은 조건을 만족해야 한다.And the transition probability (
Figure 112006068668217-pat00007
) Does not change over time assuming a constant, and when the total number of states is 'N', all initial states (i = 1, ..., N-1) are the same as in Equation 2 below. Must be satisfied.

Figure 112006068668217-pat00008
Figure 112006068668217-pat00008

상기 심볼 관측 확률 분포함수(

Figure 112006068668217-pat00009
)는 제2상태(j)에 의하여 발생될 관측들의 분포를 나타내는데, 이것은 제2상태(j)가 관측(
Figure 112006068668217-pat00010
)을 생성할 확률(Likelihood; 연속 출력 분포인 경우)을 의미한다. 연속 분포일 경우에 아래의 수학식 3과 같은 조건을 만족하여야 한다.The symbol observation probability distribution function (
Figure 112006068668217-pat00009
) Represents the distribution of observations that will be generated by the second state j, which means that the second state j
Figure 112006068668217-pat00010
) Is the probability of generating (Likelihood). In the case of continuous distribution, the following condition must be satisfied.

Figure 112006068668217-pat00011
, for j=2, ..., N-1
Figure 112006068668217-pat00011
, for j = 2, ..., N-1

한편, 임의의 단말기를 음성으로 제어하는 원거리 음성 인식 시스템의 경우에는, 사용자가 사용함에 있어 용이하고 정확해야 할 뿐 아니라 실제 상황에서 잘 동작해야 하는데, 이 중에서도 신뢰도가 높은 원거리 음성 인식 시스템을 위한 가장 중요한 요소는 강인성(Robustness)이다.On the other hand, in the case of a far-field speech recognition system that controls an arbitrary terminal by voice, the user should not only be easy and accurate in use, but also should work well in a real situation. An important factor is robustness.

대부분의 경우, 실제 음성 인식 시스템이 사용될 환경이 학습 환경과 다르기 때문에 원거리 음성 인식의 성능 저하가 현저하다. 특히, 마이크와 화자 사이의 거리가 먼 원거리 음성 입력의 경우, 입력 신호 외에 주변 잡음, 마이크, 채널왜곡 등에 의해 실제 주변 환경의 급격한 변화가 발생하여 시스템의 급격한 성능 저하를 초래하게 된다.In most cases, the performance of far speech recognition is remarkable because the environment in which the actual speech recognition system is to be used is different from the learning environment. In particular, in the case of a remote voice input having a long distance between a microphone and a speaker, a sudden change in the actual surrounding environment occurs due to ambient noise, microphone, channel distortion, etc. in addition to the input signal, resulting in a sudden degradation of the system.

다시 말해서, 원거리로부터 음성을 입력하는 과정에서 입력 신호 외의 다른 소리가 존재할 수 있어 인식률을 저하시키기 때문에 잡음을 제거해야 하며, 시스템의 마이크가 먼 거리에 있고 사방에 소음이 많은 경우에 사람은 평상시보다 힘을 주어 발성하게 되는데, 이러한 상황은 학습 데이터의 상황과 다르므로 인식률이 급격히 저하된다. 이러한 효과를 '롬바르드(Lombard) 효과'라 한다.In other words, in the process of inputting voice from a long distance, noise other than the input signal may exist, which reduces the recognition rate. Therefore, noise must be removed. This situation is different from that of the learning data, so the recognition rate is drastically reduced. This effect is called the Lombard effect.

따라서, 실제 환경에서 잘 동작하는 원거리 음성 인식을 위해서, 변화된 환경의 영향을 배제해 주는 환경 보상이 요구된다. 즉, 신뢰도가 높은 원거리 음성 인식 시스템을 위해서는, 변화된 환경 또는 화자의 영향을 배제해 주는 환경 보상 기법이 필수적이다.Therefore, for long distance speech recognition that works well in a real environment, environmental compensation is required to exclude the influence of the changed environment. In other words, for a long distance speech recognition system with high reliability, an environmental compensation technique that excludes the influence of the changed environment or the speaker is essential.

이에, 상술한 바와 같은 구성을 가지는 음성 인식 시스템 내의 패턴 매칭 부분(12) 에서는, BSS(Blind Source Separation)로써의 ICA(Independent Component Analysis) 기법을 적용하여, 상기 전처리 부분(11)에서 추출된 특징 파라미터의 패턴을 분석하여 모델링하는 학습 과정을 수행하거나, 정해진 모델과 비교하여 매칭하는 인식 과정을 수행하도록 한다.Therefore, in the pattern matching part 12 in the speech recognition system having the above-described configuration, the feature extracted from the preprocessing part 11 is applied by applying an independent component analysis (ICA) method as blind source separation (BSS). A learning process of analyzing and modeling a parameter pattern is performed or a recognition process of matching with a predetermined model is performed.

이때, 해당 ICA 기법은 두 개 이상의 다수의 센서로부터 얻어진 혼합 신호를 독립적인 성분들로 분리해 내는 통계적인 방법으로, 해당 ICA에 의한 신호 분리 동작을 설명하기 위해 신호가 혼합되는 모델을 우선 설명하면 다음과 같다.In this case, the ICA technique is a statistical method of separating the mixed signals obtained from two or more sensors into independent components. First, a model in which signals are mixed to explain the signal separation operation by the ICA is described. As follows.

임의의 시간(t)에서 각각의 차수 간에 상호 독립적인(Mutually Independent) 평균값이 '0'인 N차의 벡터(

Figure 112006068668217-pat00012
)를 가정한다. 즉, 벡터(
Figure 112006068668217-pat00013
)는 N개의 독립적인 스칼라 값을 갖는 원신호들이며, 해당 N개의 원신호들은 N개의 센서열로 입력되며, 이를 '
Figure 112006068668217-pat00014
'라고 가정하면, 이때의 입력된 신호는 원신호들이 필터링되어 혼합된 것으로서 아래의 수학식 4와 같이 표현된다.Vector of order N with the mutually independent mean value '0' between each order at any time (t)
Figure 112006068668217-pat00012
Assume). That is, vector (
Figure 112006068668217-pat00013
) Are original signals with N independent scalar values, and the corresponding N original signals are input to N sensor strings.
Figure 112006068668217-pat00014
', The input signal at this time is a mixture of the original signal is filtered and expressed as shown in Equation 4 below.

Figure 112006068668217-pat00015
Figure 112006068668217-pat00015

그리고, 상기 수학식 4에서

Figure 112006068668217-pat00016
번째 원신호와
Figure 112006068668217-pat00017
번째 센서 사이의 M차의 필터(
Figure 112006068668217-pat00018
)로서 모델링된다. 상기 BSS는 환경에 대한 사전 지식 없이 '
Figure 112006068668217-pat00019
'로부터 원신호(
Figure 112006068668217-pat00020
)를 추출하는 문제이다. 상기 수학식 4는 컨벌루션 혼합을 나타내며, 'M=1' 인 경우가 아래의 수학식 5와 같이 즉시 혼합(Instantaneous Mixture)인 경우이다.And, in the equation (4)
Figure 112006068668217-pat00016
The first original signal
Figure 112006068668217-pat00017
Filter of order M between the first sensor
Figure 112006068668217-pat00018
Modeled as). The BSS is a '
Figure 112006068668217-pat00019
From "
Figure 112006068668217-pat00020
) Is the problem of extracting. Equation 4 represents a convolutional mixture, and 'M = 1' is a case of Instantaneous Mixture as shown in Equation 5 below.

Figure 112006068668217-pat00021
Figure 112006068668217-pat00021

그리고, 상기 혼합된 신호들로부터 원신호(

Figure 112006068668217-pat00022
)를 추정하기 위해서는, 상기 수학식 4에서의 M차 필터들(
Figure 112006068668217-pat00023
)에 의해 컨벌루션 혼합된 신호들로부터 디컨벌루션 과정을 수행해야 한다.And, from the mixed signals the original signal (
Figure 112006068668217-pat00022
In order to estimate), M-order filters (Equation 4)
Figure 112006068668217-pat00023
The deconvolution process must be performed from convolutionally mixed signals.

상기 ICA 기술을 이용한 신호 분리 방식은, 1995년 벨(Bell)과 세노스키(Sejnowski)에 의해 상호 정보(Mutual Information)를 사용하는 정보 이론적인 접근법으로 제안되었고, 1996년 토크콜라(Torkkola)는 시간-도메인 피드백(Time-domain Feedback) 구조의 알고리즘을 개발하였다.The signal separation scheme using the ICA technique was proposed as an information-theoretic approach using mutual information by Bell and Sejnowski in 1995, and in 1996 Torkkola time We have developed an algorithm of time-domain feedback structure.

도 3은 상기 혼합된 신호들(예로,

Figure 112006068668217-pat00024
Figure 112006068668217-pat00025
)로부터 분리된 신호들을 얻기 위한 신호 분리 네트워크를 예로 나타낸 도면이다.3 illustrates the mixed signals (eg,
Figure 112006068668217-pat00024
Wow
Figure 112006068668217-pat00025
Shows an example of a signal separation network for obtaining signals separated from

상기 패턴 매칭 부분(12)에서는, '

Figure 112006068668217-pat00026
'와 '
Figure 112006068668217-pat00027
' 간의 상호 정보를 최소화하도록 하기 위해서, 학습 과정을 통해 분리 행렬(
Figure 112006068668217-pat00028
)을 구하도록 한다. 여기서, '
Figure 112006068668217-pat00029
'는 비선형 시그모이드 함수이며, 학습 규칙은 아래의 수학식 6과 같은 확률 변화 상승 법칙(Stochastic Gradient Ascent Rule)을 사용하도록 한다. 또한, 해당 '
Figure 112006068668217-pat00030
'는 학습률이다.In the pattern matching portion 12,
Figure 112006068668217-pat00026
'Wow '
Figure 112006068668217-pat00027
In order to minimize the mutual information between ', the learning process
Figure 112006068668217-pat00028
). here, '
Figure 112006068668217-pat00029
'Is a nonlinear sigmoid function, and the learning rule uses a Stochastic Gradient Ascent Rule as shown in Equation 6 below. Also, that '
Figure 112006068668217-pat00030
'Is the learning rate.

Figure 112006068668217-pat00031
Figure 112006068668217-pat00031

그런데, 상술한 바와 같은 구성을 가지는 음성 인식 시스템 내의 패턴 매칭 부분(12)에서는 인식 과정도 중요하지만, 무엇보다 학습 과정이 매우 중요하다. 상기 패턴 매칭 부분(12)의 패턴 인식부(12-1)에서의 학습 과정은, 풍부한 패턴 즉, 얼마나 많은 량의 학습 데이터를 가지고 있는지에 따라 음성 인식률이 결정된다고 해도 과언이 아니다. 하나의 PLU(Phone Like Unit)에 다양한 환경에서 다양한 연령대의 남녀가 다양한 방식으로 발성한 데이터를 가지고 있고 그 학습 데이터를 이용하여 훈련을 한다면, 우수한 인식 성능을 나타낼 것이다. 하지만, 인식 대상이 바뀔 때마다 원하는 양만큼의 학습 데이터를 취득한다는 불가능한 일이므로, 이런 경우에는 당연하게 음성 인식률이 떨어지게 되는 단점이 있었다.By the way, in the pattern matching portion 12 in the speech recognition system having the above-described configuration, the recognition process is important, but above all, the learning process is very important. It is no exaggeration to say that the learning process in the pattern recognition unit 12-1 of the pattern matching part 12 determines the speech recognition rate according to the rich pattern, i.e., how much learning data. If a man or woman of various ages has a voice produced in various ways in a single PLU (Phone Like Unit) and trains using the learning data, the recognition performance will be excellent. However, since it is impossible to acquire the desired amount of learning data each time the recognition target is changed, in this case, there is a disadvantage in that the speech recognition rate is naturally reduced.

다른 한편, 상술한 바와 같은 구성을 가지는 음성 인식 시스템은, 인식 대상 단위에 따라서 고립 단어 인식의 시스템과, 연속 음성 인식의 시스템으로 구분할 수 있다. 해당 고립 단어 인식 시스템은 입력되는 음성이 미리 정해진 단어 중의 하나로서 시작과 끝이 명확한 단어음을 인식하는 시스템이며, 해당 연속 음성 인식 시스템은 연속적인 문장인 입력 음성 자체를 인식하는 것이다.On the other hand, the speech recognition system having the above-described configuration can be divided into a system of isolated word recognition and a system of continuous speech recognition according to the recognition target unit. The isolated word recognition system is a system in which an input voice is one of predetermined words and recognizes a word sound having a clear start and end. The continuous speech recognition system recognizes an input voice itself, which is a continuous sentence.

그러나, '두 가지 시스템 모두 다 미리 정해 놓은 특정 인식 대상 단어만이 입력될 것'이라는 가정 하에 음성 인식 기능을 수행하며, 따라서 사용자가 실수로 혹은 고의로 인식 대상 단어 외의 말을 해 버리면, 인식기에서 최고의 확률을 가지는 인식 대상 단어 중의 하나로 인식 결과를 나타내기 때문에 오인식하는 문제점이 발생하게 된다.However, the speech recognition function is performed under the assumption that both systems will input only certain predetermined target words. Therefore, if a user speaks a word other than the target word by mistake or knowingly, Since the recognition result is represented as one of the words to be recognized having a probability, a problem of misrecognition occurs.

그래서, 상술한 바와 같은 구성을 가지는 음성 인식 시스템 내 후처리 부분(13)의 언어 처리부(13-1)에서는, 인식 대상 단어 외의 음성이 입력되었을 때에 이를 다른 단어로 오인식하지 않고, 입력 음성이 잘못되었음을 판단하는 음성 인식 거절 기능(즉, 미등록어 거절 기능)을 수행하도록 하고 있다. 여기서, 해당 미등록어 거절 기능은, 그 방식에 따라 핵심어 검출 방식(Keyword Spotting Method)과, 발화 검증 방식(Utterance Verification Method)으로 구분된다.Therefore, in the speech processing unit 13-1 of the post-processing portion 13 in the speech recognition system having the above-described configuration, when a voice other than the word to be recognized is input, it is not mistaken as another word and the input voice is wrong. Voice recognition rejection function (ie, non-registered word rejection function) is determined to be performed. Here, the non-registered word rejection function is classified into a keyword spotting method and a speech verification method according to the method.

상기 핵심어 검출 방식은, 음소 필러(Filler) 모델을 이용해서 미등록어를 거절시키는 방법이다. 대부분의 핵심어 검출 방식들은 핵심어 모델과 필러 모델을 사용하는 연결 단어 인식 알고리즘을 기반으로 하고 있다. 여기서, 필러 모델들은 핵심어에 해당하지 않는 음성 구간들(즉, 비핵심어들)과, 비음성(즉, 묵음) 또는 배경 잡음의 구간들을 표현하는데 사용된다.The key word detection method is a method of rejecting an unregistered word using a phoneme filler model. Most keyword detection methods are based on linked word recognition algorithms using keyword models and filler models. Here, filler models are used to represent speech sections (ie, non-keywords) that do not correspond to keywords and sections of non-voice (ie, silence) or background noise.

그리고, 상기 핵심어 검출 방식은, 주로 핵심어 모델과 필러 모델 간의 구분이 비교적 명확한 경우에 좋은 성능을 발휘할 수 있다. 그래서, 주로 핵심어는 인식 대상 단어가 되고, 필러 모델은 그 이외의 말들로서 이 필러 모델이 핵심어 모델과 유사하지 않으면서 그 외의 것들을 얼마나 잘 모델링하는가에 따라 성능이 좌우된다.In addition, the key word detection method may exhibit good performance mainly when the distinction between the key word model and the filler model is relatively clear. Thus, mainly the key word becomes the word to be recognized, and the filler model is the other words, and the performance depends on how well the filler model models other things without being similar to the key word model.

그러나, 상기 핵심어 검출 방식은, 인식 대상 단어가 수시로 변경되는 가변 어휘 음성 인식 시스템의 경우에 성능이 저하된다는 단점이 있다. 즉, 핵심어와 비핵심 어를 이미 확정한 상태에서 훈련을 마치고, 이에 기반하여 음성 인식 거절 기능을 수행하는데, 새로이 추가되거나 변경되는 단어가 이미 모델링된 비핵심어에 대한 유사도보다 핵심어에 대한 유사도가 높아야만 제대로 인식할 수 있으나, 비핵심어들이 핵심어 이외의 모든 말에 대해 모델링된 것이므로, 패턴 공간상에서 조금 더 일반적인 분포를 갖게 될 것이고, 따라서 새로 추가되거나 변경되는 단어들도 그 일반적인 패턴에 포함되어 비핵심어로 분류될 가능성이 높게 되는 단점이 있다.However, the key word detection method has a disadvantage in that performance is reduced in the case of a variable vocabulary speech recognition system in which a word to be recognized is changed from time to time. In other words, after completing the training with the key word and non-key word already established, and performing the speech recognition rejection function, the newly added or changed word should have a higher similarity to the key word than the similarity to the non-key word already modeled. Only non-core words are modeled for all words other than the key words, so they will have a more general distribution in the pattern space, so that newly added or changed words are also included in the general pattern. There is a disadvantage that it is more likely to be classified as.

상기 발화 검증 방식은, 단어나 음소 단위의 인식 결과를 받아들일 것인지, 거절할 것인지를 결정하는 검증 동작을 수행하도록 한다. 기존의 기술에서는 반음소 모델(Anti-phone Model)을 사용한 발화 검증 방식을 이용해서 미등록어를 거절시켰으며, 잘 훈련된 음소 모델만 있으면 반음소 모델을 만들기 위한 특별한 훈련을 거치지 않고 반음소 모델을 만들 수 있도록 제안하였다. 또한, 음소 단위의 신뢰도를 잘 이용해서, 가변 어휘 단어 인식 시스템에서 사용할 수 있는 단어 단위의 신뢰도를 구성했다. 여기서, 해당 '신뢰도'란 음성 인식 결과에 대해서 그 결과가 얼마나 믿을만한 것인가를 나타내는 척도로서, HMM 모델의 비터비(Viterbi) 탐색 결과 수치와는 다른 것이다. 이때, 해당 비터비 탐색 결과 수치는, 어떤 단어나 음소에 대한 단순한 유사도를 나타내지만, 해당 신뢰도란 인식된 결과인 음소나 단어에 대해서 그 외의 다른 음소나 단어로부터 그 말이 발화되었을 확률에 대한 상대 값을 말한다.The speech verification method may perform a verification operation of determining whether to accept or reject a recognition result of a word or a phoneme unit. Conventional technology has rejected unregistered words using a speech verification method using an anti-phone model. If a well-trained phone model is used, the semi-phone model can be used without special training. Suggested to make. In addition, using the reliability of phoneme units, the reliability of word units that can be used in the variable vocabulary word recognition system was constructed. Here, the 'reliability' is a measure of how reliable the result is for the speech recognition result, which is different from the Viterbi search result value of the HMM model. In this case, the Viterbi search result number indicates a simple similarity to a word or phoneme, but the reliability is a relative value of the probability that the word is uttered from other phonemes or words for the phoneme or word that is a recognized result. Say

그런데, 상기 반음소 모델은, 자기 음소를 제외한 유사 음소 집합을 말하는데, 일반적으로 유사 음소 집합이 많을수록 반음소가 잘 모델링되지만, 유사 음소 집합의 크기가 너무 크게 되면 훈련 데이터양이 너무 많아지는 단점이 있다.By the way, the semi-phoneme model refers to a set of similar phonemes excluding self-phones. In general, the more similar phonemes, the more semitones are modeled. However, if the size of the similar phoneme is too large, the amount of training data is too large. have.

기존의 기술에서는 음소 모델에 반하는 반음소 모델을 미리 정하여 메모리상에 등록시켜 놓았다. 즉, 잘 훈련된 음소 모델만 있으면, 반음소 모델을 만들기 위한 특별한 훈련을 거치지 않고 반음소 모델을 만들며, 또한 유사 음소 집합도 자기 음소와 묵음을 제외한 나머지 모든 음소를 모두 포함시켜 반음소 모델링이 잘 이루어지도록 하였다. 구체적으로, 자기 음소를 제외한 나머지 음소들의 베스트 가우시안(Best Gaussian), 두 번째 베스트 가우시안(2nd Best Gaussian), 세 번째 베스트 가우시안(3rd Best Gaussian), 네 번째 베스트 가우시안(4th Best Gaussian)의 가중치, 평균, 분산을 취한다. 따라서, 각 음소의 반음소 모델은 3상태를 가지고, 각 상태는 약 148개의 가지를 소유한다. 천이 확률은 자기 음소를 제외한 나머지 음소들의 평균을 취한다.In the existing technology, the semi-phoneme model contrary to the phoneme model is predetermined and registered in the memory. In other words, if you have a well-trained phoneme model, you can create a semi-phoneme model without any special training to create a semi-phoneme model, and the semi-phoneme set also includes all the phonemes except self-phone and silence. It was done. Specifically, the weights and averages of Best Gaussian, 2nd Best Gaussian, 3rd Best Gaussian, and 4th Best Gaussian , Take the dispersion. Thus, the semiphoneme model of each phoneme has three states, each state having about 148 branches. The transition probability takes the average of all the phonemes except its own phone.

그러나, 이러한 반음소 모델도 잡음 환경 등의 환경 변화에서 오는 불일치 조건(Mismatch Condition)을 해결하지는 못하는 단점을 가지고 있다.However, the semitone phone model also has a disadvantage in that it does not solve the mismatch condition resulting from environmental changes such as noise environment.

그리고, 상술한 단어 단위의 신뢰도에 대해서 살펴보면 다음과 같다.The reliability of the above-described word unit is as follows.

가변 어휘 단어 인식기를 이용하여 비터비 탐색을 수행하므로 기본적으로 단어 단위로 인식이 되지만, 그 인식된 단어는 내부적으로 음소 단위로 인식된다. 따라서, 해당 인식된 음소 단위들을 각각의 반음소 모델과 비교하여 신뢰도를 구하고, 음소 단위의 신뢰도를 단어 단위의 신뢰도로 환산하기 위해서 음소 단위의 신뢰도를 평균하게 된다.Since the Viterbi search is performed using the variable vocabulary word recognizer, it is basically recognized in word units, but the recognized words are internally recognized in phoneme units. Accordingly, the reliability of the phoneme unit is averaged in order to obtain the reliability by comparing the recognized phoneme units with respective semitone models.

우선, 자신 외의 다른 패턴(즉,

Figure 112006068668217-pat00032
)에 상응하는 발화 검증 모델 을 사용하는 신뢰도를 선택한다. 여기서, 각 패턴 1에 대해서 음소 모델을 '
Figure 112006068668217-pat00033
'라 표시하고, 반음소 모델을 '
Figure 112006068668217-pat00034
'라 표시한다. 이에 따라서, 음소 단위들을 평균한 단어 단위의 신뢰도는 아래의 수학식 7과 같다.First of all, if you have a pattern other than yourself
Figure 112006068668217-pat00032
Choose the confidence level using the speech verification model corresponding to Here, for each pattern 1, the phoneme model is
Figure 112006068668217-pat00033
'And the semiphone model
Figure 112006068668217-pat00034
' Accordingly, the reliability of the word unit averaging the phoneme units is expressed by Equation 7 below.

Figure 112006068668217-pat00035
Figure 112006068668217-pat00035

상기 단어 단위의 신뢰도가 미리 정해둔 임계값(

Figure 112006068668217-pat00036
) 이하라면 거절시키게 된다. 여기서, '
Figure 112006068668217-pat00037
'는 음의 값을 가지는 상수이며, 가변 어휘 단어 인식기에서 인식된 결과인 등록어(
Figure 112006068668217-pat00038
)는 '
Figure 112006068668217-pat00039
' 음소들로 구성되어 있다.A threshold value predetermined by the reliability of the word unit (
Figure 112006068668217-pat00036
) Or less. here, '
Figure 112006068668217-pat00037
'Is a negative valued constant, and the registered word (
Figure 112006068668217-pat00038
) Means "
Figure 112006068668217-pat00039
'Consists of phonemes.

상술한 바와 같이, 상기 반음소 모델을 사용한 발화 검증 방식을 이용해서 미등록어를 거절시키는 기법은, 인식 대상이 변화되거나 추가되는 가변 어휘 연속 음성 인식 시스템의 미등록어 거절 기법으로 적합한 것으로 잘 알려져 있지만, 연속 음성 인식 시스템의 계산량 증가를 초래할 뿐 아니라, 발성 환경의 변화에 따른 불일치 조건을 해결할 수 없는 단점을 가지고 있다.As described above, a technique for rejecting an unregistered word using the speech verification method using the semi-phoneme model is well known as being suitable as an unregistered word rejection technique of a variable lexical continuous speech recognition system in which a recognition object is changed or added. In addition to increasing the computational complexity of the continuous speech recognition system, there is a disadvantage in that it is not possible to solve the inconsistency condition caused by the change of the speech environment.

또한, 점점 발전하는 컴퓨터의 성능으로 이러한 계산량 증가는 크게 영향을 미치지 않고 있지만, DSP나 PDA 등의 임베디드(Embedded) 환경에 사용되어질 경우에는 메모리와 인식 속도 측면에서 큰 손실을 초래하게 되는 단점이 있다.In addition, due to the increasing performance of computers, the increase in the amount of computation is not greatly affected, but when used in an embedded environment such as a DSP or a PDA, it causes a large loss in memory and recognition speed. .

다음으로, 상기 후처리 부분(13) 내 언어 처리부(13-1)에서의 언어 모델링에 대해 살펴보면 다음과 같다.Next, the language modeling by the language processor 13-1 in the post-processing part 13 will be described.

유한 상태 네트워크(FSN; Finite State Network)로 표현되는 언어 모델 네트워크에 있어서, 네트워크의 각 노드는 언어 모델의 상태를 정의하고, 아크는 입력 단어에 따른 새로운 상태로의 전이를 나타낸다. 단어열(

Figure 112006068668217-pat00040
)에 대한 언어 모델 값은 아래와 같은 수학식 8로 계산된다.In a language model network represented by a finite state network (FSN), each node of the network defines a state of the language model, and an arc represents a transition to a new state according to the input word. Word string
Figure 112006068668217-pat00040
The language model value for) is calculated by Equation 8 below.

Figure 112006068668217-pat00041
Figure 112006068668217-pat00041

여기서, 해당 '

Figure 112006068668217-pat00042
'는 언어 모델의 히스토리(History)로 과거 단어열을 의미하며, 해당 '
Figure 112006068668217-pat00043
'는 과거 단어들을 조건으로 현재 단어(
Figure 112006068668217-pat00044
)가 나타날 확률을 의미한다.Where, "
Figure 112006068668217-pat00042
"Is a history of language models, meaning past word strings,
Figure 112006068668217-pat00043
"Means that the current word (
Figure 112006068668217-pat00044
) Is the probability of appearing.

상기 언어 모델을 만들 때에는, 학습상의 데이터 부족 문제를 보완하기 위해서, 일반적으로 과거 단어열(

Figure 112006068668217-pat00045
)을 일정한 동치 관계(Equivalence Relation)를 사용하여 나눈다.When creating the language model, in order to compensate for the lack of data in learning, in general, the past word string (
Figure 112006068668217-pat00045
) Is divided using Equivalence Relation.

예를 들어, 단어 트라이그램(Trigram)은 히스토리의 마지막 두 단어(

Figure 112006068668217-pat00046
,
Figure 112006068668217-pat00047
)가 동일한 경우에 동치 관계가 성립한다. 그리고, 이에 따라 각 동치 부류는 아래와 같은 수학식 9와 같은 확률 값을 가진다.For example, the word Trigram is the last two words of the history (
Figure 112006068668217-pat00046
,
Figure 112006068668217-pat00047
Equivalence is established when) are the same. Accordingly, each equivalent class has a probability value as shown in Equation 9 below.

Figure 112006068668217-pat00048
Figure 112006068668217-pat00048

그리고, 상기 언어 모델이 가질 수 있는 히스토리를 파티션하는 방법에 따라 다양 한 언어 모델을 설계할 수 있다. 히스토리를 최근 N개의 단어열을 기준으로 파티션하면, 엔-그램(N-gram)의 언어 모델을 얻을 수 있으며, 또한 단어 대신 각 단어가 속한 문법적/언어학적인 부류로 나눌 경우에는 클래스 엔-그램(Class N-gram)을 얻을 수 있다.In addition, various language models may be designed according to a method of partitioning a history that the language model may have. By partitioning the history based on the recent N word strings, you can obtain a N-gram language model, and also, if you divide the words into grammatical / linguistic classes to which each word belongs, instead of a class engram ( Class N-gram) can be obtained.

이처럼 다양한 언어 모델을 인식 과정에 투명하게 사용하기 위해서는, 통일된 표현 방법이 필요하며, 상기 언어 모델 네트워크는 이러한 목적으로 구성된 표현 방법이다.In order to transparently use various language models in the recognition process, a unified expression method is required, and the language model network is an expression method configured for this purpose.

상기 언어 모델 네트워크는, 각 모델에 내재된 언어 모델 컨텍스트를 이용하여 생성되는데, 이때 해당 언어 모델 컨텍스트(LM Context)는 히스토리(

Figure 112006068668217-pat00049
)와 입력 단어(
Figure 112006068668217-pat00050
)를 사용하여 '
Figure 112006068668217-pat00051
'의 쌍으로 정의된다.The language model network is generated using a language model context inherent in each model, wherein the language model context (LM Context) is a history (
Figure 112006068668217-pat00049
) And the input word (
Figure 112006068668217-pat00050
)use with '
Figure 112006068668217-pat00051
Is defined as a pair of '.

특히, 단어는 연속된 입력이므로, 새로운 단어 입력이 들어올 때마다 특정 컨텍스트에서 새로운 컨텍스트로 전이한다. 이러한 컨텍스트 전이는 모든 언어 모델에 공통된 사실이다. 언어 모델의 컨텍스트는 유한개이며, 컨텍스트 사이의 전이는 입력 단어에 의해 결정되므로 FSN으로 표현할 수 있다.In particular, since a word is a continuous input, each time a new word input is entered it transitions from a specific context to a new context. This context transition is common to all language models. The context of the language model is finite and the transition between contexts is determined by the input word and thus can be expressed as an FSN.

이때, FSN의 상태는 언어 모델의 각 컨텍스트에 해당하며, 아크에는 입력 단어와 히스토리로부터 계산된 언어 모델 값이 저장된다.At this time, the state of the FSN corresponds to each context of the language model, and the arc stores language model values calculated from input words and history.

예를 들어, 도 4에 도시된 바와 같이, 두 개의 단어(a, b)에 대한 모든 전이가 가능한 바이그램 네트워크(Bigram Network)를 나타낼 때에, 각 상태는 히스토리(

Figure 112006068668217-pat00052
)와 단어(
Figure 112006068668217-pat00053
)의 쌍 '
Figure 112006068668217-pat00054
'으로 표현되며, 아크는 입력 단어(
Figure 112006068668217-pat00055
)와 특정 컨텍스트로의 전이 확률(즉, 컨텍스트의 히스토리에 조건을 둔 바이그램 확률 값)로 이루어진다. 또한, 초기 상태에는 그림자가 추가되며, 네트워크의 어떤 상태도 종료 상태가 될 수 있다.For example, as shown in Fig. 4, when representing the Bigram Network in which all transitions for the two words (a, b) are possible, each state is a history (
Figure 112006068668217-pat00052
) And words (
Figure 112006068668217-pat00053
) '
Figure 112006068668217-pat00054
", And the arc represents the input word (
Figure 112006068668217-pat00055
) And the probability of transition to a particular context (i.e., a bigram probability value based on the context's history). In addition, a shadow is added to the initial state, and any state of the network may be an end state.

상술한 바와 같은 기존의 언어 모델은, 대부분 대용량 연속 음성 인식 시스템의 인식 성능 향상을 위하여 연구되어 왔다. 예를 들어, 도 5에 도시된 바와 같은 인식 네트워크에 있어서, "나래야"라는 핵심어 뒤에는 "안방, 거실, 주방, ... 보일러, 에어콘" 등의 단어가 연결될 확률이 높고 그 뒤에는 "불켜, 불꺼, 켜, 꺼, ... 온도올려, 온도내려" 등의 단어가 연결될 확률이 높다고 모델링을 해 놓으면, 노드별 네트워크 천이 시에 아래의 수학식 10과 같이 언어 모델(

Figure 112006068668217-pat00056
)이 가중됨으로써, 인식률을 향상시킬 수 있게 된다.Most of the existing language models as described above have been studied for improving the recognition performance of a large capacity continuous speech recognition system. For example, in the recognition network as shown in FIG. 5, the key words "naraeya" are more likely to be connected to words such as "room, living room, kitchen, ... boiler, air conditioner", followed by "shine," If you model the probability that words such as turn off, turn on, turn off, turn up the temperature, turn down the temperature, etc. are connected, the language model (10)
Figure 112006068668217-pat00056
), The recognition rate can be improved.

Figure 112006068668217-pat00057
Figure 112006068668217-pat00057

실제로, 1000단어 이상으로 이루어지는 대용량 연속 음성 인식 시스템에 있어서, 이러한 언어 모델은 필러 모델(Filler Model)을 잘 구성할 시에 인식률 향상에 크게 기여할 수 있다.In fact, in a large-capacity continuous speech recognition system consisting of more than 1000 words, such a language model can greatly contribute to the improvement of the recognition rate when constructing a filler model well.

그러나, 상술한 바와 같이, 인식 대상 단어가 추가되거나 변화할 때에는, 미등록 문장임에도 불구하고, 필러 모델로 빠지지 못하고 오히려 오인식될 확률이 매우 높아지게 되는 단점을 가진다.However, as described above, when the recognition target word is added or changed, although it is an unregistered sentence, it does not fall into the filler model but has a disadvantage in that the probability of misrecognition becomes very high.

전술한 바와 같은 단점들을 해결하기 위한 것으로, 본 발명은 음성 인식 시스템에 있어서 패턴 매칭 부분에서의 원거리 음성 인식 기능에 대한 성능을 향상하거나, 후처리 부분에서의 미등록어 거절 기능에 대한 성능을 향상하도록 한 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법을 제공하는데, 그 목적이 있다.In order to solve the above disadvantages, the present invention is to improve the performance of the remote speech recognition function in the pattern matching portion in the speech recognition system, or to improve the performance of the non-registered word rejection function in the post-processing portion. It is an object of the present invention to provide a speech recognition method for a robust remote speech recognition system.

그리고, 본 발명은 음성 인식 시스템의 패턴 매칭 부분에서 좌우 음소 연결 기법 및 음성 데이터베이스 구축을 위한 잡음 합성 및 적응 알고리즘을 적용하여 신뢰도가 높은 원거리 음성 인식 시스템의 인식률(즉, 원거리 음성 인식 성능)을 향상시켜 주도록 하는데, 그 목적이 있다.In addition, the present invention improves the recognition rate (ie, far speech recognition performance) of the highly reliable far speech recognition system by applying the left and right phoneme connection technique and the noise synthesis and adaptive algorithm for constructing the speech database in the pattern matching part of the speech recognition system. It has a purpose.

다르게는, 본 발명은 음성 인식 시스템의 후처리 부분에서 새로운 반음소 모델을 이용한 신뢰도 기반 거절 기법을 적용하여 미등록어 거절 기능의 성능을 향상하도록 하는데, 그 목적이 있다.Alternatively, the present invention is to improve the performance of the non-registered word rejection function by applying a reliability-based rejection technique using a new half-phone model in the post-processing portion of the speech recognition system.

또한, 본 발명은 음성 인식 시스템의 후처리 부분에서 새로운 반음소 모델을 이용한 새로운 신뢰도 측정 기법에 의해서 신뢰도를 측정하기 위한 음소 대 반음소 우도비의 계산량을 줄이도록 하는데, 그 목적이 있다.In addition, an object of the present invention is to reduce the amount of calculation of the phoneme to half phoneme likelihood ratio for measuring reliability by a new reliability measurement method using a new halftone model in the post-processing portion of a speech recognition system.

또한, 본 발명은 음성 인식 시스템의 후처리 부분에서 새로운 언어 모델을 이용하여 미등록어에 대한 거절 기능을 수행하도록 함으로써, 오인식될 확률을 낮추어 미등록어에 대한 거절 확률을 향상시키도록 하는데, 그 목적이 있다.In addition, the present invention is to perform a rejection function for the unregistered words by using a new language model in the post-processing portion of the speech recognition system, thereby reducing the probability of misrecognition to improve the rejection probability for the unregistered words. have.

또한, 본 발명은 음성 인식 시스템의 후처리 부분에서 새로운 반음소 모델을 이용한 발화 검증과 소규모 연속 음성 인식 시스템용 언어 모델을 응용한 순차적 미등 록어 거절 기능을 수행하도록 해 줌으로써, 소규모 연속 음성 인식 시스템의 인식률을 유지하면서도 미등록어 오인식률을 크게 향상시켜 연속 음성 인식 시스템의 상용화에 크게 기여하며, 계산량의 증가로 인해 적용되지 못하였던 DSP나 PDA 등의 임베디드 음성 인식 시스템에 적용할 수 있도록 하는데, 그 목적이 있다.In addition, the present invention allows the post-processing portion of the speech recognition system to perform sequential verification using a new half-phone model and a sequential unregistered rejection function applying a language model for a small continuous speech recognition system. While maintaining the recognition rate, it greatly improves the recognition rate of unregistered words, greatly contributing to the commercialization of continuous speech recognition system, and can be applied to embedded speech recognition systems such as DSP or PDA, which have not been applied due to the increase of calculation amount. There is this.

상술한 바와 같은 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법은, 음성 입력 장치를 통해 연속적으로 입력되는 단어의 음성을 인식하는 음성 인식 시스템에 있어서, 상기 입력 음성을 음소 단위 발음열 생성기를 통하여 발음열로 생성시키고 해당 발음열을 인식 단위의 트라이폰으로 변환시키며, 해당 트라이폰 변환을 거쳐 변환된 트라이폰을 인식하는 과정과; 상기 트라이폰을 인식할 때에, 상기 단어의 끝 음소와 상기 단어 뒤에 오는 단어의 첫 음소를 결합시켜 상기 음성 인식 시에는 나타나지 않는 트라이폰 열을 생성시켜 주는 과정과; 상기 인식된 트라이폰을 사용하여 상기 연속 입력 단어에 대한 음성을 인식하는 과정을 포함하여 이루어진 것을 특징으로 한다.A voice recognition method for a robust long-range speech recognition system according to an embodiment of the present invention for achieving the above object, in the speech recognition system for recognizing the voice of the words continuously input through the voice input device, Generating the input voice as a pronunciation string through a phoneme unit pronunciation string generator, converting the pronunciation string into a triphone of a recognition unit, and recognizing the converted triphone through a corresponding triphone transformation; Combining the end phoneme of the word with the first phoneme of the word following the word when recognizing the triphone to generate a triphone sequence that does not appear during the voice recognition; And a step of recognizing a voice for the continuous input word using the recognized triphone.

다르게는, 본 발명의 이 실시 예에 따른 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법은, 음성 입력 장치를 통해 연속적으로 입력되는 단어의 음성을 인식하는 음성 인식 시스템에 있어서, 다수 종류의 잡음 환경에서 발생되는 잡음 신호들을 다수 개의 음성 입력 장치를 통해 취득하여 잡음 신호 데이터베이스를 구현하는 과정과; 상기 취득된 잡음 신호들을 각각 깨끗한 원음성 신호에 결합시켜 혼 합 신호들을 생성하는 과정과; 상기 생성된 혼합 신호들을 학습하여 다수 종류의 잡음 환경에서 수집되는 학습 데이터들을 취득하여 학습 데이터 데이터베이스들을 구현하는 과정과; 모델 재추정 시스템에서 상기 취득된 학습 데이터들을 다수 종류의 잡음 환경에서의 로우 데이터로 변환시켜 HMM(Hidden Markov Model) 모델로 학습하는 과정과; 상기 학습된 HMM 모델을 사용하여 상기 연속 입력 단어에 대한 음성을 인식하는 과정을 포함하여 이루어진 것을 특징으로 한다.Alternatively, a voice recognition method for a robust long-range speech recognition system according to this embodiment of the present invention is a voice recognition system for recognizing a voice of a word that is continuously input through a voice input device. Acquiring the generated noise signals through a plurality of voice input devices to implement a noise signal database; Combining the obtained noise signals with a clean original audio signal to generate mixed signals; Learning the generated mixed signals to acquire learning data collected in a plurality of noise environments to implement learning data databases; A step of converting the acquired training data into raw data in a plurality of noise environments in a model re-estimation system and learning the HID model; And a step of recognizing a speech for the continuous input word using the trained HMM model.

여기서, 상기 HMM 모델로의 학습 과정은, 모델 파라미터 데이터베이스로부터 모델 파라미터를 판독한 후에 이를 초기화하여 최초 모델 매개 변수로 생성하는 단계와; 학습 데이터 데이터베이스로부터 학습 데이터를 판독한 후에, 해당 판독된 학습 데이터를 이용하여 상기 최초 모델 매개 변수 또는 수정된 모델 매개 변수에 대해 상태열을 분할하는 단계와; 상기 판독된 학습 데이터와 상기 상태열 분할된 정보를 이용하여 확률을 결정하는 단계와; 상기 판독된 학습 데이터와 상기 결정된 확률을 이용하여 새로운 모델 파라미터를 재추정하는 단계와; 상기 재추정한 모델 파라미터가 상기 HMM 모델로 수렴되었는지를 판단하여 상기 모델 파라미터 데이터베이스에 업그레이드시켜 주는 단계를 포함하여 이루어진 것을 특징으로 한다.Herein, the learning process of the HMM model may include: generating a model parameter from an model parameter database and initializing it as an initial model parameter; After reading the training data from the training data database, using the read training data to partition the state sequence for the original model parameter or the modified model parameter; Determining a probability by using the read training data and the state sequence divided information; Re-estimating new model parameters using the read training data and the determined probabilities; Determining whether the reestimated model parameter has converged to the HMM model, and upgrading the model parameter database.

또한, 상기 HMM 모델로의 학습 과정은, 상기 재추정한 모델 파라미터가 상기 HMM 모델로 수렴되지 않은 경우에, 상기 재추정한 모델 파라미터를 상기 수정된 모델 매개 변수로 처리하여 상기 상태열 분할 단계를 반복 수행하도록 하는 단계를 더 포함하여 이루어진 것을 특징으로 한다.In addition, when the reestimated model parameter is not converged to the HMM model, the learning process with the HMM model includes processing the state sequence segmentation step by processing the reestimated model parameter as the modified model parameter. Characterized in that it further comprises the step of performing repeatedly.

다르게는, 본 발명의 삼 실시 예에 따른 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법은, 음성 입력 장치를 통해 연속적으로 입력되는 단어의 음성을 인식하는 음성 인식 시스템에 있어서, 깨끗한 원음성 신호를 저장하고 있는 원음성 데이터베이스를 적용 분야에 따라 필요한 음성 데이터를 저장하고 있는 적응 데이터베이스에 추가하는 과정과; 상기 적응 데이터베이스에 저장된 적응 데이터를 이용하여 다수 개의 트라이폰 모델을 적응하기 위하여 특정 개수의 유사 음소 클러스터가 생성되도록 다수 개의 트라이폰 모델을 군집화하는 과정과; MLLR(Maximum Likelihood Linear Regression)을 통해 가우시안 혼합 HMM(Hidden Markov Model) 모델의 평균값에 대한 선형 변환의 집합을 예측하여 해당 HMM 모델을 평균 보상해 주는 과정과; 상기 군집화된 트라이폰 모델들을 학습하며, 해당 학습에 의해 조사된 트라이폰 별 상태에 따라 상기 평균 보상된 HMM 모델에 대해 적응 데이터의 MAP(Maximum a Posteriori) 적응을 수행하는 과정과; 상기 MAP 적응에 의해 학습된 적응 모델을 사용하여 상기 연속 입력 단어에 대한 음성을 인식하는 과정을 포함하여 이루어진 것을 특징으로 한다.Alternatively, the voice recognition method for the robust long-range speech recognition system according to the third embodiment of the present invention, in the speech recognition system that recognizes the voice of the words that are continuously input through the voice input device, stores the clean original audio signal Adding the original audio database to an adaptive database storing necessary voice data according to an application field; Clustering the plurality of triphone models such that a specific number of similar phoneme clusters are generated to adapt the plurality of triphone models using the adaptation data stored in the adaptation database; Estimating a set of linear transformations for the mean value of the Gaussian mixed Hidden Markov Model (HMM) model through Maximum Likelihood Linear Regression (MLLR) to average compensate the corresponding HMM model; Learning the clustered triphone models and performing MAP adaptation of the adaptation data on the average compensated HMM model according to the triphone-specific state investigated by the training; And a step of recognizing speech for the continuous input word using the adaptation model learned by the MAP adaptation.

여기서, 상기 트라이폰 모델 군집화 과정은, 모든 트라이폰의 평균에 대한 초기 중심 값을 설정한 다음에, 모든 입력 벡터에 대해 각 클러스터의 중심 값을 이동시켜 두 개로 분할하는 단계와; 모든 입력 벡터에 대한 분할된 각 클러스터와의 유클리드 거리를 측정하여 가장 작은 거리를 갖는 클러스터의 멤버 벡터로 집단화하는 단계와; 상기 각 클러스터의 멤버 벡터를 통해 클러스터의 중심점을 갱신한 다음에, 이에 대응하는 오차의 갱신 값이 기설정된 임계값 이하인지를 판단하는 단계와; 상기 오차의 갱신 값이 기설정된 임계값 이하이면 정해진 수의 클러스터로 분할되었 는지를 판단하는 단계와; 상기 정해진 수의 클러스터로 분할된 경우에 상기 트라이폰 모델 군집화 과정을 종료하는 단계를 포함하여 이루어진 것을 특징으로 한다.The triphone model clustering process may include: setting an initial center value for the average of all the triphones, and then moving the center values of each cluster to all input vectors and dividing them into two; Measuring the Euclidean distance with each divided cluster for all input vectors and grouping them into a member vector of the cluster having the smallest distance; Updating a center point of the cluster through the member vectors of the clusters, and then determining whether an update value of the corresponding error is less than or equal to a preset threshold; Determining whether the update value of the error is divided into a predetermined number of clusters when the update value of the error is less than or equal to a predetermined threshold value; And terminating the triphone model clustering process when the cluster is divided into the predetermined number of clusters.

또한, 상기 트라이폰 모델 군집화 과정은, 상기 오차의 갱신 값이 기설정된 임계값 이하가 아니거나, 상기 정해진 수의 클러스터로 분할되지 않은 경우에, 각 클러스터의 중심 값을 이동시켜 두 개로 분할하는 단계를 반복하여 수행하도록 하는 단계를 더 포함하여 이루어진 것을 특징으로 한다.In addition, the triphone model clustering process may include moving and dividing the center value of each cluster into two when the update value of the error is not equal to or less than a predetermined threshold value or is not divided into the predetermined number of clusters. It characterized by further comprising the step to perform repeatedly.

다르게는, 본 발명의 사 실시 예에 따른 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법은, 후처리 부분 내의 언어 처리부에서 음성을 모델링하기 위한 HMM(Hidden Markov Model) 모델을 이용하여 신뢰도를 측정하고 해당 신뢰도 측정에 의해 미등록어 거절 기능을 수행하는 음성 인식 시스템에 있어서, 상기 HMM 모델의 상태 천이를 자신의 상태 천이와 반대로 설정하여 반음소의 특성을 지닐 수 있도록 상기 HMM 모델의 상태 천이 확률을 '1-상태 천이 확률'의 값으로 대치하는 과정과; 세그멘테이션된 프레임의 가우시안 모델에 대한 심볼 관측 확률도 상기 반음소의 특성을 살릴 수 있도록 해당 프레임을 역으로 취하는 과정과; 상기 대치된 상태 천이 확률과 상기 역프레임을 취한 심볼 관측 확률을 이용하여 음소 대 반음소의 우도비를 계산하여 상기 신뢰도를 측정하는 과정을 포함하여 이루어진 것을 특징으로 한다.Alternatively, the speech recognition method for the robust long-range speech recognition system according to an embodiment of the present invention, by using the HMM (Hidden Markov Model) model for modeling the speech in the language processing unit in the post-processing part to measure the reliability In the speech recognition system performing the non-registered word rejection function by measuring the reliability, the state transition probability of the HMM model is set to '1-state' as the state transition of the HMM model to have a semitone characteristic. Replacing with a value of state transition probability; Taking a corresponding frame observation probability for the Gaussian model of the segmented frame in reverse order to make use of the semitone features; And calculating the likelihood ratio of a phoneme to a half phoneme by using the replaced state transition probability and the symbol observation probability of taking the inverse frame.

다르게는, 본 발명의 오 실시 예에 따른 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법은, 후처리 부분 내의 언어 처리부에서 언어 모델을 이용한 거절 기법을 적용하여 미등록어 거절 기능을 수행하는 음성 인식 시스템에 있어서, 각 노 드 뒤에 모든 인식 대상이 따라올 수 있도록 단어와 단어 사이의 연결 확률이 모두 동일하다고 미리 모델링을 해 두는 과정과; 단어와 단어 사이가 전부 연결되어 있는 상태로 인식 대상 문장을 선정한 후에, 해당 인식 대상 문장을 인식 대상 단어로 각각 분할하는 과정과; 상기 분할된 인식 대상 단어를 이용하여 인식 네트워크를 구성한 후에, 해당 인식 네트워크를 통해 입력 음성에 대한 인식을 수행하는 과정과; 상기 인식 네트워크를 통해 나온 최종 인식 단어열이 상기 인식 대상 문장과 일치하는지를 확인하는 과정과; 상기 최종 인식 단어열이 상기 인식 대상 문장과 일치하지 않는 경우에 미등록어 거절 처리를 수행하는 과정을 포함하여 이루어진 것을 특징으로 한다.Alternatively, a speech recognition method for a robust long-range speech recognition system according to a fifth embodiment of the present invention may be applied to a speech recognition system that performs a non-registered word rejection function by applying a rejection technique using a language model in a language processing unit within a post-processing portion. A process of pre-modeling that the words and the connection probabilities between the words are the same so that all recognition objects follow each node; Selecting a sentence to be recognized in a state in which words and words are all connected, and then dividing the corresponding sentence to be recognized into words to be recognized; Constructing a recognition network using the divided recognition target word, and then performing recognition of an input voice through the corresponding recognition network; Checking whether a final recognized word string output through the recognition network matches the recognized sentence; And if the final recognized word string does not match the recognition target sentence, performing a non-registered word rejection process.

본 발명은, 음성 인식 시스템의 패턴 매칭 부분에서 원거리 음성 인식 시스템을 위한 새로운 학습 및 인식 기법을 제공하며, 또한 후처리 부분 내 언어 처리부에서 수행하는 미등록어 거절 기능의 성능 향상을 위해서 기존의 반음소 모델을 사용한 발화 검증 방식을 이용해서 미등록어 거절 기법들의 단점을 보완하는 새로운 거절 알고리즘을 제공해 준다. 이하, 본 발명의 실시 예를 첨부한 도면을 참조하여 상세하게 설명하면 다음과 같다.The present invention provides a novel learning and recognition technique for the remote speech recognition system in the pattern matching portion of the speech recognition system, and also improves the existing semiphoneme for the performance improvement of the unregistered word rejection function performed by the language processing unit in the post-processing portion. Using the speech verification method using the model, we provide a new rejection algorithm that compensates for the disadvantages of the non-register rejection techniques. Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

본 발명의 일 실시 예에 따른 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법을 도 6의 순서도를 참고하여 설명하면 다음과 같다.A voice recognition method for a robust far-field speech recognition system according to an embodiment of the present invention will be described with reference to the flowchart of FIG. 6.

본 발명의 일 실시 예에 따른 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법은, 연속 단어 인식 시스템 내의 패턴 매칭 부분에서 좌우 음소 연결 기법을 적용하여 시스템의 인식률을 향상시켜 주도록 한다.The speech recognition method for a robust long-range speech recognition system according to an embodiment of the present invention improves the recognition rate of a system by applying a left and right phoneme connection technique to a pattern matching part in a continuous word recognition system.

상기 연속 단어 인식 시스템에 있어서, 마이크 등과 같은 음성 입력 장치를 통해 입력 음성(예를 들어, "나래야 안방 불켜")을 인가받으면(단계 S61), 상기 패턴 매칭 부분에서는 음소(Phone) 단위 발음열 생성기를 통한 발음열을 'N AA L E JA 묵음(Silence) AA NQ PP AA NX 묵음 P UW LQ KH JX'와 같이 나타낸다(단계 S62).In the continuous word recognition system, when an input voice (for example, “Nara-ya-chan”) is applied through a voice input device such as a microphone (step S61), in the pattern matching part, a phoneme unit phoneme string is used. The pronunciation sequence through the generator is expressed as 'N AA LE JA Silence AA NQ PP AA NX Silence P UW LQ KH JX' (step S62).

다시 말해서, 음성 인식에서는 문자 형태의 텍스트를 사용하지 않고 실제 발음 형태의 텍스트가 사용되어지는데, 이때 이러한 텍스트들은 학습 데이터로 사용되는 발음열이나 인식에서 사용되는 음성 사전의 발음열을 실시간으로 등록할 수 있는 시스템이 구성되어져야 하며, 상기 음소 단위 발음열 생성기를 통하여 자동으로 발음열을 생성하도록 한다. 도 7은 자동 발음열 생성 동작을 예를 들어 도식화한 도면이다.In other words, in the speech recognition, texts in actual pronunciation form are used without using texts in the form of letters. In this case, the texts can be registered in real time with a pronunciation string used as learning data or a speech dictionary used in recognition. A system capable of generating a pronunciation string may be automatically generated through the phoneme unit pronunciation string generator. 7 is a diagram illustrating an automatic pronunciation string generation operation, for example.

그런 후에, 상기 제62단계(S62)에서 생성된 발음열을 'N+AA N-AA+L AA-L+E L-E+JA E-JA JA-AA+NQ AA+NQ AA-NQ+PP . . .'와 같은 인식 단위인 트라이폰(Tri-phone)으로 변환시켜 주는 동작을 거치게 된다(단계 S63). 이때, 해당 트라이폰 변환 단계(S43)에서는 상기 제62단계(S62)에서의 묵음을 'JA-AA+NQ'로 변환하게 된다.Thereafter, the pronunciation string generated in step 62 (S62) is referred to as' N + AA N-AA + L AA-L + E L-E + JA E-JA JA-AA + NQ AA + NQ AA-NQ + PP. . In operation S63, the operation is converted into a tri-phone which is a recognition unit such as '.' At this time, in the triphone conversion step S43, the silence in the 62nd step S62 is converted into 'JA-AA + NQ'.

그리고, 상기 트라이폰 변환 단계(S43)를 거쳐 상기 트라이폰을 학습하도록 하며(단계 S64), 해당 학습된 트라이폰을 사용하여 연속 단어에 대한 음성 인식 과정을 수행하도록 한다(단계 S65).Then, the triphone is trained through the triphone conversion step S43 (step S64), and a speech recognition process for continuous words is performed using the learned triphone (step S65).

그런데, 첫 번째 단어의 끝 음소와 두 번째 단어의 첫 음소는, 실제 연속 발성 시 에 연결되어지게 된다. 즉, 상기 트라이폰을 학습하는 상황에 있어서 음성은 묵음 구간으로부터 첫 음소를 이루는 특성을 가지고 있으나, 상기 인식 과정의 상황에서 연속적인 발성음이 녹음될 경우에는, 음성의 특성과 달라짐으로 다른 인식 대상을 찾게 되어 상기 연속 단어 인식 시스템의 인식률은 크게 떨어지게 된다.However, the end phoneme of the first word and the first phoneme of the second word are linked to the actual continuous speech. That is, in the case of learning the triphone, the voice has a characteristic of forming the first phoneme from the silent section. However, when continuous speech is recorded in the situation of the recognition process, the voice is different from the voice. Since the recognition rate of the continuous word recognition system is greatly reduced.

그래서, 상기 제64단계(S64)에서의 트라이폰 학습 시에, 프로그램에 의해 강제적으로, 임의의 단어의 끝 음소와 해당 단어 뒤에 오는 단어의 첫 음소(즉, 좌우 음소)를 결합시켜 인식 시에는 나타나지 않는 트라이폰 열을 생성시켜 줌으로써, 상기 연속 단어 인식 시스템의 인식률을 향상시킬 수 있게 된다.Thus, during the triphone learning in the 64th step (S64), when the program is forcibly combined with the end phoneme of an arbitrary word and the first phoneme (ie, left and right phonemes) of the word following the word, By generating triphone sequences that do not appear, the recognition rate of the continuous word recognition system can be improved.

상술한 바와 같은 좌우 음소 연결 기법은, 사람의 음성이 자연스럽게 발성할 때에 나타나는 연음 현상을 인식 단계에서 고려해 줌으로써, 상기 연속 단어 인식 시스템의 성능을 크게 향상시킬 수 있다.The above-described left and right phoneme connection technique can considerably improve the performance of the continuous word recognition system by considering the consonant phenomenon that occurs when a human voice is naturally spoken at the recognition stage.

실제로 언어 모델을 이용한 연결 단어 인식 실험을 수행해 보면, 그 결과로 언어 모델을 사용한 시스템이 기본 시스템보다 인식률이 8(%)이상 향상되었으나, 미등록어를 오인식하는 확률이 오히려 증가하는 반면에, 상술한 바와 같은 좌우 음소 연결 기법을 사용한 경우에는, 기본 시스템보다 7.8(%) 인식률의 향상을 가져오면서도 미등록어 오인식 확률은 변화가 없음을 알 수 있다.In fact, when the connected word recognition experiment using the language model is performed, the recognition rate of the system using the language model is improved by 8 (%) or more than the basic system, but the probability of misrecognition of the non-registered words is increased. In the case of using the left-right phoneme connection technique as described above, the recognition rate of unregistered words is not changed, while improving the recognition rate of 7.8 (%) than the basic system.

이것은, 상대적으로 다양하지 못한 필러 모델을 가지는 소용량 음성 인식 시스템의 인식률을 향상시키면서 미등록어 오인식 확률은 떨어뜨리는 우수한 기법임을 증명하는 것이다.This proves to be an excellent technique for improving the recognition rate of small-capacity speech recognition systems with relatively different filler models while lowering the probability of false recognition of unregistered words.

본 발명의 이 실시 예에 따른 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법을 도 8의 순서도를 참고하여 설명하면 다음과 같다.A speech recognition method for a robust far-field speech recognition system according to this embodiment of the present invention will be described with reference to the flowchart of FIG. 8.

본 발명의 이 실시 예에 따른 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법은, 연속 단어 인식 시스템 내의 패턴 매칭 부분에서 ICA를 이용한 잡음 합성(Noise Mixing) 기법을 적용하여 시스템의 인식률을 향상시켜 주도록 한다. 즉, 본 발명의 이 실시 예에서는 BSS(Blind Source Separation) 기술로 널리 사용되는 ICA 기법을 응용하여 보다 다양한 환경의 학습 데이터를 취득할 수 있는 잡음 합성 기법에 관한 것이다.A speech recognition method for a robust long-range speech recognition system according to an embodiment of the present invention improves the recognition rate of a system by applying a noise mixing technique using an ICA in a pattern matching part in a continuous word recognition system. . That is, this embodiment of the present invention relates to a noise synthesis technique capable of acquiring learning data in a variety of environments by applying an ICA technique widely used as a blind source separation (BSS) technique.

음성 인식 시에는 다양한 주변 잡음 환경에서 여러 종류의 마이크를 통하여 발성된 음성들을 각각 독립적인 성분 요소로 보고 음성과 환경 잡음을 분리해 내도록 한다.In speech recognition, voices spoken through various microphones in various ambient noise environments are regarded as independent component elements to separate voice and environmental noise.

이에, 상기 음성 인식 동작의 역으로, 여러 종류의 마이크를 통하여 여러 종류의 잡음 환경에서 발생되는 잡음 신호들(N1, N2, ..., Nk)을 취득하는데(단계 S81), 즉 다양한 신호대잡음비(SNR)를 가지는 잡음 신호들을 취득하여 잡음 신호 데이터베이스를 구현해 준다. 이때, 깨끗한 원음성 신호(S1)를 저장하고 있는 원음성 신호 데이터베이스도 함께 구현해 준다.Thus, in reverse of the speech recognition operation, noise signals N 1 , N 2 ,..., N k generated in various kinds of noise environments are obtained through various kinds of microphones (step S81), that is, Noise signals with various signal-to-noise ratios (SNRs) are acquired to implement a noise signal database. At this time, the original audio signal database storing the clean original audio signal S 1 is also implemented.

그런 후에, 도 9에 도시된 바와 같이, 상기 제81단계(S81)에서 취득된 잡음 신호들(N1, N2, ..., Nk)을 깨끗한 원음성 신호(S1)에 결합시켜 혼합 신호들(M1, M2, ..., Mk)을 생성하도록 한다(단계 S82).Then, as shown in Figure 9, by combining the noise signals (N 1 , N 2 , ..., N k ) obtained in the 81 st step (S81) to a clean original audio signal (S 1 ) Generate mixed signals M 1 , M 2 ,..., M k (step S82).

도 9는 상기 패턴 인식 부분에서 원음성 신호와 다양한 잡음 신호들을 혼합한 신호를 얻기 위한 신호 합성 네트워크를 예로 나타낸 도면이다. 이때, 실제 원음성 신호를 잡음 신호와 섞으면 도 10에 도시된 바와 같은 혼합된 신호가 나타난다.FIG. 9 is a diagram illustrating a signal synthesis network for obtaining a signal obtained by mixing the original speech signal and various noise signals in the pattern recognition part. At this time, when the actual original audio signal is mixed with the noise signal, the mixed signal as shown in FIG. 10 appears.

그리고, 상기 잡음 합성은 아래의 수학식 11에 의해 결정된다. 여기서, '

Figure 112006068668217-pat00058
'는 1보다 작은 랜덤 변수(Random Variable)이다.The noise synthesis is determined by Equation 11 below. here, '
Figure 112006068668217-pat00058
'Is a random variable that is less than one.

Figure 112006068668217-pat00059
Figure 112006068668217-pat00059

이에, 상기 제82단계(S82)에서 생성된 혼합 신호들(M1, M2, ..., Mk)을 학습하도록 하며(단계 S83), 하나의 PLU(Phone Like Unit)에 대하여 다양한 환경에서 수집되는 학습 데이터들을 취득할 수 있도록 해 준다(단계 S84). 즉, 다양한 신호대잡음비를 가지는 혼합 신호들에 대한 학습 데이터 데이터베이스들을 구현하도록 해 준다.Thus, to learn the mixed signals (M 1 , M 2 , ..., M k ) generated in the 82 (S82) (step S83), a variety of environments for one phone like unit (PLU) It is possible to acquire the learning data collected in step (S84). That is, it enables to implement training data databases for mixed signals having various signal-to-noise ratios.

이에 따라, 상술한 바와 같은 잡음 합성 기법에 의하여 취득된 학습 데이터들(즉, 음성 로우 데이터(Raw Data)들)은, 도 11에 도시된 바와 같은 모델 재추정(Re-estimation) 시스템에 의한 EM(Expectation-Maximization) 기법으로 잘 알려진 보움-웰취(Baum-welch) 재추정 동작을 통해서, 한정된 음성 로우 데이터를 다양한 잡음 환경의 로우 데이터로 변환해 줌으로써(단계 S85), 실제 인식 환경에 가까운 환경을 프로그램에 의해 강제적으로 만들어, 보다 잡음에 강인(Robust)한 HMM(Hidden Markov Model) 모델로 학습할 수 있게 해 준다(단계 S86).Accordingly, the training data acquired by the noise synthesis technique as described above (ie, the voice raw data) is obtained by the EM by the model re-estimation system as shown in FIG. 11. The Baum-welch reestimation operation, which is well known as the Expectation-Maximization technique, converts the limited voice low data into low data of various noise environments (step S85) to create an environment close to the actual recognition environment. The program is forcibly made by the program, thereby enabling learning with a more robust HMM (Hidden Markov Model) model (step S86).

상기 모델 재추정 시스템은, 도 11에 도시된 바와 같이, 모델 파라미터 데이터베이 스(111)와, 학습 데이터 데이터베이스(112)와, 모델 초기화부(113)와, 상태열 분할부(114)와, 확률 결정부(15)와, 모델 재추정부(116)와, 모델 수렴부(117)를 포함하여 이루어지는데, 상기 제86단계(S86)에서 HMM 모델로의 학습 과정을 수행하도록 이루어진다. 즉, 상기 제86단계(S86)에서 HMM 모델로의 학습 과정은, 상기 보움-웰취 알고리즘에 따라 '

Figure 112006068668217-pat00060
'를 극대화시키기 위해서 모델 매개 변수(
Figure 112006068668217-pat00061
)를 조정함으로써 이루어진다.As shown in FIG. 11, the model re-estimation system includes a model parameter database 111, a training data database 112, a model initializer 113, a state sequence divider 114, Probability determination unit 15, the model re-estimation unit 116, and a model converging unit 117, it is made to perform the learning process to the HMM model in step 86 (S86). That is, the learning process to the HMM model in step 86 (S86), according to the Boul-well algorithm
Figure 112006068668217-pat00060
Model parameters (
Figure 112006068668217-pat00061
By adjusting).

상기 모델 파라미터 데이터베이스(111)는 상기 모델 수렴부(117)로부터 인가되는 모델 파라미터를 저장하며, 상기 학습 데이터 데이터베이스(112)는 상술한 바와 같이 취득한 학습 데이터들을 저장한다.The model parameter database 111 stores model parameters applied from the model converging unit 117, and the training data database 112 stores the acquired training data as described above.

상기 모델 초기화부(113)는 상기 모델 파라미터 데이터베이스(111)로부터 모델 파라미터를 판독하여 해당 판독된 모델 파라미터를 초기화하여 최초 모델 매개 변수(

Figure 112006068668217-pat00062
)로서 상기 상태열 분할부(114)에 인가한다.The model initialization unit 113 reads out the model parameters from the model parameter database 111 and initializes the read model parameters by initial model parameters (
Figure 112006068668217-pat00062
) Is applied to the state string divider 114.

상기 상태열 분할부(114)는 상기 학습 데이터 데이터베이스(112)로부터 학습 데이터를 판독하고 해당 판독된 학습 데이터를 이용하여 상기 모델 초기화부(113)로부터 인가되는 최초 모델 매개 변수(

Figure 112006068668217-pat00063
)에 대해 상태열 분할 동작을 수행하여 해당 상태열 분할된 정보를 상기 확률 결정부(115)에 인가한 후에, 상기 학습 데이터 데이터베이스(112)로부터 학습 데이터를 판독하고 해당 판독된 학습 데이터를 이용하여 상기 모델 수렴부(117)로부터 인가되는 수정된 모델 매개 변수(
Figure 112006068668217-pat00064
)에 대해 상태열 분할 동작을 수행하여 해당 상태열 분할된 정보를 상기 확률 결정부(115)에 인가한 다.The state sequence divider 114 reads the training data from the training data database 112 and uses the first training parameters applied from the model initializer 113 to read the training data from the training data database 112.
Figure 112006068668217-pat00063
After applying the state sequence division operation to the probability determination unit 115 by performing the state sequence division operation on the), the training data is read from the training data database 112 and using the read training data A modified model parameter applied from the model convergence unit 117 (
Figure 112006068668217-pat00064
) Is applied to the probability determiner 115.

상기 확률 결정부(15)는 상기 학습 데이터 데이터베이스(112)로부터 학습 데이터를 판독하고 해당 판독된 학습 데이터와 상기 상태열 분할부(114)에서 인가되는 정보를 이용하여 확률(

Figure 112006068668217-pat00065
)을 결정하는데, 이때 아래의 수학식 12와 같이 확률(
Figure 112006068668217-pat00066
)을 구하여 해당 구한 확률(
Figure 112006068668217-pat00067
)을 상기 모델 재추정부(116)에 인가한다.The probability determination unit 15 reads the training data from the training data database 112 and uses the read data and the information applied from the state string dividing unit 114 to determine the probability (
Figure 112006068668217-pat00065
), Where the probability (
Figure 112006068668217-pat00066
) To get the probability (
Figure 112006068668217-pat00067
) Is applied to the model recalculation unit 116.

상기 모델 재추정부(116)는 상기 학습 데이터 데이터베이스(112)로부터 학습 데이터를 판독하고 해당 판독된 학습 데이터와 상기 확률 결정부(15)에서 결정된 확률(

Figure 112006068668217-pat00068
)을 이용하여 모델 파라미터를 재추정하는데, 이때 아래의 수학식 12와 같이 새로운 파라미터(
Figure 112006068668217-pat00069
)를 재추정하여 해당 새로운 파라미터(
Figure 112006068668217-pat00070
)를 상기 모델 수렴부(117)에 인가한다.The model re-estimation unit 116 reads the training data from the training data database 112, and the probability (determined by the readout data and the probability determination unit 15)
Figure 112006068668217-pat00068
) To re-estimate model parameters, where new parameters (
Figure 112006068668217-pat00069
) To reestimate the corresponding new parameter (
Figure 112006068668217-pat00070
) Is applied to the model convergence unit 117.

Figure 112006068668217-pat00071
Figure 112006068668217-pat00071

상기 모델 수렴부(117)는 상기 모델 추정부(116)에서 재추정한 모델 파라미터가 강인한 HMM 모델로 수렴되었는지를 판단하는데, 이때 상기 모델 재추정부(116)로부터 인가되는 새로운 파라미터(

Figure 112006068668217-pat00072
)가 '
Figure 112006068668217-pat00073
'일 때에 모델 파라미터로 근사화된 것으로 판단하고 이를 상기 모델 파라미터 데이터베이스(111)에 업그레이드시켜 주게 된다. 반면에, 상기 모델 수렴부(117)는 상기 모델 추정부(116)에서 재추정한 모델 파라미터가 강인한 HMM 모델로 수렴되지 않은 경우에 상기 모델 재추정부(116)로부터 인가되는 새로운 파라미터(
Figure 112006068668217-pat00074
)를 다시 상기 수정된 모델 매개 변수(
Figure 112006068668217-pat00075
)로서 상기 상태열 분할부(114)로 인가한다.The model converging unit 117 determines whether the model parameter re-estimated by the model estimating unit 116 has converged to a robust HMM model, and at this time, a new parameter applied from the model re-estimation unit 116 (
Figure 112006068668217-pat00072
) Is "
Figure 112006068668217-pat00073
'Is determined to be approximated as a model parameter and upgraded to the model parameter database 111. On the other hand, the model converging unit 117 is a new parameter applied from the model re-estimation unit 116 when the model parameter re-estimated by the model estimating unit 116 does not converge to the robust HMM model.
Figure 112006068668217-pat00074
Back to the modified model parameters (
Figure 112006068668217-pat00075
) Is applied to the state string divider 114.

그런 후에, 다양한 잡음 환경의 학습 데이터들을 이용하여 상기 보움-웰취 재추정 동작을 통해 학습된 HMM 모델을 사용하여 다양한 잡음 환경에서도 음성 인식 과정을 정확하게 수행하도록 해 준다(단계 S87).Thereafter, using the HMM model learned through the Boul-well re-estimation operation using the training data of various noise environments, the speech recognition process can be accurately performed even in various noise environments (step S87).

이때, 상기 학습된 HMM 모델은, 다양한 잡음 환경의 테스트 데이터를 사용한 실험에서 매우 우수한 인식률을 보임을 잘 알 수 있다.At this time, it can be seen that the trained HMM model shows a very good recognition rate in experiments using test data in various noise environments.

즉, 상술한 바와 같은 ICA를 이용한 잡음 합성 기법을 적용한 본 발명의 이 실시 예에 따른 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법은, 종래 기술에서의 제한적일 수밖에 없는 학습 데이터의 한계를 보완하여 다양한 환경에 적용할 수 있어 음성 인식 기술의 상용화에 크게 기여할 수 있다.That is, the speech recognition method for the robust long-range speech recognition system according to the present embodiment to which the noise synthesis method using the ICA as described above is applied, compensates for the limitation of the learning data that is limited in the prior art and various environments. It can be applied to, can greatly contribute to the commercialization of speech recognition technology.

본 발명의 삼 실시 예에 따른 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법을 도 12의 순서도를 참고하여 설명하면 다음과 같다.A speech recognition method for a robust remote speech recognition system according to an embodiment of the present invention will be described with reference to the flowchart of FIG. 12 as follows.

본 발명의 삼 실시 예에 따른 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법은, 연속 단어 인식 시스템 내의 패턴 매칭 부분에서 MAP(Maximum a Posteriori)과 MLLR(Maximum Likelihood Linear Regression) 기법을 이용한 적응 모델링 기법을 적용하여 시스템의 인식률을 향상시켜 주도록 한다. 즉, 본 발명의 삼 실시 예에 따른 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법은, MLLR 기반의 모델 보상 기법을 이용하여 적은 량의 데이터를 사용하여 원거리 환경에 적응하여 새로운 환경에 적합한 음성 모델을 만들어 빠르고 효과적으로 환경을 보상해 줌과 동시에, MAP 기법을 사용하여 점차 최적의 모델을 만들어 나갈 수 있는 적응 모델링 기법을 사용하도록 한다.The speech recognition method for the robust long-range speech recognition system according to the third embodiment of the present invention uses an adaptive modeling technique using a maximum a posteriori (MAP) and maximum likelihood linear regression (MLLR) technique in the pattern matching part of the continuous word recognition system. It is applied to improve the recognition rate of the system. That is, the speech recognition method for the robust remote speech recognition system according to the third embodiment of the present invention uses a MLLR-based model compensation technique to adapt a speech model suitable for a new environment by using a small amount of data. We will use the adaptive modeling technique to create the optimal model gradually by using the MAP technique while compensating the environment quickly and effectively.

음성 인식 시스템에서 화자 또는 환경의 변이성 문제를 해결하기 위하여 적응 기술이 유용하게 사용되는데, 해당 화자의 변이성 문제를 해결하기 위해서 MAP 방식과 MLLR 방식을 화자 적응에 널리 이용하고 있으며, 이러한 방법들은 모델 파라미터를 테스트 화자의 특성에 유사하게 변화시키는 작용을 수행한다. 특히, HMM 상태(State)에서의 가우시안(Gaussian) 평균값들에 대해 적용하게 된다. 또한, MAP 방식은 적응 데이터가 충분히 많은 경우에 사용되며, MLLR 방식은 적응 데이터가 적은 경우에 사용된다.In speech recognition systems, adaptive techniques are usefully used to solve speaker or environment variability problems. To solve speaker variability problems, MAP and MLLR methods are widely used for speaker adaptation. To change the characteristics of the test speaker similarly. In particular, it applies to Gaussian mean values in the HMM state. In addition, the MAP method is used when the adaptive data is large enough, and the MLLR method is used when the adaptive data is small.

상기 MAP 적응 기법은 학습 데이터에 포함되어 있는 선지식 정보를 선밀도 함수에 포함시켜 이를 적응 데이터와 최적의 방법으로 결합하여 적응하는 기법이다. 해당 MAP에서는 파라미터(

Figure 112006068668217-pat00076
)가 어떤 분포를 갖는 랜덤 변수라 가정하는데, 이때 만약에 해당 파라미터(
Figure 112006068668217-pat00077
)가 하이퍼-파라미터(Hyper-parameter)(
Figure 112006068668217-pat00078
)을 갖는 선확률 밀도 함수(
Figure 112006068668217-pat00079
)와 유사도(
Figure 112006068668217-pat00080
)를 갖는 관측 열로부터 추정된다면, 상기 MAP 적응 기 법은 다음과 같이 파라미터(
Figure 112006068668217-pat00081
)의 포스티리어 모드(Posterior Mode)로 정의된다.The MAP adaptation technique is a technique for incorporating prior knowledge information included in training data into a linear density function and combining the adaptive data with the optimal data in an optimal manner. In that MAP, the parameters (
Figure 112006068668217-pat00076
Is assumed to be a random variable with some distribution,
Figure 112006068668217-pat00077
) Is a hyper-parameter (
Figure 112006068668217-pat00078
Linear probability density function with
Figure 112006068668217-pat00079
) And similarity (
Figure 112006068668217-pat00080
If estimated from the observation column with), the MAP adaptation technique
Figure 112006068668217-pat00081
) Is defined as the Postmode Mode.

상기 선밀도 함수(

Figure 112006068668217-pat00082
)는 관측 열이 주어지기 전에 관심이 있는 파라미터에 대한 통계적 특성을 포함하여 파라미터가 어떤 제약된 값을 갖도록 한다. 상기 HMM과 같이 상태와 혼합 성분이 내재된 은닉 과정을 포함하는 경우에, 일반적으로 MAP 추정은 매우 어렵다. 그러나, HMM 파라미터의 선밀도 함수가 완전 데이터 밀도의 컨저게이트 패밀리(Conjugate Family)에 속한다면, EM 알고리즘에 의해 MAP 추정을 쉽게 수행할 수 있다.The linear density function (
Figure 112006068668217-pat00082
) Gives the parameter some constraint on its value, including the statistical characteristics of the parameter of interest before the observation column is given. In the case of including the concealment process inherent in state and mixed components, such as the HMM, MAP estimation is generally very difficult. However, if the linear density function of the HMM parameter belongs to the conjugate family of full data density, the MAP estimation can be easily performed by the EM algorithm.

상기 MAP 추정은 ML(Maximum Likelihood)에 비해 적은 적응 데이터에 대해 더 강인하게 파라미터를 추정한다. 상기 MAP은 적응 데이터양이 증가함에 따라 ML 추정치로 수렴하는 장점을 가지고 있다.The MAP estimation more robustly estimates the parameters for less adaptive data than ML (Maximum Likelihood). The MAP has the advantage of converging to the ML estimate as the amount of adaptive data increases.

그런데, 상기 MAP은 관측된 파라미터에 대해서만 적응됨으로써 수백만 개의 파라미터를 갖는 대용량 인식기의 경우에는 적응 속도가 느리지만, 추정해야 할 파라미터가 한정되어 있는 경우에 음성 인식 시스템에서는 상기 MAP 추정이 가장 유효한 적응 기법이다.However, the MAP adapts only to the observed parameters, so that the adaptation is slow in the case of a large capacity recognizer having millions of parameters, but the MAP estimation is most effective in the speech recognition system when the parameters to be estimated are limited. to be.

따라서, 본 발명의 삼 실시 예에 따른 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법은, 다음과 같은 적응 식의 변형된 형태를 사용하도록 하는데, 즉 수만 개의 트라이폰들을 특정 개수(즉, k 개)의 클러스터로 유사 음소 군집화를 실행한 후에, MLLR을 이용하여 모델 보상을 수행하며, 그런 다음에 학습 과정에서 조사된 트라이폰 별 상태에 따라 MAP 적응을 수행하도록 한다.Accordingly, the speech recognition method for the robust long-range speech recognition system according to the third embodiment of the present invention uses a modified form of the following adaptive expression, that is, a specific number (ie k) of tens of thousands of triphones. After performing pseudo-phoneme clustering with clusters of, model compensation is performed using MLLR, and then MAP adaptation is performed according to triphone-specific states investigated in the learning process.

먼저, 센트로이드 스플리팅(Centroid Splitting) 알고리즘에 의해서 수만 개의 트라이폰들을 특정 개수(즉, k 개)의 클러스터로 유사 음소 군집화하는데, 이때 소량의 적용 분야에 따라 필요한 음성 데이터를 저장하고 있는 적응 데이터베이스로부터 판독한 소량의 적응 데이터를 이용하여 수만 개의 트라이폰 모델을 적응하기 위하여 도 13의 순서도와 같이 k 개의 유사 음소 클러스터가 생성되도록 수만 개의 트라이폰 모델을 군집화한다(단계 S121).First, centroid splitting algorithms cluster tens of thousands of triphones into similar phonemes into a specific number (i.e., k) clusters, adapting to store the necessary voice data for a small number of applications. In order to adapt tens of thousands of triphone models using a small amount of adaptation data read from the database, tens of thousands of triphone models are clustered such that k similar phoneme clusters are generated as shown in the flowchart of FIG. 13 (step S121).

다시 말해서, 도 13의 순서도에 도시된 바와 같이, 우선 파라미터를 초기화하는데, 모든 트라이폰의 평균(Mean)에 대한 하나의 중심 값(즉, 초기 중심 값)을 아래의 수학식 13과 같이 설정한다(단계 S131).In other words, as shown in the flowchart of FIG. 13, the parameter is first initialized, and one center value (ie, initial center value) for the mean of all the triphones is set as shown in Equation 13 below. (Step S131).

Figure 112006068668217-pat00083
Figure 112006068668217-pat00083

그리고, 각 클러스터를 분할(Splitting)하는데, 각 클러스터의 중심 값을 이동

Figure 112006068668217-pat00084
시켜 아래의 수학식 14와 같이 두 개로 분할한다(단계 S132).And splitting each cluster, moving the center value of each cluster
Figure 112006068668217-pat00084
And divides it into two as shown in Equation 14 below (step S132).

Figure 112006068668217-pat00085
Figure 112006068668217-pat00085

그런 후에, 모든 입력 벡터를 재할당하는데, 모든 입력 벡터에 대한 분할된 각 클러스터와의 유클리드 거리를 측정하여 아래의 수학식 15와 같이 가장 작은 거리를 갖는 클러스터의 멤버 벡터로 집단화한다(단계 S133).Thereafter, all input vectors are reassigned, and the Euclidean distance with each divided cluster for all the input vectors is measured and grouped into the member vectors of the cluster having the smallest distance as shown in Equation 15 below (step S133). .

Figure 112006068668217-pat00086
Figure 112006068668217-pat00086

그리고, 센트로이드 업데이트(Centroid Update)를 수행하는데, 상기 각 클러스터의 멤버 벡터를 통해 클러스터의 중심점을 아래의 수학식 16과 같이 갱신한다(단계 S134).Then, the centroid update is performed, and the center point of the cluster is updated as shown in Equation 16 below through the member vector of each cluster (step S134).

Figure 112006068668217-pat00087
Figure 112006068668217-pat00087

이에, 제1터미네이션(Termination)을 수행하는데, 오차의 갱신 값이 기설정된 임계값 이하인지를 판단한다(단계 S135). 이때, 해당 오차의 갱신 값이 기설정된 임계값 이하이면 제136단계(S136)를 수행하도록 하며, 그렇지 않으면 상기 제132단계(S132)로 되돌아 반복 수행하도록 한다.Accordingly, the first termination is performed, and it is determined whether the update value of the error is equal to or less than the preset threshold (step S135). In this case, if the update value of the corresponding error is less than or equal to the preset threshold, step 136 (S136) is performed. Otherwise, the process returns to step 132 (S132).

이에 따라, 제2터미네이션을 수행하는데, 정해진 수의 클러스터로 분할되었는지를 판단하는데(단계 S136), 이때 정해진 수의 클러스터로 분할된 경우에는 작업을 종료하며, 그렇지 않으면 상기 제132단계(S132)로 되돌아가 반복하여 수행하도록 한다.Accordingly, when the second termination is performed, it is determined whether the partition is divided into a predetermined number of clusters (step S136). At this time, if the partition is divided into a predetermined number of clusters, the operation is terminated. Go back and do it again.

상기 제121단계(S121)를 수행한 후에, MLLR 기법을 통해 HMM 모델을 평균 보상해 준다(단계 S122). 여기서, 상기 MLLR은 가우시안 혼합 HMM 시스템의 평균값에 대 한 선형 변환의 집합을 예측하는 모델 적응 기법이다. 이러한 변환의 효과는, 모델의 평균값을 이동시켜 줌으로써, 적응 데이터에 적합하도록 HMM 시스템의 상태를 변환하도록 하는 것이다. 새롭게 적응되는 평균값을 예측하기 위해 아래의 수학식 17에 나타난 바와 같은 변환 행렬(

Figure 112006068668217-pat00088
)이 사용된다.After performing the 121 th step S121, the HMM model is averagely compensated through the MLLR technique (step S122). Here, the MLLR is a model adaptation technique for predicting a set of linear transformations with respect to an average value of a Gaussian mixed HMM system. The effect of this transformation is to shift the state of the model, thereby transforming the state of the HMM system to suit the adaptive data. In order to predict the newly adapted mean value, a transformation matrix such as
Figure 112006068668217-pat00088
) Is used.

Figure 112006068668217-pat00089
Figure 112006068668217-pat00089

여기서, 해당 '

Figure 112006068668217-pat00090
'는 '
Figure 112006068668217-pat00091
' 변환 행렬이고 'n'은 특징 파라미터 벡터 차수를 나타낸다. 해당 '
Figure 112006068668217-pat00092
'은 확장 평균 벡터(Extended Mean Vector)로서, '
Figure 112006068668217-pat00093
'이며, '
Figure 112006068668217-pat00094
'는 바이어스 오프셋(Bias Offset)을 나타낸다.Where, "
Figure 112006068668217-pat00090
'Is'
Figure 112006068668217-pat00091
Is a transformation matrix and 'n' represents a feature parameter vector order. Applicable '
Figure 112006068668217-pat00092
'Is an extended mean vector,
Figure 112006068668217-pat00093
","
Figure 112006068668217-pat00094
'Represents a bias offset.

그러므로, 상기 변환 행렬(

Figure 112006068668217-pat00095
)은, '
Figure 112006068668217-pat00096
'로 분해된다. 여기서, 'b'는 바이어스 벡터를 나타내며, 'A'는 '
Figure 112006068668217-pat00097
' 변환 행렬을 나타낸다.Therefore, the transformation matrix (
Figure 112006068668217-pat00095
) Means "
Figure 112006068668217-pat00096
Is decomposed into '. Here, 'b' represents a bias vector, and 'A'represents'
Figure 112006068668217-pat00097
'Represents the transformation matrix.

이에 따라, 상기 제121단계(S121)에서 군집화된 트라이폰 모델들을 학습하며, 해당 학습에 의해 조사된 트라이폰 별 상태에 따라 아래의 수학식 18과 같이 상기 평균 보상된 HMM 모델에 대해 적응 데이터의 MAP 적응을 수행하도록 한다(단계 S123).Accordingly, in step 121, the clustered triphone models are trained, and adaptive data of the average compensated HMM model is calculated as shown in Equation 18 below according to the triphone-specific state investigated by the corresponding training. MAP adaptation is performed (step S123).

Figure 112006068668217-pat00098
Figure 112006068668217-pat00098

여기서, '

Figure 112006068668217-pat00099
'은 적응 데이터에 대한 보움-웰취 재추정에 의해 추정된 적응 모델을 나타내며, '
Figure 112006068668217-pat00100
'는 기존 학습 데이터의 개수를 나타내며, '
Figure 112006068668217-pat00101
'은 적응 데이터의 개수를 나타낸다.here, '
Figure 112006068668217-pat00099
'Represents the adaptive model estimated by the round-well re-estimation of the adaptation data,
Figure 112006068668217-pat00100
'Represents the number of existing training data,
Figure 112006068668217-pat00101
'Represents the number of adaptive data.

그런 후에, 상기 제123단계(S123)에서 적응 데이터의 MAP 적응에 의해 학습된 적응 모델을 사용하여 음성 인식 과정을 수행하도록 해 준다(단계 S124).Thereafter, in step 123 (S123), a speech recognition process is performed using an adaptation model learned by MAP adaptation of the adaptation data (step S124).

상술한 바와 같은 MAP과 MLLR 기법을 이용한 적응 모델링 기법은, 기존 시스템이 적용 분야에 따라 음성 데이터베이스의 교체 기간을 6개월 이상 걸렸던 것에 비해, 불과 1~2주 정도로 획기적으로 줄일 수 있다. 즉, 상용화를 위해 음성 데이터베이스의 튜닝 기간이 너무 오래 걸려 적용하지 못했던 분야들에 대해 기존 데이터베이스에 소량의 적용 분야에 필요한 음성 데이터를 녹음하여 상술한 바와 같은 MAP과 MLLR 기법을 이용한 적응 모델링 기법을 실행하면, 매우 짧은 기간에 최적화된 음성 데이터베이스를 구축할 수 있게 된다.As described above, the adaptive modeling technique using the MAP and MLLR techniques can be drastically reduced by only one to two weeks, compared to the existing system which took 6 months or more to replace the voice database depending on the application field. In other words, the voice data required for a small amount of application is recorded in the existing database for the areas that could not be applied because the tuning period of the voice database was too long for commercialization, and then the adaptive modeling method using the MAP and MLLR techniques described above is executed. In this way, an optimized voice database can be constructed in a very short period of time.

예를 들어, 도 14에 도시된 바와 같이, 깨끗한 음성 데이터베이스(즉, 원음성 데이터베이스)(91)에 소량의 적용 분야에 따라 필요한 음성 데이터를 저장한 적응 데이터베이스(92)를 추가하여 상술한 바와 같은 MAP과 MLLR 기법을 이용한 적응 모델링 기법을 실행시켜, 로봇 제어용 데이터베이스(93), 홈 네트워크용 원거리 데이터베이스(94), 고속 주행 자동차용 데이터베이스(95) 등을 구축할 수 있다.For example, as shown in FIG. 14, an adaptive database 92 storing the necessary voice data according to a small amount of application is added to a clean voice database (i.e., the original voice database) 91 as described above. The adaptive modeling technique using the MAP and MLLR techniques can be executed to construct the robot control database 93, the remote database 94 for the home network, and the database 95 for the high speed car.

한편, 상술한 바와 같은 본 발명의 일 실시 예, 이 실시 예 및 삼 실시 예를 종래 기술과 비교하여 원거리 음성 인식 성능 평가를 위해서, 남녀 각 30명으로 구성하여 각자 홈 네트워크용 100문장과 로봇 제어용 100문장을 발성하도록 한 후에, 마이크로부터 0.3(m), 1(m), 2(m), 3(m) 및 5(m) 각각 떨어진 곳에서 녹음받은 홈 네트워크 및 로봇 제어용 문장을 구성한 경우에, 아래의 표들(즉, 표 1 내지는 표 5)과 같은 음성 인식률을 가짐을 알 수 있다.On the other hand, the embodiment of the present invention as described above, this embodiment and the third embodiment compared to the prior art, for the evaluation of the distance speech recognition performance, composed of 30 men and women each for 100 sentences for home networks and robot control When 100 sentences are spoken, the home network and robot control sentences recorded from 0.3 (m), 1 (m), 2 (m), 3 (m) and 5 (m) away from the microphone are constructed. It can be seen that the voice recognition rate is as shown in the following tables (ie, Tables 1 to 5).

아래의 표 1은 종래 기술의 음성 인식 시스템에 대한 음성 인식률을 나타낸 표이다.Table 1 below shows a speech recognition rate for the speech recognition system of the prior art.

홈 네트워크용 100문장100 sentences for home networks 로봇 제어용 100문장100 sentences for robot control 0.3m0.3m 96.796.7 92.392.3 1m1m 90.390.3 91.291.2 2m2 m 85.585.5 82.982.9 3m3m 75.775.7 73.673.6 5m5 m 56.656.6 60.760.7

아래의 표 2는 본 발명의 일 실시 예에 따른 좌우 음소 연결 기법을 적용한 음성 인식 시스템에 대한 음성 인식률을 나타낸 표이다.Table 2 below shows a speech recognition rate for the speech recognition system to which the left and right phoneme connection scheme according to an embodiment of the present invention is applied.

홈 네트워크용 100문장100 sentences for home networks 로봇 제어용 100문장100 sentences for robot control 0.3m0.3m 96.596.5 93.193.1 1m1m 91.491.4 92.692.6 2m2 m 86.386.3 85.985.9 3m3m 82.582.5 80.480.4 5m5 m 66.966.9 71.871.8

아래의 표 3은 본 발명의 이 실시 예에 따른 ICA를 이용한 잡음 합성 기법을 적용한 음성 인식 시스템에 대한 음성 인식률을 나타낸 표이다.Table 3 below shows a speech recognition rate for the speech recognition system to which the noise synthesis method using the ICA according to this embodiment of the present invention is applied.

홈 네트워크용 100문장100 sentences for home networks 로봇 제어용 100문장100 sentences for robot control 0.3m0.3m 96.896.8 93.393.3 1m1m 94.094.0 93.093.0 2m2 m 88.988.9 83.483.4 3m3m 83.983.9 79.579.5 5m5 m 65.165.1 74.274.2

아래의 표 4는 본 발명의 삼 실시 예에 따른 MAP과 MLLR 기법을 이용한 적응 모델링 기법을 적용한 음성 인식 시스템에 대한 음성 인식률을 나타낸 표이다.Table 4 below shows a speech recognition rate for the speech recognition system to which the adaptive modeling method using the MAP and MLLR techniques according to the third embodiment of the present invention.

홈 네트워크용 100문장100 sentences for home networks 로봇 제어용 100문장100 sentences for robot control 0.3m0.3m 98.998.9 96.796.7 1m1m 95.695.6 95.195.1 2m2 m 89.789.7 90.290.2 3m3m 88.488.4 83.383.3 5m5 m 78.378.3 79.679.6

아래의 표 5는 본 발명의 일 실시 예, 이 실시 예 및 삼 실시 예를 모두 적용한 음성 인식 시스템에 대한 음성 인식률을 나타낸 표이다.Table 5 below shows a speech recognition rate for the speech recognition system to which one embodiment, this embodiment, and three embodiments of the present invention are applied.

홈 네트워크용 100문장100 sentences for home networks 로봇 제어용 100문장100 sentences for robot control 0.3m0.3m 99.099.0 97.897.8 1m1m 96.796.7 97.197.1 2m2 m 94.794.7 92.192.1 3m3m 92.392.3 89.689.6 5m5 m 82.382.3 83.583.5

상술한 표들과 같이, 본 발명의 일 실시 예에 따른 좌우 음소 연결 기법과, 본 발명의 이 실시 예에 따른 잡음 합성 기법과, 본 발명의 삼 실시 예에 따른 적응 모델링 기법을 사용한 최적의 음성 데이터베이스 구축으로, 원거리에서 발성하는 것에서 기인하는 음성 패턴의 변화에 매우 적응적으로 대처함으로써, 강인한 원거리 음성 인식 시스템을 구축하는데 매우 유용함을 잘 알 수 있다.As shown in the above tables, an optimal speech database using left and right phoneme connection technique according to an embodiment of the present invention, a noise synthesis technique according to this embodiment of the present invention, and an adaptive modeling technique according to the third embodiment of the present invention As a construction, it can be seen that it is very useful for constructing a robust far-field speech recognition system by coping with the change of the speech pattern resulting from the far-field speech.

본 발명의 사 실시 예에 따른 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법을 도 15의 순서도를 참고하여 설명하면 다음과 같다.A speech recognition method for a robust remote speech recognition system according to an embodiment of the present invention will be described with reference to the flowchart of FIG. 15 as follows.

본 발명의 사 실시 예에 따른 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법은, 음성 인식 시스템의 후처리 부분 내 언어 처리부에서 새로운 반음소 모델을 이용한 새로운 신뢰도 측정 기법을 적용하여 미등록어 거절 기능을 수행하도록 하는데, 이때 아래의 수학식 19에서 신뢰도를 측정하기 위한 음소 대 반음소 우도비(Likelihood Ratio; LLR)를 계산할 때에 늘어나는 계산량을 줄이기 위하여 다음과 같은 새로운 계산 기법을 사용하도록 한다.In the speech recognition method for a robust long-range speech recognition system according to an embodiment of the present invention, the language processing unit in the post-processing portion of the speech recognition system applies a new reliability measurement method using a new halftone model to perform an unregistered word rejection function. In this case, the following new calculation technique is used to reduce the amount of computation that is increased when calculating the phoneme to half-phoneme likelihood ratio (LLR) for measuring reliability in Equation 19 below.

Figure 112006068668217-pat00102
Figure 112006068668217-pat00102

여기서, 반음소 모델(

Figure 112006068668217-pat00103
)은 새로운 반음소 모델이다. 기존의 반음소 모델을 이용한 신뢰도 계산이 자신 외의 모든 음소의 평균을 내거나, 유사 음소 집합을 미리 메모리에 저장하고 계산하는 것에 비해, 새로운 반음소 모델(
Figure 112006068668217-pat00104
)은 자신의 음소 모델만을 사용하여 음소 대 반음소 우도비(LLR)를 다음과 같이 계산한다.Where the semitone model (
Figure 112006068668217-pat00103
) Is the new halftone model. Reliability calculations using existing half-phone models mean that all other phonemes are averaged or similar phoneme sets are stored in memory beforehand and calculated.
Figure 112006068668217-pat00104
) Calculates the phoneme-to-tone phone likelihood ratio (LLR) using only its phoneme model:

우선, 도 16에 도시된 바와 같이, HMM 모델의 상태 천이 확률(

Figure 112006068668217-pat00105
)을 '
Figure 112006068668217-pat00106
'로 대치하여 해당 HMM 모델의 상태 천이를 자동적으로 자신의 상태 천이와 반대로 설정함으로써(단계 S151) 반음소의 특성을 지닐 수 있도록 해 준다.First, as shown in FIG. 16, the state transition probability of the HMM model (
Figure 112006068668217-pat00105
)
Figure 112006068668217-pat00106
By replacing the state transition of the corresponding HMM model with its own state transition automatically (step S151), so that it has the characteristics of the semitone.

그리고, 세그멘테이션된 프레임(

Figure 112006068668217-pat00107
)의 가우시안 모델에 대한 심볼 관측 확률도, 아래의 수학식 20과 같이 프레임을 역으로 취함으로써(단계 S152), 음소 모델이 가지는 특성에 반하는 반음소의 특성을 살릴 수 있도록 해 준다.And segmented frames (
Figure 112006068668217-pat00107
The symbol observation probability for the Gaussian model of Fig. 9) is also reversed by taking the frame as shown in Equation 20 below (step S152), thereby making it possible to make use of the semi-phoneme characteristics contrary to the characteristics of the phoneme model.

Figure 112006068668217-pat00108
Figure 112006068668217-pat00108

이때, '

Figure 112006068668217-pat00109
'의 반음소 모델은 '
Figure 112006068668217-pat00110
'로 대치되는데, 즉 새로 운 반음소 모델로 대치되어진다.At this time, '
Figure 112006068668217-pat00109
Halftone model of '
Figure 112006068668217-pat00110
', That is, the new halftone model.

이에, 상기 제151단계(S151)에서 대치된 상태 천이 확률과 상기 제152단계(S152)에서 역프레임을 취한 심볼 관측 확률을 이용하여 상기 수학식 19에 나타나 있는 바와 같이 상기 음소 대 반음소의 우도비를 계산하여 신뢰도를 측정하게 된다(단계 S153).Thus, the likelihood ratio of the phoneme to the half phoneme is represented by Equation 19 using the state transition probability replaced in step 151 and the symbol observation probability of taking an inverse frame in step 152 (S152). And reliability is measured (step S153).

이에 따라, 상기 제153단계(S153)와 같이 신뢰도를 측정하게 되면, 상기 음소 대 반음소의 우도비는 인식 대상이 변화하거나 음성의 품질이 잡음 등에 의하여 왜곡되었을 경우에도 적응적으로 신뢰도를 측정할 수 있을 뿐 아니라, 계산량도 감소시켜 준다.Accordingly, when the reliability is measured as in the step 153 (S153), the likelihood ratio of the phoneme to the half phoneme can be adaptively measured even when the recognition target is changed or the quality of the voice is distorted by noise. Not only that, but it also reduces the amount of computation.

그런 후에, 상술한 바와 같은 새로운 반음소 모델을 이용한 새로운 신뢰도 측정 기법을 적용하여 미등록어 거절 기능을 수행하게 된다(단계 S154). 이때, 실험을 통해 살펴본 결과로, 본 발명의 새로운 반음소 모델 기반 신뢰도 계산법은, 고립 단어뿐 아니라 연속 단어 인식에서도 잡음에 강인하며, 계산량이 적은 우수한 발화 검증 기법임을 잘 알 수 있다.After that, a new word rejection function using the new halftone model as described above is applied to perform the non-registered word rejection function (step S154). In this case, as a result of the experiment, it can be seen that the novel half-phone model-based reliability calculation method of the present invention is an excellent speech verification technique that is robust against noise in continuous word recognition as well as isolated words, and has a small calculation amount.

본 발명의 오 실시 예에 따른 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법을 도 17의 순서도를 참고하여 설명하면 다음과 같다.A speech recognition method for a robust remote speech recognition system according to an exemplary embodiment of the present invention will be described with reference to the flowchart of FIG. 17 as follows.

실제로, 홈 네트워크, 로봇 제어 등의 상용화 시스템에서는 300단어 미만의 명령어로만으로도 충분히 구성되어진다. 이에, 본 발명의 오 실시 예에 따른 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법은, 이러한 소규모 음성 인식 시스템 의 후처리 부분 내 언어 처리부에서 언어 모델을 이용한 거절 기법을 적용하여 미등록어 거절 기능을 수행함으로써, 오인식될 확률을 낮추어 미등록어에 대한 거절 확률을 향상시켜 준다.In fact, in commercialization systems such as home networks and robot control, only less than 300 words are sufficient. Accordingly, in the speech recognition method for the robust long-range speech recognition system according to the fifth embodiment of the present invention, the language processing unit in the post-processing portion of the small-scale speech recognition system applies a rejection technique using a language model to perform an unregistered word rejection function. As a result, the probability of misrecognition is lowered, thereby improving the probability of rejection of unregistered words.

다시 말해서, 기존의 언어 모델링이 인식률을 향상시키는데 초점을 맞췄다면, 본 발명의 오 실시 예에 따른 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법은, 인식률이 기존의 음성 인식 시스템과 동일하게 유지하면서, 미등록어를 거절하는데 그 초점을 맞추었다. 이때, 상기 언어 모델을 이용한 거절 기법을 네트워크로 구성하면 도 18에 도시된 바와 같다.In other words, if the existing language modeling is focused on improving the recognition rate, the speech recognition method for the robust long-range speech recognition system according to the fifth embodiment of the present invention may be maintained while the recognition rate is the same as that of the existing speech recognition system. The focus was on rejecting unregistered words. At this time, if the network rejection scheme using the language model is configured as shown in FIG.

우선, 각 노드 뒤에는 모든 인식 대상이 따라올 수 있도록 단어와 단어 사이의 연결 확률은 모두 같아지도록 미리 설정해 준다(단계 S171). 이때, 역전파 경로를 통한 최종 인식 단어열은, 미리 정해진 인식 문장과 일치해야만 인식되도록 한다.First, each node is set in advance so that the connection probability between words is the same so that all recognition objects can follow (step S171). In this case, the final recognition word string through the backpropagation path may be recognized only when it matches the predetermined recognition sentence.

도 18에 도시된 바와 같은 인식 네트워크에서, "나래야"라는 제1핵심어와, "안방, 거실, 주방, ... 보일러, 에어콘" 등의 제2핵심어와, "불켜, 불꺼, 켜, 꺼, ... 온도올려, 온도내려" 등의 제3핵심어 사이에 서로가 연결될 확률이 모두 동일하다고 모델링을 해 놓으면, 노드별 네트워크 천이 시에 아래의 수학식 21과 같이 언어 모델(

Figure 112006068668217-pat00111
)이 가중된다.In the recognition network as shown in Fig. 18, the first key word "Naraeya" and the second key word "room, living room, kitchen, ... boiler, air conditioner" and the like, "light up, turn off, turn on, turn off" If the model is modeled as having the same probability that the third core words are connected to each other among the third core words, such as "raise the temperature, lower the temperature", the language model (
Figure 112006068668217-pat00111
) Is weighted.

Figure 112006068668217-pat00112
Figure 112006068668217-pat00112

그런 후에, "나래야안방불켜", "나래야안방불꺼", "나래야거실불켜", "나래야가스 밸브닫어" 등과 같이, 단어와 단어 사이가 전부 연결되어 있는 상태로 인식 대상 문장을 선정한다(단계 S172).After that, the sentence to be recognized is selected in such a state that the words and the words are all connected to each other, such as, "Naraya-bang-bang", "Narae-yabang-bang", "Narae-ja-bang," (Step S172).

그리고, "나래야", "안방", "불켜", "불꺼", "거실", "가스밸브", "닫어" 등과 같이, 상기 제172단계(S172)에서 선정된 인식 대상 문장을 인식 대상 단어로 각각 분할해 준다(단계 S173).Then, the recognition target sentence selected in the step 172 (S172), such as "naraeya", "home", "light up", "light off", "living room", "gas valve", "close", etc. Each is divided into words (step S173).

이에, 상기 제173단계(S173)에서 분할된 인식 대상 단어를 이용하여 도 19에 도시된 바와 같은 인식 네트워크를 구성해 준다(단계 S174).Thus, a recognition network as shown in FIG. 19 is constructed using the recognition target word divided in the first step S73 (step S174).

이에 따라, 음성 입력 장치를 통해 입력되는 음성에 대한 인식을 상기 제174단계(S174)에서 구성된 인식 네트워크를 통해 수행한 후에(단계 S175), 해당 인식 네트워크를 통해 나온 최종 인식 단어열이 상기 제172단계(S172)에서 선정된 인식 대상 문장과 일치하는지를 확인하며(단계 S176), 이때 일치하는 경우에 인식 처리하도록 하고(단계 S177) 반면에, 일치되지 않는 경우에 거절 처리하도록 한다(단계 S178).Accordingly, after the recognition of the voice input through the voice input device is performed through the recognition network configured in the step 174 (step S174) (step S175), the final recognition word string output through the corresponding recognition network is the above-described code 172. It is checked whether it matches the sentence to be recognized selected in step S172 (step S176), and if it matches at this time, the recognition processing is performed (step S177), while if it does not match, the rejection processing is performed (step S178).

상술한 바와 같은 본 발명의 오 실시 예에 따른 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법은, 인식 규모가 작을수록 인식률이 높은 음성 인식 시스템의 특성을 이용하여 인식률이 상대적으로 낮은 대용량 음성 인식 시스템의 인식률 향상을 위해서 사용되어진 언어 모델링 기법을 소용량 음성 인식 시스템의 거절 기능에 적용하도록 한 것이다.The speech recognition method for the robust long-range speech recognition system according to the fifth embodiment of the present invention as described above is based on the characteristics of the large-capacity speech recognition system having a relatively low recognition rate using the characteristics of the speech recognition system having a higher recognition rate as the recognition scale is smaller. The language modeling technique used to improve the recognition rate is applied to the rejection function of the small-capacity speech recognition system.

예를 들어, 3개의 연속적인 단어로 이루어진 한 문장이 인식 대상이라면, 이론상으로 1/300*300*300 = 99.99999(%)의 미등록어 거절 확률을 가지게 된다. 실제, 300 단어로 이루어진 네트워크상에서 3 연속 노드 300개의 문장을 인식 대상으로 하였을 경우에는, 미등록어에 대한 거절 확률을 99(%)이상의 높은 결과를 얻을 수 있음을 잘 알 수 있다.For example, if a sentence consisting of three consecutive words is to be recognized, in theory, it has a probability of rejecting an unregistered word of 1/300 * 300 * 300 = 99.99999 (%). In fact, when 300 sentences of three consecutive nodes are recognized on a network of 300 words, it is well understood that a rejection probability for an unregistered word is higher than 99 (%).

본 발명의 육 실시 예에 따른 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법을 설명하면 다음과 같다.A speech recognition method for a robust long-range speech recognition system according to six embodiments of the present invention is as follows.

본 발명의 육 실시 예에 따른 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법은, 하이브리드(Hybrid) 거절 기법으로서, 상술한 바와 같은 본 발명의 사 실시 예에 따른 반음소 모델링과, 상술한 바와 같은 본 발명의 오 실시 예에 따른 언어 모델링을 순차적으로 미등록어 거절 기능(OOV; Out of Vocabulary)을 수행하도록 해 준다.A speech recognition method for a robust long-range speech recognition system according to a sixth embodiment of the present invention is a hybrid rejection technique. Language modeling according to a fifth embodiment of the present invention allows to perform an out-of-vocabulary (OOV) rejection function sequentially.

예를 들어, 모의실험에 사용한 트라이폰(Triphone) 모델 훈련을 위하여, 총 8종류(즉, ETRI의 PBW445 데이터베이스, POW3848 데이터베이스, 국어공학연구소의 PBW452 데이터베이스, 4연 숫자음, 단독 숫자음, 고빈도 2000어휘 데이터베이스, 본 발명의 삼 실시 예에 따른 새로이 수집한 홈 네트워크 제어 명령 데이터베이스, 지능형 로봇용 데이터베이스)의 음성 데이터베이스를 사용하고, 평가를 위한 데이터베이스는 본 발명의 육 실시 예에 따른 수집한 각종 제어 문장 데이터베이스를 사용한다. 또한, 학습에 참여한 음성 데이터베이스의 문맥 종속적 모델인 트라이폰의 개수는 묵음(Silence) 모델을 포함하여 총 10,349개이며, 음성 데이터베이스는 16(k)로 샘플링(Sampling)하고 16(Bit) 양자화한 선형 PCM의 포맷을 갖도록 한 다.For example, in order to train the Triphone model used in the simulation, a total of eight types (ie, ETRI's PBW445 database, POW3848 database, the Korean Institute of Engineering PBW452 database, four-digit digits, single digits, high frequency) 2000 vocabulary database, voice database of the newly collected home network control command database according to the third embodiment of the present invention, intelligent robot database), and the database for evaluation is a variety of control collected according to six embodiments of the present invention Use a sentence database. In addition, the number of triphones, a context-dependent model of the speech database, participated in the training was 10,349 including the Silence model, and the speech database was sampled at 16 (k) and linearized at 16 (Bit). Have the format of PCM.

이때, 인식 실험에 참여한 음성 데이터베이스는 아래의 표 6에 나타낸 바와 같으며, 또한 종래 기술에 의한 발화 검증 기법과 본 발명의 육 실시 예에 따른 하이브리드 거절 기법의 OOV 확률을 비교하면 아래의 표 7과 같다.At this time, the speech database participating in the recognition experiment is shown in Table 6 below. Also, comparing the OOV probability of the speech verification method according to the prior art and the hybrid rejection method according to the six embodiments of the present invention, same.

데이터베이스 종류Database type 어휘수Vocabulary 어휘당 반복횟수Repetitions per vocabulary PDA 제어용 데이터베이스PDA Control Database 8080 200회200 times 홈 네트워크 제어용 데이터베이스Database for Home Network Control 300300 200회200 times 지능형 로봇 제어용 데이터베이스Database for Intelligent Robot Control 150150 200회200 times

기존의 발화 검증 기법Conventional Speech Verification Technique 본 발명의 발화 검증 기법Speech Verification Technique of the Invention 본 발명의 언어 모델을 이용한 거절 기법Rejection technique using language model of the present invention 본 발명의 하이브리드 거절 기법Hybrid Rejection Techniques of the Invention 인식률Recognition rate 미등록어 거절율Unregistered Word Rejection Rate 인식률Recognition rate 미등록어 거절율Unregistered Word Rejection Rate 인식률Recognition rate 미등록어 거절율Unregistered Word Rejection Rate 인식률Recognition rate 미등록어 거절율Unregistered Word Rejection Rate PDA 제어용For PDA control 93.693.6 94.194.1 93.693.6 97.897.8 93.693.6 98.998.9 94.594.5 99.599.5 홈 네트워크용For home networks 92.292.2 85.585.5 92.192.1 92.592.5 92.592.5 99.799.7 93.293.2 100100 로봇 제어용For robot control 91.391.3 92.892.8 90.590.5 95.695.6 91.391.3 96.696.6 90.890.8 98.398.3

상기 표 7에서 보듯이, 본 발명의 육 실시 예에 따른 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법은, 인식률의 변동 없이 약 99(%)의 높은 성능의 미등록어 거절율을 보이고 있다.As shown in Table 7, the speech recognition method for the robust long-range speech recognition system according to six embodiments of the present invention shows a high performance unregistered word rejection rate of about 99 (%) without a change in recognition rate.

본 발명의 육 실시 예에 따른 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법은, 300단어 미만으로 이루어지는 소규모 연속 음성 인식 시스템의 인식률을 유지하면서도, 미등록어 오인식률을 크게 향상시켜 연속 음성 인식 시스템의 상용화에 크게 기여할 수 있다. 또한, 계산량의 큰 변화 없이 미등록어 거절 기능을 수행함으로써, 계산량의 증가로 인해 적용되지 못하였던 DSP나 PDA 등의 임베디드 음성 인식 시스템에 적용이 가능하다.The speech recognition method for the robust long-range speech recognition system according to the sixth embodiment of the present invention, while maintaining the recognition rate of the small-scale continuous speech recognition system consisting of less than 300 words, greatly improves the non-registered word recognition rate commercialization of the continuous speech recognition system Can contribute significantly. In addition, by performing a non-registered word rejection function without a large change in the amount of calculation, it is possible to apply to an embedded speech recognition system such as DSP or PDA, which has not been applied due to the increase of the amount of calculation.

이상과 같이, 본 발명에 의해 음성 인식 시스템에 있어서 패턴 매칭 부분에서 좌우 음소 연결 기법 및 음성 데이터베이스 구축을 위한 잡음 합성 및 적응 알고리즘을 적용하여 신뢰도가 높은 원거리 음성 인식 시스템의 인식률(즉, 원거리 음성 인식 성능)을 향상시켜 주며, 또한 후처리 부분에서 새로운 반음소 모델을 이용하거나 새로운 언어 모델을 이용하여 미등록어에 대한 거절 기능을 수행하도록 함으로써 오인식될 확률을 낮추어 미등록어에 대한 거절 확률을 향상시켜 신뢰도를 측정하기 위한 음소 대 반음소 우도비의 계산량을 줄이도록 한다.As described above, in the speech recognition system according to the present invention, the recognition rate of the long-range speech recognition system (i.e., the far-field speech recognition system) is applied by applying the left and right phoneme connection technique and the noise synthesis and adaptive algorithm for constructing the speech database in the pattern matching part. Performance, and by using the new half-phoneme model or the new language model in the post-processing part to perform the rejection function for unregistered words, the probability of misrecognition is lowered, thereby improving the rejection probability for unregistered words. Reduce the computation of the phoneme-to-tone phoneme likelihood ratio to measure.

또한, 본 발명에 의해서 음성 인식 시스템의 후처리 부분에서 새로운 반음소 모델을 이용한 발화 검증과 소규모 연속 음성 인식 시스템용 언어 모델을 응용한 순차적 미등록어 거절 기능을 수행하도록 해 줌으로써, 소규모 연속 음성 인식 시스템의 인식률을 유지하면서도 미등록어 오인식률을 크게 향상시켜 연속 음성 인식 시스템의 상용화에 크게 기여하며, 계산량의 증가로 인해 적용되지 못하였던 DSP나 PDA 등의 임베디드 음성 인식 시스템에 적용할 수 있다.In addition, according to the present invention, in the post-processing part of the speech recognition system, the speech verification using the new half-phone model and the sequential unregistered word rejection function applying the language model for the small-scale continuous speech recognition system are performed. It greatly improves the recognition rate of unregistered words while maintaining the recognition rate, and contributes to the commercialization of the continuous speech recognition system, and it can be applied to embedded speech recognition systems such as DSP or PDA, which have not been applied due to the increase of the calculation amount.

Claims (7)

삭제delete 음성 입력 장치를 통해 연속적으로 입력되는 단어의 음성을 인식하는 음성 인식 방법에 있어서,In the speech recognition method for recognizing the voice of the words continuously input through the voice input device, 다수 종류의 잡음 환경에서 발생되는 잡음 신호들을 다수 개의 음성 입력 장치를 통해 취득하여 잡음 신호 데이터베이스를 구현하는 과정과;Acquiring a noise signal generated in a plurality of noise environments through a plurality of voice input devices to implement a noise signal database; 상기 취득된 잡음 신호들을 각각 깨끗한 원음성 신호에 결합시켜 혼합 신호들을 생성하는 과정과;Combining the obtained noise signals with a clean original audio signal to generate mixed signals; 상기 생성된 혼합 신호들을 학습하여 다수 종류의 잡음 환경에서 수집되는 학습 데이터들을 취득하여 학습 데이터 데이터베이스들을 구현하는 과정과;Learning the generated mixed signals to acquire learning data collected in a plurality of noise environments to implement learning data databases; 모델 재추정 시스템에서 상기 취득된 학습 데이터들을 다수 종류의 잡음 환경에서의 로우 데이터로 변환시켜 HMM(Hidden Markov Model) 모델로 학습하는 과정과;A step of converting the acquired training data into raw data in a plurality of noise environments in a model re-estimation system and learning the HID model; 상기 학습된 HMM 모델을 사용하여 상기 연속 입력 단어에 대한 음성을 인식하는 과정을 포함하여 이루어진 것을 특징으로 하는 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법.And a step of recognizing a speech for the continuous input word using the trained HMM model. 음성 입력 장치를 통해 연속적으로 입력되는 단어의 음성을 인식하는 음성 인식 방법에 있어서,In the speech recognition method for recognizing the voice of the words continuously input through the voice input device, 깨끗한 원음성 신호를 저장하고 있는 원음성 데이터베이스를 적용 분야에 따라 필요한 음성 데이터를 저장하고 있는 적응 데이터베이스에 추가하는 과정과;Adding an original audio database storing clean original audio signals to an adaptive database storing necessary voice data according to an application field; 상기 적응 데이터베이스에 저장된 적응 데이터를 이용하여 다수 개의 트라이폰 모델을 적응하기 위하여 특정 개수의 유사 음소 클러스터가 생성되도록 다수 개의 트라이폰 모델을 군집화하는 과정과;Clustering the plurality of triphone models such that a specific number of similar phoneme clusters are generated to adapt the plurality of triphone models using the adaptation data stored in the adaptation database; MLLR(Maximum Likelihood Linear Regression)을 통해 가우시안 혼합 HMM(Hidden Markov Model) 모델의 평균값에 대한 선형 변환의 집합을 예측하여 해당 HMM 모델을 평균 보상해 주는 과정과;Estimating a set of linear transformations for the mean value of the Gaussian mixed Hidden Markov Model (HMM) model through Maximum Likelihood Linear Regression (MLLR) to average compensate the corresponding HMM model; 상기 군집화된 트라이폰 모델들을 학습하며, 해당 학습에 의해 조사된 트라이폰 별 상태에 따라 상기 평균 보상된 HMM 모델에 대해 적응 데이터의 MAP(Maximum a Posteriori) 적응을 수행하는 과정과;Learning the clustered triphone models and performing MAP adaptation of the adaptation data on the average compensated HMM model according to the triphone-specific state investigated by the training; 상기 MAP 적응에 의해 학습된 적응 모델을 사용하여 상기 연속 입력 단어에 대한 음성을 인식하는 과정을 포함하여 이루어진 것을 특징으로 하는 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법.And a speech recognition method for the continuous input word using the adaptation model learned by the MAP adaptation. 제3항에 있어서,The method of claim 3, 상기 트라이폰 모델 군집화 과정은, 모든 트라이폰의 평균에 대한 초기 중심 값을 설정한 다음에, 모든 입력 벡터에 대해 각 클러스터의 중심 값을 이동시켜 두 개로 분할하는 단계와;The triphone model clustering process may include: setting an initial center value for the average of all the triphones, and then moving the center value of each cluster to all input vectors and dividing the cluster into two; 모든 입력 벡터에 대한 분할된 각 클러스터와의 유클리드 거리를 측정하여 가장 작은 거리를 갖는 클러스터의 멤버 벡터로 집단화하는 단계와;Measuring the Euclidean distance with each divided cluster for all input vectors and grouping them into a member vector of the cluster having the smallest distance; 상기 각 클러스터의 멤버 벡터를 통해 클러스터의 중심점을 갱신한 다음에, 이에 대응하는 오차의 갱신 값이 기설정된 임계값 이하인지를 판단하는 단계와;Updating a center point of the cluster through the member vectors of the clusters, and then determining whether an update value of the corresponding error is less than or equal to a preset threshold; 상기 오차의 갱신 값이 기설정된 임계값 이하이면 정해진 수의 클러스터로 분할되었는지를 판단하는 단계와;Determining whether the update value of the error is divided into a predetermined number of clusters when the update value of the error is less than or equal to a predetermined threshold value; 상기 정해진 수의 클러스터로 분할된 경우에 상기 트라이폰 모델 군집화 과정을 종료하는 단계를 포함하여 이루어진 것을 특징으로 하는 강인한 원거리 음성 인식 시 스템을 위한 음성 인식 방법.And terminating the triphone model clustering process when the cluster is divided into the predetermined number of clusters. 제4항에 있어서,The method of claim 4, wherein 상기 트라이폰 모델 군집화 과정은, 상기 오차의 갱신 값이 기설정된 임계값 이하가 아니거나, 상기 정해진 수의 클러스터로 분할되지 않은 경우에, 각 클러스터의 중심 값을 이동시켜 두 개로 분할하는 단계를 반복하여 수행하도록 하는 단계를 더 포함하여 이루어진 것을 특징으로 하는 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법.In the triphone model clustering process, when the error update value is not equal to or less than a predetermined threshold value or is not divided into a predetermined number of clusters, the step of moving the center value of each cluster and dividing it into two is repeated. A voice recognition method for a robust long-range speech recognition system, characterized in that it further comprises the step of performing. 후처리 부분 내의 언어 처리부에서 음성을 모델링하기 위한 HMM(Hidden Markov Model) 모델을 이용하여 신뢰도를 측정하고 해당 신뢰도 측정에 의해 미등록어 거절 기능을 수행하는 음성 인식 방법에 있어서,In the speech recognition method of measuring the reliability by using a Hidden Markov Model (HMM) model for modeling the speech in the language processing unit in the post-processing portion, and performing the non-registered word rejection function by the corresponding reliability measurement, 상기 HMM 모델의 상태 천이를 자신의 상태 천이와 반대로 설정하여 반음소의 특성을 지닐 수 있도록 상기 HMM 모델의 상태 천이 확률을 '1-상태 천이 확률'의 값으로 대치하는 과정과;Replacing the state transition probability of the HMM model with a value of '1-state transition probability' so that the state transition of the HMM model is set opposite to the state transition of the HMM model so as to have semitone characteristics; 세그멘테이션된 프레임의 가우시안 모델에 대한 심볼 관측 확률도 상기 반음소의 특성을 살릴 수 있도록 해당 프레임을 역으로 취하는 과정과;Taking a corresponding frame observation probability for the Gaussian model of the segmented frame in reverse order to make use of the semitone features; 상기 대치된 상태 천이 확률과 상기 역프레임을 취한 심볼 관측 확률을 이용하여 음소 대 반음소의 우도비를 계산하여 상기 신뢰도를 측정하는 과정을 포함하여 이루어진 것을 특징으로 하는 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법.And calculating the likelihood ratio of a phoneme to a half phoneme using the replaced state transition probability and the symbol observation probability of the inverse frame, and measuring the reliability. Way. 후처리 부분 내의 언어 처리부에서 언어 모델을 이용한 거절 기법을 적용하여 미등록어 거절 기능을 수행하는 음성 인식 방법에 있어서,In the speech recognition method of performing a non-registered word rejection function by applying a rejection technique using a language model in the language processing unit in the post-processing portion, 각 노드 뒤에 모든 인식 대상이 따라올 수 있도록 단어와 단어 사이의 연결 확률이 모두 동일하다고 미리 모델링을 해 두는 과정과;Pre-modeling the words and the connection probabilities between words so that all recognition objects follow each node; 단어와 단어 사이가 전부 연결되어 있는 상태로 인식 대상 문장을 선정한 후에, 해당 인식 대상 문장을 인식 대상 단어로 각각 분할하는 과정과;Selecting a sentence to be recognized in a state in which words and words are all connected, and then dividing the corresponding sentence to be recognized into words to be recognized; 상기 분할된 인식 대상 단어를 이용하여 인식 네트워크를 구성한 후에, 해당 인식 네트워크를 통해 입력 음성에 대한 인식을 수행하는 과정과;Constructing a recognition network using the divided recognition target word, and then performing recognition of an input voice through the corresponding recognition network; 상기 인식 네트워크를 통해 나온 최종 인식 단어열이 상기 인식 대상 문장과 일치하는지를 확인하는 과정과;Checking whether a final recognized word string output through the recognition network matches the recognized sentence; 상기 최종 인식 단어열이 상기 인식 대상 문장과 일치하지 않는 경우에 미등록어 거절 처리를 수행하는 과정을 포함하여 이루어진 것을 특징으로 하는 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법.And performing a non-registered word rejection process when the final recognized word string does not match the sentence to be recognized.
KR1020060092216A 2006-09-22 2006-09-22 Speech Recognition Methods for the Robust Distant-talking Speech Recognition System KR100832556B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060092216A KR100832556B1 (en) 2006-09-22 2006-09-22 Speech Recognition Methods for the Robust Distant-talking Speech Recognition System

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060092216A KR100832556B1 (en) 2006-09-22 2006-09-22 Speech Recognition Methods for the Robust Distant-talking Speech Recognition System

Publications (2)

Publication Number Publication Date
KR20080026951A KR20080026951A (en) 2008-03-26
KR100832556B1 true KR100832556B1 (en) 2008-05-26

Family

ID=39414154

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060092216A KR100832556B1 (en) 2006-09-22 2006-09-22 Speech Recognition Methods for the Robust Distant-talking Speech Recognition System

Country Status (1)

Country Link
KR (1) KR100832556B1 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101255141B1 (en) * 2011-08-11 2013-04-22 주식회사 씨에스 Real time voice recignition method for rejection ration and for reducing misconception
KR102339657B1 (en) 2014-07-29 2021-12-16 삼성전자주식회사 Electronic device and control method thereof
AU2017324937B2 (en) 2016-09-06 2019-12-19 Deepmind Technologies Limited Generating audio using neural networks
US11080591B2 (en) 2016-09-06 2021-08-03 Deepmind Technologies Limited Processing sequences using convolutional neural networks
EP3532998A1 (en) 2016-10-26 2019-09-04 Deepmind Technologies Limited Processing text sequences using neural networks
KR102340359B1 (en) 2020-04-03 2021-12-15 서울시립대학교 산학협력단 Apparatus and method for enhancing speaker feature based on deep neural network that selectively compensates for distant utterances

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040076035A (en) * 2003-02-24 2004-08-31 삼성전자주식회사 Method and apparatus for speech recognition using phone connection information
KR20060022156A (en) * 2004-09-06 2006-03-09 삼성전자주식회사 Distributed speech recognition system and method
KR20060067106A (en) * 2004-12-14 2006-06-19 한국전자통신연구원 Method for constructing db for voice synthesis and voice synthesis method using the same

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040076035A (en) * 2003-02-24 2004-08-31 삼성전자주식회사 Method and apparatus for speech recognition using phone connection information
KR20060022156A (en) * 2004-09-06 2006-03-09 삼성전자주식회사 Distributed speech recognition system and method
KR20060067106A (en) * 2004-12-14 2006-06-19 한국전자통신연구원 Method for constructing db for voice synthesis and voice synthesis method using the same

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
10-2006-22156

Also Published As

Publication number Publication date
KR20080026951A (en) 2008-03-26

Similar Documents

Publication Publication Date Title
US11189272B2 (en) Dialect phoneme adaptive training system and method
CN109410914B (en) Method for identifying Jiangxi dialect speech and dialect point
Livescu et al. Subword modeling for automatic speech recognition: Past, present, and emerging approaches
Mao et al. Automatic training set segmentation for multi-pass speech recognition
US20200013391A1 (en) Acoustic information based language modeling system and method
US11495234B2 (en) Data mining apparatus, method and system for speech recognition using the same
KR100832556B1 (en) Speech Recognition Methods for the Robust Distant-talking Speech Recognition System
Bhosale et al. End-to-End Spoken Language Understanding: Bootstrapping in Low Resource Scenarios.
Vimala et al. Isolated speech recognition system for Tamil language using statistical pattern matching and machine learning techniques
Ons et al. A self learning vocal interface for speech-impaired users
Justo et al. Improving dialogue systems in a home automation environment
KR100776729B1 (en) Speaker-independent variable-word keyword spotting system including garbage modeling unit using decision tree-based state clustering and method thereof
JPH064097A (en) Speaker recognizing method
JP3589044B2 (en) Speaker adaptation device
Zhang Joint training methods for tandem and hybrid speech recognition systems using deep neural networks
Barman et al. State of the art review of speech recognition using genetic algorithm
KR100327486B1 (en) Sound recognition apparatus and method applying weight by state
Nguyen et al. Improving acoustic model for vietnamese large vocabulary continuous speech recognition system using deep bottleneck features
Li Speech recognition of mandarin monosyllables
Krut et al. Service-oriented architectures and software product lines-putting both together
Dumitru et al. Vowel, Digit and Continuous Speech Recognition Based on Statistical, Neural and Hybrid Modelling by Using ASRS_RL
Chang et al. A back-off discriminative acoustic model for automatic speech recognition
KR100776730B1 (en) Speaker-independent variable-word keyword spotting system including garbage modeling unit using gaussian mixture model and method thereof
Yuk Robust speech recognition using neural networks and hidden Markov models
Re et al. Power System Speech Recognition Method Based on Natural Language Processing

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130531

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20140520

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20150227

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20160523

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20170918

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20190520

Year of fee payment: 12