KR101424496B1 - Apparatus for learning Acoustic Model and computer recordable medium storing the method thereof - Google Patents

Apparatus for learning Acoustic Model and computer recordable medium storing the method thereof Download PDF

Info

Publication number
KR101424496B1
KR101424496B1 KR1020130077676A KR20130077676A KR101424496B1 KR 101424496 B1 KR101424496 B1 KR 101424496B1 KR 1020130077676 A KR1020130077676 A KR 1020130077676A KR 20130077676 A KR20130077676 A KR 20130077676A KR 101424496 B1 KR101424496 B1 KR 101424496B1
Authority
KR
South Korea
Prior art keywords
phoneme
parameter distribution
recognition result
model parameter
phonemes
Prior art date
Application number
KR1020130077676A
Other languages
Korean (ko)
Inventor
곽철
Original Assignee
에스케이텔레콤 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이텔레콤 주식회사 filed Critical 에스케이텔레콤 주식회사
Priority to KR1020130077676A priority Critical patent/KR101424496B1/en
Application granted granted Critical
Publication of KR101424496B1 publication Critical patent/KR101424496B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Abstract

The present invention relates to an apparatus for learning an acoustic model and a computer recordable medium of storing a method thereof. The method includes a step of allowing phonemes to be divided into a correct phoneme of correct recognition result and an incorrect phoneme of incorrect recognition result according to a voice recognition result with regard to the phonemes, and a step of updating the phoneme model parameter distribution of the incorrect phoneme to minimize mutual information by applying the log likelihood of the incorrect phoneme as a weight value.

Description

음향 모델 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체{Apparatus for learning Acoustic Model and computer recordable medium storing the method thereof}BACKGROUND OF THE INVENTION 1. Field of the Invention [0001] The present invention relates to an apparatus for learning acoustic models and a computer-

본 발명은 음성 인식 기술에 관한 것으로, 더욱 상세하게는, 음소 단위 모델 파라미터 분포의 상호 정보량을 최소화할 수 있는 음향 모델 학습을 위한 장치 및 이러한 학습 방법이 기록된 컴퓨터 판독 가능한 기록매체에 관한 것이다. More particularly, the present invention relates to an apparatus for learning acoustic models capable of minimizing mutual information amount of phoneme-unit model parameter distribution and a computer-readable recording medium on which such a learning method is recorded.

음성 인식은 자동적 수단에 의하여 음성으로부터 언어적 의미 내용을 식별하는 것. 구체적으로 음성파형을 입력하여 단어나 단어열을 식별하고 의미를 추출하는 처리 과정이다. 이러한 음성 인식은 크게 음성 분석, 음소 인식, 단어 인식, 문장 해석, 의미 추출의 5가지로 분류될 수 있다. 음성 인식은 좁은 의미로 음성 분석에서 단어 인식까지를 말하는 경우가 있다. Speech recognition is the identification of linguistic meaning from speech by automatic means. Specifically, it is a process of inputting a voice waveform to identify a word or a word sequence and to extract meaning. Such speech recognition can be largely classified into five types of speech analysis, phoneme recognition, word recognition, sentence analysis, and semantic extraction. Speech recognition is often used to describe speech analysis to word recognition in a narrow sense.

인간-기계 인터페이스 개선의 하나로 음성으로 정보를 입력하는 음성 인식과 음성으로 정보를 출력하는 음성 합성 기술의 연구 개발이 오랫동안 진행되어 왔다. 대형 장치를 필요로 하는 음성 인식 장치와 음성 합성 장치를 대규모 집적 회로(LSI, large scale integrated circuit)의 발달에 따라 가로세로 수 mm 크기의 집적 회로 위에 실현할 수 있게 됨으로써 음성 입출력 장치가 실용화되었다. As one of the improvement of the human-machine interface, research and development of voice recognition technology for inputting information by voice and voice synthesis technology for outputting information by voice have been conducted for a long time. A speech recognition apparatus and a speech synthesizer that require a large apparatus can be realized on an integrated circuit of a size of several millimeters and a millimeter according to the development of a large scale integrated circuit (LSI), so that a speech input / output apparatus has been practically used.

현재 전화에 의한 은행 잔액 조회, 증권 시세 조회, 통신 판매의 신청, 신용 카드 조회, 호텔이나 항공기 좌석 예약 등에 사용된다. 그러나 이들 서비스는 제한된 수의 단어를 하나하나 떼어서 발음하는 음성을 인식하는 단어 음성 인식 장치를 사용한다. 음성 인식의 궁극적인 목표는 자연스러운 발성에 의한 음성을 인식하여 실행 명령어로서 받아들이거나 자료로서 문서에 입력하는 완전한 음성 혹은 텍스트 변환의 실현이다. 이는 단지 단어를 인식할 뿐 아니라 구문 정보, 의미 정보, 작업에 관련된 정보와 지식 등을 이용하여 연속 음성 또는 문장의 의미 내용을 정확하게 추출하는 음성 이해 시스템을 개발하는 것이다. 이러한 시스템의 연구 개발이 활발하게 진행되고 있다. Currently, it is used for bank balance inquiry by phone, stock quotation inquiry, application for mail order, credit card inquiry, hotel or airplane seat reservation. These services, however, use a word speech recognition device that recognizes a speech which is pronounced by separating a limited number of words one by one. The ultimate goal of speech recognition is the realization of complete speech or text conversion that recognizes speech by natural speech and accepts it as an action command or inputs it as a document. This is to develop a speech understanding system that not only recognizes words but also extracts the meaning of consecutive speech or sentence accurately using syntax information, semantic information, information and knowledge related to work. Research and development of such a system is actively proceeding.

한국공개특허 제2012-0045582호, 2012.05.09 공개 (명칭: 음향 모델 생성 장치 및 방법)Korean Published Patent Application No. 2012-0045582, May 05, 2012 (Name: Acoustic model generation apparatus and method)

본 발명의 목적은 음성 인식 시스템에서 오류 인식 결과를 가지는 음소에 대한 음소 모델 파라미터 분포의 상호 정보량을 최소화할 수 있는 방법 및 장치를 제공함에 있다. SUMMARY OF THE INVENTION It is an object of the present invention to provide a method and apparatus for minimizing the mutual information amount of a phoneme model parameter distribution for a phoneme having an error recognition result in a speech recognition system.

상술한 바와 같은 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 음향 모델 학습을 위한 장치는 복수의 음소에 대한 음성 인식 결과로부터 상기 복수의 음소를 정답 인식 결과인 정답 음소와 및 오류 인식 결과인 오류 음소로 구분하는 인식 결과 분류 모듈과, 상기 오류 음소의 로그우도를 가중치로 적용하여, 상호 정보량이 최소화되도록 오류 음소의 음소 모델 파라미터 분포를 업데이트하는 오류 음소 처리 모듈을 포함한다. According to another aspect of the present invention, there is provided an apparatus for learning acoustic models, the apparatus for learning acoustic models includes a speech recognition unit for recognizing a plurality of phonemes corresponding to a plurality of phonemes, And an error phonemic processing module for updating the phoneme model parameter distribution of the error phoneme so that the mutual information amount is minimized by applying the log likelihood of the false phoneme as a weight value.

상술한 바와 같은 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 컴퓨터 판독 가능한 기록매체는, 복수의 음소에 대한 음성 인식 결과로부터 상기 복수의 음소를 정답 인식 결과인 정답 음소와 및 오류 인식 결과인 오류 음소로 구분하는 단계와, 상기 오류 음소의 로그우도를 가중치로 적용하여, 상호 정보량이 최소화되도록 오류 음소의 음소 모델 파라미터 분포를 업데이트하는 단계를 포함하는 음향 모델 학습을 위한 방법이 기록된다. According to another aspect of the present invention, there is provided a computer-readable recording medium having a plurality of phonemes corresponding to a plurality of phonemes, And updating the phoneme model parameter distribution of the erroneous phoneme so that the mutual information amount is minimized by applying the log likelihood of the erroneous phoneme as a weight value.

상술한 바와 같이 본 발명은 음향 모델의 음소 모델 파라미터 분포를 업데이트할 때, 오류 인식 결과로 구분된 음소의 로그우도를 가중치로 적용하여, 오류 인식 결과도 상호 정보량을 최소화하도록 반영함으로써, 변별 학습(discriminative training)에서 효율적으로 상호 정보량을 최소화시킬 수 있다. As described above, according to the present invention, when the distribution of phoneme model parameters of an acoustic model is updated, the log likelihood of a phoneme classified as a result of error recognition is applied as a weight, and the result of error recognition is also reflected to minimize mutual information, discriminative training can effectively minimize mutual information.

본 발명에 관한 이해를 돕기 위해 상세한 설명의 일부로 포함되는, 첨부 도면은 본 발명에 대한 실시예를 제공하고, 상세한 설명과 함께 본 발명의 기술적 특징을 설명한다.
도 1은 본 발명의 실시예에 따른 학습 방법의 개념을 설명하기 위한 개념도이다.
도 2는 본 발명의 실시예에 따른 음성 인식 시스템을 설명하기 위한 도면이다.
도 3은 본 발명의 실시예에 따른 음향 모델 학습부의 내부 구성을 설명하기 위한 도면이다.
도 4는 본 발명의 실시예에 따른 음향 모델 학습 방법을 설명하기 위한 흐름도이다.
도 5는 본 발명의 실시예에 따른 음향 모델 학습부의 음향 모델 학습 방법을 설명하기 위한 흐름도이다.
The accompanying drawings, which are included to provide a further understanding of the invention and are incorporated in and constitute a part of the specification, illustrate embodiments of the invention and, together with the description, serve to explain the technical features of the invention.
1 is a conceptual diagram for explaining a concept of a learning method according to an embodiment of the present invention.
2 is a diagram for explaining a speech recognition system according to an embodiment of the present invention.
3 is a diagram for explaining an internal configuration of an acoustic model learning unit according to an embodiment of the present invention.
4 is a flowchart illustrating an acoustic model learning method according to an embodiment of the present invention.
5 is a flowchart illustrating an acoustic model learning method of an acoustic model learning unit according to an embodiment of the present invention.

이하 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있는 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예에 대한 동작 원리를 상세하게 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 이는 불필요한 설명을 생략함으로써 본 발명의 핵심을 흐리지 않고 더욱 명확히 전달하기 위한 것이다. DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. However, in the following description of the operation principle of the preferred embodiment of the present invention, a detailed description of known functions and configurations incorporated herein will be omitted when it may make the gist of the present invention unnecessarily obscure. It is intended to omit unnecessary explanations so as to more clearly convey the essence of the present invention.

또한, 어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 또한, 본 명세서에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 또한, 본 명세서에서 기술되는 "포함 한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. Also, when an element is referred to as being "connected" or "connected" to another element, it may be directly connected or connected to the other element, but other elements may be present in between . Also, the terminology used herein is for the purpose of describing particular embodiments only and is not intended to be limiting of the invention. The singular expressions include plural expressions unless the context clearly dictates otherwise. It is also to be understood that the terms such as " comprising "or" having ", as used herein, are intended to specify the presence of stated features, integers, It should be understood that the foregoing does not preclude the presence or addition of other features, numbers, steps, operations, elements, parts, or combinations thereof.

그리고, 제1, 제2 등의 용어는 다양한 구성요소들을 설명하기 위해 사용하는 것으로, 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용될 뿐, 상기 구성요소들을 한정하기 위해 사용되지 않는다. 이때, 도면 전체에 걸쳐 유사한 기능 및 작용을 하는 부분에 대해서는 동일한 도면 부호를 사용하며, 이에 대한 중복되는 설명은 생략하기로 한다. The terms first, second, etc. are used to describe various components, and are used only for the purpose of distinguishing one component from another component, and are not used to define the components. Here, the same reference numerals are used for similar functions and functions throughout the drawings, and a duplicate description thereof will be omitted.

도 1a 내지 도 1d는 본 발명의 실시예에 따른 학습 방법의 개념을 설명하기 위한 개념도이다. FIGS. 1A to 1D are conceptual diagrams illustrating a concept of a learning method according to an embodiment of the present invention.

도 1a 내지 도 1d의 설명에 앞서 본 발명의 실시예에 따른 음성 인식 방법을 개략적으로 살펴보면, 다음과 같다. 음성 인식은 입력된 음성에 대한 음향이 분석되고, 그 음성의 특징량을 나타내는 소정 차원의 특징 벡터의 추출이 이루어진다. 그 후, 특징 벡터와 음향 모델과의 매칭 처리가 이루어진다. 본 발명의 실시예에 따르면, 그 매칭 처리는 음소 단위로 이루어진다. 그 매칭 처리 결과, 특징 벡터에 매칭되는 음향 모델의 음소가 음성 인식 결과(인식 결과)가 된다. 매칭 처리에서는 음향 모델을 구성하는 확률 분포(음소 모델 파라미터 분포)를 이용하여, 음성 인식 결과의 복수의 후보로, 해당 음향 모델에 대한 특징 벡터가 관측되는 로그우도가 계산된다. 예컨대, 입력된 단어(열)이 3개의 음소 A, B 및 C로 이루어진 경우, 다음의 <표 1>과 같은 결과가 출력될 수 있다. Prior to the description of FIGS. 1A to 1D, a speech recognition method according to an embodiment of the present invention will be described in brief as follows. In speech recognition, the sound of the input speech is analyzed, and a feature vector of a predetermined dimension indicating the feature quantity of the speech is extracted. Thereafter, matching processing between the feature vector and the acoustic model is performed. According to the embodiment of the present invention, the matching process is performed in units of phonemes. As a result of the matching process, the phonemes of the acoustic models matched with the feature vectors become speech recognition results (recognition results). In the matching process, a log likelihood in which a feature vector for the acoustic model is observed with a plurality of candidates of the speech recognition result is calculated using a probability distribution (phoneme model parameter distribution) constituting the acoustic model. For example, when the inputted word (column) consists of three phonemes A, B, and C, the results shown in the following Table 1 can be output.

음소 A 인식 결과
(로그우도)
Phoneme A recognition result
(Log-likelihood)
음소 B 인식 결과
(로그우도)
Phoneme B recognition result
(Log-likelihood)
음소 C 인식 결과
(로그우도)
Phoneme C recognition result
(Log-likelihood)
후보 1Candidate 1 E(0.1)E (0.1) V(0.2)V (0.2) E(0.1)E (0.1) 후보 2Candidate 2 A(1.2)A (1.2) V(0.2)V (0.2) C(1.4)C (1.4) 후보 3Candidate 3 A(1.2)A (1.2) B(2.2)B (2.2) C(1.4)C (1.4)

<표 1>에서, 로그우도는 인식된 음소가 음향 모델에서 해당 음소일 확률이다. 다른 말로, 로그우도는 음향 모델의 음소 모델 파라미터 분포와 입력된 음성의 음소의 유사도(확률)이다. 각 후보의 인식 결과가 산출되면, 그 로그우도에 기초하여 복수의 후보 중에서, 최종적인 음성 인식 결과가 결정된다. <표 1>에서는 후보 3이 선택될 것이다. 즉, 복수의 후보 중 로그우도가 가장 높은 후보가 입력된 음성에 가장 가까운 것으로 선택되고, 그 후보를 구성하는 음향 모델에 대응하는 단어열이 음성 인식 결과로서 출력될 것이다. In Table 1, the log likelihood is the probability that the recognized phoneme is the corresponding phoneme in the acoustic model. In other words, the log likelihood is the similarity (probability) between the phoneme model parameter distribution of the acoustic model and the phonemes of the input speech. When the recognition result of each candidate is calculated, the final speech recognition result is determined among a plurality of candidates based on the log likelihood. Candidate 3 will be selected in <Table 1>. That is, a candidate having the highest log-likelihood among a plurality of candidates is selected as the one closest to the input voice, and a word string corresponding to the acoustic model constituting the candidate will be output as a voice recognition result.

도 1a를 참조하면, <표 1>과 같이 음향 모델에 음소 A, B, C가 존재한다고 가정한다. 도면 부호 10, 20 및 30은 음소 A, B 및 C의 음소 모델 파라미터 분포를 도식화한 것이다. 음소 모델 파라미터 분포는 해당 음소의 확률 분포가 될 수 있다. 여기서, 각 음소의 음소 모델 파라미터 분포가 중첩된 부분인 도면 부호 40은 상호 정보량을 나타낸다. Referring to FIG. 1A, it is assumed that phonemes A, B, and C exist in an acoustic model as shown in Table 1. Reference numerals 10, 20, and 30 denote phoneme model parameter distributions of phonemes A, B, and C. FIG. The phoneme model parameter distribution can be the probability distribution of the corresponding phoneme. Here, the numeral 40, which is the overlapping part of the phoneme model parameter distributions of the respective phonemes, represents the mutual information amount.

앞서 설명된 음성 인식 방법을 기반으로 하는 음성 인식 방법에서, 상호 정보량이 많은 경우, 입력된 음성의 음소들을 명확히 구분하는 인식정확도를 저하시키는 문제가 발생한다. 따라서 본 발명의 실시예는 이러한 "상호 정보량을 최소화"하도록 음소 모델 파라미터 분포를 업데이트한다. In the speech recognition method based on the above-described speech recognition method, when the amount of mutual information is large, there arises a problem of lowering the recognition accuracy of clearly distinguishing the phonemes of the input speech. Thus, embodiments of the present invention update the phoneme model parameter distribution to "minimize the amount of mutual information ".

본 발명의 실시예에 따른 "상호 정보량 최소화"의 의미에 대해 설명하면 다음과 같다. 도 1b를 참조하면, 2 개의 음소, 즉, 음소 M 및 N에 대한 음소 모델 파라미터 분포가 도시되었다. The meaning of "minimization of mutual information amount" according to the embodiment of the present invention will be described as follows. Referring to FIG. 1B, a phoneme model parameter distribution for two phonemes, that is, phonemes M and N, is shown.

도면 부호 50 및 60은 각각 현재 음향 모델의 음소 M 및 N에 대한 음소 모델 파라미터 분포이며, 도면 부호 70 및 80은 각각 음소 M 및 N에 대한 상호 정보량이 최소화된 이상적인 음소 모델 파라미터 분포라고 가정한다. Reference numerals 50 and 60 denote phoneme model parameter distributions for the phonemes M and N of the current acoustic model, respectively, and reference numerals 70 and 80 respectively represent ideal phoneme model parameter distributions with mutual information amounts minimized for phonemes M and N, respectively.

도면 부호 90은 현재 음향 모델의 음소 M 및 N에 대한 음소 모델 파라미터 분포(50, 60) 간의 상호 정보량이다. 이러한 상호 정보량(90)으로 인하여 음소 M이 입력되었음에도 불구하고, 음소 N으로 인식될 수 있다. 따라서 이러한 상호 정보량을 최소화시켜야 한다. 상호 정보량(90)을 최소화시키기 위해서는 현재 음향 모델의 음소 M의 음소 모델 파라미터 분포(50)가 음소 M의 이상적인 음소 모델 파라미터 분포(70)로 이동되어야 한다. 혹은, 현재 음향 모델의 음소 N의 음소 모델 파라미터 분포(60)가 음소 N의 이상적인 음소 모델 파라미터 분포(80)로 이동되어야 한다. Reference numeral 90 denotes a mutual information amount between the phoneme model parameter distributions 50 and 60 for the phonemes M and N of the current acoustic model. Even though the phoneme M is inputted due to the mutual information amount 90, it can be recognized as the phoneme N. [ Therefore, the amount of mutual information should be minimized. In order to minimize the mutual information amount 90, the phoneme model parameter distribution 50 of the phoneme M of the current acoustic model must be shifted to the ideal phoneme model parameter distribution 70 of the phoneme M. Alternatively, the phoneme model parameter distribution 60 of the phoneme N of the current acoustic model should be shifted to the ideal phoneme model parameter distribution 80 of the phoneme N.

앞서 설명된 바와 같이, 음성 인식 결과는 입력된 음성 신호의 음소가 음향 모델에 저장된 음소와 동일한 음소일 확률(유사도)로 출력된다. 훈련 혹은 학습을 위한 음성은 알려져 있는 음성을 이용한다. 따라서 각 음소에 대한 인식 결과가 정답인지 혹은 오류인지 여부를 알 수 있다. 즉, 입력된 음성 신호의 음성 인식 결과 출력된 음소가 정답인 경우 정답 인식 결과라고 하고, 음성 인식 결과 출력된 음소가 오류인 경우 오류 인식 결과라고 한다. As described above, the speech recognition result is output as a probability (similarity) that the phoneme of the input speech signal is the same as the phoneme stored in the acoustic model. The voices for training or learning use known voices. Therefore, it is possible to know whether the recognition result of each phoneme is the correct answer or the error. That is, when the phonemes of the input speech signals are correct answers, they are called correct answer recognition results, and when the phonemes output speech recognition results are errors, they are called error recognition results.

예컨대, 음소 M이 입력되었을 때, 음소 M으로 인식한 경우, 정답 인식 결과라고 하며, 음소 M을 정답 음소라고 칭한다. 또한, 음소 M이 입력되었을 때, 음소 N으로 인식한 경우, 오류 인식 결과라고 하며, 음소 N을 오류 음소라고 칭한다. For example, when a phoneme M is input and recognized as a phoneme M, it is called a correct answer recognition result, and the phoneme M is called a correct answer phoneme. When a phoneme M is input and recognized as a phoneme N, the result is referred to as an error recognition result, and the phoneme N is referred to as an erroneous phoneme.

도 1c를 참조하면, 음소 M에 대한 음성 인식 결과는 정답 인식 결과가 출력되었다고 가정한다. 따라서 음성 인식 결과가 정답인 음소 M의 경우, 음성 인식 결과를 음향 모델의 음소 모델 파라미터 분포에 반영시켜 업데이트하면, 현재 음향 모델의 음소 M에 대한 음소 모델 파라미터 분포(50)는 음소 M에 대한 이상적인 음소 모델 파라미터 분포(70)로 이동할 것이다. 이에 따라, 음소 M의 음소 N에 대한 상호 정보량(90)이 줄어든다. 즉, 상호 정보량(90)이 최소화된다. 도 1c와 같은 경우에는 상호 정보량이 전혀 없는 이상적인 형태로 최소화되었다.Referring to FIG. 1C, it is assumed that the speech recognition result for the phoneme M is the correct recognition result. Therefore, when the speech recognition result is correct for the phonemes M, the phoneme model parameter distribution 50 for the phoneme M of the current acoustic model is updated to reflect the phoneme model parameter distribution of the acoustic model, Phoneme model parameter distribution (70). Thus, the mutual information amount 90 for the phoneme N of the phoneme M is reduced. That is, mutual information amount 90 is minimized. In the case of FIG. 1C, the amount of mutual information is minimized to an ideal form at all.

한편, 도 1d를 참조하면, 음소 M에 대한 음성 인식 결과가 오류 인식 결과가 출력되었다고 가정한다. 예컨대, 음소 M에 대한 음성 인식 결과가 N으로 출력되었다고 가정한다. 이는 도면 부호 90이 나타내는 상호 정보량에 의한 오류 인식 결과이다. 이러한 경우, 종래에는 오류 인식 결과는 무시되었기 때문에 음향 모델의 업데이트는 없었다. 하지만, 본 발명의 실시예에 따르면, 음성 인식 결과가 오류인 음소 N의 로그우도를 산출하고, 음성 인식 결과를 음향 모델의 음소 모델 파라미터 분포에 반영시켜 업데이트한다. 이에 따라, 현재 음향 모델의 음소 N에 대한 음소 모델 파라미터 분포(60)는 음소 N에 대한 이상적인 음소 모델 파라미터 분포(80)로 이동할 것이다. 이는 상호 정보량에 의해 오류가 나타나지 않도록 오류 인식 결과로 나타난 음소 N의 음소 모델 파라미터 분포(60)를 음소 M과의 상호 정보량이 줄어들도록 이동시키는 것이다. 이에 따라, 음소 N의 음소 M에 대한 상호 정보량(90)이 도면 부호 93에 의해 지시되는 바와 같이 줄어든다. 즉, 상호 정보량이 최소화된다. 1D, it is assumed that the speech recognition result for the phoneme M is an error recognition result. For example, it is assumed that the speech recognition result for the phoneme M is outputted as N. This is a result of error recognition based on the mutual information amount indicated by the reference numeral 90. In this case, there has been no update of the acoustic model because the error recognition result was ignored conventionally. However, according to the embodiment of the present invention, the log likelihood of the phoneme N in which the speech recognition result is an error is calculated, and the speech recognition result is reflected in the phoneme model parameter distribution of the acoustic model and updated. Accordingly, the phoneme model parameter distribution 60 for the phoneme N of the current acoustic model will shift to the ideal phoneme model parameter distribution 80 for the phoneme N. [ This is to move the phoneme model parameter distribution 60 of the phoneme N as a result of the error recognition so that the mutual information amount with the phoneme M is reduced so that an error does not appear due to the mutual information amount. As a result, the mutual information amount 90 for the phoneme M of the phoneme N is reduced as indicated by reference numeral 93. That is, the amount of mutual information is minimized.

이때, 음소 N의 음소 모델 파라미터 분포(60)는 로그우도의 크기에 따라 그 이동의 정도를 달리한다. 다른 말로, 음소 N의 음소 모델 파라미터 분포(60)가 이동하는 정도는 로그우도의 값에 따른 가중치에 따른다. 상술한 바와 같이, 본 발명의 실시예에 따른 상호 정보량 최소화는 서로 다른 음소의 음소 모델 파라미터 분포에서 중첩되는 확률 분포 부분(90)을 줄이는 것을 의미한다. At this time, the phoneme model parameter distribution 60 of the phoneme N varies depending on the magnitude of the log likelihood. In other words, the degree to which phoneme model parameter distribution 60 of phoneme N moves depends on the weight according to the value of the log-likelihood. As described above, minimizing the mutual information amount according to the embodiment of the present invention means reducing the probability distribution part 90 overlapping in the phoneme model parameter distribution of different phonemes.

상술한 바와 같은 방법에 따라, 음향 모델에서 음소 M과 음소 N의 상호 정보량(90)을 최소화시킬 수 있다. 특히, 본 발명에 따르면, 정답(correct) 인식 결과의 음소들에 대한 모델 파라미터 분포를 업데이트하고, 추가로, 오류(incorrect) 인식 결과의 음소들에 대한 모델 파라미터 분포를 업데이트함으로써, 변별 학습의 성능을 향상시킬 수 있다. According to the above-described method, the mutual information amount 90 between the phoneme M and the phoneme N in the acoustic model can be minimized. In particular, according to the present invention, by updating the distribution of model parameters for phonemes of correct recognition results and further updating the distribution of model parameters for the phonemes of incorrect recognition results, Can be improved.

도 2는 본 발명의 실시예에 따른 음향 모델 학습을 위한 장치를 포함하는 음성 인식 시스템을 설명하기 위한 도면이다. 2 is a diagram for explaining a speech recognition system including an apparatus for learning acoustic models according to an embodiment of the present invention.

도 2를 참조하면, 음성 인식 시스템은 특징 추출부(100), 탐색부(200), 음향 모델 데이터베이스(300), 발음 사전 데이터베이스(400), 언어 모델 데이터베이스(500), 음성 데이터베이스(600), 음향 모델 학습부(700), 텍스트 데이터베이스(800) 및 언어 모델 학습부(900)를 포함한다. 2, the speech recognition system includes a feature extraction unit 100, a search unit 200, an acoustic model database 300, a pronunciation dictionary database 400, a language model database 500, a voice database 600, An acoustic model learning unit 700, a text database 800, and a language model learning unit 900.

특징 추출부(100)는 입력된 음성 신호로부터 음성 신호의 특징을 추출하기 위한 것이다. 여기서, 음성 신호는 음성 입력 장치나 파일을 통해 입력될 수 있다. 특징 추출부(100)는 입력된 음성 신호에서 잡음을 제거하거나 음성 인식 성능을 높이기 위한 신호 처리를 수행 한다. 그런 다음, 특징 추출부(100)는 신호 처리된 음성 구간의 음성 신호에서 특징 벡터를 추출하여, 탐색부(200)에 제공한다. The feature extraction unit 100 extracts a feature of a speech signal from the input speech signal. Here, the voice signal can be input through a voice input device or a file. The feature extraction unit 100 performs signal processing for removing noise from the input speech signal or for enhancing speech recognition performance. Then, the feature extraction unit 100 extracts a feature vector from the speech signal of the signal-processed speech interval, and provides the extracted feature vector to the search unit 200.

탐색부(200)는 음향 모델, 언어 모델과 발음 사전을 통해 탐색 공간을 형성하고, 형성된 탐색공간과 입력된 음성으로부터 특징 추출부(100)가 구한 특징 벡터를 사용하여 음성 인식을 수행한다. The search unit 200 forms a search space through an acoustic model, a language model, and a pronunciation dictionary, and performs speech recognition using the feature vectors obtained by the feature extraction unit 100 from the formed search space and the input speech.

본 발명의 실시예에서 탐색부(200)는 미리 학습된 모델에 대한 유사도 값을 인식 결과로 출력할 수 있다. 탐색부(200)는 음성 인식을 통해 1-best 인식 결과와 격자(lattice) 형태의 인식결과를 얻을 수 있으며, 격자(lattice) 형태의 인식결과로부터 N-best의 인식 결과를 얻을 수 있다. 이를 위하여 탐색부(200)는 비터비(Viterbi) 알고리즘 또는 DTW(Dynamic Time Warping)와 같은 패턴 정합 알고리즘을 이용할 수 있다. 예컨대, 탐색 공간은 명령어 인식 및 숫자음 인식과 같은 적은 어휘의 인식을 위한 FSN(Finite state network) 형태의 탐색 공간과 대어휘 인식과 빠른 인식을 위한 트리(tree) 형태의 탐색 공간을 포함할 수 있다. In the embodiment of the present invention, the search unit 200 can output the similarity value for the model that has been learned in advance as the recognition result. The search unit 200 can obtain a 1-best recognition result and a lattice-type recognition result through speech recognition, and can obtain a recognition result of N-best from a lattice-type recognition result. For this, the search unit 200 may use a pattern matching algorithm such as a Viterbi algorithm or a Dynamic Time Warping (DTW). For example, the search space may include a search space in the form of a finite state network (FSN) for recognizing small vocabularies such as command recognition and digit recognition, and a tree-like search space for large vocabulary recognition and quick recognition have.

음향 모델 데이터베이스(300)는 음향 모델을 저장한다. 여기서, 음향 모델은 음향 모델은 시간적으로 변화하는 음성신호의 특징을 모델링한다. 음향 모델링 방법은 HMM, Continuous HMM, 신경회로망(NN) 등을 예시할 수 있다. 본 발명의 실시예에 따른 음향 모델 데이터베이스는 각 음소 별로 음소 모델 파라미터 분포를 저장할 수 있다. The acoustic model database 300 stores an acoustic model. Here, the acoustic model models the characteristics of the speech signal that varies with time. The acoustic modeling method can be exemplified by HMM, Continuous HMM, and Neural Network (NN). The acoustic model database according to the embodiment of the present invention can store the phoneme model parameter distribution for each phoneme.

발음 사전 데이터베이스(400)는 발음 사전을 저장한다. 발음 사전은 음성에 대한 발음을 저장한다. 발음 사전은 음향 모델과 연결하여 특정 음성에 대한 다중의 발음들을 저장한다. The pronunciation dictionary database (400) stores a pronunciation dictionary. The pronunciation dictionary stores the pronunciation of the voice. The pronunciation dictionary stores multiple pronunciations for a specific voice in conjunction with an acoustic model.

언어 모델 데이터베이스(500) 언어 모델은 단어간의 문법을 고려하여 인식 후보에 가중치를 줌으로써 문법에 맞는 문장이 더 높은 점수를 얻도록 함으로써 인식률을 향상시킨다. 최적의 인식 단어열을 찾기 위한 탐색에서는 비교하여야 할 후보의 개수를 줄이는 역할도 하게 된다. 인식되는 대상 어휘의 수와 인식 속도, 인식 성능을 고려하여 언어 모델을 선택할 수 있다. Language Model Database (500) The language model improves the recognition rate by weighting the recognition candidates by taking into account the grammaticality of the words, thereby allowing the grammatical sentence to have a higher score. The search for finding the optimal recognition word sequence also reduces the number of candidates to be compared. The language model can be selected in consideration of the number of recognition target vocabularies, recognition speed, and recognition performance.

상술한 음향 모델 데이터베이스(300)의 음향 모델, 발음 사전 데이터베이스(400)의 발음 사전, 및 언어 모델 데이터베이스(500)의 언어 모델을 이용하여 음성 인식에 필요한 탐색 공간을 형성한다. A search space necessary for speech recognition is formed by using the acoustic model of the acoustic model database 300, the pronunciation dictionary of the pronunciation dictionary database 400, and the language model of the language model database 500 described above.

음성 데이터베이스(600)는 학습을 위한 음성 및 그 음성에 대한 텍스트(전사 데이터)를 저장할 수 있다. 이때, 그 음성에 대한 텍스트는 생략될 수 있다. 음향 모델 학습부(700)는 음성 데이터베이스(600)에 저장된 음성을 통해 음성 인식 결과의 음소들이 정답인지 혹은 오류인지 여부를 확인할 수 있다. The voice database 600 can store voice for learning and text (transfer data) for the voice. At this time, the text for the voice may be omitted. The acoustic model learning unit 700 can confirm whether the phonemes of the speech recognition result are correct or error through the speech stored in the speech database 600. [

음향 모델 학습부(700)는 탐색부(200)로부터 음성 인식 결과를 수신하여, 음성 데이터베이스(600)에 저장된 음성과 비교하여 음성 인식 결과의 음소들이 정답인 인식 결과를 가지는지 혹은 오류인 인식 결과를 가지는지 여부를 판단할 수 있다. 예컨대, 음소 M이 입력되었을 때, M으로 인식한 경우, 그 음소 M을 정답 인식 결과로 판단하며, 정답 음소라고 한다. 그리고 음소 M이 입력되었을 때, N으로 인식한 경우, 그 음소 N을 오류 인식 결과로 판단하며, 오류 음소라고 한다. 오류 인식 결과인 경우, 도 1d에 도시된 바와 같이, 음향 모델 학습부(700)는 오류 음소의 로그우도를 가중치로 적용하여, 음향 모델 데이터베이스(300)의 오류 음소에 대한 음소 모델 파라미터 분포를 업데이트하여 상호 정보량을 최소화한다. 이때, 로그우도는 최대 로그우도(ML, maximum likelihood) 추정 방법을 이용하여 산출된다. 반면, 정답 인식 결과의 음소의 경우, 도 1c에 도시된 바와 같이, 음향 모델 학습부(700)는 음향 모델 데이터베이스(300)의 정답 음소에 대한 음소 모델 파라미터 분포를 업데이트하여, 정답 음소의 음소 모델 파라미터 분포의 상호 정보량을 최소화한다. 이때, 상기 정답 음소에 대한 음향 모델의 음소 모델 파라미터 분포를 업데이트하는 것은 최대 상호정보량(MMI, maximum mutual information) 추정 방법을 통해 수행할 수 있다. The acoustic model learning unit 700 receives the speech recognition result from the search unit 200 and compares the speech recognition result with the speech stored in the speech database 600 to determine whether the phonemes of the speech recognition result have correct answers or recognition results Or not. For example, when the phoneme M is input and recognized as M, the phoneme M is determined as the correct answer recognition result, and it is called a correct answer phoneme. When the phoneme M is input and recognized as N, the phoneme N is determined to be an error recognition result, which is called an error phoneme. 1D, the acoustic model learning unit 700 applies the log likelihood of the erroneous phoneme as a weight to update the phoneme model parameter distribution of the erroneous phoneme in the acoustic model database 300 Thereby minimizing the mutual information amount. At this time, the log likelihood is calculated using the maximum likelihood (ML) estimation method. 1C, the acoustic model learning unit 700 updates the phoneme model parameter distribution corresponding to the correct answer phoneme in the acoustic model database 300 to generate a phoneme model of the correct answer phoneme Minimize the mutual information amount of the parameter distribution. At this time, updating the phoneme model parameter distribution of the acoustic model with respect to the correct phoneme can be performed by a maximum mutual information (MMI) estimation method.

텍스트 데이터베이스(800)는 언어 모델을 생성하기 위한 텍스트들을 저장한다. The text database 800 stores text for creating a language model.

언어 모델 학습부(900)는 텍스트 데이터베이스(800)에 저장된 텍스트들을 통해 언어 모델을 생성 혹은 업데이트한다. The language model learning unit 900 generates or updates the language model through the texts stored in the text database 800.

도 3은 본 발명의 실시예에 따른 음향 모델 학습부의 내부 구성을 설명하기 위한 도면이다. 3 is a diagram for explaining an internal configuration of an acoustic model learning unit according to an embodiment of the present invention.

도 3을 참조하면, 음향 모델 학습부(700)는 인식 결과 분류 모듈(710), 오류 음소 처리 모듈(720) 및 정답 음소 처리 모듈(730)을 포함한다. Referring to FIG. 3, the acoustic model learning unit 700 includes a recognition result classification module 710, an error phoneme processing module 720, and a correct answer phoneme processing module 730.

인식 결과 분류 모듈(710)은 탐색부(200)로부터 음성 인식 결과를 수신하면, 음성 데이터베이스(600)에 저장된 음성과 비교하여, 음성 인식 결과의 음소들이 정답 인식 결과를 가지는지 혹은 오류 인식 결과를 가지는지 여부를 구분한다. 그리고 인식 결과 분류 모듈(710)은 정답 인식 결과를 정답 음소 처리 모듈(730)에 제공하고, 오류 인식 결과를 오류 음소 처리 모듈(720)에 제공한다. When the recognition result classification module 710 receives the speech recognition result from the search unit 200, the recognition result classification module 710 compares the speech recognition result with the speech stored in the speech database 600 to determine whether the phonemes of the speech recognition result have correct answer recognition results, And whether or not they belong. The recognition result classification module 710 provides the correct answer recognition result to the correct answer phoneme processing module 730 and provides the error recognition result to the error phoneme processing module 720.

오류 음소 처리 모듈(720)은 인식 결과 분류 모듈(710)로부터 오류 인식 결과를 입력 받는다. 그러면, 오류 음소 처리 모듈(720)은 음향 모델 데이터베이스(300)에 저장된 음향 모델에서, 오류 음소의 음소 모델 파라미터 분포를 업데이트한다. 이때, 오류 음소 처리 모듈(720)은 상기 오류 음소의 로그우도를 가중치로 적용하여, 음향 모델의 음소 모델 파라미터 분포를 업데이트한다. 이때, 로그우도는 최대 로그우도(ML) 추정 방법을 이용하여 산출된다. 이에 따라, 도 1d에서 설명된 바와 같이, 입력된 음소 M이 아니라, 오류 음소인 음소 N의 음소 모델 파라미터 분포(60)가 음소 M의 음소 모델 파라미터 분포(50)와의 상호 정보량이 줄어드는 방향으로 이동할 것이다. 이때, 음소 N에 대한 음소 모델 파라미터 분포(60)는 음소 N에 대한 이상적인 음소 모델 파라미터 분포(80)로 이동할 것이다. 또한, 음소 N에 대한 음소 모델 파라미터 분포(60)는 로그우도의 크기에 비례하여 이동되는 정도가 결정된다. The error phoneme processing module 720 receives the error recognition result from the recognition result classification module 710. The error phoneme processing module 720 then updates the phoneme model parameter distribution of the erroneous phoneme in the acoustic model stored in the acoustic model database 300. [ At this time, the error phoneme processing module 720 updates the phoneme model parameter distribution of the acoustic model by applying the log likelihood of the false phoneme as a weight. At this time, the log likelihood is calculated using the maximum log likelihood (ML) estimation method. 1D, the phoneme model parameter distribution 60 of the phoneme N, which is an erroneous phoneme, is shifted in a direction in which the amount of mutual information with the phoneme model parameter distribution 50 of the phoneme M is reduced will be. At this time, the phoneme model parameter distribution 60 for phoneme N will move to the ideal phoneme model parameter distribution 80 for phoneme N. [ In addition, the phoneme model parameter distribution 60 for the phoneme N is determined to be shifted in proportion to the magnitude of the log likelihood.

정답 음소 처리 모듈(730)은 인식 결과 분류 모듈(710)로부터 정답 인식 결과를 입력 받는다. 그러면, 정답 음소 처리 모듈(730)은 정답 인식 결과를 반영하여 음향 모델 데이터베이스(300)에 저장된 음향 모델에서, 정답 음소의 음소 모델 파라미터 분포를 업데이트한다. 이때, 상기 정답 음소에 대한 음향 모델의 음소 모델 파라미터 분포를 업데이트하는 것은 최대 상호정보량(MMI) 추정 방법을 통해 수행할 수 있다. 예컨대, 도 1c에서 설명된 바와 같이, 정답 인식 결과를 음향 모델의 음소 모델 파라미터 분포에 반영시켜 업데이트하면, 현재 음향 모델의 음소 M에 대한 음소 모델 파라미터 분포(50)는 음소 M에 대한 이상적인 음소 모델 파라미터 분포(70)로 이동할 것이다. The correct answer voice processing module 730 receives the correct answer recognition result from the recognition result classification module 710. Then, the correct answer voice processing module 730 updates the phoneme model parameter distribution of the correct answer phoneme in the acoustic model stored in the acoustic model database 300 by reflecting the correct answer recognition result. At this time, updating the phoneme model parameter distribution of the acoustic model with respect to the correct phoneme can be performed through a maximum mutual information amount (MMI) estimation method. 1C, the phoneme model parameter distribution 50 for the phoneme M of the current acoustic model is updated to reflect the ideal phoneme model for the phoneme M Will move to parameter distribution 70.

도 4는 본 발명의 실시예에 따른 음향 모델 학습을 위한 방법을 설명하기 위한 흐름도이다. 4 is a flowchart illustrating a method for learning an acoustic model according to an embodiment of the present invention.

도 4를 참조하면, 특징 추출부(100)는 S410 단계에서 음성 신호가 입력되면 음성 신호의 특징 벡터를 추출하고, S420 단계에서 추출된 음성의 특징 벡터를 탐색부(200)에 제공한다. Referring to FIG. 4, the feature extraction unit 100 extracts a feature vector of a speech signal when the speech signal is input in step S410, and provides the feature vector of the speech extracted in step S420 to the search unit 200. FIG.

탐색부(200)는 S430 단계에서 입력된 음성 벡터에 대해 음향 모델, 발음 사전 및 언어 모델을 기초로 형성된 탐색 공간에서 음성 인식을 수행한다. 이러한 음성 인식은 음소 단위로 이루어진다. 또한, 음성 인식의 결과는 1-best 또는 N-best의 인식 결과가 될 수 있으나, N-best의 인식 결과가 바람직하다. 음소 단위의 음성 인식을 수행한 후, 탐색부(200)는 S440 단계에서 음소 단위의 음성 인식 결과를 음향 모델 학습부(700)에 제공한다. The search unit 200 performs speech recognition on the speech vector input in step S430 in a search space formed based on the acoustic model, the pronunciation dictionary, and the language model. This speech recognition is performed on a phoneme basis. In addition, the result of speech recognition may be a recognition result of 1-best or N-best, but a recognition result of N-best is preferable. After performing the phoneme-by-phoneme speech recognition, the search unit 200 provides the phoneme-unit speech recognition result to the acoustic model learning unit 700 in step S440.

음향 모델 학습부(700)는 음소 단위의 음성 인식 결과를 수신하여, S450 단계에서 음성 인식 결과의 음소들이 정답 인식 결과를 가지는지 혹은 오류 인식 결과를 가지는지 여부를 구분한다. 이때, 음향 모델 학습부(700)는 음성 데이터베이스(600)에 미리 저장된 음성을 이용한다. The acoustic model learning unit 700 receives the speech recognition result of the phoneme unit, and distinguishes whether the phonemes of the speech recognition result have the correct answer recognition result or the error recognition result in step S450. At this time, the acoustic model learning unit 700 uses the voice stored in the voice database 600 in advance.

음향 모델 학습부(700)는 S460 단계에서 오류 인식 결과와 정답 인식 결과에 따라 음향 모델을 업데이트한다. 도 1d를 참조하면, 이러한 S460 단계에서 음향 모델 학습부(700)는 오류 인식 결과로 구분된 오류 음소의 음향 모델의 음소 모델 파라미터 분포를 업데이트한다. 이때, 음향 모델 학습부(700)는 오류 음소의 로그우도(likelihood)를 가중치로 적용하여, 음향 모델의 음소 모델 파라미터 분포를 업데이트한다. 이때, 로그우도는 최대 로그우도(ML) 추정 방법을 이용하여 산출될 수 있다. 이와 동시에, 도 1c를 참조하면, S460 단계에서 음향 모델 학습부(700)는 정답 인식 결과를 반영하여 정답 음소에 대한 음향 모델의 음소 모델 파라미터 분포를 업데이트한다. 이때, 정답 음소에 대한 음향 모델의 음소 모델 파라미터 분포를 업데이트하는 것은 최대 상호정보량(MMI) 추정 방법을 통해 수행할 수 있다. The acoustic model learning unit 700 updates the acoustic model according to the error recognition result and the correct answer recognition result in step S460. Referring to FIG. 1D, in step S460, the acoustic model learning unit 700 updates the phoneme model parameter distribution of the acoustic model of the error phoneme classified by the error recognition result. At this time, the acoustic model learning unit 700 updates the phoneme model parameter distribution of the acoustic model by applying the log likelihood of the error phoneme as a weight. At this time, the log likelihood can be calculated using the maximum likelihood (ML) estimation method. At the same time, referring to FIG. 1C, in step S460, the acoustic model learning unit 700 updates the phoneme model parameter distribution of the acoustic model for the correct answer phoneme by reflecting the correct answer recognition result. At this time, updating the phoneme model parameter distribution of the acoustic model for the correct answer phoneme can be performed through a maximum mutual information amount (MMI) estimation method.

상술한 바와 같이 본 발명의 실시예에 따르면, 변별학습을 이용하여, 정답 인식 결과의 음소들에 대한 모델 파라미터를 업데이트하고, 추가로, 오류 인식 결과의 음소들에 대한 모델 파라미터 분포를 반영함으로써, 음소 단위의 모델 파라미터 분포의 상호 정보량을 최소화할 수 있다. As described above, according to the embodiment of the present invention, by using the discrimination learning, the model parameter for the phonemes of the correct answer recognition result is updated, and furthermore, the model parameter distribution for the phonemes of the error recognition result is reflected, The mutual information amount of the phoneme-unit model parameter distribution can be minimized.

도 5는 본 발명의 실시예에 따른 음향 모델 학습부의 음향 모델 학습 방법을 설명하기 위한 흐름도이다. 5 is a flowchart illustrating an acoustic model learning method of an acoustic model learning unit according to an embodiment of the present invention.

인식 결과 분류 모듈(710)은 S510 단계에서 탐색부(200)로부터 음성 인식 결과를 수신한다. 탐색부(200)는 음소 단위의 음성 인식을 수행하며, 인식 결과 또한 음소 단위로 제공될 수 있다. 따라서 인식 결과 분류 모듈(710)은 음소 단위의 음성 인식 결과를 수신한다. 이러한 음성 인식 결과는 N-best 인식 결과로 제공되는 것이 바람직하다. 예컨대, N-best 인식 결과는 앞서 설명된 <표 1>과 같이 출력될 수 있다. The recognition result classification module 710 receives the speech recognition result from the search unit 200 in step S510. The search unit 200 performs phoneme-based speech recognition, and the recognition result may also be provided on a phoneme-by-phoneme basis. Therefore, the recognition result classification module 710 receives the phoneme recognition result. It is preferable that the speech recognition result is provided as an N-best recognition result. For example, the N-best recognition result may be output as shown in Table 1 described above.

음성 인식 결과가 수신되면, 인식 결과 분류 모듈(710)은 S520 단계에서 음성 인식 결과의 음소들이 정답 인식 결과를 가지는지 혹은 오류 인식 결과를 가지는지 여부를 구분한다. 이를 위하여, 인식 결과 분류 모듈(710)은 음성 데이터베이스(600)에 미리 저장된 음성과 비교하여, 각 음소가 정답 혹은 오류 인식 결과를 가지는지 여부를 판별할 수 있다. When the speech recognition result is received, the recognition result classification module 710 distinguishes whether the phonemes of the speech recognition result have correct answer recognition results or error recognition results in step S520. To this end, the recognition result classification module 710 can compare the speech data stored in the speech database 600 with each other to determine whether each phoneme has correct answer or error recognition result.

오류 음소 처리 모듈(720)은 S530 단계에서 오류 인식 결과로 구분된 오류 음소에 대한 로그우도를 도출한다. 이때, 로그우도는 최대 로그우도(ML, maximum likelihood) 추정 방법을 이용하여 산출된다. The error phoneme processing module 720 derives a log likelihood for an error phoneme classified as the error recognition result in step S530. At this time, the log likelihood is calculated using the maximum likelihood (ML) estimation method.

그런 다음, 오류 음소 처리 모듈(720)은 S540 단계에서 음향 모델 데이터베이스(300)의 오류 음소에 대한 음소 모델 파라미터 분포를 업데이트한다. 하여, 상호 정보량을 최소화한다. 이때, 오류 음소 처리 모듈(720)은 상기 오류 음소의 로그우도를 가중치로 적용하여, 오류 음소에 대한 음소 모델 파라미터 분포를 업데이트한다. 이에 따라, 오류 음소에 대한 음소 모델 파라미터 분포의 상호 정보량이 최소화된다. Then, the error phoneme processing module 720 updates the phoneme model parameter distribution for the erroneous phoneme in the acoustic model database 300 in step S540. Thereby minimizing the mutual information amount. At this time, the error phoneme processing module 720 applies the log likelihood of the erroneous phoneme as a weight to update the phoneme model parameter distribution for the erroneous phoneme. Thus, the mutual information amount of the phoneme model parameter distribution with respect to the error phoneme is minimized.

예컨대, 도 1d에서 설명된 바와 같이, 음소 M이 입력되었지만 음소 N으로 인식된 경우, 음소 M과 음소 N의 상호 정보량에 기인한 오류일 수 있다. 따라서 본 발명은 오류 음소인 음소 N의 음소 모델 파라미터 분포(60)를 이동시켜, 음소 M과의 상호 정보량을 최소화한다. 이때, 로그우도의 크기에 따라 음소 N의 음소 모델 파라미터 분포(60)는 음소 N의 이상적인 음소 모델 파라미터 분포(80)로 이동할 것이다. 이에 따라, 음소 M의 음소 N에 대한 상호 정보량이 줄어든다. 즉, 상호 정보량이 최소화된다. For example, as described with reference to FIG. 1D, when a phoneme M is input but is recognized as a phoneme N, it may be an error due to the mutual information amount of the phoneme M and the phoneme N. [ Therefore, the present invention minimizes the mutual information amount with the phoneme M by shifting the phoneme model parameter distribution 60 of the phoneme N, which is an erroneous phoneme. At this time, the phoneme model parameter distribution 60 of the phoneme N will move to the ideal phoneme model parameter distribution 80 of the phoneme N according to the magnitude of the log likelihood. As a result, mutual information amount for the phoneme N of the phoneme M is reduced. That is, the amount of mutual information is minimized.

정답 음소 처리 모듈(730)은 S550 단계에서 인식 결과 분류 모듈(710)로부터 정답 인식 결과를 입력 받아, 음향 모델 데이터베이스(300)의 정답 음소에 대한 음소 모델 파라미터 분포를 업데이트한다. 이때, 정답 음소 처리 모듈(730)은 해당 정답 음소의 음소 모델 파라미터 분포의 상호 정보량을 최소화한다. The correct answer phoneme processing module 730 receives the correct answer recognition result from the recognition result classification module 710 in step S550 and updates the phoneme model parameter distribution for the correct phoneme in the acoustic model database 300. [ At this time, the corrective phoneme processing module 730 minimizes the mutual information amount of the phoneme model parameter distribution of the corresponding corrective phoneme.

이때, 상기 정답 음소에 대한 음향 모델의 음소 모델 파라미터 분포를 업데이트하는 것은 최대 상호 정보량(MMI) 추정 방법을 통해 수행할 수 있다. At this time, updating the phoneme model parameter distribution of the acoustic model with respect to the correct phoneme can be performed through a maximum mutual information amount (MMI) estimation method.

예컨대, 도 1c에서 설명된 바와 같이, 정답 인식 결과를 음향 모델의 음소 모델 파라미터 분포에 반영시켜 업데이트하면, 현재 음향 모델의 음소 M에 대한 음소 모델 파라미터 분포(50)는 음소 M에 대한 이상적인 음소 모델 파라미터 분포(70)로 이동할 것이다. 이에 따라, 음소 M의 음소 N에 대한 상호 정보량이 줄어든다. 즉, 상호 정보량이 최소화된다. 1C, the phoneme model parameter distribution 50 for the phoneme M of the current acoustic model is updated to reflect the ideal phoneme model for the phoneme M Will move to parameter distribution 70. As a result, mutual information amount for the phoneme N of the phoneme M is reduced. That is, the amount of mutual information is minimized.

상술한 오류 인식 결과 및 정답 인식 결과를 적용하여 음향 모델 데이터베이스(300)의 음소 모델 파라미터 분포를 업데이트하는 것이 순차로 수행되는 것과 같이 기술되었지만, 병렬적으로 수행되는 것이 바람직하다. Although it has been described that updating the phoneme model parameter distribution of the acoustic model database 300 by applying the error recognition result and the correct answer recognition result described above is performed serially, it is preferable to be performed in parallel.

상술한 바와 같은, 본 발명의 실시 예에 따른 음향 모델 학습 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있으며, 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media) 및 롬(ROM, Read Only Memory), 램(RAM, Random Access Memory), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다.As described above, the acoustic model learning method according to the embodiment of the present invention can be implemented as a computer-readable code on a computer-readable recording medium. The computer readable recording medium may include program instructions, data files, data structures, and the like, alone or in combination, and includes all kinds of recording apparatuses in which data that can be read by a computer system is stored. Examples of the computer-readable recording medium include an optical recording medium such as a magnetic medium such as a hard disk, a floppy disk and a magnetic tape, a compact disk read only memory (CD-ROM), and a digital video disk (ROM), random access memory (RAM), flash memory, and the like, such as a magneto-optical medium such as a magneto-optical medium and a floppy disk, And hardware devices that are specifically configured to perform the functions described herein.

또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다. In addition, the computer-readable recording medium may be distributed over network-connected computer systems so that computer readable codes can be stored and executed in a distributed manner. In addition, functional programs, codes, and code segments for implementing the present invention can be easily inferred by programmers of the technical field to which the present invention belongs.

이상과 같이, 본 명세서와 도면에는 본 발명의 바람직한 실시예에 대하여 개시하였으나, 여기에 개시된 실시예외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다. 또한, 본 명세서와 도면에서 특정 용어들이 사용되었으나, 이는 단지 본 발명의 기술 내용을 쉽게 설명하고 발명의 이해를 돕기 위한 일반적인 의미에서 사용된 것이지, 본 발명의 범위를 한정하고자 하는 것은 아니다. 따라서, 상술한 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니 되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 선정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다. While the present invention has been described in connection with what is presently considered to be practical exemplary embodiments, it is to be understood that the invention is not limited to the disclosed embodiments, but, on the contrary, It will be apparent to those skilled in the art. Furthermore, although specific terms are used in this specification and the drawings, they are used in a generic sense only to facilitate the description of the invention and to facilitate understanding of the invention, and are not intended to limit the scope of the invention. Accordingly, the foregoing detailed description is to be considered in all respects illustrative and not restrictive. The scope of the present invention should be determined by rational interpretation of the appended claims, and all changes within the scope of equivalents of the present invention are included in the scope of the present invention.

본 발명은 음향 모델 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체에 관한 것이다. 이러한 본 발명은 단어열을 음소 단위로 음성 인식한 결과로부터 상기 단어열을 구성하는 음소들을 정답 인식 결과 및 오류 인식 결과로 구분하고, 상기 오류 인식 결과로 구분된 오류 음소에 대한 음향 모델의 음소 모델 파라미터 분포에 상기 오류 인식 결과를 반영하여 업데이트하되, 상기 오류 음소의 로그우도를 가중치로 적용하며, 상기 정답 인식 결과로 구분된 정답 음소에 대한 음향 모델의 음소 모델 파라미터 분포에 상기 정답 인식 결과를 반영하여 업데이트한다. 상술한 바와 같이 본 발명은 음향 모델의 음소 모델 파라미터 분포를 업데이트할 때, 오류 인식 결과로 구분된 음소의 로그우도를 가중치로 적용하여, 오류 인식 결과도 상호 정보량을 최소화하도록 반영함으로써, 변별 학습에서 효율적으로 상호 정보량을 최소화시킬 수 있다. 이러한 본 발명은 시판 또는 영업의 가능성이 충분할 뿐만 아니라 현실적으로 명백하게 반복 실시할 수 있는 정도이므로 산업상 이용가능성이 있다. The present invention relates to an apparatus for learning acoustic models and a computer-readable recording medium having recorded thereon a method therefor. According to the present invention, the phonemes constituting the word sequence are classified into a correct recognition result and an error recognition result from a result of voice recognition of a word string on a phoneme basis, and a phoneme model of an acoustic model for an error phoneme classified by the error recognition result The log likelihood of the erroneous phoneme is applied as a weight, and the correct answer recognition result is reflected in the phoneme model parameter distribution of the acoustic model corresponding to the correct answer phoneme divided by the correct answer recognition result . As described above, according to the present invention, when updating the phoneme model parameter distribution of the acoustic model, the log likelihood of the phonemes separated by the error recognition result is applied as a weight, and the error recognition result is also reflected to minimize the mutual information amount. The mutual information amount can be minimized efficiently. The present invention has a possibility of being commercially available or operating, and is industrially applicable since it is practically possible to repeatedly carry out clearly.

100: 특징 추출부 200: 탐색부
300: 음향 모델 데이터베이스 400: 발음 사전 데이터베이스
500: 언어 모델 데이터베이스 600: 음성 데이터베이스
700: 음향 모델 학습부 710: 인식 결과 분류 모듈
720: 오류 음소 처리 모듈 730: 정답 음소 처리 모듈
800: 텍스트 데이터베이스 900: 언어 모델 학습부
100: Feature extraction unit 200:
300: acoustic model database 400: pronunciation dictionary database
500: language model database 600: voice database
700: acoustic model learning unit 710: recognition result classification module
720: error phoneme processing module 730: correct answer phoneme processing module
800: text database 900: language model learning unit

Claims (6)

복수의 음소에 대한 음성 인식 결과로부터 상기 복수의 음소를 정답 인식 결과인 정답 음소와 및 오류 인식 결과인 오류 음소로 구분하는 인식 결과 분류 모듈; 및
상기 정답 음소의 음소 모델 파라미터 분포와 상기 오류 음소의 음소 모델 파라미터 분포 간의 중첩되는 확률 분포가 최소화되도록 상기 오류 음소의 로그우도를 가중치로 적용하여 상기 오류 음소의 음소 모델 파라미터 분포를 업데이트하는 오류 음소 처리 모듈;을 포함하는 것을 특징으로 하는 음향 모델 학습을 위한 장치.
A recognition result classifying module for classifying the plurality of phonemes into correct phonemes as recognition results of correct answers and false phonemes as recognition results of errors from speech recognition results of a plurality of phonemes; And
And a phoneme model parameter distribution of the false phoneme is updated by applying a log likelihood of the false phoneme as a weight so that an overlapping probability distribution between the phoneme model parameter distribution of the correct answer phoneme and the phoneme model parameter distribution of the false phoneme is minimized. And a module for learning the acoustic model.
제1항에 있어서,
상기 오류 음소 처리 모듈은
최대 로그우도(ML, maximum likelihood) 추정 방법을 이용하여 상기 로그우도를 산출하는 것을 특징으로 하는 음향 모델 학습을 위한 장치.
The method according to claim 1,
The error phoneme processing module
Wherein the log likelihood is calculated using a maximum likelihood (ML) estimation method.
제1항에 있어서,
상호 정보량이 최소화되도록 정답 음소의 음소 모델 파라미터 분포를 업데이트하는 정답 음소 처리 모듈;을 더 포함하는 것을 특징으로 하는 음향 모델 학습을 위한 장치.
The method according to claim 1,
And a correct answer phoneme processing module for updating the phoneme model parameter distribution of the correct phoneme so that the mutual information amount is minimized.
제3항에 있어서,
상기 정답 음소 처리 모듈은
최대 상호정보량(MMI, maximum mutual information) 추정 방법을 이용하여 상기 정답 음소의 음소 모델 파라미터 분포를 업데이트하는 것을 특징으로 하는 음향 모델 학습을 위한 장치.
The method of claim 3,
The corrective phoneme processing module
Wherein the phoneme model parameter distribution of the correct phoneme is updated using a maximum mutual information (MMI) estimation method.
복수의 음소에 대한 음성 인식 결과로부터 상기 복수의 음소를 정답 인식 결과인 정답 음소와 및 오류 인식 결과인 오류 음소로 구분하는 단계; 및
상기 정답 음소의 음소 모델 파라미터 분포와 상기 오류 음소의 음소 모델 파라미터 분포 간의 중첩되는 확률 분포가 최소화되도록 상기 오류 음소의 로그우도를 가중치로 적용하여, 상기 오류 음소의 음소 모델 파라미터 분포를 업데이트하는 단계;를 포함하는 음향 모델 학습을 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체.
Dividing the plurality of phonemes into correct phonemes as correct recognition results and false phonemes as a result of speech recognition from a plurality of phonemes; And
Updating the phoneme model parameter distribution of the erroneous phoneme by applying a log likelihood of the erroneous phoneme as a weight so that an overlapping probability distribution between the phoneme model parameter distribution of the correct answer phoneme and the phoneme model parameter distribution of the erroneous phoneme is minimized; The method comprising the steps of: acquiring an acoustic model;
제5항에 있어서,
상호 정보량이 최소화되도록 정답 음소의 음소 모델 파라미터 분포를 업데이트하는 단계;를 더 포함하는 음향 모델 학습을 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체.
6. The method of claim 5,
And updating the phoneme model parameter distribution of the correct phoneme so that the amount of mutual information is minimized.
KR1020130077676A 2013-07-03 2013-07-03 Apparatus for learning Acoustic Model and computer recordable medium storing the method thereof KR101424496B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130077676A KR101424496B1 (en) 2013-07-03 2013-07-03 Apparatus for learning Acoustic Model and computer recordable medium storing the method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130077676A KR101424496B1 (en) 2013-07-03 2013-07-03 Apparatus for learning Acoustic Model and computer recordable medium storing the method thereof

Publications (1)

Publication Number Publication Date
KR101424496B1 true KR101424496B1 (en) 2014-08-01

Family

ID=51748957

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130077676A KR101424496B1 (en) 2013-07-03 2013-07-03 Apparatus for learning Acoustic Model and computer recordable medium storing the method thereof

Country Status (1)

Country Link
KR (1) KR101424496B1 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160015005A (en) * 2014-07-30 2016-02-12 에스케이텔레콤 주식회사 Method and apparatus for discriminative training acoustic model based on class, and speech recognition apparatus using the same
KR101808689B1 (en) * 2016-05-12 2017-12-14 주식회사 솔루게이트 Learning system of speech recognition reliability
CN107808667A (en) * 2016-09-06 2018-03-16 丰田自动车株式会社 Voice recognition device and sound identification method
CN112133325A (en) * 2020-10-14 2020-12-25 北京猿力未来科技有限公司 Wrong phoneme recognition method and device

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101229108B1 (en) * 2009-12-21 2013-02-01 한국전자통신연구원 Apparatus for utterance verification based on word specific confidence threshold

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101229108B1 (en) * 2009-12-21 2013-02-01 한국전자통신연구원 Apparatus for utterance verification based on word specific confidence threshold

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160015005A (en) * 2014-07-30 2016-02-12 에스케이텔레콤 주식회사 Method and apparatus for discriminative training acoustic model based on class, and speech recognition apparatus using the same
KR102199445B1 (en) 2014-07-30 2021-01-06 에스케이텔레콤 주식회사 Method and apparatus for discriminative training acoustic model based on class, and speech recognition apparatus using the same
KR101808689B1 (en) * 2016-05-12 2017-12-14 주식회사 솔루게이트 Learning system of speech recognition reliability
CN107808667A (en) * 2016-09-06 2018-03-16 丰田自动车株式会社 Voice recognition device and sound identification method
CN112133325A (en) * 2020-10-14 2020-12-25 北京猿力未来科技有限公司 Wrong phoneme recognition method and device

Similar Documents

Publication Publication Date Title
US10176802B1 (en) Lattice encoding using recurrent neural networks
US20230317074A1 (en) Contextual voice user interface
US9818401B2 (en) Systems and methods for adaptive proper name entity recognition and understanding
EP2308042B1 (en) Method and device for generating vocabulary entries from acoustic data
US8731926B2 (en) Spoken term detection apparatus, method, program, and storage medium
US9449599B2 (en) Systems and methods for adaptive proper name entity recognition and understanding
US8494853B1 (en) Methods and systems for providing speech recognition systems based on speech recordings logs
EP2685452A1 (en) Method of recognizing speech and electronic device thereof
US20200273449A1 (en) Method, system and apparatus for multilingual and multimodal keyword search in a mixlingual speech corpus
US9495955B1 (en) Acoustic model training
US9672820B2 (en) Simultaneous speech processing apparatus and method
Patel et al. Cross-lingual phoneme mapping for language robust contextual speech recognition
KR101424496B1 (en) Apparatus for learning Acoustic Model and computer recordable medium storing the method thereof
Moyal et al. Phonetic search methods for large speech databases
KR101483947B1 (en) Apparatus for discriminative training acoustic model considering error of phonemes in keyword and computer recordable medium storing the method thereof
US20110224985A1 (en) Model adaptation device, method thereof, and program thereof
WO2014194299A1 (en) Systems and methods for adaptive proper name entity recognition and understanding
KR102199445B1 (en) Method and apparatus for discriminative training acoustic model based on class, and speech recognition apparatus using the same
Kou et al. Fix it where it fails: Pronunciation learning by mining error corrections from speech logs
KR102299269B1 (en) Method and apparatus for building voice database by aligning voice and script
JP4987530B2 (en) Speech recognition dictionary creation device and speech recognition device
JP2006031278A (en) Voice retrieval system, method, and program
Kilgour et al. The 2013 KIT IWSLT Speech-to-Text Systems for German and English
JP2005250071A (en) Method and device for speech recognition, speech recognition program, and storage medium with speech recognition program stored therein
JP4705535B2 (en) Acoustic model creation device, speech recognition device, and acoustic model creation program

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190626

Year of fee payment: 6