KR100612840B1 - 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치 - Google Patents

모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치 Download PDF

Info

Publication number
KR100612840B1
KR100612840B1 KR1020040010663A KR20040010663A KR100612840B1 KR 100612840 B1 KR100612840 B1 KR 100612840B1 KR 1020040010663 A KR1020040010663 A KR 1020040010663A KR 20040010663 A KR20040010663 A KR 20040010663A KR 100612840 B1 KR100612840 B1 KR 100612840B1
Authority
KR
South Korea
Prior art keywords
model
speaker
variation
adaptation
generating
Prior art date
Application number
KR1020040010663A
Other languages
English (en)
Other versions
KR20050082253A (ko
Inventor
김남훈
최인정
송윤경
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020040010663A priority Critical patent/KR100612840B1/ko
Priority to US11/020,302 priority patent/US7590537B2/en
Publication of KR20050082253A publication Critical patent/KR20050082253A/ko
Application granted granted Critical
Publication of KR100612840B1 publication Critical patent/KR100612840B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • AHUMAN NECESSITIES
    • A23FOODS OR FOODSTUFFS; TREATMENT THEREOF, NOT COVERED BY OTHER CLASSES
    • A23LFOODS, FOODSTUFFS, OR NON-ALCOHOLIC BEVERAGES, NOT COVERED BY SUBCLASSES A21D OR A23B-A23J; THEIR PREPARATION OR TREATMENT, e.g. COOKING, MODIFICATION OF NUTRITIVE QUALITIES, PHYSICAL TREATMENT; PRESERVATION OF FOODS OR FOODSTUFFS, IN GENERAL
    • A23L33/00Modifying nutritive qualities of foods; Dietetic products; Preparation or treatment thereof
    • A23L33/10Modifying nutritive qualities of foods; Dietetic products; Preparation or treatment thereof using additives
    • AHUMAN NECESSITIES
    • A23FOODS OR FOODSTUFFS; TREATMENT THEREOF, NOT COVERED BY OTHER CLASSES
    • A23LFOODS, FOODSTUFFS, OR NON-ALCOHOLIC BEVERAGES, NOT COVERED BY SUBCLASSES A21D OR A23B-A23J; THEIR PREPARATION OR TREATMENT, e.g. COOKING, MODIFICATION OF NUTRITIVE QUALITIES, PHYSICAL TREATMENT; PRESERVATION OF FOODS OR FOODSTUFFS, IN GENERAL
    • A23L13/00Meat products; Meat meal; Preparation or treatment thereof
    • A23L13/30Meat extracts
    • AHUMAN NECESSITIES
    • A23FOODS OR FOODSTUFFS; TREATMENT THEREOF, NOT COVERED BY OTHER CLASSES
    • A23LFOODS, FOODSTUFFS, OR NON-ALCOHOLIC BEVERAGES, NOT COVERED BY SUBCLASSES A21D OR A23B-A23J; THEIR PREPARATION OR TREATMENT, e.g. COOKING, MODIFICATION OF NUTRITIVE QUALITIES, PHYSICAL TREATMENT; PRESERVATION OF FOODS OR FOODSTUFFS, IN GENERAL
    • A23L17/00Food-from-the-sea products; Fish products; Fish meal; Fish-egg substitutes; Preparation or treatment thereof
    • A23L17/20Fish extracts
    • AHUMAN NECESSITIES
    • A23FOODS OR FOODSTUFFS; TREATMENT THEREOF, NOT COVERED BY OTHER CLASSES
    • A23LFOODS, FOODSTUFFS, OR NON-ALCOHOLIC BEVERAGES, NOT COVERED BY SUBCLASSES A21D OR A23B-A23J; THEIR PREPARATION OR TREATMENT, e.g. COOKING, MODIFICATION OF NUTRITIVE QUALITIES, PHYSICAL TREATMENT; PRESERVATION OF FOODS OR FOODSTUFFS, IN GENERAL
    • A23L33/00Modifying nutritive qualities of foods; Dietetic products; Preparation or treatment thereof
    • A23L33/10Modifying nutritive qualities of foods; Dietetic products; Preparation or treatment thereof using additives
    • A23L33/105Plant extracts, their artificial duplicates or their derivatives
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12GWINE; PREPARATION THEREOF; ALCOHOLIC BEVERAGES; PREPARATION OF ALCOHOLIC BEVERAGES NOT PROVIDED FOR IN SUBCLASSES C12C OR C12H
    • C12G3/00Preparation of other alcoholic beverages
    • C12G3/02Preparation of other alcoholic beverages by fermentation
    • AHUMAN NECESSITIES
    • A23FOODS OR FOODSTUFFS; TREATMENT THEREOF, NOT COVERED BY OTHER CLASSES
    • A23VINDEXING SCHEME RELATING TO FOODS, FOODSTUFFS OR NON-ALCOHOLIC BEVERAGES AND LACTIC OR PROPIONIC ACID BACTERIA USED IN FOODSTUFFS OR FOOD PREPARATION
    • A23V2002/00Food compositions, function of food ingredients or processes for food or foodstuffs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Polymers & Plastics (AREA)
  • Nutrition Science (AREA)
  • Food Science & Technology (AREA)
  • Human Computer Interaction (AREA)
  • Zoology (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mycology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Organic Chemistry (AREA)
  • Marine Sciences & Fisheries (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Botany (AREA)
  • Wood Science & Technology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Stereophonic System (AREA)

Abstract

양적 변화량 및 방향적 변화량을 고려한, 화자별 평균적인 모델 변이 유사도 정보를 이용함으로써 화자 클러스터링 및 화자 적응 성능을 높인 음성 인식 방법 및 장치가 개시된다. 본 발명에 따른 화자 클러스터링 방법은, 화자 독립 모델과 훈련 화자의 ML 모델 사이의 모델 변이의 유사성을 바탕으로 화자 그룹 모델 변이를 생성한다. 또한, 본 발명에 따른 화자 적응 방법은, 시험 화자의 ML 모델과 그 시험 화자가 속한 화자 그룹의 ML 모델 사이의 모델 변이가 훈련 화자 그룹 모델 변이와 가장 유사한 것을 찾아 화자 적응을 수행한다. 이 때, 화자 클러스터링과 화자 적응시의 모델 변이 계산은 모델들의 양적 변화량 및 방향적 변화량을 모두 고려하여 수행된다. 본 발명은 MLLR 또는 MAP 어느 화자 적응 알고리즘에도 적용이 가능하다.
화자 클러스터링, 화자 적응, 모델 파라미터, 모델 변이

Description

모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법 및 이들을 이용한 음성 인식 장치{Speaker clustering method and speaker adaptation method based on model transformation, and apparatus using the same}
도 1은 MLLR 알고리즘에 따른 일반적인 화자 적응 시스템의 흐름도이다.
도 2는 본 발명의 실시예에 따른 화자 클러스터링을 구현하는 음성 인식 장치의 구성도이다.
도 3은 본 발명의 실시예에 따른 모델 변이를 설명하기 위한 개념도이다.
도 4는 본 발명의 실시예에 따른 화자 클러스터링 방법의 흐름도이다.
도 5는 본 발명의 실시에에 따른 화자 적응을 구현하는 음성 인식 장치의 구성도이다.
도 6은 본 발명의 실시예에 따른 화자 적응 방법의 흐름도이다.
도 7은 본 발명의 실시예에 따른 음성 인식 과정의 흐름도이다.
도 8은 본 발명의 실시예에 따른 실험예이다.
도 9는 본 발명의 실시예에 따른 다른 실험예이다.
본 발명은 모델 변이 기반의 화자 클러스터링 및 화자 적응을 이용한 음성 인식 장치 및 방법에 관한 것으로서, 특히 화자간의 평균적인 모델 변이 정보를 화자 클러스터링 및 화자 적응에 이용함으로써 등록 화자에 대한 음성 인식의 성능을 향상시킬 수 있는 음성 인식 장치 및 방법에 관한 것이다. 또한, 본 발명은 모델 변이의 유사도 측정시에 양적 변화량 뿐만 아니라 방향적 변화량을 함께 고려함으로써 음성인식의 성능을 향상시킬 수 있는 음성 인식 장치 및 방법에 관한 것이다.
음성 인식 시스템은 음성과, 그 음성에 대한 음향 공간에서의 특징 부여(characterization) 사이의 상관 관계를 기반으로 하며, 이러한 특징 부여는 전형적으로 훈련 데이터로부터 얻어진다. 훈련 데이터는 다수의 훈련 화자로부터 얻어져서 화자 독립 시스템을 구성할 수도 있고, 한 사람의 화자로부터 얻어져서 화자 종속 시스템을 구성할 수도 있다.
화자 독립 시스템은 여러 화자들 사이의 평균적 통계를 획득하려고 하기 때문에 특정 화자에 대한 인식 성능은 떨어진다. 반면, 화자 종속 시스템은 특정 화자에 대한 인식 성능은 화자 독립 시스템에 비해 우수하지만, 실제로 그 시스템을 사용하는 화자로부터 많은 양의 훈련 데이터를 얻어야 한다는 단점이 있다.
한편, 발성 화자에 상관없이 음성을 인식하는 것은 음성 인식의 궁극적은 목표라고 할 수 있다. 이러한 목표를 달성하기 위한 방법으로 화자 적응이 있다. 화자 적응 시스템은 화자 독립 시스템과 화자 종속 시스템의 중간 형태이며, 기본적으로 화자 독립 기능을 제공하지만 준비된 훈련 과정을 거쳐 특정 화자에 대한 성능을 높인다. 즉, 화자 적응 시스템은 여러 화자가 발성한 훈련 데이터를 이용해 화자 독립 시스템을 만든 후 새로 등록된 화자의 약간의 훈련 데이터를 사용하여 새로운 화자에 맞게 적응된 시스템을 구축한다.
또한, 화자 적응 시스템에 따르면, 시험 화자로부터의 적은 수의 문장만으로도 시스템을 그 화자에게 맞출 수 있다. 도 1에는 가장 일반적인 화자 적응 방법으로서, 적은 양의 데이터를 이용하여 화자 적응을 실현할 수 있는 MLLR(Maximum Likelihood Linear Regression) 기법의 흐름도가 도시되어 있다.
화자가 "오늘 소나기 온다는 소식이 있어"라는 문장을 발성하면(S101), 발성 문장은 특징 벡터들의 열로 변환된다. 변환된 벡터열은 비터비 정렬(Viterbi alignment)을 이용하여 기존의 모델과 정렬을 이루고(S103), 음향 모델 공간에서 각 모델들간의 특성을 이용하여 구성된 클래스 트리를 이용하여(S105) 최종적으로 모델 변환 매트릭스를 예측함으로써 기존의 모델을 사용 화자에 맞는 모델로 변환하는 과정을 수행한다(S107).
이 때, 각 모델의 기본 단위는 서브워드(subword)이며, 클래스 트리에서 베이스 클래스(C1, C2, C3, C4)는 음운학적 특성의 유사도 또는 음향 모델 공간에서의 군집 특성에 따라 상위 노드(C5, C6)에 연결된다. 따라서, 제한된 발성 문장으로 변환 매트릭스를 예측하기에 부족한 데이터를 갖는 노드(C1)가 발생하더라도 상위 노드(C5)에서 예측된 변환 매트릭스를 이용하여 클러스터(C1)의 모델 변환을 수행할 수 있기 때문에, 적은 수의 데이터로도 화자 적응을 실현할 수 있다.
C. J. Leggetter, "Imporoved Acoustic Modelling for HMMs using Linear Transform" Ph. D thesis, Cambridge University, 1995 "Regression Class Generation based on Phonetic Knowledge and Acoustic Space"에서는, 음운학적 지식 기반 및 음향 모델 공간에서의 군집 특성을 이용한 클래스 구성 방법을 제시하고 있다. 그러나, 이 방법들은 발성 방법이 유사한 음소는 음향 모델 공간에서 유사한 지역에 위치한다는 가정을 전제로 하여 이를 뒷받침할만한 수학적, 논리적 근거가 부족하다. 또한, 화자 적응 전후의 각 모델 사이에는 군집성의 차이가 있음에도 이를 무시한다는 문제점이 있다. 즉, 화자 적응 전에 화자 독립 모델의 음향 모델 공간상에서 각 모델들의 분포만을 이용해 클러스터링한 경우, 화자 적응 후에는 임의의 클러스터에 속해 있던 모델들이 다른 클러스터로 이동할 수 있는데, 이 때 동일한 클러스터는 동일한 변환 파라미터가 적용되므로 이렇게 이동된 모델들은 결과적으로 잘못된 변환 매트릭스에 의해 화자 적응이 수행되는 문제점이 있다.
한편, 음향 모델 공간에서 유사한 모델 분포를 갖는 화자 그룹별로 음향 모델을 따로 구성하는 화자 클러스터링 방법을 적용함으로써, 화자 적응 시스템의 성능을 높일 수 있다.
미국 특허 제5,787,394호 "State-dependent speaker clustering for speaker adaptation"에는 화자 클러스터링을 이용한 화자 적응 방법에 개시되어 있는데, 이 방법에 따르면 시험 화자에 가장 유사한 화자 모델 클러스터를 선택할 때 모든 화자 모델에 대한 유사도를 고려하기 때문에 선택된 화자 모델 클러스터에서 시험 화자의 모델과 유사한 모델을 찾지 못한 경우에는 다른 화자 모델 클러스터의 모델을 이용하여 재예측해야 한다는 문제점이 있다. 따라서, 계산량이 방대해지고 연산 속도가 떨어진다는 단점이 있다. 또한, 이 방법에 따르면, 시험 화자의 ML(Maximum Likelihood) 모델과 가장 유사한 화자 모델 클러스터를 선택할 때, 비교되는 각 모델간에 단순히 양적 변화량만을 고려하며 방향적 변화량은 무시하기 때문에, 방향적 변화량이 상이하더라도 양적 변화량이 동일하면 같은 클러스터로 묶일 수 있는 문제점이 있다.
따라서, 본 발명의 목적은, 양적 변화량 및 방향적 변화량을 고려한, 화자별 평균적인 모델 변이 유사도 정보를 이용함으로써 화자 클러스터링의 정확도를 향상시키는 것이다.
또한, 본 발명의 다른 목적은, 모델 변이 유사도의 측정시에 양적 변화량과 방향적 변화량을 모두 고려함으로써 화자 적응 및 음성 인식의 성능을 향상시키는 것이다.
상기와 같은 목적을 달성하기 위해, 본 발명은 (a) 복수의 훈련 화자 각각의 음성 데이터로부터 특징 벡터를 추출하는 단계와, (b) 상기 복수의 훈련 화자 각각에 대해, 상기 특징 벡터에 대한 ML 모델을 생성하는 단계와, (c) 화자 독립 모델에 대한 상기 ML 모델의 음향 공간에서의 양적 변화량 및/또는 방향적 변화량을 고려하여,상기 복수의 훈련 화자 각각에 대한 모델 변이를 생성하는 단계와, (d) 상기 모델 변이들 사이의 유사성을 바탕으로 상기 복수의 모델 변이들에 대해 소정의 클러스터링 알고리즘을 적용하여 복수의 화자 그룹 모델 변이를 생성하는 단계와, (e) 상기 복수의 화자 그룹 모델 변이 각각에 대해, 상기 화자 독립 모델에 대한 화자 적응 모델의 생성에 이용될 변환 파라미터를 생성하는 단계를 포함하는 화자 클러스터링 방법을 제공한다.
이 때, 상기 모델 변이는,
[수학식 1]
Figure 112004006672694-pat00001
(단,
Figure 112004006672694-pat00002
Figure 112004006672694-pat00003
는 훈련 화자의 ML 모델과 화자 독립 모델을 각각 나타내며,
Figure 112004006672694-pat00004
,
Figure 112004006672694-pat00005
,
Figure 112004006672694-pat00006
,
Figure 112004006672694-pat00007
,
α=가중치, θ= 두 벡터
Figure 112004006672694-pat00008
Figure 112004006672694-pat00009
가 이루는 각도)
로 표현되며, 상기α=0 또는 1인 것이 바람직하다.
또한, 상기 (a) 단계는 상기 각 훈련 화자로부터 복수의 특징 벡터를 추출하는 것이 바람직하며, 상기 (b) 단계는 상기 특징 벡터에 대해 비터비 정렬을 수행하는 단계를 포함한다.
상기와 같은 목적을 달성하기 위해 본 발명의 다른 국면은, 전술한 화자 클러스터링 방법을 포함하고, (f) 상기 복수의 ML 모델들에 대해 소정의 클러스터링 알고리즘을 적용하여 복수의 화자 그룹 ML 모델을 생성하는 단계를 더 포함하며, 상기 화자 적응 모델의 생성을 위해, (g) 시험 화자의 음성 데이터로부터 특징 벡터를 추출하는 단계와, (h) 상기 특징 벡터에 대한 시험 화자 ML 모델을 생성하는 단계와, (i) 상기 시험 화자 ML 모델과 상기 시험 화자가 속한 화자 그룹의 ML 모 델 사이의 모델 변이를 계산하여 이 모델 변이와 가장 유사한 모델 변이를 상기 복수의 화자 그룹 모델 변이에서 선택하는 단계와, (j) 선택된 화자 그룹 모델 변이의 변환 파라미터에 소정의 예측 알고리즘을 적용하여 적응 파라미터를 예측 및 생성하는 단계와, (k) 상기 적응 파라미터를 상기 화자 적응 모델에 적용하는 단계를 더 포함하는 것을 특징으로 하는 화자 적응 방법을 포함하는 화자 적응 방법을 제공한다.
이 때, 상기 (i) 단계에서 계산되는 모델 변이 역시 상기 수학식 1로 표현되는 것이 바람직하다. 또한, 상기 (j) 단계에서 생성된 적응 파라미터가 소정의 임계값보다 큰 경우에는, 상기 화자 적응 모델 생성 과정을 반복하는 것이 바람직하다.
상기와 같은 목적을 달성하기 위해 본 발명의 다른 국면은, (a) 복수의 훈련 화자 각각의 음성 데이터로부터 특징 벡터를 추출하는 단계와, (b) 상기 복수의 훈련 화자 각각에 대해, 상기 특징 벡터에 대한 ML 모델을 생성하는 단계와, (c) 화자 독립 모델에 대한 상기 ML 모델의 음향 공간에서의 양적 변화량 및/또는 방향적 변화량을 고려하여,상기 복수의 훈련 화자 각각에 대한 모델 변이를 생성하는 단계와, (d) 상기 복수의 모델 변이 전체를 대표하는 전역 모델 변이를 생성하는 단계와, (e) 상기 전역 모델 변이를 이용하여, 상기 화자 독립 모델에 대한 화자 적응 모델의 생성에 이용될 변환 파라미터를 생성하는 단계를 포함하는 것을 특징으로 하는 화자 클러스터링 방법을 제공한다.
이 때, 상기 모델 변이는 상기 수학식 1로 표현되며, 상기 전역 모델 변이는 상기 복수의 모델 변이들의 평균치일 수 있다.
상기와 같은 목적을 달성하기 위해 본 발명의 다른 국면은, 복수의 훈련 화자 각각의 음성 데이터로부터 특징 벡터를 추출하는 특징 추출부와, 상기 복수의 훈련 화자 각각에 대해, 상기 특징 벡터를 화자 독립 모델에 대해 비터비 정렬을 수행하고 상기 특징 벡터에 대한 ML 모델을 생성하는 비터비 정렬부와, 상기 화자 독립 모델에 대한 상기 ML 모델의 음향 공간에서의 양적 변화량 및/또는 방향적 변화량을 고려하여,상기 복수의 훈련 화자 각각에 대한 모델 변이를 생성하는 모델 변이 생성부와, 상기 모델 변이들 사이의 유사성을 바탕으로 상기 복수의 모델 변이들에 대해 소정의 클러스터링 알고리즘을 적용하여 복수의 화자 그룹 모델 변이를 생성하는 모델 변이 클러스터링부와, 상기 복수의 화자 그룹 모델 변이 각각에 대해, 상기 화자 독립 모델에 대한 화자 적응 모델의 생성에 이용될 변환 파라미터를 생성하는 변환 파라미터 생성부를 포함하는 음성 인식 장치를 제공한다.
상기와 같은 목적을 달성하기 위해 상기 음성 인식 장치에 있어서, 상기 모델 변이 클러스터링부는 상기 복수의 ML 모델들에 대해 소정의 클러스터링 알고리즘을 적용하여 복수의 화자 그룹 ML 모델을 더 생성하고, 이어서 상기 화자 적응 모델의 생성을 위해, 상기 특징 추출부는 시험 화자의 음성 데이터로부터 특징 벡터를 추출하며, 이어서 상기 비터비 정렬부는 상기 시험 화자의 특징 벡터에 대한 시험 화자 ML 모델을 생성하며, 상기 시험 화자 ML 모델과 상기 시험 화자가 속한 화자 그룹의 ML 모델 사이의 모델 변이를 계산하여 이 모델 변이와 가장 유사한 모델 변이를 상기 복수의 화자 그룹 모델 변이에서 선택하는 화자 클러스터 선택부 와, 선택된 화자 그룹 모델 변이의 변환 파라미터에 소정의 예측 알고리즘을 적용하여 적응 파라미터를 예측 및 생성하여, 상기 화자 적응 모델에 적용하는 적응 파라미터 생성부를 더 포함하는 것을 특징으로 하는 음성 인식 장치를 제공한다.
상기와 같은 목적을 달성하기 위해 본 발명의 다른 국면은, 복수의 훈련 화자 각각의 음성 데이터로부터 특징 벡터를 추출하는 특징 추출부와, 상기 복수의 훈련 화자 각각에 대해, 상기 특징 벡터를 화자 독립 모델에 대해 비터비 정렬을 수행하고 상기 특징 벡터에 대한 ML 모델을 생성하는 비터비 정렬부와, 상기 화자 독립 모델에 대한 상기 ML 모델의 음향 공간에서의 양적 변화량 및/또는 방향적 변화량을 고려하여,상기 복수의 훈련 화자 각각에 대한 모델 변이를 생성하는 모델 변이 생성부와, 상기 복수의 모델 변이 전체를 대표하는 전역 모델 변이를 생성하는 모델 변이 클러스터링부와, 상기 전역 모델 변이를 이용하여, 상기 화자 독립 모델에 대한 화자 적응 모델의 생성에 이용될 변환 파라미터를 생성하는 변환 파라미터 생성부를 포함하는 음성 인식 장치를 제공한다.
이하에서는 첨부된 도면을 참조하여 본 발명의 실시예를 설명한다. 우선, 음성 인식 과정은 크게 화자 클러스터링, 화자 적응 및 음성 인식으로 나눌 수 있으며, 화자 클러스터링은 도 2 내지 도 4를 참조하여 설명되고, 화자 적응은 도 5 및 도 6을 참조하여 설명되며, 음성 인식은 도 7을 참조하여 설명될 것이다.
도 2에는 본 발명의 실시예에 따라 화자 클러스터링을 구현하는 음성 인식 장치가 도시되어 있다. 음성 인식 장치(20)는 N명의 훈련 화자의 음성 데이터(231)로부터 음성 인식에 유용한 특징 벡터들을 추출하는 특징 추출부(201)와, 추출된 특징 벡터를 비터비(Viterbi) 알고리즘을 이용하여 정렬하고 각 훈련 화자의 ML(Maximum Likelihood) 모델(235)을 생성하는 비터비 정렬부(203)와, 화자 독립 모델(233)과 각 훈련 화자의 ML 모델(235)의 차이로부터 각 훈련 화자의 모델 변이(237)를 생성하는 모델 변이 생성부(205)와, 훈련 화자의 모델 변이(237)들의 유사성을 바탕으로 화자들을 M개의 모델 변이 그룹(239-1)으로 구성하는 모델 변이 클러스터링부(207)와, 각 화자 그룹(239-1)별로 변환 파라미터를 예측하여 화자 그룹별 변환 파라미터(239-2)를 생성하는 변환 파라미터 생성부(209)를 포함한다.
특징 추출부(201)는 음성 인식에 유용한 특징 벡터를 추출하는데, 현재까지 주로 사용되고 있는 음성 신호의 특징 벡터에는 LPC(Linear Predictive Cepstrum), MFC(Mel Frequency Cepstrum) 또는 PLP(Perceptual Linear Predictive) 등에 의한 특징 벡터들이 있다. 또한, 음성 인식을 위한 패턴 인식 기법으로 DTW(Dynamic Time Warping)나 신경망(Neural Network) 등을 이용할 수 있으나 이들 기법들은 대용량 어휘 인식에 적용될 경우에는 해결할 문제들이 많다. 따라서, 현재까지는 HMM(Hidden Markov Model)을 이용한 음성 인식 방법이 보편적으로 이용된다. HMM은 구성 모델 방식에 따라 소용량에서 대용량 어휘에 이르기까지 인식 어휘 수에 따른 인식 단위 선정만으로 여러 종류의 인식기를 구현할 수 있다.
비터비 정렬부(203)는 비터비 알고리즘에 따라 각 훈련 화자별로 특징 벡터들을 정렬하여 ML 모델(235)을 생성한다. 비터비 알고리즘은 탐색 공간을 최적화하는 데 이용되는 알고리즘으로서 하드웨어 구현이 간단하고 에너지 효율이 중요한 분야에 적합하다. 따라서, 음성 인식 분야에서도 최적의 은닉 상태열을 찾는 데 비 터비 알고리즘이 주로 이용된다. 즉, 비터비 정렬부(203)는 특징 벡터의 관측열이 관측될 가능성이 가장 큰 상태열을 비터비 알고리즘을 이용하여 구한다. 또한, 비터비 정렬부(203)는 잘 알려진 Baum-Welch 알고리즘에 의한 최대 유사도 평가(Maximum Likelihood Estimation)를 이용하여 화자 독립 모델의 모델 파라미터들을 재추정한 ML 모델을 생성한다. 이 때, 실제로 음성을 훈련하기 위해서는 동일한 화자에 대한 데이터베이스가 필요하므로, 본 실시예에서도 각 훈련 화자의 데이터베이스(231)로부터 여러 특징 벡터들을 추출하여 각각 비터비 정렬하고 단일 관측열에 대한 ML 모델에 새로운 변수를 도입하여 그 특징 벡터들의 관측열들, 즉 다중 관측열에 대한 ML 모델(235)을 생성한다.
모델 변이 생성부(205)는 음향 공간에서의 각 훈련 화자(235)의 ML 모델과 화자 독립 모델(233)의 차이로부터 각 훈련 화자(235)의 모델 변이(237)를 생성한다. 이 때, 음향 공간에서의 모델들의 차이는 양적 변화량 및 방향적 변화량을 모두 고려한다. 또한, 화자 독립 모델(233)은 화자 적응 전에 미리 준비되는 것으로서 모든 화자에 대한 평균적인 경향을 나타내며 단일 모델을 형성할 수도 있지만, 성별, 연령별 및 지역별로 화자들을 클러스터링하여 다중 모델을 형성할 수도 있다.
양적 변화량은 도 3의 (a)에 도시된 바와 같이, 화자 독립 모델(A 또는 B)과 훈련 화자의 ML 모델(A' 또는 B')과의 유클리디안(Eucledian) 거리를 나타내며, 방향적 변화량은 화자 독립 모델(A 또는 B)과 훈련 화자의 ML 모델(A' 또는 B')과의 음향 공간에서의 각 변화량을 나타낸다. 이를 수식으로 표현하면, 다음의 수학식 1 과 같다. 수학식 1에서bold x와bold y는 훈련 화자의 ML 모델과 화자 독립 모델을 나타낸다.
[수학식 2]
Figure 112004006672694-pat00010
(단,
Figure 112004006672694-pat00011
Figure 112004006672694-pat00012
는 훈련 화자의 ML 모델과 화자 독립 모델을 각각 나타내며,
Figure 112004006672694-pat00013
,
Figure 112004006672694-pat00014
,
Figure 112004006672694-pat00015
,
Figure 112004006672694-pat00016
,
α=가중치, θ= 두 벡터
Figure 112004006672694-pat00017
Figure 112004006672694-pat00018
가 이루는 각도)
즉, 화자 독립 모델(233)과 훈련 화자의 ML 모델(235)의 차이는 수학식 1에 따라 각 훈련 화자의 모델 변이(237)를 형성한다.
모델 변이 클러스터링부(207)는 N개의 훈련 화자의 모델 변이(237)들의 모델 변이의 유사성을 바탕으로 훈련 화자들에 대해 M개의 화자 그룹(239-1)으로 클러스터링한다. 이 때에도 역시 모델 변이의 유사성을 판단할 때 상기 수학식 1을 이용한다. 클러스터링 알고리즘으로는 기존에 잘 알려진 LBG(Linde-Buzo-Gray) 알고리즘 또는 K-means 알고리즘을 이용할 수 있다. 한편, 발명의 특징을 흐리지 않기 위해 따로 도시하지는 않았지만, 모델 클러스터링부(207)는, N개의 훈련 화자의 모델 변이(237)에 대한 클러스터링 정보를 이용하여, N개의 훈련 화자의 ML 모델(235)로부터 M개의 화자 그룹(239-1)과 쌍을 이루는 M개의 화자 그룹 ML 모델을 생성하여 둔다. 이 화자 그룹 ML 모델은 후술할 화자 적응 과정에서 사용된다.
변환 파라미터 생성부(209)는 MLE 방법에 따라 각 화자 그룹(239-1)의 변환 파라미터를 예측하여 각 화자 그룹(239-1)에 대응하는 변환 파라미터(239-2)를 생성한다. 변환 파라미터(239-2)는 후술할 화자 적응 과정에서 화자 독립 모델로부터 화자 적응 모델을 생성할 때 적응 파라미터를 예측하기 위한 것이다. 이 때, 변환 파라미터 생성부(209)는 변환 파라미터에 대해, 화자 적응 알고리즘에 따라 MAP(Maximum A Posteriori)의 경우에는 사전 확률(Priori Probability)을, MLLR(Maximum Likelihood Linear Regression)의 경우에는 클래스 트리를 각각 구성한다.
다음으로, 도 2를 참조하여 4에 도시된 본 발명의 실시예에 따른 화자 클러스터링 방법에 대해 설명한다. 도 4에 따르면, N명의 훈련 화자의 음성 데이터(231)로부터 특징 벡터를 추출하고(S401), 이어서 특징 벡터들에 대해 비터비 알고리즘을 적용하여 비터비 정렬을 수행하고(S403), 각 훈련 화자에 대해 비터비 정렬된 특징 벡터로부터 ML 모델(235)을 생성하고(S405), 화자 독립 모델(233)로부터 훈련 화자의 ML 모델(235)로의 양적 변화량 및 방향적 변화량을 고려하여 각 훈련 화자별로 모델 변이(237)를 생성하고(S407), 상기 수학식 1에 따라 모델 변이의 유사도에 따라 훈련 화자들을 M개의 화자 그룹(239-1)으로 클러스터링하고(S409), 최종적으로 각 화자 그룹(239-1)에 대해 변환 파라미터를 생성한다(S411). 이로써, 본 발명의 실시예에 따른 화자 클러스터링이 완성되었다. 이 때에도 역시, 단계(S409)에서의 클러스터링 정보를 이용하여, N개의 훈련 화자의 ML 모델(235)로부터 M개의 화자 그룹(239-1)과 쌍을 이루는 M개의 화자 그룹 ML 모델을 생성하여 둔다. 이 화자 그룹 ML 모델은 후술할 화자 적응 과정에서 사용된다.
도 5에는 본 발명의 실시예에 따라 화자 적응을 구현하는 음성 인식 장치가 도시되어 있다. 이하에서는, 도 5를 참조하여 도 2 및 도 4에 따라 형성된 M개의 화자 그룹 모델 변이(239-1) 및 대응 변환 파라미터(239-2)를 이용한 화자 적응 과정을 설명한다.
음성 인식 장치(50)는 시험 화자의 음성으로부터 음성 인식에 유용한 특징 벡터를 추출하는 특징 추출부(501)와, 추출된 특징 벡터를 화자 독립 모델(511)의 파라미터들에 대해 음향 공간에서 비터비(Viterbi) 알고리즘에 따라 정렬하고 추출된 특징 벡터의 시험 화자 ML 모델을 생성하는 비터비 정렬부(503)와, 시험 화자 ML 모델과 시험 화자가 속한 화자 그룹의 ML 모델(513) 사이의 모델 변이를 계산하여 이 모델 변이와 화자 그룹(239-1) 중에서 가장 유사한 모델 변이를 갖는 화자 그룹을 선택하는 화자 클러스터 선택부(505)와, 선택된 화자 그룹의 모델 변이(513)의 변환 파라미터(515)에 MLE 방법을 적용하여 적응 파라미터를 예측하는 적응 파라미터 예측부(507)와, 언어 모델(517), 예측된 적응 파라미터로부터 적응된 화자 적응 모델(519) 및 발음 사전(521)을 참조하여 화자의 음성의 특징 벡터를 문장으로 출력하는 음성 인식부(509)를 포함한다.
특징 추출부(501)에서는 음성 인식에 유용한 특징 벡터를 추출하는데, 현재까지 주로 사용되고 있는 음성 신호의 특징 벡터에는 LPC(Linear Predictive Cepstrum), MFC(Mel Frequency Cepstrum) 또는 PLP(Perceptual Linear Predictive) 등에 의한 특징 벡터들이 있다.
비터비 정렬부(503)는 비터비 알고리즘에 따라 화자 독립 모델(511)의 파라미터들에 대해 특징 벡터를 정렬하고 특징 벡터의 ML 모델을 생성한다. 화자 독립 모델(511)은 화자 적응 전에 미리 준비되는 것으로서 모든 화자에 대한 평균적인 경향을 나타내며 성별, 연령별 및 지역별로 화자들을 클러스터링할 수 있다. 또한, 비터비 정렬부(503)는 화자 클러스터 선택부(505)에 의해 화자 그룹의 모델 변이(513)가 선택된 이후에 시험 화자 ML 모델을 화자 그룹의 모델 변이(513)와 비터비 정렬 및 ML 예측을 수행한다.
화자 클러스터 선택부(505)는 시험 화자 ML 모델과 시험 화자가 속한 화자 그룹의 ML 모델(도 2 및 도 4에 따른 화자 클러스터링시에 생성되어 있음) 사이의 모델 변이를 계산하여 이 모델 변이와 화자 그룹(239-1) 중에서 가장 유사한 모델 변이를 갖는 화자 그룹을 선택한다. 이 때, 화자 클러스터 선택부(505)는 화자 그룹을 선택하기 위해, 상기 수학식 1에 따라 모델의 양적 변화량 및 방향적 변화량을 모두 고려하여 모델 변이 유사도를 측정한다. 또한, 화자 클러스터 선택부(505)는 선택된 화자 그룹의 모델 변이(513)를 비터비 정렬부(503)와 적응 파라미터 예측부(507)로 제공하며, 선택된 화자 그룹의 변환 파라미터(515)를 적응 파라미터 예측부(507)로 제공한다.
적응 파라미터 예측부(507)는 비터비 정렬부(503)에서의 정렬 결과와 선택된 화자 그룹의 모델 변이(513)를 바탕으로 선택된 화자 그룹의 변환 파라미터(515)로부터 적응 파라미터를 예측하여 그 적응 파라미터를 화자 적응 모델(519)에 적용한 다. 따라서, 화자 적응 모델의 각 파라미터들이 적응 파라미터에 의해 음향 공간에서 변이된다. 이후에, 시험 화자로부터 다시 음성을 입력받아 전술한 과정을 거쳐 적응 파라미터를 예측하고 그 적응 파라미터를 화자 적응 모델에 적용하는 과정을 되풀이하며, 화자 적응 과정이 종료되면, 음성 인식부(509)는 언어 모델(517), 화자 적응 모델(519) 및 발음 사전(521)을 참조하여 시험 화자의 입력 음성을 문장으로 출력한다.
예컨대, MAP(Maximum A Posteriori)의 경우에는 제한된 훈련 데이터(화자 적응 등록 데이터)와 기존의 화자 독립 모델과의 차이를 최소화하는 방향으로 EM(Expectation Maximization) 알고리즘을 이용하여 사전 확률(priori probability)을 구하고 이를 이용하여 화자 적응 모델로 변경하며, MLLR(Maximum Likelihood Linear Regression)의 경우에는 제한된 훈련 데이터(화자 적응 등록 데이터)로 기존의 화자 독립 모델을 발성 화자에 맞는 변환 매트릭스를 예측하고 이를 이용하여 화자 적응 모델로 변경한다.
한편, 언어 모델(517), 화자 적응 모델(519) 및 발음 사전(521)은 학습 과정에서 미리 구해지며, 언어 모델(517)은 학습용 텍스트 데이터베이스에 구축된 학습용 문장들에서의 단어열에 대한 발생 빈도 데이터를 이용하여 연산되어진 단어열들의 바이그램(bigram) 또는 트라이그램(trigram) 발생 확률 데이터를 구비하며, 학습용 텍스트 데이터베이스는 음성 인식에 사용될 가능성이 있는 문장들로 구성될 수 있다. 화자 적응 모델(519)은 학습용 발성 데이터베이스의 음성 데이터로부터 추출된 사용자가 갖는 특징 벡터들을 이용하여 은닉 마르코브 모델(Hidden Markov Models; HMM) 등과 같은 음향 모델들을 형성하며, 이들 음향 모델들은 음성 인식 과정에서 기준 모델로서 이용된다. 발음 사전(521)은 음운 변화가 적용된 인식 단위를 처리해야 하므로 각 표제어에 대하여 음운 변화 현상이 반영된 발음 표기를 모두 수록하여 데이터 베이스화한 것이다.
도 6에는 본 발명의 실시예에 따른 화자 적응 방법의 흐름도가 도시되어 있다. 도 6에 따르면, 시험 화자의 음성 데이터로부터 음성 인식에 유용한 특징 벡터를 추출하고(S601), 비터비 알고리즘에 따라 화자 독립 모델(511)의 파라미터들에 대해 특징 벡터들을 ML별로 정렬하여 시험 화자의 ML 모델을 생성한다(S603, S605). 이어서, 상기 수학식 1에 따라 모델의 양적 변화량 및 방향적 변화량을 모두 고려하여 모델 변이 유사도를 측정함으로써, 화자 그룹(513) 및 그 그룹의 변환 파라미터(515)를 선택한다(S607). 이어서, 비터비 정렬 결과와 선택된 화자 그룹 L의 모델 변이(513)를 바탕으로 선택된 화자 그룹의 변환 파라미터(515)로부터 적응 파라미터를 예측하여 생성하고(S609), 생성된 적응 파라미터를 화자 적응 모델에 적용한다(S613). 화자 적응 절차가 종료되면, 화자로부터 음성을 입력받아 언어 모델(517), 화자 적응 모델(519) 및 발음 사전(521)을 참조하여 입력 음성에 해당하는 문장을 출력한다.
도 7에는 본 실시예에 따른 음성 인식 과정의 흐름도가 도시되어 있다. 도 2 내지 도 4를 참조하여 설명한 모델 변이 기반 화자 클러스터링(S702)과, 도 5 및 도 6을 참조하여 설명한 모델 변이 기반 화자 적응(S704)을 거쳐 화자 적응이 완료되면, 화자로부터 음성을 입력받아 대응 문장으로 출력한다(S706).
이하에서는, 도 8 및 도 9를 참조하여, 본 발명의 실시예에 따른 실험 결과를 설명한다.
도 8은 본 실시예에 화자 클러스터링을 적용하지 않고 단지 상기 수학식 1에 따른 양적 변화량 및 방향적 변화량을 고려하여 각 훈련 화자의 모델 변이를 생성하고 이들 모델 변이들을 이용하여 화자 적응을 수행하여 실험한 결과이다.
따라서, 모델 변이 클러스터링부(207)는 화자 클러스터를 생성하는 대신에, N개의 훈련 화자 모델 변이(237)를 대표할 수 있는 전역 모델 변이를 생성한다. 이 때, 전역 모델 변이는 훈련 화자 모델 변이(237) 전체의 평균치일 수 있다. 예컨대, 모델 수를 K개로 했을 때, N개의 훈련 화자의 모델 변이는, 화자1={d1_1, d1_2, d1_3,..., d1_K}, 화자2={d2_1, d2_2, d2_3,..., d2_K},..., 화자N={dN_1, dN_2, dN_3,...,dN_K}(이 때, d는 화자 독립 모델과 화자별 ML 모델과의 차)이고, 이 때의 전역 모델 변이는 {m1, m2, m3,...,mk}로 표현될 수 있다. 이 때, m1=(d1_1 +d2_1 +...+ dN_1)/N, m2=(d1_2 +d2_2 +...+ dN_2)/N,...,mk=(d1_k +d2_k +...+ dN_k)/N이다. 또한, 변환 파라미터 생성부(209)는, MLE 방법에 따라 전역 모델 변이를 이용하여 변환 파라미터를 예측하여 생성한다.
한편, 도 2의 모델 변이 클러스터링부(207)는 생략하고 대신에 N개의 훈련 화자의 모델 변이들(237)은 화자 그룹 변환 파라미터(239-2) 대신에 Nro의 대응 변환 파라미터를 가질 수도 있을 것이다. 이 때, 도 5의 화자 클러스터 선택부(505)는 N개의 훈련 화자의 모델 변이(237)와 대응 변환 파라미터로부터 직접 특정 훈련 화자의 모델 변이를 선택하고 적응 파라미터 예측부(507)는 이 특정 훈련 화자의 모델 변이를 바탕으로 적응 파라미터를 예측하여 생성할 것이다.
실험에는 대화체 문장을 낭독체 형식으로 발성한 음성 데이터를 사용하였고, 총 실험 데이터 수는 화자 적응을 위한 적응 발성 1,500개와 실험을 위한 시험 발성 3,000개를 포함하는 총 4,500개의 발성 문장이며, 남자 15명 여자 15명 등 총 30명의 화자로부터 각각 50개의 적응 발성 문장과 100개의 시험 발성 문장을 얻었고, 각 발성 문장은 Sennheizer MD431 지향성 마이크를 사용하여 잡음이 없는 조용한 사무실 환경에서 수집하였다. 또한, 화자 적응 알고리즘으로는 MLLR(Maximum Likelihood Linear Regression)을 사용하였고, 모델을 구성하기 위한 훈련 화자의 수는 남자 25명 여자 25명 등 총 50명이었으며, 각 모델의 클래스 트리에서 최하위층을 형성하는 베이스 클래스의 수는 64개로 하였다.
한편, 도 8에서 비교예 1과 비교예 2는 음운학적 지식 기반과 위치적 유사성 기반의 화자 적응 모델이며, 실험예 1, 2 및 3의 가중치는α, 0 및 1로 주어졌다. 또한, WER은 워드 에러 레이트(Word Error Rate)로서 음성 인식에서 에러율을 측정하는 데 일반적으로 이용되며, WER 감축폭은 화자 독립 모델의 WER에 비해 어느 정도 에러율이 더 감축되었는지를 나타낸다.
도 8에 도시된 바와 같이, 화자 클러스터링을 하지 않고 화자 적응을 한 경우에도 실험예 1, 2 및 3의 WER(%)은 2.94, 2.78 및 2.79로 화자 독립 WER 대비 각각 26.1%, 30.2% 및 29.9%의 WER 감축폭을 나타낸다. 또한, 비교예로 제시된 기존의 화자 적응 방법과 비교시, WER 감축폭이 약 10% 향상되었음을 알 수 있다. 일반적으로 95% 이상의 인식 성능을 가지는 음성 인식기에서, 상대적인 인식 성능 향상 이 어려움을 감안할 때 이 정도의 성능 향상은 상당한 것이다. 여기서 주목할 점은, 양적 변화량만 고려한 경우(2.94%)보다는 방향적 변화량을 고려했을 때(2.78%, 2.79%) WER이 더 향상되었다는 점이며, 이로서 방향적 변화량이 음성 인식의 성능에 있어서 중요한 척도라는 점을 확인할 수 있다는 것이다.
한편, 도 8의 실험예 2에 대해 도 9에서와 같이 화자 클러스터수를 8개와 16개로 화자 클러스터링을 수행한 실험예 4 및 5의 경우에는 WER 및 WER 감축폭이 비교예 1 및 2에 비해 더욱 향상되었음을 알 수 있다.
본 실시예의 화자 클러스터링 방법 및 화자 적응 방법은 컴퓨터로 읽을 수 있는 기록 매체에 기록된 프로그램에 의해 구현될 수도 있으며, 기록 매체는 광학 기록 매체, 자기 기록 매체 뿐만 아니라 인터넷을 통한 전송과 같은 캐리어 웨이브가 포함된다.
본 발명에 따르면, 모델 변이 유사도를 측정함에 있어서 양적 변화량 뿐만 아니라 방향적 변화량도 고려함으로써 화자 클러스터링의 정확도를 향상시키는 효과가 있다.
또한, 본 발명에 따르면, 화자 클러스터의 선택시에 모델 변이 유사도를 측정함에 있어서 양적 변화량 뿐만 아니라 방향적 변화량도 고려함으로써 화자 클러스터 선택의 정확도를 향상시키는 효과가 있다.
또한, 본 발명에 따르면, 모델 변이 유사도의 측정시에 양적 변화량과 방향적 변화량을 모두 고려함으로써 궁극적으로 음성 인식의 에러율을 대폭 낮추는 효 과가 있다.

Claims (25)

  1. (a) 복수의 훈련 화자 각각의 음성 데이터로부터 특징 벡터를 추출하는 단계와,
    (b) 상기 복수의 훈련 화자 각각에 대해, 상기 특징 벡터에 대한 ML 모델을 생성하는 단계와,
    (c) 화자 독립 모델에 대한 상기 ML 모델의 음향 공간에서의 양적 변화량 및/또는 방향적 변화량을 고려하여,상기 복수의 훈련 화자 각각에 대한 모델 변이를 생성하는 단계와,
    (d) 상기 모델 변이들 사이의 유사성을 바탕으로 상기 복수의 모델 변이들에 대해 소정의 클러스터링 알고리즘을 적용하여 복수의 화자 그룹 모델 변이를 생성하는 단계와,
    (e) 상기 복수의 화자 그룹 모델 변이 각각에 대해, 상기 화자 독립 모델에 대한 화자 적응 모델의 생성에 이용될 변환 파라미터를 생성하는 단계를 포함하는 화자 클러스터링 방법.
  2. 제 1항에 있어서, 상기 모델 변이는,
    [수학식 1]
    Figure 112004006672694-pat00019
    (단,
    Figure 112004006672694-pat00020
    Figure 112004006672694-pat00021
    는 훈련 화자의 ML 모델과 화자 독립 모델을 각각 나타내며,
    Figure 112004006672694-pat00022
    ,
    Figure 112004006672694-pat00023
    ,
    Figure 112004006672694-pat00024
    ,
    Figure 112004006672694-pat00025
    ,
    α=가중치, θ= 두 벡터
    Figure 112004006672694-pat00026
    Figure 112004006672694-pat00027
    가 이루는 각도)
    로 표현되는 것을 특징으로 하는 화자 클러스터링 방법.
  3. 제 2항에 있어서, 상기α=0인 것을 특징으로 하는 화자 클러스터링 방법.
  4. 제 2항에 있어서, 상기α=1인 것을 특징으로 하는 화자 클러스터링 방법.
  5. 제 1항에 있어서, 상기 (a) 단계는 상기 각 훈련 화자로부터 복수의 특징 벡터를 추출하는 것을 특징으로 하는 화자 클러스터링 방법.
  6. 제 1항에 있어서, 상기 (b) 단계는 상기 특징 벡터에 대해 비터비 정렬을 수행하는 단계를 포함하는 것을 특징으로 하는 화자 클러스터링 방법.
  7. 제 1항 내지 제 6항 중 어느 한 항의 방법을 실행하는 프로그램을 기록한, 컴퓨터로 읽을 수 있는 기록 매체.
  8. 제 1항 내지 제 6항 중 어느 한 항의 화자 클러스터링 방법을 포함하고,
    (f) 상기 복수의 ML 모델들에 대해 소정의 클러스터링 알고리즘을 적용하여 복수의 화자 그룹 ML 모델을 생성하는 단계를 더 포함하며,
    상기 화자 적응 모델의 생성을 위해,
    (g) 시험 화자의 음성 데이터로부터 특징 벡터를 추출하는 단계와,
    (h) 상기 특징 벡터에 대한 시험 화자 ML 모델을 생성하는 단계와,
    (i) 상기 시험 화자 ML 모델과 상기 시험 화자가 속한 화자 그룹의 ML 모델 사이의 모델 변이를 음향 공간에서의 양적 변화량 및/또는 방향적 변화량을 고려하여 계산하여 이 모델 변이와 가장 유사한 모델 변이를 상기 복수의 화자 그룹 모델 변이에서 선택하는 단계와,
    (j) 선택된 화자 그룹 모델 변이의 변환 파라미터에 소정의 예측 알고리즘을 적용하여 적응 파라미터를 예측 및 생성하는 단계와,
    (k) 상기 적응 파라미터를 상기 화자 적응 모델에 적용하는 단계를 더 포함하는 것을 특징으로 하는 화자 적응 방법.
  9. 제 8항에 있어서, 상기 (i) 단계에서 계산되는 모델 변이는,
    [수학식 1]
    Figure 112004006672694-pat00028
    (단,
    Figure 112004006672694-pat00029
    Figure 112004006672694-pat00030
    는 훈련 화자의 ML 모델과 화자 독립 모델을 각각 나타내며,
    Figure 112004006672694-pat00031
    ,
    Figure 112004006672694-pat00032
    ,
    Figure 112004006672694-pat00033
    ,
    Figure 112004006672694-pat00034
    ,
    α=가중치, θ= 두 벡터
    Figure 112004006672694-pat00035
    Figure 112004006672694-pat00036
    가 이루는 각도)
    로 표현되는 것을 특징으로 하는 화자 적응 방법.
  10. 제 8항 또는 제 9항의 방법을 실행하는 프로그램을 기록한, 컴퓨터로 읽을 수 있는 기록 매체.
  11. (a) 복수의 훈련 화자 각각의 음성 데이터로부터 특징 벡터를 추출하는 단계와,
    (b) 상기 복수의 훈련 화자 각각에 대해, 상기 특징 벡터에 대한 ML 모델을 생성하는 단계와,
    (c) 화자 독립 모델에 대한 상기 ML 모델의 음향 공간에서의 양적 변화량 및/또는 방향적 변화량을 고려하여,상기 복수의 훈련 화자 각각에 대한 모델 변이를 생성하는 단계와,
    (d) 상기 복수의 모델 변이 전체를 대표하는 전역 모델 변이를 생성하는 단계와,
    (e) 상기 전역 모델 변이를 이용하여, 상기 화자 독립 모델에 대한 화자 적응 모델의 생성에 이용될 변환 파라미터를 생성하는 단계를 포함하는 것을 특징으로 하는 화자 클러스터링 방법.
  12. 제 11항에 있어서, 상기 모델 변이는,
    [수학식 1]
    Figure 112006021441170-pat00037
    (단,
    Figure 112006021441170-pat00038
    Figure 112006021441170-pat00039
    는 훈련 화자의 ML 모델과 화자 독립 모델을 각각 나타내며,
    Figure 112006021441170-pat00040
    ,
    Figure 112006021441170-pat00041
    ,
    Figure 112006021441170-pat00042
    ,
    Figure 112006021441170-pat00043
    ,
    α=가중치, θ= 두 벡터
    Figure 112006021441170-pat00044
    Figure 112006021441170-pat00045
    가 이루는 각도)
    로 표현되는 것을 특징으로 하는 화자 클러스터링 방법.
  13. 제 11항에 있어서, 상기 전역 모델 변이는 상기 복수의 모델 변이들의 평균치인 것을 특징으로 하는 화자 클러스터링 방법.
  14. 제 11항 내지 제 13항 중 어느 한 항의 방법을 실행하는 프로그램을 기록한, 컴퓨터로 읽을 수 있는 기록 매체.
  15. 복수의 훈련 화자 각각의 음성 데이터로부터 특징 벡터를 추출하는 특징 추출부와,
    상기 복수의 훈련 화자 각각에 대해, 상기 특징 벡터를 화자 독립 모델에 대 해 비터비 정렬을 수행하고 상기 특징 벡터에 대한 ML 모델을 생성하는 비터비 정렬부와,
    상기 화자 독립 모델에 대한 상기 ML 모델의 음향 공간에서의 양적 변화량 및/또는 방향적 변화량을 고려하여,상기 복수의 훈련 화자 각각에 대한 모델 변이를 생성하는 모델 변이 생성부와,
    상기 모델 변이들 사이의 유사성을 바탕으로 상기 복수의 모델 변이들에 대해 소정의 클러스터링 알고리즘을 적용하여 복수의 화자 그룹 모델 변이를 생성하는 모델 변이 클러스터링부와,
    상기 복수의 화자 그룹 모델 변이 각각에 대해, 상기 화자 독립 모델에 대한 화자 적응 모델의 생성에 이용될 변환 파라미터를 생성하는 변환 파라미터 생성부를 포함하는 음성 인식 장치.
  16. 제 15항에 있어서, 상기 모델 변이는,
    [수학식 1]
    Figure 112004006672694-pat00046
    (단,
    Figure 112004006672694-pat00047
    Figure 112004006672694-pat00048
    는 훈련 화자의 ML 모델과 화자 독립 모델을 각각 나타내며,
    Figure 112004006672694-pat00049
    ,
    Figure 112004006672694-pat00050
    ,
    Figure 112004006672694-pat00051
    ,
    Figure 112004006672694-pat00052
    ,
    α=가중치, θ= 두 벡터
    Figure 112004006672694-pat00053
    Figure 112004006672694-pat00054
    가 이루는 각도)
    로 표현되는 것을 특징으로 하는 음성 인식 장치.
  17. 제 16항에 있어서, 상기α=0인 것을 특징으로 하는 음성 인식 장치.
  18. 제 16항에 있어서, 상기α=1인 것을 특징으로 하는 음성 인식 장치.
  19. 제 15항에 있어서, 상기 특징 추출부는 각 훈련 화자로부터 복수의 특징 벡터를 추출하는 것을 특징으로 하는 음성 인식 장치.
  20. 제 15항 내지 제19항 중 어느 한 항에 있어서, 상기 모델 변이 클러스터링부는 상기 복수의 ML 모델들에 대해 소정의 클러스터링 알고리즘을 적용하여 복수의 화자 그룹 ML 모델을 더 생성하고, 이어서 상기 화자 적응 모델의 생성을 위해, 상기 특징 추출부는 시험 화자의 음성 데이터로부터 특징 벡터를 추출하며, 이어서 상기 비터비 정렬부는 상기 시험 화자의 특징 벡터에 대한 시험 화자 ML 모델을 생성하며,
    상기 시험 화자 ML 모델과 상기 시험 화자가 속한 화자 그룹의 ML 모델 사이의 모델 변이를 계산하여 이 모델 변이와 가장 유사한 모델 변이를 상기 복수의 화자 그룹 모델 변이에서 선택하는 화자 클러스터 선택부와,
    선택된 화자 그룹 모델 변이의 변환 파라미터에 소정의 예측 알고리즘을 적용하여 적응 파라미터를 예측 및 생성하여, 상기 화자 적응 모델에 적용하는 적응 파라미터 생성부를 더 포함하는 것을 특징으로 하는 음성 인식 장치.
  21. 제 20항에 있어서, 상기 화자 클러스터 선택부에 의해 계산되는 모델 변이는,
    [수학식 1]
    Figure 112004006672694-pat00055
    (단,
    Figure 112004006672694-pat00056
    Figure 112004006672694-pat00057
    는 훈련 화자의 ML 모델과 화자 독립 모델을 각각 나타내며,
    Figure 112004006672694-pat00058
    ,
    Figure 112004006672694-pat00059
    ,
    Figure 112004006672694-pat00060
    ,
    Figure 112004006672694-pat00061
    ,
    α=가중치, θ= 두 벡터
    Figure 112004006672694-pat00062
    Figure 112004006672694-pat00063
    가 이루는 각도)
    로 표현되는 것을 특징으로 하는 음성 인식 장치.
  22. 제 20항에 있어서, 상기 화자 적응 모델을 이용하여 임의의 음성 데이터의 특징 벡터를 문자 정보로 출력하는 음성 인식부를 더 포함하는 것을 특징으로 하는 음성 인식 장치.
  23. 복수의 훈련 화자 각각의 음성 데이터로부터 특징 벡터를 추출하는 특징 추출부와,
    상기 복수의 훈련 화자 각각에 대해, 상기 특징 벡터를 화자 독립 모델에 대 해 비터비 정렬을 수행하고 상기 특징 벡터에 대한 ML 모델을 생성하는 비터비 정렬부와,
    상기 화자 독립 모델에 대한 상기 ML 모델의 음향 공간에서의 양적 변화량 및/또는 방향적 변화량을 고려하여,상기 복수의 훈련 화자 각각에 대한 모델 변이를 생성하는 모델 변이 생성부와,
    상기 복수의 모델 변이 전체를 대표하는 전역 모델 변이를 생성하는 모델 변이 클러스터링부와,
    상기 전역 모델 변이를 이용하여, 상기 화자 독립 모델에 대한 화자 적응 모델의 생성에 이용될 변환 파라미터를 생성하는 변환 파라미터 생성부를 포함하는 음성 인식 장치.
  24. 제 23항에 있어서, 상기 모델 변이는,
    [수학식 1]
    Figure 112004006672694-pat00064
    (단,
    Figure 112004006672694-pat00065
    Figure 112004006672694-pat00066
    는 훈련 화자의 ML 모델과 화자 독립 모델을 각각 나타내며,
    Figure 112004006672694-pat00067
    ,
    Figure 112004006672694-pat00068
    ,
    Figure 112004006672694-pat00069
    ,
    Figure 112004006672694-pat00070
    ,
    α=가중치, θ= 두 벡터
    Figure 112004006672694-pat00071
    Figure 112004006672694-pat00072
    가 이루는 각도)
    로 표현되는 것을 특징으로 하는 음성 인식 장치.
  25. 제 23항에 있어서, 상기 전역 모델 변이는 상기 복수의 모델 변이들의 평균치인 것을 특징으로 하는 음성 인식 장치.
KR1020040010663A 2004-02-18 2004-02-18 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치 KR100612840B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020040010663A KR100612840B1 (ko) 2004-02-18 2004-02-18 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치
US11/020,302 US7590537B2 (en) 2004-02-18 2004-12-27 Speaker clustering and adaptation method based on the HMM model variation information and its apparatus for speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020040010663A KR100612840B1 (ko) 2004-02-18 2004-02-18 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치

Publications (2)

Publication Number Publication Date
KR20050082253A KR20050082253A (ko) 2005-08-23
KR100612840B1 true KR100612840B1 (ko) 2006-08-18

Family

ID=34836805

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040010663A KR100612840B1 (ko) 2004-02-18 2004-02-18 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치

Country Status (2)

Country Link
US (1) US7590537B2 (ko)
KR (1) KR100612840B1 (ko)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6915262B2 (en) 2000-11-30 2005-07-05 Telesector Resources Group, Inc. Methods and apparatus for performing speech recognition and using speech recognition results
JP4220449B2 (ja) * 2004-09-16 2009-02-04 株式会社東芝 インデキシング装置、インデキシング方法およびインデキシングプログラム
EP1846884A4 (en) * 2005-01-14 2010-02-17 Tremor Media Llc SYSTEM AND METHOD FOR DYNAMIC ADVERTISING
WO2007056451A2 (en) 2005-11-07 2007-05-18 Scanscout, Inc. Techniques for rendering advertisments with rich media
WO2007077991A1 (ja) * 2006-01-06 2007-07-12 Sony Corporation 情報処理装置および方法、並びにプログラム
JP4745094B2 (ja) * 2006-03-20 2011-08-10 富士通株式会社 クラスタリングシステム、クラスタリング方法、クラスタリングプログラムおよびクラスタリングシステムを用いた属性推定システム
US7720681B2 (en) * 2006-03-23 2010-05-18 Microsoft Corporation Digital voice profiles
US9462118B2 (en) * 2006-05-30 2016-10-04 Microsoft Technology Licensing, Llc VoIP communication content control
US8971217B2 (en) * 2006-06-30 2015-03-03 Microsoft Technology Licensing, Llc Transmitting packet-based data items
US20080109391A1 (en) * 2006-11-07 2008-05-08 Scanscout, Inc. Classifying content based on mood
GB0623932D0 (en) * 2006-11-29 2007-01-10 Ibm Data modelling of class independent recognition models
US8549550B2 (en) 2008-09-17 2013-10-01 Tubemogul, Inc. Method and apparatus for passively monitoring online video viewing and viewer behavior
US8577996B2 (en) * 2007-09-18 2013-11-05 Tremor Video, Inc. Method and apparatus for tracing users of online video web sites
US20090259552A1 (en) * 2008-04-11 2009-10-15 Tremor Media, Inc. System and method for providing advertisements from multiple ad servers using a failover mechanism
US9612995B2 (en) 2008-09-17 2017-04-04 Adobe Systems Incorporated Video viewer targeting based on preference similarity
US20110202487A1 (en) * 2008-10-21 2011-08-18 Nec Corporation Statistical model learning device, statistical model learning method, and program
US20110224985A1 (en) * 2008-10-31 2011-09-15 Ken Hanazawa Model adaptation device, method thereof, and program thereof
US8155961B2 (en) * 2008-12-09 2012-04-10 Nokia Corporation Adaptation of automatic speech recognition acoustic models
US9418662B2 (en) * 2009-01-21 2016-08-16 Nokia Technologies Oy Method, apparatus and computer program product for providing compound models for speech recognition adaptation
EP2211335A1 (en) * 2009-01-21 2010-07-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for obtaining a parameter describing a variation of a signal characteristic of a signal
US8160877B1 (en) * 2009-08-06 2012-04-17 Narus, Inc. Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
US8615430B2 (en) * 2009-11-20 2013-12-24 Tremor Video, Inc. Methods and apparatus for optimizing advertisement allocation
EP2550614A4 (en) * 2010-03-23 2013-09-18 Nokia Corp METHOD AND DEVICE FOR DETERMINING THE AGE SPILL OF A USER
US9305553B2 (en) * 2010-04-28 2016-04-05 William S. Meisel Speech recognition accuracy improvement through speaker categories
US9009040B2 (en) * 2010-05-05 2015-04-14 Cisco Technology, Inc. Training a transcription system
KR20120046627A (ko) * 2010-11-02 2012-05-10 삼성전자주식회사 화자 적응 방법 및 장치
US9406299B2 (en) * 2012-05-08 2016-08-02 Nuance Communications, Inc. Differential acoustic model representation and linear transform-based adaptation for efficient user profile update techniques in automatic speech recognition
WO2014029099A1 (en) * 2012-08-24 2014-02-27 Microsoft Corporation I-vector based clustering training data in speech recognition
CN103219008B (zh) * 2013-05-16 2016-04-20 清华大学 基于基状态矢量加权的短语音说话人识别方法
US9520128B2 (en) * 2014-09-23 2016-12-13 Intel Corporation Frame skipping with extrapolation and outputs on demand neural network for automatic speech recognition
KR102199246B1 (ko) * 2014-11-18 2021-01-07 에스케이텔레콤 주식회사 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
WO2017130387A1 (ja) * 2016-01-29 2017-08-03 三菱電機株式会社 音声認識装置
CN107564513B (zh) * 2016-06-30 2020-09-08 阿里巴巴集团控股有限公司 语音识别方法及装置
WO2018159612A1 (ja) * 2017-02-28 2018-09-07 国立大学法人電気通信大学 声質変換装置、声質変換方法およびプログラム
CN108766440B (zh) * 2018-05-28 2020-01-14 平安科技(深圳)有限公司 说话人分离模型训练方法、两说话人分离方法及相关设备
CN109065028B (zh) * 2018-06-11 2022-12-30 平安科技(深圳)有限公司 说话人聚类方法、装置、计算机设备及存储介质
KR102655628B1 (ko) * 2018-11-22 2024-04-09 삼성전자주식회사 발화의 음성 데이터를 처리하는 방법 및 장치
CN110275942A (zh) * 2019-06-26 2019-09-24 上海交通大学 一种电子凭据安全事件融合分析方法
CN111062203B (zh) * 2019-11-12 2021-07-20 贝壳找房(北京)科技有限公司 基于语音的数据标注方法、装置、介质以及电子设备
CN111462751B (zh) * 2020-03-27 2023-11-03 京东科技控股股份有限公司 解码语音数据的方法、装置、计算机设备和存储介质
CN112599121B (zh) * 2020-12-03 2023-06-20 天津大学 基于辅助数据正则化的说话人自适应方法

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5598507A (en) * 1994-04-12 1997-01-28 Xerox Corporation Method of speaker clustering for unknown speakers in conversational audio data
US5864810A (en) * 1995-01-20 1999-01-26 Sri International Method and apparatus for speech recognition adapted to an individual speaker
US5787394A (en) * 1995-12-13 1998-07-28 International Business Machines Corporation State-dependent speaker clustering for speaker adaptation
US5895447A (en) * 1996-02-02 1999-04-20 International Business Machines Corporation Speech recognition using thresholded speaker class model selection or model adaptation
JP2965537B2 (ja) * 1997-12-10 1999-10-18 株式会社エイ・ティ・アール音声翻訳通信研究所 話者クラスタリング処理装置及び音声認識装置
US6226612B1 (en) * 1998-01-30 2001-05-01 Motorola, Inc. Method of evaluating an utterance in a speech recognition system
US6073096A (en) * 1998-02-04 2000-06-06 International Business Machines Corporation Speaker adaptation system and method based on class-specific pre-clustering training speakers
US6343267B1 (en) * 1998-04-30 2002-01-29 Matsushita Electric Industrial Co., Ltd. Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques
DE69829187T2 (de) * 1998-12-17 2005-12-29 Sony International (Europe) Gmbh Halbüberwachte Sprecheradaptation
US6253181B1 (en) * 1999-01-22 2001-06-26 Matsushita Electric Industrial Co., Ltd. Speech recognition and teaching apparatus able to rapidly adapt to difficult speech of children and foreign speakers
US6272462B1 (en) * 1999-02-25 2001-08-07 Panasonic Technologies, Inc. Supervised adaptation using corrective N-best decoding
JP2000259169A (ja) 1999-03-04 2000-09-22 Nippon Hoso Kyokai <Nhk> 音声認識装置およびその記録媒体
TW440810B (en) * 1999-08-11 2001-06-16 Ind Tech Res Inst Method of speech recognition
US6442519B1 (en) * 1999-11-10 2002-08-27 International Business Machines Corp. Speaker model adaptation via network of similar users
US6526379B1 (en) * 1999-11-29 2003-02-25 Matsushita Electric Industrial Co., Ltd. Discriminative clustering methods for automatic speech recognition
US6748356B1 (en) * 2000-06-07 2004-06-08 International Business Machines Corporation Methods and apparatus for identifying unknown speakers using a hierarchical tree structure
US6751590B1 (en) * 2000-06-13 2004-06-15 International Business Machines Corporation Method and apparatus for performing pattern-specific maximum likelihood transformations for speaker recognition
DE10047723A1 (de) * 2000-09-27 2002-04-11 Philips Corp Intellectual Pty Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
DE60213595T2 (de) * 2001-05-10 2007-08-09 Koninklijke Philips Electronics N.V. Hintergrundlernen von sprecherstimmen
US7437289B2 (en) * 2001-08-16 2008-10-14 International Business Machines Corporation Methods and apparatus for the systematic adaptation of classification systems from sparse adaptation data
JP2003099083A (ja) 2001-09-25 2003-04-04 Nippon Hoso Kyokai <Nhk> 音声認識装置
US7137062B2 (en) * 2001-12-28 2006-11-14 International Business Machines Corporation System and method for hierarchical segmentation with latent semantic indexing in scale space
KR20040008547A (ko) 2002-07-18 2004-01-31 엘지전자 주식회사 연속 음성인식 기기의 화자 적응 장치
US7523034B2 (en) * 2002-12-13 2009-04-21 International Business Machines Corporation Adaptation of Compound Gaussian Mixture models
US7676366B2 (en) * 2003-01-13 2010-03-09 Art Advanced Recognition Technologies Inc. Adaptation of symbols
US7340396B2 (en) * 2003-02-18 2008-03-04 Motorola, Inc. Method and apparatus for providing a speaker adapted speech recognition model set
US7328154B2 (en) * 2003-08-13 2008-02-05 Matsushita Electrical Industrial Co., Ltd. Bubble splitting for compact acoustic modeling
CN1963918A (zh) * 2005-11-11 2007-05-16 株式会社东芝 说话人模板的压缩、合并装置和方法,以及说话人认证

Also Published As

Publication number Publication date
US7590537B2 (en) 2009-09-15
US20050182626A1 (en) 2005-08-18
KR20050082253A (ko) 2005-08-23

Similar Documents

Publication Publication Date Title
KR100612840B1 (ko) 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치
JP4141495B2 (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
JP2871561B2 (ja) 不特定話者モデル生成装置及び音声認識装置
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
Welling et al. Speaker adaptive modeling by vocal tract normalization
JP4340685B2 (ja) 音声認識装置及び音声認識方法
JP4836076B2 (ja) 音声認識システム及びコンピュータプログラム
Kannadaguli et al. A comparison of Gaussian mixture modeling (GMM) and hidden Markov modeling (HMM) based approaches for automatic phoneme recognition in Kannada
JP3919475B2 (ja) 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体
Raškinis et al. Building medium‐vocabulary isolated‐word lithuanian hmm speech recognition system
Walter et al. An evaluation of unsupervised acoustic model training for a dysarthric speech interface
Kannadaguli et al. Phoneme modeling for speech recognition in Kannada using Hidden Markov Model
He et al. Fast model selection based speaker adaptation for nonnative speech
Yu et al. Unsupervised adaptation with discriminative mapping transforms
Fung et al. Effects and modeling of phonetic and acoustic confusions in accented speech
JP2002182682A (ja) 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、音声合成装置、並びに、プログラム記録媒体
JP3216565B2 (ja) 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体
Ungureanu et al. Establishing a baseline of romanian speech-to-text models
JPH0981182A (ja) 隠れマルコフモデルの学習装置及び音声認識装置
Wang Automatic Speech Recognition Model for Swedish Using Kaldi
Ibrahim et al. A COMPARATIVE SURVEY OF DTW AND HMM USING HAUSA ISOLATED DIGITS RECOGNITION IN HUMAN COMPUTER INTERACTION SYSTEM
JP3754614B2 (ja) 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、音声合成装置、並びに、プログラム記録媒体
Mohammed et al. Robust automatic speech recognition system: hmm versus sparse
JP3105708B2 (ja) 音声認識装置
Markov et al. Acoustic Modeling of Accented English Speech for Large-Vocabulary Speech Recognition

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120730

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20130730

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20140730

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20150730

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20160728

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20170728

Year of fee payment: 12

LAPS Lapse due to unpaid annual fee