KR100826875B1 - 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치 - Google Patents
온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치 Download PDFInfo
- Publication number
- KR100826875B1 KR100826875B1 KR1020060087004A KR20060087004A KR100826875B1 KR 100826875 B1 KR100826875 B1 KR 100826875B1 KR 1020060087004 A KR1020060087004 A KR 1020060087004A KR 20060087004 A KR20060087004 A KR 20060087004A KR 100826875 B1 KR100826875 B1 KR 100826875B1
- Authority
- KR
- South Korea
- Prior art keywords
- speaker
- voice
- content
- model
- recognition
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 239000013598 vector Substances 0.000 claims abstract description 38
- 239000000203 mixture Substances 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 230000003044 adaptive effect Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
본 발명은 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치에 관한 것으로서, 가정용 서비스 로봇에 있어서 화자의 음성에 관한 데이터를 미리 설정할 필요가 없고, 시간이나 환경변화에 따라 등록되어 있는 화자에 대한 음성 데이터를 적응해 나갈 수 있으며, 일반적인 잡음에 강인한 특성을 갖추도록 하기 위하여 화자가 음성을 이용하여 지속적으로 반응하도록 연속적으로 요구하는 컨텐츠를 이용하여 화자의 기본데이터 및 화자의 음성 데이터를 입력받는 단계; 음성 데이터에서 화자의 음성만을 추출하는 단계; 화자의 음성으로부터 인식에 필요한 특징 벡터를 추출하는 단계; 상기 추출한 특징 벡터로부터 화자 모델을 만드는 단계; 및, 입력된 음성으로부터 파악된 정보에 기초하여 화자 모델에 저장된 화자를 인식하는 단계를 포함하는 화자 인식 방법을 제공한다.
가정용 서비스 로봇, 화자 인식, 음성 인식, 컨텐츠
Description
도 1은 본 발명에 따른 화자 인식 방법을 개략적으로 설명하기 위한 흐름도이다.
도 2는 본 발명에 따른 화자 인식 장치를 개략적으로 설명하기 위한 구조도이다.
본 발명은 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치에 관한 것이다.
로봇 기술의 발달에 따라 일반 가정에서 여러가지 서비스를 제공할 수 있는 가정용 서비스 로봇들이 제작되어 보급되고 있다. 이러한 가정용 서비스 로봇이 제공하는 서비스는 관련 기술분야의 발전에 영향받아 보다 복잡하고 고차원적인 분야로까지 확대되고 있다. 이에 가정용 서비스 로봇이 가족 구성원을 구별하여 인식할 수 있는 기술에 대한 필요성이 제기고 있는바, 이러한 화자인식 기술로서 특히 얼굴인식과 함께 음성을 이용한 화자 인식기술의 필요성이 증대되고 있다.
음성을 이용한 화자 인식을 위한 화자등록기술은 로봇 환경에서는 구체적으로 알려지지 않았으며, 주로 보안 분야에서 이루어지고 있다. 잘 알려진 방법으로는 문장 종속형 화자인식 방법, 문장 제시형 화자인식 방법 및 문장 독립형 화자인식 방법이 있다.
문장 독립형 화자인식 방법은 화자 인식의 대상이 되는 화자의 음성적인 특성에 대한 일반화된 배경 모델을 이용하여 화자 인식을 행한다. 따라서, 화자는 복잡한 과정을 거칠 필요 없이 자연스럽게 화자 인식이 가능하다는 장점이 있으나, 이러한 방법에 의하여 화자 인식을 행하기 위해서는 다수 화자의 음성에 관한 일반화된 특징을 배경 모델로 구축해야 하기 때문에 많은 시간과 노력을 기울여야 하고, 이러한 배경 모델에 따라 인식률에 차이가 크게 발생한다는 문제가 있었다.
이에 반하여, 문장 종속형 화자인식 방법에서 사용되는 화자 등록 방법은 미리 알려진 문장을 주고 따라 읽도록 하여 등록하고, 문장 제시형 화자인식 방법에서는 미리 정해진 틀 내에서 임의로 선택되는 연속 숫자나 문장을 따라 읽도록 하여 화자를 등록한다. 상기 두 방법 모두 화자 인식의 대상이 되는 화자의 음성을 미리 저장, 등록시킬 때에 미리 정해진 숫자나 문장만을 사용하기 때문에, 발성해야 하는 문장이 적어 기술 구현이 용이하고 실용화에 유리하다는 장점이 있다.
그러나, 이는 발성해야 하는 문장이 적다는 특징 때문에, 화자의 음성적인 특성이 충분히 반영되지 못하여 인식률이 낮아질 수 있다는 문제점이 있어, 어떠한 문장에도 상관없이 좋은 인식 성능을 보여주어야 하는 로봇 분야에는 적합하지 않다는 문제가 있다.
또한, 가정용 서비스 로봇에 있어서 화자 인식 기술을 수행하기 위해서는, 일반 가정에서 사용되는 로봇이라는 특성상, 로봇을 사용하기 이전에 가족 구성원의 음성에 관한 데이터를 미리 설정해 놓아야 하는 오프라인 방식이 아니라, 자연스럽게 적응적으로 행하여지는 온라인 방식의 화자등록이 가능하여야 하고, 시간이나 환경변화에 따라 등록되어 있는 화자에 대한 음성 데이터를 적응해 나가야 할 필요가 있다.
또한, 상기와 같은 가정용 서비스 로봇이 사용되는 실제 가정환경은 다양한 규칙적이거나 규칙적이지 않은 소음뿐만 아니라 상기 로봇에 의하여 만들어지는 소음의 영향을 계속하여 받고 있기 때문에, 일반적인 잡음에 강인한 특성이 요구된다.
본 발명은 상기와 같은 문제를 해결하기 위하여, 온라인 방식에 의한 화자 등록 방법을 포함하는 화자 인식 방법을 제공하는 것을 목적으로 한다.
또한, 본 발명은 시간이나 환경변화에 따라 등록되어 있는 화자에 대한 음성 데이터를 적응하여 나갈 수 있는 화자 인식 방법을 제공하는 것을 목적으로 한다.
또한, 본 발명은 일반적인 잡음에 강인한 화자 인식 방법을 제공하는 것을 목적으로 한다.
상기한 목적을 실현하기 위한 본 발명의 일 실시예에 따른 화자 인식 방법은,
화자가 음성을 이용하여 지속적으로 반응하도록 연속적으로 요구하는 컨텐츠를 이용하여 화자의 기본데이터 및 화자의 음성 데이터를 입력받는 단계;
음성 데이터에서 화자의 음성만을 추출하는 단계;
화자의 음성으로부터 인식에 필요한 특징 벡터를 추출하는 단계;
상기 추출한 특징 벡터로부터 화자 모델을 만드는 단계; 및,
입력된 음성으로부터 파악된 정보에 기초하여 화자를 인식하는 단계를 포함한다.
또한, 본 발명에 따르면, 컴퓨터 프로그램이 적절히 프로그램된 시스템 상에서 실행될 때,
화자가 음성을 이용하여 지속적으로 반응하도록 연속적으로 요구하는 컨텐츠를 이용하여 화자의 기본데이터 및 화자의 음성 데이터를 입력받는 단계;
음성 데이터에서 화자의 음성만을 추출하는 단계;
화자의 음성으로부터 인식에 필요한 특징 벡터를 추출하는 단계;
상기 추출한 특징 벡터로부터 화자 모델을 만드는 단계; 및,
화자를 인식하는 단계를 실행함으로써, 상기 적절하게 프로그램된 시스템이 화자를 인식하도록 구현되는 컴퓨터 프로그램을 갖는 컴퓨터 판독가능한 저장매체가 제공된다.
또한, 상기한 목적을 실현하기 위한 본 발명의 또 다른 실시예에 따른 화자 인식 장치는,
화자가 음성을 이용하여 지속적으로 반응할 수 잇도록 요구하는 컨텐츠를 포함하고 있는 컨텐츠 저장부;
상기 컨텐츠를 외부로 출력하기 위한 출력수단;
컨텐츠 저장부에 저장되어 있는 컨텐츠가 상기 출력수단을 통하여 출력되는 과정을 제어하기 위한 컨텐츠 관리부;
상기 컨텐츠에 대응하여 생성되는 화자의 음성 정보를 입력받기 위한 입력수단;
상기 음성 신호로부터 상기 컨텐츠에 해당하는 소리를 제거하여 화자의 음성만을 추출하는 음성 추출부;
상기 추출된 화자의 음성으로부터 특징 벡터를 생성하는 특징 벡터 추출부;
상기 추출된 벡터에 기초하여 화자모델을 작성하는 화자모델 작성부;
상기 추출된 벡터에 기초하여 기존의 화자모델을 적응시키는 화자모델 적응부;
화자모델에 관한 정보를 저장하는 메모리부; 및,
상기 추출된 벡터에 기초하여 상기 메모리부에 저장되어 있는 화자 모델을 검색하여 화자를 인식하는 화자 인식부를 포함하여 구성된다.
이하 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있는 바람직한 실시예를 상세히 설명한다. 또한, 도면 전체에 걸쳐 유사한 기능 및 작용을 하는 부분에 대해서는 동일한 도면 부호를 사용한다.
이하, 본 발명의 제1 실시예에 따른 화자 인식 방법을 도 1을 참조하여 상세하게 설명한다. 도 1은 본 발명에 따른 화자 인식 방법을 개략적으로 설명하기 위한 흐름도이다.
먼저, 인식할 대상이 되는 화자에 식별 표지를 할당하기 위하여 화자의 기본 데이터를 입력받는다(S100). 일반적으로 가정에서 사용되는 서비스 로봇이 인식하여야 하는 가족 구성원이 2 이상이므로, 한 화자를 다른 화자와 구별할 수 있어야 한다. 따라서, 본 발명의 바람직한 실시예에 따른 화자 인식 방법에 의하여 서로 다른 구성원으로 인식된 화자에 대하여 서로 다른 식별 표지를 할당할 필요가 있다. 본 발명에 적용가능한 바람직한 실시예에 따르면, 상기 식별표지로는 키보드나 터치스크린과 같은 외부 입력장치를 통하여 입력받은 상기 각 화자의 이름이나 닉네임과 같은 호칭이 바람직하다.
인식할 대상이 되는 화자에 식별 표지를 할당하였다면, 상기 식별 표지를 할당받은 화자가 음성을 이용하여 지속적으로 반응하도록 연속적으로 요구한다(S105). 이는 다수 화자의 음성을 수집하여 통계적인 모델을 학습시키고, 학습된 모델을 이용하여 인식을 수행하는 일련의 과정이 자연스럽게 행하여 지도록 하기 위한 것이다. 이때, 상기 S105 단계를 위하여 상기 화자가 음성을 이용하여 반응하 도록 요구하기 위하여, 사용자가 음성을 이용하여 연속적으로 반응하도록 제작된 컨텐츠를 이용하여 화자의 음성 데이터를 입력받는 것이 바람직하다. 이러한 컨텐츠로는 음악을 들려주면서 화자로 하여금 따라부르도록 하는 음악 컨텐츠, 화자가 음성을 이용하여 반응하면서 게임을 즐기도록 하는 오락 컨텐츠 또는 화자가 음성을 이용하여 반응하면서 학습하는 교육 콘텐츠가 바람직하다.
화자가 상기 S105단계에 응하여 음성을 이용하여 반응하면, 이러한 화자의 음성을 입력받는다(S110). 화자의 음성을 입력받기 위해서는, 당업계에서 화자의 음성을 입력받은 수단으로 알려진 마이크와 같은 장치가 당업자의 선택에 의하여 사용될 수 있다.
이렇게 입력받은 음성 데이터로부터 화자의 음성만을 추출한다(S115). 상기 S110 단계에서 입력받은 음성 데이터에는 화자의 음성과 함께 주변의 소음 및 상기 S105 단계에서 사용된 컨텐츠에 관련된 소리도 포함되어 있다. 따라서, 상기 입력된 음성 데이터로는 다수 화자의 음성을 수집하여 통계적인 모델을 학습시키고, 학습된 모델을 이용하여 인식을 수행하기에 적합하지 않으므로, 화자의 음성만을 추출할 필요가 있다. 이때, 상기 화자의 음성과 함께 상기 음성 데이터에 포함된 주변의 소음은 위너 필터와 같은 잡음 제거용 필터를 사용하여 제거할 수 있으며, 상기 S105 단계에서 사용된 컨텐츠에 관련된 소리는 이미 알려진 파형이므로, 상기 음성 데이터에서 이를 제거하면 된다.
입력받은 음성 데이터로부터 화자의 음성만을 추출하였다면, 상기 화자의 음성으로부터 화자 인식에 필요한 특징 벡터를 추출한다(S120). 즉, 마이크를 통하여 입력된 음성이 시스템으로 들어오면 일정 시간, 예컨대 1/100초 마다 화자의 음성학적 특징을 잘 표현할 수 있는 특징벡터를 추출한다. 이 벡터들은 음성학적 특성을 잘 나타내며 그 이외의 요소, 즉 화자의 차이, 발음 태도 등에는 둔감해야 하는데, 대표적으로는 모든 주파수 대역에 동일하게 비중을 두어 분석하는 LPC(Linear Predictive Coding) 추출법, 사람의 음성인지 양상이 선형적이지 않고 로그스케일과 비슷한 멜 스케일을 따른다는 특성을 반영한 MFCC(Mel Frequency Cepstral Coefficients) 추출법, 음성과 잡음을 뚜렷하게 구별하기 위해 고주파 성분을 강조해주는 고역강조 추출법 및 음성을 짧은 구간으로 나누어 분석할 때 생기는 단절로 인한 왜곡현상을 최소화하는 창 함수 추출법 등이 있다. 이 중에서 특히, 본 발명의 목적을 달성하기 위해서는 음성 데이터로부터 스펙트럼 기반 청각특성을 적용한 멜 캡스트럽(MFCC)을 이용하여 특징값을 구별하는 추출법이 바람직하다.
화자의 음성 데이터로부터 특징벡터가 추출되면, 상기 화자의 특징벡터 분포를 파라미터화 하여 화자모델을 생성한다(S125). 이처럼 화자 모델을 만드는 방법으로는 가우시안 혼합모델(GMM: Gaussian Mixture Model), 숨은 마르코브 모델(HMM: Hidden Markov Model), 신경망(Neural Network) 등이 있다. 이 중에서 특히 본 발명의 목적을 달성하기 위해서는 가우시안 혼합모델이 바람직하다.
화자의 음성 데이터로부터 추출된 특징벡터들의 분포는 가우시안 혼합 밀도에 의해 수행되어진다. D차원의 특징벡터에 대해서, 화자에 대한 혼합 밀도는 다음 수학식 1과 같이 표현된다.
여기서 wi는 혼합 가중치이며 bi 는 가우시안 혼합모델을 통해 얻어진 확률이다. 여기서 밀도는 평균벡터와 공분산 행렬에 의해 파라미터화 된 M개의 가우시안 혼합모델의 가중치된 선형적인 결합이다.
다음으로 입력된 음성으로부터 파악된 정보에 기초하여 화자 모델에 저장된 화자를 인식한다(S130). 이때, 화자의 인식은 상기 S100 단계에서 할당한 식별 표지를 사용하여 행한다
화자를 인식하기 위해서는 먼저 임의의 화자로부터 음성이 입력되었을 때 가우시안 혼합모델의 파라미터를 추정한다. 이러한 파라미터 추정 방법으로는 최도 우도 추정방법(maximum likelihood estimation)이 잘 알려져 있다. T개의 프레임으로 구성된 한 음성으로부터 얻어진 확률에 대해서, 가우시안 혼합모델의 우도 값은 다음 수학식 2에 의해 표현되어진다.
여기서 화자 모델의 파라미터는 가중치, 평균, 공분산으로 구성된, i=1,2,...,M이다. 최대 우도 파라미터 추정은 EM(Expectation- Maximization) 알고리즘을 이용함으로써 얻어진다. 임의의 가족구성원 중 누군가가 발성을 했을 때 최대 사후 확률(maximum a posteriori probability)을 가진 화자 모델을 찾는 방법에 의해 화자를 찾게 된다. 그 방법은 다음 수학식 3에 의해 표현되어진다.
본 발명에 적용할 수 있는 바람직한 실시예에는, 계속하여 입력되는 화자의 음성 데이터를 이용하여, 이미 생성된 화자 모델을 적응시켜 나가는 단계(S130)를 더 포함한다. 적응된 화자 모델을 얻는 방법으로는 베이지안 적응방법(Bayesian adaptation)이 잘 알려져있다. 이를 위해서 가중치, 평균, 분산 값들이 변하여 적응된 화자 모델을 얻는다. 이 방법은 일반화된 배경 모델을 이용해서 적응된 화자 모델을 구하는 방법과 유사하다. 이하에서는 세 번째 방법을 수식으로 전개하면서 설명한다.
임의의 등록된 화자의 j번째 가우시안 혼합모델은 다음 수학식 4에 의해 계산되어진다.
통계적인 계산에 의해 다음 수학식 5와 같이 각각 가중치, 평균, 분산 파라미터를 계산한다.
이들 파라미터들을 근거로 해서 적응계수와의 결합으로부터 j번째 혼합모델의 적응된 파라미터를 얻을 수가 있다. 이렇게 함으로써 시간이나 환경에 따라 변하는 음성에 대하여 새로운 화자 모델을 생성할 수가 있다.
이하, 본 발명의 제2 실시예에 따른 화자 인식 장치를 도 2를 참조하여 상세하게 설명한다. 도 2는 본 발명에 따른 화자 인식 장치를 개략적으로 설명하기 위 한 구조도이다.
컨텐츠 저장부(209)는 화자가 음성을 이용하여 지속적으로 반응할 수 있도록 요구하는 컨텐츠를 저장하고 있다. 이러한 컨텐츠로는 음악을 들려주면서 화자로 하여금 따라부르도록 하는 음악 컨텐츠, 화자가 음성을 이용하여 반응하면서 게임을 즐기도록 하는 오락 컨텐츠 또는 화자가 음성을 이용하여 반응하면서 학습하는 교육 콘텐츠가 바람직하다. 컨텐츠 관리부(208)는 컨텐츠 저장부(209)에 저장되어 있는 상기 컨텐츠를 출력수단(210)을 통해 외부 화자에게 출력되도록 관리한다.
입력수단(200)은 상기 컨텐츠에 대응하여 생성되는 화자의 음성 정보를 입력받기 위한 마이크와 같은 음성 입력장치와, 이처럼 음성을 입력받은 화자 각자의 이름이나 닉네임과 같은 호칭을 식별표지로서 입력받기 위한 키보드, 터치스크린과 같은 입력장치를 포함한다.
음성 추출부(202)는 상기 입력수단(200)을 통하여 입력받은 음성 신호로부터 화자의 음성만을 추출하기 위한 장치이다. 이때, 본 발명에 따른 바람직한 화자 인식 장치는 상기 입력수단(200)을 통하여 입력받은 음성 신호로부터 잡음을 제거하기 위하여 잡음 제거 필터(201), 예컨대 위너필터(winer filter)를 포함하는 것이 바람직하다.
이렇게 상기 음성 추출부(202)에 의하여 화자의 음성이 추출되면, 특징 벡터 추출부(203)은 화자 인식에 필요한 특징 벡터를 추출한다. 즉, 입력수단(200)을 통하여 입력된 음성이 시스템으로 들어오면 일정 시간, 예컨대 1/100초 마다 화자의 음성학적 특징을 잘 표현할 수 있는 특징벡터를 추출한다.
화자모델 작성부(205)는 상기 추출된 화자의 음성 데이터의 특징벡터 분포를 파라미터화 하여 화자모델을 생성하여, 메모리부(207)에 저장한다.
화자 인식부(206)는 상기 추출된 화자의 음성 데이터의 특징벡터에 기초하여 상기 메모리부(207)에 저장되어 있는 화자 모델을 검색하여 화자를 인식한다.
이때, 화자모델 적응부(204)는 상기 컨텐츠에 의하여 계속하여 입력되는 화자의 음성 데이터를 이용하여, 이미 생성된 화자 모델을 적응시키기 위해, 메모리부(207)에 저장되어 있는 화자모델을 계속하여 갱신한다.
이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 당업자에게 있어 명백할 것이다.
상기와 같은 본 발명은 가정용 서비스 로봇에 있어서, 자연스럽게 적응적으로 행하여지는 온라인 방식에 의한 화자 등록 방법을 포함하는 화자 인식 방법을 제공한다. 또한, 본 발명은 시간이나 환경변화에 따라 등록되어 있는 화자에 대한 음성 데이터를 적응하여 나갈 수 있는 화자 인식 방법을 제공한다.
Claims (15)
- 화자가 음성을 이용하여 지속적으로 반응하도록 연속적으로 요구하는 컨텐츠를 이용하여 화자의 기본데이터 및 화자의 음성 데이터를 입력받는 단계;음성 데이터에서 화자의 음성만을 추출하는 단계;화자의 음성으로부터 인식에 필요한 특징 벡터를 추출하는 단계;상기 추출한 특징 벡터로부터 화자 모델을 만드는 단계; 및,입력된 음성으로부터 파악된 정보에 기초하여 화자 모델에 저장된 화자를 인식하는 단계를 포함하는 화자 인식 방법.
- 제 1항에 있어서,화자의 음성 데이터를 입력받는 단계 이전에 인식할 대상이 되는 화자의 기본 데이터를 등록받는 단계를 더 포함하는 것을 특징으로 하는 화자 인식 방법.
- 제 2항에 있어서,상기 화자의 기본 데이터는 화자의 호칭인 것을 특징으로 하는 화자 인식 방법.
- 제 1항에 있어서,상기 컨텐츠는 음악 컨텐츠, 오락 컨텐츠 또는 교육 컨텐츠 중에서 선택되는 어느 하나인 것을 특징으로 하는 화자 인식 방법.
- 제 1항에 있어서,상기 음성 데이터에서 화자의 음성만을 추출하는 단계는, 상기 음성 데이터에서 잡음을 제거하는 과정 및 상기 음성 데이터에서 컨텐츠에 해당되는 소리를 제거하는 과정을 포함하는 것을 특징으로 하는 화자 인식 방법.
- 제 1항에 있어서,화자의 음성으로부터 인식에 필요한 특징 벡터를 추출하는 단계는 멜 캠스트럽(MFCC)을 이용하는 추출법을 사용하는 것을 특징으로 하는 화자 인식 방법.
- 제 1항에 있어서,상기 추출한 특징 벡터로부터 화자 모델을 만드는 단계는 가우시안 혼합모델을 이용하여 화자 모델을 생성하는 것을 특징으로 하는 화자 인식 방법.
- 제 1항에 있어서,화자의 음성으로부터 추출된 인식에 필요한 특징 벡터를 이용하여 이미 생성된 화자 모델을 적응시켜 나가는 단계를 더 포함하는 것을 특징으로 하는 화자 인식 방법.
- 컴퓨터 프로그램이 적절히 프로그램된 시스템 상에서 실행될 때,화자가 음성을 이용하여 지속적으로 반응하도록 연속적으로 요구하는 컨텐츠를 이용하여 화자의 기본데이터 및 화자의 음성 데이터를 입력받는 단계;음성 데이터에서 화자의 음성만을 추출하는 단계;화자의 음성으로부터 인식에 필요한 특징 벡터를 추출하는 단계;상기 추출한 특징 벡터로부터 화자 모델을 만드는 단계; 및,화자를 인식하는 단계를 실행함으로써, 상기 적절하게 프로그램된 시스템이 화자를 인식하도록 구현되는 컴퓨터 프로그램을 갖는 컴퓨터 판독가능한 저장매체.
- 화자가 음성을 이용하여 지속적으로 반응할 수 잇도록 요구하는 컨텐츠를 포함하고 있는 컨텐츠 저장부;상기 컨텐츠를 외부로 출력하기 위한 출력수단;컨텐츠 저장부에 저장되어 있는 컨텐츠가 상기 출력수단을 통하여 출력되는 과정을 제어하기 위한 컨텐츠 관리부;상기 컨텐츠에 대응하여 생성되는 화자의 음성 정보를 입력받기 위한 입력수단;상기 음성 신호로부터 상기 컨텐츠에 해당하는 소리를 제거하여 화자의 음성만을 추출하는 음성 추출부;상기 추출된 화자의 음성으로부터 특징 벡터를 생성하는 특징 벡터 추출부;상기 추출된 벡터에 기초하여 화자의 화자모델을 작성하는 화자모델 작성부;상기 추출된 벡터에 기초하여 화자의 화자모델을 적응시키는 화자모델 훈련부;화자모델에 관한 정보를 저장하는 메모리부; 및상기 추출된 벡터에 기초하여 상기 메모리부에 저장되어 있는 화자 모델을 검색하여 화자를 인식하는 화자 인식부를 포함하여 구성되는 화자 인식 장치.
- 제 12항에 있어서,상기 음성 입력장치로 음성을 입력받은 화자 각자의 호칭을 식별표지로서 입력받기 위한 입력장치를 더 포함하는 것을 특징으로 하는 화자 인식 장치.
- 제 12항에 있어서,상기 콘텐츠 저장 장치에 저장된 컨텐츠는 음악 컨텐츠, 오락 컨텐츠 또는 교육 컨텐츠 중에서 선택되는 어느 하나인 것을 특징으로 하는 화자 인식 장치.
- 제 12항 내지 제 14항 중 어느 한 항의 화자 인식 장치를 포함하여 구성되는 가정용 서비스 로봇.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060087004A KR100826875B1 (ko) | 2006-09-08 | 2006-09-08 | 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치 |
US11/684,691 US20080065380A1 (en) | 2006-09-08 | 2007-03-12 | On-line speaker recognition method and apparatus thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060087004A KR100826875B1 (ko) | 2006-09-08 | 2006-09-08 | 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20080023030A KR20080023030A (ko) | 2008-03-12 |
KR100826875B1 true KR100826875B1 (ko) | 2008-05-06 |
Family
ID=39170862
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020060087004A KR100826875B1 (ko) | 2006-09-08 | 2006-09-08 | 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20080065380A1 (ko) |
KR (1) | KR100826875B1 (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100994930B1 (ko) | 2008-07-21 | 2010-11-17 | 주식회사 씨에스 | 음성인식 기반 홈네트워크 시스템의 적응화 음성 인식 제어방법 및 그 시스템 |
US10410638B2 (en) | 2015-02-27 | 2019-09-10 | Samsung Electronics Co., Ltd. | Method and device for transforming feature vector for user recognition |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101460059B1 (ko) * | 2007-12-17 | 2014-11-12 | 삼성전자주식회사 | 잡음 검출 방법 및 장치 |
US8639502B1 (en) | 2009-02-16 | 2014-01-28 | Arrowhead Center, Inc. | Speaker model-based speech enhancement system |
TWI396184B (zh) * | 2009-09-17 | 2013-05-11 | Tze Fen Li | 一種語音辨認所有語言及用語音輸入單字的方法 |
US20120116764A1 (en) * | 2010-11-09 | 2012-05-10 | Tze Fen Li | Speech recognition method on sentences in all languages |
JP5494468B2 (ja) * | 2010-12-27 | 2014-05-14 | 富士通株式会社 | 状態検出装置、状態検出方法および状態検出のためのプログラム |
DE102011086728B4 (de) * | 2011-11-21 | 2014-06-05 | Siemens Medical Instruments Pte. Ltd. | Hörvorrichtung mit einer Einrichtung zum Verringern eines Mikrofonrauschens und Verfahren zum Verringern eines Mikrofonrauschens |
US20140136204A1 (en) * | 2012-11-13 | 2014-05-15 | GM Global Technology Operations LLC | Methods and systems for speech systems |
GB2523353B (en) * | 2014-02-21 | 2017-03-01 | Jaguar Land Rover Ltd | System for use in a vehicle |
KR20150145024A (ko) | 2014-06-18 | 2015-12-29 | 한국전자통신연구원 | 화자적응 음성인식 시스템의 단말 및 서버와 그 운용 방법 |
KR102339657B1 (ko) * | 2014-07-29 | 2021-12-16 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
US9437193B2 (en) * | 2015-01-21 | 2016-09-06 | Microsoft Technology Licensing, Llc | Environment adjusted speaker identification |
KR102434604B1 (ko) | 2016-01-05 | 2022-08-23 | 한국전자통신연구원 | 개인화된 음성 인식을 수행하기 위한 음성 인식 단말, 음성 인식 서버 및 음성 인식 방법 |
KR102196764B1 (ko) * | 2016-08-29 | 2020-12-30 | 주식회사 케이티 | 화자 분류 장치 및 화자 식별 장치 |
CN108010531B (zh) * | 2017-12-14 | 2021-07-27 | 南京美桥信息科技有限公司 | 一种可视智能问询方法及系统 |
CN108847237A (zh) * | 2018-07-27 | 2018-11-20 | 重庆柚瓣家科技有限公司 | 连续语音识别方法及系统 |
KR102127126B1 (ko) * | 2018-08-03 | 2020-06-26 | 엘지전자 주식회사 | 음성 판독 장치 |
CN109660833A (zh) * | 2018-12-19 | 2019-04-19 | 四川省有线广播电视网络股份有限公司 | 智能语音电视系统终端门户设计方法 |
CN110782903A (zh) * | 2019-10-23 | 2020-02-11 | 国家计算机网络与信息安全管理中心 | 一种说话人识别方法及可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5761329A (en) | 1995-12-15 | 1998-06-02 | Chen; Tsuhan | Method and apparatus employing audio and video data from an individual for authentication purposes |
JP2001265387A (ja) | 2000-03-23 | 2001-09-28 | Fujitsu Ltd | 話者照合装置及び方法 |
KR20010102549A (ko) * | 1999-03-11 | 2001-11-15 | 내쉬 로저 윌리엄 | 화자 인식 방법 및 장치 |
KR20050048214A (ko) * | 2003-11-19 | 2005-05-24 | 학교법인연세대학교 | 화자인식시스템의 화자 특징벡터 생성방법 및 시스템 |
KR20050050466A (ko) * | 2003-11-25 | 2005-05-31 | 한국전자통신연구원 | Svm을 이용한 화자 등록 및 인증 시스템과 그 방법 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5749066A (en) * | 1995-04-24 | 1998-05-05 | Ericsson Messaging Systems Inc. | Method and apparatus for developing a neural network for phoneme recognition |
US5848163A (en) * | 1996-02-02 | 1998-12-08 | International Business Machines Corporation | Method and apparatus for suppressing background music or noise from the speech input of a speech recognizer |
US6253179B1 (en) * | 1999-01-29 | 2001-06-26 | International Business Machines Corporation | Method and apparatus for multi-environment speaker verification |
US6978238B2 (en) * | 1999-07-12 | 2005-12-20 | Charles Schwab & Co., Inc. | Method and system for identifying a user by voice |
US6401063B1 (en) * | 1999-11-09 | 2002-06-04 | Nortel Networks Limited | Method and apparatus for use in speaker verification |
US6804647B1 (en) * | 2001-03-13 | 2004-10-12 | Nuance Communications | Method and system for on-line unsupervised adaptation in speaker verification |
DE60213595T2 (de) * | 2001-05-10 | 2007-08-09 | Koninklijke Philips Electronics N.V. | Hintergrundlernen von sprecherstimmen |
US7054817B2 (en) * | 2002-01-25 | 2006-05-30 | Canon Europa N.V. | User interface for speech model generation and testing |
US7620547B2 (en) * | 2002-07-25 | 2009-11-17 | Sony Deutschland Gmbh | Spoken man-machine interface with speaker identification |
US7815507B2 (en) * | 2004-06-18 | 2010-10-19 | Igt | Game machine user interface using a non-contact eye motion recognition device |
US7424427B2 (en) * | 2002-10-17 | 2008-09-09 | Verizon Corporate Services Group Inc. | Systems and methods for classifying audio into broad phoneme classes |
US7519186B2 (en) * | 2003-04-25 | 2009-04-14 | Microsoft Corporation | Noise reduction systems and methods for voice applications |
JP4213716B2 (ja) * | 2003-07-31 | 2009-01-21 | 富士通株式会社 | 音声認証システム |
US7490043B2 (en) * | 2005-02-07 | 2009-02-10 | Hitachi, Ltd. | System and method for speaker verification using short utterance enrollments |
-
2006
- 2006-09-08 KR KR1020060087004A patent/KR100826875B1/ko not_active IP Right Cessation
-
2007
- 2007-03-12 US US11/684,691 patent/US20080065380A1/en not_active Abandoned
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5761329A (en) | 1995-12-15 | 1998-06-02 | Chen; Tsuhan | Method and apparatus employing audio and video data from an individual for authentication purposes |
KR20010102549A (ko) * | 1999-03-11 | 2001-11-15 | 내쉬 로저 윌리엄 | 화자 인식 방법 및 장치 |
JP2001265387A (ja) | 2000-03-23 | 2001-09-28 | Fujitsu Ltd | 話者照合装置及び方法 |
KR20050048214A (ko) * | 2003-11-19 | 2005-05-24 | 학교법인연세대학교 | 화자인식시스템의 화자 특징벡터 생성방법 및 시스템 |
KR20050050466A (ko) * | 2003-11-25 | 2005-05-31 | 한국전자통신연구원 | Svm을 이용한 화자 등록 및 인증 시스템과 그 방법 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100994930B1 (ko) | 2008-07-21 | 2010-11-17 | 주식회사 씨에스 | 음성인식 기반 홈네트워크 시스템의 적응화 음성 인식 제어방법 및 그 시스템 |
US10410638B2 (en) | 2015-02-27 | 2019-09-10 | Samsung Electronics Co., Ltd. | Method and device for transforming feature vector for user recognition |
Also Published As
Publication number | Publication date |
---|---|
KR20080023030A (ko) | 2008-03-12 |
US20080065380A1 (en) | 2008-03-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100826875B1 (ko) | 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치 | |
JP4590692B2 (ja) | 音響モデル作成装置及びその方法 | |
KR102410914B1 (ko) | 음성 인식을 위한 모델 구축 장치 및 음성 인식 장치 및 방법 | |
EP1557822B1 (en) | Automatic speech recognition adaptation using user corrections | |
KR101153078B1 (ko) | 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델 | |
JP6654611B2 (ja) | 成長型対話装置 | |
KR20120054845A (ko) | 로봇의 음성인식방법 | |
CN102280106A (zh) | 用于移动通信终端的语音网络搜索方法及其装置 | |
CN109313892A (zh) | 稳健的语言识别方法和系统 | |
Ismail et al. | Mfcc-vq approach for qalqalahtajweed rule checking | |
KR101065188B1 (ko) | 진화 학습에 의한 화자 적응 장치 및 방법과 이를 이용한 음성인식 시스템 | |
CN111968645B (zh) | 一种个性化的语音控制系统 | |
KR20040088368A (ko) | 스위칭 상태 공간 모델들을 갖는 변분 추론을 사용하는음성 인식 방법 | |
Yin et al. | Automatic cognitive load detection from speech features | |
CN116665669A (zh) | 一种基于人工智能的语音交互方法及系统 | |
KR20100068530A (ko) | 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치 및 방법 | |
Herbig et al. | Self-learning speaker identification for enhanced speech recognition | |
Grewal et al. | Isolated word recognition system for English language | |
Ons et al. | A self learning vocal interface for speech-impaired users | |
KR20170086233A (ko) | 라이프 음성 로그 및 라이프 영상 로그를 이용한 점증적 음향 모델 및 언어 모델 학습 방법 | |
Loh et al. | Speech recognition interactive system for vehicle | |
KR102113879B1 (ko) | 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치 | |
JP2003177779A (ja) | 音声認識のための話者学習法 | |
JP2000194392A (ja) | 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体 | |
WO1996013830A1 (en) | Decision tree classifier designed using hidden markov models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20120330 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20130325 Year of fee payment: 6 |
|
LAPS | Lapse due to unpaid annual fee |