KR100826875B1 - 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치 - Google Patents

온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치 Download PDF

Info

Publication number
KR100826875B1
KR100826875B1 KR1020060087004A KR20060087004A KR100826875B1 KR 100826875 B1 KR100826875 B1 KR 100826875B1 KR 1020060087004 A KR1020060087004 A KR 1020060087004A KR 20060087004 A KR20060087004 A KR 20060087004A KR 100826875 B1 KR100826875 B1 KR 100826875B1
Authority
KR
South Korea
Prior art keywords
speaker
voice
content
model
recognition
Prior art date
Application number
KR1020060087004A
Other languages
English (en)
Other versions
KR20080023030A (ko
Inventor
곽근창
배경숙
윤호섭
김혜진
지수영
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020060087004A priority Critical patent/KR100826875B1/ko
Priority to US11/684,691 priority patent/US20080065380A1/en
Publication of KR20080023030A publication Critical patent/KR20080023030A/ko
Application granted granted Critical
Publication of KR100826875B1 publication Critical patent/KR100826875B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

본 발명은 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치에 관한 것으로서, 가정용 서비스 로봇에 있어서 화자의 음성에 관한 데이터를 미리 설정할 필요가 없고, 시간이나 환경변화에 따라 등록되어 있는 화자에 대한 음성 데이터를 적응해 나갈 수 있으며, 일반적인 잡음에 강인한 특성을 갖추도록 하기 위하여 화자가 음성을 이용하여 지속적으로 반응하도록 연속적으로 요구하는 컨텐츠를 이용하여 화자의 기본데이터 및 화자의 음성 데이터를 입력받는 단계; 음성 데이터에서 화자의 음성만을 추출하는 단계; 화자의 음성으로부터 인식에 필요한 특징 벡터를 추출하는 단계; 상기 추출한 특징 벡터로부터 화자 모델을 만드는 단계; 및, 입력된 음성으로부터 파악된 정보에 기초하여 화자 모델에 저장된 화자를 인식하는 단계를 포함하는 화자 인식 방법을 제공한다.
가정용 서비스 로봇, 화자 인식, 음성 인식, 컨텐츠

Description

온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치{ON-LINE SPEAKER RECOGNITION METHOD AND APPARATUS FOR THEREOF}
도 1은 본 발명에 따른 화자 인식 방법을 개략적으로 설명하기 위한 흐름도이다.
도 2는 본 발명에 따른 화자 인식 장치를 개략적으로 설명하기 위한 구조도이다.
본 발명은 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치에 관한 것이다.
로봇 기술의 발달에 따라 일반 가정에서 여러가지 서비스를 제공할 수 있는 가정용 서비스 로봇들이 제작되어 보급되고 있다. 이러한 가정용 서비스 로봇이 제공하는 서비스는 관련 기술분야의 발전에 영향받아 보다 복잡하고 고차원적인 분야로까지 확대되고 있다. 이에 가정용 서비스 로봇이 가족 구성원을 구별하여 인식할 수 있는 기술에 대한 필요성이 제기고 있는바, 이러한 화자인식 기술로서 특히 얼굴인식과 함께 음성을 이용한 화자 인식기술의 필요성이 증대되고 있다.
음성을 이용한 화자 인식을 위한 화자등록기술은 로봇 환경에서는 구체적으로 알려지지 않았으며, 주로 보안 분야에서 이루어지고 있다. 잘 알려진 방법으로는 문장 종속형 화자인식 방법, 문장 제시형 화자인식 방법 및 문장 독립형 화자인식 방법이 있다.
문장 독립형 화자인식 방법은 화자 인식의 대상이 되는 화자의 음성적인 특성에 대한 일반화된 배경 모델을 이용하여 화자 인식을 행한다. 따라서, 화자는 복잡한 과정을 거칠 필요 없이 자연스럽게 화자 인식이 가능하다는 장점이 있으나, 이러한 방법에 의하여 화자 인식을 행하기 위해서는 다수 화자의 음성에 관한 일반화된 특징을 배경 모델로 구축해야 하기 때문에 많은 시간과 노력을 기울여야 하고, 이러한 배경 모델에 따라 인식률에 차이가 크게 발생한다는 문제가 있었다.
이에 반하여, 문장 종속형 화자인식 방법에서 사용되는 화자 등록 방법은 미리 알려진 문장을 주고 따라 읽도록 하여 등록하고, 문장 제시형 화자인식 방법에서는 미리 정해진 틀 내에서 임의로 선택되는 연속 숫자나 문장을 따라 읽도록 하여 화자를 등록한다. 상기 두 방법 모두 화자 인식의 대상이 되는 화자의 음성을 미리 저장, 등록시킬 때에 미리 정해진 숫자나 문장만을 사용하기 때문에, 발성해야 하는 문장이 적어 기술 구현이 용이하고 실용화에 유리하다는 장점이 있다.
그러나, 이는 발성해야 하는 문장이 적다는 특징 때문에, 화자의 음성적인 특성이 충분히 반영되지 못하여 인식률이 낮아질 수 있다는 문제점이 있어, 어떠한 문장에도 상관없이 좋은 인식 성능을 보여주어야 하는 로봇 분야에는 적합하지 않다는 문제가 있다.
또한, 가정용 서비스 로봇에 있어서 화자 인식 기술을 수행하기 위해서는, 일반 가정에서 사용되는 로봇이라는 특성상, 로봇을 사용하기 이전에 가족 구성원의 음성에 관한 데이터를 미리 설정해 놓아야 하는 오프라인 방식이 아니라, 자연스럽게 적응적으로 행하여지는 온라인 방식의 화자등록이 가능하여야 하고, 시간이나 환경변화에 따라 등록되어 있는 화자에 대한 음성 데이터를 적응해 나가야 할 필요가 있다.
또한, 상기와 같은 가정용 서비스 로봇이 사용되는 실제 가정환경은 다양한 규칙적이거나 규칙적이지 않은 소음뿐만 아니라 상기 로봇에 의하여 만들어지는 소음의 영향을 계속하여 받고 있기 때문에, 일반적인 잡음에 강인한 특성이 요구된다.
본 발명은 상기와 같은 문제를 해결하기 위하여, 온라인 방식에 의한 화자 등록 방법을 포함하는 화자 인식 방법을 제공하는 것을 목적으로 한다.
또한, 본 발명은 시간이나 환경변화에 따라 등록되어 있는 화자에 대한 음성 데이터를 적응하여 나갈 수 있는 화자 인식 방법을 제공하는 것을 목적으로 한다.
또한, 본 발명은 일반적인 잡음에 강인한 화자 인식 방법을 제공하는 것을 목적으로 한다.
상기한 목적을 실현하기 위한 본 발명의 일 실시예에 따른 화자 인식 방법은,
화자가 음성을 이용하여 지속적으로 반응하도록 연속적으로 요구하는 컨텐츠를 이용하여 화자의 기본데이터 및 화자의 음성 데이터를 입력받는 단계;
음성 데이터에서 화자의 음성만을 추출하는 단계;
화자의 음성으로부터 인식에 필요한 특징 벡터를 추출하는 단계;
상기 추출한 특징 벡터로부터 화자 모델을 만드는 단계; 및,
입력된 음성으로부터 파악된 정보에 기초하여 화자를 인식하는 단계를 포함한다.
또한, 본 발명에 따르면, 컴퓨터 프로그램이 적절히 프로그램된 시스템 상에서 실행될 때,
화자가 음성을 이용하여 지속적으로 반응하도록 연속적으로 요구하는 컨텐츠를 이용하여 화자의 기본데이터 및 화자의 음성 데이터를 입력받는 단계;
음성 데이터에서 화자의 음성만을 추출하는 단계;
화자의 음성으로부터 인식에 필요한 특징 벡터를 추출하는 단계;
상기 추출한 특징 벡터로부터 화자 모델을 만드는 단계; 및,
화자를 인식하는 단계를 실행함으로써, 상기 적절하게 프로그램된 시스템이 화자를 인식하도록 구현되는 컴퓨터 프로그램을 갖는 컴퓨터 판독가능한 저장매체가 제공된다.
또한, 상기한 목적을 실현하기 위한 본 발명의 또 다른 실시예에 따른 화자 인식 장치는,
화자가 음성을 이용하여 지속적으로 반응할 수 잇도록 요구하는 컨텐츠를 포함하고 있는 컨텐츠 저장부;
상기 컨텐츠를 외부로 출력하기 위한 출력수단;
컨텐츠 저장부에 저장되어 있는 컨텐츠가 상기 출력수단을 통하여 출력되는 과정을 제어하기 위한 컨텐츠 관리부;
상기 컨텐츠에 대응하여 생성되는 화자의 음성 정보를 입력받기 위한 입력수단;
상기 음성 신호로부터 상기 컨텐츠에 해당하는 소리를 제거하여 화자의 음성만을 추출하는 음성 추출부;
상기 추출된 화자의 음성으로부터 특징 벡터를 생성하는 특징 벡터 추출부;
상기 추출된 벡터에 기초하여 화자모델을 작성하는 화자모델 작성부;
상기 추출된 벡터에 기초하여 기존의 화자모델을 적응시키는 화자모델 적응부;
화자모델에 관한 정보를 저장하는 메모리부; 및,
상기 추출된 벡터에 기초하여 상기 메모리부에 저장되어 있는 화자 모델을 검색하여 화자를 인식하는 화자 인식부를 포함하여 구성된다.
이하 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있는 바람직한 실시예를 상세히 설명한다. 또한, 도면 전체에 걸쳐 유사한 기능 및 작용을 하는 부분에 대해서는 동일한 도면 부호를 사용한다.
이하, 본 발명의 제1 실시예에 따른 화자 인식 방법을 도 1을 참조하여 상세하게 설명한다. 도 1은 본 발명에 따른 화자 인식 방법을 개략적으로 설명하기 위한 흐름도이다.
먼저, 인식할 대상이 되는 화자에 식별 표지를 할당하기 위하여 화자의 기본 데이터를 입력받는다(S100). 일반적으로 가정에서 사용되는 서비스 로봇이 인식하여야 하는 가족 구성원이 2 이상이므로, 한 화자를 다른 화자와 구별할 수 있어야 한다. 따라서, 본 발명의 바람직한 실시예에 따른 화자 인식 방법에 의하여 서로 다른 구성원으로 인식된 화자에 대하여 서로 다른 식별 표지를 할당할 필요가 있다. 본 발명에 적용가능한 바람직한 실시예에 따르면, 상기 식별표지로는 키보드나 터치스크린과 같은 외부 입력장치를 통하여 입력받은 상기 각 화자의 이름이나 닉네임과 같은 호칭이 바람직하다.
인식할 대상이 되는 화자에 식별 표지를 할당하였다면, 상기 식별 표지를 할당받은 화자가 음성을 이용하여 지속적으로 반응하도록 연속적으로 요구한다(S105). 이는 다수 화자의 음성을 수집하여 통계적인 모델을 학습시키고, 학습된 모델을 이용하여 인식을 수행하는 일련의 과정이 자연스럽게 행하여 지도록 하기 위한 것이다. 이때, 상기 S105 단계를 위하여 상기 화자가 음성을 이용하여 반응하 도록 요구하기 위하여, 사용자가 음성을 이용하여 연속적으로 반응하도록 제작된 컨텐츠를 이용하여 화자의 음성 데이터를 입력받는 것이 바람직하다. 이러한 컨텐츠로는 음악을 들려주면서 화자로 하여금 따라부르도록 하는 음악 컨텐츠, 화자가 음성을 이용하여 반응하면서 게임을 즐기도록 하는 오락 컨텐츠 또는 화자가 음성을 이용하여 반응하면서 학습하는 교육 콘텐츠가 바람직하다.
화자가 상기 S105단계에 응하여 음성을 이용하여 반응하면, 이러한 화자의 음성을 입력받는다(S110). 화자의 음성을 입력받기 위해서는, 당업계에서 화자의 음성을 입력받은 수단으로 알려진 마이크와 같은 장치가 당업자의 선택에 의하여 사용될 수 있다.
이렇게 입력받은 음성 데이터로부터 화자의 음성만을 추출한다(S115). 상기 S110 단계에서 입력받은 음성 데이터에는 화자의 음성과 함께 주변의 소음 및 상기 S105 단계에서 사용된 컨텐츠에 관련된 소리도 포함되어 있다. 따라서, 상기 입력된 음성 데이터로는 다수 화자의 음성을 수집하여 통계적인 모델을 학습시키고, 학습된 모델을 이용하여 인식을 수행하기에 적합하지 않으므로, 화자의 음성만을 추출할 필요가 있다. 이때, 상기 화자의 음성과 함께 상기 음성 데이터에 포함된 주변의 소음은 위너 필터와 같은 잡음 제거용 필터를 사용하여 제거할 수 있으며, 상기 S105 단계에서 사용된 컨텐츠에 관련된 소리는 이미 알려진 파형이므로, 상기 음성 데이터에서 이를 제거하면 된다.
입력받은 음성 데이터로부터 화자의 음성만을 추출하였다면, 상기 화자의 음성으로부터 화자 인식에 필요한 특징 벡터를 추출한다(S120). 즉, 마이크를 통하여 입력된 음성이 시스템으로 들어오면 일정 시간, 예컨대 1/100초 마다 화자의 음성학적 특징을 잘 표현할 수 있는 특징벡터를 추출한다. 이 벡터들은 음성학적 특성을 잘 나타내며 그 이외의 요소, 즉 화자의 차이, 발음 태도 등에는 둔감해야 하는데, 대표적으로는 모든 주파수 대역에 동일하게 비중을 두어 분석하는 LPC(Linear Predictive Coding) 추출법, 사람의 음성인지 양상이 선형적이지 않고 로그스케일과 비슷한 멜 스케일을 따른다는 특성을 반영한 MFCC(Mel Frequency Cepstral Coefficients) 추출법, 음성과 잡음을 뚜렷하게 구별하기 위해 고주파 성분을 강조해주는 고역강조 추출법 및 음성을 짧은 구간으로 나누어 분석할 때 생기는 단절로 인한 왜곡현상을 최소화하는 창 함수 추출법 등이 있다. 이 중에서 특히, 본 발명의 목적을 달성하기 위해서는 음성 데이터로부터 스펙트럼 기반 청각특성을 적용한 멜 캡스트럽(MFCC)을 이용하여 특징값을 구별하는 추출법이 바람직하다.
화자의 음성 데이터로부터 특징벡터가 추출되면, 상기 화자의 특징벡터 분포를 파라미터화 하여 화자모델을 생성한다(S125). 이처럼 화자 모델을 만드는 방법으로는 가우시안 혼합모델(GMM: Gaussian Mixture Model), 숨은 마르코브 모델(HMM: Hidden Markov Model), 신경망(Neural Network) 등이 있다. 이 중에서 특히 본 발명의 목적을 달성하기 위해서는 가우시안 혼합모델이 바람직하다.
화자의 음성 데이터로부터 추출된 특징벡터들의 분포는 가우시안 혼합 밀도에 의해 수행되어진다. D차원의 특징벡터에 대해서, 화자에 대한 혼합 밀도는 다음 수학식 1과 같이 표현된다.
Figure 112006065182013-pat00001
여기서 wi는 혼합 가중치이며 bi 는 가우시안 혼합모델을 통해 얻어진 확률이다. 여기서 밀도는 평균벡터와 공분산 행렬에 의해 파라미터화 된 M개의 가우시안 혼합모델의 가중치된 선형적인 결합이다.
다음으로 입력된 음성으로부터 파악된 정보에 기초하여 화자 모델에 저장된 화자를 인식한다(S130). 이때, 화자의 인식은 상기 S100 단계에서 할당한 식별 표지를 사용하여 행한다
화자를 인식하기 위해서는 먼저 임의의 화자로부터 음성이 입력되었을 때 가우시안 혼합모델의 파라미터를 추정한다. 이러한 파라미터 추정 방법으로는 최도 우도 추정방법(maximum likelihood estimation)이 잘 알려져 있다. T개의 프레임으로 구성된 한 음성으로부터 얻어진 확률에 대해서, 가우시안 혼합모델의 우도 값은 다음 수학식 2에 의해 표현되어진다.
Figure 112006065182013-pat00002
여기서 화자 모델의 파라미터는 가중치, 평균, 공분산으로 구성된, i=1,2,...,M이다. 최대 우도 파라미터 추정은 EM(Expectation- Maximization) 알고리즘을 이용함으로써 얻어진다. 임의의 가족구성원 중 누군가가 발성을 했을 때 최대 사후 확률(maximum a posteriori probability)을 가진 화자 모델을 찾는 방법에 의해 화자를 찾게 된다. 그 방법은 다음 수학식 3에 의해 표현되어진다.
Figure 112006065182013-pat00003
본 발명에 적용할 수 있는 바람직한 실시예에는, 계속하여 입력되는 화자의 음성 데이터를 이용하여, 이미 생성된 화자 모델을 적응시켜 나가는 단계(S130)를 더 포함한다. 적응된 화자 모델을 얻는 방법으로는 베이지안 적응방법(Bayesian adaptation)이 잘 알려져있다. 이를 위해서 가중치, 평균, 분산 값들이 변하여 적응된 화자 모델을 얻는다. 이 방법은 일반화된 배경 모델을 이용해서 적응된 화자 모델을 구하는 방법과 유사하다. 이하에서는 세 번째 방법을 수식으로 전개하면서 설명한다.
임의의 등록된 화자의 j번째 가우시안 혼합모델은 다음 수학식 4에 의해 계산되어진다.
Figure 112006065182013-pat00004
통계적인 계산에 의해 다음 수학식 5와 같이 각각 가중치, 평균, 분산 파라미터를 계산한다.
Figure 112006065182013-pat00005
이들 파라미터들을 근거로 해서 적응계수와의 결합으로부터 j번째 혼합모델의 적응된 파라미터를 얻을 수가 있다. 이렇게 함으로써 시간이나 환경에 따라 변하는 음성에 대하여 새로운 화자 모델을 생성할 수가 있다.
이하, 본 발명의 제2 실시예에 따른 화자 인식 장치를 도 2를 참조하여 상세하게 설명한다. 도 2는 본 발명에 따른 화자 인식 장치를 개략적으로 설명하기 위 한 구조도이다.
컨텐츠 저장부(209)는 화자가 음성을 이용하여 지속적으로 반응할 수 있도록 요구하는 컨텐츠를 저장하고 있다. 이러한 컨텐츠로는 음악을 들려주면서 화자로 하여금 따라부르도록 하는 음악 컨텐츠, 화자가 음성을 이용하여 반응하면서 게임을 즐기도록 하는 오락 컨텐츠 또는 화자가 음성을 이용하여 반응하면서 학습하는 교육 콘텐츠가 바람직하다. 컨텐츠 관리부(208)는 컨텐츠 저장부(209)에 저장되어 있는 상기 컨텐츠를 출력수단(210)을 통해 외부 화자에게 출력되도록 관리한다.
입력수단(200)은 상기 컨텐츠에 대응하여 생성되는 화자의 음성 정보를 입력받기 위한 마이크와 같은 음성 입력장치와, 이처럼 음성을 입력받은 화자 각자의 이름이나 닉네임과 같은 호칭을 식별표지로서 입력받기 위한 키보드, 터치스크린과 같은 입력장치를 포함한다.
음성 추출부(202)는 상기 입력수단(200)을 통하여 입력받은 음성 신호로부터 화자의 음성만을 추출하기 위한 장치이다. 이때, 본 발명에 따른 바람직한 화자 인식 장치는 상기 입력수단(200)을 통하여 입력받은 음성 신호로부터 잡음을 제거하기 위하여 잡음 제거 필터(201), 예컨대 위너필터(winer filter)를 포함하는 것이 바람직하다.
이렇게 상기 음성 추출부(202)에 의하여 화자의 음성이 추출되면, 특징 벡터 추출부(203)은 화자 인식에 필요한 특징 벡터를 추출한다. 즉, 입력수단(200)을 통하여 입력된 음성이 시스템으로 들어오면 일정 시간, 예컨대 1/100초 마다 화자의 음성학적 특징을 잘 표현할 수 있는 특징벡터를 추출한다.
화자모델 작성부(205)는 상기 추출된 화자의 음성 데이터의 특징벡터 분포를 파라미터화 하여 화자모델을 생성하여, 메모리부(207)에 저장한다.
화자 인식부(206)는 상기 추출된 화자의 음성 데이터의 특징벡터에 기초하여 상기 메모리부(207)에 저장되어 있는 화자 모델을 검색하여 화자를 인식한다.
이때, 화자모델 적응부(204)는 상기 컨텐츠에 의하여 계속하여 입력되는 화자의 음성 데이터를 이용하여, 이미 생성된 화자 모델을 적응시키기 위해, 메모리부(207)에 저장되어 있는 화자모델을 계속하여 갱신한다.
이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 당업자에게 있어 명백할 것이다.
상기와 같은 본 발명은 가정용 서비스 로봇에 있어서, 자연스럽게 적응적으로 행하여지는 온라인 방식에 의한 화자 등록 방법을 포함하는 화자 인식 방법을 제공한다. 또한, 본 발명은 시간이나 환경변화에 따라 등록되어 있는 화자에 대한 음성 데이터를 적응하여 나갈 수 있는 화자 인식 방법을 제공한다.

Claims (15)

  1. 화자가 음성을 이용하여 지속적으로 반응하도록 연속적으로 요구하는 컨텐츠를 이용하여 화자의 기본데이터 및 화자의 음성 데이터를 입력받는 단계;
    음성 데이터에서 화자의 음성만을 추출하는 단계;
    화자의 음성으로부터 인식에 필요한 특징 벡터를 추출하는 단계;
    상기 추출한 특징 벡터로부터 화자 모델을 만드는 단계; 및,
    입력된 음성으로부터 파악된 정보에 기초하여 화자 모델에 저장된 화자를 인식하는 단계를 포함하는 화자 인식 방법.
  2. 제 1항에 있어서,
    화자의 음성 데이터를 입력받는 단계 이전에 인식할 대상이 되는 화자의 기본 데이터를 등록받는 단계를 더 포함하는 것을 특징으로 하는 화자 인식 방법.
  3. 제 2항에 있어서,
    상기 화자의 기본 데이터는 화자의 호칭인 것을 특징으로 하는 화자 인식 방법.
  4. 제 1항에 있어서,
    상기 컨텐츠는 음악 컨텐츠, 오락 컨텐츠 또는 교육 컨텐츠 중에서 선택되는 어느 하나인 것을 특징으로 하는 화자 인식 방법.
  5. 제 1항에 있어서,
    상기 음성 데이터에서 화자의 음성만을 추출하는 단계는, 상기 음성 데이터에서 잡음을 제거하는 과정 및 상기 음성 데이터에서 컨텐츠에 해당되는 소리를 제거하는 과정을 포함하는 것을 특징으로 하는 화자 인식 방법.
  6. 제 1항에 있어서,
    화자의 음성으로부터 인식에 필요한 특징 벡터를 추출하는 단계는 멜 캠스트럽(MFCC)을 이용하는 추출법을 사용하는 것을 특징으로 하는 화자 인식 방법.
  7. 제 1항에 있어서,
    상기 추출한 특징 벡터로부터 화자 모델을 만드는 단계는 가우시안 혼합모델을 이용하여 화자 모델을 생성하는 것을 특징으로 하는 화자 인식 방법.
  8. 제 1항에 있어서,
    화자를 인식하는 단계에서 사용되는 입력된 음성으로부터 파악된 정보는 하기 수학식 2를 통하여 얻은 우도값이고,
    [수학식 2]
    Figure 112006065182013-pat00006
    (여기서 화자 모델의 파라미터는 가중치, 평균, 공분산으로 구성된, i=1,2,...,M이다.)
    상기 정보에 기초하여 화자 모델에 저장된 화자를 인식하는 과정은 하기 수학식 3을 통하여 얻은 최대 사후 확률을 가진 화자 모델을 찾는 과정인 것을 특징으로 하는 화자 인식 방법.
    [수학식 3]
    Figure 112006065182013-pat00007
  9. 제 1항에 있어서,
    화자의 음성으로부터 추출된 인식에 필요한 특징 벡터를 이용하여 이미 생성된 화자 모델을 적응시켜 나가는 단계를 더 포함하는 것을 특징으로 하는 화자 인식 방법.
  10. 제 9항에 있어서,
    이미 생성된 화자 모델을 적응시켜 나가는 단계는 임의의 등록된 화자의 j번 째 가우시안 혼합모델은 다음 수학식 4에 의해 계산한 다음,
    [수학식 4]
    Figure 112006065182013-pat00008
    통계적인 계산에 의해 다음 수학식 5와 같이 각각 가중치, 평균, 분산 파라미터를 계산하여, 이들 파라미터들을 근거로 해서 적응계수와의 결합으로부터 j번째 혼합모델의 적응된 파라미터를 얻으므로써, 새로운 화자 모델을 생성하는 것을 특징으로 하는 화자 인식 방법.
    [수학식 5]
    Figure 112006065182013-pat00009
  11. 컴퓨터 프로그램이 적절히 프로그램된 시스템 상에서 실행될 때,
    화자가 음성을 이용하여 지속적으로 반응하도록 연속적으로 요구하는 컨텐츠를 이용하여 화자의 기본데이터 및 화자의 음성 데이터를 입력받는 단계;
    음성 데이터에서 화자의 음성만을 추출하는 단계;
    화자의 음성으로부터 인식에 필요한 특징 벡터를 추출하는 단계;
    상기 추출한 특징 벡터로부터 화자 모델을 만드는 단계; 및,
    화자를 인식하는 단계를 실행함으로써, 상기 적절하게 프로그램된 시스템이 화자를 인식하도록 구현되는 컴퓨터 프로그램을 갖는 컴퓨터 판독가능한 저장매체.
  12. 화자가 음성을 이용하여 지속적으로 반응할 수 잇도록 요구하는 컨텐츠를 포함하고 있는 컨텐츠 저장부;
    상기 컨텐츠를 외부로 출력하기 위한 출력수단;
    컨텐츠 저장부에 저장되어 있는 컨텐츠가 상기 출력수단을 통하여 출력되는 과정을 제어하기 위한 컨텐츠 관리부;
    상기 컨텐츠에 대응하여 생성되는 화자의 음성 정보를 입력받기 위한 입력수단;
    상기 음성 신호로부터 상기 컨텐츠에 해당하는 소리를 제거하여 화자의 음성만을 추출하는 음성 추출부;
    상기 추출된 화자의 음성으로부터 특징 벡터를 생성하는 특징 벡터 추출부;
    상기 추출된 벡터에 기초하여 화자의 화자모델을 작성하는 화자모델 작성부;
    상기 추출된 벡터에 기초하여 화자의 화자모델을 적응시키는 화자모델 훈련부;
    화자모델에 관한 정보를 저장하는 메모리부; 및
    상기 추출된 벡터에 기초하여 상기 메모리부에 저장되어 있는 화자 모델을 검색하여 화자를 인식하는 화자 인식부를 포함하여 구성되는 화자 인식 장치.
  13. 제 12항에 있어서,
    상기 음성 입력장치로 음성을 입력받은 화자 각자의 호칭을 식별표지로서 입력받기 위한 입력장치를 더 포함하는 것을 특징으로 하는 화자 인식 장치.
  14. 제 12항에 있어서,
    상기 콘텐츠 저장 장치에 저장된 컨텐츠는 음악 컨텐츠, 오락 컨텐츠 또는 교육 컨텐츠 중에서 선택되는 어느 하나인 것을 특징으로 하는 화자 인식 장치.
  15. 제 12항 내지 제 14항 중 어느 한 항의 화자 인식 장치를 포함하여 구성되는 가정용 서비스 로봇.
KR1020060087004A 2006-09-08 2006-09-08 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치 KR100826875B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020060087004A KR100826875B1 (ko) 2006-09-08 2006-09-08 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치
US11/684,691 US20080065380A1 (en) 2006-09-08 2007-03-12 On-line speaker recognition method and apparatus thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060087004A KR100826875B1 (ko) 2006-09-08 2006-09-08 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치

Publications (2)

Publication Number Publication Date
KR20080023030A KR20080023030A (ko) 2008-03-12
KR100826875B1 true KR100826875B1 (ko) 2008-05-06

Family

ID=39170862

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060087004A KR100826875B1 (ko) 2006-09-08 2006-09-08 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치

Country Status (2)

Country Link
US (1) US20080065380A1 (ko)
KR (1) KR100826875B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100994930B1 (ko) 2008-07-21 2010-11-17 주식회사 씨에스 음성인식 기반 홈네트워크 시스템의 적응화 음성 인식 제어방법 및 그 시스템
US10410638B2 (en) 2015-02-27 2019-09-10 Samsung Electronics Co., Ltd. Method and device for transforming feature vector for user recognition

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101460059B1 (ko) * 2007-12-17 2014-11-12 삼성전자주식회사 잡음 검출 방법 및 장치
US8639502B1 (en) 2009-02-16 2014-01-28 Arrowhead Center, Inc. Speaker model-based speech enhancement system
TWI396184B (zh) * 2009-09-17 2013-05-11 Tze Fen Li 一種語音辨認所有語言及用語音輸入單字的方法
US20120116764A1 (en) * 2010-11-09 2012-05-10 Tze Fen Li Speech recognition method on sentences in all languages
JP5494468B2 (ja) * 2010-12-27 2014-05-14 富士通株式会社 状態検出装置、状態検出方法および状態検出のためのプログラム
DE102011086728B4 (de) * 2011-11-21 2014-06-05 Siemens Medical Instruments Pte. Ltd. Hörvorrichtung mit einer Einrichtung zum Verringern eines Mikrofonrauschens und Verfahren zum Verringern eines Mikrofonrauschens
US20140136204A1 (en) * 2012-11-13 2014-05-15 GM Global Technology Operations LLC Methods and systems for speech systems
GB2523353B (en) * 2014-02-21 2017-03-01 Jaguar Land Rover Ltd System for use in a vehicle
KR20150145024A (ko) 2014-06-18 2015-12-29 한국전자통신연구원 화자적응 음성인식 시스템의 단말 및 서버와 그 운용 방법
KR102339657B1 (ko) * 2014-07-29 2021-12-16 삼성전자주식회사 전자 장치 및 이의 제어 방법
US9437193B2 (en) * 2015-01-21 2016-09-06 Microsoft Technology Licensing, Llc Environment adjusted speaker identification
KR102434604B1 (ko) 2016-01-05 2022-08-23 한국전자통신연구원 개인화된 음성 인식을 수행하기 위한 음성 인식 단말, 음성 인식 서버 및 음성 인식 방법
KR102196764B1 (ko) * 2016-08-29 2020-12-30 주식회사 케이티 화자 분류 장치 및 화자 식별 장치
CN108010531B (zh) * 2017-12-14 2021-07-27 南京美桥信息科技有限公司 一种可视智能问询方法及系统
CN108847237A (zh) * 2018-07-27 2018-11-20 重庆柚瓣家科技有限公司 连续语音识别方法及系统
KR102127126B1 (ko) * 2018-08-03 2020-06-26 엘지전자 주식회사 음성 판독 장치
CN109660833A (zh) * 2018-12-19 2019-04-19 四川省有线广播电视网络股份有限公司 智能语音电视系统终端门户设计方法
CN110782903A (zh) * 2019-10-23 2020-02-11 国家计算机网络与信息安全管理中心 一种说话人识别方法及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5761329A (en) 1995-12-15 1998-06-02 Chen; Tsuhan Method and apparatus employing audio and video data from an individual for authentication purposes
JP2001265387A (ja) 2000-03-23 2001-09-28 Fujitsu Ltd 話者照合装置及び方法
KR20010102549A (ko) * 1999-03-11 2001-11-15 내쉬 로저 윌리엄 화자 인식 방법 및 장치
KR20050048214A (ko) * 2003-11-19 2005-05-24 학교법인연세대학교 화자인식시스템의 화자 특징벡터 생성방법 및 시스템
KR20050050466A (ko) * 2003-11-25 2005-05-31 한국전자통신연구원 Svm을 이용한 화자 등록 및 인증 시스템과 그 방법

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5749066A (en) * 1995-04-24 1998-05-05 Ericsson Messaging Systems Inc. Method and apparatus for developing a neural network for phoneme recognition
US5848163A (en) * 1996-02-02 1998-12-08 International Business Machines Corporation Method and apparatus for suppressing background music or noise from the speech input of a speech recognizer
US6253179B1 (en) * 1999-01-29 2001-06-26 International Business Machines Corporation Method and apparatus for multi-environment speaker verification
US6978238B2 (en) * 1999-07-12 2005-12-20 Charles Schwab & Co., Inc. Method and system for identifying a user by voice
US6401063B1 (en) * 1999-11-09 2002-06-04 Nortel Networks Limited Method and apparatus for use in speaker verification
US6804647B1 (en) * 2001-03-13 2004-10-12 Nuance Communications Method and system for on-line unsupervised adaptation in speaker verification
DE60213595T2 (de) * 2001-05-10 2007-08-09 Koninklijke Philips Electronics N.V. Hintergrundlernen von sprecherstimmen
US7054817B2 (en) * 2002-01-25 2006-05-30 Canon Europa N.V. User interface for speech model generation and testing
US7620547B2 (en) * 2002-07-25 2009-11-17 Sony Deutschland Gmbh Spoken man-machine interface with speaker identification
US7815507B2 (en) * 2004-06-18 2010-10-19 Igt Game machine user interface using a non-contact eye motion recognition device
US7424427B2 (en) * 2002-10-17 2008-09-09 Verizon Corporate Services Group Inc. Systems and methods for classifying audio into broad phoneme classes
US7519186B2 (en) * 2003-04-25 2009-04-14 Microsoft Corporation Noise reduction systems and methods for voice applications
JP4213716B2 (ja) * 2003-07-31 2009-01-21 富士通株式会社 音声認証システム
US7490043B2 (en) * 2005-02-07 2009-02-10 Hitachi, Ltd. System and method for speaker verification using short utterance enrollments

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5761329A (en) 1995-12-15 1998-06-02 Chen; Tsuhan Method and apparatus employing audio and video data from an individual for authentication purposes
KR20010102549A (ko) * 1999-03-11 2001-11-15 내쉬 로저 윌리엄 화자 인식 방법 및 장치
JP2001265387A (ja) 2000-03-23 2001-09-28 Fujitsu Ltd 話者照合装置及び方法
KR20050048214A (ko) * 2003-11-19 2005-05-24 학교법인연세대학교 화자인식시스템의 화자 특징벡터 생성방법 및 시스템
KR20050050466A (ko) * 2003-11-25 2005-05-31 한국전자통신연구원 Svm을 이용한 화자 등록 및 인증 시스템과 그 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100994930B1 (ko) 2008-07-21 2010-11-17 주식회사 씨에스 음성인식 기반 홈네트워크 시스템의 적응화 음성 인식 제어방법 및 그 시스템
US10410638B2 (en) 2015-02-27 2019-09-10 Samsung Electronics Co., Ltd. Method and device for transforming feature vector for user recognition

Also Published As

Publication number Publication date
KR20080023030A (ko) 2008-03-12
US20080065380A1 (en) 2008-03-13

Similar Documents

Publication Publication Date Title
KR100826875B1 (ko) 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치
JP4590692B2 (ja) 音響モデル作成装置及びその方法
KR102410914B1 (ko) 음성 인식을 위한 모델 구축 장치 및 음성 인식 장치 및 방법
EP1557822B1 (en) Automatic speech recognition adaptation using user corrections
KR101153078B1 (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
JP6654611B2 (ja) 成長型対話装置
KR20120054845A (ko) 로봇의 음성인식방법
CN102280106A (zh) 用于移动通信终端的语音网络搜索方法及其装置
CN109313892A (zh) 稳健的语言识别方法和系统
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
KR101065188B1 (ko) 진화 학습에 의한 화자 적응 장치 및 방법과 이를 이용한 음성인식 시스템
CN111968645B (zh) 一种个性化的语音控制系统
KR20040088368A (ko) 스위칭 상태 공간 모델들을 갖는 변분 추론을 사용하는음성 인식 방법
Yin et al. Automatic cognitive load detection from speech features
CN116665669A (zh) 一种基于人工智能的语音交互方法及系统
KR20100068530A (ko) 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치 및 방법
Herbig et al. Self-learning speaker identification for enhanced speech recognition
Grewal et al. Isolated word recognition system for English language
Ons et al. A self learning vocal interface for speech-impaired users
KR20170086233A (ko) 라이프 음성 로그 및 라이프 영상 로그를 이용한 점증적 음향 모델 및 언어 모델 학습 방법
Loh et al. Speech recognition interactive system for vehicle
KR102113879B1 (ko) 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치
JP2003177779A (ja) 音声認識のための話者学習法
JP2000194392A (ja) 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体
WO1996013830A1 (en) Decision tree classifier designed using hidden markov models

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120330

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20130325

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee