KR100826875B1

KR100826875B1 - 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치

Info

Publication number: KR100826875B1
Application number: KR1020060087004A
Authority: KR
Inventors: 곽근창; 배경숙; 윤호섭; 김혜진; 지수영
Original assignee: 한국전자통신연구원
Priority date: 2006-09-08
Filing date: 2006-09-08
Publication date: 2008-05-06
Also published as: KR20080023030A; US20080065380A1

Abstract

본 발명은 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치에 관한 것으로서, 가정용 서비스 로봇에 있어서 화자의 음성에 관한 데이터를 미리 설정할 필요가 없고, 시간이나 환경변화에 따라 등록되어 있는 화자에 대한 음성 데이터를 적응해 나갈 수 있으며, 일반적인 잡음에 강인한 특성을 갖추도록 하기 위하여 화자가 음성을 이용하여 지속적으로 반응하도록 연속적으로 요구하는 컨텐츠를 이용하여 화자의 기본데이터 및 화자의 음성 데이터를 입력받는 단계; 음성 데이터에서 화자의 음성만을 추출하는 단계; 화자의 음성으로부터 인식에 필요한 특징 벡터를 추출하는 단계; 상기 추출한 특징 벡터로부터 화자 모델을 만드는 단계; 및, 입력된 음성으로부터 파악된 정보에 기초하여 화자 모델에 저장된 화자를 인식하는 단계를 포함하는 화자 인식 방법을 제공한다.

가정용 서비스 로봇, 화자 인식, 음성 인식, 컨텐츠

Description

온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치{ON-LINE SPEAKER RECOGNITION METHOD AND APPARATUS FOR THEREOF}

도 1은 본 발명에 따른 화자 인식 방법을 개략적으로 설명하기 위한 흐름도이다.

도 2는 본 발명에 따른 화자 인식 장치를 개략적으로 설명하기 위한 구조도이다.

본 발명은 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치에 관한 것이다.

로봇 기술의 발달에 따라 일반 가정에서 여러가지 서비스를 제공할 수 있는 가정용 서비스 로봇들이 제작되어 보급되고 있다. 이러한 가정용 서비스 로봇이 제공하는 서비스는 관련 기술분야의 발전에 영향받아 보다 복잡하고 고차원적인 분야로까지 확대되고 있다. 이에 가정용 서비스 로봇이 가족 구성원을 구별하여 인식할 수 있는 기술에 대한 필요성이 제기고 있는바, 이러한 화자인식 기술로서 특히 얼굴인식과 함께 음성을 이용한 화자 인식기술의 필요성이 증대되고 있다.

음성을 이용한 화자 인식을 위한 화자등록기술은 로봇 환경에서는 구체적으로 알려지지 않았으며, 주로 보안 분야에서 이루어지고 있다. 잘 알려진 방법으로는 문장 종속형 화자인식 방법, 문장 제시형 화자인식 방법 및 문장 독립형 화자인식 방법이 있다.

문장 독립형 화자인식 방법은 화자 인식의 대상이 되는 화자의 음성적인 특성에 대한 일반화된 배경 모델을 이용하여 화자 인식을 행한다. 따라서, 화자는 복잡한 과정을 거칠 필요 없이 자연스럽게 화자 인식이 가능하다는 장점이 있으나, 이러한 방법에 의하여 화자 인식을 행하기 위해서는 다수 화자의 음성에 관한 일반화된 특징을 배경 모델로 구축해야 하기 때문에 많은 시간과 노력을 기울여야 하고, 이러한 배경 모델에 따라 인식률에 차이가 크게 발생한다는 문제가 있었다.

이에 반하여, 문장 종속형 화자인식 방법에서 사용되는 화자 등록 방법은 미리 알려진 문장을 주고 따라 읽도록 하여 등록하고, 문장 제시형 화자인식 방법에서는 미리 정해진 틀 내에서 임의로 선택되는 연속 숫자나 문장을 따라 읽도록 하여 화자를 등록한다. 상기 두 방법 모두 화자 인식의 대상이 되는 화자의 음성을 미리 저장, 등록시킬 때에 미리 정해진 숫자나 문장만을 사용하기 때문에, 발성해야 하는 문장이 적어 기술 구현이 용이하고 실용화에 유리하다는 장점이 있다.

그러나, 이는 발성해야 하는 문장이 적다는 특징 때문에, 화자의 음성적인 특성이 충분히 반영되지 못하여 인식률이 낮아질 수 있다는 문제점이 있어, 어떠한 문장에도 상관없이 좋은 인식 성능을 보여주어야 하는 로봇 분야에는 적합하지 않다는 문제가 있다.

또한, 가정용 서비스 로봇에 있어서 화자 인식 기술을 수행하기 위해서는, 일반 가정에서 사용되는 로봇이라는 특성상, 로봇을 사용하기 이전에 가족 구성원의 음성에 관한 데이터를 미리 설정해 놓아야 하는 오프라인 방식이 아니라, 자연스럽게 적응적으로 행하여지는 온라인 방식의 화자등록이 가능하여야 하고, 시간이나 환경변화에 따라 등록되어 있는 화자에 대한 음성 데이터를 적응해 나가야 할 필요가 있다.

또한, 상기와 같은 가정용 서비스 로봇이 사용되는 실제 가정환경은 다양한 규칙적이거나 규칙적이지 않은 소음뿐만 아니라 상기 로봇에 의하여 만들어지는 소음의 영향을 계속하여 받고 있기 때문에, 일반적인 잡음에 강인한 특성이 요구된다.

본 발명은 상기와 같은 문제를 해결하기 위하여, 온라인 방식에 의한 화자 등록 방법을 포함하는 화자 인식 방법을 제공하는 것을 목적으로 한다.

또한, 본 발명은 시간이나 환경변화에 따라 등록되어 있는 화자에 대한 음성 데이터를 적응하여 나갈 수 있는 화자 인식 방법을 제공하는 것을 목적으로 한다.

또한, 본 발명은 일반적인 잡음에 강인한 화자 인식 방법을 제공하는 것을 목적으로 한다.

상기한 목적을 실현하기 위한 본 발명의 일 실시예에 따른 화자 인식 방법은,

화자가 음성을 이용하여 지속적으로 반응하도록 연속적으로 요구하는 컨텐츠를 이용하여 화자의 기본데이터 및 화자의 음성 데이터를 입력받는 단계;

음성 데이터에서 화자의 음성만을 추출하는 단계;

화자의 음성으로부터 인식에 필요한 특징 벡터를 추출하는 단계;

상기 추출한 특징 벡터로부터 화자 모델을 만드는 단계; 및,

입력된 음성으로부터 파악된 정보에 기초하여 화자를 인식하는 단계를 포함한다.

또한, 본 발명에 따르면, 컴퓨터 프로그램이 적절히 프로그램된 시스템 상에서 실행될 때,

음성 데이터에서 화자의 음성만을 추출하는 단계;

상기 추출한 특징 벡터로부터 화자 모델을 만드는 단계; 및,

화자를 인식하는 단계를 실행함으로써, 상기 적절하게 프로그램된 시스템이 화자를 인식하도록 구현되는 컴퓨터 프로그램을 갖는 컴퓨터 판독가능한 저장매체가 제공된다.

또한, 상기한 목적을 실현하기 위한 본 발명의 또 다른 실시예에 따른 화자 인식 장치는,

화자가 음성을 이용하여 지속적으로 반응할 수 잇도록 요구하는 컨텐츠를 포함하고 있는 컨텐츠 저장부;

상기 컨텐츠를 외부로 출력하기 위한 출력수단;

컨텐츠 저장부에 저장되어 있는 컨텐츠가 상기 출력수단을 통하여 출력되는 과정을 제어하기 위한 컨텐츠 관리부;

상기 컨텐츠에 대응하여 생성되는 화자의 음성 정보를 입력받기 위한 입력수단;

상기 음성 신호로부터 상기 컨텐츠에 해당하는 소리를 제거하여 화자의 음성만을 추출하는 음성 추출부;

상기 추출된 화자의 음성으로부터 특징 벡터를 생성하는 특징 벡터 추출부;

상기 추출된 벡터에 기초하여 화자모델을 작성하는 화자모델 작성부;

상기 추출된 벡터에 기초하여 기존의 화자모델을 적응시키는 화자모델 적응부;

화자모델에 관한 정보를 저장하는 메모리부; 및,

상기 추출된 벡터에 기초하여 상기 메모리부에 저장되어 있는 화자 모델을 검색하여 화자를 인식하는 화자 인식부를 포함하여 구성된다.

이하 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있는 바람직한 실시예를 상세히 설명한다. 또한, 도면 전체에 걸쳐 유사한 기능 및 작용을 하는 부분에 대해서는 동일한 도면 부호를 사용한다.

이하, 본 발명의 제1 실시예에 따른 화자 인식 방법을 도 1을 참조하여 상세하게 설명한다. 도 1은 본 발명에 따른 화자 인식 방법을 개략적으로 설명하기 위한 흐름도이다.

먼저, 인식할 대상이 되는 화자에 식별 표지를 할당하기 위하여 화자의 기본 데이터를 입력받는다(S100). 일반적으로 가정에서 사용되는 서비스 로봇이 인식하여야 하는 가족 구성원이 2 이상이므로, 한 화자를 다른 화자와 구별할 수 있어야 한다. 따라서, 본 발명의 바람직한 실시예에 따른 화자 인식 방법에 의하여 서로 다른 구성원으로 인식된 화자에 대하여 서로 다른 식별 표지를 할당할 필요가 있다. 본 발명에 적용가능한 바람직한 실시예에 따르면, 상기 식별표지로는 키보드나 터치스크린과 같은 외부 입력장치를 통하여 입력받은 상기 각 화자의 이름이나 닉네임과 같은 호칭이 바람직하다.

인식할 대상이 되는 화자에 식별 표지를 할당하였다면, 상기 식별 표지를 할당받은 화자가 음성을 이용하여 지속적으로 반응하도록 연속적으로 요구한다(S105). 이는 다수 화자의 음성을 수집하여 통계적인 모델을 학습시키고, 학습된 모델을 이용하여 인식을 수행하는 일련의 과정이 자연스럽게 행하여 지도록 하기 위한 것이다. 이때, 상기 S105 단계를 위하여 상기 화자가 음성을 이용하여 반응하 도록 요구하기 위하여, 사용자가 음성을 이용하여 연속적으로 반응하도록 제작된 컨텐츠를 이용하여 화자의 음성 데이터를 입력받는 것이 바람직하다. 이러한 컨텐츠로는 음악을 들려주면서 화자로 하여금 따라부르도록 하는 음악 컨텐츠, 화자가 음성을 이용하여 반응하면서 게임을 즐기도록 하는 오락 컨텐츠 또는 화자가 음성을 이용하여 반응하면서 학습하는 교육 콘텐츠가 바람직하다.

화자가 상기 S105단계에 응하여 음성을 이용하여 반응하면, 이러한 화자의 음성을 입력받는다(S110). 화자의 음성을 입력받기 위해서는, 당업계에서 화자의 음성을 입력받은 수단으로 알려진 마이크와 같은 장치가 당업자의 선택에 의하여 사용될 수 있다.

이렇게 입력받은 음성 데이터로부터 화자의 음성만을 추출한다(S115). 상기 S110 단계에서 입력받은 음성 데이터에는 화자의 음성과 함께 주변의 소음 및 상기 S105 단계에서 사용된 컨텐츠에 관련된 소리도 포함되어 있다. 따라서, 상기 입력된 음성 데이터로는 다수 화자의 음성을 수집하여 통계적인 모델을 학습시키고, 학습된 모델을 이용하여 인식을 수행하기에 적합하지 않으므로, 화자의 음성만을 추출할 필요가 있다. 이때, 상기 화자의 음성과 함께 상기 음성 데이터에 포함된 주변의 소음은 위너 필터와 같은 잡음 제거용 필터를 사용하여 제거할 수 있으며, 상기 S105 단계에서 사용된 컨텐츠에 관련된 소리는 이미 알려진 파형이므로, 상기 음성 데이터에서 이를 제거하면 된다.

입력받은 음성 데이터로부터 화자의 음성만을 추출하였다면, 상기 화자의 음성으로부터 화자 인식에 필요한 특징 벡터를 추출한다(S120). 즉, 마이크를 통하여 입력된 음성이 시스템으로 들어오면 일정 시간, 예컨대 1/100초 마다 화자의 음성학적 특징을 잘 표현할 수 있는 특징벡터를 추출한다. 이 벡터들은 음성학적 특성을 잘 나타내며 그 이외의 요소, 즉 화자의 차이, 발음 태도 등에는 둔감해야 하는데, 대표적으로는 모든 주파수 대역에 동일하게 비중을 두어 분석하는 LPC(Linear Predictive Coding) 추출법, 사람의 음성인지 양상이 선형적이지 않고 로그스케일과 비슷한 멜 스케일을 따른다는 특성을 반영한 MFCC(Mel Frequency Cepstral Coefficients) 추출법, 음성과 잡음을 뚜렷하게 구별하기 위해 고주파 성분을 강조해주는 고역강조 추출법 및 음성을 짧은 구간으로 나누어 분석할 때 생기는 단절로 인한 왜곡현상을 최소화하는 창 함수 추출법 등이 있다. 이 중에서 특히, 본 발명의 목적을 달성하기 위해서는 음성 데이터로부터 스펙트럼 기반 청각특성을 적용한 멜 캡스트럽(MFCC)을 이용하여 특징값을 구별하는 추출법이 바람직하다.

화자의 음성 데이터로부터 특징벡터가 추출되면, 상기 화자의 특징벡터 분포를 파라미터화 하여 화자모델을 생성한다(S125). 이처럼 화자 모델을 만드는 방법으로는 가우시안 혼합모델(GMM: Gaussian Mixture Model), 숨은 마르코브 모델(HMM: Hidden Markov Model), 신경망(Neural Network) 등이 있다. 이 중에서 특히 본 발명의 목적을 달성하기 위해서는 가우시안 혼합모델이 바람직하다.

화자의 음성 데이터로부터 추출된 특징벡터들의 분포는 가우시안 혼합 밀도에 의해 수행되어진다. D차원의 특징벡터에 대해서, 화자에 대한 혼합 밀도는 다음 수학식 1과 같이 표현된다.

여기서 w_i는 혼합 가중치이며 b_i 는 가우시안 혼합모델을 통해 얻어진 확률이다. 여기서 밀도는 평균벡터와 공분산 행렬에 의해 파라미터화 된 M개의 가우시안 혼합모델의 가중치된 선형적인 결합이다.

다음으로 입력된 음성으로부터 파악된 정보에 기초하여 화자 모델에 저장된 화자를 인식한다(S130). 이때, 화자의 인식은 상기 S100 단계에서 할당한 식별 표지를 사용하여 행한다

화자를 인식하기 위해서는 먼저 임의의 화자로부터 음성이 입력되었을 때 가우시안 혼합모델의 파라미터를 추정한다. 이러한 파라미터 추정 방법으로는 최도 우도 추정방법(maximum likelihood estimation)이 잘 알려져 있다. T개의 프레임으로 구성된 한 음성으로부터 얻어진 확률에 대해서, 가우시안 혼합모델의 우도 값은 다음 수학식 2에 의해 표현되어진다.

여기서 화자 모델의 파라미터는 가중치, 평균, 공분산으로 구성된, i=1,2,...,M이다. 최대 우도 파라미터 추정은 EM(Expectation- Maximization) 알고리즘을 이용함으로써 얻어진다. 임의의 가족구성원 중 누군가가 발성을 했을 때 최대 사후 확률(maximum a posteriori probability)을 가진 화자 모델을 찾는 방법에 의해 화자를 찾게 된다. 그 방법은 다음 수학식 3에 의해 표현되어진다.

본 발명에 적용할 수 있는 바람직한 실시예에는, 계속하여 입력되는 화자의 음성 데이터를 이용하여, 이미 생성된 화자 모델을 적응시켜 나가는 단계(S130)를 더 포함한다. 적응된 화자 모델을 얻는 방법으로는 베이지안 적응방법(Bayesian adaptation)이 잘 알려져있다. 이를 위해서 가중치, 평균, 분산 값들이 변하여 적응된 화자 모델을 얻는다. 이 방법은 일반화된 배경 모델을 이용해서 적응된 화자 모델을 구하는 방법과 유사하다. 이하에서는 세 번째 방법을 수식으로 전개하면서 설명한다.

임의의 등록된 화자의 j번째 가우시안 혼합모델은 다음 수학식 4에 의해 계산되어진다.

통계적인 계산에 의해 다음 수학식 5와 같이 각각 가중치, 평균, 분산 파라미터를 계산한다.

이들 파라미터들을 근거로 해서 적응계수와의 결합으로부터 j번째 혼합모델의 적응된 파라미터를 얻을 수가 있다. 이렇게 함으로써 시간이나 환경에 따라 변하는 음성에 대하여 새로운 화자 모델을 생성할 수가 있다.

이하, 본 발명의 제2 실시예에 따른 화자 인식 장치를 도 2를 참조하여 상세하게 설명한다. 도 2는 본 발명에 따른 화자 인식 장치를 개략적으로 설명하기 위 한 구조도이다.

컨텐츠 저장부(209)는 화자가 음성을 이용하여 지속적으로 반응할 수 있도록 요구하는 컨텐츠를 저장하고 있다. 이러한 컨텐츠로는 음악을 들려주면서 화자로 하여금 따라부르도록 하는 음악 컨텐츠, 화자가 음성을 이용하여 반응하면서 게임을 즐기도록 하는 오락 컨텐츠 또는 화자가 음성을 이용하여 반응하면서 학습하는 교육 콘텐츠가 바람직하다. 컨텐츠 관리부(208)는 컨텐츠 저장부(209)에 저장되어 있는 상기 컨텐츠를 출력수단(210)을 통해 외부 화자에게 출력되도록 관리한다.

입력수단(200)은 상기 컨텐츠에 대응하여 생성되는 화자의 음성 정보를 입력받기 위한 마이크와 같은 음성 입력장치와, 이처럼 음성을 입력받은 화자 각자의 이름이나 닉네임과 같은 호칭을 식별표지로서 입력받기 위한 키보드, 터치스크린과 같은 입력장치를 포함한다.

음성 추출부(202)는 상기 입력수단(200)을 통하여 입력받은 음성 신호로부터 화자의 음성만을 추출하기 위한 장치이다. 이때, 본 발명에 따른 바람직한 화자 인식 장치는 상기 입력수단(200)을 통하여 입력받은 음성 신호로부터 잡음을 제거하기 위하여 잡음 제거 필터(201), 예컨대 위너필터(winer filter)를 포함하는 것이 바람직하다.

이렇게 상기 음성 추출부(202)에 의하여 화자의 음성이 추출되면, 특징 벡터 추출부(203)은 화자 인식에 필요한 특징 벡터를 추출한다. 즉, 입력수단(200)을 통하여 입력된 음성이 시스템으로 들어오면 일정 시간, 예컨대 1/100초 마다 화자의 음성학적 특징을 잘 표현할 수 있는 특징벡터를 추출한다.

화자모델 작성부(205)는 상기 추출된 화자의 음성 데이터의 특징벡터 분포를 파라미터화 하여 화자모델을 생성하여, 메모리부(207)에 저장한다.

화자 인식부(206)는 상기 추출된 화자의 음성 데이터의 특징벡터에 기초하여 상기 메모리부(207)에 저장되어 있는 화자 모델을 검색하여 화자를 인식한다.

이때, 화자모델 적응부(204)는 상기 컨텐츠에 의하여 계속하여 입력되는 화자의 음성 데이터를 이용하여, 이미 생성된 화자 모델을 적응시키기 위해, 메모리부(207)에 저장되어 있는 화자모델을 계속하여 갱신한다.

이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 당업자에게 있어 명백할 것이다.

상기와 같은 본 발명은 가정용 서비스 로봇에 있어서, 자연스럽게 적응적으로 행하여지는 온라인 방식에 의한 화자 등록 방법을 포함하는 화자 인식 방법을 제공한다. 또한, 본 발명은 시간이나 환경변화에 따라 등록되어 있는 화자에 대한 음성 데이터를 적응하여 나갈 수 있는 화자 인식 방법을 제공한다.

Claims

화자가 음성을 이용하여 지속적으로 반응하도록 연속적으로 요구하는 컨텐츠를 이용하여 화자의 기본데이터 및 화자의 음성 데이터를 입력받는 단계;

음성 데이터에서 화자의 음성만을 추출하는 단계;

화자의 음성으로부터 인식에 필요한 특징 벡터를 추출하는 단계;

상기 추출한 특징 벡터로부터 화자 모델을 만드는 단계; 및,

입력된 음성으로부터 파악된 정보에 기초하여 화자 모델에 저장된 화자를 인식하는 단계를 포함하는 화자 인식 방법.
제 1항에 있어서,

화자의 음성 데이터를 입력받는 단계 이전에 인식할 대상이 되는 화자의 기본 데이터를 등록받는 단계를 더 포함하는 것을 특징으로 하는 화자 인식 방법.
제 2항에 있어서,

상기 화자의 기본 데이터는 화자의 호칭인 것을 특징으로 하는 화자 인식 방법.
제 1항에 있어서,

상기 컨텐츠는 음악 컨텐츠, 오락 컨텐츠 또는 교육 컨텐츠 중에서 선택되는 어느 하나인 것을 특징으로 하는 화자 인식 방법.
제 1항에 있어서,

상기 음성 데이터에서 화자의 음성만을 추출하는 단계는, 상기 음성 데이터에서 잡음을 제거하는 과정 및 상기 음성 데이터에서 컨텐츠에 해당되는 소리를 제거하는 과정을 포함하는 것을 특징으로 하는 화자 인식 방법.
제 1항에 있어서,

화자의 음성으로부터 인식에 필요한 특징 벡터를 추출하는 단계는 멜 캠스트럽(MFCC)을 이용하는 추출법을 사용하는 것을 특징으로 하는 화자 인식 방법.
제 1항에 있어서,

상기 추출한 특징 벡터로부터 화자 모델을 만드는 단계는 가우시안 혼합모델을 이용하여 화자 모델을 생성하는 것을 특징으로 하는 화자 인식 방법.
제 1항에 있어서,

화자를 인식하는 단계에서 사용되는 입력된 음성으로부터 파악된 정보는 하기 수학식 2를 통하여 얻은 우도값이고,

[수학식 2]

(여기서 화자 모델의 파라미터는 가중치, 평균, 공분산으로 구성된, i=1,2,...,M이다.)

상기 정보에 기초하여 화자 모델에 저장된 화자를 인식하는 과정은 하기 수학식 3을 통하여 얻은 최대 사후 확률을 가진 화자 모델을 찾는 과정인 것을 특징으로 하는 화자 인식 방법.

[수학식 3]
제 1항에 있어서,

화자의 음성으로부터 추출된 인식에 필요한 특징 벡터를 이용하여 이미 생성된 화자 모델을 적응시켜 나가는 단계를 더 포함하는 것을 특징으로 하는 화자 인식 방법.
제 9항에 있어서,

이미 생성된 화자 모델을 적응시켜 나가는 단계는 임의의 등록된 화자의 j번 째 가우시안 혼합모델은 다음 수학식 4에 의해 계산한 다음,

[수학식 4]

통계적인 계산에 의해 다음 수학식 5와 같이 각각 가중치, 평균, 분산 파라미터를 계산하여, 이들 파라미터들을 근거로 해서 적응계수와의 결합으로부터 j번째 혼합모델의 적응된 파라미터를 얻으므로써, 새로운 화자 모델을 생성하는 것을 특징으로 하는 화자 인식 방법.

[수학식 5]
컴퓨터 프로그램이 적절히 프로그램된 시스템 상에서 실행될 때,

화자가 음성을 이용하여 지속적으로 반응하도록 연속적으로 요구하는 컨텐츠를 이용하여 화자의 기본데이터 및 화자의 음성 데이터를 입력받는 단계;

음성 데이터에서 화자의 음성만을 추출하는 단계;

화자의 음성으로부터 인식에 필요한 특징 벡터를 추출하는 단계;

상기 추출한 특징 벡터로부터 화자 모델을 만드는 단계; 및,

화자를 인식하는 단계를 실행함으로써, 상기 적절하게 프로그램된 시스템이 화자를 인식하도록 구현되는 컴퓨터 프로그램을 갖는 컴퓨터 판독가능한 저장매체.
화자가 음성을 이용하여 지속적으로 반응할 수 잇도록 요구하는 컨텐츠를 포함하고 있는 컨텐츠 저장부;

상기 컨텐츠를 외부로 출력하기 위한 출력수단;

컨텐츠 저장부에 저장되어 있는 컨텐츠가 상기 출력수단을 통하여 출력되는 과정을 제어하기 위한 컨텐츠 관리부;

상기 컨텐츠에 대응하여 생성되는 화자의 음성 정보를 입력받기 위한 입력수단;

상기 음성 신호로부터 상기 컨텐츠에 해당하는 소리를 제거하여 화자의 음성만을 추출하는 음성 추출부;

상기 추출된 화자의 음성으로부터 특징 벡터를 생성하는 특징 벡터 추출부;

상기 추출된 벡터에 기초하여 화자의 화자모델을 작성하는 화자모델 작성부;

상기 추출된 벡터에 기초하여 화자의 화자모델을 적응시키는 화자모델 훈련부;

화자모델에 관한 정보를 저장하는 메모리부; 및

상기 추출된 벡터에 기초하여 상기 메모리부에 저장되어 있는 화자 모델을 검색하여 화자를 인식하는 화자 인식부를 포함하여 구성되는 화자 인식 장치.
제 12항에 있어서,

상기 음성 입력장치로 음성을 입력받은 화자 각자의 호칭을 식별표지로서 입력받기 위한 입력장치를 더 포함하는 것을 특징으로 하는 화자 인식 장치.
제 12항에 있어서,

상기 콘텐츠 저장 장치에 저장된 컨텐츠는 음악 컨텐츠, 오락 컨텐츠 또는 교육 컨텐츠 중에서 선택되는 어느 하나인 것을 특징으로 하는 화자 인식 장치.
제 12항 내지 제 14항 중 어느 한 항의 화자 인식 장치를 포함하여 구성되는 가정용 서비스 로봇.