KR20110079161A

KR20110079161A - 이동 단말기에서 화자 인증 방법 및 장치

Info

Publication number: KR20110079161A
Application number: KR1020090136139A
Authority: KR
Inventors: 김남국; 박태성; 김형국
Original assignee: 삼성전자주식회사; 광운대학교 산학협력단
Priority date: 2009-12-31
Filing date: 2009-12-31
Publication date: 2011-07-07

Abstract

본 발명은 이동 단말기 보안을 위해서 사용자의 음성정보를 이용한 디지털 키를 통해 실시간으로 화자 본인을 인증하는 방법에 관한 것이다. 또한 본 발명은 이동 단말기에서 실시간으로 음성 바이오 키를 생성하고, 이동 단말기 접근보안을 위해 실시간으로 화자 본인을 인증할 수 있다. 또한 본 발명은 음성 바이오 키와 동일한 사용자의 음성 문장뿐만 아니라 음성 바이오 키와 전혀 다른 사용자의 음성문장에서도 화자 본인을 인증할 수 있다.

이동 단말기, 보안, 디지털 키, 음성 바이오 키, 인증

Description

이동 단말기에서 화자 인증 방법 및 장치{METHOD AND APPARATUS FOR VERIFYING SPEAKER IN MOBILE TERMINAL}

본 발명은 이동 단말기에 관한 것으로, 특히 화자 본인을 인증하는 방법 및 장치에 관한 것이다.

이동 단말기는 이제 음성통화의 수단을 넘어서 일정, 중요 메모나 전자인증 서명 등 개인정보 데이터 관리, 심지어 이메일이나 내부 인트라넷 연결 등 중요한 비즈니스에도 활용되고 있다. 하지만 이런 이동 단말기의 진화에 비해 정보를 보호하는 수단은 현재 인터넷에서 떠돌고 있는 간단한 비밀 번호 탐색 프로그램을 통해 비밀번호 탐색이 가능할 정도로 원초적이다. 이러한 취약점이 드러남에 따라서 사용자 본인 인증이 중요한 문제로 대두되고 있으며 이동 단말기 제조사들의 보다 강력한 보안체계를 요구하고 있다. 현재까지 널리 쓰이고 있는 패스워드 또는 PIN(Personal Identification Number)을 이용한 사용자 인증방법은 타인에게 노출되거나 잊어버리게 된다. 이러한 점들을 고려하여 타인에게 대여 혹은 도난 복사가 되지 않는 개인의 고유한 생체 정보를 이용한 사용자 본인 인증기술의 적용이 필요 하다.

본 발명은 사용자 본인의 음성정보를 포함하는 디지털 키를 생성하여 실시간으로 화자 본인을 인증하는 방법 및 장치를 제공한다.

또한 본 발명은 기존의 방식들은 단말기에서 음성정보 DB를 학습하여 디지털 키를 생성하므로 실시간으로 인증을 위한 디지털 키를 생성할 수 없기 때문에 단말기에서 실시간으로 음성정보를 포함하는 디지털 키를 생성할 수 있는 방법 및 장치를 제공한다.

또한 본 발명은 음성 바이오 키와 동일한 사용자의 음성 문장뿐만 아니라 음성 바이오 키와 전혀 다른 사용자의 음성문장에서도 화자 본인을 인증할 수 있는 방법 및 장치를 제공한다.

본 발명의 실시 예에 따른 방법은, 이동 단말기에서 화자 인증 방법에 있어서, 입력된 음성 신호로부터 음성 특징값을 추출하는 과정; 상기 음성 특징값과 미리 저장된 음성 바이오 키의 우도 비율을 측정하고, 상기 우도 비율을 이용하여 상기 음성신호의 화자와 상기 음성 바이오 키의 화자를 구분하는 제1 구분 과정; 상기 음성 특징값과 상기 미리 저장된 음성 바이오 키의 분산 비중 거리를 측정하고, 상기 분산 비중 거리를 이용하여 상기 음성 신호의 화자와 상기 음성 바이오 키의 화자를 구분하는 제2 구분 과정; 및 상기 제1 구분 과정의 결과와 제2 구분 과정의 결과를 결합하여 사용자 본인 인증을 결정하는 과정을 포함한다.

본 발명의 실시 예에 따른 장치는, 이동 단말기에서 화자 인증 장치에 있어서, 입력된 음성 신호로부터 음성 특징값을 추출하는 음성 특징 추출부; 상기 음성 특징값과 미리 저장된 음성 바이오 키의 우도 비율을 측정하고, 상기 우도 비율을 이용하여 상기 음성신호의 화자와 상기 음성 바이오 키의 화자를 구분하는 우도 비율 기반 제1 화자 인증부; 상기 음성 특징값과 상기 미리 저장된 음성 바이오 키의 분산 비중 거리를 측정하고, 상기 분산 비중 거리를 이용하여 상기 음성 신호의 화자가 상기 음성 바이오 키의 화자를 구분하는 분산 비중 거리 기반 제2 화자 인증부; 및 상기 우도 비율 기반 제1 화자 인증부의 구분 결과와 상기 분산 비중 거리 기반 제2 화자 인증부의 구분 결과를 결합하여 사용자 본인 인증을 결정하는 화자 인증 결정부를 포함한다.

본 발명은 이동 단말기에서 사용자가 실시간으로 음성 바이오 키를 생성하고, 이동 단말기에서의 접근보안을 위해 실시간으로 화자 본인을 인증하는 기능을 제공할 수 있다.

또한 본 발명은 음성 바이오 키와 동일한 사용자의 음성 문장뿐만 아니라 음성 바이오 키와 전혀 다른 사용자의 음성문장에서도 화자 본인을 인증하는 기능을 제공할 수 있다.

또한 본 발명은 음성 바이오 키가 생성된 발성환경과 동일하지 않은 다양한 환경잡음에서도 실시간으로 화자 본인을 인증하는 기능을 제공할 수 있고, 간단한 잡음처리 방식으로 오디오 핑거프린팅 시스템에 적용 가능하다.

이하 본 발명의 바람직한 실시 예들의 상세한 설명이 첨부된 도면들을 참조하여 설명될 것이다. 도면들 중 동일한 구성들은 가능한 한 어느 곳에서든지 동일한 부호들을 나타내고 있음을 유의하여야 한다. 하기 설명에서 구체적인 특정사항들이 나타나고 있는데, 이는 본 발명의 보다 전반적인 이해를 돕기 위해 제공된 것이다. 그리고 본 발명을 설명함에 있어, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

전화 통화 도중 녹취한 화자의 음성 신호로부터 화자음성 DB(DataBase)를 생성하고, 생성된 DB를 통해 화자모델을 생성한다. 동일 인증 키워드를 발성한 여러 음성 신호로부터 추출된 음성 특징들을 학습시켜 생성된 모델을 통해 화자 인증을 수행한다. 모델 생성 기법은 Gaussian Mixture Model(GMM), Hidden Markov Model(HMM), Support Vector Machines(SVM) 등이 있다.

이때, 생성된 모델과 입력된 음성신호의 비교하여 화자 인증시, 모델생성을 위한 모델 학습 시간이 필요하다. 그리고 모델생성을 위해 동일단어에 대한 사용자 본인의 반복된 음성발성이 필요하다.

이와 다른 방법으로 동일 단어 범위를 크게 하여 여러 인증 키워드로 확장하는 방법은 동일 단어에 대한 인증이 제한되고, 각 키워드 별 모델 생성 과정이 필요하고, 특정 단어만을 인식하는 단어 수가 제한된다.

본 발명은 이러한 점들을 고려하여 이동 단말기의 보안을 위해서 사용자 본인의 음성 정보를 포함하는 디지털 키를 생성하여 실시간으로 화자 본인을 인증하는 방법에 관한 것으로 다음과 같은 차별화 포인트가 있다.

첫 번째, 본 발명은 인증키워드/문장 생성을 위해 사용자 본인의 반복된 음성 발성이 불필요하다. 사용자 본인으로부터 발성된 단 하나의 문장만을 사용함으로써 사용자의 편의성을 증진시킨다.

두 번째, 본 발명은 모델생성을 위한 모델학습 시간 불필요하다. 학습 계산량이 불필요하기 때문에 인증키/문장 변경이 실시간 가능하다.

세 번째, 본 발명은 발성된 단 하나의 문장을 통해 생성된 인증 키(디지털 키)를 생성함으로써 특정 단어/문장만을 인식하는 단어 수의 제한이 불필요하다. 또한 본 발명은 문장과 전혀 다른 문장의 인증을 수행함으로써 단어 및 내용 제한이 불필요하다.

네 번째, 잡음에 영향을 받지 않는 음성특징 추출기법을 통해 다양한 잡음환경하에서 안정된 화자인증을 수행할 수 있다.

도 1은 본 발명의 실시 예에 따른 음성 바이오 키를 이용한 이동 단말기의 보안장치 블록도이다.

도 1을 참조하여 이중화자인증 방법을 통한 정확률 높은 화자인증 구조를 설명하기로 한다.

이동 단말기는 외부 입력 장치(110), 잡음에 강인한 음성 특징 추출부(120), 음성 바이오 키 생성 및 저장부(130), 우도 비율 기반 제1 화자 인증부(140), 분산 비중 거리 기반 제2 화자 인증부(150), 화자 인증 결정부(160)을 포함한다.

상기 외부입력장치(110)는 음성 바이오 키 생성 및 화자인증을 위해 음성신호를 사용자로부터 입력받는 장치이다. 상기 외부입력장치(110)의 일 예로써 마이크가 해당된다.

상기 음성특징 추출부(120)은 외부입력장치(110)로부터 입력 받은 환경잡음에 노출된 음성신호로부터 환경잡음에 강인한 음성특징을 추출한다. 상기 음성특징 추출부(120)는 음성 바이오 키 생성과 화자인증 시에 수신된 음성으로부터 음성특징을 추출한다.

상기 음성 바이오 키 생성 및 저장부(130)는 상기 음성특징 추출부(120)로부터 추출된 음성특징으로부터 음성 바이오 키를 생성하고, 화자인증을 위해 단말기내의 메모리에 저장된다.

상기 우도 비율 기반 제1 화자 인증부(140)는 화자인증 시에 수신된 입력음성으로부터 추출된 음성 특징값과 미리 저장된 음성 바이오 키에 대한 우도 비율을 측정하여 상기 화자인증 시에 입력된 음성신호의 화자가 비교된 음성 바이오 키의 화자와 동일한지 동일하지 않은 지를 구분한다. 상기 우도 비율 기반 제1 화자 인 증부(140)는 가우스분포가 아닌 일반적인 감마분포기반의 2초간 음성 바이오 키(음성 디지털 키)와 음성신호의 우도 비율 비교를 통해 화자음성의 유사성을 측정한다. 이와 같은 측정 방법은 음성 디지털키가 생성될 때의 환경과 수신된 음성 신호가 유사한 환경일 때 인증을 가능하게 하므로 민감하다 할 수 있다.

상기 분산 비중 거리 기반 제2 화자 인증부(150)는 다른 환경에서의 음성 신호가 음성 디지털 키와 인증이 가능하도록 확장시킨다. 즉, 상기 분산 비중 거리 기반 제2 화자 인증부(150)는 상기 화자인증 시에 수신된 입력음성으로부터 추출된 음성 특징값과 미리 저장된 음성 바이오 키의 분산 비중 거리를 측정하여 상기 화자인증 시에 입력된 음성신호의 화자가 비교된 음성 바이오 키의 화자와 동일한지 동일하지 않은 지를 구분한다. 상기 분산 비중 거리 기반 제2 화자 인증부(150)는 분산행렬의 역행렬과 평균을 이용하여 유사성의 범위를 점검 및 확장한다.

상기 화자 인증 결정부(160)는 상기 우도 비율 기반 제1 화자 인증부(140)를 통해 결정된 화자 구분 결과와 분산 비중 거리 기반 제2 화자 인증부(150)를 통해 결정된 화자 구분 결과를 결합하여 사용자 본인 인증을 최종적으로 결정한다. 상기 화자 인증 결정부(160)는 제1 화자 인증과 제2 화자 인증 모두 인증이 되었을 경우 본인임을 판단한다.

우선, 본 발명의 실시 예에 따른 이동 단말기 보안장치는 화자인증을 수행하기에 앞서, 미리 음성 바이오 키를 생성하여 메모리에 저장한다. 그리고, 화자인증을 수행할 때마다, 상기 메모리에 미리 저장된 음성 바이오 키를 이용하여 사용자 인증을 수행하게 된다. 이에 따라, 본 발명의 실시 예에 따른 이동 단말기 보안장 치는 음성 특징 추출 및 음성 바이오 키 설정 모드 및 화자인증 모드로 동작할 수 있다. 이하에서는 각 모드에 따른 이동 단말기 접근보안을 위한 화자인증 장치 및 방법을 설명한다.

도 2는 본 발명의 실시 예에 따른 이동 단말기 보안을 위한 음성 바이오 키 생성 과정을 도시하는 흐름도이다.

전술한 도 1의 구성요소 및 도 2를 참조하면, 우선, 사용자가 음성 바이오 키를 설정하는 기능을 선택함에 따라, 제어부(도면에 도시하지 않음)는 외부출력장치를 통해 사용자에게 음성 바이오 키 생성을 위한 음성신호를 요청한다. 이에 대응하여 사용자가 음성신호를 외부입력장치(110)인 마이크를 통해 입력한다. 외부입력장치(110)인 마이크로부터 입력된 음성신호는 음성 특징 추출부(120)로 제공된다. 상기 음성 특징 추출부(120)는 음성 구간 검출부(121), 환경 잡음 제거부(122), Pitch Scaling(123), Normalization(124), Basis Decomposition(125)를 포함한다. 상기 음성 특징 추출부(120)의 음성구간 검출부(121)는 화자로부터 발성되는 연속적인 음성신호를 20ms 구간 단위로 입력을 받아 휴지구간 및 비음성구간을 제외한 음성구간만을 검출한다. 상기 음성구간을 검출하기 위해서는 각 20ms 단위 내의 음성신호 에너지를 계산하고, 계산된 음성신호 에너지와 미리 정의된 음성에너지 임계값을 비교한다. 20ms 단위 내의 음성신호 에너지가 미리 정의된 음성에너지 임계값 보다 크면 음성구간이라 판별하고, 미리 정의된 음성에너지 임계값보다 작으면 휴지 구간 혹은 비음성구간이라 판별한다. 이렇게 검출된 음성구간의 음성정보는 환경잡음 제거부(122)에 제공된다. 환경잡음 제거부(220)는 음성구간 검 출부(210)에 의해 검출된 20ms 단위 내의 환경잡음에 노출되어 있는 음성정보로부터 환경잡음을 제거하여 음질이 향상된 음성정보를 추출한다. 환경잡음 제거부(220)는 역동적으로 변화하는 음성 신호로부터 환경잡음을 제거하기 위해서 음성 신호를 단구간 주파수 축(스펙트럼) 변환을 통해 분석한다. 그 이유는 음성 신호의 경우, 10ms에서 100ms 간격의 짧은 시간 동안 안정된 주기성을 갖기 때문에 주파수 축 분석은 안정된 구간에서 이루어져야 하며, 시간 축 상에서 변화하는 주파수 축의 정보가 음성 정보 처리에 중요한 역할을 하기 때문이다. 주파수축 변환에 있어서는 웨이브랫 변환(Wavelet Transformation), 퓨리에 변환(Fourier Transformation), Cochlea Transformation 등의 다양한 변환 방법을 포함할 수 있다. 환경잡음 제거부(220)는 주파수 축으로 변환한 단구간 파워 스펙트럼의 성분 중 시간에 따라 천천히 변화하는 성분을 배제하는 대역통과 필터를 사용하여 환경잡음을 제거한다. 환경잡음 제거부(122)에서 환경잡음이 제거된 음성정보는 Pitch Scaling(123)에 입력된다. Pitch Scaling(123)은 주파수 축으로 변환된 음성정보를 정의된 주파수 영역으로 구성된 필터뱅크 분석 주파수 필터에 입력하여, 각 밴드에 해당하는 스펙트럼 음성정보에 가중치를 적용하여 합하는 방법으로 구현한다. 즉, 필터뱅크 분석 주파수 필터는 입력된 스펙트럼 음성정보의 미세한 pitch를 제거하고 사람의 귀가 지각할 수 있는 pitch를 갖는 부드러운 음성정보 형태로 스케일링한다. 이것은 스펙트럼을 스무딩하는 것과 같은 효과를 제공한다. 필터뱅크 분석 주파수 필터의 수는 스펙트럼 밴드에 대한 가중치에 따라 1차 필터에서 N 차 필터까지를 사용할 수 있다. Pitch Scaling을 위한 필터뱅크 분석 주파수 필터로서는 Mel-Scale Filter, Log-Scale Octave Filter, Perceptual Linear Filter, Gammatone Filter 등의 다양한 주파수 필터를 사용할 수 있다. N 차 필터 중에서 화자 인증률에 변화를 주지 않는 범위에서 N 차 보다 작은 L 차 필터를 사용하여 음성특징을 추출하는데 사용한다. Normalization(124)은 Pitch Scaling(123)을 통해 출력된 음성정보에서 스펙트럼 포락정보(Spectral Envelope)와 세부구조 정보(Pitch)를 구별한다. 화자인증은 개인의 음성특징이 유일하다는 사실을 근거로 하고 있으며, 이는 사람마다 성도의 크기/부피/길이 등이 다르기 때문에 가능하다. 성도특성을 나타내는 대표적인 음향 파라미터는 단구간 스펙트럼의 성분을 대표하는 스펙트럼 포락으로서 상기 Pitch Scaling(123)를 통해 출력된 음성정보 안에 포함되어 있다. Normalization(124)은 스무딩한 스펙트럼 음성정보로부터 스펙트럼 포락정보와 세부구조 정보를 구별하고, 스펙트럼 포락정보인 화자 성도특성을 추출한다. 스무딩한 스펙트럼 음성정보로부터 성도 스펙트럼을 구별하는 방법으로서는 Logarithmic Operation, dB-Scale RMS Energy에 의한 Normalization, Liftering 등을 포함할 수 있다. Basis Decomposition(125)은 Normalization(124)을 통해 출력된 스펙트럼 포락정보로부터 서로 상관 관계가 없는 성분만을 추출한다. 추출된 상관 관계가 없는 성분을 음성 특징값으로 사용한다. 또한, 서로 상관 관계가 없는 성분만을 추출하기 때문에 음성정보의 차원이 감축된다. 추출된 음성 특징값은 6~8자리의 소수점까지를 포함하고 있는데, 화자인증 결과에 변동을 주지 않는 특징값 소수점 자리 수를 찾아 최종적인 음성 특징값으로 사용한다. Basis Decomposition(125)으로서는 Principal Component Analysis, Independent Component Analysis, Non-Negative Factorization, Linear Discriminant Analysis 등의 방법을 포함한다. 2~3초 분량의 추출된 음성 특징값은 음성 바이오 키 생성 및 저장부(130)에 입력된다. 즉, 음성 특징 추출부(120)는 매 20ms 단위로 음성신호로부터 음성 특징을 추출하고, 음성 특징의 총 분량은 음성구간 음성정보의 2~3초 분량에서 추출된 음성 특징값을 사용할 수 있다. 음성 바이오 키 생성 및 저장부(130)의 음성 특징 Smoothing(131)은 Basis Decomposition(125)을 통해 출력된 차원이 감축된 2~3초 분량의 음성 특징값들의 시간 축과 주파수 축에 따른 스무딩(Smoothing)을 취하여 획득한 각 축에 대한 미세오차를 음성 특징 추출부(120)에 의해 추출된 음성 특징값에 가산하고, 가산된 음성 특징값을 음성 바이오 키로 사용한다. 각 축에 대해서 획득된 미세오차는 화자인증 시에 입력되는 음성신호로부터 추출된 음성특징을 음성 바이오 키와 비교하여 사용자 본인인지 아닌지를 구별하는 본인인증 에러를 줄이는 데에 영향을 준다. 또한 이러한 미세오차는 잡음에 노출된 음성신호와 다른 환경에서 생성된 음성 바이오 키의 화자인증 에러를 줄여 효과적으로 화자를 인증할 수 있도록 한다.

도 3은 본 발명의 일 실시 예에 따른 이동 단말기에서 화자 인증 방법을 도시하는 흐름도이다.

전술한 도 1과 도 2의 구성요소 및 도3를 참조하면, 우선, 사용자가 이동 단말기 보안장치의 기능 중 화자 음성을 인증하는 기능을 선택함에 따라, 제어부(도면에 도시하지 않음)는 외부 출력장치를 통해 사용자에게 음성 입력을 위한 음성신호를 요청한다. 이에 대응하여 사용자가 음성신호를 외부입력장치(110)인 마이크를 통해 입력한다. 음성 특징 추출부(120)를 통해 사용자가 입력한 음성신호로 추출된 음성 특징값과 음성 바이오 키 저장부(130)에 저장된 음성 바이오 키는 각각 우도 비율기반 제1 화자 인증부(140)와 분산 비중 거리 기반 제2 화자 인증부(150)에 입력된다.

상기 우도 비율기반 제1 화자 인증부(140)는 우도 비율 비교부(141)와 제1 화자 확인부(142)로 구성되고, 상기 분산 비중 거리 기반 제2 화자 인증부(150)는 분산 비중 거리 비교부(151)와 제2 화자 확인부(152)로 구성된다.

상기 우도비율 비교부(141)은 수신된 입력음성으로부터 추출된 음성 특징값과 미리 저장된 음성 바이오 키의 우도 비율을 측정한다. 우도 비율은 미리 저장된 음성 바이오 키와 수신된 음성 특징값을 인접시켜 결합된 전체 확률분포에 대한, 음성 바이오 키의 확률분포와 수신된 음성 특징값의 확률분포의 곱의 비를 통해 측정된다. 상기 우도비율 비교부(141)는 음성 바이오 키 생성과 화자인증 시에 사용된 입력문장이 동일할 경우에, 높은 인증률을 제공한다.

반면에, 분산 비중 거리 비교부(151)는 수신된 입력음성으로부터 추출된 음성 특징값과 미리 저장된 음성 바이오 키의 분산 비중 거리를 측정하고, 화자 인증 시에 입력된 음성 신호의 화자가 비교된 음성 바이오 키의 화자와 동일한지 여부를 구분한다. 이때, 분산 비중 거리 비교부(151)는 분산 행렬의 역행렬과 평균을 이용하여 인증하기 때문에 입력문장이 동일하지 않을 경우에는 높은 인증률을 제공한다.

따라서, 본 발명은 음성 바이오 키와 동일한 사용자의 음성 문장 뿐만 아니 라 음성 바이오 키와 전혀 다른 사용자의 음성 문장에서도 화자 본인을 인증할 수 있다.

상기 제1 화자 확인부(142)는 상기 우도비율 비교부(141)의 비교 결과에 따라서 화자를 인증한다.

상기 제2 화자 확인부(152)는 상기 분산 비중 거리 비교부(151)의 비교 결과에 따라서 화자를 인증한다.

화자인증 결합부(160)는 제1 화자 확인부(142)의 결과와 제2 화자 확인부(152)의 결과를 결합하여 동일인인지 아닌지를 결정한다. 우도 비율 비교부(141)에 의해 결정된 화자 구분 결과가 동일인이고 분산 비중 거리 비교부(151)에 의해 결정된 화자 구분 결과가 동일인이면 화자 인증을 동일인 본인이라고 최종 결정한다. 우도 비율 비교부(141)에 의해 결정된 화자 구분 결과가 동일인이고 분산 비중 거리 비교부(151)에 의해 결정된 화자 구분 결과가 동일인이 아니면 화자 인증을 동일인 본인이 아니라고 최종 결정한다. 우도 비율 비교부(141)에 의해 결정된 화자 구분 결과가 동일인이 아니고 분산 비중 거리 비교부(151)에 의해 결정된 화자 구분 결과가 동일인이면 화자 인증을 동일인 본인이 아니라고 최종 결정한다. 우도 비율 비교부(141)에 의해 결정된 화자 구분 결과가 동일인이 아니고 분산 비중 거리 비교부(151)에 의해 결정된 화자 구분 결과가 동일인이 아니면 화자 인증을 동일인 본인이 아니라고 최종 결정한다.

본 발명은 이동 단말기에서 사용자가 실시간으로 음성 바이오 키를 생성하고, 이동 단말기 접근 보안을 위해 실시간으로 화자 본인을 인증하는 기능을 제공 할 수 있다. 본 발명은 개인의 생체기반 정보를 적용한 모든 이동 단말기 보안 장치에 적용 가능하다.

본 발명은 음성 바이오 키와 동일한 사용자의 음성 문장뿐만 아니라 음성 바이오 키와 전혀 다른 사용자의 음성문장에서도 화자 본인을 인증하는 기능을 제공할 수 있다. 또한 본 발명은 기존의 방식을 탈피한 새로운 실시간 화자인증 기법으로 다양한 음성 신호 처리 분야에 적용 가능하다.

본 발명은 음성 바이오 키가 생성된 발성환경과 동일하지 않은 다양한 환경잡음에서도 실시간으로 화자 본인을 인증하는 기능을 제공할 수 있고, 간단한 잡음처리 방식으로 오디오 핑거프린팅 시스템에 적용 가능하다.

한편 본 발명의 상세한 설명에서는 구체적인 실시 예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시 예에 국한되어 정해져서는 안되며 후술하는 특허청구의 범위뿐 아니라 이 특허청구의 범위와 균등한 것들에 의해서 정해져야 한다.

도 1은 본 발명의 일 실시 예에 따른 이동 단말기 보안을 위한 화자 인증 장치의 전체구성을 도시하는 블록도,

도 2는 본 발명의 일 실시 예에 따른 화자 인증 장치의 음성 특징 추출 및 음성 바이오 키 설정 과정을 도시하는 흐름도,

도 3은 본 발명의 일 실시 예에 따른 이동 단말기에서 화자 인증 방법을 도시하는 흐름도.

Claims

이동 단말기에서 화자 인증 방법에 있어서,

입력된 음성 신호로부터 음성 특징값을 추출하는 과정;

상기 음성 특징값과 미리 저장된 음성 바이오 키의 우도 비율을 측정하고, 상기 우도 비율을 이용하여 상기 음성 신호의 화자와 상기 미리 저장된 음성 바이오 키의 화자를 구분하는 제1 구분 과정;

상기 음성 특징값과 상기 미리 저장된 음성 바이오 키의 분산 비중 거리를 측정하고, 상기 분산 비중 거리를 이용하여 상기 음성 신호의 화자와 상기 미리 저장된 음성 바이오 키의 화자를 구분하는 제2 구분 과정; 및

상기 제1 구분 과정의 결과와 상기 제2 구분 과정의 결과를 결합하여 사용자 본인 인증을 결정하는 과정을 포함하는 이동 단말기에서 화자 인증 방법.
제1항에 있어서,

상기 음성 특징값을 추출하는 과정은,

연속적인 음성 신호로부터 휴지구간 및 비음성 구간을 제외한 음성 구간을 검출하는 과정;

상기 음성 구간의 음성 정보로부터 환경 잡음을 제거하여 음질이 향상된 음성정보를 획득하는 과정;

상기 음질이 향상된 음성정보로부터 화자 인증률이 변동 없는 범위에서 필터뱅크 분석 주파수 필터를 이용하여 음성 스펙트럼을 스무딩하는 과정;

상기 Pitch Scaling을 통해 출력된 스무딩한 음성 스펙트럼에서 스펙트럼 포락정보(Spectral Envelope)와 세부구조 정보(Pitch)를 구별하고, 상기 스펙트럼 포락정보를 추출하는 과정; 및

상기 스펙트럼 포락정보로부터 서로 상관 관계가 없는 음성 특징을 추출하는 Basis Decompostion 과정을 더 포함하는 이동 단말기에서 화자 인증 방법.
제2항에 있어서,

상기 Basis Decompostion 과정을 통해 출력된 음성 특징값에 스무딩으로부터 획득한 미세한 오차값을 가산하여 음성 바이오 키를 생성하는 과정을 더 포함하는 이동 단말기에서 화자 인증 방법.
제1항에 있어서,

제1 구분 과정은,

상기 음성 특징값과 상기 미리 저장된 음성 바이오 키의 우도 비율을 측정하는 과정; 및

상기 우도 비율과 우도 비율 문턱값 비교에 의한 제1 화자 판별을 수행하는 과정을 더 포함하는 이동 단말기에서 화자 인증 방법.
제1항에 있어서,

제2 구분 과정은,

상기 음성 특징값과 상기 미리 저장된 음성 바이오 키의 분산 비중 거리를 측정하는 과정; 및

상기 계산된 분산 비중 거리와 분산 비중 거리 문턱값 비교에 의한 화자 판별을 수행하는 과정을 포함하는 이동 단말기에서 화자 인증 방법.
제1항에 있어서,

상기 추출된 음성 특징값으로부터 음성 바이오 키를 생성하여 저장하는 과정을 더 포함하는 이동 단말기에서 화자 인증 방법.
제4항에 있어서,

상기 제1 구분 과정은,

상기 입력된 음성 신호의 문장과 상기 미리 저장된 음성 바이오 키의 문장이 동일할 경우에 높은 인증률을 제공함을 포함하는 이동 단말기에서 화자 인증 방법.
제5항에 있어서,

상기 제2 구분 과정은,

상기 입력된 음성 신호의 문장과 상기 미리 저장된 음성 바이오 키의 문장이 동일하지 않은 경우에 높은 인증률을 제공함을 포함하는 이동 단말기에서 화자 인증 방법.
이동 단말기에서 화자 인증 장치에 있어서,

입력된 음성 신호로부터 음성 특징값을 추출하는 음성 특징 추출부;

상기 음성 특징값과 미리 저장된 음성 바이오 키의 우도 비율을 측정하고, 상기 우도 비율을 이용하여 상기 음성 신호의 화자와 상기 미리 저장된 음성 바이오 키의 화자를 구분하는 우도 비율 기반 제1 화자 인증부;

상기 음성 특징값과 미리 저장된 음성 바이오 키의 분산 비중 거리를 측정하고, 상기 분산 비중 거리를 이용하여 상기 음성 신호의 화자와 상기 미리 저장된 음성 바이오 키의 화자를 구분하는 분산 비중 거리 기반 제2 화자 인증부; 및

상기 우도 비율 기반 제1 화자 인증부의 구분 결과와 상기 분산 비중 거리 기반 제2 화자 인증부의 구분 결과를 결합하여 사용자 본인 인증을 결정하는 화자 인증 결정부를 포함하는 이동 단말기에서 화자 인증 장치.
제9항에 있어서,

상기 음성 특징 추출부는,

연속적인 음성 신호로부터 휴지구간 및 비음성 구간을 제외한 음성 구간을 검출하는 음성 구간 검출부;

상기 음성 구간의 음성 정보로부터 환경 잡음을 제거하여 음질이 향상된 음성정보를 획득하는 환경 잡음 제거부;

상기 음질이 향상된 음성정보로부터 화자 인증률이 변동 없는 범위에서 필터뱅크 분석 주파수 필터를 이용하여 음성 스펙트럼을 스무딩하는 피치 스케일링(Pitch Scaling)부;

상기 피치 스케일링부를 통해 출력된 스무딩한 음성 스펙트럼에서 스펙트럼 포락정보(Spectral Envelope)와 세부구조 정보(Pitch)를 구별하고, 상기 스펙트럼 포락정보를 추출하는 Normalization부; 및

상기 스펙트럼 포락정보로부터 서로 상관 관계가 없는 음성 특징을 추출하는 Basis Decompostion 부를 더 포함하는 이동 단말기에서 화자 인증 장치.
제10항에 있어서,

상기 Basis Decompostion부에서 출력된 음성 특징값에 스무딩으로부터 획득 한 미세한 오차값을 가산하여 음성 바이오 키를 생성함을 더 포함하는 이동 단말기에서 화자 인증 장치.
제9항에 있어서,

제1 화자 인증부는,

상기 음성 특징값과 상기 미리 저장된 음성 바이오 키의 우도 비율을 측정하는 우도 비율 비교부; 및

상기 우도 비율과 우도 비율 문턱값 비교에 의한 제1 화자 판별을 수행하는 제1 화자 확인부를 더 포함하는 이동 단말기에서 화자 인증 장치.
제9항에 있어서,

제2 화자 인증부는,

상기 음성 특징값과 상기 미리 저장된 음성 바이오 키의 분산 비중 거리를 측정하는 분산 비중 거리 비교부; 및

상기 계산된 분산 비중 거리와 분산 비중 거리 문턱값 비교에 의한 화자 판별을 수행하는 제2 화자 확인부를 포함하는 이동 단말기에서 화자 인증 장치.
제9항에 있어서,

상기 추출된 음성 특징값으로부터 음성 바이오 키를 생성하여 저장하는 음성 바이오 키 생성 및 저장부를 더 포함하는 이동 단말기에서 화자 인증 장치.
제9항에 있어서,

상기 제1 화자 인증부는,

상기 입력된 음성 신호의 문장과 상기 미리 저장된 음성 바이오 키의 문장이 동일할 경우에 높은 인증률을 제공함을 포함하는 이동 단말기에서 화자 인증 장치.
제9항에 있어서,

상기 제2 화자 인증부는,

상기 입력된 음성 신호의 문장과 상기 미리 저장된 음성 바이오 키의 문장이 동일하지 않을 경우에 높은 인증률을 제공함을 포함하는 이동 단말기에서 화자 인증 장치.