KR101888058B1

KR101888058B1 - 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치

Info

Publication number: KR101888058B1
Application number: KR1020180016444A
Authority: KR
Inventors: 이태훈
Original assignee: 주식회사 공훈
Priority date: 2018-02-09
Filing date: 2018-02-09
Publication date: 2018-08-13

Abstract

본 발명의 일 실시예로써, 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치가 제공될 수 있다. 본 발명의 일 실시예에 따른 발화된 단어에 기초하여 화자를 식별하기 위한 방법은 화자로부터 발화된 음성을 수신하는 단계, 수신된 음성에 포함된 단어 및 단어에 대한 음성정보를 추출하는 단계, 미리 구축된 데이터베이스(DB)에서 단어를 검색하는 단계, DB에 단어가 존재하지 않는 경우에는 단어 및 단어에 대한 음성정보를 DB에 추가하고, DB에 단어가 존재하는 경우에는 발화된 단어의 음성정보와 DB 상에 저장되어 있는 각각의 참조 음성정보를 비교하는 단계, 각각의 참조 음성정보와의 비교에 따른 유사도를 추정하는 단계, 추정된 유사도에 상응하는 음성정보가 수신되는 횟수에 기초하여 화자의 단어에 대한 발화 패턴을 결정하는 단계 및 결정된 발화 패턴에 기초하여 화자를 식별하는 단계를 포함할 수 있다.

Description

발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치{THE METHOD AND APPARATUS FOR IDENTIFYING SPEAKER BASED ON SPOKEN WORD}

본 발명은 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치에 관한 것으로, 더욱 상세하게는 발화된 단어에 기초하여 화자(예컨대, 장치의 사용자)의 음성 특성을 파악하고, 파악된 음성 특성에 따라 생성된 데이터베이스(DB)에 저장된 음성 특성과 비교하여 유사도가 높은 음성 특성에 상응하는 단어의 발화 패턴이 화자의 최신화된 발화 패턴인 것으로 결정되는 방법 및 그 장치에 관한 것이다.

생체 인식 방법에서 음성은 타인의 모방과 녹취/재생에 취약하며 사용자의 발음 상태, 시간에 따라 수시로 변화할 수 있어 인식과 인증 수단으로써 사용에 제약이 있을 수 있다. 하지만, 음성은 기계와 사람의 인터페이스로 최적의 조건을 갖추고 있어 그 사용범위가 점차 넓어지고 있는 추세이다.

현재의 기계와 사람의 인터페이스로 사용되는 음성 명령과 관련하여 적법한 사용자 본인임을 정확하게 인식, 인증하기 위한 수단으로 화자의 음성과 더불어 홍채, 지문, 비밀번호 등 여타의 인증 수단을 병행하여 사용하도록 하고 있어서 음성만을 통한 인증의 효율성을 저해하고 있다.

기존의 화자 식별(인식)은 사용자가 발화한 모든 음성을 기준하여 공통적인 특징 요소를 데이터화하여 사용자를 인식하는 방법을 취함으로써 화자에 대한 인식률 기준을 높이는데 한계가 존재하였다.

또한, 이러한 기존의 화자 식별 방법은 화자를 정확하게 식별하기 위하여 꽤 많은 시간이 소요된다는 점에서 식별(인증)정보 이용의 즉시성을 필요로 하는 사용자에게는 많은 불편을 초래하였다.

1. 일본 등록특허 제5152020호 (등록일자 2012.12.14)

본 발명은 전술한 문제점에 대한 일 대응으로써 안출된 것으로, 화자에 대한 음성 인식, 화자 식별(예컨대, 인증 등)에 대한 정확도를 보다 높여 음성 인식, 인증에 대한 실효성을 강화하고자 한다.

다시 말해서, 본 발명은 화자의 음성 톤(tone)이 화자의 감정, 발화 시의 주변 환경(예컨대, 소음 등), 화자의 건강상태(예컨대, 감기 발병 등) 등에 따라 일시적으로 또는 일정 기간 동안 변화될 수 있다는 점에서, 화자의 식별 과정에서 이러한 음성의 변화 가능성을 반영하여 식별 정확도를 보다 높이기 위한 방법 및 그 장치를 제공하고자 한다.

본 발명의 일 실시예로써, 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치가 제공될 수 있다.

본 발명의 일 실시예에 따른 발화된 단어에 기초하여 화자를 식별하기 위한 방법은 화자로부터 발화된 음성을 수신하는 단계, 수신된 음성에 포함된 단어 및 단어에 대한 음성정보를 추출하는 단계, 미리 구축된 데이터베이스(DB)에서 단어를 검색하는 단계, DB에 단어가 존재하지 않는 경우에는 단어 및 단어에 대한 음성정보를 DB에 추가하고, DB에 단어가 존재하는 경우에는 발화된 단어의 음성정보와 DB 상에 저장되어 있는 각각의 참조 음성정보를 비교하는 단계, 각각의 참조 음성정보와의 비교에 따른 유사도를 추정하는 단계, 추정된 유사도에 상응하는 음성정보가 수신되는 횟수에 기초하여 화자의 단어에 대한 발화 패턴을 결정하는 단계 및 결정된 발화 패턴에 기초하여 화자를 식별하는 단계를 포함할 수 있다.

본 발명의 일 실시예에 따른 단어에 대한 음성정보에는 음성의 주파수, 피치(pitch), 포먼트(formant), 발화시간, 발화속도 중 적어도 하나가 포함될 수 있다.

또한, 전술한 비교하는 단계에서는 화자로부터 발화된 단어에 대한 음성정보가 DB 상에 저장되어 있는 적어도 하나의 참조 음성정보와 유사한지 여부를 판단하고, 유사도를 추정하는 단계에서는 판단의 결과에 따라 유사도가 추정되며, 추정된 유사도가 제 1 기준값 미만인 경우에는 신규의 참조 음성정보가 생성되어 DB에 저장되고, 제 1 기준값 이상인 경우에는 해당 유사도를 갖는 참조 음성정보의 매칭 횟수가 증가되어 카운팅될 수 있다.

본 발명의 일 실시예에 따른 화자의 단어에 대한 발화 패턴을 결정하는 단계에서는 카운팅된 매칭 횟수가 제 2 기준값 미만인 경우에는 화자로부터 발화된 신규의 음성이 수신되어 유사도가 추정되는 과정이 반복적으로 수행되도록 하고, 제 2 기준값 이상인 경우에는 화자의 단어에 대한 발화 패턴으로 결정할 수 있다.

또한, 본 발명의 일 실시예에 따른 발화 패턴을 결정하는 단계에서는 제 2 기준값 이상의 카운팅된 매칭 횟수를 갖는 유사도에 상응하는 음성정보에 기초하여 화자의 음성 모델이 수립됨으로써 발화 패턴이 결정되고, 화자를 식별하는 단계에서는 발화된 음성에 대하여 전술한 단계를 통하여 결정된 발화 패턴을 기준으로 발화 음성의 화자가 누구인지 여부가 식별될 수 있다.

본 발명의 일 실시예에 따른 발화된 단어에 기초하여 화자를 식별하기 위한 장치에는 화자로부터 발화된 음성을 수신하는 음성수신부, 수신된 음성에 포함된 단어 및 단어에 대한 음성정보를 추출하는 정보추출부, 미리 구축된 데이터베이스(DB)에서 단어를 검색하는 정보검색부, DB에 단어가 존재하지 않는 경우에는 단어 및 단어에 대한 음성정보를 DB에 추가하고, DB에 단어가 존재하는 경우에는 발화된 단어의 음성정보와 DB 상에 저장되어 있는 각각의 참조 음성정보를 비교하는 비교부, 각각의 참조 음성정보와의 비교에 따른 유사도를 추정하는 유사도추정부, 추정된 유사도에 상응하는 음성정보가 수신되는 횟수에 기초하여 화자의 단어에 대한 발화 패턴을 결정하는 발화패턴결정부 및 결정된 발화 패턴에 기초하여 화자를 식별하는 화자식별부가 포함될 수 있다.

또한, 단어에 대한 음성정보에는 음성의 주파수, 피치(pitch), 포먼트(formant), 발화시간, 발화속도 중 적어도 하나가 포함될 수 있다.

비교부에서는 화자로부터 발화된 단어에 대한 음성정보가 DB 상에 저장되어 있는 적어도 하나의 참조 음성정보와 유사한지 여부를 판단하고, 유사도추정부에서는 판단의 결과에 따라 유사도가 추정되며, 추정된 유사도가 제 1 기준값 미만인 경우에는 신규의 참조 음성정보가 생성되어 DB에 저장되고, 제 1 기준값 이상인 경우에는 해당 유사도를 갖는 참조 음성정보의 매칭 횟수가 증가되어 카운팅될 수 있다.

발화패턴결정부에서는 카운팅된 매칭 횟수가 제 2 기준값 미만인 경우에는 화자로부터 발화된 신규의 음성이 수신되어 유사도가 추정되는 과정이 반복적으로 수행되도록 하고, 제 2 기준값 이상인 경우에는 화자의 단어에 대한 발화 패턴으로 결정할 수 있다.

본 발명의 일 실시예에 따르면, 제 2 기준값 이상의 카운팅된 매칭 횟수를 갖는 유사도에 상응하는 음성정보에 기초하여 화자의 음성 모델이 수립됨으로써 발화 패턴이 발화패턴결정부에 의하여 결정되고, 화자식별부에서는 발화된 음성에 대하여 결정된 발화 패턴을 기준으로 화자가 누구인지 여부가 식별될 수 있다.

한편, 본 발명의 일 실시예로써, 전술한 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체가 제공될 수 있다.

본 발명의 일 실시예에 따르면, 사용자가 발화하는 수 많은 음성 중 공통 단어를 기반으로 사용자의 발화 패턴(예컨대, 발화에 따른 음성 특성 등)을 추출, 매칭시킴으로써 화자 인식, 인증에 대한 정확성 및 신뢰성을 보다 높일 수 있다.

다시 말해서, 본 발명의 일 실시예에 따른 장치를 이용하여 제시된 방법을 반복적으로 수행하는 과정에서 화자 개인별 특정 단어에 대한 최적화된 발화 패턴의 인식이 가능하고, 이러한 발화 패턴에 기초하여 화자가 누구인지에 대하여 빠르고 정확하게 구분해낼 수 있다.

본 발명의 일 실시예에 따르면, 화자의 음성은 시간적 요소(예컨대, 노화 등), 환경적 요소(예컨대, 콘서트장 등)에 의하여 일시적으로 또는 일정 기간 동안 계속적으로 변화할 수 있기 때문에, 이러한 변화 가능성을 모니터링함과 동시에 변화된 음성정보를 지속적으로 수집하여 업데이트함으로써 화자의 현재 상태가 충분히 반영된 음성정보에 따라 화자를 빠르고 정확하게 식별해낼 수 있다. 화자의 시간적, 환경적 요소에 무관하게 화자에 대한 안정적인, 신뢰성 있는 식별(인증)이 가능하다.

도 1은 종래의 화자 확인 시스템을 나타낸 도면이다.
도 2는 종래의 문맥(단어) 제시형 화자 확인 시스템을 나타낸 도면이다.
도 3은 음성에 대한 종래의 평준화 시스템을 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따른 발화된 단어에 기초하여 화자를 식별하기 위한 방법을 나타낸 순서도이다.
도 5는 본 발명의 일 실시예에 따른 구체적인 화자 식별 방법을 나타낸 순서도이다.
도 6은 본 발명의 일 실시예에 따른 발화된 단어에 기초하여 화자를 식별하기 위한 장치를 나타낸 블록도이다.
도 7은 본 발명의 일 실시예에 따른 음성에 대한 평준화 시스템을 나타낸 도면이다.
도 8은 본 발명의 일 실시예에 따른 화자의 발화 유사성에 기초한 평준화 과정을 나타낸 도면이다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.

본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 명세서 전체에서 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, "그 중간에 다른 소자를 사이에 두고" 연결되어 있는 경우도 포함한다.

이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.

도 1은 종래의 화자 확인 시스템을 나타낸 도면이다.

도 1에서와 같이, 종래의 일반적인 화자 확인 시스템은 먼저 확인 대상인 화자(예컨대, 도 1의 A)로부터 다수의 음성 샘플을 획득하여, 각각의 음성에 대한 주파수, 피치 등과 같은 특성 값을 추출한 후 중첩되는(overlap) 부분을 기준으로 음성에 대한 평준화를 진행한다. 평준화 이후 화자에 대한 음성 모델을 수립한다. 사람의 음성(voice) 등과 같은 음향 신호를 수집한 후, 수집된 신호로부터 잡음(noise)을 제거하고 음성 신호의 특징을 추출하여 데이터베이스(DB)화 해둘 수 있는데, 이러한 데이터베이스화를 음성 모델 수립으로 지칭할 수 있다. 다시 말해서, 특정화자(도 1의 A)에 대한 음성 모델 수립 과정을 통하여 특정화자의 음성에 대한 정보를 사전에 수집, DB 구축을 해둘 수 있다(예컨대, 도 1의 파란색 일점쇄선 박스).

음성에 대한 비교 기준이 설정된 음성 모델 수립 이후, 새롭게 입력되는 불특정 화자(예컨대, 도 1의 B)의 음성에 대하여 확인 대상 화자(도 1의 A)와 동일한 방식으로 음성 특성 파라미터 등이 추출되어 형성된 데이터를 확인 대상 화자의 음성 모델과 비교하여 미리 정해진 임계값(threshold value)을 상회할 경우 입력된 불특정 화자의 음성은 확인 대상 화자와 동일 인물인 것으로 판정한다. 다만, 전술한 바와 같이 이러한 종래의 음성 비교 방식은 소요 시간이 꽤 오래걸리고, 확인 대상 화자의 음성이 시간적, 환경적 요소에 의하여 변화하는 경우를 반영하지는 못한다는 문제점이 있다.

도 2는 종래의 문맥(단어) 제시형 화자 확인 시스템을 나타낸 도면이다.

종래의 일반적인 화자 확인 시스템은 사용자가 지정한 문장 또는 단어를 사용하는 문맥(단어) 고정형 시스템과 사용자의 발음 내용에 제한이 없는 문맥(단어) 자유형 시스템으로 구분될 수 있다. 문맥(단어) 고정형 시스템의 경우 시스템 효율성은 좋으나, 정해진 문맥(단어)의 노출 위험성과 사용자를 사칭한 녹음 등의 불법적인 방법의 사용가능성에 따른 보안성이 취약한 반면 문맥(단어) 자유형 시스템의 경우 사용자를 확인하기 위해 많은 훈련 데이터가 필요하여 시간적, 자원 활용도의 측면에서 시스템의 효율성이 낮다.

이러한 문맥(단어) 고정형 시스템과 문맥(단어) 자유형 시스템의 장점을 살리고 단점을 보완하고자 하는 시스템으로써 도 2에서와 같은, 문맥(단어) 제시형 시스템이 출현하였다. 이러한 문맥(단어) 제시형 시스템에서는 사용자의 확인이 필요한 경우 시스템에서 사용자에게 매번 다른 단어나 문장을 발음할 것을 요구하고, 요구한 단어나 문장에 대한 음성 인식 과정을 수행하여 요구된 단어 또는 문장과 일치되는 Text 인지를 1차적으로 확인 후 사용자에게 요구되는 단어 또는 문장의 발음정보에서 화자 고유의 특성 값을 추출하여 사전 정의된 화자의 음성 특성 값과 비교하여 사용자를 확인한다. 문맥(단어) 제시형 시스템의 이러한 절차를 거치면서 사용자가 지정한 문장 또는 단어의 기억이나 사용자를 사칭하는 녹음 등의 위험은 줄어들고, 성능면에서는 문맥(단어) 고정형과 같은 효율을 확보할 수 있다는 점이 이점이다.

그러나, 문맥(단어) 제시형 시스템의 경우, 임의로 문맥(단어)를 생성하는 과정이 화자 음성 모델을 기반으로 하기 때문에 화자의 음성의 원천적인 입력과는 근본적인 차이가 있을 수 있으며, 음성 모델을 형성하는 과정에서의 평준화 오류가 발생할 수도 있다.

도 3은 음성에 대한 종래의 평준화 시스템을 나타낸 도면이다.

사용자의 음성은 연속적 파형으로 샘플링 과정을 거쳐 디지털화될 수 있다. 일반적으로 시스템에서 화자 확인(식별 또는 인증)을 하기 위한 준거 데이터를 생성하기 위하여 하나의 사용자 음성이 아닌 다수의 음성 데이터를 샘플링 한 후 디지털화된 음성 데이터에 대한 공통된 데이터(예컨대, 평준화된 데이터)를 생성한다(도 3의 적색 영역). 이렇게 생성된 데이터를 기준으로 LPC(linear predictive coding), MFCC(Mel-Frequency Cepstral Coefficients) 등을 사용하여 음성에 대한 특성 값을 추출 후 음성에 대한 사용자 준거 데이터화 한다. 하지만, 정상적인 사용자의 발화 이외의 사용자의 감정, 주변 상황(예컨대, 소음 등), 화자의 건강 상태(예컨대, 감기 등의 질병)에 따라 같은 문맥(단어)라 하더라도 일반적으로 말하는 음성 톤, 즉, 주파수와 피치가 변동될 수 있다. 사용자가 발화하는 음성의 경우, 전술한 바와 같이 특정 환경 및 상태에서 음성이 변화할 수 있음에도 불구하고 기존의 방식과 같이 단순히 평준화된 데이터를 기준으로 한 음성 모델 구성은 사용자의 생활 환경 등에 따른 일상적인 특성 값을 왜곡하여 오히려 정확한 화자 확인(식별)의 방해 요인으로 작용할 수 있다.

도 4는 본 발명의 일 실시예에 따른 발화된 단어에 기초하여 화자를 식별하기 위한 방법을 나타낸 순서도이고, 도 5는 본 발명의 일 실시예에 따른 구체적인 화자 식별 방법을 나타낸 순서도이다.

본 발명의 일 실시예에 따른 발화된 단어에 기초하여 화자를 식별하기 위한 방법은 화자로부터 발화된 음성을 수신하는 단계(S100), 수신된 음성에 포함된 단어 및 단어에 대한 음성정보를 추출하는 단계(S200), 미리 구축된 데이터베이스(DB)에서 단어를 검색하는 단계(S300), DB에 단어가 존재하지 않는 경우에는 단어 및 단어에 대한 음성정보를 DB에 추가하고, DB에 단어가 존재하는 경우에는 발화된 단어의 음성정보와 DB 상에 저장되어 있는 각각의 참조 음성정보를 비교하는 단계(S400), 각각의 참조 음성정보와의 비교에 따른 유사도를 추정하는 단계(S500), 추정된 유사도에 상응하는 음성정보가 수신되는 횟수에 기초하여 화자의 단어에 대한 발화 패턴을 결정하는 단계(S600) 및 결정된 발화 패턴에 기초하여 화자를 식별하는 단계(S700)를 포함할 수 있다.

본 발명의 일 실시예에 따른 단어에 대한 음성정보에는 음성의 주파수, 피치(pitch), 포먼트(formant), 발화시간 및 발화속도 중 적어도 하나가 포함될 수 있다.

피치(pitch)는 음의 높이를 지칭한다. 음성(유성음)은 성대 진동의 기본 주파수 성분과 그 고조파 성분으로 구성된다. 진동근원체는 모두 특유한 진동 특성(예컨대, 공진특성)을 가지고 있다. 사람의 조음 기관(예컨대, 성대 등)도 조음에 따라 변하는 순간에서의 공진 특성이 있으며, 성대파가 이러한 공진 특성에 따라 여과되어 소리로써 표현될 수 있다. 특정음(예컨대, 모음)의 주파수 스펙트럼을 살펴보면 공진 특성 발현 시, 그 공진대역이 복수개 이상 존재함을 확인할 수 있다. 이러한 복수개의 공진 주파수대역을 포먼트(formant)로 지칭한다.

도 4 및 도 5를 참조하면, 본 발명의 일 실시예에 따르면, DB에 단어가 존재하지 않는 경우에는 단어 및 단어에 대한 음성정보를 DB에 추가할 수 있다. 이러한 추가된 음성정보는 참조 음성정보로써 이후 화자에 의한 음성이 수신될 때 음성정보의 비교를 위한 기준 데이터로 활용될 수 있다. 또한, DB에 단어가 존재하는 경우에는 발화된 단어의 음성정보와 DB 상에 저장되어 있는 각각의 참조 음성정보를 비교할 수 있다. 이러한 비교 단계(S400)에서는 화자로부터 발화된 단어에 대한 음성정보가 DB 상에 저장되어 있는 적어도 하나의 참조 음성정보와 유사한지 여부를 판단할 수 있다.

본 발명의 일 실시예에 따른 각각의 참조 음성정보와의 비교에 따른 유사도를 추정하는 단계(S500)에서는 전술한 판단의 결과에 따라 유사도가 추정되며, 추정된 유사도가 제 1 기준값 미만인 경우에는 신규의 참조 음성정보가 생성되어 DB에 저장될 수 있다. 또한, 이러한 경우 추정된 유사도 정보가 음성정보에 포함되어 DB 상에 함께 저장될 수 있다. 예를 들어, 제 1 기준값은 70%(또는 0.7)일 수 있고, 이러한 제 1 기준값은 사용자의 설정에 따라 가변적으로 설정될 수 있다. 동일한 화자에 의한 동일한 단어가 발화되더라도, 화자의 상태, 환경 조건(요소)들에 따라 음성정보가 변화될 수 있으므로, 화자 인식의 정확성을 보다 향상시키기 위해서는 본원에서와 같이 화자 개인별 특정 단어에 대한 발화 패턴을 지속적으로 추적하여 관리할 필요가 있다.

또한, 제 1 기준값 이상인 경우에는 해당 유사도를 갖는 참조 음성정보의 매칭 횟수가 증가되어 카운팅될 수 있다. 다시 말해서, 화자에 의하여 동일한 단어가 동일하거나 유사도가 높은 음성정보를 갖도록 반복적으로 발화된다면, 화자는 현재의 이러한 발화 패턴으로 또 다시 발화할 가능성이 매우 높아진다. 즉, 본 발명의 일 실시예에서와 같이, 화자의 발화 패턴에 대한 빈도를 파악(수집)하여 이를 화자 인식(식별)에 사용함으로써 정확성과 신뢰성을 고수준으로 확보할 수 있을 뿐만 아니라 화자의 음성정보를 최신화하여 유지할 수 있다.

본 발명의 일 실시예에 따른 화자의 단어에 대한 발화 패턴을 결정하는 단계(S600)에서는 카운팅된 매칭 횟수가 제 2 기준값 미만인 경우에는 화자로부터 발화된 신규의 음성이 수신되어 유사도가 추정되는 전술한 과정들이 반복적으로 수행되도록 할 수 있다. 다시 말해서, 카운팅된 매칭 횟수가 일정 수준을 넘겨야 화자의 반복적인 현재의 발화 패턴임을 신뢰성 있게 추정할 수 있기 때문에, 소정의 수준(예컨대, 제 2 기준값 이상)이 되도록 화자로부터 신규 음성을 수신 받아 전술한 과정(단계)들을 반복적으로 수행한다.

카운팅된 매칭 횟수가 제 2 기준값 이상인 경우에는, 해당 참조 음성정보를 화자의 단어에 대한 발화 패턴으로써 결정할 수 있다. 이러한 제 2 기준값은 예를 들어, 5 내지 10 범위에 포함된 값을 가질 수도 있다.

본 발명의 일 실시예에 따른 추정된 유사도에 상응하는 음성정보가 수신되는 횟수에 기초하여 화자의 단어에 대한 발화 패턴을 결정하는 단계(S600)에서는 제 2 기준값 이상의 카운팅된 매칭 횟수를 갖는 유사도에 상응하는 음성정보에 기초하여 화자의 음성 모델이 수립됨으로써 발화 패턴이 결정될 수 있다. 전술한 바와 같이, 카운팅된 매칭 횟수가 제 2 기준값 이상인 참조 음성정보가 화자의 음성 모델로써 수립될 수 있고, 이에 따라 발화 패턴이 결정될 수 있다.

또한, 결정된 발화 패턴에 기초하여 화자를 식별하는 단계(S700)에서는 발화된 음성에 대하여 전술한 단계를 통하여 결정된 발화 패턴을 기준으로 발화 음성의 화자가 누구인지 여부가 식별될 수 있다. 다시 말해서, 제 1 기준값 및 제 2 기준값을 상회하는 참조 음성정보는 확인 대상 화자의 발화 패턴으로 결정될 수 있고, 음성이 입력(수신)된다면 이러한 결정되 발화 패턴에 따라 해당 음성을 발화한 화자가 확인 대상 화자와 동일 인물인지 타인인지 여부가 빠르고 정확하게 식별될 수 있다.

도 6은 본 발명의 일 실시예에 따른 발화된 단어에 기초하여 화자를 식별하기 위한 장치를 나타낸 블록도이다.

본 발명의 일 실시예에 따른 발화된 단어에 기초하여 화자를 식별하기 위한 장치(1000)에는 화자로부터 발화된 음성을 수신하는 음성수신부(1100), 수신된 음성에 포함된 단어 및 단어에 대한 음성정보를 추출하는 정보추출부(1200), 미리 구축된 데이터베이스(DB)에서 단어를 검색하는 정보검색부(1300), DB에 단어가 존재하지 않는 경우에는 단어 및 단어에 대한 음성정보를 DB에 추가하고, DB에 단어가 존재하는 경우에는 발화된 단어의 음성정보와 DB 상에 저장되어 있는 각각의 참조 음성정보를 비교하는 비교부(1400), 각각의 참조 음성정보와의 비교에 따른 유사도를 추정하는 유사도추정부(1500), 추정된 유사도에 상응하는 음성정보가 수신되는 횟수에 기초하여 화자의 단어에 대한 발화 패턴을 결정하는 발화패턴결정부(1600) 및 결정된 발화 패턴에 기초하여 화자를 식별하는 화자식별부(1700)가 포함될 수 있다.

도 6을 참조하면, 제 1 사용자(제 1 화자)가 예를 들어, “기업”이라고 발화하면 제 1 사용자에 대한 식별자인 태그 정보(예컨대, U000)가 할당되고, 발화된 “기업”이라는 음성에 대한 음성정보(예컨대, 벡터 특성 정보 등)(V_Inof000)가 태그 정보(U000)와 연동되어 DB 상에 저장되어 관리될 수 있다. 또한, 전술한 바와 같은 발화 매칭 횟수정보가 태그 정보(U000) 및 음성정보(V_Inof000)와 함께 저장되어 관리될 수 있다.(예컨대, 도 6에서 "2")

이와 유사하게 제 1 화자가 예를 들어, "은행"이라고 발화하면 제 1 화자에 대한 식별자인 태그 정보(예컨대, U000)와 발화된 "은행"이라는 음성에 대한 음성정보(V_Inof003)가 발화 매칭 횟수정보와 함께 저장되어 관리될 수 있다.(예컨대, 도 6에서 “7”)

제 2 사용자(제 2 화자)의 태그 정보는 예를 들면, U011로 할당될 수 있다.

본 발명의 일 실시예에 따른 비교부(1400)에서는 화자로부터 발화된 단어에 대한 음성정보가 DB 상에 저장되어 있는 적어도 하나의 참조 음성정보와 유사한지 여부를 판단하고, 유사도추정부(1500)에서는 판단의 결과에 따라 유사도가 추정되며, 추정된 유사도가 제 1 기준값 미만인 경우에는 신규의 참조 음성정보가 생성되어 DB에 저장되고, 제 1 기준값 이상인 경우에는 해당 유사도를 갖는 참조 음성정보의 매칭 횟수가 증가되어 카운팅될 수 있다.

또한, 발화패턴결정부(1600)에서는 카운팅된 매칭 횟수가 제 2 기준값 미만인 경우에는 화자로부터 발화된 신규의 음성이 수신되어 유사도가 추정되는 과정이 반복적으로 수행되도록 하고, 제 2 기준값 이상인 경우에는 화자의 단어에 대한 발화 패턴으로 결정할 수 있다.

본 발명의 일 실시예에 따르면, 제 2 기준값 이상의 카운팅된 매칭 횟수를 갖는 유사도에 상응하는 음성정보에 기초하여 화자의 음성 모델이 수립됨으로써 발화 패턴이 발화패턴결정부(1600)에 의하여 결정되고, 화자식별부(1700)에서는 발화된 음성에 대하여 결정된 발화 패턴을 기준으로 화자가 누구인지 여부가 식별될 수 있다.

도 7은 본 발명의 일 실시예에 따른 음성에 대한 평준화 시스템을 나타낸 도면이다.

예를 들면, 시스템에서는 사용자의 일상적인 발화 패턴에 대하여 알 수 없으며, 발화하는 상태에 대하여도 알 수 없을 수 있다. 이에 사용자가 발화하는 음성에 대하여 각 개별 문맥(단어) 수준에서 음성 특성 별 개별적인 참조 음성정보 DB를 구축한다. 이후 신규로 입력되는 음성은 특성 분류 후 기존에 구축된 참조 음성정보 DB와 비교하여 특성 유사도를 판별하여 소정의 기준값(예컨대, 제 3 기준값) 이상일 경우, 비교된 참조 음성정보 DB 외 신규 입력된 음성에 대한 유사 참조 음성정보 DB를 형성함과 동시에 사용자 음성 유사도 패턴을 분석할 수 있도록 해당 참조 음성정보 DB의 대한 매칭 횟수 카운팅을 1씩 증가시킨다. 아울러 비교 시 음성의 특성 유사도가 제 3 기준값 이하인 경우에는 새로운 참조 음성정보 값으로 신규 DB를 생성하도록 한다.

지속적인 신규 음성 입력에 대하여 위와 같은 과정을 반복하면서 소정의 기준값(예컨대, 제 4 기준값) 이상 유사성이 큰 DB가 지속적으로 나타날 경우(예컨대, 카운팅된 매칭 횟수가 많은 경우), 해당 참조 음성정보를 사용자의 특정 문맥(단어)에 대한 음성 패턴으로 인식하여 해당 참조 음성정보의 DB를 화자 음성 모델 수립을 위한 기초 음성 데이터로써 사용한다. 이렇게 함으로 화자의 다양한 음성 상태 변이에 대한 왜곡 오류를 효과적으로 제거할 수 있으며, 특정 화자의 문맥(단어)에 대한 음성 패턴을 정규화할 수 있다.

도 8은 본 발명의 일 실시예에 따른 화자의 발화 유사성에 기초한 평준화 과정을 나타낸 도면이다.

도 3과는 상이하게 도 8의 음성 그래프는 유사도를 띠고 있어, 각 음성 데이터에 차이가 많이 발생하지 않음을 알 수 있다. 이를 대상으로 공통된 내용(예컨대, 도 8의 녹색 영역)을 기준으로 음성 모델을 수립한 후 신규 입력되는 불특정 화자 음성을 비교 매칭하여 화자 식별을 수행할 수 있다.

이때 화자 확인 결정의 예시적인 일 기준 요인으로써, 공통 영역(예컨대, 도 8의 녹색 영역) 외 해당 음성 데이터의 최대 값과 최소 값 차이가 오차 범위로 적용될 수 있으며, 입력 비교값이 오차 범위 내에 수렴될 경우 음성을 발화한 화자는 참조 음성정보 DB에 상응하는 정당한 화자(즉, 동일한 인물)로 인식할 수도 있다.

본 명세서에서 전술한 수치값은 이해를 돕기 위한 설명상의 편의를 위하여 제시된 예로써, 이에 반드시 제한되는 것은 아니다.

본 발명의 일 실시예에 따른 장치와 관련하여서는 전술한 방법에 대한 내용이 적용될 수 있다. 따라서, 장치와 관련하여, 전술한 방법에 대한 내용과 동일한 내용에 대하여는 설명을 생략하였다.

한편, 전술한 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터 판독 가능 매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 방법에서 사용된 데이터의 구조는 컴퓨터 판독 가능 매체에 여러 수단을 통하여 기록될 수 있다. 본 발명의 다양한 방법들을 수행하기 위한 실행 가능한 컴퓨터 프로그램이나 코드를 기록하는 기록 매체는, 반송파(carrier waves)나 신호들과 같이 일시적인 대상들은 포함하는 것으로 이해되지는 않아야 한다. 상기 컴퓨터 판독 가능 매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들면, 시디롬, DVD 등)와 같은 저장 매체를 포함할 수 있다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

1000: 발화된 단어에 기초하여 화자를 식별하기 위한 장치
1100: 음성수신부
1200: 정보추출부
1300: 정보검색부
1400: 비교부
1500: 유사도추정부
1600: 발화패턴결정부
1700: 화자식별부
2000: 데이터베이스(DB)

Claims

발화된 단어에 기초하여 화자를 식별하기 위한 방법으로서,
상기 화자로부터 발화된 음성을 수신하는 단계;
상기 수신된 음성에 포함된 단어 및 상기 단어에 대한 음성정보를 추출하는 단계;
미리 구축된 데이터베이스(DB)에서 상기 단어를 검색하는 단계;
상기 DB에 상기 단어가 존재하지 않는 경우에는 상기 단어 및 상기 단어에 대한 음성정보를 상기 DB에 추가하고, 상기 DB에 상기 단어가 존재하는 경우에는 발화된 상기 단어의 음성정보와 DB 상에 저장되어 있는 각각의 참조 음성정보를 비교하는 단계;
상기 각각의 참조 음성정보와의 비교에 따른 유사도를 추정하는 단계;
상기 추정된 유사도에 상응하는 음성정보가 수신되는 횟수에 기초하여 상기 화자의 상기 단어에 대한 발화 패턴을 결정하는 단계; 및
상기 결정된 발화 패턴에 기초하여 상기 화자를 식별하는 단계를 포함하며,
상기 비교하는 단계에서는 상기 화자로부터 발화된 단어에 대한 음성정보가 상기 DB 상에 저장되어 있는 적어도 하나의 참조 음성정보와 유사한지 여부를 판단하고,
상기 유사도를 추정하는 단계에서는 상기 판단의 결과에 따라 유사도가 추정되며, 상기 추정된 유사도가 제 1 기준값 미만인 경우에는 신규의 참조 음성정보가 생성되어 상기 DB에 저장되고, 상기 제 1 기준값 이상인 경우에는 해당 유사도를 갖는 참조 음성정보의 매칭 횟수가 증가되어 카운팅되게 하는 것을 특징으로 하는 발화된 단어에 기초하여 화자를 식별하기 위한 방법.
제 1 항에 있어서,
상기 단어에 대한 음성정보에는 상기 음성의 주파수, 피치(pitch), 포먼트(formant), 발화시간, 발화속도 중 적어도 하나가 포함되는 것을 특징으로 하는 발화된 단어에 기초하여 화자를 식별하기 위한 방법.
삭제
제 1 항에 있어서,
상기 발화 패턴을 결정하는 단계에서는 상기 카운팅된 매칭 횟수가 제 2 기준값 미만인 경우에는 상기 화자로부터 발화된 신규의 음성이 수신되어 유사도가 추정되는 과정이 반복적으로 수행되도록 하고, 상기 제 2 기준값 이상인 경우에는 상기 화자의 상기 단어에 대한 발화 패턴으로 결정하는 것을 특징으로 하는 발화된 단어에 기초하여 화자를 식별하기 위한 방법.
제 4 항에 있어서,
상기 제 2 기준값 이상의 카운팅된 매칭 횟수를 갖는 유사도에 상응하는 음성정보에 기초하여 상기 화자의 음성 모델이 수립됨으로써 상기 발화 패턴이 결정되고,
상기 식별하는 단계에서는 발화된 음성에 대하여 상기 결정된 발화 패턴을 기준으로 화자가 누구인지 여부가 식별되는 것을 특징으로 하는 발화된 단어에 기초하여 화자를 식별하기 위한 방법.
발화된 단어에 기초하여 화자를 식별하기 위한 장치로서,
상기 화자로부터 발화된 음성을 수신하는 음성수신부;
상기 수신된 음성에 포함된 단어 및 상기 단어에 대한 음성정보를 추출하는 정보추출부;
미리 구축된 데이터베이스(DB)에서 상기 단어를 검색하는 정보검색부;
상기 DB에 상기 단어가 존재하지 않는 경우에는 상기 단어 및 상기 단어에 대한 음성정보를 상기 DB에 추가하고, 상기 DB에 상기 단어가 존재하는 경우에는 발화된 상기 단어의 음성정보와 DB 상에 저장되어 있는 각각의 참조 음성정보를 비교하는 비교부;
상기 각각의 참조 음성정보와의 비교에 따른 유사도를 추정하는 유사도추정부;
상기 추정된 유사도에 상응하는 음성정보가 수신되는 횟수에 기초하여 상기 화자의 상기 단어에 대한 발화 패턴을 결정하는 발화패턴결정부; 및
상기 결정된 발화 패턴에 기초하여 상기 화자를 식별하는 화자식별부를 포함하며,
상기 비교부에서는 상기 화자로부터 발화된 단어에 대한 음성정보가 상기 DB 상에 저장되어 있는 적어도 하나의 참조 음성정보와 유사한지 여부를 판단하고,
상기 유사도추정부에서는 상기 판단의 결과에 따라 유사도가 추정되며, 상기 추정된 유사도가 제 1 기준값 미만인 경우에는 신규의 참조 음성정보가 생성되어 상기 DB에 저장되고, 상기 제 1 기준값 이상인 경우에는 해당 유사도를 갖는 참조 음성정보의 매칭 횟수가 증가되어 카운팅되게 하는 것을 특징으로 하는 발화된 단어에 기초하여 화자를 식별하기 위한 장치.
제 6 항에 있어서,
상기 단어에 대한 음성정보에는 상기 음성의 주파수, 피치(pitch), 포먼트(formant), 발화시간, 발화속도 중 적어도 하나가 포함되는 것을 특징으로 하는 발화된 단어에 기초하여 화자를 식별하기 위한 장치.
삭제
제 6 항에 있어서,
상기 발화패턴결정부에서는 상기 카운팅된 매칭 횟수가 제 2 기준값 미만인 경우에는 상기 화자로부터 발화된 신규의 음성이 수신되어 유사도가 추정되는 과정이 반복적으로 수행되도록 하고, 상기 제 2 기준값 이상인 경우에는 상기 화자의 상기 단어에 대한 발화 패턴으로 결정하는 것을 특징으로 하는 발화된 단어에 기초하여 화자를 식별하기 위한 장치.
제 9 항에 있어서,
상기 제 2 기준값 이상의 카운팅된 매칭 횟수를 갖는 유사도에 상응하는 음성정보에 기초하여 상기 화자의 음성 모델이 수립됨으로써 상기 발화 패턴이 상기 발화패턴결정부에 의하여 결정되고,
상기 화자식별부에서는 발화된 음성에 대하여 상기 결정된 발화 패턴을 기준으로 화자가 누구인지 여부가 식별되는 것을 특징으로 하는 발화된 단어에 기초하여 화자를 식별하기 위한 장치.
제 1 항, 제 2 항, 제 4 항 또는 제 5 항 중 어느 한 항의 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.