KR100679044B1

KR100679044B1 - 사용자 적응형 음성 인식 방법 및 장치

Info

Publication number: KR100679044B1
Application number: KR1020050018786A
Authority: KR
Inventors: 김정은; 김정수
Original assignee: 삼성전자주식회사
Priority date: 2005-03-07
Filing date: 2005-03-07
Publication date: 2007-02-06
Also published as: JP4709663B2; KR20060097895A; US20060200347A1; JP2006251800A; US7996218B2

Abstract

본 발명은 사용자 적응형 음성 인식 방법 및 장치에 관한 것이다.

본 발명의 실시예에 따른 사용자 적응형 음성 인식 방법은 사용자로부터 입력된 음성의 인식 결과에 따른 인식 후보의 신뢰도를 계산하는 단계, 상기 인식 후보에 대한 사용자의 확인 결과 및 상기 인식 후보의 신뢰도를 통해서 사용자에게 적응된 새로운 임계값을 설정하는 단계, 및 상기 계산된 신뢰도가 상기 설정된 새로운 임계값 이상이면 상기 인식 후보를 음성 인식 결과로써 출력하는 단계를 포함한다.

본 발명에 따르면 음성 인식 결과에 대한 사용자의 확인 과정을 줄이면서 음성 인식의 성공율을 높일 수 있다.

음성 인식, 신뢰도

Description

사용자 적응형 음성 인식 방법 및 장치{Method and apparatus for speech recognition}

도 1은 본 발명의 일 실시예에 따른 사용자 적응형 음성 인식 장치를 나타낸 블록도이다.

도 2는 본 발명의 일 실시예에 따른 임계값 설정부를 보다 구체적으로 나타낸 블록도이다.

도 3은 본 발명의 일 실시예에 따른 판단부에 의해 정답 및 오답으로 구분된 인식 후보들의 분포를 나타낸 도면이다.

도 4a는 본 발명의 일 실시예에 따른 분류부에 의해 분류된 인식 후보의 분포를 나타낸 도면이다.

도 4b는 본 발명의 다른 실시예에 따른 분류부에 의해 분류된 인식 후보의 분포를 나타낸 도면이다.

도 5a는 본 발명의 일 실시예에 따른 새로운 임계값을 기준으로 분류된 인식 후보의 분포를 나타낸 도면이다.

도 5b는 본 발명의 다른 실시예에 따른 새로운 임계값을 기준으로 분류된 인식 후보의 분포를 나타낸 도면이다.

도 6은 본 발명의 일 실시예에 따른 사용자 적응형 음성 인식 방법을 나타낸 흐름도이다.

도 7은 본 발명의 일 실시예에 따른 새로운 임계값 설정 과정을 나타낸 흐름도이다.

<도면의 주요 부분에 관한 부호의 설명>

110 : 특징 추출부 120 : 인식부

130 : 신뢰도 계산부 140 : 임계값 설정부

310 : 판단부 320 : 분류부

330 : 임계값 계산부 340 : 저장부

본 발명은 음성 인식 방법 및 장치에 관한 것으로서, 더욱 상세하게는 사용자에 적응된 새로운 임계값을 사용하여 인식 후보에 대한 사용자의 확인 응답 여부를 제어하는 사용자 적응형 음성 인식 방법 및 장치에 관한 것이다.

음성 인식이란 주어진 음성 신호로부터 특징을 추출하고 추출된 특징에 패턴 인식 알고리즘을 적용시킨 후 화자가 어떤 음소열 또는 단어열을 발화시켜 발생된 음성 신호인가를 추정하는 일련의 과정으로 정의될 수 있다.

이와 같은 음성 인식 기술이 적용된 기기들(예들 들어 휴대폰, PDA, 카 네비게이션 시스템, 기타 가전 기기 등)에 대해서는 사용자의 발화를 통해서 제어 명령을 입력시킬 수 있다.

예를 들어 음성 인식 기능을 갖는 카 네비게이션 시스템을 사용할 경우, 사용자는 목적지를 검색하기 위하여 여러 번의 버튼 입력 작업을 거치는 대신 목적지의 지명을 발화함으로써 간편히 목적지에 대한 정보를 얻을 수 있다.

그러나, 사용자의 다양한 발음 특성 등의 이유로 음성 인식 장치의 음성 인식률에는 한계가 있다. 이에 따라서 종래의 음성 인식 기술은 사용자로부터 입력된 음성에 대한 인식을 수행하고 음성 인식 결과로써 출력될 가능성을 갖는 인식 후보를 사용자에게 제공하여 사용자로부터 인식 성공 여부를 확인 받도록 한다.

예를 들어 이러한 음성 인식 기술이 적용된 음성 인식 장치가 사용자로부터 입력된 음성을 '서울역'이라고 인식하였다면, 음성 인식 장치는 사용자에게 '서울역이 맞습니까?'라고 질문을 하게된다. 사용자는 음성 인식 장치의 질문에 긍정 또는 부정에 대한 확인을 입력함으로써 자신이 발화한 음성이 성공적으로 인식 되었는지의 여부를 음성 인식 장치에게 확인시킨다.

사용자로부터 긍정 응답이 입력되면 음성 인식 장치는 음성 인식을 성공한 것으로 판단하고 해당 인식 후보를 음성 인식 결과로써 어플레케이션으로 전달하게 된다.

그러나 이러한 종래 기술은 음성 인식 결과마다 사용자의 확인 작업을 요청하기 때문에 사용자에게 불편함을 유발시킨다.

한편, 미국 등록 특허 6567778(Natural language speech recognition using slot semantic confidence scores related to their word recognition confidence scores)은 인식 후보에 대한 신뢰도를 계산하고 신뢰도가 임계값 이상인 경우 사용 자의 확인 과정을 거치지 않고 해당 인식 후보를 음성 인식 결과로써 어플리케이션으로 출력시키는 기술에 대하여 개시하고 있다. 그러나 미국 등록 특허 6567778에 의하더라도 사용자마다 발음 특성에 차이가 있으므로, 모든 사용자에게 균일한 임계값을 적용시키게 되면 사용자에 따라서 발화 횟수의 감소 효과가 발생하지 않는 경우가 있을 수 있다. 이러한 경우에는 사용자가 대부분의 인식 후보에 대하여 확인 작업을 수행해야 하는 불편함이 여전히 발생하게 된다.

따라서 사용자의 발화 횟수를 줄이면서 음성 인식의 성공율을 높일 수 있는 기술이 요구되었다.

본 발명은 사용자에 적응된 새로운 임계값을 설정함으로써, 음성 인식 결과에 대한 사용자의 확인 작업을 줄이면서 음성 인식의 성공율을 높이는데 그 목적이 있다.

본 발명의 목적들은 이상에서 언급한 목적들로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상기 목적을 달성하기 위하여, 본 발명의 실시예에 따른 사용자 적응형 음성 인식 방법은 사용자로부터 입력된 음성의 인식 결과에 따른 인식 후보의 신뢰도를 계산하는 단계, 상기 인식 후보에 대한 사용자의 확인 결과 및 상기 인식 후보의 신뢰도를 통해서 사용자에게 적응된 새로운 임계값을 설정하는 단계, 및 상기 계산 된 신뢰도가 상기 설정된 새로운 임계값 이상이면 상기 인식 후보를 음성 인식 결과로써 출력하는 단계를 포함한다.

상기 목적을 달성하기 위하여, 본 발명의 실시예에 따른 사용자 적응형 음성 인식 장치는 사용자로부터 입력된 음성의 인식 결과에 따른 인식 후보의 신뢰도를 계산하는 신뢰도 계산부, 상기 인식 후보에 대한 사용자의 확인 결과 및 상기 인식 후보의 신뢰도를 통해서 사용자에게 적응된 새로운 임계값을 설정하는 임계값 설정부, 및 상기 계산된 신뢰도가 상기 설정된 새로운 임계값 이상이면 상기 인식 후보를 음성 인식 결과로써 출력하는 제어부를 포함한다.

기타 실시예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하기로 한다.

도시된 음성 인식 장치는 특징 추출부(110), 인식부(120), 신뢰도 계산부(130), 임계값 설정부(140) 및 제어부(150)를 포함한다. 또한 도시된 음성 인식 장치는 디스플레이부(160), 음성 합성부(170) 및 스피커부(180)를 더 포함한다.

특징 추출부(110)는 입력되는 음성 신호의 특징(feature)을 추출한다. 특징 추출이란 음성 인식에 유용한 성분을 음성 신호로부터 뽑아내는 것을 말하며, 일반적으로 정보의 압축, 차원 감소 과정과 관련된다. 음성 인식을 위하여 LPC(Linear Predictive Coding) cepstrum, PLP(Perceptual Linear Prediction) cepstrum, MFCC(Mel Frequency cepstral coefficient), 차분 cepstrum, 필터 뱅크 에너지, 차분 에너지 등의 특징이 사용될 수 있다.

인식부(120)는 사용자로부터 입력된 음성에 대하여 음성 인식 작업을 수행하고, 그에 따라서 음성 인식 결과로써 출력될 가능성을 갖는 인식 후보를 출력한다. 예를 들어 인식부(120)는 소정의 음향 모델을 참조하여, 특징 추출부(110)에 의해 추출된 음성 신호의 특징을 통해 인식 가능한 단어를 검색하고 검색된 단어를 인식 후보로써 출력할 수 있다.

음성 인식을 위한 음향 모델의 단위는 음소(phoneme), 다이폰(diphone), 트라이폰(triphone), 퀸폰(quinphone), 음절(syllable), 단어(word) 등이 될 수 있다. 일 예로써 음향 모델은 문자와 음소의 단위 및 각 음소의 단위의 특징에 대한 정보일 수 있다. 바람직하게는, 본 발명에서 음향 모델은 은닉마코프모델(Hidden Markov Model; 이하, HMM이라 함)을 기반으로 한다.

한편, 인식부(120)는 입력된 음성을 인식하기 위하여 발음 모델 및 언어 모델을 더 참조할 수 있다.

발음 모델은 표준 발음으로 정의되는 대표 발음을 사용하여 한 단어 당 하나의 발음을 할당하는 단순 발음 모델, 허용발음, 사투리, 액센트를 고려할 수 있는 다중 발음 모델, 각 발음의 확률을 고려하는 통계적 발음 모델 및 음소 기반의 사전식(lexical) 발음 모델 등 일수 있다.

언어 모델은 연속 음성 인식을 위해 사용되는 문법을 의미 한다. 언어 모델을 정의할 수 있는 문법의 예로써 FSN(Finite State Network), CFG(Context-Free Grammar)와 같은 형식 언어를 위한 문법이나 n-gram과 같은 통계적인 문법을 들 수 있다. 이중 n-gram은 과거 n-1개의 단어로부터 다음에 나타날 단어의 확률을 정의하는 문법이며, 그 종류로는 바이그람, 트라이그람, 4그람 등이 있다.

따라서 인식부(120)는 실시예에 따라서, 개별적인 단어뿐만 아니라 사용자로부터 입력된 음성을 통해 구성되는 문장에 대한 인식 후보를 출력할 수도 있다.

신뢰도 계산부(130)는 인식부(120)에 의해 출력된 인식 후보의 신뢰도를 계산한다. 본 발명에 있어서 신뢰도란, 인식부(120)로부터 출력된 인식 후보가 유효한 음성 인식 결과일 확률을 나타낸다. 예를 들어 신뢰도는 인식 후보인 음소나 단어 외의 다른 음소나 단어를 의미하는 음성이 발화되었을 확률에 대한 상대값을 의미할 수 있다.

신뢰도를 계산하기 위한 일 예로써 음소(phone) 모델과 반음소(anti-phone) 모델이 사용될 수 있다. 음소 모델은 어떤 음성에서 실제로 발화된 음소들을 추출 하고 추출된 음소들을 훈련시킴으로써 생성된 HMM이다. 또한, 반음소 모델은 실제 발화된 음소와 유사한 음소들의 집합인 유사 음소 집합(Cohort Set)을 사용하여 훈련된 HMM을 의미한다.

음소 모델과 반음소 모델을 사용하여 신뢰도를 계산하는 경우, 신뢰도 계산부(130)는 특징 추출부(110)에 의해 추출된 특징과 가장 유사한 음소를 음소 모델에서 검색하고, 검색된 음소에 대한 반음소 모델에 대하여 유사도를 계산한다. 그 후 신뢰도 계산부(130)는 음소 모델에 대한 유사도와 반음소 모델에 대한 유사도의 차이를 구하고 이를 소정의 함수에 적용시킴으로써 신뢰도를 계산할 수 있다.

임계값 설정부(140)는 인식 후보에 대한 사용자의 확인 결과 및 각 인식 후보의 신뢰도를 통해서, 음성 인식 장치를 사용하는 사용자에게 적응된 새로운 임계값(이하 새로운 임계값이라 한다)을 설정한다. 임계값 설정부(140)에 대한 구체적인 설명은 도 2 내지 도 5b를 참조하여 후술하도록 한다.

제어부(150)는 새로운 임계값이 설정되었는지의 여부에 따라서 인식부(120)로부터 출력된 인식 후보에 대하여 사용자로부터 확인 응답을 받을 것인지의 여부를 결정한다.

만약 새로운 임계값이 설정되어 있지 않다면, 제어부(150)는 인식부(120)로부터 출력된 인식 후보를 사용자에게 제공하고 사용자로부터 인식 후보에 대한 확인 응답을 입력 받도록 한다. 이 경우, 사용자에 의해 인식 후보가 정답으로 선택되면 제어부(160)는 해당 인식 후보를 음성 인식 결과로써 출력한다.

한편, 새로운 임계값이 설정되어 있다면 제어부(150)는 인식부(120)로부터 출력된 인식 후보의 신뢰도를 새로운 임계값과 비교한다.

비교 결과 신뢰도가 새로운 임계값 이상이면 제어부(150)는 인식 후보를 음성 인식 결과로써 출력한다. 이 경우 제어부(150)는 인식 후보에 대하여 사용자 확인을 받지 않더라도 인식 후보를 음성 인식 결과로써 출력할 수 있다.

그러나, 신뢰도와 새로운 임계값을 비교한 결과 신뢰도가 새로운 임계값 미만이면 제어부(150)는 인식 후보를 사용자에게 제공하고 사용자로부터 인식 후보에 대한 확인 응답을 받도록 한다. 이 때의 과정은 새로운 임계값이 설정되어 있지 않은 경우와 동일하게 수행될 수 있다.

제어부(150)로부터 출력되는 인식 결과는 어플리케이션(210)으로 전달되어 특정 서비스를 제공하도록 한다. 예를 들어 도시된 음성 인식 장치가 카 네비게이션 시스템에 사용된다면, 인식 결과는 지도 검색 서비스를 제공하는 어플레케이션으로 전달될 수 있다.

도 2는 본 발명의 일 실시예에 다른 임계값 설정부를 보다 구체적으로 나타낸 블록도이다.

도시된 임계값 설정부(140)는 판단부(310), 분류부(320), 임계값 계산부(330) 및 저장부(340)를 포함한다.

판단부(310)는 인식 후보의 신뢰도를 초기 임계값과 비교하여 인식 후보를 정답 및 오답으로 구분한다. 즉, 신뢰도가 초기 임계값 이상인 인식 후보는 사용자로부터 입력된 음성에 대한 인식 성공 결과를 의미하는 정답으로 구분되고, 신뢰도가 초기 임계값 미만인 인식 후보는 사용자로부터 입력된 음성에 대한 인식 실패 결과를 의미하는 오답으로 구분된다. 초기 임계값은 음성 인식 결과를 사용하는 어플리케이션의 특성에 따라서 사전에 설정될 수 있다. 판단부(310)에 의해 구분된 인식 후보들의 신뢰도 분포에 대한 일 예를 도 3에 도시하였다. 도 3에서 초기 임계값은 2.0으로 설정되어 있다.

분류부(320)는 각 인식 후보에 대한 사용자 확인 결과 정답으로 처리된 인식 후보들을 제 1 그룹으로 분류하고, 사용자 확인 결과 오답으로 처리된 인식 후보들을 제 2 그룹으로 분류한다. 따라서 제 1 그룹에는 실제로는 정답이 아니나 판단부(310)에 의해 정답으로 구분된 인식 후보(이하 잘못된 정답(false acceptance)이라 한다)가 포함될 수 있고, 제 2 그룹에는 실제로는 오답이 아니나 판단부(310)에 의해 오답으로 구분된 인식 후보(이하 잘못된 오답(false reject)이라 한다)가 포함될 수 있다.

도 3에 도시된 인식 후보들에 대한 분류부(320)의 분류 작업 결과의 실시예를 도 4a 및 도 4b에 도시하였다. 도 4a 및 도 4b에 도시된 숫자는 각 인식 후보의 신뢰도의 일 예를 나타낸다. 도 4a의 실시예에서 인식 후보 420 및 430은 잘못된 오답이다. 또한 도 4b의 실시예에서 인식 후보 510 및 520은 잘못된 오답이고, 인식 후보 530 및 550은 잘못된 정답이다.

한편, 분류부(320)에 의해 분류된 인식 후보 및 인식 후보의 신뢰도는 저장부(340)에 저장된다. 또한 인식 후보에 대한 사용자 확인 결과는 제어부(150)으로부터 전달받을 수 있다.

임계값 계산부(330)는 분류부(320)의 인식 후보 분류 결과 및 인식 후보의 신뢰도에 따라서 사용자에게 적응된 새로운 임계값을 계산한다. 임계값 계산부(330)에 의한 새로운 임계값 계산은 전체 음성 입력 횟수(사용자의 발화 횟수)가 임계 횟수 이상인 경우에 수행되는 것이 바람직하다. 임계값 계산 여부의 기준이 되는 임계 횟수는 음성 인식 결과를 사용할 어플리케이션의 특성에 따라서 달라질 수 있다. 예를 들어 음성 인식에 있어서 보다 높은 정확성을 요구하는 어플리케이션일수록 임계 횟수가 높게 설정될 수 있다.

임계값 계산부(330)는 제 1 그룹으로 분류된 인식 후보들의 신뢰도가 분포하는 구간(이하 제 1 신뢰도 구간이라 한다)과 제 2 그룹으로 분류된 인식 후보들의 신뢰도가 분포하는 구간(이하 제 2 신뢰도 구간이라 한다)이 중첩되지 않는 경우, 제 1 신뢰도 구간과 제 2 신뢰도 구간의 경계 상의 값을 갖는 새로운 임계값을 계산한다.

보다 구체적으로 임계값 계산부(330)에 의해 계산되는 새로운 임계값은 제 1 그룹으로 분류된 인식 후보들의 신뢰도 중에서 가장 낮은 신뢰도 이하이고 제 2 그룹으로 분류된 인식 후보들의 신뢰도 중에서 가장 높은 신뢰도 이상의 값을 갖는다. 예를 들어, 인식 후보들이 도 4a에 도시된 바와 같이 분류된 경우 새로운 임계값은 인식 후보 410의 신뢰도와 인식 후보 420의 신뢰도의 사이 값을 갖도록 계산될 수 있다.

바람직하게는 임계값 계산부(330)는 제 1 그룹으로 분류된 인식 후보들의 신뢰도 중에서 가장 낮은 신뢰도와 제 2 그룹으로 분류된 인식 후보들의 신뢰도 중에서 가장 높은 신뢰도의 평균값으로 새로운 임계값을 계산할 수 있다. 예를 들어 도 4a에 도시된 예에서 새로운 임계값은 인식 후보 410의 신뢰도와 인식 후보 420의 신뢰도의 평균값을 갖을 수 있다.

한편, 제 1 신뢰도 구간과 제 2 신뢰도 구간이 중첩되는 경우에는 새로운 임계값을 계산하기 위한 다른 실시예가 필요하다.

신뢰도 계산 알고리즘의 불완전성 등의 원인으로 인하여, 도 4b에 도시된 바와 같이 제 1 신뢰도 구간과 제 2 신뢰도 구간이 명확하게 구분되지 않고 중첩되는 경우, 임계값 계산부(330)는 제 1 신뢰도 구간과 제 2 신뢰도 구간이 중첩되는 범위 상의 값을 갖는 새로운 임계값을 계산할 수 있다.

보다 구체적으로 임계값 계산부(330)에 의해 계산되는 새로운 임계값은 제 1 그룹으로 분류된 인식 후보들의 신뢰도 중에서 가장 낮은 신뢰도 이상이고 제 2 그룹으로 분류된 인식 후보들의 신뢰도 중에서 가장 높은 신뢰도 이하의 값을 갖는다. 예를 들어, 인식 후보들이 도 4b에 도시된 바와 같이 분류된 경우 새로운 임계값은 인식 후보 510의 신뢰도와 인식 후보 550의 신뢰도의 사이 값을 갖도록 계산될 수 있다.

한편, 새로운 임계값은 잘못된 정답 및 잘못된 오답의 개수를 감소시킬 수 있는 값을 갖는 것이 바람직하다. 그러나 일반적으로 새로운 임계값의 수치가 높아질수록 잘못된 오답의 개수가 증가하고 새로운 임계값의 수치가 낮아질수록 잘못된 정답의 개수가 증가한다.

따라서 임계값 계산부(330)는 새로운 임계값을 기준으로 하여 판단부(310)가 저장부(340)에 저장된 인식 후보들에 대한 정답 및 오답을 다시 판단할 경우 잘못 된 정답 및 잘못된 오답의 비율이 임계 비율로 분포할 수 있도록 새로운 임계값을 계산한다. 즉 임계값 계산부(330)는 제 1 그룹으로 분류된 인식 후보 중에서 새로운 임계값 미만의 신뢰도를 갖는 인식 후보의 개수와 제 2 그룹으로 분류된 인식 후보 중에서 새로운 임계값 이상의 신뢰도를 갖는 인식 후보의 개수 사이의 비율이 임계 비율과 동일한 비율이 되도록 새로운 임계값을 계산하게 된다.

이러한 조건을 만족시킬 수 있는 값은 복수로 존재할 수 있다. 예를 들어 후술할 도 5a의 실시예에서 새로운 임계값은 인식 후보 510 및 인식 후보 520의 신뢰도의 사이 구간에 포함되는 값들 중 하나로 결정될 수 있다.

따라서 바람직하게는 새로운 임계값은 소정의 신뢰도 범위 이내에 포함되는데, 이 때의 신뢰도 범위는 제 1 그룹으로 분류된 인식 후보 중에서 신뢰도 범위의 하한 값 미만의 신뢰도를 갖는 인식 후보의 개수와 제 2 그룹으로 분류된 인식 후보 중에서 신뢰도 범위의 상한 값 이상의 신뢰도를 갖는 인식 후보의 개 수 사이의 비율이 임계 비율과 동일하도록 하는 범위이다.

보다 바람직하게는, 새로운 임계값은 전술한 조건을 만족시키는 신뢰도 범위의 상한 값 이상의 신뢰도를 갖는 인식 후보들의 신뢰도 중 가장 낮은 신뢰도와 해당 신뢰도 범위의 하한 값 미만의 신뢰도를 갖는 인식 후보들의 신뢰도 중 가장 높은 신뢰도의 평균값일 수 있다. 예를 들어 후술할 도 5a의 실시예에서 임계값 계산부(330)에 의해 계산되는 새로운 임계값은 인식후보 510의 신뢰도와 인식후보 520의 신뢰도의 평균값일 수 있다.

한편, 음성 인식 결과를 사용할 어플리케이션에 따라 잘못된 정답과 잘못된 오답이 어플리케이션의 성능에 영향을 미치는 정도가 다를 수 있으므로 임계 비율은 어플리케이션의 특성에 따라서 사전에 설정될 수 있다.

예를 들어 어플리케이션의 특성상 잘못된 정답보다 잘못된 오답의 개수를 줄이는 것이 더 중요하다면, 잘못된 정답보다 잘못된 오답의 비중이 낮은 임계 비율이 설정될 수 있다. 즉, 잘못된 정답과 잘못된 오답의 총 개수 중에서 잘못된 오답의 비율이 20%인 것이 바람직하다면, 잘못된 정답과 잘못된 오답의 비율이 4:1이 되도록 임계 비율이 설정될 수 있다.

만약 도 4b에 도시된 예와 같이 인식 후보들이 분류된 상태에서 잘못된 정답과 잘못된 오답의 비율이 2:1이 되도록 임계 비율이 설정되어 있다면, 임계값 계산부(330)에 의해 계산된 새로운 임계값은 인식후보 510의 신뢰도와 인식후보 520의 신뢰도 사이의 값을 갖을 수 있다. 이 경우, 도 4b에 도시된 인식 후보들에 대하여 판단부(310)가 새로운 임계값을 기준으로 정답 및 오답을 구분한다면 인식 후보 520은 정답으로 구분될 수 있다. 그 결과 도 5a에 도시한 바와 같이 잘못된 정답(인식 후보 530 및 550)과 잘못된 오답(인식 후보 510)의 비율이 2:1이 된다.

한편, 도 4b에 도시된 예와 같이 인식 후보들이 분류된 상태에서 잘못된 정답과 잘못된 오답의 비중이 1:2가 되도록 임계 비율이 설정되어 있다면, 임계값 계산부(330)에 의해 계산된 임계값은 인식후보 530의 신뢰도와 인식후보 540의 신뢰도 사이의 수치를 갖을 수 있다. 이 경우, 도 4b에 도시된 인식 후보들에 대하여 판단부(310)가 새로운 임계값을 기준으로 정답 및 오답을 구분한다면 인식 후보 530은 오답으로 구분될 수 있다. 그 결과 도 5b에 도시한 바와 같이 잘못된 정답( 인식 후보 550)과 잘못된 오답(인식 후보 510 및 520)의 비율이 1:2가 된다.

이처럼 임계 횟수에 해당하는 충분한 양의 음성 입력에 따른 인식 후보들의 신뢰도를 사용하여 사용자에게 적응된 새로운 임계값이 설정되면 이후에 입력되는 사용자의 발화에 대한 잘못된 정답 및 잘못된 오답의 비율은 확률적으로 임계 비율을 유지하게 된다.

이하 도 6 및 도 7을 참조하여 본발명의 실시예에 따른 사용자 적응형 음성 인식 장치의 동작 과정에 대해서 설명하도록 한다.

최초 사용자로부터 음성이 입력되면(S110), 특징 추출부(110)는 입력된 음성의 특징을 추출한다(S115).

그 후 인식부(120)는 사용자로부터 입력된 음성을 통해서 인식 가능한 인식 후보를 출력하고(S120), 신뢰도 계산부(130)는 출력된 인식 후보에 대한 신뢰도를 계산한다(S125).

이 때 제어부(150)는 임계값 설정부(140)에 의해 새로운 임계값이 설정되었는지의 여부를 판단한다(S130).

새로운 임계값이 설정된 경우 제어부(150)는 신뢰도 계산부(130)에 의해 계산된 신뢰도를 새로운 임계값과 비교한다(S135).

비교 결과 신뢰도가 임계값 미만이면 제어부(150)는 인식 후보를 사용자에게 제공한다(S140). 이 때 인식 후보는 디스플레이부(160)를 통해서 사용자에게 시각 적으로 제공되거나, 음성 합성부(170) 및 스피커부(180)를 통해서 사용자에게 청각적으로 제공될 수 있다.

예를 들어 음성 인식 기능을 갖는 카 네비게이션 시스템에 있어서 목적지 검색을 위한 사용자의 음성 입력에 대한 음성 인식 수행 결과 인식부(120)로부터 '서울역'이라는 단어가 인식 후보로써 출력된 경우 제어부(150)는 디스플레이부(160)를 통해서 '서울역이 맞습니까?'라는 문장을 사용자에게 디스플레이시킬 수 있다. 또는 제어부(150)는 음성 합성부(170)를 통해서 '서울역이 맞습니까?'라는 음성을 합성시키고 합성된 음성을 스피커부(180)를 통해서 사용자에게 출력시킬 수 있다.

그 후 제어부(150)는 인식 후보에 대한 사용자의 확인 응답을 입력 받게 된다(S145). 사용자의 확인 응답은 키패드 또는 터치스크린과 같은 사용자 입력부(도시하지 않음)나 사용자의 음성을 통해 입력될 수 있다. 사용자의 응답이 음성을 통해 입력되는 경우, 특징 추출부(110) 및 인식부(120)에 의해 사용자의 응답이 긍정 응답(인식 후보를 정답으로 선택)인지 또는 부정 응답(인식 후보를 오답으로 선택)인지의 여부가 인식된 후 제어부(150)로 전달될 수 있다.

이 때 제어부(150)는 사용자에게 제공된 인식 후보가 사용자로부터 정답으로 선택 되었는지의 여부를 판단하고(S150), 인식 후보가 정답으로 선택되면 해당 인식 후보를 음성 인식 결과로써 출력한다(S155). 예를 들어 카 네비게이션에서 목적지 검색을 위해 음성 인식 결과에 따른 인식 후보가 '서울역'이고 이를 사용자에게 제공한 결과(예를 들어 '서울역이 맞습니까?'라는 질문을 사용자에게 출력할 수 있다) '서울역'이라는 인식 후보가 정답으로 선택되면 제어부(150)는 '서울역'이라 는 단어를 목적지 검색 어플리케이션으로 출력한다. 이 때 목적지 검색 어플리케이션은 지도 데이터에서 '서울역'을 검색하고 사용자에게 현재 위치에서부터 서울역까지의 차량 운행 경로, 차량 운행에 소요되는 시간 등을 제공하게 된다.

그러나, 사용자에게 제공된 인식 후보가 오답으로 선택되면 제어부(150)는 디스플레이부(160)나 음성 합성부(170) 및 스피커부(180)를 통해서 사용자에게 음성 인식에 실패했음을 알리고 음성 재입력을 요구할 수 있다(S160).

한편, 단계 S135의 판단 결과 신뢰도가 새로운 임계값 이상인 경우 제어부(150)는 인식 후보에 대한 사용자의 확인 응답 과정을 거치지 않고, 해당 인식 후보를 음성 인식의 결과로써 출력시킬 수 있다(S155).

단계 S140 내지 단계 S160의 과정은 단계 S130의 판단 결과 새로운 임계값이 설정되어 있지 않은 경우에도 동일하게 수행될 수 있다.

한편 단계 S130의 판단 결과 새로운 임계값이 설정되어 있지 않다면 임계값 설정부(140)는 인식 후보에 대한 사용자의 확인 결과 및 각 인식 후보의 신뢰도를 통해서 사용자에게 적응된 새로운 임계값을 설정하게 되며 이를 도 7을 참조하여 설명한다.

도 6의 단계 S130에서의 판단 결과 새로운 임계값이 설정되지 않은 경우, 판단부(310)는 인식 후보의 신뢰도를 초기 임계값과 비교한다(S210). 이 때 판단부(310)는 초기 임계값 이상의 신뢰도를 갖는 인식 후보를 정답으로 구분하고 초기 임계값 미만의 신뢰도를 갖는 인식 후보를 오답으로 구분한다.

한편 분류부(320)는 인식 후보가 단계 S140에서 사용자에게 제공된 결과 사용자로부터 정답으로 선택되면(S220) 해당 인식 후보를 제 1 그룹으로 분류한다(S230). 그러나 사용자에게 제공된 사용자에 의해 오답으로 처리되면 분류부(320)는 해당 인식 후보를 제 2 그룹으로 분류한다(S240). 이 때 분류부(320)에 의해 분류된 인식 후보 및 인식 후보의 신뢰도는 저장부(340)에 저장된다.

음성 입력 횟수가 임계 횟수 이상이 되면(S250) 임계값 계산부(330)는 새로운 임계값을 계산한다.

임계값 계산시 먼저 임계값 계산부(330)는 제 1 신뢰도 구간과 제 2 신뢰도 구간이 중첩되는지 판단한다(S260).

만약 제 1 신뢰도 구간과 제 2 신뢰도 구간이 중첩되지 않으면, 임계값 계산부(330)는 제 1 신뢰도 구간과 제 2 신뢰도 구간의 경계 상의 값을 갖는 새로운 임계값을 계산한다(S270). 보다 구체적으로 임계값 계산부(330)는 제 1 그룹으로 분류된 인식 후보들의 신뢰도 중에서 가장 낮은 신뢰도 이하이고 제 2 그룹으로 분류된 인식 후보들의 신뢰도 중에서 가장 높은 신뢰도 이상의 값을 갖도록 새로운 임계값을 계산한다. 바람직하게는 임계값 계산부(330)는 제 1 그룹으로 분류된 인식 후보들의 신뢰도 중에서 가장 낮은 신뢰도와 제 2 그룹으로 분류된 인식 후보들의 신뢰도 중에서 가장 높은 신뢰도의 평균값으로 새로운 임계값을 계산한다.

그러나 단계 S260의 판단 결과 제 1 신뢰도 구간과 제 2 신뢰도 구간이 중첩되면, 임계값 계산부(330)는 제 1 신뢰도 구간과 제 2 신뢰도 구간이 중첩되는 범 위 상의 값을 갖는 새로운 임계값을 계산할 수 있다(S280). 보다 구체적으로 임계값 계산부(330)에 의해 계산되는 새로운 임계값은 제 1 그룹으로 분류된 인식 후보들의 신뢰도 중에서 가장 낮은 신뢰도 이상이고 제 2 그룹으로 분류된 인식 후보들의 신뢰도 중에서 가장 높은 신뢰도 이하의 값을 갖는다. 바람직하게는 새로운 임계값은 소정의 신뢰도 범위 이내에 포함되는데, 이 때의 신뢰도 범위는 제 1 그룹으로 분류된 인식 후보 중에서 신뢰도 범위의 하한 값 미만의 신뢰도를 갖는 인식 후보의 개수와 제 2 그룹으로 분류된 인식 후보 중에서 신뢰도 범위의 상한 값 이상의 신뢰도를 갖는 인식 후보의 개 수 사이의 비율이 임계 비율과 동일하도록 하는 범위이다. 보다 바람직하게는, 새로운 임계값은 전술한 조건을 만족시키는 신뢰도 범위의 상한 값 이상의 신뢰도를 갖는 인식 후보들의 신뢰도 중 가장 낮은 신뢰도와 해당 신뢰도 범위의 하한 값 미만의 신뢰도를 갖는 인식 후보들의 신뢰도 중 가장 높은 신뢰도의 평균값일 수 있다.

이상과 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

상기한 바와 같은 본 발명의 사용자 적응형 음성 인식 방법 및 장치에 따르면 음성 인식 결과에 대한 사용자의 확인 과정을 줄이면서 음성 인식의 성공율을 높일 수 있다.

Claims

음성 인식 결과에 따른 복수의 인식 후보에 대한 정답 및 오답을 구분하는 사용자의 확인 결과와, 상기 복수의 인식 후보의 신회도를 사용하여 새로운 임계값을 설정하는 단계; 및

새로운 음성 인식 결과에 따른 새로운 인식 후보의 신뢰도가 상기 설정된 새로운 임계값 이상이면 상기 새로운 인식 후보를 음성 인식 결과로써 출력하는 단계를 포함하는 사용자 적응형 음성 인식 방법.
제 1항에 있어서, 상기 새로운 임계값을 설정하는 단계는,

상기 복수의 인식 후보 중에서 사용자의 확인 결과 정답으로 선택된 인식 후보를 제 1 그룹으로 분류하고 오답으로 선택된 인식 후보를 제 2 그룹으로 분류하는 단계; 및

상기 제 1 그룹으로 분류된 인식 후보들의 신뢰도가 분포하는 제 1 신뢰도 구간과 상기 제 2 그룹으로 분류된 인식 후보들의 신뢰도가 분포하는 제 2 신뢰도 구간이 중첩되지 않는 경우, 상기 제 2 그룹으로 분류된 인식 후보들의 신뢰도 중에서 가장 높은 신뢰도 이상이고 상기 제 1 그룹으로 분류된 인식 후보들의 신뢰도 중에서 가장 낮은 신뢰도 이하인 범위 내의 값 갖도록 상기 새로운 임계값을 계산하는 단계를 포함하는 사용자 적응형 음성 인식 방법.
제 2항에 있어서, 상기 새로운 임계값은,

상기 제 1 그룹으로 분류된 인식 후보들의 신뢰도 중에서 가장 낮은 신뢰도와 상기 제 2 그룹으로 분류된 인식 후보들의 신뢰도 중에서 가장 높은 신뢰도의 평균값인 사용자 적응형 음성 인식 방법.
제 2항에 있어서, 상기 제 1 신뢰도 구간과 상기 제 2 신뢰도 구간이 중첩되는 경우, 상기 제 1 그룹으로 분류된 인식 후보들의 신뢰도 중 가장 낮은 신뢰도 이상이고 상기 제 2 그룹으로 분류된 인식 후보들의 신뢰도 중 가장 높은 신뢰도 이하인 범위 내의 값을 갖도록 상기 새로운 임계값을 계산하는 단계를 더 포함하는 사용자 적응형 음성 인식 방법.
제 4항에 있어서, 상기 새로운 임계값은 소정의 신뢰도 범위 이내에 포함되고,

상기 신뢰도 범위는 상기 제 1 그룹으로 분류된 인식 후보 중에서 상기 신뢰도 범위의 하한 값 미만의 신뢰도를 갖는 인식 후보의 개수와 상기 제 2 그룹으로 분류된 인식 후보 중에서 상기 신뢰도 범위의 상한값 이상의 신뢰도를 갖는 인식 후보의 개수 사이의 비율이 임계 비율과 동일하도록 하는 범위인 사용자 적응형 음성 인식 방법.
제 5항에 있어서, 상기 새로운 임계값은 상기 신뢰도 범위의 상한값 이상의 신뢰도를 갖는 인식 후보들의 신뢰도 중 가장 낮은 신뢰도와 상기 신뢰도 범위의 상한값 미만의 신뢰도를 갖는 인식 후보들의 신뢰도 중 가장 높은 신뢰도의 평균 값인 사용자 적응형 음성 인식 방법.
제 1항에 있어서, 상기 새로운 임계값을 설정하는 단계는 상기 복수의 인식 후보의 개수가 임계 개수 이상일 경우에 수행되는 사용자 적응형 음성 인식 방법.
음성 인식 결과에 따른 복수의 인식 후보에 대한 정답 및 오답을 구분하는 사용자의 확인 결과와, 상기 복수의 인식 후보의 신뢰도를 사용하여 새로운 임계값을 설정하는 임계값 설정부; 및

새로운 음성 인식 결과에 따른 새로운 인식 후보의 신뢰도가 상기 설정된 새로운 임계값 이상이면 상기 새로운 인식 후보를 음성 인식 결과로써 출력하는 제어부를 포함하는 사용자 적응형 음성 인식 장치.
제 8항에 있어서, 상기 임계값 설정부는,

상기 복수의 인식 후보 중에서 사용자의 확인 결과 정답으로 선택된 인식 후보를 제 1 그룹으로 분류하고 오답으로 선택된 인식 후보를 제 2 그룹으로 분류하는 분류부; 및

상기 제 1 그룹으로 분류된 인식 후보들의 신뢰도가 분포하는 제 1 신뢰도 구간과 상기 제 2 그룹으로 분류된 인식 후보들의 신뢰도가 분포하는 제 2 신뢰도 구간이 중첩되지 않는 경우, 상기 제 2 그룹으로 분류된 인식 후보들의 신뢰도 중에서 가장 높은 신뢰도 이상이고 상기 제 1 그룹으로 분류된 인식 후보들의 신뢰도 중에서 가장 낮은 신뢰도 이하인 범위 내의 값 갖도록 상기 새로운 임계값을 계산하는 임계값 계산부를 포함하는 사용자 적응형 음성 인식 장치.
제 9항에 있어서, 상기 새로운 임계값은,

상기 제 1 그룹으로 분류된 인식 후보들의 신뢰도 중에서 가장 낮은 신뢰도와 상기 제 2 그룹으로 분류된 인식 후보들의 신뢰도 중에서 가장 높은 신뢰도의 평균값인 사용자 적응형 음성 인식 장치.
제 9항에 있어서, 상기 임계값 계산부는,

상기 제 1 신뢰도 구간과 상기 제 2 신뢰도 구간이 중첩되는 경우, 상기 제 1 그룹으로 분류된 인식 후보들의 신뢰도 중 가장 낮은 신뢰도 이상이고 상기 제 2 그룹으로 분류된 인식 후보들의 신뢰도 중 가장 높은 신뢰도 이하인 범위 내의 값을 갖도록 상기 새로운 임계값을 계산하는 사용자 적응형 음성 인식 장치.
제 11항에 있어서, 상기 새로운 임계값은 소정의 신뢰도 범위 이내에 포함되고,

상기 신뢰도 범위는 상기 제 1 그룹으로 분류된 인식 후보 중에서 상기 신뢰 도 범위의 하한 값 미만의 신뢰도를 갖는 인식 후보의 개수와 상기 제 2 그룹으로 분류된 인식 후보 중에서 상기 신뢰도 범위의 상한값 이상의 신뢰도를 갖는 인식 후보의 개수 사이의 비율이 임계 비율과 동일하도록 하는 범위인 사용자 적응형 음성 인식 장치.
제 12항에 있어서, 상기 새로운 임계값은 상기 신뢰도 범위의 상한값 이상의 신뢰도를 갖는 인식 후보들의 신뢰도 중 가장 낮은 신뢰도와 상기 신뢰도 범위의 상한값 미만의 신뢰도를 갖는 인식 후보들의 신뢰도 중 가장 높은 신뢰도의 평균 값인 사용자 적응형 음성 인식 장치.
제 8항에 있어서, 상기 임계값 설정부는 상기 복수의 인식 후보의 개수가 임계 개수 이상일 경우에 상기 새로운 임계값을 설정하는 사용자 적응형 음성 인식 장치.
제 8항에 있어서, 상기 신뢰도를 계산하는 신뢰도 계산부를 더 포함하는 사용자 적응형 음성 인식 장치.