KR101892734B1

KR101892734B1 - 음성 인식 시스템에서의 오류 수정 방법 및 그 장치

Info

Publication number: KR101892734B1
Application number: KR1020130001202A
Authority: KR
Inventors: 윤승; 김상훈; 김정세; 이수종; 김기현
Original assignee: 한국전자통신연구원
Priority date: 2013-01-04
Filing date: 2013-01-04
Publication date: 2018-08-28
Also published as: KR20140092960A; US20140195226A1

Abstract

본 발명의 음성 인식 시스템에서의 오류 수정 방법은, 음향모델 기반의 음성 인식 오류-정답 쌍 DB를 이용하여 음성 인식 오류에 대한 제 1 정답 후보군을 탐색하는 과정과, 단어 관계 정보 DB를 이용하여 상기 음성 인식 오류에 대한 제 2 정답 후보군을 탐색하는 과정과, 사용자 오류 수정 정보 DB를 이용하여 상기 음성 인식 오류에 대한 제 3 정답 후보군을 탐색하는 과정과, 도메인 발화 패턴 DB 및 고유명사 DB를 이용하여 상기 음성 인식 오류에 대한 제 4 정답 후보군을 탐색하는 과정과, 탐색된 각 정답 후보군 내 정답 후보들을 정렬시켜 표시하는 과정을 포함할 수 있다.

Description

음성 인식 시스템에서의 오류 수정 방법 및 그 장치{METHOD AND APPARATUS FOR CORRECTING ERROR OF RECOGNITION IN SPEECH RECOGNITION SYSTEM}

본 발명은 음성 인식의 오류를 수정하는 기법에 관한 것으로, 더욱 상세하게는 음성 인식 시스템에서 음성 인식에 대한 오류가 발생할 때 해당 오류 단어에 대한 정답 후보들을 다양한 검색 DB를 적용하여 효과적으로 제공하는데 적합한 음성 인식 시스템에서의 오류 수정 방법 및 그 장치에 관한 것이다.

일반적으로, 음성 인식 시스템에 적용되는 현재의 음성 인식 기법은 기술적으로 완벽할 수 없으므로 필연적으로 인식 오류를 가지게 된다.

그러나, 기존의 음성 인식기들은 이러한 음성 인식 오류에 대해 정답 후보를 제시하지 못하거나 혹은 정답 후보를 제시하더라도 해당 음성 인식기의 디코딩 과정에서 정답일 가능성이 높았던 n-best 또는 래티스(lattice) 상의 후보를 제시하는데 그쳐 정답 후보의 제시 정확도가 떨어지게 된다는 문제가 있다.

또한, 기존의 방법은 음향 모델의 약점을 보완하는 기술이 부족하고, 연속어 음성 인식기의 경우 n-gram에 기반한 언어 모델을 채용한 데 따른 근본적인 한계를 가진다는 문제가 있다.

특히, 스마트폰 사용자가 확대되면서 다양한 사용자에 의해 다양한 영역에서 음성 인식기가 쓰이는 현실을 반영하지 못하게 됨으로써, 음성 인식의 성능 향상에 기여할 수 있는 사용자 오류 수정 정보, 도메인 정보 등을 충분히 활용하지 못한다는 점에서 역시 그 한계를 지닌다.

대한민국 공개특허 제2012-0052591호(공개일 : 2012. 05. 24.)

본 발명은 음성 인식기에서 근본적으로 발생할 수밖에 없는 음성 인식 오류에 대하여 다양한 형태의 DB 정보를 이용하여 효과적으로 대응할 수 있는 오류 탐색 기법을 제공하고자 한다.

또한, 본 발명은 음향 모델 기반의 음성 인식'오류-정답'쌍 DB, 단어 관계 정보 DB, 사용자 오류 수정 정보 DB, 도메인 발화 패턴 DB 및 고유명사 DB를 이용하여 오류 단어에 대한 정답 후보를 제시함으로써, 사용자 편의성을 높이고 손쉽게 보다 정확한 음성 인식 결과를 얻을 수 있는 오류 탐색 기법을 제공하고자 한다.

본 발명은, 일 관점에 따라, 음향모델 기반의 음성 인식 오류-정답 쌍 DB를 이용하여 음성 인식 오류에 대한 제 1 정답 후보군을 탐색하는 과정과, 단어 관계 정보 DB를 이용하여 상기 음성 인식 오류에 대한 제 2 정답 후보군을 탐색하는 과정과, 사용자 오류 수정 정보 DB를 이용하여 상기 음성 인식 오류에 대한 제 3 정답 후보군을 탐색하는 과정과, 도메인 발화 패턴 DB 및 고유명사 DB를 이용하여 상기 음성 인식 오류에 대한 제 4 정답 후보군을 탐색하는 과정과, 탐색된 각 정답 후보군 내 정답 후보들을 정렬시켜 표시하는 과정을 포함하는 음성 인식 시스템에서의 오류 수정 방법을 제공한다.

본 발명의 상기 표시하는 과정은, 상기 탐색된 각 정답 후보군 중 적어도 하나 이상의 정답 후보군에 속하는 정답 후보를 최종 정답 후보로 표시할 수 있다.

본 발명의 상기 표시하는 과정은, 상기 탐색된 각 정답 후보군에 공통으로 속하는 정답 후보만을 최종 정답 후보로 결정하여 표시할 수 있다.

본 발명의 상기 표시하는 과정은, 상기 탐색된 각 정답 후보군을 기 설정된 우선순위에 따라 정렬시켜 표시할 수 있다.

본 발명의 상기 제 1 정답 후보군을 탐색하는 과정은, 상기 음성 인식 오류-정답 쌍 DB의 검색을 통해 정답 후보군의 존재 여부를 탐색하는 과정과, 상기 정답 후보군이 존재하지 않을 때 음성 인식 오류 단어의 발음 유사도를 계산하고, 인식 사전의 단어 중 발음 유사도가 상대적으로 높은 단어를 정답 예비 후보군으로 추출하는 과정과, 상기 정답 후보군 또는 정답 예비 후보군을 상기 제 1 정답 후보군으로 결정하는 과정을 포함할 수 있다.

본 발명의 상기 발음 유사도는, 음소간의 거리 측정을 통해 계산될 수 있다.

본 발명의 상기 제 1 정답 후보군을 탐색하는 과정은, 결정된 상기 제 1 정답 후보군에 속한 정답 후보들이 다수 개일 때 정답 후보들의 개수를 기 설정된 개수로 조정하는 과정을 더 포함할 수 있다.

본 발명의 상기 제 2 정답 후보군을 탐색하는 과정은, 상기 음성 인식 오류로 인식된 단어를 제외한 나머지 단어들을 추출하는 과정과, 추출된 단어들에 의거한 상기 단어 관계 정보 DB의 검색을 통해 단어 간 의미 상관관계가 있는 단어 후보들을 추출하는 과정과, 추출된 각 단어 후보들 중 공통되는 단어를 상기 제 2 정답 후보군으로 결정하는 과정을 포함할 수 있다.

본 발명의 상기 제 2 정답 후보군을 탐색하는 과정은, 결정된 상기 제 2 정답 후보군에 속한 정답 후보들이 다수 개일 때 정답 후보들의 개수를 기 설정된 개수로 조정하는 과정을 더 포함할 수 있다.

본 발명의 상기 기 설정된 개수로의 조정은, 발음 유사도가 상대적으로 높은 단어로 제한할 수 있다.

본 발명의 상기 제 3 정답 후보군을 탐색하는 과정은, 해당 오류 단어에 대해 상기 사용자 오류 수정 정보 DB를 검색하여 정답 후보군을 탐색하는 과정과, 탐색된 정답 후보군 내 정답 후보들의 개수를 체크하는 과정과, 체크 결과, 정답 후보들의 개수가 기 설정된 개수보다 적을 때, 서버 기반의 사용자 오류 수정 정보 DB를 검색하여 정답 예비 후보군을 탐색하는 과정과, 상기 정답 후보군 또는 정답 후보군과 정답 예비 후보군의 합을 상기 제 3 정답 후보군으로 결정하는 과정을 포함할 수 있다.

본 발명의 상기 제 3 정답 후보군을 탐색하는 과정은, 결정된 상기 제 3 정답 후보군에 속한 정답 후보들이 다수 개일 때 정답 후보들의 개수를 기 설정된 개수로 조정하는 과정을 더 포함할 수 있다.

본 발명의 상기 기 설정된 개수로의 조정은, 발음 유사도, 단어 간 상관관계 정보 및 도메인 패턴 정보 중 어느 하나를 이용하여 수행될 수 있다.

본 발명의 상기 정답 예비 후보군을 탐색하는 과정은, 음성 인식기가 서버 클라이언트 방식의 인식기일 때 선택 실행될 수 있다.

본 발명의 상기 제 4 정답 후보군을 탐색하는 과정은, 상기 도메인 발화 패턴 DB를 검색하여 해당 오류 단어가 도메인 발화 패턴이 적용되는 발화인지를 체크하는 과정과, 상기 해당 오류 단어가 상기 도메인 발화 패턴에 속할 때 상기 고유명사 DB를 검색하여 정답 후보군을 추출하는 과정과, 추출된 정답 후보군을 상기 제 4 정답 후보군으로 결정하는 과정을 포함할 수 있다.

본 발명의 상기 제 4 정답 후보군을 탐색하는 과정은, 결정된 상기 제 4 정답 후보군에 속한 정답 후보들이 다수 개일 때 정답 후보들의 개수를 기 설정된 개수로 조정하는 과정을 더 포함할 수 있다.

본 발명의 상기 기 설정된 개수로의 조정은, 발음 유사도가 상대적으로 높은 단어로 제한될 수 있다.

본 발명은, 다른 관점에 따라, 음향모델 기반의 음성 인식 오류-정답 쌍 DB, 단어 관계 정보 DB, 사용자 오류 수정 정보 DB, 도메인 발화 패턴 DB 및 고유명사 DB로 구성되는 데이터베이스와, 입력되는 음성에 대한 음성 인식의 오류 여부를 검출하는 음성 인식 오류 검출 블록과, 음성 인식 오류가 검출될 때, 상기 음성 인식 오류-정답 쌍 DB를 이용하여 해당 오류 단어에 대한 제 1 정답 후보군을 결정하는 제 1 정답 후보 탐색 블록과, 상기 음성 인식 오류가 검출될 때, 상기 단어 관계 정보 DB를 이용하여 상기 해당 오류 단어에 대한 제 2 정답 후보군을 결정하는 제 2 정답 후보 탐색 블록과, 상기 음성 인식 오류가 검출될 때, 상기 사용자 오류 수정 정보 DB를 이용하여 상기 해당 오류 단어에 대한 제 3 정답 후보군을 결정하는 제 3 정답 후보 탐색 블록과, 상기 음성 인식 오류가 검출될 때, 상기 도메인 발화 패턴 DB 및 고유명사 DB를 이용하여 상기 해당 오류 단어에 대한 제 4 정답 후보군을 결정하는 제 4 정답 후보 탐색 블록과, 결정된 각 정답 후보군 내 정답 후보들을 기 설정된 조건에 따라 정렬시켜 표시하는 정답 후보 정렬 및 표시 블록을 포함하는 음성 인식 시스템에서의 오류 수정 장치를 제공한다.

본 발명의 상기 정답 후보 정렬 및 표시 블록은, 상기 결정된 각 정답 후보군 중 적어도 하나 이상의 정답 후보군에 속하는 정답 후보를 최종 정답 후보로 표시할 수 있다.

본 발명의 상기 정답 후보 정렬 및 표시 블록은, 상기 결정된 각 정답 후보군에 공통으로 속하는 정답 후보만을 최종 정답 후보로 결정하여 표시할 수 있다.

본 발명에 따르면 음향모델 기반의 음성 인식'오류-정답'쌍 DB를 활용하여 오류에 대처함으로써 해당 음성 인식기의 음향 모델이 가지는 약점을 보완할 수 있고, n-gram 기반의 연속어 음성 인식기에서 나타날 수밖에 없는 짧은 거리의 정보에만 의존하게 되는 약점을 단어 관계 정보 DB를 활용하여 보완할 수 있으며, 사용자 오류 수정 정보 DB를 활용함으로써 음성 인식기가 많이 쓰일수록 해당 음성 인식기의 약점이 보완되는 효과를 얻을 수 있고, 도메인 발화 패턴 DB 및 고유명사 DB를 채택한 인식기의 경우 미등록어에 의한 음성 인식 오류에도 효과적으로 대처할 수 있다.

또한, 본 발명은 서로 다른 DB를 이용하는 각각의 방법을 다양하게 조합되어 사용할 수 있어 다양한 정보를 통해 음성 인식 오류에 접근할 수 있도록 함으로써, 사용자에게 오류에 대한 정답을 제공할 확률을 극대화할 수 있고, 이를 통해 오류가 발생했을 경우에도 손쉽게 정확한 음성 인식 결과를 얻을 수 있어 사용자 편의성을 극대화할 수 있다.

도 1은 본 발명의 실시 예에 따른 음성 인식 시스템에서의 오류 수정 장치의 블록 구성도,
도 2는 도 1에 도시된 제 1 정답 후보 탐색 블록에 대한 세부적인 블록 구성도,
도 3은 도 1에 도시된 제 2 정답 후보 탐색 블록에 대한 세부적인 블록 구성도,
도 4는 도 1에 도시된 제 3 정답 후보 탐색 블록에 대한 세부적인 블록 구성도,
도 5는 도 1에 도시된 제 4 정답 후보 탐색 블록에 대한 세부적인 블록 구성도,
도 6은 본 발명의 실시 예에 따라 음성 인식 시스템에서 오류 수정을 수행하는 주요 과정을 도시한 순서도,
도 7은 본 발명에 따라 음성 인식 오류-정답 쌍 DB를 이용하여 정답 후보를 결정하는 주요 과정을 도시한 순서도,
도 8은 본 발명에 따라 단어 관계 정보 DB를 이용하여 정답 후보를 결정하는 주요 과정을 도시한 순서도,
도 9는 본 발명에 따라 사용자 오류 수정 정보 DB를 이용하여 정답 후보를 결정하는 주요 과정을 도시한 순서도,
도 10은 본 발명에 따라 도메인 발화 패턴 DB와 고유명사 DB를 이용하여 정답 후보를 결정하는 주요 과정을 도시한 순서도.

먼저, 본 발명의 장점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되는 실시 예들을 참조하면 명확해질 것이다. 여기에서, 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 발명의 범주를 명확하게 이해할 수 있도록 하기 위해 예시적으로 제공되는 것이므로, 본 발명의 기술적 범위는 청구항들에 의해 정의되어야 할 것이다.

아울러, 아래의 본 발명을 설명함에 있어서 공지 기능 또는 구성 등에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들인 것으로, 이는 사용자, 운용자 등의 의도 또는 관례 등에 따라 달라질 수 있음은 물론이다. 그러므로, 그 정의는 본 명세서의 전반에 걸쳐 기술되는 기술사상을 토대로 이루어져야 할 것이다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예에 대하여 상세하게 설명한다.

도 1은 본 발명의 실시 예에 따른 음성 인식 시스템에서의 오류 수정 장치의 블록 구성도로서, 크게 구분해 볼 때 음성 인식 오류 수정 모듈(110) 및 데이터베이스(120) 등을 포함할 수 있다.

도 1을 참조하면, 음성 인식 오류 수정 모듈(110)은 음성 인식 오류 검출 블록(111), 제 1 정답 후보 탐색 블록(112), 제 2 정답 후보 탐색 블록(113), 제 3 정답 후보 탐색 블록(114), 제 4 정답 후보 탐색 블록(115), 정답 후보 정렬 및 표시 블록(116) 등을 포함할 수 있고, 데이터베이스(120)는 음성 인식 오류-정답 쌍 DB(121), 단어 관계 정보 DB(122), 사용자 오류 수정 정보 DB(123), 도메인 발화 패턴 DB(124), 고유명사 DB(125), 정답 후보 DB(126) 등을 포함할 수 있다.

먼저, 음성 인식 오류 수정 모듈(110) 내 음성 인식 오류 검출 블록(111)은, 이 기술분야에 잘 알려진 통상의 오류 인식 기법을 통해, 입력되는 음성에 대한 음성 인식의 오류 여부를 검출하는 등의 기능을 제공할 수 있으며, 여기에서 검출되는 음성 인식 오류 정보는 제 1 내지 제 4 정답 후보 탐색 블록(112 - 115)으로 각각 전달될 수 있다.

다음에, 제 1 정답 후보 탐색 블록(112)은, 음성 인식 오류 검출 블록(111)으로부터 음성 인식 오류 정보가 제공될 때(즉, 음성 인식 오류가 검출될 때), 데이터베이스(120) 내 음성 인식 오류-정답 쌍 DB(121)를 이용하여 해당 오류 단어에 대한 제 1 정답 후보군을 결정(탐색)하고, 이 결정된 제 1 정답 후보군을 정답 후보 DB(126)에 저장하는 등의 기능을 제공할 수 있다. 여기에서, 제 1 정답 후보군은 적어도 하나 이상 혹은 다수의 정답 후보를 포함할 수 있다.

이때, 음성 인식기에 채용되는 음향모델은 음성 DB로부터 훈련하게 되며, 이렇게 만들어진 음향모델은 훈련에 이용된 음성 DB의 특성에 절대적으로 영향을 받게 되는데, 이 과정에서 훈련에 사용된 음성 DB에서 특정한 음소 또는 음소 연쇄가 비균형적인 통계치를 가지게 되면 해당 음소 또는 음소 연쇄체를 포함한 단어는 오류가 발생할 확률이 높아 음성 인식에 대한 성능 저하의 원인이 될 수 있다.

따라서, 본 발명은, 이러한 점을 보완하기 위하여, 먼저 음향모델 훈련에 사용되었던 음성 DB를 준비한 후 해당 음성 DB를 이를 통해 만들어진 음향모델을 음성 인식기의 입력으로 넣어 음성 인식을 시도하였다.

이와 같은 음성 인식의 실시를 통해 음향 모델의 훈련에 사용되었던 음성 DB라도 오류가 발생하게 되며, 이는 언어모델의 영향을 받은 부분을 제외하고는 음향모델 부족 또는 불균형에 따른 해당 음성 인식기의 취약점에 해당하는 부분이므로, 본 발명에서는 이에 대해'오류-정답'쌍으로 DB화하여 음성 인식 오류-정답 쌍 DB(121)에 저장한 후 정답 후보의 탐색에 이를 활용한다.

도 2는 도 1에 도시된 제 1 정답 후보 탐색 블록(112)에 대한 세부적인 블록 구성도로서, 정답 후보 탐색부(202), 정답 예비 후보 추출부(204) 및 정답 후보군 결정부(206) 등을 포함할 수 있다.

도 2을 참조하면, 정답 후보 탐색부(202)는 음성 인식 오류가 검출될 때 음성 인식 오류-정답 쌍 DB(121)의 검색을 통해 정답 후보군의 존재 여부를 탐색하는 기능을 제공할 수 있는데, 여기에서 탐색되는 정답 후보군은 1개 혹은 다수의 정답 후보들을 포함할 수 있는 것으로, 정답 후보 DB(126)에 저장된다.

다음에, 정답 예비 후보 추출부(204)는 정답 후보 탐색 블록(202)에서의 탐색 결과 정답 후보군이 존재하지 않을 때 오류 단어(음성 인식 오류 단어)의 발음 유사도를 계산하고, 인식 사전의 단어 중 발음 유사도가 상대적으로 높은 단어를 정답 예비 후보군으로 추출하는 등의 기능을 제공할 수 있는데, 여기에서 추출되는 정답 예비 후보군은 1개 혹은 다수의 정답 예비 후보들을 포함할 수 있는 것으로, 정답 후보 DB(126)에 저장된다.

그리고, 정답 후보군 결정부(206)는 정답 후보 DB(126)에 저장된 정답 후보군 또는 정답 예비 후보군을 제 1 정답 후보군으로 결정하는 등의 기능을 제공할 수 있는데, 여기에서, 발음 유사도는 음소간의 거리 측정을 통해 계산될 수 있고, 결정된 제 1 정답 후보군에 속한 정답 후보들이 다수 개일 때 정답 후보들의 개수를 기 설정된 개수로 조정할 수 있으며, 이와 같이 결정되는 제 1 정답 후보군은 정답 후보 DB(126)에 저장된다.

다시, 도 1을 참조하면, 제 2 정답 후보 탐색 블록(113)은, 음성 인식 오류 검출 블록(111)으로부터 음성 인식 오류 정보가 제공될 때(즉, 음성 인식 오류가 검출될 때), 데이터베이스(120) 내 단어 관계 정보 DB(122)를 이용하여 해당 오류 단어에 대한 제 2 정답 후보군을 결정(탐색)하고, 이 결정된 제 2 정답 후보군을 정답 후보 DB(126)에 저장하는 등의 기능을 제공할 수 있다. 여기에서, 제 2 정답 후보군은 적어도 하나 이상 혹은 다수의 정답 후보를 포함할 수 있다.

이때, 음성 인식기에는 언어모델이 필수적으로 채용되는데, 대부분의 연속어 음성 인식기는 언어모델을 말뭉치로부터 n-gram 기반으로 훈련하게 되며, 이렇게 만들어진 음성 인식기는 구축된 n-gram 통계 정보에 절대적으로 영향을 받게 된다. 그러나, n-gram 정보는 원거리 의존 관계를 반영하지 못하는 등 짧은 거리간의 관계만을 반영하게 되므로 인식된 발화의 전체적인 의미 관계는 간접적으로 밖에 반영할 수 없다는 한계가 있다.

따라서, 본 발명은, 이러한 점을 보완하기 위하여, 언어모델의 훈련을 위해 구축된 말뭉치를 준비한 후 해당 말뭉치로부터 문장 단위로 공기 정보와 같은 단어 간 의미 상관관계를 계산한 후 유의미한 단어 쌍들 단어 관계 정보 DB(122)로 저장(구축)한 후 정답 후보의 탐색에 이를 활용한다.

도 3은 도 1에 도시된 제 2 정답 후보 탐색 블록(113)에 대한 세부적인 블록 구성도로서, 이외 단어 추출부(302), 의미 상관관계 탐색부(304) 및 정답 후보군 결정부(306) 등을 포함할 수 있다.

도 3을 참조하면, 이외 단어 추출부(302)는 음성 인식 오류가 검출될 때 인식된 오류 단어를 제외한 나머지 단어들을 추출하는 등의 기능을 제공할 수 있으며, 여기에서 추출되는 나머지 단어(이외 단어)들은 의미 상관관계 탐색부(304)로 전달된다.

다음에, 의미 상관관계 탐색부(304)는 이외 단어 추출부(302)를 통해 추출된 단어들에 의거하여 단어 관계 정보 DB(122)의 검색함으로써, 단어 간 의미 상관관계가 있는 단어 후보들을 추출하는 등의 기능을 제공할 수 있다.

그리고, 정답 후보군 결정부(306)는 의미 상관관계 추출부(304)를 통해 추출된 각 단어 후보들 중 공통되는 단어를 제 2 정답 후보군으로 결정하는 등의 기능을 제공할 수 있는데, 여기에서, 결정된 제 2 정답 후보군에 속한 정답 후보들이 다수 개일 때 발음 유사도에 기반하여 정답 후보들의 개수를 기 설정된 개수로 조정(즉, 발음 유사도가 상대적으로 높은 단어를 정답 후보로 제한)할 수 있으며, 이와 같이 결정되는 제 2 정답 후보군은 정답 후보 DB(126)에 저장된다.

예컨대,'내가 밥을 먹었어'와 같은 문장을 발화하였는데'내가 바를 먹었어'로 인식되었다면, 사용자가'바를'을 선택할 경우 나머지'나'와 '먹다'에 대하여 공기하는 단어들을 검색한 후'나'및'먹다'와 공통적으로 상관관계가 있는 후보(예컨대, 밥, 빵, 라면, 음료수 등)를 정답 후보로 제시하게 되는 것이다. 이때, 기타 단어의 수가 많을 경우 일부 단어와만 의미 상관관계가 있어도 정답 후보로 인정할 수 있으며, 또한 상관관계를 어떻게 계산하느냐에 따라 조사, 보조용언, 어미 정보를 함께 활용할 수도 있다.

그리고, 정답 후보 결과에 공통적으로 상관관계가 있는 정답 후보가 많다면 기 설정된 숫자가 될 수 있도록 발음 유사도가 높은 단어로 정답 후보를 제한하여 제시할 수도 있다.

다시, 도 1을 참조하면, 제 3 정답 후보 탐색 블록(114)은, 음성 인식 오류 검출 블록(111)으로부터 음성 인식 오류 정보가 제공될 때(즉, 음성 인식 오류가 검출될 때), 데이터베이스(120) 내 사용자 오류 수정 정보 DB(123)를 이용하여 해당 오류 단어에 대한 제 3 정답 후보군을 결정(탐색)하고, 이 결정된 제 3 정답 후보군을 정답 후보 DB(126)에 저장하는 등의 기능을 제공할 수 있다. 여기에서, 제 3 정답 후보군은 적어도 하나 이상 혹은 다수의 정답 후보를 포함할 수 있다.

최근 들어, 음성 인식기의 경우 화자 독립 음성 인식 방법을 채택하고 있는 경우가 대부분인데, 경우에 따라 화자 적응 기법을 채용하고 있기도 하나 실제 성능 개선은 미미한 경우가 많다. 이 때문에 사용자가 발성한 단어에 대해 한 번 오류가 발생한 경우 해당 단어는 동일한 오류가 계속 발생하는 현상이 나타난다.

따라서, 본 발명은, 이를 보완하기 위하여, 먼저 음성 인식기 사용자 인터페이스 상에 텍스트 입력을 통한 오류 수정 도구를 제공하며, 이후 사용자가 해당 도구를 이용하여 오류를 수정하였을 경우 이를'오류-정답'쌍으로 DB화하여 사용자 오류 수정 정보 DB(123)에 저장한 후 정답 후보의 탐색에 이를 활용한다. 또한, 서버-클라이언트 방식의 음성 인식기일 경우 서버로 전송하여 다른 사용자도 활용할 수 있도록 한다.

도 4는 도 1에 도시된 제 3 정답 후보 탐색 블록(114)에 대한 세부적인 블록 구성도로서, 정답 후보 탐색부(402), 정답 예비 후보 탐색부(404) 및 정답 후보군 결정부(406) 등을 포함할 수 있다.

도 4를 참조하면, 정답 후보 탐색부(402)는 음성 인식 오류가 검출될 때 사용자 오류 수정 정보 DB(123)의 검색을 통해 정답 후보군의 존재 여부를 탐색하는 기능을 제공할 수 있는데, 여기에서 탐색되는 정답 후보군은 1개 혹은 다수의 정답 후보들을 포함할 수 있는 것으로, 정답 후보 DB(126)에 저장된다.

다음에, 정답 예비 후보 추출부(404)는 정답 후보 탐색 블록(402)에서의 탐색 결과 정답 후보군이 존재하지 않거나 혹은 기 설정된 개수보다 적은지의 여부를 체크하고, 체크 결과 정답 후보군이 존재하지 않거나 혹은 기 설정된 개수보다 적으면서 음성 인식기가 서버 클라이언트 방식의 인식기인 경우, 서버 기반의 사용자 오류 수정 정보 DB(다른 사용자의 사용자 오류 수정 정보 DB)를 검색하여 정답 예비 후보군을 추출하는 등의 기능을 제공할 수 있는데, 여기에서 추출되는 정답 예비 후보군은 1개 혹은 다수의 정답 예비 후보들을 포함할 수 있는 것으로, 정답 후보 DB(126)에 저장된다.

그리고, 정답 후보군 결정부(406)는 정답 후보 DB(126)에 저장된 정답 후보군 또는 정답 후보군과 정답 예비 후보군의 합을 제 3 정답 후보군으로 결정하는 등의 기능을 제공할 수 있는데, 여기에서, 결정된 제 3 정답 후보군에 속한 정답 후보들이 다수 개일 때 발음 유사도, 단어 간 상관관계 정보 및 도메인 패턴 정보 중 어느 하나에 의거하여 정답 후보들의 개수를 기 설정된 개수로 조정할 수 있으며, 이와 같이 결정되는 제 3 정답 후보군은 정답 후보 DB(126)에 저장된다.

다시, 도 1을 참조하면, 제 4 정답 후보 탐색 블록(115)은, 음성 인식 오류 검출 블록(111)으로부터 음성 인식 오류 정보가 제공되면(즉, 음성 인식 오류가 검출될 때), 음성 인식기가 도메인 발화 패턴 DB(124) 및 고유명사 DB(125)가 적용되는 인식기인지를 체크한 후, 적용되는 인식기일 때, 데이터베이스(120) 내 도메인 발화 패턴 DB(124)와 고유명사 DB(125)를 이용하여 해당 오류 단어에 대한 제 4 정답 후보군을 결정(탐색)하고, 이 결정된 제 4 정답 후보군을 정답 후보 DB(126)에 저장하는 등의 기능을 제공할 수 있다. 여기에서, 제 4 정답 후보군은 적어도 하나 이상 혹은 다수의 정답 후보를 포함할 수 있다.

이때, 음성 인식기의 경우 모든 단어를 인식할 수기 때문에 미등록어(Out Of Vocabulary)가 필연적으로 발생하게 되며, 이것이 음성 인식 오류의 원인이 된다.

본 발명은, 이러한 인식 오류에 대처하기 위하여, 먼저 도메인별로 고유명사 DB를 구축, 예컨대 도메인이 지역별로 특화된 인식기라면 도메인을 해당 지역으로 설정하고 해당 지역에 나타날 수 있는 POI(Point of Interest)명 등을 고유명사 DB로 구축한다. 이후, 해당 고유명사 DB가 나타날 수 있는 도메인 발화 패턴 역시 DB화한 후 정답 후보의 탐색에 이를 활용한다.

예컨대, POI명 고유명사 DB는'UCLA','헐리우드','디즈니랜드','롱비치' 등이 될 수 있고, 해당 고유명사 DB가 나타날 수 있는 도메인 발화 패턴은'~ 까지 어떻게 가나요','~ 는 어디에 있나요','~ 까지 얼마나 걸리나요'등이 그 예가 될 수 있다. 이때, 고유명사의 경우 해당 도메인을 어떻게 설정하는 가에 따라 다양한 형태(예컨대, 음식명, 인명, 상품명 등)로 실현될 수 있다.

도 5는 도 1에 도시된 제 4 정답 후보 탐색 블록(115)에 대한 세부적인 블록 구성도로서, 발화 적용 탐색부(502), 정답 후보 추출부(504) 및 정답 후보군 결정부(506) 등을 포함할 수 있다.

도 5를 참조하면, 발화 적용 탐색부(502)는 음성 인식 오류가 검출될 때 도메인 발화 패턴 DB(124)의 검색을 통해 음성 인식 오류 단어가 도메인 발화 패턴이 적용되는 발화인지의 여부를 탐색하는 등의 기능을 제공할 수 있는데, 이러한 적용 발화의 탐색 결과는 정답 후보 추출부(504)로 전달된다.

다음에, 정답 후보 추출부(504)는 발화 적용 탐색부(502)로부터 음성 인식 오류 단어가 도메인 발화 패턴에 속하는 것으로 판단되는 결과가 제공될 때 고유명사 DB(125)의 검색을 통해 정답 후보군을 추출하는 등의 기능을 제공할 수 있는데, 여기에서 추출되는 정답 후보군은 1개 혹은 다수의 정답 후보들을 포함할 수 있는 것으로, 정답 후보 DB(126)에 저장된다.

그리고, 정답 후보군 결정부(506)는 정답 후보 추출부(504)를 통해 추출된 정답 후보군을 제 4 정답 후보군으로 결정하는 등의 기능을 제공할 수 있는데, 여기에서, 결정된 제 4 정답 후보군에 속한 정답 후보들이 다수 개일 때 발음 유사도에 기반하여 정답 후보들의 개수를 기 설정된 개수로 조정(즉, 발음 유사도가 상대적으로 높은 단어를 정답 후보로 제한)할 수 있으며, 이와 같이 결정되는 제 4 정답 후보군은 정답 후보 DB(126)에 저장된다. 여기에서, 도메인 정보는 사용자 정보와 결합하여 사용될 수도 있다.

다시, 도 1을 참조하면, 정답 후보 정렬 및 표시 블록(116)은 제 1 내지 제 4 정답 후보 탐색 블록(112 - 115)을 통해 각각 결정된 각 정답 후보군(제 1 내지 제 4 정답 후보군) 내 정답 후보들을 기 설정된 조건에 따라 정렬시켜 표시(디스플레이)하는 등의 기능을 제공할 수 있는데, 이러한 정답 후보 정렬 및 표시 블록(116)은, 예컨대 결정된 각 정답 후보군 중 적어도 하나 이상의 정답 후보군에 속하는 정답 후보를 최종 정답 후보로 정렬 및 표시하거나, 결정된 각 정답 후보군에 공통으로 속하는 정답 후보만을 최종 정답 후보로 결정하여 표시하거나, 결정된 각 정답 후보군을 기 설정된 우선순위에 따라 정렬시켜 표시할 수 있다.

다음에, 상술한 바와 같은 구성을 갖는 본 발명의 오류 수정 장치를 이용하여 음성 인식 오류가 검출될 때 다양한 형태의 DB를 활용하여 오류 수정 서비스를 제공하는 일련의 과정들에 대하여 설명한다.

도 6은 본 발명의 실시 예에 따라 음성 인식 시스템에서 오류 수정을 수행하는 주요 과정을 도시한 순서도이다.

도 6을 참조하면, 음성 인식 오류 검출 블록(111)에서는 음성 인식 모드를 실행할 때(단계 602), 입력되는 음성에 대한 음성 인식의 오류 발생 여부를 검출한다(단계 604).

상기 단계(604)에서의 체크 결과, 음성 인식 오류가 발생한 것으로 판단되면, 제 1 정답 후보 탐색 블록(112)에서는 데이터베이스(120) 내 음성 인식 오류-정답 쌍 DB(121)의 검색을 통해 제 1 정답 후보군의 존재 여부를 탐색하고(단계 606, 608), 탐색 결과 제 1 정답 후보군이 존재할 때 해당 정답 후보들을 추출하여 정답 후보 DB(126)에 저장한다(단계 624). 여기에서, 제 1 정답 후보군이 존재하는 경우일 때, 제 1 정답 후보군은 적어도 하나 이상 혹은 다수의 정답 후보들을 포함할 수 있다.

도 7은 본 발명에 따라 음성 인식 오류-정답 쌍 DB를 이용하여 정답 후보를 결정하는 주요 과정(단계 606, 608)을 도시한 순서도이다.

도 7을 참조하면, 도 2의 정답 후보 탐색부(202)에서는 음성 인식 오류가 검출될 때 음성 인식 오류-정답 쌍 DB(121)을 검색하여(단계 702), 정답 후보군이 존재하는 지의 여부를 체크(탐색)하는데(단계 704), 정답 후보군이 존재할 때 처리는 후술하는 단계(710)로 진행된다.

상기 단계(704)에서의 체크 결과, 정답 후보군이 존재하지 않으면, 정답 예비 후보 추출부(204)에서는 오류 단어(음성 인식 오류 단어)의 발음 유사도를 계산하고(단계 706), 인식 사전의 단어 중 발음 유사도가 상대적으로 높은 단어를 정답 예비 후보군으로 추출(즉, 정답 예비 후보군의 존재 여부를 탐색)한다(단계 708).

이후, 정답 후보군 결정부(206)에서는 정답 후보군 또는 정답 예비 후보군 내 정답 후보들의 개수(n)가 기 설정된 개수(x)를 초과하는 지의 여부를 체크하는데(단계 710), 여기에서의 체크 결과 n이 x를 초과하지 않으면 해당 정답 후보들이 제 1 정답 후보군으로 결정되며(단계 714), 이후 처리는 도 6의 단계(624)로 진행되어 제 1 정답 후보군은 정답 후보 DB(126)에 저장한다.

상기 단계(710)에서의 체크 결과, n이 x를 초과하면, 정답 후보군 결정부(206)에서는, 예컨대 음소간의 거리 측정을 통해 계산되는 발음 유사도에 의거하여 정답 후보들의 개수를 기 설정된 개수로 조정하며(단계 712), 이와 같이 개수가 조정된 정답 후보들은 제 1 정답 후보군으로 결정된 후(단계 714), 도 6의 단계(624)로 진행되어 정답 후보 DB(126)에 저장한다.

다시, 도 6을 참조하면, 음성 인식 오류가 발생하면, 제 2 정답 후보 탐색 블록(113)에서는 데이터베이스(120) 내 단어 관계 정보 DB(122)의 검색을 통해 제 2 정답 후보군의 존재 여부를 탐색하고(단계 610, 612), 탐색 결과 제 2 정답 후보군이 존재할 때 해당 정답 후보들을 추출하여 정답 후보 DB(126)에 저장한다(단계 624). 여기에서, 제 2 정답 후보군이 존재하는 경우일 때, 제 2 정답 후보군은 적어도 하나 이상 혹은 다수의 정답 후보들을 포함할 수 있다.

도 8은 본 발명에 따라 단어 관계 정보 DB를 이용하여 정답 후보를 결정하는 주요 과정(단계 610, 612)을 도시한 순서도이다.

도 8을 참조하면, 도 3의 이외 단어 추출부(302)에서는 음성 인식 오류가 검출될 때 인식된 오류 단어를 제외한 나머지 단어들을 추출하고(단계 802), 의미 상관관계 탐색부(304)에서는 추출된 단어들에 의거하여 단어 관계 정보 DB(122)의 검색함으로써(단계 804), 단어 간 의미 상관관계가 있는 단어 후보들을 추출한다(단계 806).

이후, 정답 후보군 결정부(306)에서는 의미 상관관계 추출부(304)를 통해 추출된 각 단어 후보들 중 공통되는 단어를 제 2 정답 후보군으로 결정, 즉 정답 후보군이 존재하는 지의 여부를 체크한다(단계 808). 여기에서, 결정되는 제 2 정답 후보군은 적어도 하나 이상 혹은 다수의 정답 후보들을 포함할 수 있다.

다시, 정답 후보군 결정부(306)에서는 정답 후보군 내 정답 후보들의 개수(n)가 기 설정된 개수(x)를 초과하는 지의 여부를 체크하는데(단계 810), 여기에서의 체크 결과 n이 x를 초과하지 않으면 해당 정답 후보들이 제 2 정답 후보군으로 결정되며(단계 814), 이후 처리는 도 6의 단계(624)로 진행되어 제 2 정답 후보군은 정답 후보 DB(126)에 저장한다.

상기 단계(810)에서의 체크 결과, n이 x를 초과하면, 정답 후보군 결정부(306)에서는, 예컨대 음소간의 거리 측정을 통해 계산되는 발음 유사도에 의거하여 정답 후보들의 개수를 기 설정된 개수로 조정하며(단계 812), 이와 같이 개수가 조정된 정답 후보들은 제 2 정답 후보군으로 결정된 후(단계 814), 도 6의 단계(624)로 진행되어 정답 후보 DB(126)에 저장한다.

다시, 도 6을 참조하면, 음성 인식 오류가 발생하면, 제 3 정답 후보 탐색 블록(114)에서는 데이터베이스(120) 내 사용자 오류 수정 정보 DB(123)의 검색을 통해 제 3 정답 후보군의 존재 여부를 탐색하고(단계 614, 616), 탐색 결과 제 3 정답 후보군이 존재할 때 해당 정답 후보들을 추출하여 정답 후보 DB(126)에 저장한다(단계 624). 여기에서, 제 3 정답 후보군이 존재하는 경우일 때, 제 3 정답 후보군은 적어도 하나 이상 혹은 다수의 정답 후보들을 포함할 수 있다.

도 9는 본 발명에 따라 사용자 오류 수정 정보 DB를 이용하여 정답 후보를 결정하는 주요 과정(단계 614, 616)을 도시한 순서도이다.

도 9를 참조하면, 도 4의 정답 후보 탐색부(402)에서는 음성 인식 오류가 검출될 때 사용자 오류 수정 정보 DB(123)을 검색하여(단계 902), 정답 후보가 존재하는 지의 여부를 체크(탐색)하고, 정답 후보가 존재할 때 탐색된 정답 후보의 개수가 기 설정된 개수(m)보다 적은지의 여부를 체크하는데(단계 904), 여기에서의 체크 결과 탐색된 정답 후보의 개수가 기 설정된 개수(m)보다 많을 때 처리는 후술하는 단계(912)로 진행된다.

상기 단계(904)에서의 체크 결과, 탐색된 정답 후보의 개수가 기 설정된 개수(m)보다 적으면, 적용된 음성 인식기가 서버 클라이언트 방식의 인식기인지의 여부를 체크하는데(단계 906), 여기에서의 체크 결과 적용된 음성 인식기가 서버 클라이언트 방식의 인식기가 아닌 경우 처리는 후술하는 단계(916)로 진행된다.

상기 단계(906)에서의 체크 결과, 적용된 음성 인식기가 서버 클라이언트 방식의 인식기이면, 정답 예비 후보 탐색부(404)에서는 서버 기반의 사용자 오류 수정 정보 DB(즉, 다른 사용자의 사용자 오류 수정 정보 DB)를 검색함으로써(단계 908), 정답 예비 후보군을 추출한다(단계 910).

이후, 정답 후보군 결정부(406)에서는 정답 후보군 또는 정답 예비 후보군 내 정답 후보들의 개수(n)가 기 설정된 개수(x)를 초과하는 지의 여부를 체크하는데(단계 912), 여기에서의 체크 결과 n이 x를 초과하지 않으면 해당 정답 후보들이 제 3 정답 후보군으로 결정되며(단계 916), 이후 처리는 도 6의 단계(624)로 진행되어 제 3 정답 후보군은 정답 후보 DB(126)에 저장한다.

상기 단계(912)에서의 체크 결과, n이 x를 초과하면, 정답 후보군 결정부(406)에서는, 예컨대 발음 유사도, 단어 간 상관관계 정보 및 도메인 패턴 정보 중 어느 하나에 의거하여 정답 후보들의 개수를 기 설정된 개수로 조정하며(단계 914), 이와 같이 개수가 조정된 정답 후보들은 제 3 정답 후보군으로 결정된 후(단계 916), 도 6의 단계(624)로 진행되어 정답 후보 DB(126)에 저장한다.

다시, 도 6을 참조하면, 도 1의 제 4 정답 후보 탐색 블록(115)에서는 음성 인식기가 도메인 발화 패턴 DB 및 고유명사 DB가 적용되는 인식기인지를 체크하는데(단계 618), 도메인 발화 패턴 DB 및 고유명사 DB가 적용되는 인식기가 아닌 것으로 판단될 때 처리는 종료된다.

상기 단계(618)에서의 체크 결과, 도메인 발화 패턴 DB 및 고유명사 DB가 적용되는 인식기이면, 제 4 정답 후보 탐색 블록(115)에서는 도메인 발화 패턴 DB(124) 및 고유명사 DB(125)의 검색을 통해 제 4 정답 후보군의 존재 여부를 탐색하고(단계 620, 622), 탐색 결과 제 4 정답 후보군이 존재할 때 해당 정답 후보들을 추출하여 정답 후보 DB(126)에 저장한다(단계 624). 여기에서, 제 4 정답 후보군이 존재하는 경우일 때, 제 4 정답 후보군은 적어도 하나 이상 혹은 다수의 정답 후보들을 포함할 수 있다.

도 10은 본 발명에 따라 도메인 발화 패턴 DB와 고유명사 DB를 이용하여 정답 후보를 결정하는 주요 과정(단계 620, 622)을 도시한 순서도이다.

도 10을 참조하면, 도 5의 발화 적용 탐색부(502)에서는 도메인 발화 패턴 DB(124)의 검색하고(단계 1002), 그 검색 결과에 의거하여 음성 인식 오류 단어가 도메인 발화 패턴이 적용되는 발화인지의 여부를 체크(탐색)한다(단계 1004).

상기 단계(1004)에서의 체크 결과, 음성 인식 오류 단어가 도메인 발화 패턴의 적용 대상이면, 정답 후보 추출부(504)에서는 고유명사 DB(125)의 검색함으로써(단계 1006), 적어도 하나 이상의 정답 후보를 포함하는 정답 후보군을 추출한다(단계 1008).

이후, 정답 후보군 결정부(506)에서는 정답 후보군 내 정답 후보들의 개수(n)가 기 설정된 개수(x)를 초과하는 지의 여부를 체크하는데(단계 1010), 여기에서의 체크 결과 n이 x를 초과하지 않으면 해당 정답 후보들이 제 4 정답 후보군으로 결정되며(단계 1014), 이후 처리는 도 6의 단계(624)로 진행되어 제 4 정답 후보군은 정답 후보 DB(126)에 저장한다.

상기 단계(1010)에서의 체크 결과, n이 x를 초과하면, 정답 후보군 결정부(506)에서는, 예컨대 음소간의 거리 측정을 통해 계산되는 발음 유사도에 의거하여 정답 후보들의 개수를 기 설정된 개수로 조정하며(단계 1012), 이와 같이 개수가 조정된 정답 후보들은 제 4 정답 후보군으로 결정된 후(단계 1014), 도 6의 단계(624)로 진행되어 정답 후보 DB(126)에 저장한다.

다시, 도 6을 참조하면, 정답 후보 정렬 및 표시 블록(116)에서는, 본 발명에 따라 음성 인식 오류-정답 쌍 DB(121), 단어 관계 정보 DB(122), 사용자 오류 수정 정보 DB(123), 도메인 발화 패턴 DB(124), 고유명사 DB(125) 등을 이용하여 결정된 후 정답 후보 DB(126)에 저장되어 있는 각 정답 후보군(제 1 내지 제 4 정답 후보군) 내 정답 후보들을 기 설정된 조건에 따라 정렬시켜 표시(디스플레이)한다(단계 626).

여기에서, 음성 인식 오류 단어에 대한 정답 후보의 정렬 및 표시는, 예컨대 결정된 각 정답 후보군 중 적어도 하나 이상의 정답 후보군에 속하는 정답 후보를 최종 정답 후보로 정렬 및 표시하거나, 결정된 각 정답 후보군에 공통으로 속하는 정답 후보만을 최종 정답 후보로 결정하여 표시하거나, 결정된 각 정답 후보군을 기 설정된 우선순위에 따라 정렬시켜 표시하는 방식으로 표출될 수 있다.

이상의 설명은 본 발명의 기술사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경 등이 가능함을 쉽게 알 수 있을 것이다. 즉, 본 발명에 개시된 실시 예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것으로서, 이러한 실시 예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다.

따라서, 본 발명의 보호 범위는 후술되는 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

110 : 음성 인식 오류 수정 모듈
111 : 음성 인식 오류 검출 블록
112 ?? 115 : 정답 후보 탐색 블록
116 : 정답 후보 정렬 및 표시 블록
120 : 데이터베이스
121 : 음성 인식 오류-정답 쌍 DB
122 : 단어 관계 정보 DB
123 : 사용자 오류 수정 정보 DB
124 : 도메인 발화 패턴 DB
125 : 고유명사 DB
126 : 정답 후보 DB

Claims

음향모델 기반의 음성 인식 오류-정답 쌍 DB를 이용하여 음성 인식 오류에 대한 정답 후보군이 탐색되지 않는 경우, 음성 인식 오류 단어의 음소간 거리 측정 결과를 이용하여 상기 음성 인식 오류에 대한 제 1 정답 후보군을 탐색하는 과정과,
단어 관계 정보 DB를 이용하여 상기 음성 인식 오류에 대한 제 2 정답 후보군을 탐색하는 과정과,
사용자 오류 수정 정보 DB를 이용하여 상기 음성 인식 오류에 대한 제 3 정답 후보군을 탐색하는 과정과,
도메인 발화 패턴 DB 및 고유명사 DB를 이용하여 상기 음성 인식 오류에 대한 제 4 정답 후보군을 탐색하는 과정과,
탐색된 각 정답 후보군 내 정답 후보들을 정렬시켜 표시하는 과정
을 포함하는 음성 인식 시스템에서의 오류 수정 방법.
제 1 항에 있어서,
상기 표시하는 과정은,
상기 탐색된 각 정답 후보군 중 적어도 하나 이상의 정답 후보군에 속하는 정답 후보를 최종 정답 후보로 표시하는
음성 인식 시스템에서의 오류 수정 방법.
제 1 항에 있어서,
상기 표시하는 과정은,
상기 탐색된 각 정답 후보군에 공통으로 속하는 정답 후보만을 최종 정답 후보로 결정하여 표시하는
음성 인식 시스템에서의 오류 수정 방법.
제 1 항에 있어서,
상기 표시하는 과정은,
상기 탐색된 각 정답 후보군을 기 설정된 우선순위에 따라 정렬시켜 표시하는
음성 인식 시스템에서의 오류 수정 방법.
제 1 항에 있어서,
상기 제 1 정답 후보군을 탐색하는 과정은,
상기 음성 인식 오류-정답 쌍 DB의 검색을 통해 정답 후보군의 존재 여부를 탐색하는 과정과,
상기 정답 후보군이 존재하지 않을 때 음성 인식 오류 단어의 발음 유사도를 계산하고, 인식 사전의 단어 중 발음 유사도가 상대적으로 높은 단어를 정답 예비 후보군으로 추출하는 과정과,
상기 정답 후보군 또는 정답 예비 후보군을 상기 제 1 정답 후보군으로 결정하는 과정
을 포함하는 음성 인식 시스템에서의 오류 수정 방법.
제 5 항에 있어서,
상기 발음 유사도는,
음소간의 거리 측정을 통해 계산되는
음성 인식 시스템에서의 오류 수정 방법.
제 5 항에 있어서,
상기 제 1 정답 후보군을 탐색하는 과정은,
결정된 상기 제 1 정답 후보군에 속한 정답 후보들이 다수 개일 때 정답 후보들의 개수를 기 설정된 개수로 조정하는 과정
을 더 포함하는 음성 인식 시스템에서의 오류 수정 방법.
제 1 항에 있어서,
상기 제 2 정답 후보군을 탐색하는 과정은,
상기 음성 인식 오류로 인식된 단어를 제외한 나머지 단어들을 추출하는 과정과,
추출된 단어들에 의거한 상기 단어 관계 정보 DB의 검색을 통해 단어 간 의미 상관관계가 있는 단어 후보들을 추출하는 과정과,
추출된 각 단어 후보들 중 공통되는 단어를 상기 제 2 정답 후보군으로 결정하는 과정
을 포함하는 음성 인식 시스템에서의 오류 수정 방법.
제 8 항에 있어서,
상기 제 2 정답 후보군을 탐색하는 과정은,
결정된 상기 제 2 정답 후보군에 속한 정답 후보들이 다수 개일 때 정답 후보들의 개수를 기 설정된 개수로 조정하는 과정
을 더 포함하는 음성 인식 시스템에서의 오류 수정 방법.
제 9 항에 있어서,
상기 기 설정된 개수로의 조정은,
발음 유사도가 상대적으로 높은 단어로 제한하는
음성 인식 시스템에서의 오류 수정 방법.
제 1 항에 있어서,
상기 제 3 정답 후보군을 탐색하는 과정은,
해당 오류 단어에 대해 상기 사용자 오류 수정 정보 DB를 검색하여 정답 후보군을 탐색하는 과정과,
탐색된 정답 후보군 내 정답 후보들의 개수를 체크하는 과정과,
체크 결과, 정답 후보들의 개수가 기 설정된 개수보다 적을 때, 서버 기반의 사용자 오류 수정 정보 DB를 검색하여 정답 예비 후보군을 탐색하는 과정과,
상기 정답 후보군 또는 정답 후보군과 정답 예비 후보군의 합을 상기 제 3 정답 후보군으로 결정하는 과정
을 포함하는 음성 인식 시스템에서의 오류 수정 방법.
제 11 항에 있어서,
상기 제 3 정답 후보군을 탐색하는 과정은,
결정된 상기 제 3 정답 후보군에 속한 정답 후보들이 다수 개일 때 정답 후보들의 개수를 기 설정된 개수로 조정하는 과정
을 더 포함하는 음성 인식 시스템에서의 오류 수정 방법.
제 12 항에 있어서,
상기 기 설정된 개수로의 조정은,
발음 유사도, 단어 간 상관관계 정보 및 도메인 패턴 정보 중 어느 하나를 이용하여 수행되는
음성 인식 시스템에서의 오류 수정 방법.
제 11 항에 있어서,
상기 정답 예비 후보군을 탐색하는 과정은,
음성 인식기가 서버 클라이언트 방식의 인식기일 때 선택 실행되는
음성 인식 시스템에서의 오류 수정 방법.
제 1 항에 있어서,
상기 제 4 정답 후보군을 탐색하는 과정은,
상기 도메인 발화 패턴 DB를 검색하여 해당 오류 단어가 도메인 발화 패턴이 적용되는 발화인지를 체크하는 과정과,
상기 해당 오류 단어가 상기 도메인 발화 패턴에 속할 때 상기 고유명사 DB를 검색하여 정답 후보군을 추출하는 과정과,
추출된 정답 후보군을 상기 제 4 정답 후보군으로 결정하는 과정
을 포함하는 음성 인식 시스템에서의 오류 수정 방법.
제 15 항에 있어서,
상기 제 4 정답 후보군을 탐색하는 과정은,
결정된 상기 제 4 정답 후보군에 속한 정답 후보들이 다수 개일 때 정답 후보들의 개수를 기 설정된 개수로 조정하는 과정
을 더 포함하는 음성 인식 시스템에서의 오류 수정 방법.
제 16 항에 있어서,
상기 기 설정된 개수로의 조정은,
발음 유사도가 상대적으로 높은 단어로 제한하는
음성 인식 시스템에서의 오류 수정 방법.
음향모델 기반의 음성 인식 오류-정답 쌍 DB, 단어 관계 정보 DB, 사용자 오류 수정 정보 DB, 도메인 발화 패턴 DB 및 고유명사 DB로 구성되는 데이터베이스와,
입력되는 음성에 대한 음성 인식의 오류 여부를 검출하는 음성 인식 오류 검출 블록과,
음성 인식 오류가 검출될 때, 상기 음성 인식 오류-정답 쌍 DB를 이용하여 해당 오류 단어에 대한 정답 후보군이 탐색되지 않는 경우, 상기 해당 오류 단어의 음소간 거리 측정 결과를 이용하여 상기 해당 오류 단어에 대한 제 1 정답 후보군을 결정하는 제 1 정답 후보 탐색 블록과,
상기 음성 인식 오류가 검출될 때, 상기 단어 관계 정보 DB를 이용하여 상기 해당 오류 단어에 대한 제 2 정답 후보군을 결정하는 제 2 정답 후보 탐색 블록과,
상기 음성 인식 오류가 검출될 때, 상기 사용자 오류 수정 정보 DB를 이용하여 상기 해당 오류 단어에 대한 제 3 정답 후보군을 결정하는 제 3 정답 후보 탐색 블록과,
상기 음성 인식 오류가 검출될 때, 상기 도메인 발화 패턴 DB 및 고유명사 DB를 이용하여 상기 해당 오류 단어에 대한 제 4 정답 후보군을 결정하는 제 4 정답 후보 탐색 블록과,
결정된 각 정답 후보군 내 정답 후보들을 기 설정된 조건에 따라 정렬시켜 표시하는 정답 후보 정렬 및 표시 블록
을 포함하는 음성 인식 시스템에서의 오류 수정 장치.
제 18 항에 있어서,
상기 정답 후보 정렬 및 표시 블록은,
상기 결정된 각 정답 후보군 중 적어도 하나 이상의 정답 후보군에 속하는 정답 후보를 최종 정답 후보로 표시하는
음성 인식 시스템에서의 오류 수정 장치.
제 18 항에 있어서,
상기 정답 후보 정렬 및 표시 블록은,
상기 결정된 각 정답 후보군에 공통으로 속하는 정답 후보만을 최종 정답 후보로 결정하여 표시하는
음성 인식 시스템에서의 오류 수정 장치.