KR102441063B1

KR102441063B1 - 끝점 검출 장치, 그를 포함한 시스템 및 그 방법

Info

Publication number: KR102441063B1
Application number: KR1020170070895A
Authority: KR
Inventors: 이경철; 조재민
Original assignee: 현대자동차주식회사; 기아 주식회사
Priority date: 2017-06-07
Filing date: 2017-06-07
Publication date: 2022-09-06
Also published as: CN109003626B; KR20180133703A; CN109003626A; US10475441B2; US20180357999A1

Abstract

본 발명은 끝점 검출 장치, 그를 포함한 시스템 및 그 방법에 관한 것으로, 본 발명의 실시예에 따른 끝점 검출 시스템은 사용자 발화의 끝점 검출을 위한 끝점 검출 시간을 사용자별 및 도메인별로 다르게 설정하여 음성인식을 수행하는 프로세서; 및 상기 프로세서에 의한 음성 인식을 위한 데이터를 저장하는 데이터 베이스를 포함할 수 있다.

Description

끝점 검출 장치, 그를 포함한 시스템 및 그 방법{Apparatus for detecting adaptive end-point, system having the same and method thereof}

본 발명은 끝점 검출 장치, 그를 포함한 시스템 및 그 방법에 관한 것으로, 보다 상세하게는 음성 인식 시 끝점 검출 시간을 가변적으로 적용하여 음성 인식 성능을 향상시킬 수 있는 기술에 관한 것이다.

스마트 폰(smart phone) 또는 태블릿(tablet) PC 등과 같은 다양한 유형의 전자 장치는, 사용자가 마이크를 통해 입력하는 음성 신호를 인식할 수 있으며, 음성 신호가 사전에 설정된 키워드(keyword)인지를 판별한다.

이러한 음성 신호 인식을 위해 종래에는 사용자의 음성인식 시작을 인지하고 입력신호가 지속적으로 들어오다가 일정 시간 동안(끝점 검출 시간, 예컨데, 1초) 묵음 또는 잡음만 포함된 신호가 유지되면 더 이상 사용자 음성인식 입력되지 않을 것으로 판단하여 음성신호의 입력을 중단하고 해당 데이터에 대한 사용자의 특정패턴 등을 분석하여 인식결과를 도출한다.

그런데, 끝점 검출을 위한 시간을 너무 짧게 설정할 경우 사용자의 발화 내용의 뒷부분 일부가 생략되어 인식결과를 정상적으로 도출할 수 없을 경우가 발생하며 끝점 검출을 위한 시간을 너무 길게 설정할 경우는 인식시간이 늘어나거나 입력 데이터가 없는 묵음 구간에 들어온 잡음으로 인해 오인식이 발생할 가능성이 높아진다.

이에 정확한 음성인식을 위해 끝점 검출 시간을 정확히 결정하는 것이 중요하다.

본 발명의 실시예는 음성 인식 시 끝점 검출 시간을 가변적으로 적용하여 음성인식 성능을 향상시킬 수 있는 끝점 검출 장치, 그를 포함한 시스템 및 그 방법을 제공하고자 한다.

본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재들로부터 당업자에게 명확하게 이해될 수 있을 것이다.

본 발명의 실시예에 따른 끝점 검출 시스템은 사용자 발화의 끝점 검출을 위한 끝점 검출 시간을 사용자별 및 도메인별로 다르게 설정하여 음성인식을 수행하는 프로세서; 및 상기 프로세서에 의한 음성 인식을 위한 데이터를 저장하는 데이터 베이스를 포함할 수 있다.

일 실시예에서, 상기 프로세서에 의한 음성인식 결과를 화면에 표시하는 디스플레이부를 더 포함할 수 있다.

일 실시예에서, 상기 데이터베이스는, 음성인식을 위한 데이터를 저장하는 음성인식 데이터베이스; 및 상기 사용자별 및 도메인별 끝점 검출 시간 정보를 저장하는 끝점검출 데이터베이스;를 포함할 수 있다.

일 실시예에서, 상기 프로세서는, 발화에 대한 사용자 및 도메인을 식별하여 사용자별 또는 도메인별 설정된 끝점 검출 시간을 적용하는 입력신호 관리부; 상기 사용자별 또는 도메인별 설정된 끝점 검출 시간을 적용하여 사용자가 발화한 음성신호를 검출하는 음성 검출부; 상기 검출된 음성신호에 대해 음성 인식을 수행하는 음성 인식부; 상기 음성인식 결과에 대한 검색을 수행하여 검색 결과를 출력하는 음성 인식 결과 관리부; 및 상기 검색결과에 따라 끝점 검출 시간 설정을 유지 또는 수정하는 끝점 검출 관리부;를 포함할 수 있다.

일 실시예에서, 상기 입력신호 관리부는, 상기 사용자 발화 시 사용자 및 도메인을 식별하고, 상기 데이터베이스에 저장되어 있는 사용자마다 설정된 도메인별 제 1 끝점 검출 시간 및 제 2 끝점 검출시간을 적용할 수 있다.

일 실시예에서, 상기 제 1 끝점 검출시간은 상기 제 2 끝점 검출시간보다 짧게 설정될 수 있다.

일 실시예에서, 상기 입력신호 관리부는, 상기 발화 대상인 사용자를 식별하는 사용자 식별부; 상기 발화된 음성신호에 대한 도메인을 식별하거나, 미리 정한 도메인 메뉴를 통해 상기 도메인을 식별하는 도메인 식별부; 식별된 사용자와 식별된 도메인 정보를 이용하여 사용자별로 저장된 도메인별 끝점 검출 시간을 설정하는 다중 끝점 검출시간 설정부를 포함할 수 있다.

일 실시예에서, 상기 음성 검출부는, 상기 제 1 끝점 검출 시간을 적용하여 제 1 음성신호를 검출하고, 상기 제 2 끝점 검출 시간을 적용하여 제 2 음성신호를 검출하는 포함할 수 있다.

일 실시예에서, 상기 음성 인식부는, 상기 제 1 음성신호에 대한 음성인식을 수행하여 제 1 음성인식결과를 출력하고 상기 제 2 음성신호에 대한 음성인식을 수행하여 제 2 음성인식결과를 출력하는 포함할 수 있다.

일 실시예에서, 상기 음성인식 결과 관리부는, 상기 제 1 음성인식결과 및 상기 제 2 음성인식결과에 대해 상기 데이터베이스를 통해 검색을 수행하여 제 1 검색 결과 및 제 2 검색결과를 출력할 수 있다.

일 실시예에서, 상기 끝점 검출 관리부는, 상기 제 1 음성인식결과 및 상기 제 2 음성인식결과 각각에 대한 검색결과가 존재하지 않는 경우, 상기 제 1 끝점 검출 시간을 최종 끝점 검출 시간으로 설정하는 포함할 수 있다.

일 실시예에서, 상기 끝점 검출 관리부는, 상기 제 1 검색 결과 및 상기 제 2 검색결과를 비교하여, 일치하는 경우, 상기 제 1 끝점 검출 시간을 최종 끝점 검출 시간으로 설정하는 포함할 수 있다.

일 실시예에서, 상기 끝점 검출 관리부는, 상기 제 1 검색결과 및 상기 제 2 검색결과를 비교하여 일치하지 않는 경우, 상기 제 1 검색결과 및 상기 제 2 검색결과 중 하나를 사용자로부터 선택받을 수 있다.

일 실시예에서, 상기 끝점 검출 관리부는, 상기 제 1 검색결과 및 상기 제 2 검색결과 중 상기 제 1 검색결과가 선택되면 상기 제 1 끝점 검출 시간을 상기 최종 끝점 검출시간으로 설정하고, 상기 제 2 검색결과가 선택되면 상기 제 2 끝점 검출 시간을 상기 최종 끝점 검출 시간으로 설정할 수 있다.

본 발명의 실시예에 따른 끝점 검출 장치는 사용자 발화에 대한 사용자 및 도메인을 식별하여 미리 정한 사용자별 또는 도메인별 끝점 검출 시간 데이터베이스를 이용하여 사용자별 또는 도메인별 설정된 끝점 검출 시간을 설정하는 입력신호 관리부; 상기 사용자별 또는 도메인별 설정된 복수개의 끝점 검출 시간을 적용하여 사용자가 발화한 음성신호를 각각 검출하는 음성 검출부; 상기 검출된 각각의 음성신호에 대해 음성 인식을 각각 수행하는 음성 인식부; 상기 각각의 음성인식 결과에 대한 검색을 수행하여 각각의 검색 결과를 출력하는 음성 인식 결과 관리부; 및 상기 각각의 검색결과에 따라 끝점 검출 시간 설정을 유지 또는 수정하는 끝점 검출 관리부;를 포함할 수 있다.

일 실시예에서, 상기 끝점 검출 관리부는, 상기 각각의 검색결과를 비교하여 일치하는 경우, 기 설정되어 있는 끝점 검출 시간 설정을 유지하고, 일치하지 않는 경우, 상기 끝점 검출 시간 설정을 수정할 수 있다.

본 발명의 실시예에 따른 끝점 검출 방법은 사용자 발화에 대한 사용자 및 도메인을 식별하여 미리 정한 사용자별 또는 도메인별 끝점 검출 시간 데이터베이스를 이용하여 사용자별 또는 도메인별 설정된 끝점 검출 시간을 설정하는 단계; 상기 사용자별 또는 도메인별 설정된 복수개의 끝점 검출 시간을 적용하여 사용자가 발화한 음성신호를 각각 검출하는 단계; 상기 검출된 각각의 음성신호에 대해 음성 인식을 각각 수행하는 단계; 상기 각각의 음성인식 결과에 대한 검색을 수행하여 각각의 검색 결과를 출력하는 단계; 및 상기 각각의 검색결과에 따라 끝점 검출 시간 설정을 유지 또는 수정하는 단계;를 포함할 수 있다.

일 실시예에서, 상기 끝점 검출 시간 설정을 유지 또는 수정하는 단계는, 상기 각각의 검색결과를 비교하여 일치하는 경우, 기 설정되어 있는 끝점 검출 시간 설정을 유지하는 포함할 수 있다.

일 실시예에서, 상기 끝점 검출 시간 설정을 유지 또는 수정하는 단계는, 상기 각각의 검색결과를 비교하여 일치하지 않는 경우, 상기 끝점 검출 시간 설정을 수정할 수 있다.

본 기술은 전자 장치의 음성 인식을 위한 끝점 검출 시점을 가변적으로 적용하여 음성 인식 성능을 향상시킬 수 있다.

도 1은 본 발명의 실시예에 따른 끝점 검출 시스템의 구성도이다.
도 2는 도 1의 입력신호 관리부의 세부 구성도이다.
도 3은 본 발명의 실시예에 따른 끝점 검출 시간을 설명하기 위한 도면이다.
도 4는 도 1의 음성인식부의 세부 구성도이다.
도 5는 도 1의 음성인식 결과 관리부의 세부 구성도이다.
도 6은 도 1의 끝점 검출 관리부의 세부 구성도이다.
도 7은 본 발명의 실시예에 따른 끝점 검출 방법을 나타내는 순서도이다.
도 8은 본 발명의 실시예에 따른 입력신호 관리 방법을 나타내는 순서도이다.
도 9는 본 발명의 실시예에 따른 끝점 검출 방법을 적용한 컴퓨터 시스템의 구성도이다.

이하, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명의 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 실시예에 대한 이해를 방해한다고 판단되는 경우에는 그 상세한 설명은 생략한다.

본 발명의 실시예의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 또한, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 도 1 내지 도 9를 참조하여, 본 발명의 실시예들을 구체적으로 설명하기로 한다.

도 1은 본 발명의 실시예에 따른 끝점 검출 시스템의 구성도이다.

본 발명의 실시예에 따른 끝점 검출 시스템은 프로세서(100) 및 데이터 베이스(200), 디스플레이부(300)를 포함한다.

프로세서(100)는 사용자 발화의 끝점 검출을 위한 끝점 검출 시간을 사용자별 및 도메인별로 다르게 설정하여 음성인식을 수행하고 음성인식 수행결과에 따라 끝점 검출 시간을 유지 또는 수정한다. 이를 위해, 프로세서(100)는 입력신호 관리부(110), 음성 검출부(120), 음성 인식부(130), 음성인식 결과 관리부(140), 끝점검출 관리부(150)를 포함한다.

입력신호 관리부(110)는 발화에 대한 사용자 및 도메인을 식별하여 사용자별 또는 도메인별 설정된 끝점 검출 시간을 적용한다. 즉, 입력신호 관리부(110)는 사용자 발화 시 사용자 및 도메인을 식별하고, 데이터베이스(200)에 저장되어 있는 사용자마다 설정된 도메인별 제 1 끝점 검출 시간 및 제 2 끝점 검출시간을 설정한다.

도 2는 도 1의 입력신호 관리부(110)의 세부 구성도이다. 도 2를 참조하면, 입력신호 관리부(110)는 사용자 식별부(111), 도메인 식별부(112), 다중 끝점 검출 시간 설정부(113)를 포함한다.

사용자 식별부(111)는 발화 대상인 사용자를 식별한다. 이때, 사용자 식별은 음성인식, 동공인식 등 통상의 기술을 이용하여 수행할 수 있다.

도메인 식별부(112)는 발화된 음성신호에 대한 도메인을 식별하거나, 미리 정한 도메인 메뉴를 통해 도메인을 식별할 수 있다. 예를 들어, POI(Point Of Interest) 관련 음성인식을 하는 경우, 사용자가 네비게이션 메뉴에 접속한 상태에서 음성인식을 수행하는 경우, 도메인이 POI 관련인 것으로 판단될 수 있다.

다중 끝점 검출 시간 설정부(113)는 식별된 사용자와 식별된 도메인 정보를 이용하여 사용자별로 저장된 도메인별 끝점 검출 시간을 설정한다. 이때, 최초 발화시에는 디폴트로 끝점 검출 시간을 적용할 수 있다.

도 3 및 표 1을 이용하여 끝점 검출시간과 도메인 항목을 설명하기로 한다.

도 3은 본 발명의 실시예에 따른 끝점 검출 시간을 설명하기 위한 도면이다. 도 3을 참조하면, 제 1 끝점 검출시간(EPD t1)은 제 2 끝점 검출시간(EPD t2)보다 짧게 설정된다. 도 3 및 표 1에서는 2개의 끝점 검출시간의 예를 개시하고 있으나, 끝점 검출시간의 개수는 2개로 한정되지 않고 2개 이상 복수개로 설정될 수 있다.

표 1을 참조하면, 도메인은 디폴트(Global), 내부 단순 명령, POI나 주소정보, 단문문자메시지(SMS) 등으로 구분될 수 있다. 디폴트는 도메인을 알 수 없는 일반적인 상황으로서 제 1 끝점 검출시간(EPD Time1)은 1000ms로 설정하고 제 2 끝점 검출시간 (EPD Time2)은 1000ms+a로 설정될 수 있다. 또한 비교적 발화내용이 짧은 내부 명령어 등의 경우 제 1 끝점 검출시간(EPD Time1)은 다소 짧은 800ms로 설정하고 제 2 끝점 검출시간(EPD Time2)은 800ms+a로 설정하도록 한다. 단문 문자 서비스의 경우 문자 내용이 길 수 있으므로 제 1 끝점 검출시간(EPD Time1)은 다소 짧은 1300ms로 설정하고 제 2 끝점 검출시간(EPD Time2)은 1300ms+a로 설정하도록 한다.

이어 도 1을 참조하여 본 발명의 실시예에 따른 끝점 검출 시스템의 구성을 이어서 계속 설명하면, 음성 검출부(120)는 사용자별 또는 도메인별 설정된 끝점 검출 시간을 적용하여 사용자가 발화한 음성신호를 검출한다. 즉 음성 검출부(120)는 제 1 끝점 검출 시간을 적용하여 제 1 음성신호를 검출하고, 제 2 끝점 검출 시간을 적용하여 제 2 음성신호를 검출한다.

음성 인식부(130)는 검출된 음성신호에 대해 음성 인식을 수행한다. 즉, 음성 인식부(130)는 제 1 음성신호에 대한 음성인식을 수행하여 제 1 음성인식결과를 출력하고 제 2 음성신호에 대한 음성인식을 수행하여 제 2 음성인식결과를 출력한다.

도 4는 도 1의 음성 인식부(130)의 세부 구성도이다. 도 4를 참조하면, 음성 인식부(130)는 문자 인식 엔진(131), 자연어 인식엔진(132), 특징 추출부(133), 핵심어 검출부(134)를 포함한다.

문자 인식 엔진(131)는 연속으로 입력되는 제 1 음성신호 및 제 2 음성신호에 대해 문자 인식을 수행하고, 자연어 인식엔진(132)은 자연어를 인식하고, 특징 추출부(133)는 음성인식을 위한 특징부를 추출한다. 이어, 핵심어 검출부(134)는 인식된 결과로부터 핵심어 또는 주제어를 검출한다. 이때, 음성 인식부(130)는 통상의 음성인식 기술을 이용하여 음성 인식을 수행할 수 있다.

도 1의 음성인식 결과 관리부(140)는 제 1 음성인식결과 및 제 2 음성인식결과에 대해 음성인식 데이터베이스(210)를 통해 검색을 수행하여 제 1 검색 결과 및 제 2 검색결과를 출력한다. 도 5는 도 1의 음성인식 결과 관리부(140)의 세부 구성도이다. 음성인식 결과 관리부(140)는 검색부(141) 및 검색결과 표시 제어부(142)를 포함한다.

검색부(141)는 음성 인식부(130)에서 인식된 제 1 음성 인식 결과 및 제 2 음성 인식 결과에 대해 음성인식 데이터베이스(210)를 통해 검색을 수행하고, 검색결과 표시 제어부(142)는 검색부(141)에서 검색된 결과를 디스플레이부(300)를 통해 화면에 표시하도록 제어한다. 이때, 검색부(141)는 내부의 음성인식 데이터베이스(210)가 아닌 외부의 서버를 통해 검색을 수행할 수도 있다. 또한, 검색부(141)는 음성인식결과에 대해 POI 기반 등 도메인별로 검색할 수 있고, 검색결과는 신뢰도가 높은 하나의 결과가 출력되거나 복수개의 후보 결과가 출력될 수 있다.

도 1의 끝점검출 관리부(150)는 검색결과에 따라 끝점 검출 시간 설정을 유지 또는 수정한다. 도 6은 도 1의 끝점 검출 관리부(150)의 세부 구성도이다. 도 6을 참조하면 끝점 검출 관리부(150)는 검색결과 판단부(151), 끝점 검출 시간 결정부(152)를 포함한다.

검색결과 판단부(151)는 제 1 검색결과와 제 2 검색결과를 비교한다.

끝점 검출 시간 결정부(152)는 제 1 음성인식결과 및 제 2 음성인식결과 각각에 대한 검색결과가 존재하지 않는 경우, 제 1 끝점 검출 시간을 최종 끝점 검출 시간으로 설정한다. 이때, 제 1 끝점 검출 시간이 항상 디폴트로 최종 끝점 검출 시간으로 설정되므로, 여기서 제 1 끝점 검출 시간을 최종 끝점 검출 시간으로 설정한다는 것은 제 1 끝점 검출 시간을 최종 끝점 검출 시간으로 유지한다는 의미를 포함할 수 있다.

끝점 검출 시간 결정부(152)는 제 1 검색 결과 및 제 2 검색결과를 비교하여, 제 1 검색 결과 및 제 2 검색결과가 일치하는 경우, 제 1 끝점 검출 시간을 최종 끝점 검출 시간으로 설정한다. 끝점 검출 시간 결정부(152)는 제 1 검색결과 및 제 2 검색결과를 비교하여 일치하지 않는 경우, 제 1 검색결과 및 제 2 검색결과 중 하나를 사용자로부터 선택받는다. 끝점 검출 시간 결정부(152)는 제 1 검색결과 및 제 2 검색결과 중 제 1 검색결과가 선택되면 제 1 끝점 검출 시간을 최종 끝점 검출시간으로 설정할 수 있다. 또한, 끝점 검출 시간 결정부(152)는 제 2 검색결과가 선택되면 제 2 끝점 검출 시간을 최종 끝점 검출 시간으로 설정할 수 있다.

도 1의 데이터베이스(200)는 프로세서에 의한 음성 인식을 위한 데이터를 저장한ㄴ다. 이를 위해, 데이터베이스(200)는 음성인식 데이터베이스(210), 사용자 도메인별 데이터베이스(220)를 포함한다.

음성인식 데이터베이스(210)는 음성인식을 위한 데이터를 저장한다. 음성 인식 데이터베이스(210)는 통상의 음성인식을 위한 데이터베이스와 동일하다.

사용자 도메인별 데이터베이스(220)는 사용자별 및 도메인별 끝점 검출 시간 정보를 저장한다. 즉 사용자 1에 대한 도메인별 데이터베이스(221), 사용자 2에 대한 도메인별 데이터베이스(222)를 포함한다. 여기서 사용자는 적어도 한명 이상을 포함할 수 있다.

디스플레이부(300)는 프로세서(100)에 의한 음성인식 결과를 화면에 표시할 수 있다. 특히 디스플레이부(300)는 제 1 검색결과 및 제 2 검색결과를 화면에 표시하여 사용자가 선택할 수 있도록 한다.

이와 같이, 본 발명은 사용자 발화에 대한 사용자 및 도메인을 식별하여 미리 정한 사용자별 또는 도메인별 끝점 검출 시간 데이터베이스를 통해 사용자별 또는 도메인별 설정된 끝점 검출 시간을 설정하고, 설정된 끝점 검출시간에 따라 사용자가 발화한 음성신호를 각각 검출하고, 음성인식을 수행한 후 음성인식 결과에 대한 검색결과에 따라 다중 끝점 검출 시간 설정을 유지 또는 수정한다. 이에, 고정된 끝점 검출 시간이 적용되는 음성인식에 비해 가변적 끝점 검출 시간을 적용함으로써 음성 인식 성능을 향상시킬 수 있다.

이하, 도 7을 참조하여 본 발명의 실시예에 따른 끝점 검출 방법을 구체적으로 설명하기로 한다.

끝점 검출 시스템은 발화 대상자인 사용자를 식별하고(S101), 식별된 사용자의 도메인별 제 1 끝점 검출 시간 및 제 2 끝점 검출 시간을 설정한다(S102).

그 후, 끝점 검출 시스템은 설정된 제 1 끝점 검출 시간 및 제 2 끝점 검출 시간을 적용하여 제 1 음성신호 및 제 2 음성신호를 검출한다(S103).

끝점 검출 시스템은 검출된 제 1 음성신호 및 제 2 음성신호로부터 음성 인식을 수행하고(S104), 제 1 음성신호에 의한 제 1 음성인식결과 및 제 2 음성신호에 의한 제 2 음성인식 결과에 대한 검색을 수행한다(S105).

이어 끝점 검출 시스템은 제 1 음성인식결과에 대한 제 1 검색결과 및 제 2 음성인식 결과에 대한 제 2 검색결과가 존재하는지를 판단하고(S106), 존재하지 않는 경우 음성인식이 올바르게 되지 않은 상태인 것으로 판단하여 제 1 끝점 검출 시간을 최종 끝점 검출 시간으로 설정하여 유지한다(S107).

이때, 검색 결과 유무의 차이가 있을 경우 즉 제 1 검색결과는 존재하나 제 2 검색결과가 존재하지 않는 경우, 검색 결과가 존재하는 제 1 끝점검출시간을 최종 끝점 검출 시간으로 적용한다

예를 들어, 제 1 끝점 검출 시간을 적용한 인식결과가 "서울대 분당병" 제 2 끝점 검출시간을 적용한 인식결과가 "서울대 분당병원"으로 둘다 "서울대 분당병원"이 검색된 경우, 판단하여 제 1 끝점 검출 시간을 최종 끝점 검출 시간으로 설정하여 유지한다

한편, 제 1 검색결과 및 제 2 검색결과가 존재하는 경우, 끝점 검출 시스템은은 제 1 검색결과와 제 2 검색결과를 비교하고(S108), 제 1 검색결과와 제 2 검색결과가 동일하면 음성 인식이 제대로 된 것으로 판단하여 제 1 끝점 검출시간을 최종 끝점 검출 시간으로 설정하여 유지한다(S107).

한편, 제 1 검색결과와 제 2 검색결과가 상이한 경우, 끝점 검출 시스템은 제 1 검색결과 및 제 2 검색 결과를 화면에 표시하여 사용자로부터 선택을 받는다(S109). 사용자로부터 제 1 검색결과가 선택되거나 아무것도 선택되지 않은 경우, 제 1 끝점 검출시간을 최종 끝점 검출 시간으로 설정하여 유지한다(S107).

사용자로부터 제 2 검색결과가 선택된 경우, 제 2 끝점 검출시간을 최종 끝점 검출시간으로 설정하여 사용자 도메인별 데이터베이스(220)에 업데이트를 수행한다(S110).

예를 들어, 제 1 음성인식결과가 “스타벅스”이고 제 1 검색결과가 “스타벅스 강남 등 스타벅스 주변 검색 등등”이고, 제 2 음성인식결과가 “스타벅스 양재”이고 제 2 검색 결과가 “스타벅스 양재점”인 경우, 사용자가 “스타벅스 양재점”을 선택한 경우, 끝점 검출 시스템은 “스타벅스 양재점”에 적용되었던 제 2 끝점 검출 시간을 최종 끝점 검출 시간으로 설정한다.

한편, 사용자가 “스타벅스 양평점”을 발화하였는데 제 1 검색결과가 “스타벅스 강남 등 스타벅스 주변 검색 등등”이고, 제 2 음성인식결과가 “스타벅스 양재”이고 제 2 검색 결과가 “스타벅스 양재점”인 경우 사용자가 두 검색결과를 모두 선택하지 않을 수 있다. 이처럼 사용자가 제 1 검색결과 및 제 2 검색결과를 모두 선택하지 않은 경우, 기존의 최종 끝점 검출 시간으로 적용되고 있는 제 1 끝점 검출 시간을 최종 끝점 검출 시간으로 계속 설정하여 유지할 수 있다.

이처럼 본 발명은 사용자 발화의 시작과 끝점을 사용자 및 도메인별로 분류하고 능동적으로 사용자의 발화 패턴을 적용하여 정확한 음성인식 및 의도를 분석함으로써 음성인식 사용성을 향상시킬 수 있다.

또한, 기존 시스템의 경우 고정된 끝점 검출 시간을 사용함으로써 한번 설정된 끝점 검출 시간에 대한 오류가 발생하더라도 개선이 어려운 문제점을 해결할 수 있다.

이하, 도 8을 참조하여 본 발명의 실시예에 따른 입력신호 관리 방법을 구체적으로 설명하기로 한다.

먼저 끝점 검출 시스템은 사용자 발화가 입력되면 발화 내용에 도메인이 존재하는 지를 판단한다(S201). 이때, 도메인 존재여부는 사용자의 발화 또는 메뉴 선택 등을 통해 판단될 수 있다.

도메인이 존재하는 경우, 끝점 검출 시스템은 도메인 디폴트로 판단하고 표 1에서와 같이 제 1 끝점 검출시간을 디폴트(1000ms)로 설정하고(S202), 첫번째 발화시 1000ms를 적용하여 음성신호를 검출함으로써 도메인이 파악된 후 두번째 발화가 입력되면 식별된 사용자의 도메인별 데이터베이스(220)를 통해 제 1 끝점 검출시간 및 제 2 끝점 검출시간을 설정한다(S203).

한편 상기 과정 S201에서 도메인이 존재하지 않는 경우에도 식별된 사용자의 도메인별 데이터베이스(220)를 통해 제 1 끝점 검출시간 및 제 2 끝점 검출시간을 설정한다(S203).

이와 같이, 본 발명은 사용자 음성신호가 입력되다가 묵음 또는 잡음만 들어오는 경우에 끝점 검출 시간을 다중으로 설정하여 서로 다른 다중의 입력신호를 확보하고 그 다중 입력신호를 바탕으로 음성인식을 수행한 인식결과에 대해 검색결과 유무, 다중의 검색결과에 따른 사용자 선택 등에 따라서 사용자 및 도메인 별 가변적으로 사용자에 따른 최적의 끝점 검출 시간을 적용하여 인식 성능을 향상시킨다.

도 9는 본 발명의 실시예에 따른 끝점 검출 방법을 적용한 컴퓨터 시스템의 구성도이다.

도 9를 참조하면, 컴퓨팅 시스템(1000)은 버스(1200)를 통해 연결되는 적어도 하나의 프로세서(1100), 메모리(1300), 사용자 인터페이스 입력 장치(1400), 사용자 인터페이스 출력 장치(1500), 스토리지(1600), 및 네트워크 인터페이스(1700)를 포함할 수 있다.

프로세서(1100)는 중앙 처리 장치(CPU) 또는 메모리(1300) 및/또는 스토리지(1600)에 저장된 명령어들에 대한 처리를 실행하는 반도체 장치일 수 있다. 메모리(1300) 및 스토리지(1600)는 다양한 종류의 휘발성 또는 불휘발성 저장 매체를 포함할 수 있다. 예를 들어, 메모리(1300)는 ROM(Read Only Memory) 및 RAM(Random Access Memory)을 포함할 수 있다.

따라서, 본 명세서에 개시된 실시예들과 관련하여 설명된 방법 또는 알고리즘의 단계는 프로세서(1100)에 의해 실행되는 하드웨어, 소프트웨어 모듈, 또는 그 2 개의 결합으로 직접 구현될 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 착탈형 디스크, CD-ROM과 같은 저장 매체(즉, 메모리(1300) 및/또는 스토리지(1600))에 상주할 수도 있다.

예시적인 저장 매체는 프로세서(1100)에 커플링되며, 그 프로세서(1100)는 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있다. 다른 방법으로, 저장 매체는 프로세서(1100)와 일체형일 수도 있다. 프로세서 및 저장 매체는 주문형 집적회로(ASIC) 내에 상주할 수도 있다. ASIC는 사용자 단말기 내에 상주할 수도 있다. 다른 방법으로, 프로세서 및 저장 매체는 사용자 단말기 내에 개별 컴포넌트로서 상주할 수도 있다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다.

따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

100 : 프로세서
200 : 데이터베이스
300 : 디스플레이부
110 : 입력신호 관리부
120 : 음성 검출부
130 : 음성 인식부
140 : 음성 인식 결과 관리부
150 : 끝점 검출 관리부

Claims

사용자 발화의 끝점 검출을 위한 끝점 검출 시간을 사용자별 및 사용자의 발화의 범주인 도메인별로 다르게 설정하여 음성인식을 수행하는 프로세서; 및
상기 프로세서에 의한 음성 인식을 위한 데이터를 저장하는 데이터베이스를 포함하고,
상기 프로세서는,
상기 사용자 발화 시 사용자 및 도메인을 식별하고, 상기 데이터베이스에 저장되어 있는 사용자마다 설정된 도메인별 제 1 끝점 검출 시간 및 제 2 끝점 검출시간을 적용하는 것을 특징으로 하는 끝점 검출 시스템.
청구항 1에 있어서,
상기 프로세서에 의한 음성인식 결과를 화면에 표시하는 디스플레이부
를 더 포함하는 것을 특징으로 하는 끝점 검출 시스템.
청구항 1에 있어서,
상기 데이터베이스는,
음성인식을 위한 데이터를 저장하는 음성인식 데이터베이스; 및
상기 사용자별 및 도메인별 끝점 검출 시간 정보를 저장하는 끝점검출 데이터베이스;
를 포함하는 것을 특징으로 하는 끝점 검출 시스템.
청구항 2에 있어서,
상기 프로세서는,
발화에 대한 사용자 및 도메인을 식별하여 사용자별 또는 도메인별 설정된 끝점 검출 시간을 적용하는 입력신호 관리부;
상기 사용자별 또는 도메인별 설정된 끝점 검출 시간을 적용하여 사용자가 발화한 음성신호를 검출하는 음성 검출부;
상기 검출된 음성신호에 대해 음성 인식을 수행하는 음성 인식부;
상기 음성인식 결과에 대한 검색을 수행하여 검색 결과를 출력하는 음성 인식 결과 관리부; 및
상기 검색 결과에 따라 끝점 검출 시간 설정을 유지 또는 수정하는 끝점 검출 관리부;
를 포함하는 것을 특징으로 하는 끝점 검출 시스템.
삭제
청구항 1에 있어서,
상기 제 1 끝점 검출시간은 상기 제 2 끝점 검출시간보다 짧게 설정되는 것을 특징으로 하는 끝점 검출 시스템.
청구항 4에 있어서,
상기 입력신호 관리부는,
상기 발화 대상인 사용자를 식별하는 사용자 식별부;
상기 발화된 음성신호에 대한 도메인을 식별하거나, 미리 정한 도메인 메뉴를 통해 상기 도메인을 식별하는 도메인 식별부;
식별된 사용자와 식별된 도메인 정보를 이용하여 사용자별로 저장된 도메인별 끝점 검출 시간을 설정하는 다중 끝점 검출시간 설정부
를 포함하는 것을 특징으로 하는 끝점 검출 시스템.
청구항 7에 있어서,
상기 음성 검출부는,
상기 제 1 끝점 검출 시간을 적용하여 제 1 음성신호를 검출하고, 상기 제 2 끝점 검출 시간을 적용하여 제 2 음성신호를 검출하는 것을 특징으로 하는 끝점 검출 시스템.
청구항 8에 있어서,
상기 음성 인식부는,
상기 제 1 음성신호에 대한 음성인식을 수행하여 제 1 음성인식결과를 출력하고 상기 제 2 음성신호에 대한 음성인식을 수행하여 제 2 음성인식결과를 출력하는 것을 특징으로 하는 끝점 검출 시스템.
청구항 9에 있어서,
상기 음성인식 결과 관리부는,
상기 제 1 음성인식결과 및 상기 제 2 음성인식결과에 대해 상기 데이터베이스를 통해 검색을 수행하여 제 1 검색 결과 및 제 2 검색결과를 출력하는 것을 특징으로 하는 끝점 검출 시스템.
청구항 10에 있어서,
상기 끝점 검출 관리부는,
상기 제 1 음성인식결과 및 상기 제 2 음성인식결과 각각에 대한 검색결과가 존재하지 않는 경우, 상기 제 1 끝점 검출 시간을 최종 끝점 검출 시간으로 설정하는 것을 특징으로 하는 끝점 검출 시스템.
청구항 10에 있어서,
상기 끝점 검출 관리부는,
상기 제 1 검색 결과 및 상기 제 2 검색결과를 비교하여, 일치하는 경우, 상기 제 1 끝점 검출 시간을 최종 끝점 검출 시간으로 설정하는 것을 특징으로 하는 끝점 검출 시스템.
청구항 10에 있어서,
상기 끝점 검출 관리부는,
상기 제 1 검색결과 및 상기 제 2 검색결과를 비교하여 일치하지 않는 경우, 상기 제 1 검색결과 및 상기 제 2 검색결과 중 하나를 사용자로부터 선택받는 것을 특징으로 하는 끝점 검출 시스템.
청구항 13에 있어서,
상기 끝점 검출 관리부는,
상기 제 1 검색결과 및 상기 제 2 검색결과 중 상기 제 1 검색결과가 선택되면 상기 제 1 끝점 검출 시간을 최종 끝점 검출 시간으로 설정하고,
상기 제 2 검색결과가 선택되면 상기 제 2 끝점 검출 시간을 상기 최종 끝점 검출 시간으로 설정하는 것을 특징으로 하는 끝점 검출 시스템.
사용자 발화에 대한 사용자 및 사용자의 발화의 범주인 도메인을 식별하여 미리 정한 사용자별 또는 도메인별 끝점 검출 시간 데이터베이스를 이용하여 사용자별 또는 도메인별 설정된 끝점 검출 시간을 설정하는 입력신호 관리부;
상기 사용자별 또는 도메인별 설정된 복수개의 끝점 검출 시간을 적용하여 사용자가 발화한 음성신호를 각각 검출하는 음성 검출부;
상기 검출된 각각의 음성신호에 대해 음성 인식을 각각 수행하는 음성 인식부;
상기 각각의 음성인식 결과에 대한 검색을 수행하여 각각의 검색 결과를 출력하는 음성 인식 결과 관리부; 및
상기 각각의 검색결과에 따라 끝점 검출 시간 설정을 유지 또는 수정하는 끝점 검출 관리부;
를 포함하고
상기 끝점 검출 관리부는,
상기 사용자 발화 시 사용자 및 도메인을 식별하고, 상기 데이터베이스에 저장되어 있는 사용자마다 설정된 도메인별 제 1 끝점 검출 시간 및 제 2 끝점 검출시간을 적용하는 것을 특징으로 하는 것을 특징으로 하는 끝점 검출 장치.
청구항 15에 있어서,
상기 끝점 검출 관리부는,
상기 각각의 검색결과를 비교하여 일치하는 경우, 기 설정되어 있는 끝점 검출 시간 설정을 유지하고, 일치하지 않는 경우, 상기 끝점 검출 시간 설정을 수정하는 것을 특징으로 하는 끝점 검출 장치.
사용자 발화에 대한 사용자 및 사용자의 발화의 범주인 도메인을 식별하여 미리 정한 사용자별 또는 도메인별 끝점 검출 시간 데이터베이스를 이용하여 사용자별 또는 도메인별 설정된 끝점 검출 시간을 설정하는 단계;
상기 사용자별 또는 도메인별 설정된 복수개의 끝점 검출 시간을 적용하여 사용자가 발화한 음성신호를 각각 검출하는 단계;
상기 검출된 각각의 음성신호에 대해 음성 인식을 각각 수행하는 단계;
상기 각각의 음성인식 결과에 대한 검색을 수행하여 각각의 검색 결과를 출력하는 단계; 및
상기 각각의 검색결과에 따라 끝점 검출 시간 설정을 유지 또는 수정하는 단계를 포함하고,
상기 사용자별 또는 도메인별 설정된 끝점 검출 시간을 설정하는 단계는,
상기 사용자 발화 시 사용자 및 도메인을 식별하고, 상기 도메인별 끝점 검출 시간 데이터베이스에 저장되어 있는 사용자마다 설정된 도메인별 제 1 끝점 검출 시간 및 제 2 끝점 검출시간을 적용하는 것을 특징으로 하는 것을 특징으로 하는 끝점 검출방법.
청구항 17에 있어서,
상기 끝점 검출 시간 설정을 유지 또는 수정하는 단계는,
상기 각각의 검색결과를 비교하여 일치하는 경우, 기 설정되어 있는 끝점 검출 시간 설정을 유지하는 것을 특징으로 하는 끝점 검출방법.
청구항 18에 있어서,
상기 끝점 검출 시간 설정을 유지 또는 수정하는 단계는,
상기 각각의 검색결과를 비교하여 일치하지 않는 경우, 상기 끝점 검출 시간 설정을 수정하는 것을 특징으로 하는 끝점 검출방법.