KR102441063B1 - 끝점 검출 장치, 그를 포함한 시스템 및 그 방법 - Google Patents

끝점 검출 장치, 그를 포함한 시스템 및 그 방법 Download PDF

Info

Publication number
KR102441063B1
KR102441063B1 KR1020170070895A KR20170070895A KR102441063B1 KR 102441063 B1 KR102441063 B1 KR 102441063B1 KR 1020170070895 A KR1020170070895 A KR 1020170070895A KR 20170070895 A KR20170070895 A KR 20170070895A KR 102441063 B1 KR102441063 B1 KR 102441063B1
Authority
KR
South Korea
Prior art keywords
endpoint detection
user
detection time
domain
voice recognition
Prior art date
Application number
KR1020170070895A
Other languages
English (en)
Other versions
KR20180133703A (ko
Inventor
이경철
조재민
Original Assignee
현대자동차주식회사
기아 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 현대자동차주식회사, 기아 주식회사 filed Critical 현대자동차주식회사
Priority to KR1020170070895A priority Critical patent/KR102441063B1/ko
Priority to US15/810,838 priority patent/US10475441B2/en
Priority to CN201711162710.4A priority patent/CN109003626B/zh
Publication of KR20180133703A publication Critical patent/KR20180133703A/ko
Application granted granted Critical
Publication of KR102441063B1 publication Critical patent/KR102441063B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Abstract

본 발명은 끝점 검출 장치, 그를 포함한 시스템 및 그 방법에 관한 것으로, 본 발명의 실시예에 따른 끝점 검출 시스템은 사용자 발화의 끝점 검출을 위한 끝점 검출 시간을 사용자별 및 도메인별로 다르게 설정하여 음성인식을 수행하는 프로세서; 및 상기 프로세서에 의한 음성 인식을 위한 데이터를 저장하는 데이터 베이스를 포함할 수 있다.

Description

끝점 검출 장치, 그를 포함한 시스템 및 그 방법{Apparatus for detecting adaptive end-point, system having the same and method thereof}
본 발명은 끝점 검출 장치, 그를 포함한 시스템 및 그 방법에 관한 것으로, 보다 상세하게는 음성 인식 시 끝점 검출 시간을 가변적으로 적용하여 음성 인식 성능을 향상시킬 수 있는 기술에 관한 것이다.
스마트 폰(smart phone) 또는 태블릿(tablet) PC 등과 같은 다양한 유형의 전자 장치는, 사용자가 마이크를 통해 입력하는 음성 신호를 인식할 수 있으며, 음성 신호가 사전에 설정된 키워드(keyword)인지를 판별한다.
이러한 음성 신호 인식을 위해 종래에는 사용자의 음성인식 시작을 인지하고 입력신호가 지속적으로 들어오다가 일정 시간 동안(끝점 검출 시간, 예컨데, 1초) 묵음 또는 잡음만 포함된 신호가 유지되면 더 이상 사용자 음성인식 입력되지 않을 것으로 판단하여 음성신호의 입력을 중단하고 해당 데이터에 대한 사용자의 특정패턴 등을 분석하여 인식결과를 도출한다.
그런데, 끝점 검출을 위한 시간을 너무 짧게 설정할 경우 사용자의 발화 내용의 뒷부분 일부가 생략되어 인식결과를 정상적으로 도출할 수 없을 경우가 발생하며 끝점 검출을 위한 시간을 너무 길게 설정할 경우는 인식시간이 늘어나거나 입력 데이터가 없는 묵음 구간에 들어온 잡음으로 인해 오인식이 발생할 가능성이 높아진다.
이에 정확한 음성인식을 위해 끝점 검출 시간을 정확히 결정하는 것이 중요하다.
본 발명의 실시예는 음성 인식 시 끝점 검출 시간을 가변적으로 적용하여 음성인식 성능을 향상시킬 수 있는 끝점 검출 장치, 그를 포함한 시스템 및 그 방법을 제공하고자 한다.
본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재들로부터 당업자에게 명확하게 이해될 수 있을 것이다.
본 발명의 실시예에 따른 끝점 검출 시스템은 사용자 발화의 끝점 검출을 위한 끝점 검출 시간을 사용자별 및 도메인별로 다르게 설정하여 음성인식을 수행하는 프로세서; 및 상기 프로세서에 의한 음성 인식을 위한 데이터를 저장하는 데이터 베이스를 포함할 수 있다.
일 실시예에서, 상기 프로세서에 의한 음성인식 결과를 화면에 표시하는 디스플레이부를 더 포함할 수 있다.
일 실시예에서, 상기 데이터베이스는, 음성인식을 위한 데이터를 저장하는 음성인식 데이터베이스; 및 상기 사용자별 및 도메인별 끝점 검출 시간 정보를 저장하는 끝점검출 데이터베이스;를 포함할 수 있다.
일 실시예에서, 상기 프로세서는, 발화에 대한 사용자 및 도메인을 식별하여 사용자별 또는 도메인별 설정된 끝점 검출 시간을 적용하는 입력신호 관리부; 상기 사용자별 또는 도메인별 설정된 끝점 검출 시간을 적용하여 사용자가 발화한 음성신호를 검출하는 음성 검출부; 상기 검출된 음성신호에 대해 음성 인식을 수행하는 음성 인식부; 상기 음성인식 결과에 대한 검색을 수행하여 검색 결과를 출력하는 음성 인식 결과 관리부; 및 상기 검색결과에 따라 끝점 검출 시간 설정을 유지 또는 수정하는 끝점 검출 관리부;를 포함할 수 있다.
일 실시예에서, 상기 입력신호 관리부는, 상기 사용자 발화 시 사용자 및 도메인을 식별하고, 상기 데이터베이스에 저장되어 있는 사용자마다 설정된 도메인별 제 1 끝점 검출 시간 및 제 2 끝점 검출시간을 적용할 수 있다.
일 실시예에서, 상기 제 1 끝점 검출시간은 상기 제 2 끝점 검출시간보다 짧게 설정될 수 있다.
일 실시예에서, 상기 입력신호 관리부는, 상기 발화 대상인 사용자를 식별하는 사용자 식별부; 상기 발화된 음성신호에 대한 도메인을 식별하거나, 미리 정한 도메인 메뉴를 통해 상기 도메인을 식별하는 도메인 식별부; 식별된 사용자와 식별된 도메인 정보를 이용하여 사용자별로 저장된 도메인별 끝점 검출 시간을 설정하는 다중 끝점 검출시간 설정부를 포함할 수 있다.
일 실시예에서, 상기 음성 검출부는, 상기 제 1 끝점 검출 시간을 적용하여 제 1 음성신호를 검출하고, 상기 제 2 끝점 검출 시간을 적용하여 제 2 음성신호를 검출하는 포함할 수 있다.
일 실시예에서, 상기 음성 인식부는, 상기 제 1 음성신호에 대한 음성인식을 수행하여 제 1 음성인식결과를 출력하고 상기 제 2 음성신호에 대한 음성인식을 수행하여 제 2 음성인식결과를 출력하는 포함할 수 있다.
일 실시예에서, 상기 음성인식 결과 관리부는, 상기 제 1 음성인식결과 및 상기 제 2 음성인식결과에 대해 상기 데이터베이스를 통해 검색을 수행하여 제 1 검색 결과 및 제 2 검색결과를 출력할 수 있다.
일 실시예에서, 상기 끝점 검출 관리부는, 상기 제 1 음성인식결과 및 상기 제 2 음성인식결과 각각에 대한 검색결과가 존재하지 않는 경우, 상기 제 1 끝점 검출 시간을 최종 끝점 검출 시간으로 설정하는 포함할 수 있다.
일 실시예에서, 상기 끝점 검출 관리부는, 상기 제 1 검색 결과 및 상기 제 2 검색결과를 비교하여, 일치하는 경우, 상기 제 1 끝점 검출 시간을 최종 끝점 검출 시간으로 설정하는 포함할 수 있다.
일 실시예에서, 상기 끝점 검출 관리부는, 상기 제 1 검색결과 및 상기 제 2 검색결과를 비교하여 일치하지 않는 경우, 상기 제 1 검색결과 및 상기 제 2 검색결과 중 하나를 사용자로부터 선택받을 수 있다.
일 실시예에서, 상기 끝점 검출 관리부는, 상기 제 1 검색결과 및 상기 제 2 검색결과 중 상기 제 1 검색결과가 선택되면 상기 제 1 끝점 검출 시간을 상기 최종 끝점 검출시간으로 설정하고, 상기 제 2 검색결과가 선택되면 상기 제 2 끝점 검출 시간을 상기 최종 끝점 검출 시간으로 설정할 수 있다.
본 발명의 실시예에 따른 끝점 검출 장치는 사용자 발화에 대한 사용자 및 도메인을 식별하여 미리 정한 사용자별 또는 도메인별 끝점 검출 시간 데이터베이스를 이용하여 사용자별 또는 도메인별 설정된 끝점 검출 시간을 설정하는 입력신호 관리부; 상기 사용자별 또는 도메인별 설정된 복수개의 끝점 검출 시간을 적용하여 사용자가 발화한 음성신호를 각각 검출하는 음성 검출부; 상기 검출된 각각의 음성신호에 대해 음성 인식을 각각 수행하는 음성 인식부; 상기 각각의 음성인식 결과에 대한 검색을 수행하여 각각의 검색 결과를 출력하는 음성 인식 결과 관리부; 및 상기 각각의 검색결과에 따라 끝점 검출 시간 설정을 유지 또는 수정하는 끝점 검출 관리부;를 포함할 수 있다.
일 실시예에서, 상기 끝점 검출 관리부는, 상기 각각의 검색결과를 비교하여 일치하는 경우, 기 설정되어 있는 끝점 검출 시간 설정을 유지하고, 일치하지 않는 경우, 상기 끝점 검출 시간 설정을 수정할 수 있다.
본 발명의 실시예에 따른 끝점 검출 방법은 사용자 발화에 대한 사용자 및 도메인을 식별하여 미리 정한 사용자별 또는 도메인별 끝점 검출 시간 데이터베이스를 이용하여 사용자별 또는 도메인별 설정된 끝점 검출 시간을 설정하는 단계; 상기 사용자별 또는 도메인별 설정된 복수개의 끝점 검출 시간을 적용하여 사용자가 발화한 음성신호를 각각 검출하는 단계; 상기 검출된 각각의 음성신호에 대해 음성 인식을 각각 수행하는 단계; 상기 각각의 음성인식 결과에 대한 검색을 수행하여 각각의 검색 결과를 출력하는 단계; 및 상기 각각의 검색결과에 따라 끝점 검출 시간 설정을 유지 또는 수정하는 단계;를 포함할 수 있다.
일 실시예에서, 상기 끝점 검출 시간 설정을 유지 또는 수정하는 단계는, 상기 각각의 검색결과를 비교하여 일치하는 경우, 기 설정되어 있는 끝점 검출 시간 설정을 유지하는 포함할 수 있다.
일 실시예에서, 상기 끝점 검출 시간 설정을 유지 또는 수정하는 단계는, 상기 각각의 검색결과를 비교하여 일치하지 않는 경우, 상기 끝점 검출 시간 설정을 수정할 수 있다.
본 기술은 전자 장치의 음성 인식을 위한 끝점 검출 시점을 가변적으로 적용하여 음성 인식 성능을 향상시킬 수 있다.
도 1은 본 발명의 실시예에 따른 끝점 검출 시스템의 구성도이다.
도 2는 도 1의 입력신호 관리부의 세부 구성도이다.
도 3은 본 발명의 실시예에 따른 끝점 검출 시간을 설명하기 위한 도면이다.
도 4는 도 1의 음성인식부의 세부 구성도이다.
도 5는 도 1의 음성인식 결과 관리부의 세부 구성도이다.
도 6은 도 1의 끝점 검출 관리부의 세부 구성도이다.
도 7은 본 발명의 실시예에 따른 끝점 검출 방법을 나타내는 순서도이다.
도 8은 본 발명의 실시예에 따른 입력신호 관리 방법을 나타내는 순서도이다.
도 9는 본 발명의 실시예에 따른 끝점 검출 방법을 적용한 컴퓨터 시스템의 구성도이다.
이하, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명의 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 실시예에 대한 이해를 방해한다고 판단되는 경우에는 그 상세한 설명은 생략한다.
본 발명의 실시예의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 또한, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 도 1 내지 도 9를 참조하여, 본 발명의 실시예들을 구체적으로 설명하기로 한다.
도 1은 본 발명의 실시예에 따른 끝점 검출 시스템의 구성도이다.
본 발명의 실시예에 따른 끝점 검출 시스템은 프로세서(100) 및 데이터 베이스(200), 디스플레이부(300)를 포함한다.
프로세서(100)는 사용자 발화의 끝점 검출을 위한 끝점 검출 시간을 사용자별 및 도메인별로 다르게 설정하여 음성인식을 수행하고 음성인식 수행결과에 따라 끝점 검출 시간을 유지 또는 수정한다. 이를 위해, 프로세서(100)는 입력신호 관리부(110), 음성 검출부(120), 음성 인식부(130), 음성인식 결과 관리부(140), 끝점검출 관리부(150)를 포함한다.
입력신호 관리부(110)는 발화에 대한 사용자 및 도메인을 식별하여 사용자별 또는 도메인별 설정된 끝점 검출 시간을 적용한다. 즉, 입력신호 관리부(110)는 사용자 발화 시 사용자 및 도메인을 식별하고, 데이터베이스(200)에 저장되어 있는 사용자마다 설정된 도메인별 제 1 끝점 검출 시간 및 제 2 끝점 검출시간을 설정한다.
도 2는 도 1의 입력신호 관리부(110)의 세부 구성도이다. 도 2를 참조하면, 입력신호 관리부(110)는 사용자 식별부(111), 도메인 식별부(112), 다중 끝점 검출 시간 설정부(113)를 포함한다.
사용자 식별부(111)는 발화 대상인 사용자를 식별한다. 이때, 사용자 식별은 음성인식, 동공인식 등 통상의 기술을 이용하여 수행할 수 있다.
도메인 식별부(112)는 발화된 음성신호에 대한 도메인을 식별하거나, 미리 정한 도메인 메뉴를 통해 도메인을 식별할 수 있다. 예를 들어, POI(Point Of Interest) 관련 음성인식을 하는 경우, 사용자가 네비게이션 메뉴에 접속한 상태에서 음성인식을 수행하는 경우, 도메인이 POI 관련인 것으로 판단될 수 있다.
다중 끝점 검출 시간 설정부(113)는 식별된 사용자와 식별된 도메인 정보를 이용하여 사용자별로 저장된 도메인별 끝점 검출 시간을 설정한다. 이때, 최초 발화시에는 디폴트로 끝점 검출 시간을 적용할 수 있다.
도 3 및 표 1을 이용하여 끝점 검출시간과 도메인 항목을 설명하기로 한다.
도 3은 본 발명의 실시예에 따른 끝점 검출 시간을 설명하기 위한 도면이다. 도 3을 참조하면, 제 1 끝점 검출시간(EPD t1)은 제 2 끝점 검출시간(EPD t2)보다 짧게 설정된다. 도 3 및 표 1에서는 2개의 끝점 검출시간의 예를 개시하고 있으나, 끝점 검출시간의 개수는 2개로 한정되지 않고 2개 이상 복수개로 설정될 수 있다.
Figure 112017054207033-pat00001
표 1을 참조하면, 도메인은 디폴트(Global), 내부 단순 명령, POI나 주소정보, 단문문자메시지(SMS) 등으로 구분될 수 있다. 디폴트는 도메인을 알 수 없는 일반적인 상황으로서 제 1 끝점 검출시간(EPD Time1)은 1000ms로 설정하고 제 2 끝점 검출시간 (EPD Time2)은 1000ms+a로 설정될 수 있다. 또한 비교적 발화내용이 짧은 내부 명령어 등의 경우 제 1 끝점 검출시간(EPD Time1)은 다소 짧은 800ms로 설정하고 제 2 끝점 검출시간(EPD Time2)은 800ms+a로 설정하도록 한다. 단문 문자 서비스의 경우 문자 내용이 길 수 있으므로 제 1 끝점 검출시간(EPD Time1)은 다소 짧은 1300ms로 설정하고 제 2 끝점 검출시간(EPD Time2)은 1300ms+a로 설정하도록 한다.
이어 도 1을 참조하여 본 발명의 실시예에 따른 끝점 검출 시스템의 구성을 이어서 계속 설명하면, 음성 검출부(120)는 사용자별 또는 도메인별 설정된 끝점 검출 시간을 적용하여 사용자가 발화한 음성신호를 검출한다. 즉 음성 검출부(120)는 제 1 끝점 검출 시간을 적용하여 제 1 음성신호를 검출하고, 제 2 끝점 검출 시간을 적용하여 제 2 음성신호를 검출한다.
음성 인식부(130)는 검출된 음성신호에 대해 음성 인식을 수행한다. 즉, 음성 인식부(130)는 제 1 음성신호에 대한 음성인식을 수행하여 제 1 음성인식결과를 출력하고 제 2 음성신호에 대한 음성인식을 수행하여 제 2 음성인식결과를 출력한다.
도 4는 도 1의 음성 인식부(130)의 세부 구성도이다. 도 4를 참조하면, 음성 인식부(130)는 문자 인식 엔진(131), 자연어 인식엔진(132), 특징 추출부(133), 핵심어 검출부(134)를 포함한다.
문자 인식 엔진(131)는 연속으로 입력되는 제 1 음성신호 및 제 2 음성신호에 대해 문자 인식을 수행하고, 자연어 인식엔진(132)은 자연어를 인식하고, 특징 추출부(133)는 음성인식을 위한 특징부를 추출한다. 이어, 핵심어 검출부(134)는 인식된 결과로부터 핵심어 또는 주제어를 검출한다. 이때, 음성 인식부(130)는 통상의 음성인식 기술을 이용하여 음성 인식을 수행할 수 있다.
도 1의 음성인식 결과 관리부(140)는 제 1 음성인식결과 및 제 2 음성인식결과에 대해 음성인식 데이터베이스(210)를 통해 검색을 수행하여 제 1 검색 결과 및 제 2 검색결과를 출력한다. 도 5는 도 1의 음성인식 결과 관리부(140)의 세부 구성도이다. 음성인식 결과 관리부(140)는 검색부(141) 및 검색결과 표시 제어부(142)를 포함한다.
검색부(141)는 음성 인식부(130)에서 인식된 제 1 음성 인식 결과 및 제 2 음성 인식 결과에 대해 음성인식 데이터베이스(210)를 통해 검색을 수행하고, 검색결과 표시 제어부(142)는 검색부(141)에서 검색된 결과를 디스플레이부(300)를 통해 화면에 표시하도록 제어한다. 이때, 검색부(141)는 내부의 음성인식 데이터베이스(210)가 아닌 외부의 서버를 통해 검색을 수행할 수도 있다. 또한, 검색부(141)는 음성인식결과에 대해 POI 기반 등 도메인별로 검색할 수 있고, 검색결과는 신뢰도가 높은 하나의 결과가 출력되거나 복수개의 후보 결과가 출력될 수 있다.
도 1의 끝점검출 관리부(150)는 검색결과에 따라 끝점 검출 시간 설정을 유지 또는 수정한다. 도 6은 도 1의 끝점 검출 관리부(150)의 세부 구성도이다. 도 6을 참조하면 끝점 검출 관리부(150)는 검색결과 판단부(151), 끝점 검출 시간 결정부(152)를 포함한다.
검색결과 판단부(151)는 제 1 검색결과와 제 2 검색결과를 비교한다.
끝점 검출 시간 결정부(152)는 제 1 음성인식결과 및 제 2 음성인식결과 각각에 대한 검색결과가 존재하지 않는 경우, 제 1 끝점 검출 시간을 최종 끝점 검출 시간으로 설정한다. 이때, 제 1 끝점 검출 시간이 항상 디폴트로 최종 끝점 검출 시간으로 설정되므로, 여기서 제 1 끝점 검출 시간을 최종 끝점 검출 시간으로 설정한다는 것은 제 1 끝점 검출 시간을 최종 끝점 검출 시간으로 유지한다는 의미를 포함할 수 있다.
끝점 검출 시간 결정부(152)는 제 1 검색 결과 및 제 2 검색결과를 비교하여, 제 1 검색 결과 및 제 2 검색결과가 일치하는 경우, 제 1 끝점 검출 시간을 최종 끝점 검출 시간으로 설정한다. 끝점 검출 시간 결정부(152)는 제 1 검색결과 및 제 2 검색결과를 비교하여 일치하지 않는 경우, 제 1 검색결과 및 제 2 검색결과 중 하나를 사용자로부터 선택받는다. 끝점 검출 시간 결정부(152)는 제 1 검색결과 및 제 2 검색결과 중 제 1 검색결과가 선택되면 제 1 끝점 검출 시간을 최종 끝점 검출시간으로 설정할 수 있다. 또한, 끝점 검출 시간 결정부(152)는 제 2 검색결과가 선택되면 제 2 끝점 검출 시간을 최종 끝점 검출 시간으로 설정할 수 있다.
도 1의 데이터베이스(200)는 프로세서에 의한 음성 인식을 위한 데이터를 저장한ㄴ다. 이를 위해, 데이터베이스(200)는 음성인식 데이터베이스(210), 사용자 도메인별 데이터베이스(220)를 포함한다.
음성인식 데이터베이스(210)는 음성인식을 위한 데이터를 저장한다. 음성 인식 데이터베이스(210)는 통상의 음성인식을 위한 데이터베이스와 동일하다.
사용자 도메인별 데이터베이스(220)는 사용자별 및 도메인별 끝점 검출 시간 정보를 저장한다. 즉 사용자 1에 대한 도메인별 데이터베이스(221), 사용자 2에 대한 도메인별 데이터베이스(222)를 포함한다. 여기서 사용자는 적어도 한명 이상을 포함할 수 있다.
디스플레이부(300)는 프로세서(100)에 의한 음성인식 결과를 화면에 표시할 수 있다. 특히 디스플레이부(300)는 제 1 검색결과 및 제 2 검색결과를 화면에 표시하여 사용자가 선택할 수 있도록 한다.
이와 같이, 본 발명은 사용자 발화에 대한 사용자 및 도메인을 식별하여 미리 정한 사용자별 또는 도메인별 끝점 검출 시간 데이터베이스를 통해 사용자별 또는 도메인별 설정된 끝점 검출 시간을 설정하고, 설정된 끝점 검출시간에 따라 사용자가 발화한 음성신호를 각각 검출하고, 음성인식을 수행한 후 음성인식 결과에 대한 검색결과에 따라 다중 끝점 검출 시간 설정을 유지 또는 수정한다. 이에, 고정된 끝점 검출 시간이 적용되는 음성인식에 비해 가변적 끝점 검출 시간을 적용함으로써 음성 인식 성능을 향상시킬 수 있다.
이하, 도 7을 참조하여 본 발명의 실시예에 따른 끝점 검출 방법을 구체적으로 설명하기로 한다.
끝점 검출 시스템은 발화 대상자인 사용자를 식별하고(S101), 식별된 사용자의 도메인별 제 1 끝점 검출 시간 및 제 2 끝점 검출 시간을 설정한다(S102).
그 후, 끝점 검출 시스템은 설정된 제 1 끝점 검출 시간 및 제 2 끝점 검출 시간을 적용하여 제 1 음성신호 및 제 2 음성신호를 검출한다(S103).
끝점 검출 시스템은 검출된 제 1 음성신호 및 제 2 음성신호로부터 음성 인식을 수행하고(S104), 제 1 음성신호에 의한 제 1 음성인식결과 및 제 2 음성신호에 의한 제 2 음성인식 결과에 대한 검색을 수행한다(S105).
이어 끝점 검출 시스템은 제 1 음성인식결과에 대한 제 1 검색결과 및 제 2 음성인식 결과에 대한 제 2 검색결과가 존재하는지를 판단하고(S106), 존재하지 않는 경우 음성인식이 올바르게 되지 않은 상태인 것으로 판단하여 제 1 끝점 검출 시간을 최종 끝점 검출 시간으로 설정하여 유지한다(S107).
이때, 검색 결과 유무의 차이가 있을 경우 즉 제 1 검색결과는 존재하나 제 2 검색결과가 존재하지 않는 경우, 검색 결과가 존재하는 제 1 끝점검출시간을 최종 끝점 검출 시간으로 적용한다
예를 들어, 제 1 끝점 검출 시간을 적용한 인식결과가 "서울대 분당병" 제 2 끝점 검출시간을 적용한 인식결과가 "서울대 분당병원"으로 둘다 "서울대 분당병원"이 검색된 경우, 판단하여 제 1 끝점 검출 시간을 최종 끝점 검출 시간으로 설정하여 유지한다
한편, 제 1 검색결과 및 제 2 검색결과가 존재하는 경우, 끝점 검출 시스템은은 제 1 검색결과와 제 2 검색결과를 비교하고(S108), 제 1 검색결과와 제 2 검색결과가 동일하면 음성 인식이 제대로 된 것으로 판단하여 제 1 끝점 검출시간을 최종 끝점 검출 시간으로 설정하여 유지한다(S107).
한편, 제 1 검색결과와 제 2 검색결과가 상이한 경우, 끝점 검출 시스템은 제 1 검색결과 및 제 2 검색 결과를 화면에 표시하여 사용자로부터 선택을 받는다(S109). 사용자로부터 제 1 검색결과가 선택되거나 아무것도 선택되지 않은 경우, 제 1 끝점 검출시간을 최종 끝점 검출 시간으로 설정하여 유지한다(S107).
사용자로부터 제 2 검색결과가 선택된 경우, 제 2 끝점 검출시간을 최종 끝점 검출시간으로 설정하여 사용자 도메인별 데이터베이스(220)에 업데이트를 수행한다(S110).
예를 들어, 제 1 음성인식결과가 “스타벅스”이고 제 1 검색결과가 “스타벅스 강남 등 스타벅스 주변 검색 등등”이고, 제 2 음성인식결과가 “스타벅스 양재”이고 제 2 검색 결과가 “스타벅스 양재점”인 경우, 사용자가 “스타벅스 양재점”을 선택한 경우, 끝점 검출 시스템은 “스타벅스 양재점”에 적용되었던 제 2 끝점 검출 시간을 최종 끝점 검출 시간으로 설정한다.
한편, 사용자가 “스타벅스 양평점”을 발화하였는데 제 1 검색결과가 “스타벅스 강남 등 스타벅스 주변 검색 등등”이고, 제 2 음성인식결과가 “스타벅스 양재”이고 제 2 검색 결과가 “스타벅스 양재점”인 경우 사용자가 두 검색결과를 모두 선택하지 않을 수 있다. 이처럼 사용자가 제 1 검색결과 및 제 2 검색결과를 모두 선택하지 않은 경우, 기존의 최종 끝점 검출 시간으로 적용되고 있는 제 1 끝점 검출 시간을 최종 끝점 검출 시간으로 계속 설정하여 유지할 수 있다.
이처럼 본 발명은 사용자 발화의 시작과 끝점을 사용자 및 도메인별로 분류하고 능동적으로 사용자의 발화 패턴을 적용하여 정확한 음성인식 및 의도를 분석함으로써 음성인식 사용성을 향상시킬 수 있다.
또한, 기존 시스템의 경우 고정된 끝점 검출 시간을 사용함으로써 한번 설정된 끝점 검출 시간에 대한 오류가 발생하더라도 개선이 어려운 문제점을 해결할 수 있다.
이하, 도 8을 참조하여 본 발명의 실시예에 따른 입력신호 관리 방법을 구체적으로 설명하기로 한다.
먼저 끝점 검출 시스템은 사용자 발화가 입력되면 발화 내용에 도메인이 존재하는 지를 판단한다(S201). 이때, 도메인 존재여부는 사용자의 발화 또는 메뉴 선택 등을 통해 판단될 수 있다.
도메인이 존재하는 경우, 끝점 검출 시스템은 도메인 디폴트로 판단하고 표 1에서와 같이 제 1 끝점 검출시간을 디폴트(1000ms)로 설정하고(S202), 첫번째 발화시 1000ms를 적용하여 음성신호를 검출함으로써 도메인이 파악된 후 두번째 발화가 입력되면 식별된 사용자의 도메인별 데이터베이스(220)를 통해 제 1 끝점 검출시간 및 제 2 끝점 검출시간을 설정한다(S203).
한편 상기 과정 S201에서 도메인이 존재하지 않는 경우에도 식별된 사용자의 도메인별 데이터베이스(220)를 통해 제 1 끝점 검출시간 및 제 2 끝점 검출시간을 설정한다(S203).
이와 같이, 본 발명은 사용자 음성신호가 입력되다가 묵음 또는 잡음만 들어오는 경우에 끝점 검출 시간을 다중으로 설정하여 서로 다른 다중의 입력신호를 확보하고 그 다중 입력신호를 바탕으로 음성인식을 수행한 인식결과에 대해 검색결과 유무, 다중의 검색결과에 따른 사용자 선택 등에 따라서 사용자 및 도메인 별 가변적으로 사용자에 따른 최적의 끝점 검출 시간을 적용하여 인식 성능을 향상시킨다.
도 9는 본 발명의 실시예에 따른 끝점 검출 방법을 적용한 컴퓨터 시스템의 구성도이다.
도 9를 참조하면, 컴퓨팅 시스템(1000)은 버스(1200)를 통해 연결되는 적어도 하나의 프로세서(1100), 메모리(1300), 사용자 인터페이스 입력 장치(1400), 사용자 인터페이스 출력 장치(1500), 스토리지(1600), 및 네트워크 인터페이스(1700)를 포함할 수 있다.
프로세서(1100)는 중앙 처리 장치(CPU) 또는 메모리(1300) 및/또는 스토리지(1600)에 저장된 명령어들에 대한 처리를 실행하는 반도체 장치일 수 있다. 메모리(1300) 및 스토리지(1600)는 다양한 종류의 휘발성 또는 불휘발성 저장 매체를 포함할 수 있다. 예를 들어, 메모리(1300)는 ROM(Read Only Memory) 및 RAM(Random Access Memory)을 포함할 수 있다.
따라서, 본 명세서에 개시된 실시예들과 관련하여 설명된 방법 또는 알고리즘의 단계는 프로세서(1100)에 의해 실행되는 하드웨어, 소프트웨어 모듈, 또는 그 2 개의 결합으로 직접 구현될 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 착탈형 디스크, CD-ROM과 같은 저장 매체(즉, 메모리(1300) 및/또는 스토리지(1600))에 상주할 수도 있다.
예시적인 저장 매체는 프로세서(1100)에 커플링되며, 그 프로세서(1100)는 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있다. 다른 방법으로, 저장 매체는 프로세서(1100)와 일체형일 수도 있다. 프로세서 및 저장 매체는 주문형 집적회로(ASIC) 내에 상주할 수도 있다. ASIC는 사용자 단말기 내에 상주할 수도 있다. 다른 방법으로, 프로세서 및 저장 매체는 사용자 단말기 내에 개별 컴포넌트로서 상주할 수도 있다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다.
따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
100 : 프로세서
200 : 데이터베이스
300 : 디스플레이부
110 : 입력신호 관리부
120 : 음성 검출부
130 : 음성 인식부
140 : 음성 인식 결과 관리부
150 : 끝점 검출 관리부

Claims (19)

  1. 사용자 발화의 끝점 검출을 위한 끝점 검출 시간을 사용자별 및 사용자의 발화의 범주인 도메인별로 다르게 설정하여 음성인식을 수행하는 프로세서; 및
    상기 프로세서에 의한 음성 인식을 위한 데이터를 저장하는 데이터베이스를 포함하고,
    상기 프로세서는,
    상기 사용자 발화 시 사용자 및 도메인을 식별하고, 상기 데이터베이스에 저장되어 있는 사용자마다 설정된 도메인별 제 1 끝점 검출 시간 및 제 2 끝점 검출시간을 적용하는 것을 특징으로 하는 끝점 검출 시스템.
  2. 청구항 1에 있어서,
    상기 프로세서에 의한 음성인식 결과를 화면에 표시하는 디스플레이부
    를 더 포함하는 것을 특징으로 하는 끝점 검출 시스템.
  3. 청구항 1에 있어서,
    상기 데이터베이스는,
    음성인식을 위한 데이터를 저장하는 음성인식 데이터베이스; 및
    상기 사용자별 및 도메인별 끝점 검출 시간 정보를 저장하는 끝점검출 데이터베이스;
    를 포함하는 것을 특징으로 하는 끝점 검출 시스템.
  4. 청구항 2에 있어서,
    상기 프로세서는,
    발화에 대한 사용자 및 도메인을 식별하여 사용자별 또는 도메인별 설정된 끝점 검출 시간을 적용하는 입력신호 관리부;
    상기 사용자별 또는 도메인별 설정된 끝점 검출 시간을 적용하여 사용자가 발화한 음성신호를 검출하는 음성 검출부;
    상기 검출된 음성신호에 대해 음성 인식을 수행하는 음성 인식부;
    상기 음성인식 결과에 대한 검색을 수행하여 검색 결과를 출력하는 음성 인식 결과 관리부; 및
    상기 검색 결과에 따라 끝점 검출 시간 설정을 유지 또는 수정하는 끝점 검출 관리부;
    를 포함하는 것을 특징으로 하는 끝점 검출 시스템.
  5. 삭제
  6. 청구항 1에 있어서,
    상기 제 1 끝점 검출시간은 상기 제 2 끝점 검출시간보다 짧게 설정되는 것을 특징으로 하는 끝점 검출 시스템.
  7. 청구항 4에 있어서,
    상기 입력신호 관리부는,
    상기 발화 대상인 사용자를 식별하는 사용자 식별부;
    상기 발화된 음성신호에 대한 도메인을 식별하거나, 미리 정한 도메인 메뉴를 통해 상기 도메인을 식별하는 도메인 식별부;
    식별된 사용자와 식별된 도메인 정보를 이용하여 사용자별로 저장된 도메인별 끝점 검출 시간을 설정하는 다중 끝점 검출시간 설정부
    를 포함하는 것을 특징으로 하는 끝점 검출 시스템.
  8. 청구항 7에 있어서,
    상기 음성 검출부는,
    상기 제 1 끝점 검출 시간을 적용하여 제 1 음성신호를 검출하고, 상기 제 2 끝점 검출 시간을 적용하여 제 2 음성신호를 검출하는 것을 특징으로 하는 끝점 검출 시스템.
  9. 청구항 8에 있어서,
    상기 음성 인식부는,
    상기 제 1 음성신호에 대한 음성인식을 수행하여 제 1 음성인식결과를 출력하고 상기 제 2 음성신호에 대한 음성인식을 수행하여 제 2 음성인식결과를 출력하는 것을 특징으로 하는 끝점 검출 시스템.
  10. 청구항 9에 있어서,
    상기 음성인식 결과 관리부는,
    상기 제 1 음성인식결과 및 상기 제 2 음성인식결과에 대해 상기 데이터베이스를 통해 검색을 수행하여 제 1 검색 결과 및 제 2 검색결과를 출력하는 것을 특징으로 하는 끝점 검출 시스템.
  11. 청구항 10에 있어서,
    상기 끝점 검출 관리부는,
    상기 제 1 음성인식결과 및 상기 제 2 음성인식결과 각각에 대한 검색결과가 존재하지 않는 경우, 상기 제 1 끝점 검출 시간을 최종 끝점 검출 시간으로 설정하는 것을 특징으로 하는 끝점 검출 시스템.
  12. 청구항 10에 있어서,
    상기 끝점 검출 관리부는,
    상기 제 1 검색 결과 및 상기 제 2 검색결과를 비교하여, 일치하는 경우, 상기 제 1 끝점 검출 시간을 최종 끝점 검출 시간으로 설정하는 것을 특징으로 하는 끝점 검출 시스템.
  13. 청구항 10에 있어서,
    상기 끝점 검출 관리부는,
    상기 제 1 검색결과 및 상기 제 2 검색결과를 비교하여 일치하지 않는 경우, 상기 제 1 검색결과 및 상기 제 2 검색결과 중 하나를 사용자로부터 선택받는 것을 특징으로 하는 끝점 검출 시스템.
  14. 청구항 13에 있어서,
    상기 끝점 검출 관리부는,
    상기 제 1 검색결과 및 상기 제 2 검색결과 중 상기 제 1 검색결과가 선택되면 상기 제 1 끝점 검출 시간을 최종 끝점 검출 시간으로 설정하고,
    상기 제 2 검색결과가 선택되면 상기 제 2 끝점 검출 시간을 상기 최종 끝점 검출 시간으로 설정하는 것을 특징으로 하는 끝점 검출 시스템.
  15. 사용자 발화에 대한 사용자 및 사용자의 발화의 범주인 도메인을 식별하여 미리 정한 사용자별 또는 도메인별 끝점 검출 시간 데이터베이스를 이용하여 사용자별 또는 도메인별 설정된 끝점 검출 시간을 설정하는 입력신호 관리부;
    상기 사용자별 또는 도메인별 설정된 복수개의 끝점 검출 시간을 적용하여 사용자가 발화한 음성신호를 각각 검출하는 음성 검출부;
    상기 검출된 각각의 음성신호에 대해 음성 인식을 각각 수행하는 음성 인식부;
    상기 각각의 음성인식 결과에 대한 검색을 수행하여 각각의 검색 결과를 출력하는 음성 인식 결과 관리부; 및
    상기 각각의 검색결과에 따라 끝점 검출 시간 설정을 유지 또는 수정하는 끝점 검출 관리부;
    를 포함하고
    상기 끝점 검출 관리부는,
    상기 사용자 발화 시 사용자 및 도메인을 식별하고, 상기 데이터베이스에 저장되어 있는 사용자마다 설정된 도메인별 제 1 끝점 검출 시간 및 제 2 끝점 검출시간을 적용하는 것을 특징으로 하는 것을 특징으로 하는 끝점 검출 장치.
  16. 청구항 15에 있어서,
    상기 끝점 검출 관리부는,
    상기 각각의 검색결과를 비교하여 일치하는 경우, 기 설정되어 있는 끝점 검출 시간 설정을 유지하고, 일치하지 않는 경우, 상기 끝점 검출 시간 설정을 수정하는 것을 특징으로 하는 끝점 검출 장치.
  17. 사용자 발화에 대한 사용자 및 사용자의 발화의 범주인 도메인을 식별하여 미리 정한 사용자별 또는 도메인별 끝점 검출 시간 데이터베이스를 이용하여 사용자별 또는 도메인별 설정된 끝점 검출 시간을 설정하는 단계;
    상기 사용자별 또는 도메인별 설정된 복수개의 끝점 검출 시간을 적용하여 사용자가 발화한 음성신호를 각각 검출하는 단계;
    상기 검출된 각각의 음성신호에 대해 음성 인식을 각각 수행하는 단계;
    상기 각각의 음성인식 결과에 대한 검색을 수행하여 각각의 검색 결과를 출력하는 단계; 및
    상기 각각의 검색결과에 따라 끝점 검출 시간 설정을 유지 또는 수정하는 단계를 포함하고,
    상기 사용자별 또는 도메인별 설정된 끝점 검출 시간을 설정하는 단계는,
    상기 사용자 발화 시 사용자 및 도메인을 식별하고, 상기 도메인별 끝점 검출 시간 데이터베이스에 저장되어 있는 사용자마다 설정된 도메인별 제 1 끝점 검출 시간 및 제 2 끝점 검출시간을 적용하는 것을 특징으로 하는 것을 특징으로 하는 끝점 검출방법.
  18. 청구항 17에 있어서,
    상기 끝점 검출 시간 설정을 유지 또는 수정하는 단계는,
    상기 각각의 검색결과를 비교하여 일치하는 경우, 기 설정되어 있는 끝점 검출 시간 설정을 유지하는 것을 특징으로 하는 끝점 검출방법.
  19. 청구항 18에 있어서,
    상기 끝점 검출 시간 설정을 유지 또는 수정하는 단계는,
    상기 각각의 검색결과를 비교하여 일치하지 않는 경우, 상기 끝점 검출 시간 설정을 수정하는 것을 특징으로 하는 끝점 검출방법.
KR1020170070895A 2017-06-07 2017-06-07 끝점 검출 장치, 그를 포함한 시스템 및 그 방법 KR102441063B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020170070895A KR102441063B1 (ko) 2017-06-07 2017-06-07 끝점 검출 장치, 그를 포함한 시스템 및 그 방법
US15/810,838 US10475441B2 (en) 2017-06-07 2017-11-13 Voice end-point detection device, system and method
CN201711162710.4A CN109003626B (zh) 2017-06-07 2017-11-21 语音终点检测装置、系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170070895A KR102441063B1 (ko) 2017-06-07 2017-06-07 끝점 검출 장치, 그를 포함한 시스템 및 그 방법

Publications (2)

Publication Number Publication Date
KR20180133703A KR20180133703A (ko) 2018-12-17
KR102441063B1 true KR102441063B1 (ko) 2022-09-06

Family

ID=64563695

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170070895A KR102441063B1 (ko) 2017-06-07 2017-06-07 끝점 검출 장치, 그를 포함한 시스템 및 그 방법

Country Status (3)

Country Link
US (1) US10475441B2 (ko)
KR (1) KR102441063B1 (ko)
CN (1) CN109003626B (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102429498B1 (ko) * 2017-11-01 2022-08-05 현대자동차주식회사 차량의 음성인식 장치 및 방법
JP2019101385A (ja) * 2017-12-08 2019-06-24 富士通株式会社 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
JP7251953B2 (ja) * 2018-11-19 2023-04-04 トヨタ自動車株式会社 音声認識装置、音声認識方法及び音声認識プログラム
CN112151073A (zh) * 2019-06-28 2020-12-29 北京声智科技有限公司 一种语音处理方法、系统、设备及介质
KR102396136B1 (ko) * 2020-06-02 2022-05-11 네이버 주식회사 멀티디바이스 기반 화자분할 성능 향상을 위한 방법 및 시스템
EP4156179A1 (de) * 2021-09-23 2023-03-29 Siemens Healthcare GmbH Sprachsteuerung einer medizinischen vorrichtung
WO2024010284A1 (ko) * 2022-07-06 2024-01-11 삼성전자주식회사 끝점 검출 시간 결정 방법 및 상기 방법을 수행하는 전자 장치
CN114898755B (zh) * 2022-07-14 2023-01-17 科大讯飞股份有限公司 语音处理方法及相关装置、电子设备、存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150371665A1 (en) 2014-06-19 2015-12-24 Apple Inc. Robust end-pointing of speech signals using speaker recognition
US20160358598A1 (en) * 2015-06-07 2016-12-08 Apple Inc. Context-based endpoint detection
US20170110118A1 (en) * 2015-10-19 2017-04-20 Google Inc. Speech endpointing

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5293452A (en) * 1991-07-01 1994-03-08 Texas Instruments Incorporated Voice log-in using spoken name input
JPH0772899A (ja) 1993-09-01 1995-03-17 Matsushita Electric Ind Co Ltd 音声認識装置
KR100373329B1 (ko) 1999-08-17 2003-02-25 한국전자통신연구원 음운환경과 묵음구간 길이를 이용한 텍스트/음성변환 장치 및그 방법
US9009053B2 (en) * 2008-11-10 2015-04-14 Google Inc. Multisensory speech detection
US9437186B1 (en) * 2013-06-19 2016-09-06 Amazon Technologies, Inc. Enhanced endpoint detection for speech recognition
KR101598948B1 (ko) * 2014-07-28 2016-03-02 현대자동차주식회사 음성 인식 장치, 이를 포함하는 차량 및 음성 인식 방법
KR102299330B1 (ko) 2014-11-26 2021-09-08 삼성전자주식회사 음성 인식 방법 및 그 전자 장치
US20160232897A1 (en) * 2015-02-06 2016-08-11 Microsoft Technology Licensing, Llc Adapting timeout values based on input scopes
US10269341B2 (en) * 2015-10-19 2019-04-23 Google Llc Speech endpointing
US10339918B2 (en) * 2016-09-27 2019-07-02 Intel IP Corporation Adaptive speech endpoint detector
US10430449B2 (en) * 2017-03-28 2019-10-01 Rovi Guides, Inc. Systems and methods for correcting a voice query based on a subsequent voice query with a lower pronunciation rate
US10593352B2 (en) * 2017-06-06 2020-03-17 Google Llc End of query detection

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150371665A1 (en) 2014-06-19 2015-12-24 Apple Inc. Robust end-pointing of speech signals using speaker recognition
US20160358598A1 (en) * 2015-06-07 2016-12-08 Apple Inc. Context-based endpoint detection
US20170110118A1 (en) * 2015-10-19 2017-04-20 Google Inc. Speech endpointing

Also Published As

Publication number Publication date
CN109003626B (zh) 2023-06-23
KR20180133703A (ko) 2018-12-17
CN109003626A (zh) 2018-12-14
US10475441B2 (en) 2019-11-12
US20180357999A1 (en) 2018-12-13

Similar Documents

Publication Publication Date Title
KR102441063B1 (ko) 끝점 검출 장치, 그를 포함한 시스템 및 그 방법
US10417344B2 (en) Exemplar-based natural language processing
US9767092B2 (en) Information extraction in a natural language understanding system
US9947324B2 (en) Speaker identification method and speaker identification device
CN105723449B (zh) 言语内容分析系统和言语内容分析方法
WO2018149209A1 (zh) 语音识别方法、电子设备以及计算机存储介质
US20140019131A1 (en) Method of recognizing speech and electronic device thereof
KR102348124B1 (ko) 차량의 기능 추천 장치 및 방법
JP6812843B2 (ja) 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
US9697819B2 (en) Method for building a speech feature library, and method, apparatus, device, and computer readable storage media for speech synthesis
US9734828B2 (en) Method and apparatus for detecting user ID changes
JP5824829B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP2018040906A (ja) 辞書更新装置およびプログラム
JP6495792B2 (ja) 音声認識装置、音声認識方法、プログラム
US20230410792A1 (en) Automated word correction in speech recognition systems
US11636853B2 (en) Natural language grammar improvement
US11416593B2 (en) Electronic device, control method for electronic device, and control program for electronic device
CN110945514B (zh) 用于分割句子的系统和方法
CN112863496B (zh) 一种语音端点检测方法以及装置
CN113077793B (zh) 一种语音识别方法、装置、设备及存储介质
US20230169988A1 (en) Method and apparatus for performing speaker diarization based on language identification
JP2015102805A (ja) 音声認識システム、電子装置、サーバー、音声認識方法および音声認識プログラム
US20220108699A1 (en) Speech recognition device, search device, speech recognition method, search method, and program
US11069341B2 (en) Speech correction system and speech correction method
CN108847245B (zh) 语音检测方法和装置

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant