KR101892734B1 - 음성 인식 시스템에서의 오류 수정 방법 및 그 장치 - Google Patents

음성 인식 시스템에서의 오류 수정 방법 및 그 장치 Download PDF

Info

Publication number
KR101892734B1
KR101892734B1 KR1020130001202A KR20130001202A KR101892734B1 KR 101892734 B1 KR101892734 B1 KR 101892734B1 KR 1020130001202 A KR1020130001202 A KR 1020130001202A KR 20130001202 A KR20130001202 A KR 20130001202A KR 101892734 B1 KR101892734 B1 KR 101892734B1
Authority
KR
South Korea
Prior art keywords
correct answer
answer candidate
speech recognition
correct
candidate group
Prior art date
Application number
KR1020130001202A
Other languages
English (en)
Other versions
KR20140092960A (ko
Inventor
윤승
김상훈
김정세
이수종
김기현
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020130001202A priority Critical patent/KR101892734B1/ko
Priority to US13/902,057 priority patent/US20140195226A1/en
Publication of KR20140092960A publication Critical patent/KR20140092960A/ko
Application granted granted Critical
Publication of KR101892734B1 publication Critical patent/KR101892734B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B23MACHINE TOOLS; METAL-WORKING NOT OTHERWISE PROVIDED FOR
    • B23DPLANING; SLOTTING; SHEARING; BROACHING; SAWING; FILING; SCRAPING; LIKE OPERATIONS FOR WORKING METAL BY REMOVING MATERIAL, NOT OTHERWISE PROVIDED FOR
    • B23D47/00Sawing machines or sawing devices working with circular saw blades, characterised only by constructional features of particular parts
    • B23D47/04Sawing machines or sawing devices working with circular saw blades, characterised only by constructional features of particular parts of devices for feeding, positioning, clamping, or rotating work
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B23MACHINE TOOLS; METAL-WORKING NOT OTHERWISE PROVIDED FOR
    • B23DPLANING; SLOTTING; SHEARING; BROACHING; SAWING; FILING; SCRAPING; LIKE OPERATIONS FOR WORKING METAL BY REMOVING MATERIAL, NOT OTHERWISE PROVIDED FOR
    • B23D45/00Sawing machines or sawing devices with circular saw blades or with friction saw discs
    • B23D45/04Sawing machines or sawing devices with circular saw blades or with friction saw discs with a circular saw blade or the stock carried by a pivoted lever
    • B23D45/042Sawing machines or sawing devices with circular saw blades or with friction saw discs with a circular saw blade or the stock carried by a pivoted lever with the saw blade carried by a pivoted lever
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B23MACHINE TOOLS; METAL-WORKING NOT OTHERWISE PROVIDED FOR
    • B23DPLANING; SLOTTING; SHEARING; BROACHING; SAWING; FILING; SCRAPING; LIKE OPERATIONS FOR WORKING METAL BY REMOVING MATERIAL, NOT OTHERWISE PROVIDED FOR
    • B23D45/00Sawing machines or sawing devices with circular saw blades or with friction saw discs
    • B23D45/12Sawing machines or sawing devices with circular saw blades or with friction saw discs with a circular saw blade for cutting tubes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

본 발명의 음성 인식 시스템에서의 오류 수정 방법은, 음향모델 기반의 음성 인식 오류-정답 쌍 DB를 이용하여 음성 인식 오류에 대한 제 1 정답 후보군을 탐색하는 과정과, 단어 관계 정보 DB를 이용하여 상기 음성 인식 오류에 대한 제 2 정답 후보군을 탐색하는 과정과, 사용자 오류 수정 정보 DB를 이용하여 상기 음성 인식 오류에 대한 제 3 정답 후보군을 탐색하는 과정과, 도메인 발화 패턴 DB 및 고유명사 DB를 이용하여 상기 음성 인식 오류에 대한 제 4 정답 후보군을 탐색하는 과정과, 탐색된 각 정답 후보군 내 정답 후보들을 정렬시켜 표시하는 과정을 포함할 수 있다.

Description

음성 인식 시스템에서의 오류 수정 방법 및 그 장치{METHOD AND APPARATUS FOR CORRECTING ERROR OF RECOGNITION IN SPEECH RECOGNITION SYSTEM}
본 발명은 음성 인식의 오류를 수정하는 기법에 관한 것으로, 더욱 상세하게는 음성 인식 시스템에서 음성 인식에 대한 오류가 발생할 때 해당 오류 단어에 대한 정답 후보들을 다양한 검색 DB를 적용하여 효과적으로 제공하는데 적합한 음성 인식 시스템에서의 오류 수정 방법 및 그 장치에 관한 것이다.
일반적으로, 음성 인식 시스템에 적용되는 현재의 음성 인식 기법은 기술적으로 완벽할 수 없으므로 필연적으로 인식 오류를 가지게 된다.
그러나, 기존의 음성 인식기들은 이러한 음성 인식 오류에 대해 정답 후보를 제시하지 못하거나 혹은 정답 후보를 제시하더라도 해당 음성 인식기의 디코딩 과정에서 정답일 가능성이 높았던 n-best 또는 래티스(lattice) 상의 후보를 제시하는데 그쳐 정답 후보의 제시 정확도가 떨어지게 된다는 문제가 있다.
또한, 기존의 방법은 음향 모델의 약점을 보완하는 기술이 부족하고, 연속어 음성 인식기의 경우 n-gram에 기반한 언어 모델을 채용한 데 따른 근본적인 한계를 가진다는 문제가 있다.
특히, 스마트폰 사용자가 확대되면서 다양한 사용자에 의해 다양한 영역에서 음성 인식기가 쓰이는 현실을 반영하지 못하게 됨으로써, 음성 인식의 성능 향상에 기여할 수 있는 사용자 오류 수정 정보, 도메인 정보 등을 충분히 활용하지 못한다는 점에서 역시 그 한계를 지닌다.
대한민국 공개특허 제2012-0052591호(공개일 : 2012. 05. 24.)
본 발명은 음성 인식기에서 근본적으로 발생할 수밖에 없는 음성 인식 오류에 대하여 다양한 형태의 DB 정보를 이용하여 효과적으로 대응할 수 있는 오류 탐색 기법을 제공하고자 한다.
또한, 본 발명은 음향 모델 기반의 음성 인식'오류-정답'쌍 DB, 단어 관계 정보 DB, 사용자 오류 수정 정보 DB, 도메인 발화 패턴 DB 및 고유명사 DB를 이용하여 오류 단어에 대한 정답 후보를 제시함으로써, 사용자 편의성을 높이고 손쉽게 보다 정확한 음성 인식 결과를 얻을 수 있는 오류 탐색 기법을 제공하고자 한다.
본 발명은, 일 관점에 따라, 음향모델 기반의 음성 인식 오류-정답 쌍 DB를 이용하여 음성 인식 오류에 대한 제 1 정답 후보군을 탐색하는 과정과, 단어 관계 정보 DB를 이용하여 상기 음성 인식 오류에 대한 제 2 정답 후보군을 탐색하는 과정과, 사용자 오류 수정 정보 DB를 이용하여 상기 음성 인식 오류에 대한 제 3 정답 후보군을 탐색하는 과정과, 도메인 발화 패턴 DB 및 고유명사 DB를 이용하여 상기 음성 인식 오류에 대한 제 4 정답 후보군을 탐색하는 과정과, 탐색된 각 정답 후보군 내 정답 후보들을 정렬시켜 표시하는 과정을 포함하는 음성 인식 시스템에서의 오류 수정 방법을 제공한다.
본 발명의 상기 표시하는 과정은, 상기 탐색된 각 정답 후보군 중 적어도 하나 이상의 정답 후보군에 속하는 정답 후보를 최종 정답 후보로 표시할 수 있다.
본 발명의 상기 표시하는 과정은, 상기 탐색된 각 정답 후보군에 공통으로 속하는 정답 후보만을 최종 정답 후보로 결정하여 표시할 수 있다.
본 발명의 상기 표시하는 과정은, 상기 탐색된 각 정답 후보군을 기 설정된 우선순위에 따라 정렬시켜 표시할 수 있다.
본 발명의 상기 제 1 정답 후보군을 탐색하는 과정은, 상기 음성 인식 오류-정답 쌍 DB의 검색을 통해 정답 후보군의 존재 여부를 탐색하는 과정과, 상기 정답 후보군이 존재하지 않을 때 음성 인식 오류 단어의 발음 유사도를 계산하고, 인식 사전의 단어 중 발음 유사도가 상대적으로 높은 단어를 정답 예비 후보군으로 추출하는 과정과, 상기 정답 후보군 또는 정답 예비 후보군을 상기 제 1 정답 후보군으로 결정하는 과정을 포함할 수 있다.
본 발명의 상기 발음 유사도는, 음소간의 거리 측정을 통해 계산될 수 있다.
본 발명의 상기 제 1 정답 후보군을 탐색하는 과정은, 결정된 상기 제 1 정답 후보군에 속한 정답 후보들이 다수 개일 때 정답 후보들의 개수를 기 설정된 개수로 조정하는 과정을 더 포함할 수 있다.
본 발명의 상기 제 2 정답 후보군을 탐색하는 과정은, 상기 음성 인식 오류로 인식된 단어를 제외한 나머지 단어들을 추출하는 과정과, 추출된 단어들에 의거한 상기 단어 관계 정보 DB의 검색을 통해 단어 간 의미 상관관계가 있는 단어 후보들을 추출하는 과정과, 추출된 각 단어 후보들 중 공통되는 단어를 상기 제 2 정답 후보군으로 결정하는 과정을 포함할 수 있다.
본 발명의 상기 제 2 정답 후보군을 탐색하는 과정은, 결정된 상기 제 2 정답 후보군에 속한 정답 후보들이 다수 개일 때 정답 후보들의 개수를 기 설정된 개수로 조정하는 과정을 더 포함할 수 있다.
본 발명의 상기 기 설정된 개수로의 조정은, 발음 유사도가 상대적으로 높은 단어로 제한할 수 있다.
본 발명의 상기 제 3 정답 후보군을 탐색하는 과정은, 해당 오류 단어에 대해 상기 사용자 오류 수정 정보 DB를 검색하여 정답 후보군을 탐색하는 과정과, 탐색된 정답 후보군 내 정답 후보들의 개수를 체크하는 과정과, 체크 결과, 정답 후보들의 개수가 기 설정된 개수보다 적을 때, 서버 기반의 사용자 오류 수정 정보 DB를 검색하여 정답 예비 후보군을 탐색하는 과정과, 상기 정답 후보군 또는 정답 후보군과 정답 예비 후보군의 합을 상기 제 3 정답 후보군으로 결정하는 과정을 포함할 수 있다.
본 발명의 상기 제 3 정답 후보군을 탐색하는 과정은, 결정된 상기 제 3 정답 후보군에 속한 정답 후보들이 다수 개일 때 정답 후보들의 개수를 기 설정된 개수로 조정하는 과정을 더 포함할 수 있다.
본 발명의 상기 기 설정된 개수로의 조정은, 발음 유사도, 단어 간 상관관계 정보 및 도메인 패턴 정보 중 어느 하나를 이용하여 수행될 수 있다.
본 발명의 상기 정답 예비 후보군을 탐색하는 과정은, 음성 인식기가 서버 클라이언트 방식의 인식기일 때 선택 실행될 수 있다.
본 발명의 상기 제 4 정답 후보군을 탐색하는 과정은, 상기 도메인 발화 패턴 DB를 검색하여 해당 오류 단어가 도메인 발화 패턴이 적용되는 발화인지를 체크하는 과정과, 상기 해당 오류 단어가 상기 도메인 발화 패턴에 속할 때 상기 고유명사 DB를 검색하여 정답 후보군을 추출하는 과정과, 추출된 정답 후보군을 상기 제 4 정답 후보군으로 결정하는 과정을 포함할 수 있다.
본 발명의 상기 제 4 정답 후보군을 탐색하는 과정은, 결정된 상기 제 4 정답 후보군에 속한 정답 후보들이 다수 개일 때 정답 후보들의 개수를 기 설정된 개수로 조정하는 과정을 더 포함할 수 있다.
본 발명의 상기 기 설정된 개수로의 조정은, 발음 유사도가 상대적으로 높은 단어로 제한될 수 있다.
본 발명은, 다른 관점에 따라, 음향모델 기반의 음성 인식 오류-정답 쌍 DB, 단어 관계 정보 DB, 사용자 오류 수정 정보 DB, 도메인 발화 패턴 DB 및 고유명사 DB로 구성되는 데이터베이스와, 입력되는 음성에 대한 음성 인식의 오류 여부를 검출하는 음성 인식 오류 검출 블록과, 음성 인식 오류가 검출될 때, 상기 음성 인식 오류-정답 쌍 DB를 이용하여 해당 오류 단어에 대한 제 1 정답 후보군을 결정하는 제 1 정답 후보 탐색 블록과, 상기 음성 인식 오류가 검출될 때, 상기 단어 관계 정보 DB를 이용하여 상기 해당 오류 단어에 대한 제 2 정답 후보군을 결정하는 제 2 정답 후보 탐색 블록과, 상기 음성 인식 오류가 검출될 때, 상기 사용자 오류 수정 정보 DB를 이용하여 상기 해당 오류 단어에 대한 제 3 정답 후보군을 결정하는 제 3 정답 후보 탐색 블록과, 상기 음성 인식 오류가 검출될 때, 상기 도메인 발화 패턴 DB 및 고유명사 DB를 이용하여 상기 해당 오류 단어에 대한 제 4 정답 후보군을 결정하는 제 4 정답 후보 탐색 블록과, 결정된 각 정답 후보군 내 정답 후보들을 기 설정된 조건에 따라 정렬시켜 표시하는 정답 후보 정렬 및 표시 블록을 포함하는 음성 인식 시스템에서의 오류 수정 장치를 제공한다.
본 발명의 상기 정답 후보 정렬 및 표시 블록은, 상기 결정된 각 정답 후보군 중 적어도 하나 이상의 정답 후보군에 속하는 정답 후보를 최종 정답 후보로 표시할 수 있다.
본 발명의 상기 정답 후보 정렬 및 표시 블록은, 상기 결정된 각 정답 후보군에 공통으로 속하는 정답 후보만을 최종 정답 후보로 결정하여 표시할 수 있다.
본 발명에 따르면 음향모델 기반의 음성 인식'오류-정답'쌍 DB를 활용하여 오류에 대처함으로써 해당 음성 인식기의 음향 모델이 가지는 약점을 보완할 수 있고, n-gram 기반의 연속어 음성 인식기에서 나타날 수밖에 없는 짧은 거리의 정보에만 의존하게 되는 약점을 단어 관계 정보 DB를 활용하여 보완할 수 있으며, 사용자 오류 수정 정보 DB를 활용함으로써 음성 인식기가 많이 쓰일수록 해당 음성 인식기의 약점이 보완되는 효과를 얻을 수 있고, 도메인 발화 패턴 DB 및 고유명사 DB를 채택한 인식기의 경우 미등록어에 의한 음성 인식 오류에도 효과적으로 대처할 수 있다.
또한, 본 발명은 서로 다른 DB를 이용하는 각각의 방법을 다양하게 조합되어 사용할 수 있어 다양한 정보를 통해 음성 인식 오류에 접근할 수 있도록 함으로써, 사용자에게 오류에 대한 정답을 제공할 확률을 극대화할 수 있고, 이를 통해 오류가 발생했을 경우에도 손쉽게 정확한 음성 인식 결과를 얻을 수 있어 사용자 편의성을 극대화할 수 있다.
도 1은 본 발명의 실시 예에 따른 음성 인식 시스템에서의 오류 수정 장치의 블록 구성도,
도 2는 도 1에 도시된 제 1 정답 후보 탐색 블록에 대한 세부적인 블록 구성도,
도 3은 도 1에 도시된 제 2 정답 후보 탐색 블록에 대한 세부적인 블록 구성도,
도 4는 도 1에 도시된 제 3 정답 후보 탐색 블록에 대한 세부적인 블록 구성도,
도 5는 도 1에 도시된 제 4 정답 후보 탐색 블록에 대한 세부적인 블록 구성도,
도 6은 본 발명의 실시 예에 따라 음성 인식 시스템에서 오류 수정을 수행하는 주요 과정을 도시한 순서도,
도 7은 본 발명에 따라 음성 인식 오류-정답 쌍 DB를 이용하여 정답 후보를 결정하는 주요 과정을 도시한 순서도,
도 8은 본 발명에 따라 단어 관계 정보 DB를 이용하여 정답 후보를 결정하는 주요 과정을 도시한 순서도,
도 9는 본 발명에 따라 사용자 오류 수정 정보 DB를 이용하여 정답 후보를 결정하는 주요 과정을 도시한 순서도,
도 10은 본 발명에 따라 도메인 발화 패턴 DB와 고유명사 DB를 이용하여 정답 후보를 결정하는 주요 과정을 도시한 순서도.
먼저, 본 발명의 장점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되는 실시 예들을 참조하면 명확해질 것이다. 여기에서, 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 발명의 범주를 명확하게 이해할 수 있도록 하기 위해 예시적으로 제공되는 것이므로, 본 발명의 기술적 범위는 청구항들에 의해 정의되어야 할 것이다.
아울러, 아래의 본 발명을 설명함에 있어서 공지 기능 또는 구성 등에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들인 것으로, 이는 사용자, 운용자 등의 의도 또는 관례 등에 따라 달라질 수 있음은 물론이다. 그러므로, 그 정의는 본 명세서의 전반에 걸쳐 기술되는 기술사상을 토대로 이루어져야 할 것이다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예에 대하여 상세하게 설명한다.
도 1은 본 발명의 실시 예에 따른 음성 인식 시스템에서의 오류 수정 장치의 블록 구성도로서, 크게 구분해 볼 때 음성 인식 오류 수정 모듈(110) 및 데이터베이스(120) 등을 포함할 수 있다.
도 1을 참조하면, 음성 인식 오류 수정 모듈(110)은 음성 인식 오류 검출 블록(111), 제 1 정답 후보 탐색 블록(112), 제 2 정답 후보 탐색 블록(113), 제 3 정답 후보 탐색 블록(114), 제 4 정답 후보 탐색 블록(115), 정답 후보 정렬 및 표시 블록(116) 등을 포함할 수 있고, 데이터베이스(120)는 음성 인식 오류-정답 쌍 DB(121), 단어 관계 정보 DB(122), 사용자 오류 수정 정보 DB(123), 도메인 발화 패턴 DB(124), 고유명사 DB(125), 정답 후보 DB(126) 등을 포함할 수 있다.
먼저, 음성 인식 오류 수정 모듈(110) 내 음성 인식 오류 검출 블록(111)은, 이 기술분야에 잘 알려진 통상의 오류 인식 기법을 통해, 입력되는 음성에 대한 음성 인식의 오류 여부를 검출하는 등의 기능을 제공할 수 있으며, 여기에서 검출되는 음성 인식 오류 정보는 제 1 내지 제 4 정답 후보 탐색 블록(112 - 115)으로 각각 전달될 수 있다.
다음에, 제 1 정답 후보 탐색 블록(112)은, 음성 인식 오류 검출 블록(111)으로부터 음성 인식 오류 정보가 제공될 때(즉, 음성 인식 오류가 검출될 때), 데이터베이스(120) 내 음성 인식 오류-정답 쌍 DB(121)를 이용하여 해당 오류 단어에 대한 제 1 정답 후보군을 결정(탐색)하고, 이 결정된 제 1 정답 후보군을 정답 후보 DB(126)에 저장하는 등의 기능을 제공할 수 있다. 여기에서, 제 1 정답 후보군은 적어도 하나 이상 혹은 다수의 정답 후보를 포함할 수 있다.
이때, 음성 인식기에 채용되는 음향모델은 음성 DB로부터 훈련하게 되며, 이렇게 만들어진 음향모델은 훈련에 이용된 음성 DB의 특성에 절대적으로 영향을 받게 되는데, 이 과정에서 훈련에 사용된 음성 DB에서 특정한 음소 또는 음소 연쇄가 비균형적인 통계치를 가지게 되면 해당 음소 또는 음소 연쇄체를 포함한 단어는 오류가 발생할 확률이 높아 음성 인식에 대한 성능 저하의 원인이 될 수 있다.
따라서, 본 발명은, 이러한 점을 보완하기 위하여, 먼저 음향모델 훈련에 사용되었던 음성 DB를 준비한 후 해당 음성 DB를 이를 통해 만들어진 음향모델을 음성 인식기의 입력으로 넣어 음성 인식을 시도하였다.
이와 같은 음성 인식의 실시를 통해 음향 모델의 훈련에 사용되었던 음성 DB라도 오류가 발생하게 되며, 이는 언어모델의 영향을 받은 부분을 제외하고는 음향모델 부족 또는 불균형에 따른 해당 음성 인식기의 취약점에 해당하는 부분이므로, 본 발명에서는 이에 대해'오류-정답'쌍으로 DB화하여 음성 인식 오류-정답 쌍 DB(121)에 저장한 후 정답 후보의 탐색에 이를 활용한다.
도 2는 도 1에 도시된 제 1 정답 후보 탐색 블록(112)에 대한 세부적인 블록 구성도로서, 정답 후보 탐색부(202), 정답 예비 후보 추출부(204) 및 정답 후보군 결정부(206) 등을 포함할 수 있다.
도 2을 참조하면, 정답 후보 탐색부(202)는 음성 인식 오류가 검출될 때 음성 인식 오류-정답 쌍 DB(121)의 검색을 통해 정답 후보군의 존재 여부를 탐색하는 기능을 제공할 수 있는데, 여기에서 탐색되는 정답 후보군은 1개 혹은 다수의 정답 후보들을 포함할 수 있는 것으로, 정답 후보 DB(126)에 저장된다.
다음에, 정답 예비 후보 추출부(204)는 정답 후보 탐색 블록(202)에서의 탐색 결과 정답 후보군이 존재하지 않을 때 오류 단어(음성 인식 오류 단어)의 발음 유사도를 계산하고, 인식 사전의 단어 중 발음 유사도가 상대적으로 높은 단어를 정답 예비 후보군으로 추출하는 등의 기능을 제공할 수 있는데, 여기에서 추출되는 정답 예비 후보군은 1개 혹은 다수의 정답 예비 후보들을 포함할 수 있는 것으로, 정답 후보 DB(126)에 저장된다.
그리고, 정답 후보군 결정부(206)는 정답 후보 DB(126)에 저장된 정답 후보군 또는 정답 예비 후보군을 제 1 정답 후보군으로 결정하는 등의 기능을 제공할 수 있는데, 여기에서, 발음 유사도는 음소간의 거리 측정을 통해 계산될 수 있고, 결정된 제 1 정답 후보군에 속한 정답 후보들이 다수 개일 때 정답 후보들의 개수를 기 설정된 개수로 조정할 수 있으며, 이와 같이 결정되는 제 1 정답 후보군은 정답 후보 DB(126)에 저장된다.
다시, 도 1을 참조하면, 제 2 정답 후보 탐색 블록(113)은, 음성 인식 오류 검출 블록(111)으로부터 음성 인식 오류 정보가 제공될 때(즉, 음성 인식 오류가 검출될 때), 데이터베이스(120) 내 단어 관계 정보 DB(122)를 이용하여 해당 오류 단어에 대한 제 2 정답 후보군을 결정(탐색)하고, 이 결정된 제 2 정답 후보군을 정답 후보 DB(126)에 저장하는 등의 기능을 제공할 수 있다. 여기에서, 제 2 정답 후보군은 적어도 하나 이상 혹은 다수의 정답 후보를 포함할 수 있다.
이때, 음성 인식기에는 언어모델이 필수적으로 채용되는데, 대부분의 연속어 음성 인식기는 언어모델을 말뭉치로부터 n-gram 기반으로 훈련하게 되며, 이렇게 만들어진 음성 인식기는 구축된 n-gram 통계 정보에 절대적으로 영향을 받게 된다. 그러나, n-gram 정보는 원거리 의존 관계를 반영하지 못하는 등 짧은 거리간의 관계만을 반영하게 되므로 인식된 발화의 전체적인 의미 관계는 간접적으로 밖에 반영할 수 없다는 한계가 있다.
따라서, 본 발명은, 이러한 점을 보완하기 위하여, 언어모델의 훈련을 위해 구축된 말뭉치를 준비한 후 해당 말뭉치로부터 문장 단위로 공기 정보와 같은 단어 간 의미 상관관계를 계산한 후 유의미한 단어 쌍들 단어 관계 정보 DB(122)로 저장(구축)한 후 정답 후보의 탐색에 이를 활용한다.
도 3은 도 1에 도시된 제 2 정답 후보 탐색 블록(113)에 대한 세부적인 블록 구성도로서, 이외 단어 추출부(302), 의미 상관관계 탐색부(304) 및 정답 후보군 결정부(306) 등을 포함할 수 있다.
도 3을 참조하면, 이외 단어 추출부(302)는 음성 인식 오류가 검출될 때 인식된 오류 단어를 제외한 나머지 단어들을 추출하는 등의 기능을 제공할 수 있으며, 여기에서 추출되는 나머지 단어(이외 단어)들은 의미 상관관계 탐색부(304)로 전달된다.
다음에, 의미 상관관계 탐색부(304)는 이외 단어 추출부(302)를 통해 추출된 단어들에 의거하여 단어 관계 정보 DB(122)의 검색함으로써, 단어 간 의미 상관관계가 있는 단어 후보들을 추출하는 등의 기능을 제공할 수 있다.
그리고, 정답 후보군 결정부(306)는 의미 상관관계 추출부(304)를 통해 추출된 각 단어 후보들 중 공통되는 단어를 제 2 정답 후보군으로 결정하는 등의 기능을 제공할 수 있는데, 여기에서, 결정된 제 2 정답 후보군에 속한 정답 후보들이 다수 개일 때 발음 유사도에 기반하여 정답 후보들의 개수를 기 설정된 개수로 조정(즉, 발음 유사도가 상대적으로 높은 단어를 정답 후보로 제한)할 수 있으며, 이와 같이 결정되는 제 2 정답 후보군은 정답 후보 DB(126)에 저장된다.
예컨대,'내가 밥을 먹었어'와 같은 문장을 발화하였는데'내가 바를 먹었어'로 인식되었다면, 사용자가'바를'을 선택할 경우 나머지'나'와 '먹다'에 대하여 공기하는 단어들을 검색한 후'나'및'먹다'와 공통적으로 상관관계가 있는 후보(예컨대, 밥, 빵, 라면, 음료수 등)를 정답 후보로 제시하게 되는 것이다. 이때, 기타 단어의 수가 많을 경우 일부 단어와만 의미 상관관계가 있어도 정답 후보로 인정할 수 있으며, 또한 상관관계를 어떻게 계산하느냐에 따라 조사, 보조용언, 어미 정보를 함께 활용할 수도 있다.
그리고, 정답 후보 결과에 공통적으로 상관관계가 있는 정답 후보가 많다면 기 설정된 숫자가 될 수 있도록 발음 유사도가 높은 단어로 정답 후보를 제한하여 제시할 수도 있다.
다시, 도 1을 참조하면, 제 3 정답 후보 탐색 블록(114)은, 음성 인식 오류 검출 블록(111)으로부터 음성 인식 오류 정보가 제공될 때(즉, 음성 인식 오류가 검출될 때), 데이터베이스(120) 내 사용자 오류 수정 정보 DB(123)를 이용하여 해당 오류 단어에 대한 제 3 정답 후보군을 결정(탐색)하고, 이 결정된 제 3 정답 후보군을 정답 후보 DB(126)에 저장하는 등의 기능을 제공할 수 있다. 여기에서, 제 3 정답 후보군은 적어도 하나 이상 혹은 다수의 정답 후보를 포함할 수 있다.
최근 들어, 음성 인식기의 경우 화자 독립 음성 인식 방법을 채택하고 있는 경우가 대부분인데, 경우에 따라 화자 적응 기법을 채용하고 있기도 하나 실제 성능 개선은 미미한 경우가 많다. 이 때문에 사용자가 발성한 단어에 대해 한 번 오류가 발생한 경우 해당 단어는 동일한 오류가 계속 발생하는 현상이 나타난다.
따라서, 본 발명은, 이를 보완하기 위하여, 먼저 음성 인식기 사용자 인터페이스 상에 텍스트 입력을 통한 오류 수정 도구를 제공하며, 이후 사용자가 해당 도구를 이용하여 오류를 수정하였을 경우 이를'오류-정답'쌍으로 DB화하여 사용자 오류 수정 정보 DB(123)에 저장한 후 정답 후보의 탐색에 이를 활용한다. 또한, 서버-클라이언트 방식의 음성 인식기일 경우 서버로 전송하여 다른 사용자도 활용할 수 있도록 한다.
도 4는 도 1에 도시된 제 3 정답 후보 탐색 블록(114)에 대한 세부적인 블록 구성도로서, 정답 후보 탐색부(402), 정답 예비 후보 탐색부(404) 및 정답 후보군 결정부(406) 등을 포함할 수 있다.
도 4를 참조하면, 정답 후보 탐색부(402)는 음성 인식 오류가 검출될 때 사용자 오류 수정 정보 DB(123)의 검색을 통해 정답 후보군의 존재 여부를 탐색하는 기능을 제공할 수 있는데, 여기에서 탐색되는 정답 후보군은 1개 혹은 다수의 정답 후보들을 포함할 수 있는 것으로, 정답 후보 DB(126)에 저장된다.
다음에, 정답 예비 후보 추출부(404)는 정답 후보 탐색 블록(402)에서의 탐색 결과 정답 후보군이 존재하지 않거나 혹은 기 설정된 개수보다 적은지의 여부를 체크하고, 체크 결과 정답 후보군이 존재하지 않거나 혹은 기 설정된 개수보다 적으면서 음성 인식기가 서버 클라이언트 방식의 인식기인 경우, 서버 기반의 사용자 오류 수정 정보 DB(다른 사용자의 사용자 오류 수정 정보 DB)를 검색하여 정답 예비 후보군을 추출하는 등의 기능을 제공할 수 있는데, 여기에서 추출되는 정답 예비 후보군은 1개 혹은 다수의 정답 예비 후보들을 포함할 수 있는 것으로, 정답 후보 DB(126)에 저장된다.
그리고, 정답 후보군 결정부(406)는 정답 후보 DB(126)에 저장된 정답 후보군 또는 정답 후보군과 정답 예비 후보군의 합을 제 3 정답 후보군으로 결정하는 등의 기능을 제공할 수 있는데, 여기에서, 결정된 제 3 정답 후보군에 속한 정답 후보들이 다수 개일 때 발음 유사도, 단어 간 상관관계 정보 및 도메인 패턴 정보 중 어느 하나에 의거하여 정답 후보들의 개수를 기 설정된 개수로 조정할 수 있으며, 이와 같이 결정되는 제 3 정답 후보군은 정답 후보 DB(126)에 저장된다.
다시, 도 1을 참조하면, 제 4 정답 후보 탐색 블록(115)은, 음성 인식 오류 검출 블록(111)으로부터 음성 인식 오류 정보가 제공되면(즉, 음성 인식 오류가 검출될 때), 음성 인식기가 도메인 발화 패턴 DB(124) 및 고유명사 DB(125)가 적용되는 인식기인지를 체크한 후, 적용되는 인식기일 때, 데이터베이스(120) 내 도메인 발화 패턴 DB(124)와 고유명사 DB(125)를 이용하여 해당 오류 단어에 대한 제 4 정답 후보군을 결정(탐색)하고, 이 결정된 제 4 정답 후보군을 정답 후보 DB(126)에 저장하는 등의 기능을 제공할 수 있다. 여기에서, 제 4 정답 후보군은 적어도 하나 이상 혹은 다수의 정답 후보를 포함할 수 있다.
이때, 음성 인식기의 경우 모든 단어를 인식할 수기 때문에 미등록어(Out Of Vocabulary)가 필연적으로 발생하게 되며, 이것이 음성 인식 오류의 원인이 된다.
본 발명은, 이러한 인식 오류에 대처하기 위하여, 먼저 도메인별로 고유명사 DB를 구축, 예컨대 도메인이 지역별로 특화된 인식기라면 도메인을 해당 지역으로 설정하고 해당 지역에 나타날 수 있는 POI(Point of Interest)명 등을 고유명사 DB로 구축한다. 이후, 해당 고유명사 DB가 나타날 수 있는 도메인 발화 패턴 역시 DB화한 후 정답 후보의 탐색에 이를 활용한다.
예컨대, POI명 고유명사 DB는'UCLA','헐리우드','디즈니랜드','롱비치' 등이 될 수 있고, 해당 고유명사 DB가 나타날 수 있는 도메인 발화 패턴은'~ 까지 어떻게 가나요','~ 는 어디에 있나요','~ 까지 얼마나 걸리나요'등이 그 예가 될 수 있다. 이때, 고유명사의 경우 해당 도메인을 어떻게 설정하는 가에 따라 다양한 형태(예컨대, 음식명, 인명, 상품명 등)로 실현될 수 있다.
도 5는 도 1에 도시된 제 4 정답 후보 탐색 블록(115)에 대한 세부적인 블록 구성도로서, 발화 적용 탐색부(502), 정답 후보 추출부(504) 및 정답 후보군 결정부(506) 등을 포함할 수 있다.
도 5를 참조하면, 발화 적용 탐색부(502)는 음성 인식 오류가 검출될 때 도메인 발화 패턴 DB(124)의 검색을 통해 음성 인식 오류 단어가 도메인 발화 패턴이 적용되는 발화인지의 여부를 탐색하는 등의 기능을 제공할 수 있는데, 이러한 적용 발화의 탐색 결과는 정답 후보 추출부(504)로 전달된다.
다음에, 정답 후보 추출부(504)는 발화 적용 탐색부(502)로부터 음성 인식 오류 단어가 도메인 발화 패턴에 속하는 것으로 판단되는 결과가 제공될 때 고유명사 DB(125)의 검색을 통해 정답 후보군을 추출하는 등의 기능을 제공할 수 있는데, 여기에서 추출되는 정답 후보군은 1개 혹은 다수의 정답 후보들을 포함할 수 있는 것으로, 정답 후보 DB(126)에 저장된다.
그리고, 정답 후보군 결정부(506)는 정답 후보 추출부(504)를 통해 추출된 정답 후보군을 제 4 정답 후보군으로 결정하는 등의 기능을 제공할 수 있는데, 여기에서, 결정된 제 4 정답 후보군에 속한 정답 후보들이 다수 개일 때 발음 유사도에 기반하여 정답 후보들의 개수를 기 설정된 개수로 조정(즉, 발음 유사도가 상대적으로 높은 단어를 정답 후보로 제한)할 수 있으며, 이와 같이 결정되는 제 4 정답 후보군은 정답 후보 DB(126)에 저장된다. 여기에서, 도메인 정보는 사용자 정보와 결합하여 사용될 수도 있다.
다시, 도 1을 참조하면, 정답 후보 정렬 및 표시 블록(116)은 제 1 내지 제 4 정답 후보 탐색 블록(112 - 115)을 통해 각각 결정된 각 정답 후보군(제 1 내지 제 4 정답 후보군) 내 정답 후보들을 기 설정된 조건에 따라 정렬시켜 표시(디스플레이)하는 등의 기능을 제공할 수 있는데, 이러한 정답 후보 정렬 및 표시 블록(116)은, 예컨대 결정된 각 정답 후보군 중 적어도 하나 이상의 정답 후보군에 속하는 정답 후보를 최종 정답 후보로 정렬 및 표시하거나, 결정된 각 정답 후보군에 공통으로 속하는 정답 후보만을 최종 정답 후보로 결정하여 표시하거나, 결정된 각 정답 후보군을 기 설정된 우선순위에 따라 정렬시켜 표시할 수 있다.
다음에, 상술한 바와 같은 구성을 갖는 본 발명의 오류 수정 장치를 이용하여 음성 인식 오류가 검출될 때 다양한 형태의 DB를 활용하여 오류 수정 서비스를 제공하는 일련의 과정들에 대하여 설명한다.
도 6은 본 발명의 실시 예에 따라 음성 인식 시스템에서 오류 수정을 수행하는 주요 과정을 도시한 순서도이다.
도 6을 참조하면, 음성 인식 오류 검출 블록(111)에서는 음성 인식 모드를 실행할 때(단계 602), 입력되는 음성에 대한 음성 인식의 오류 발생 여부를 검출한다(단계 604).
상기 단계(604)에서의 체크 결과, 음성 인식 오류가 발생한 것으로 판단되면, 제 1 정답 후보 탐색 블록(112)에서는 데이터베이스(120) 내 음성 인식 오류-정답 쌍 DB(121)의 검색을 통해 제 1 정답 후보군의 존재 여부를 탐색하고(단계 606, 608), 탐색 결과 제 1 정답 후보군이 존재할 때 해당 정답 후보들을 추출하여 정답 후보 DB(126)에 저장한다(단계 624). 여기에서, 제 1 정답 후보군이 존재하는 경우일 때, 제 1 정답 후보군은 적어도 하나 이상 혹은 다수의 정답 후보들을 포함할 수 있다.
도 7은 본 발명에 따라 음성 인식 오류-정답 쌍 DB를 이용하여 정답 후보를 결정하는 주요 과정(단계 606, 608)을 도시한 순서도이다.
도 7을 참조하면, 도 2의 정답 후보 탐색부(202)에서는 음성 인식 오류가 검출될 때 음성 인식 오류-정답 쌍 DB(121)을 검색하여(단계 702), 정답 후보군이 존재하는 지의 여부를 체크(탐색)하는데(단계 704), 정답 후보군이 존재할 때 처리는 후술하는 단계(710)로 진행된다.
상기 단계(704)에서의 체크 결과, 정답 후보군이 존재하지 않으면, 정답 예비 후보 추출부(204)에서는 오류 단어(음성 인식 오류 단어)의 발음 유사도를 계산하고(단계 706), 인식 사전의 단어 중 발음 유사도가 상대적으로 높은 단어를 정답 예비 후보군으로 추출(즉, 정답 예비 후보군의 존재 여부를 탐색)한다(단계 708).
이후, 정답 후보군 결정부(206)에서는 정답 후보군 또는 정답 예비 후보군 내 정답 후보들의 개수(n)가 기 설정된 개수(x)를 초과하는 지의 여부를 체크하는데(단계 710), 여기에서의 체크 결과 n이 x를 초과하지 않으면 해당 정답 후보들이 제 1 정답 후보군으로 결정되며(단계 714), 이후 처리는 도 6의 단계(624)로 진행되어 제 1 정답 후보군은 정답 후보 DB(126)에 저장한다.
상기 단계(710)에서의 체크 결과, n이 x를 초과하면, 정답 후보군 결정부(206)에서는, 예컨대 음소간의 거리 측정을 통해 계산되는 발음 유사도에 의거하여 정답 후보들의 개수를 기 설정된 개수로 조정하며(단계 712), 이와 같이 개수가 조정된 정답 후보들은 제 1 정답 후보군으로 결정된 후(단계 714), 도 6의 단계(624)로 진행되어 정답 후보 DB(126)에 저장한다.
다시, 도 6을 참조하면, 음성 인식 오류가 발생하면, 제 2 정답 후보 탐색 블록(113)에서는 데이터베이스(120) 내 단어 관계 정보 DB(122)의 검색을 통해 제 2 정답 후보군의 존재 여부를 탐색하고(단계 610, 612), 탐색 결과 제 2 정답 후보군이 존재할 때 해당 정답 후보들을 추출하여 정답 후보 DB(126)에 저장한다(단계 624). 여기에서, 제 2 정답 후보군이 존재하는 경우일 때, 제 2 정답 후보군은 적어도 하나 이상 혹은 다수의 정답 후보들을 포함할 수 있다.
도 8은 본 발명에 따라 단어 관계 정보 DB를 이용하여 정답 후보를 결정하는 주요 과정(단계 610, 612)을 도시한 순서도이다.
도 8을 참조하면, 도 3의 이외 단어 추출부(302)에서는 음성 인식 오류가 검출될 때 인식된 오류 단어를 제외한 나머지 단어들을 추출하고(단계 802), 의미 상관관계 탐색부(304)에서는 추출된 단어들에 의거하여 단어 관계 정보 DB(122)의 검색함으로써(단계 804), 단어 간 의미 상관관계가 있는 단어 후보들을 추출한다(단계 806).
이후, 정답 후보군 결정부(306)에서는 의미 상관관계 추출부(304)를 통해 추출된 각 단어 후보들 중 공통되는 단어를 제 2 정답 후보군으로 결정, 즉 정답 후보군이 존재하는 지의 여부를 체크한다(단계 808). 여기에서, 결정되는 제 2 정답 후보군은 적어도 하나 이상 혹은 다수의 정답 후보들을 포함할 수 있다.
다시, 정답 후보군 결정부(306)에서는 정답 후보군 내 정답 후보들의 개수(n)가 기 설정된 개수(x)를 초과하는 지의 여부를 체크하는데(단계 810), 여기에서의 체크 결과 n이 x를 초과하지 않으면 해당 정답 후보들이 제 2 정답 후보군으로 결정되며(단계 814), 이후 처리는 도 6의 단계(624)로 진행되어 제 2 정답 후보군은 정답 후보 DB(126)에 저장한다.
상기 단계(810)에서의 체크 결과, n이 x를 초과하면, 정답 후보군 결정부(306)에서는, 예컨대 음소간의 거리 측정을 통해 계산되는 발음 유사도에 의거하여 정답 후보들의 개수를 기 설정된 개수로 조정하며(단계 812), 이와 같이 개수가 조정된 정답 후보들은 제 2 정답 후보군으로 결정된 후(단계 814), 도 6의 단계(624)로 진행되어 정답 후보 DB(126)에 저장한다.
다시, 도 6을 참조하면, 음성 인식 오류가 발생하면, 제 3 정답 후보 탐색 블록(114)에서는 데이터베이스(120) 내 사용자 오류 수정 정보 DB(123)의 검색을 통해 제 3 정답 후보군의 존재 여부를 탐색하고(단계 614, 616), 탐색 결과 제 3 정답 후보군이 존재할 때 해당 정답 후보들을 추출하여 정답 후보 DB(126)에 저장한다(단계 624). 여기에서, 제 3 정답 후보군이 존재하는 경우일 때, 제 3 정답 후보군은 적어도 하나 이상 혹은 다수의 정답 후보들을 포함할 수 있다.
도 9는 본 발명에 따라 사용자 오류 수정 정보 DB를 이용하여 정답 후보를 결정하는 주요 과정(단계 614, 616)을 도시한 순서도이다.
도 9를 참조하면, 도 4의 정답 후보 탐색부(402)에서는 음성 인식 오류가 검출될 때 사용자 오류 수정 정보 DB(123)을 검색하여(단계 902), 정답 후보가 존재하는 지의 여부를 체크(탐색)하고, 정답 후보가 존재할 때 탐색된 정답 후보의 개수가 기 설정된 개수(m)보다 적은지의 여부를 체크하는데(단계 904), 여기에서의 체크 결과 탐색된 정답 후보의 개수가 기 설정된 개수(m)보다 많을 때 처리는 후술하는 단계(912)로 진행된다.
상기 단계(904)에서의 체크 결과, 탐색된 정답 후보의 개수가 기 설정된 개수(m)보다 적으면, 적용된 음성 인식기가 서버 클라이언트 방식의 인식기인지의 여부를 체크하는데(단계 906), 여기에서의 체크 결과 적용된 음성 인식기가 서버 클라이언트 방식의 인식기가 아닌 경우 처리는 후술하는 단계(916)로 진행된다.
상기 단계(906)에서의 체크 결과, 적용된 음성 인식기가 서버 클라이언트 방식의 인식기이면, 정답 예비 후보 탐색부(404)에서는 서버 기반의 사용자 오류 수정 정보 DB(즉, 다른 사용자의 사용자 오류 수정 정보 DB)를 검색함으로써(단계 908), 정답 예비 후보군을 추출한다(단계 910).
이후, 정답 후보군 결정부(406)에서는 정답 후보군 또는 정답 예비 후보군 내 정답 후보들의 개수(n)가 기 설정된 개수(x)를 초과하는 지의 여부를 체크하는데(단계 912), 여기에서의 체크 결과 n이 x를 초과하지 않으면 해당 정답 후보들이 제 3 정답 후보군으로 결정되며(단계 916), 이후 처리는 도 6의 단계(624)로 진행되어 제 3 정답 후보군은 정답 후보 DB(126)에 저장한다.
상기 단계(912)에서의 체크 결과, n이 x를 초과하면, 정답 후보군 결정부(406)에서는, 예컨대 발음 유사도, 단어 간 상관관계 정보 및 도메인 패턴 정보 중 어느 하나에 의거하여 정답 후보들의 개수를 기 설정된 개수로 조정하며(단계 914), 이와 같이 개수가 조정된 정답 후보들은 제 3 정답 후보군으로 결정된 후(단계 916), 도 6의 단계(624)로 진행되어 정답 후보 DB(126)에 저장한다.
다시, 도 6을 참조하면, 도 1의 제 4 정답 후보 탐색 블록(115)에서는 음성 인식기가 도메인 발화 패턴 DB 및 고유명사 DB가 적용되는 인식기인지를 체크하는데(단계 618), 도메인 발화 패턴 DB 및 고유명사 DB가 적용되는 인식기가 아닌 것으로 판단될 때 처리는 종료된다.
상기 단계(618)에서의 체크 결과, 도메인 발화 패턴 DB 및 고유명사 DB가 적용되는 인식기이면, 제 4 정답 후보 탐색 블록(115)에서는 도메인 발화 패턴 DB(124) 및 고유명사 DB(125)의 검색을 통해 제 4 정답 후보군의 존재 여부를 탐색하고(단계 620, 622), 탐색 결과 제 4 정답 후보군이 존재할 때 해당 정답 후보들을 추출하여 정답 후보 DB(126)에 저장한다(단계 624). 여기에서, 제 4 정답 후보군이 존재하는 경우일 때, 제 4 정답 후보군은 적어도 하나 이상 혹은 다수의 정답 후보들을 포함할 수 있다.
도 10은 본 발명에 따라 도메인 발화 패턴 DB와 고유명사 DB를 이용하여 정답 후보를 결정하는 주요 과정(단계 620, 622)을 도시한 순서도이다.
도 10을 참조하면, 도 5의 발화 적용 탐색부(502)에서는 도메인 발화 패턴 DB(124)의 검색하고(단계 1002), 그 검색 결과에 의거하여 음성 인식 오류 단어가 도메인 발화 패턴이 적용되는 발화인지의 여부를 체크(탐색)한다(단계 1004).
상기 단계(1004)에서의 체크 결과, 음성 인식 오류 단어가 도메인 발화 패턴의 적용 대상이면, 정답 후보 추출부(504)에서는 고유명사 DB(125)의 검색함으로써(단계 1006), 적어도 하나 이상의 정답 후보를 포함하는 정답 후보군을 추출한다(단계 1008).
이후, 정답 후보군 결정부(506)에서는 정답 후보군 내 정답 후보들의 개수(n)가 기 설정된 개수(x)를 초과하는 지의 여부를 체크하는데(단계 1010), 여기에서의 체크 결과 n이 x를 초과하지 않으면 해당 정답 후보들이 제 4 정답 후보군으로 결정되며(단계 1014), 이후 처리는 도 6의 단계(624)로 진행되어 제 4 정답 후보군은 정답 후보 DB(126)에 저장한다.
상기 단계(1010)에서의 체크 결과, n이 x를 초과하면, 정답 후보군 결정부(506)에서는, 예컨대 음소간의 거리 측정을 통해 계산되는 발음 유사도에 의거하여 정답 후보들의 개수를 기 설정된 개수로 조정하며(단계 1012), 이와 같이 개수가 조정된 정답 후보들은 제 4 정답 후보군으로 결정된 후(단계 1014), 도 6의 단계(624)로 진행되어 정답 후보 DB(126)에 저장한다.
다시, 도 6을 참조하면, 정답 후보 정렬 및 표시 블록(116)에서는, 본 발명에 따라 음성 인식 오류-정답 쌍 DB(121), 단어 관계 정보 DB(122), 사용자 오류 수정 정보 DB(123), 도메인 발화 패턴 DB(124), 고유명사 DB(125) 등을 이용하여 결정된 후 정답 후보 DB(126)에 저장되어 있는 각 정답 후보군(제 1 내지 제 4 정답 후보군) 내 정답 후보들을 기 설정된 조건에 따라 정렬시켜 표시(디스플레이)한다(단계 626).
여기에서, 음성 인식 오류 단어에 대한 정답 후보의 정렬 및 표시는, 예컨대 결정된 각 정답 후보군 중 적어도 하나 이상의 정답 후보군에 속하는 정답 후보를 최종 정답 후보로 정렬 및 표시하거나, 결정된 각 정답 후보군에 공통으로 속하는 정답 후보만을 최종 정답 후보로 결정하여 표시하거나, 결정된 각 정답 후보군을 기 설정된 우선순위에 따라 정렬시켜 표시하는 방식으로 표출될 수 있다.
이상의 설명은 본 발명의 기술사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경 등이 가능함을 쉽게 알 수 있을 것이다. 즉, 본 발명에 개시된 실시 예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것으로서, 이러한 실시 예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다.
따라서, 본 발명의 보호 범위는 후술되는 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
110 : 음성 인식 오류 수정 모듈
111 : 음성 인식 오류 검출 블록
112 ?? 115 : 정답 후보 탐색 블록
116 : 정답 후보 정렬 및 표시 블록
120 : 데이터베이스
121 : 음성 인식 오류-정답 쌍 DB
122 : 단어 관계 정보 DB
123 : 사용자 오류 수정 정보 DB
124 : 도메인 발화 패턴 DB
125 : 고유명사 DB
126 : 정답 후보 DB

Claims (20)

  1. 음향모델 기반의 음성 인식 오류-정답 쌍 DB를 이용하여 음성 인식 오류에 대한 정답 후보군이 탐색되지 않는 경우, 음성 인식 오류 단어의 음소간 거리 측정 결과를 이용하여 상기 음성 인식 오류에 대한 제 1 정답 후보군을 탐색하는 과정과,
    단어 관계 정보 DB를 이용하여 상기 음성 인식 오류에 대한 제 2 정답 후보군을 탐색하는 과정과,
    사용자 오류 수정 정보 DB를 이용하여 상기 음성 인식 오류에 대한 제 3 정답 후보군을 탐색하는 과정과,
    도메인 발화 패턴 DB 및 고유명사 DB를 이용하여 상기 음성 인식 오류에 대한 제 4 정답 후보군을 탐색하는 과정과,
    탐색된 각 정답 후보군 내 정답 후보들을 정렬시켜 표시하는 과정
    을 포함하는 음성 인식 시스템에서의 오류 수정 방법.
  2. 제 1 항에 있어서,
    상기 표시하는 과정은,
    상기 탐색된 각 정답 후보군 중 적어도 하나 이상의 정답 후보군에 속하는 정답 후보를 최종 정답 후보로 표시하는
    음성 인식 시스템에서의 오류 수정 방법.
  3. 제 1 항에 있어서,
    상기 표시하는 과정은,
    상기 탐색된 각 정답 후보군에 공통으로 속하는 정답 후보만을 최종 정답 후보로 결정하여 표시하는
    음성 인식 시스템에서의 오류 수정 방법.
  4. 제 1 항에 있어서,
    상기 표시하는 과정은,
    상기 탐색된 각 정답 후보군을 기 설정된 우선순위에 따라 정렬시켜 표시하는
    음성 인식 시스템에서의 오류 수정 방법.
  5. 제 1 항에 있어서,
    상기 제 1 정답 후보군을 탐색하는 과정은,
    상기 음성 인식 오류-정답 쌍 DB의 검색을 통해 정답 후보군의 존재 여부를 탐색하는 과정과,
    상기 정답 후보군이 존재하지 않을 때 음성 인식 오류 단어의 발음 유사도를 계산하고, 인식 사전의 단어 중 발음 유사도가 상대적으로 높은 단어를 정답 예비 후보군으로 추출하는 과정과,
    상기 정답 후보군 또는 정답 예비 후보군을 상기 제 1 정답 후보군으로 결정하는 과정
    을 포함하는 음성 인식 시스템에서의 오류 수정 방법.
  6. 제 5 항에 있어서,
    상기 발음 유사도는,
    음소간의 거리 측정을 통해 계산되는
    음성 인식 시스템에서의 오류 수정 방법.
  7. 제 5 항에 있어서,
    상기 제 1 정답 후보군을 탐색하는 과정은,
    결정된 상기 제 1 정답 후보군에 속한 정답 후보들이 다수 개일 때 정답 후보들의 개수를 기 설정된 개수로 조정하는 과정
    을 더 포함하는 음성 인식 시스템에서의 오류 수정 방법.
  8. 제 1 항에 있어서,
    상기 제 2 정답 후보군을 탐색하는 과정은,
    상기 음성 인식 오류로 인식된 단어를 제외한 나머지 단어들을 추출하는 과정과,
    추출된 단어들에 의거한 상기 단어 관계 정보 DB의 검색을 통해 단어 간 의미 상관관계가 있는 단어 후보들을 추출하는 과정과,
    추출된 각 단어 후보들 중 공통되는 단어를 상기 제 2 정답 후보군으로 결정하는 과정
    을 포함하는 음성 인식 시스템에서의 오류 수정 방법.
  9. 제 8 항에 있어서,
    상기 제 2 정답 후보군을 탐색하는 과정은,
    결정된 상기 제 2 정답 후보군에 속한 정답 후보들이 다수 개일 때 정답 후보들의 개수를 기 설정된 개수로 조정하는 과정
    을 더 포함하는 음성 인식 시스템에서의 오류 수정 방법.
  10. 제 9 항에 있어서,
    상기 기 설정된 개수로의 조정은,
    발음 유사도가 상대적으로 높은 단어로 제한하는
    음성 인식 시스템에서의 오류 수정 방법.
  11. 제 1 항에 있어서,
    상기 제 3 정답 후보군을 탐색하는 과정은,
    해당 오류 단어에 대해 상기 사용자 오류 수정 정보 DB를 검색하여 정답 후보군을 탐색하는 과정과,
    탐색된 정답 후보군 내 정답 후보들의 개수를 체크하는 과정과,
    체크 결과, 정답 후보들의 개수가 기 설정된 개수보다 적을 때, 서버 기반의 사용자 오류 수정 정보 DB를 검색하여 정답 예비 후보군을 탐색하는 과정과,
    상기 정답 후보군 또는 정답 후보군과 정답 예비 후보군의 합을 상기 제 3 정답 후보군으로 결정하는 과정
    을 포함하는 음성 인식 시스템에서의 오류 수정 방법.
  12. 제 11 항에 있어서,
    상기 제 3 정답 후보군을 탐색하는 과정은,
    결정된 상기 제 3 정답 후보군에 속한 정답 후보들이 다수 개일 때 정답 후보들의 개수를 기 설정된 개수로 조정하는 과정
    을 더 포함하는 음성 인식 시스템에서의 오류 수정 방법.
  13. 제 12 항에 있어서,
    상기 기 설정된 개수로의 조정은,
    발음 유사도, 단어 간 상관관계 정보 및 도메인 패턴 정보 중 어느 하나를 이용하여 수행되는
    음성 인식 시스템에서의 오류 수정 방법.
  14. 제 11 항에 있어서,
    상기 정답 예비 후보군을 탐색하는 과정은,
    음성 인식기가 서버 클라이언트 방식의 인식기일 때 선택 실행되는
    음성 인식 시스템에서의 오류 수정 방법.
  15. 제 1 항에 있어서,
    상기 제 4 정답 후보군을 탐색하는 과정은,
    상기 도메인 발화 패턴 DB를 검색하여 해당 오류 단어가 도메인 발화 패턴이 적용되는 발화인지를 체크하는 과정과,
    상기 해당 오류 단어가 상기 도메인 발화 패턴에 속할 때 상기 고유명사 DB를 검색하여 정답 후보군을 추출하는 과정과,
    추출된 정답 후보군을 상기 제 4 정답 후보군으로 결정하는 과정
    을 포함하는 음성 인식 시스템에서의 오류 수정 방법.
  16. 제 15 항에 있어서,
    상기 제 4 정답 후보군을 탐색하는 과정은,
    결정된 상기 제 4 정답 후보군에 속한 정답 후보들이 다수 개일 때 정답 후보들의 개수를 기 설정된 개수로 조정하는 과정
    을 더 포함하는 음성 인식 시스템에서의 오류 수정 방법.
  17. 제 16 항에 있어서,
    상기 기 설정된 개수로의 조정은,
    발음 유사도가 상대적으로 높은 단어로 제한하는
    음성 인식 시스템에서의 오류 수정 방법.
  18. 음향모델 기반의 음성 인식 오류-정답 쌍 DB, 단어 관계 정보 DB, 사용자 오류 수정 정보 DB, 도메인 발화 패턴 DB 및 고유명사 DB로 구성되는 데이터베이스와,
    입력되는 음성에 대한 음성 인식의 오류 여부를 검출하는 음성 인식 오류 검출 블록과,
    음성 인식 오류가 검출될 때, 상기 음성 인식 오류-정답 쌍 DB를 이용하여 해당 오류 단어에 대한 정답 후보군이 탐색되지 않는 경우, 상기 해당 오류 단어의 음소간 거리 측정 결과를 이용하여 상기 해당 오류 단어에 대한 제 1 정답 후보군을 결정하는 제 1 정답 후보 탐색 블록과,
    상기 음성 인식 오류가 검출될 때, 상기 단어 관계 정보 DB를 이용하여 상기 해당 오류 단어에 대한 제 2 정답 후보군을 결정하는 제 2 정답 후보 탐색 블록과,
    상기 음성 인식 오류가 검출될 때, 상기 사용자 오류 수정 정보 DB를 이용하여 상기 해당 오류 단어에 대한 제 3 정답 후보군을 결정하는 제 3 정답 후보 탐색 블록과,
    상기 음성 인식 오류가 검출될 때, 상기 도메인 발화 패턴 DB 및 고유명사 DB를 이용하여 상기 해당 오류 단어에 대한 제 4 정답 후보군을 결정하는 제 4 정답 후보 탐색 블록과,
    결정된 각 정답 후보군 내 정답 후보들을 기 설정된 조건에 따라 정렬시켜 표시하는 정답 후보 정렬 및 표시 블록
    을 포함하는 음성 인식 시스템에서의 오류 수정 장치.
  19. 제 18 항에 있어서,
    상기 정답 후보 정렬 및 표시 블록은,
    상기 결정된 각 정답 후보군 중 적어도 하나 이상의 정답 후보군에 속하는 정답 후보를 최종 정답 후보로 표시하는
    음성 인식 시스템에서의 오류 수정 장치.
  20. 제 18 항에 있어서,
    상기 정답 후보 정렬 및 표시 블록은,
    상기 결정된 각 정답 후보군에 공통으로 속하는 정답 후보만을 최종 정답 후보로 결정하여 표시하는
    음성 인식 시스템에서의 오류 수정 장치.
KR1020130001202A 2013-01-04 2013-01-04 음성 인식 시스템에서의 오류 수정 방법 및 그 장치 KR101892734B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020130001202A KR101892734B1 (ko) 2013-01-04 2013-01-04 음성 인식 시스템에서의 오류 수정 방법 및 그 장치
US13/902,057 US20140195226A1 (en) 2013-01-04 2013-05-24 Method and apparatus for correcting error in speech recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130001202A KR101892734B1 (ko) 2013-01-04 2013-01-04 음성 인식 시스템에서의 오류 수정 방법 및 그 장치

Publications (2)

Publication Number Publication Date
KR20140092960A KR20140092960A (ko) 2014-07-25
KR101892734B1 true KR101892734B1 (ko) 2018-08-28

Family

ID=51061663

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130001202A KR101892734B1 (ko) 2013-01-04 2013-01-04 음성 인식 시스템에서의 오류 수정 방법 및 그 장치

Country Status (2)

Country Link
US (1) US20140195226A1 (ko)
KR (1) KR101892734B1 (ko)

Families Citing this family (113)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
EP3809407A1 (en) 2013-02-07 2021-04-21 Apple Inc. Voice trigger for a digital assistant
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9589563B2 (en) * 2014-06-02 2017-03-07 Robert Bosch Gmbh Speech recognition of partial proper names by natural language processing
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US9691380B2 (en) 2015-06-15 2017-06-27 Google Inc. Negative n-gram biasing
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
CN105206267B (zh) * 2015-09-09 2019-04-02 中国科学院计算技术研究所 一种融合非确定性反馈的语音识别错误修正方法及系统
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
KR102195627B1 (ko) 2015-11-17 2020-12-28 삼성전자주식회사 통역 모델 생성 장치 및 방법과, 자동 통역 장치 및 방법
KR102450853B1 (ko) 2015-11-30 2022-10-04 삼성전자주식회사 음성 인식 장치 및 방법
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
KR102447513B1 (ko) 2016-01-22 2022-09-27 한국전자통신연구원 점증적 대화지식 자가학습 기반 대화장치 및 그 방법
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) * 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10733375B2 (en) * 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
JP6984480B2 (ja) * 2018-02-20 2021-12-22 トヨタ自動車株式会社 情報処理装置および情報処理方法
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
KR20200007496A (ko) * 2018-07-13 2020-01-22 삼성전자주식회사 개인화 ASR(automatic speech recognition) 모델을 생성하는 전자 장치 및 이를 동작하는 방법
US11151986B1 (en) * 2018-09-21 2021-10-19 Amazon Technologies, Inc. Learning how to rewrite user-specific input for natural language understanding
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
CN109243433B (zh) * 2018-11-06 2021-07-09 北京百度网讯科技有限公司 语音识别方法和装置
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
CN109948144B (zh) * 2019-01-29 2022-12-06 汕头大学 一种基于课堂教学情境的教师话语智能处理的方法
CN109801628B (zh) * 2019-02-11 2020-02-21 龙马智芯(珠海横琴)科技有限公司 一种语料收集方法、装置及系统
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
CN110956959B (zh) * 2019-11-25 2023-07-25 科大讯飞股份有限公司 语音识别纠错方法、相关设备及可读存储介质
JP7111758B2 (ja) * 2020-03-04 2022-08-02 株式会社東芝 音声認識誤り訂正装置、音声認識誤り訂正方法及び音声認識誤り訂正プログラム
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN113761111A (zh) * 2020-07-31 2021-12-07 北京汇钧科技有限公司 一种智能对话方法和装置
CN114678027A (zh) * 2020-12-24 2022-06-28 深圳Tcl新技术有限公司 语音识别结果的纠错方法、装置、终端设备及存储介质
CN112908306B (zh) * 2021-01-30 2023-03-21 云知声智能科技股份有限公司 优化上屏效果的语音识别方法、设备、终端与存储介质
CN113990302B (zh) * 2021-09-14 2022-11-25 北京左医科技有限公司 电话随访语音识别方法、装置及系统
CN113887930B (zh) * 2021-09-29 2024-04-23 平安银行股份有限公司 问答机器人健康度评估方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002268679A (ja) * 2001-03-07 2002-09-20 Nippon Hoso Kyokai <Nhk> 音声認識結果の誤り検出方法及び装置及び音声認識結果の誤り検出プログラム
JP2004333703A (ja) * 2003-05-02 2004-11-25 Alpine Electronics Inc 音声認識システムおよび音声認識の訂正・学習方法
JP2008216341A (ja) * 2007-02-28 2008-09-18 Nippon Hoso Kyokai <Nhk> 誤り傾向学習音声認識装置及びコンピュータプログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5638486A (en) * 1994-10-26 1997-06-10 Motorola, Inc. Method and system for continuous speech recognition using voting techniques
WO2000058946A1 (en) * 1999-03-26 2000-10-05 Koninklijke Philips Electronics N.V. Client-server speech recognition
AU2001259446A1 (en) * 2000-05-02 2001-11-12 Dragon Systems, Inc. Error correction in speech recognition
JP4241376B2 (ja) * 2001-09-17 2009-03-18 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 認識されたテキスト中の音声シーケンスと手動入力される補正ワードの音声転写との比較を通した音声認識により認識されたテキストの補正
US7533020B2 (en) * 2001-09-28 2009-05-12 Nuance Communications, Inc. Method and apparatus for performing relational speech recognition
US8019602B2 (en) * 2004-01-20 2011-09-13 Microsoft Corporation Automatic speech recognition learning using user corrections
US7640160B2 (en) * 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
JP4734155B2 (ja) * 2006-03-24 2011-07-27 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
KR100825690B1 (ko) * 2006-09-15 2008-04-29 학교법인 포항공과대학교 음성 인식 시스템에서의 인식 오류 수정 방법
JP4867654B2 (ja) * 2006-12-28 2012-02-01 日産自動車株式会社 音声認識装置、および音声認識方法
EP2048655B1 (en) * 2007-10-08 2014-02-26 Nuance Communications, Inc. Context sensitive multi-stage speech recognition
KR101556594B1 (ko) * 2009-01-14 2015-10-01 삼성전자 주식회사 신호처리장치 및 신호처리장치에서의 음성 인식 방법
KR20120052591A (ko) 2010-11-16 2012-05-24 한국전자통신연구원 연속어 음성인식 시스템에서 오류수정 장치 및 방법
KR101394253B1 (ko) * 2012-05-16 2014-05-13 광주과학기술원 음성 인식 오류 보정 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002268679A (ja) * 2001-03-07 2002-09-20 Nippon Hoso Kyokai <Nhk> 音声認識結果の誤り検出方法及び装置及び音声認識結果の誤り検出プログラム
JP2004333703A (ja) * 2003-05-02 2004-11-25 Alpine Electronics Inc 音声認識システムおよび音声認識の訂正・学習方法
JP2008216341A (ja) * 2007-02-28 2008-09-18 Nippon Hoso Kyokai <Nhk> 誤り傾向学習音声認識装置及びコンピュータプログラム

Also Published As

Publication number Publication date
KR20140092960A (ko) 2014-07-25
US20140195226A1 (en) 2014-07-10

Similar Documents

Publication Publication Date Title
KR101892734B1 (ko) 음성 인식 시스템에서의 오류 수정 방법 및 그 장치
US8880400B2 (en) Voice recognition device
US10319250B2 (en) Pronunciation guided by automatic speech recognition
US9361879B2 (en) Word spotting false alarm phrases
US9190056B2 (en) Method and apparatus for correcting a word in speech input text
US6985861B2 (en) Systems and methods for combining subword recognition and whole word recognition of a spoken input
CN105723449B (zh) 言语内容分析系统和言语内容分析方法
US9020819B2 (en) Recognition dictionary system and recognition dictionary system updating method
US7529678B2 (en) Using a spoken utterance for disambiguation of spelling inputs into a speech recognition system
US8126714B2 (en) Voice search device
KR100717385B1 (ko) 인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법및 인식 신뢰도 측정 시스템
US9837070B2 (en) Verification of mappings between phoneme sequences and words
JP4680714B2 (ja) 音声認識装置および音声認識方法
JP5824829B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
US9799350B2 (en) Apparatus and method for verifying utterance in speech recognition system
US9135911B2 (en) Automated generation of phonemic lexicon for voice activated cockpit management systems
US20180012602A1 (en) System and methods for pronunciation analysis-based speaker verification
Kou et al. Fix it where it fails: Pronunciation learning by mining error corrections from speech logs
US20200372110A1 (en) Method of creating a demographic based personalized pronunciation dictionary
KR20130126570A (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
US20130035938A1 (en) Apparatus and method for recognizing voice
Ito et al. Pronunciation error detection for computer-assisted language learning system based on error rule clustering using a decision tree
US20150206539A1 (en) Enhanced human machine interface through hybrid word recognition and dynamic speech synthesis tuning
KR101181928B1 (ko) 문법오류 검출 장치 및 이를 이용한 문법오류 검출 방법
Wang et al. Optimization of spoken term detection system

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant