KR101233561B1

KR101233561B1 - 단어 수준의 후보 생성에 기초한 음성 인식 시스템 및 방법

Info

Publication number: KR101233561B1
Application number: KR1020110044613A
Authority: KR
Inventors: 이상호; 김훈; 구동욱; 정대성
Original assignee: 엔에이치엔(주)
Priority date: 2011-05-12
Filing date: 2011-05-12
Publication date: 2013-02-14
Also published as: CN102779511A; CN102779511B; US9002708B2; JP5703256B2; KR20120126641A; EP2523188A1; JP2012237997A; US20120290303A1

Abstract

단어 수준의 후보 생성에 기초한 음성 인식 시스템 및 방법이 개시된다. 음성 인식 시스템은 음성 인식 결과로서, 단어열 및 단어열에 포함된 단어 중 적어도 하나의 단어에 대한 후보 단어가 제공되는 경우, 단어열 및 후보 단어를 확인하는 음성 인식 결과 확인부 및 단어열을 디스플레이 장치를 통해 표시하되, 후보 단어가 존재하는 적어도 하나의 단어를 단어열의 나머지 단어와 구분하여 표시하는 단어열 표시부를 포함하고, 단어열 표시부는 구분하여 표시된 단어가 사용자에 의해 선택되는 경우, 구분하여 표시된 단어를 후보 단어로 변경하여 표시하는 것을 특징으로 한다.

Description

단어 수준의 후보 생성에 기초한 음성 인식 시스템 및 방법{SPEECH RECOGNITION SYSTEM AND METHOD BASED ON WORD-LEVEL CANDIDATE GENERATION}

본 발명의 실시예들은 단어 수준의 후보 생성에 기초한 음성 인식 시스템 및 방법에 관한 것이다.

음성 인식을 통한 딕테이션(dictation)을 하고자 할 때, 음성 인식 후 출력된 후보 문장이 매우 많은 경우, 조금씩만 다른 n개의 문장을 사용자가 보고 원하는 문장을 선택하기 어려운 문제점이 있다. 즉, 모바일 단말과 같은 사용자의 단말기 입장에서는 해당 단말기의 작은 크기로 인하여 한번에 많은 문장들을 모두 노출하는 것이 어렵고, 사용자의 입장에서는 n개의 문장을 볼 때 어떤 문장이 알맞은 문장인지 한 순간에 파악하기 어려운 문제점이 있다.

본 명세서에서는 보다 효과적으로 음성 인식을 통한 딕테이션을 제공할 수 있는 음성 인식 시스템 및 방법이 제안된다.

사용자에게 음성 인식 결과에 따른 문자열을 표시하여 사용자에게 제공하되, 후보 단어가 존재하는 단어를 문자열 상의 다른 단어들과 구분하여 표시하고, 후보 단어가 존재하는 단어에 대한 사용자의 선택에 따라 해당 단어를 후보 단어로 변경하여 표시함으로써, 단 한번의 선택으로 사용자가 음성 인식 결과를 단어별로 수정할 수 있는 음성 인식 시스템 및 음성 인식 방법이 제공된다.

소리 신호에 대응하여 매칭될 수 있는 가능한 모든 단어열 각각의 확률 중 가장 높은 확률을 갖는 단어열을 선택하고, 선택된 단어열에 포함된 단어의 인식이 시작된 시각 및 인식이 끝난 시각에 기초한 시간 범위 내에서 소리 신호에 대해 인식된 다른 단어들 중에서 다른 단어들 각각에 대해 계산되는 신뢰도를 이용하여 선택되는 적어도 하나의 단어를 후보 단어로 설정함으로써, 보다 정확한 단어별 결과를 제공할 수 있는 음성 인식 시스템 및 음성 인식 방법이 제공된다.

표시된 단어열 전체를 한번에 삭제할 수 있는 사용자 인터페이스를 제공함으로써, 표시된 단어열이 전혀 엉뚱한 결과인 경우 사용자가 직접 문장을 입력하거나 또는 다시 음성 인식 과정을 진행하도록 할 수 있는 음성 인식 시스템 및 음성 인식 방법이 제공된다.

음성 인식을 통해 작성되는 문장인 단어열에 대해, 해당 단어열이 음성 인식을 통해 작성되었음을 나타내는 서명을 단어열과 함께 표시 또는 전송함으로써, 표시된 단어열을 확인하는 사용자 또는 이러한 단어열을 SMS, 이메일 등으로 전송받은 사용자가 해당 단어열이 음성 인식을 통해 작성되었음을 확인할 수 있도록 하는 음성 인식 시스템 및 음성 인식 방법이 제공된다.

음성 인식 결과로서, 단어열 및 단어열에 포함된 적어도 하나의 단어에 대한 후보 단어가 제공되는 경우, 단어열 및 후보 단어를 확인하는 음성 인식 결과 확인부 및 단어열을 디스플레이 장치를 통해 표시하되, 후보 단어가 존재하는 적어도 하나의 단어를 단어열의 나머지 단어와 구분하여 표시하는 단어열 표시부를 포함하고, 단어열 표시부는 구분하여 표시된 단어가 사용자에 의해 선택되는 경우, 구분하여 표시된 단어를 후보 단어로 변경하여 표시하는 것을 특징으로 하는 음성 인식 시스템이 제공된다.

일측에 따르면, 음성 인식 시스템은 표시된 단어열의 전체 삭제를 위한 사용자 인터페이스를 제공하는 사용자 인터페이스부를 더 포함할 수 있고, 단어열 표시부는 사용자 인터페이스를 통해 사용자 입력이 발생하는 경우, 표시된 단어열을 전부 삭제할 수 있다.

다른 측면에 따르면, 단어열이 디스플레이 장치를 통해 표시되는 경우, 또는 단어열이 다른 기기로 전송되는 경우, 단어열이 음성 인식을 통해 제공되었음을 나타내는 서명이 단어열과 함께 표시 또는 전송될 수 있다.

또 다른 측면에 따르면, 음성 인식 시스템은 입력 장치를 통해 입력되는 소리 신호를 음성 인식 서버로 전송하는 소리 신호 전송부 및 소리 신호에 대응하는 음성 인식 결과를 음성 인식 서버를 통해 수신하는 음성 인식 결과 수신부를 더 포함할 수 있다.

또 다른 측면에 따르면, 음성 인식 시스템은 입력 장치를 통해 입력되는 소리 신호에 대응하는 음성 인식 결과를 생성하는 음성 인식 결과 생성부를 더 포함할 수 있다.

또 다른 측면에 따르면, 단어열은 음성 인식 서버에서 소리 신호에 대응하여 매칭될 수 있는 가능한 모든 단어열 각각의 확률 중 가장 높은 확률을 갖는 단어열로서 선택될 수 있다.

또 다른 측면에 따르면, 후보 단어는, 음성 인식 서버에서 적어도 하나의 단어의 인식이 시작된 시각 및 인식이 끝난 시각에 기초한 시간 범위 내에 소리 신호에 따라 인식된 다른 단어들 중 적어도 하나의 단어로서 선택될 수 있다. 이 경우, 다른 단어들 중 적어도 하나의 단어는, 다른 단어들 각각에 대해 계산되는 신뢰도(confidence)에 기초하여 선택될 수 있다. 또한, 시간 범위는 인식이 시작된 시각 및 인식이 끝난 시각 그리고 인식이 끝난 시각에 부여되는 기선정된 허용 시간값을 통해 결정될 수 있다.

소리 신호에 대응하는 단어열 및 단어열에 포함된 적어도 하나의 단어에 대한 후보 단어를 결정하여 음성 인식 결과로서 생성하는 음성 인식 결과 생성부 및 사용자의 단말기로 음성 인식 결과를 제공하는 음성 인식 결과 제공부를 포함하고, 단말기의 디스플레이 장치에서 단어열이 표시되고, 후보 단어가 존재하는 적어도 하나의 단어는 단어열의 나머지 단어와 구분되어 표시되고, 구분하여 표시된 단어가 단말기에서 사용자에 의해 선택되는 경우, 구분하여 표시된 단어가 후보 단어로 변경되어 표시되는 것을 특징으로 하는, 음성 인식 시스템이 제공된다.

음성 인식 결과로서, 단어열 및 단어열에 포함된 적어도 하나의 단어에 대한 후보 단어가 제공되는 경우, 단어열 및 후보 단어를 확인하는 단계 및 단어열을 디스플레이 장치를 통해 표시하되, 후보 단어가 존재하는 적어도 하나의 단어를 단어열의 나머지 단어와 구분하여 표시하는 단계를 포함하고, 표시하는 단계는 구분하여 표시된 단어가 사용자에 의해 선택되는 경우, 구분하여 표시된 단어를 후보 단어로 변경하여 표시하는 것을 특징으로 하는, 음성 인식 방법이 제공된다.

소리 신호에 대응하는 단어열 및 단어열에 포함된 적어도 하나의 단어에 대한 후보 단어를 결정하여 음성 인식 결과로서 생성하는 단계 및 사용자의 단말기로 음성 인식 결과를 제공하는 단계를 포함하고, 단말기의 디스플레이 장치에서 단어열이 표시되고, 후보 단어가 존재하는 적어도 하나의 단어는 단어열의 나머지 단어와 구분되어 표시되고, 구분하여 표시된 단어가 단말기에서 사용자에 의해 선택되는 경우, 구분하여 표시된 단어가 후보 단어로 변경되어 표시되는 것을 특징으로 하는, 음성 인식 방법이 제공된다.

사용자에게 음성 인식 결과에 따른 문자열을 표시하여 사용자에게 제공하되, 후보 단어가 존재하는 단어를 문자열 상의 다른 단어들과 구분하여 표시하고, 후보 단어가 존재하는 단어에 대한 사용자의 선택에 따라 해당 단어를 후보 단어로 변경하여 표시함으로써, 단 한번의 선택으로 사용자가 음성 인식 결과를 단어별로 수정할 수 있다.

소리 신호에 대응하여 매칭될 수 있는 가능한 모든 단어열 각각의 확률 중 가장 높은 확률을 갖는 단어열을 선택하고, 선택된 단어열에 포함된 단어의 인식이 시작된 시각 및 인식이 끝난 시각에 기초한 시간 범위 내에서 소리 신호에 대해 인식된 다른 단어들 중에서 다른 단어들 각각에 대해 계산되는 신뢰도를 이용하여 선택되는 적어도 하나의 단어를 후보 단어로서 설정함으로써, 보다 정확한 단어별 결과를 제공할 수 있다.

표시된 단어열 전체를 한번에 삭제할 수 있는 사용자 인터페이스를 제공함으로써, 표시된 단어열이 전혀 엉뚱한 결과인 경우 사용자가 직접 문장을 입력하거나 또는 다시 음성 인식 과정을 진행하도록 할 수 있다.

음성 인식을 통해 작성되는 문장인 단어열에 대해, 해당 단어열이 음성 인식을 통해 작성되었음을 나타내는 서명을 단어열과 함께 표시 또는 전송함으로써, 표시된 단어열을 확인하는 사용자 또는 이러한 단어열을 SMS, 이메일 등으로 전송받은 사용자가 해당 단어열이 음성 인식을 통해 작성되었음을 확인할 수 있다.

도 1은 본 발명의 일실시예에 있어서, 사용자 단말기 및 음성 인식 서버를 나타낸 도면이다.
도 2는 본 발명의 일실시예에 있어서, 사용자 단말기의 디스플레이 화면에 단어열이 표시된 모습을 나타낸 일례이다.
도 3은 본 발명의 일실시예에 있어서, 사용자 단말기의 디스플레이 화면에서 사용자의 선택에 따라 표시된 단어를 후보 단어로 변경하여 표시한 모습을 도시한 일례이다.
도 4는 본 발명의 일실시예에 있어서, 사용자 인터페이스를 이용하여 표시된 단어열을 전부 삭제하는 모습을 도시한 일례이다.
도 5는 본 발명의 일실시예에 있어서, 사용자 단말기에서 서명을 제공하는 모습을 도시한 일례이다.
도 6은 본 발명의 일실시예에 있어서, 소리 신호에 대해 검색된 단어들을 나타낸 도면이다.
도 7은 본 발명의 일실시예에 있어서, 음성 인식 시스템의 내부 구성을 설명하기 위한 블록도이다.
도 8은 본 발명의 일실시예에 있어서, 음성 인식 방법을 도시한 흐름도이다.
도 9는 본 발명의 다른 실시예에 있어서, 음성 인식 시스템의 내부 구성을 설명하기 위한 블록도이다.
도 10은 본 발명의 다른 실시예에 있어서, 음성 인식 방법을 도시한 흐름도이다.
도 11은 본 발명의 또 다른 실시예에 있어서, 음성 인식 시스템의 내부 구성을 설명하기 위한 블록도이다.
도 12는 본 발명의 또 다른 실시예에 있어서, 음성 인식 방법을 도시한 흐름도이다.
도 13은 본 발명의 또 다른 실시예에 있어서, 사용자에 의해 선택된 단어의 후보 단어를 표시한 화면의 일례이다.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 1은 본 발명의 일실시예에 있어서, 사용자 단말기 및 음성 인식 서버를 나타낸 도면이다. 도 1은 사용자 단말기(110) 및 음성 인식 서버(120)를 나타내고 있다.

사용자 단말기(110)는 입력 장치를 통해 소리 신호를 입력받아, 음성 인식 서버(120)로 전송할 수 있다. 이때, 음성 인식 서버(120)는 수신된 소리 신호에 대응하는 음성 인식 결과를 생성하여 사용자 단말기(110)로 전송할 수 있다.

사용자 단말기(110)는 음성 인식 서버(120)를 통해 수신된 음성 인식 결과가 포함하는 단어열과 단어열에 포함된 적어도 하나의 단어에 대한 후보 단어를 확인할 수 있고, 확인된 단어열을 디스플레이 장치를 통해 표시하되, 후보 단어가 존재하는 적어도 하나의 단어는 단어열의 나머지 단어들과 구분되도록 표시할 수 있다.

도 2는 본 발명의 일실시예에 있어서, 사용자 단말기의 디스플레이 화면에 단어열이 표시된 모습을 나타낸 일례이다. 도 2에 나타난 디스플레이 화면(200)은 도 1을 통해 설명한 사용자 단말기(110)의 디스플레이 화면 중 일부에 대응될 수 있다. 여기서, 디스플레이 화면(200)에는 "안드로이드 폰 추천좀 해조요"와 같이 음성 인식 결과가 포함하는 단어열이 표시되어 있다. 이때, 단어열에 포함된 단어 중 후보 단어를 가지고 있는 단어는 단어열에 포함된 다른 단어들과 구별되어 표시될 수 있다. 즉, 도 2에서는 후보 단어가 존재하는 단어 "안드로이드", "좀" 및 "해조요"가 후보 단어가 존재하지 않는 단어 "폰" 및 "추천"과는 구별되도록 밑줄과 함께 표시된 모습을 나타낸다.

다시 도 1을 참조하면, 사용자 단말기(110)는 구분하여 표시된 단어가 사용자에 의해 선택되는 경우, 구분하여 표시된 단어를 후보 단어로 변경하여 표시할 수 있다. 여기서, 단어가 사용자에 의해 선택되는 것은 사용자 단말기(110)가 제공하는 사용자 인터페이스를 통해 해당 단어가 선택되는 것을 의미할 수 있다. 예를 들어, 사용자가 터치 패드에서 해당 단어가 표시된 위치를 터치함으로써, 해당 단어가 사용자에 의해 선택될 수 있다.

도 3은 본 발명의 일실시예에 있어서, 사용자 단말기의 디스플레이 화면에서 사용자의 선택에 따라 표시된 단어를 후보 단어로 변경하여 표시한 모습을 도시한 일례이다. 도 3에 나타난 디스플레이 화면들(310 내지 330)은 각각 도 1을 통해 설명한 사용자 단말기(110)의 디스플레이 화면 중 일부에 대응될 수 있다.

우선, 디스플레이 화면(310)에는 "안드로이드 폰 추천좀 해조요"와 같이 최초 음성 인식 결과가 포함하는 단어열이 표시되어 있다. 이때, 사용자가 단어 "해조요"를 선택하는 경우, 디스플레이 화면(320)에서와 같이 단어 "해조요"가 후보 단어 "해줘요"로 변경되어 표시될 수 있다. 이 경우, 변경되어 표시된 단어 "해줘요" 역시 후보 단어가 존재하지 않는 다른 단어들과 구분하기 위해 밑줄이 표시될 수 있다.

도 3에서는 단어를 구분하기 위해 밑줄을 이용하였으나, 밑줄은 하나의 일례일 뿐, 글자 크기, 글자 색상 또는 글자 모양 등을 서로 다르게 표시하는 방법과 같이 단어들을 구분 가능한 모든 방법 중 적어도 하나의 방법이 이용될 수 있다.

사용자가 단어 "해줘요"를 다시 선택하는 경우에는 디스플레이 화면(330)과 같이 단어 "해줘요"가 그 다음 다른 후보 단어 "해 조요"로 변경되어 표시될 수 있다.

만약, 또 다른 후보 단어 "해 조요"가 존재하지 않는 경우에는 다시 디스플레이 화면(310)과 같이 원래 단어열이 포함하는 단어 "해조요"로 변경되어 표시될 수 있다.

이와 같이, 본 실시예들에서는 단어열에 포함된 단어들에 대한 후보 단어들의 리스트를 제공하는 대신 사용자의 선택에 따라 음성 인식의 후보 단어들이 순차적으로 변경되도록 할 수 있고, 이러한 후보 단어들은 음성 인식에 따른 신뢰도에 따라 정렬되어 신뢰도가 높은 순서로 표시될 수 있다. 이때, 대부분의 경우, 한 두 번의 변경을 통해 사용자가 의도한 단어가 표시될 확률이 매우 높기 때문에, 후보 단어들의 리스트를 제공하는 것보다 효율적으로 사용자에게 음성 인식을 통한 딕테이션(dictation)을 제공할 수 있다. 여기서, 음성 인식에 따른 단어들의 신뢰도를 계산하는 방법은 이미 잘 알려져 있으며, 이러한 이미 알려진 다양한 방법들 중 하나가 단어들의 신뢰도를 계산하는데 이용될 수 있다.

또한, 도 3에서 사용자 인터페이스 "편집하기"를 통해 사용자가 해당 단어를 직접 편집할 수 있는 기능을 제공할 수 있다.

다시 도 1을 참조하면, 사용자 단말기(110)는 표시된 단어열을 전부 삭제하기 위한 사용자 인터페이스를 제공할 수 있다. 즉, 표시된 단어열 전체를 한번에 삭제할 수 있는 사용자 인터페이스를 제공함으로써, 표시된 단어열이 전혀 엉뚱한 결과인 경우 사용자가 직접 문장을 입력하거나 또는 다시 음성 인식 과정을 진행하도록 할 수 있다.

도 4는 본 발명의 일실시예에 있어서, 사용자 인터페이스를 이용하여 표시된 단어열을 전부 삭제하는 모습을 도시한 일례이다. 도 4에 나타난 디스플레이 화면들(410 및 420)은 각각 도 1을 통해 설명한 사용자 단말기(110)의 디스플레이 화면 중 일부에 대응될 수 있다.

디스플레이 화면(410)은 음성 인식 결과가 포함하는 단어열이 표시된 모습을 나타내고 있다. 이때, "지우기"(411)와 같이 사용자 단말기(110)가 제공하는 사용자 인터페이스를 통해 사용자가 이벤트를 발생시키는 경우, 디스플레이 화면(420)에서와 같이 표시된 단어열이 전부 삭제될 수 있다. 즉, "궁금증 해소의 소실 30분 도착"과 같이 사용자가 의도한 문장(단어열)과 전혀 다른 문장이 표시되는 경우, 사용자는 이러한 문장을 편집하기 보다, 사용자 자신이 문장을 직접 입력하거나 또는 새로 음성 인식 과정이 수행되기를 원할 수 있다.

이러한 경우, 본 실시예들에 따른 사용자 단말기(110)는 "지우기"(411)와 같은 사용자 인터페이스를 사용자에게 제공하고, 사용자가 "지우기"(411)를 터치하는 등의 이벤트를 발생시키는 경우, 표시된 문장 전체를 삭제할 수 있다.

다시 도 1을 참조하면, 사용자 단말기(110)는 음성 인식을 통해 작성된 문장(단어열)에 음성 인식에 대한 서명을 포함시킬 수 있다. 여기서, 음성 인식에 대한 서명은 해당 문장이 음성 인식을 통해 작성되었음을 나타낼 수 있다. 예를 들어, 사용자가 음성 인식을 통해 작성된 문장을 SMS나 이메일 등을 이용하여 다른 사용자에게 제공하는 경우, 다른 사용자는 해당 문장에 오타 또는 오류가 존재하더라도, 이러한 문장이 음성 인식을 통해 작성되었음을 바로 확인할 수 있다.

도 5는 본 발명의 일실시예에 있어서, 사용자 단말기에서 서명을 제공하는 모습을 도시한 일례이다. 도 5에 나타난 디스플레이 화면(510)은 도 1을 통해 설명한 사용자 단말기(110)의 디스플레이 화면 중 일부에 대응될 수 있다.

이때, 디스플레이 화면(510)은 "안드로이드 폰으로 영화를 보려고 합니다. By Speech"와 같이 단어열 "안드로이드 폰으로 영화를 보려고 합니다." 뿐만 아니라 서명 "By Speech"를 함께 표시하고 있다. 즉, 이러한 서명을 통해 해당 단어열이 음성 인식을 통해 작성된 문장임을 사용자들이 쉽게 파악할 수 있게 된다.

다시 도 1을 참조하면, 음성 인식 서버(120)는 상술한 바와 같이 사용자 단말기(110)를 통해 수신한 소리 신호에 대응하는 단어열 및 후보 단어를 결정하여 음성 인식 결과로서 사용자 단말기(110)로 제공할 수 있다. 이때, 음성 인식 서버(120)는 소리 신호에 대응하여 매칭될 수 있는 가능한 모든 단어열을 찾고, 모든 단어열 각각의 확률 중 가장 높은 확률을 갖는 단어열을 음성 인식 결과에 포함될 단어열로서 선택할 수 있다. 또한, 음성 인식 서버(120)는 적어도 하나의 단어의 인식이 시작된 시각 및 인식이 끝난 시각에 기초한 시간 범위 내에 소리 신호에 따라 인식된 다른 단어들 중 적어도 하나의 단어를 음성 인식 결과에 포함될 후보 단어로서 선택할 수 있다. 이 경우, 다른 단어들 중 적어도 하나의 단어는, 다른 단어들 각각에 대해 계산되는 신뢰도(confidence)에 기초하여 선택될 수 있고, 시간 범위는 인식이 시작된 시각 및 인식이 끝난 시각 그리고 인식이 끝난 시각에 부여되는 기선정된 허용 시간값을 통해 결정될 수 있다.

도 6은 본 발명의 일실시예에 있어서, 소리 신호에 대해 검색된 단어들을 나타낸 도면이다. 도 6에서 화살표(610)는 시간의 흐름을 나타내고, 네모상자의 길이는 해당 단어가 인식된 시간 범위를 나타낼 수 있다. 이때, 서로 다른 시간 범위에 인식되는 동일한 단어들 즉, 도 6에서 "딸기" (1)과 "딸기" (2) 그리고 "즙" (1)과 "즙" (2)는 시작 시각은 동일하지만 끝나는 시간이 서로 다르며, 음성 인식기에서는 확률적으로 해당 시간대에서 가장 확률이 높은 단어를 찾았을 때 우연히 동일한 단어가 된 경우이다.

우선, 사용자의 발화 내용이 "딸기주"라고 가정한다. 즉, 사용자가 "딸기주"를 발화하여 도 1의 사용자 단말기(110)가 입력 장치를 통해 "딸기주"가 포함된 소리 신호를 입력받아 음성 인식 서버(120)로 전송하면, 음성 인식 서버(120)는 소리 신호를 분석하여 모든 가능한 단어열을 확인하여 가장 높은 확률을 갖는 단어열을 선택할 수 있다. 이때, 도 6에서는 가장 높은 확률을 갖는 단어열로서, 단어 "딸기" (1)와 단어 "즙" (2)이 결합된 "딸기즙"이 선택된 경우를 나타내고 있다.

이 경우, 음성 인식 서버(120)는 가장 높은 확률을 갖는 단어열에 포함된 단어 "딸기" (1)와 "즙" (2) 각각에 대한 후보 단어를 결정할 수 있다. 즉, "딸기" (1)와 "즙" (2) 각각에 대한 해당 시간 범위내에 포함된 다른 단어들에 대해서 각 단어의 신뢰도를 계산하고, 신뢰도 순으로 n개의 단어를 후보 단어로서 추출할 수 있다. 여기서 해당 시간 범위는 인식이 시작된 시각 및 인식이 끝난 시각 그리고 인식이 끝난 시각에 부여되는 기선정된 허용 시간값을 통해 결정될 수 있다.

예를 들어, 단어 "즙" (2)에 대한 후보 단어를 구하기 위해, 음성 인식 서버(120)는 단어 "즙" (2)에 대해 결정된 시간 범위 내에 포함된 다른 단어를 확인할 수 있다. 이때, 시간 범위 내에 포함된 다른 단어는 단어 "즙" (2)의 인식이 끝난 시각에 기선정된 허용 시간값을 부여한 시각 그리고 "즙" (2)의 인식이 시작된 시각의 시간 범위 내에 포함되면서 시작 시간이 동일한 단어들을 포함할 수 있다. 이때, 허용 시간값은 30ms와 같이 음성 인식 서버(120)에 의해 결정될 수 있다.

이때, 시작 시각은 동일하나 끝난 시간이 "즙" (2)의 인식이 끝난 시간보다 기선정된 허용 시간값 이상으로 짧고, 해당 시간 범위 내에 또 다른 단어가 인식된 경우에는 인식된 각 단어를 결합하여 하나의 후보 단어로서 결정할 수도 있다.

즉, 상술한 일례에서는 단어 "즙" (1) 및 단어 "스"가 결합되어 하나의 단어 "즙스"로서 "즙" (2)의 후보 단어로서 선택되는 경우나 단어 "즙" (1) 및 단어 "소스"가 결합되어 하나의 단어 "즙 소스"로서 "즙" (2)의 후보 단어로 선택되는 경우를 예로 들 수 있다. 또한, 단어 "주" 및 "쥬" 그리고 "주스"가 단어 "즙" (2)의 후보 단어로서 선택될 수 있다. 즉, 도 6에서는 단어 "즙" (1)과 단어 "슈"가 결합된 "즙슈"만이 시간 범위를 벗어나는 관계로 후보 단어로 선택되지 못한 일례를 나타내고 있다. 만약, 허용 시간값을 줄여 시간 범위를 더 줄인다면, 후보 단어의 선택을 위한 범위는 더 줄어들 수도 있다.

이때, 선택된 후보 단어가 신뢰도의 순서로 "주", "즙 소스", "주스", "쥬" 및 "즙스"의 순서를 갖는다면, 선택된 후보 단어들은 신뢰도의 순서에 따라 음성 인식 결과에 포함될 수 있다.

즉, 도 1 및 도 6을 함께 참조하면, 사용자 단말기(110)는 디스플레이 장치를 통해 "딸기즙"을 표시할 수 있다. 이 경우에도 물론 후보 단어가 존재하는 단어와 후보 단어가 존재하지 않는 단어는 서로 구분되어 표시될 수 있다. 이때 단어 "즙"이 사용자에 의해 선택되는 경우, 단어 "즙"은 첫 번째 순서로 결정된 단어 "주"로 변경되어 표시될 수 있다. 또한, 변경된 단어 "주"가 다시 사용자에게 선택되는 경우에는 단어 "주"가 두 번째 순서로 결정된 단어 "즙 소스"로 변경되어 표시될 수 있다. 더 이상 변경할 후보 단어가 없는 경우에는 다시 최초 표시되었던 단어 "즙"이 사용자에게 표시하거나 사용자가 직접 해당 단어를 편집할 수 있는 기능이 제공될 수 있다.

이와 같이, 사용자는 전체 후보 단어의 목록에서 원하는 단어를 찾는 것이 아니라 선택을 통해 다음 후보 단어를 확인할 수 있게 된다. 이미 상술한 바와 같이, 신뢰도를 바탕으로 후보 단어를 선정하면, 대부분의 경우, 한 두 번의 선택을 통해 사용자가 의도한 단어가 표시되기 때문에 사용자는 전체 후보 단어를 살펴볼 필요 없이 단어열에서 특정 단어를 의도하는 단어로 쉽고 빠르게 편집할 수 있게 된다.

도 7은 본 발명의 일실시예에 있어서, 음성 인식 시스템의 내부 구성을 설명하기 위한 블록도이다. 이러한 음성 인식 시스템(700)은 도 7에 도시된 바와 같이 음성 인식 결과 확인부(730) 및 단어열 표시부(740)를 포함할 수 있고, 필요에 따라 선택적으로 소리 신호 전송부(710) 및 음성 인식 결과 수신부(720)를 포함할 수 있다. 이때, 음성 인식 시스템(700)이 소리 신호 전송부(710) 및 음성 인식 결과 수신부(720)를 포함하는 경우, 음성 인식 시스템(700)은 도 1을 통해 설명한 사용자 단말기(110)에 대응될 수 있다.

소리 신호 전송부(710)는 입력 장치를 통해 입력되는 소리 신호를 음성 인식 서버로 전송한다. 예를 들어, 사용자의 발화에 따른 소리 신호가 마이크와 같은 입력 장치를 통해 음성 인식 시스템(700)으로 입력될 수 있고, 소리 신호 전송부(710)는 이러한 소리 신호를 음성 인식 서버로 전송할 수 있다. 여기서, 음성 인식 서버는 도 1을 통해 설명한 음성 인식 서버(120)에 대응할 수 있다.

음성 인식 결과 수신부(720)는 소리 신호에 대응하는 음성 인식 결과를 음성 인식 서버를 통해 수신한다. 여기서, 단어열은 음성 인식 서버에서 소리 신호에 대응하여 매칭될 수 있는 가능한 모든 단어열 각각의 확률 중 가장 높은 확률을 갖는 단어열로서 선택될 수 있다. 또한, 후보 단어는, 상기 음성 인식 서버에서 상기 적어도 하나의 단어의 인식이 시작된 시각 및 인식이 끝난 시각에 기초한 시간 범위 내에 상기 소리 신호에 따라 인식된 다른 단어들 중 적어도 하나의 단어로서 선택될 수 있다. 이때, 다른 단어들 중 적어도 하나의 단어는 다른 단어들 각각에 대해 계산되는 신뢰도(confidence)에 기초하여 선택될 수 있고, 시간 범위는 인식이 시작된 시각 및 인식이 끝난 시각 그리고 인식이 끝난 시각에 부여되는 기선정된 허용 시간값을 통해 결정될 수 있다.

음성 인식 결과 확인부(730)는 음성 인식 결과로서, 단어열 및 단어열에 포함된 적어도 하나의 단어에 대한 후보 단어가 제공되는 경우, 단어열 및 후보 단어를 확인한다. 즉, 음성 인식 서버로부터 음성 인식 결과가 수신되는 등의 과정을 통해 음성 인식 시스템(700)에 음성 인식 결과가 제공되면, 음성 인식 시스템(700)은 음성 인식 결과 확인부(730)를 통해 이러한 제공된 음성 인식 결과에서 단어열과 후보 단어를 확인할 수 있다.

단어열 표시부(740)는 단어열을 디스플레이 장치를 통해 표시하되, 후보 단어가 존재하는 적어도 하나의 단어를 단어열의 나머지 단어와 구분하여 표시한다. 이때, 단어열 표시부(740)는 구분하여 표시된 단어가 사용자에 의해 선택되는 경우, 구분하여 표시된 단어를 후보 단어로 변경하여 표시한다. 만약, 또 다른 후보 단어가 존재하고, 변경된 후보 단어가 다시 사용자에 의해 선택되는 경우, 변경된 후보 단어는 다시 또 다른 후보 단어로 변경될 수 있다.

또한, 음성 인식 시스템(700)은 표시된 단어열의 전체 삭제를 위한 사용자 인터페이스를 제공하는 사용자 인터페이스부(미도시)를 더 포함할 수 있다. 이 경우, 단어열 표시부(740)는 사용자 인터페이스를 통해 사용자 입력이 발생하는 경우, 표시된 단어열을 전부 삭제할 수 있다.

또한, 단어열이 디스플레이 장치를 통해 표시되는 경우, 또는 단어열이 다른 기기로 전송되는 경우, 단어열이 음성 인식을 통해 제공되었음을 나타내는 서명이 단어열과 함께 표시 또는 전송될 수 있다.

도 8은 본 발명의 일실시예에 있어서, 음성 인식 방법을 도시한 흐름도이다. 본 실시예에 따른 음성 인식 방법은 도 7을 통해 설명한 음성 인식 시스템(700)에 의해 수행될 수 있다. 도 8에서는 음성 인식 시스템(700)에 의해 각각의 단계가 수행되는 과정을 설명함으로써, 본 실시예에 따른 음성 인식 방법을 설명한다. 이 경우에도 단계(810) 및 단계(820)은 필요에 따라 선택적으로 음성 인식 시스템(700)에 의해 수행될 수 있다.

단계(810)에서 음성 인식 시스템(700)은 입력 장치를 통해 입력되는 소리 신호를 음성 인식 서버로 전송한다. 예를 들어, 사용자의 발화에 따른 소리 신호가 마이크와 같은 입력 장치를 통해 음성 인식 시스템(700)으로 입력될 수 있고, 음성 인식 시스템(700)은 이러한 소리 신호를 음성 인식 서버로 전송할 수 있다. 여기서, 음성 인식 서버는 도 1을 통해 설명한 음성 인식 서버(120)에 대응할 수 있다.

단계(820)에서 음성 인식 시스템(700)은 소리 신호에 대응하는 음성 인식 결과를 음성 인식 서버를 통해 수신한다. 여기서, 단어열은 음성 인식 서버에서 소리 신호에 대응하여 매칭될 수 있는 가능한 모든 단어열 각각의 확률 중 가장 높은 확률을 갖는 단어열로서 선택될 수 있다. 또한, 후보 단어는, 상기 음성 인식 서버에서 상기 적어도 하나의 단어의 인식이 시작된 시각 및 인식이 끝난 시각에 기초한 시간 범위 내에 상기 소리 신호에 따라 인식된 다른 단어들 중 적어도 하나의 단어로서 선택될 수 있다. 이때, 다른 단어들 중 적어도 하나의 단어는 다른 단어들 각각에 대해 계산되는 신뢰도에 기초하여 선택될 수 있고, 시간 범위는 인식이 시작된 시각 및 인식이 끝난 시각 그리고 인식이 끝난 시각에 부여되는 기선정된 허용 시간값을 통해 결정될 수 있다.

단계(830)에서 음성 인식 시스템(700)은 음성 인식 결과로서, 단어열 및 단어열에 포함된 적어도 하나의 단어에 대한 후보 단어가 제공되는 경우, 단어열 및 후보 단어를 확인한다. 즉, 음성 인식 서버로부터 음성 인식 결과가 수신되는 등의 과정을 통해 음성 인식 시스템(700)에 음성 인식 결과가 제공되면, 음성 인식 시스템(700)은 이러한 제공된 음성 인식 결과에서 단어열과 후보 단어를 확인할 수 있다.

단계(840)에서 음성 인식 시스템(700)은 단어열을 디스플레이 장치를 통해 표시하되, 후보 단어가 존재하는 적어도 하나의 단어를 단어열의 나머지 단어와 구분하여 표시한다. 이때, 음성 인식 시스템(700)은 구분하여 표시된 단어가 사용자에 의해 선택되는 경우, 구분하여 표시된 단어를 후보 단어로 변경하여 표시한다. 만약, 또 다른 후보 단어가 존재하고, 변경된 후보 단어가 다시 사용자에 의해 선택되는 경우, 변경된 후보 단어는 다시 또 다른 후보 단어로 변경될 수 있다.

또한, 음성 인식 시스템(700)은 표시된 단어열의 전체 삭제를 위한 사용자 인터페이스를 제공하는 사용자 인터페이스부(미도시)를 더 포함할 수 있다. 이 경우, 음성 인식 시스템(700)은 사용자 인터페이스를 통해 사용자 입력이 발생하는 경우, 표시된 단어열을 전부 삭제할 수 있다.

도 9는 본 발명의 다른 실시예에 있어서, 음성 인식 시스템의 내부 구성을 설명하기 위한 블록도이다. 본 실시예에 따른 음성 인식 시스템(900)은 도 9에 도시된 바와 같이 음성 인식 결과 생성부(920) 및 음성 인식 결과 제공부(930)를 포함할 수 있고, 필요에 따라 선택적으로 소리 신호 수신부(910)를 포함할 수 있다. 이때, 음성 인식 시스템(900)이 소리 신호 수신부(910)를 포함하는 경우, 음성 인식 시스템(900)은 도 1을 통해 설명한 음성 인식 서버(120)에 대응될 수 있다.

소리 신호 수신부(910)는 단말기의 입력 장치를 통해 입력된 소리 신호를 단말기를 통해 수신한다. 여기서, 단말기는 사용자의 단말기로서 도 1을 통해 설명한 사용자 단말기(110)에 대응될 수 있다. 즉, 사용자 단말기(110)의 입력 장치를 통해 사용자가 발화한 소리 신호가 입력되면, 사용자 단말기(110)는 입력된 소리 신호를 음성 인식 시스템(900)으로 전송할 수 있고, 음성 인식 시스템(900)은 전송된 소리 신호를 수신할 수 있다.

음성 인식 결과 생성부(920)는 소리 신호에 대응하는 단어열 및 단어열에 포함된 적어도 하나의 단어에 대한 후보 단어를 결정하여 음성 인식 결과로서 생성한다. 이때, 음성 인식 결과 생성부(920)는 소리 신호에 대응하여 매칭될 수 있는 가능한 모든 단어열 각각의 확률 중 가장 높은 확률을 갖는 단어열을 음성 인식 결과에 포함될 단어열로서 선택할 수 있다. 또한, 음성 인식 결과 생성부(920)는 적어도 하나의 단어의 인식이 시작된 시각 및 인식이 끝난 시각에 기초한 시간 범위 내에 소리 신호에 따라 인식된 다른 단어들 중 적어도 하나의 단어를 음성 인식 결과에 포함될 후보 단어로서 선택할 수 있다. 여기서, 다른 단어들 중 적어도 하나의 단어는, 다른 단어들 각각에 대해 계산되는 신뢰도에 기초하여 선택될 수 있고, 시간 범위는 인식이 시작된 시각 및 인식이 끝난 시각 그리고 인식이 끝난 시각에 부여되는 기선정된 허용 시간값을 통해 결정될 수 있다.

음성 인식 결과 제공부(930)는 사용자의 단말기로 음성 인식 결과를 제공한다. 이때, 제공된 음성 인식 결과에 포함된 단어열은 단말기의 디스플레이 장치를 통해 표시되고, 후보 단어가 존재하는 적어도 하나의 단어는 단어열의 나머지 단어와 구분되어 표시된다. 또한, 구분하여 표시된 단어가 단말기에서 사용자에 의해 선택되는 경우, 구분하여 표시된 단어가 후보 단어로 변경되어 표시된다.

이러한 단말기에서, 표시된 단어열의 전체 삭제를 위한 사용자 인터페이스가 제공될 수 있고, 이때, 사용자 인터페이스를 통해 사용자 입력이 발생하는 경우, 표시된 단어열이 전부 삭제될 수 있다.

또한, 단어열이 디스플레이 장치를 통해 표시되는 경우, 또는 단어열이 단말기에서 다른 기기로 전송되는 경우, 단어열이 음성 인식을 통해 제공되었음을 나타내는 서명이 단어열과 함께 표시 또는 전송될 수 있다.

도 10은 본 발명의 다른 실시예에 있어서, 음성 인식 방법을 도시한 흐름도이다. 본 실시예에 따른 음성 인식 방법은 도 9을 통해 설명한 음성 인식 시스템(900)에 의해 수행될 수 있다. 도 10에서는 음성 인식 시스템(900)에 의해 각각의 단계가 수행되는 과정을 설명함으로써, 본 실시예에 따른 음성 인식 방법을 설명한다. 이 경우에도 단계(1010) 은 필요에 따라 선택적으로 음성 인식 시스템(700)에 의해 수행될 수 있다.

단계(1010)에서 음성 인식 시스템(900)은 단말기의 입력 장치를 통해 입력된 소리 신호를 단말기를 통해 수신한다. 여기서, 단말기는 사용자의 단말기로서 도 1을 통해 설명한 사용자 단말기(110)에 대응될 수 있다. 즉, 사용자 단말기(110)의 입력 장치를 통해 사용자가 발화한 소리 신호가 입력되면, 사용자 단말기(110)는 입력된 소리 신호를 음성 인식 시스템(900)으로 전송할 수 있고, 음성 인식 시스템(900)은 전송된 소리 신호를 수신할 수 있다.

단계(1020)에서 음성 인식 시스템(900)은 소리 신호에 대응하는 단어열 및 단어열에 포함된 적어도 하나의 단어에 대한 후보 단어를 결정하여 음성 인식 결과로서 생성한다. 이때, 음성 인식 시스템(900)은 소리 신호에 대응하여 매칭될 수 있는 가능한 모든 단어열 각각의 확률 중 가장 높은 확률을 갖는 단어열을 음성 인식 결과에 포함될 단어열로서 선택할 수 있다. 또한, 음성 인식 시스템(900)은 적어도 하나의 단어의 인식이 시작된 시각 및 인식이 끝난 시각에 기초한 시간 범위 내에 소리 신호에 따라 인식된 다른 단어들 중 적어도 하나의 단어를 음성 인식 결과에 포함될 후보 단어로서 선택할 수 있다. 여기서, 다른 단어들 중 적어도 하나의 단어는, 다른 단어들 각각에 대해 계산되는 신뢰도에 기초하여 선택될 수 있고, 시간 범위는 인식이 시작된 시각 및 인식이 끝난 시각 그리고 인식이 끝난 시각에 부여되는 기선정된 허용 시간값을 통해 결정될 수 있다.

단계(1030)에서 음성 인식 시스템(900)은 사용자의 단말기로 음성 인식 결과를 제공한다. 이때, 제공된 음성 인식 결과에 포함된 단어열은 단말기의 디스플레이 장치를 통해 표시되고, 후보 단어가 존재하는 적어도 하나의 단어는 단어열의 나머지 단어와 구분되어 표시된다. 또한, 구분하여 표시된 단어가 단말기에서 사용자에 의해 선택되는 경우, 구분하여 표시된 단어가 후보 단어로 변경되어 표시된다.

도 11은 본 발명의 또 다른 실시예에 있어서, 음성 인식 시스템의 내부 구성을 설명하기 위한 블록도이다. 본 실시예에 따른 음성 인식 시스템(1100)은 도 1에서 설명한 사용자 단말기(110) 및 음성 인식 서버(120)와는 달리 하나의 시스템에서 음성 인식 결과의 생성과 표시가 수행된다. 이러한 음성 인식 시스템(1100)은 도 11에 도시된 바와 같이 음성 인식 결과 확인부(1120) 및 단어열 표시부(1130)를 포함하고, 필요에 따라 선택적으로 음성 인식 결과 생성부(1110)를 포함할 수 있다.

여기서, 음성 인식 결과 생성부(1110)를 포함하지 않는 경우에는 도 7에서 음성 인식 시스템(700)이 소리 신호 전송부(710) 및 음성 인식 결과 수신부(720)를 포함하지 않는 경우와 동일하고, 음성 인식 결과 확인부(1120) 및 단어열 표시부(1130)는 음성 인식 결과 확인부(730) 및 단어열 표시부(740)와 동일하게 동작할 수 있기 때문에 음성 인식 결과 확인부(1120) 및 단어열 표시부(1130)에 대한 반복적인 설명은 생략한다.

음성 인식 결과 생성부(1110)는 입력 장치를 통해 입력되는 소리 신호에 대응하는 음성 인식 결과를 생성한다. 여기서, 음성 인식 결과를 생성하는 방법에 대해서는 이미 자세히 설명하였기 때문에 역시 반복적인 설명은 생략한다.

도 12는 본 발명의 또 다른 실시예에 있어서, 음성 인식 방법을 도시한 흐름도이다. 본 실시예에 따른 음성 인식 방법은 도 11을 통해 설명한 음성 인식 시스템(1100)을 통해 수행될 수 있다. 이때, 단계(1210)는 필요에 따라 음성 인식 시스템(1100)에 의해 수행될 수 있다.

여기서, 단계(1210)를 수행하지 않는 경우에는 도 8에서 음성 인식 시스템(700)이 단계(810) 및 단계(820)를 수행하지 않는 경우와 동일하고, 단계(1220) 및 단계(1230)는 단계(830) 및 단계(840)와 동일하기 때문에 단계(1220) 및 단계(1230) 에 대한 반복적인 설명은 생략한다.

단계(1210)에서 음성 인식 시스템(1100)은 입력 장치를 통해 입력되는 소리 신호에 대응하는 음성 인식 결과를 생성한다. 여기서, 음성 인식 결과를 생성하는 방법에 대해서는 이미 자세히 설명하였기 때문에 역시 반복적인 설명은 생략한다.

도 7 내지 도 12에서 생략된 내용은 도 1 내지 도 6을 참조할 수 있다.

본 발명의 또 다른 실시예에 따른 음성 인식 시스템 및 음성 인식 방법에서는 후보 단어를 리스트의 형태로 사용자에게 제공할 수도 있다. 예를 들어, 도 1을 통해 설명한 사용자 단말기(110)에 대응될 수 있는 음성 인식 시스템은 입력 장치를 통해 입력되는 소리 신호를 음성 인식 서버로 전송하고, 소리 신호에 대응하는 음성 인식 결과를 음성 인식 서버를 통해 수신할 수 있다. 이때, 음성 인식 시스템은 음성 인식 결과로서, 단어열 및 단어열에 포함된 적어도 하나의 단어에 대한 후보 단어가 제공되는 경우, 단어열 및 후보 단어를 확인하여 단어열을 디스플레이 장치를 통해 표시하되, 후보 단어가 존재하는 적어도 하나의 단어를 단어열의 나머지 단어와 구분하여 표시할 수 있다.

이때, 음성 인식 시스템은 구분하여 표시된 단어가 사용자에 의해 선택되는 경우, 구분하여 표시된 단어에 대한 후보 단어들을 리스트의 형태로 표시할 수 있다. 일례로 도 7의 단어열 표시부(740)는 구분하여 표시된 단어가 사용자에 의해 선택되는 경우, 구분하여 표시된 단어의 후보 단어 중 적어도 하나의 후보 단어를 포함하는 리스트를 표시할 수 있다. 이 경우, 단어열 표시부(740)는 구분하여 표시된 단어를 표시된 리스트에서 사용자에 의해 선택되는 후보 단어로 변경하여 표시할 수 있다. 이는 다른 실시예들에서도 동일하게 적용될 수 있다.

도 13은 본 발명의 또 다른 실시예에 있어서, 사용자에 의해 선택된 단어의 후보 단어를 표시한 화면의 일례이다. 여기서, 디스플레이 화면(1300)은 사용자에 의해 선택된 단어 '해조요'(1310)와 단어 '해조요'(1310)의 후보 단어들(1320 내지 1350)를 나타내고 있다. 사용자는 이와 같이 제시된 후보 단어들(1320 내지 1350) 중에서 단어 '해조요'(1310)를 대체하기 위한 후보 단어를 선택할 수 있다. 예를 들어, 도 13의 일례에서 사용자는 후보 단어 '해줘요'(1320)를 선택할 수 있고, 이 경우, 음성 인식 시스템은 단어 '해조요'(1310)를 후보 단어 '해줘요'(1320)로 변경하여 표시할 수 있다.

이와 같이, 음성 인식 시스템은 구분하여 표시된 단어가 사용자에 의해 선택되는 경우, 구분하여 표시된 단어에 대한 후보 단어들을 리스트의 형태로 표시하고, 표시된 후보 단어들 중 사용자에 의해 선택된 후보 단어를, 처음 구분하여 표시된 단어 중 사용자에 의해 선택된 단어와 변경하여 표시할 수 있다.

본 발명의 실시예들에 따르면, 사용자에게 음성 인식 결과에 따른 문자열을 표시하여 사용자에게 제공하되, 후보 단어가 존재하는 단어를 문자열 상의 다른 단어들과 구분하여 표시하고, 후보 단어가 존재하는 단어에 대한 사용자의 선택에 따라 해당 단어를 후보 단어로 변경하여 표시함으로써, 단 한번의 선택으로 사용자가 음성 인식 결과를 단어별로 수정할 수 있다. 또한, 소리 신호에 대응하여 매칭될 수 있는 가능한 모든 단어열 각각의 확률 중 가장 높은 확률을 갖는 단어열을 선택하고, 선택된 단어열에 포함된 단어의 인식이 시작된 시각 및 인식이 끝난 시각에 기초한 시간 범위 내에서 소리 신호에 대해 인식된 다른 단어들 중에서 다른 단어들 각각에 대해 계산되는 신뢰도를 이용하여 선택되는 적어도 하나의 단어를 후보 단어로서 설정함으로써, 보다 정확한 단어별 결과를 제공할 수 있다. 뿐만 아니라, 표시된 단어열 전체를 한번에 삭제할 수 있는 사용자 인터페이스를 제공함으로써, 표시된 단어열이 전혀 엉뚱한 결과인 경우 사용자가 직접 문장을 입력하거나 또는 다시 음성 인식 과정을 진행하도록 할 수 있으며, 음성 인식을 통해 작성되는 문장인 단어열에 대해, 해당 단어열이 음성 인식을 통해 작성되었음을 나타내는 서명을 단어열과 함께 표시 또는 전송함으로써, 표시된 단어열을 확인하는 사용자 또는 이러한 단어열을 SMS, 이메일 등으로 전송받은 사용자가 해당 단어열이 음성 인식을 통해 작성되었음을 확인할 수 있다.

본 발명의 실시예에 따른 방법들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 또한, 상술한 파일 시스템은 컴퓨터 판독이 가능한 기록 매체에 기록될 수 있다.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.

그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

110: 사용자 단말기
120: 음성 인식 서버

Claims

모바일 단말기를 통해 음성 인식 결과를 표시하는 음성 인식 시스템에 있어서,
입력 장치를 통해 입력되는 소리 신호를 음성 인식 서버로 전송하는 소리 신호 전송부;
상기 소리 신호에 대응하는 상기 음성 인식 결과를 상기 음성 인식 서버를 통해 수신하는 음성 인식 결과 수신부;
상기 음성 인식 결과로서, 단어열 및 상기 단어열에 포함된 적어도 하나의 단어에 대한 후보 단어가 제공되는 경우, 상기 단어열 및 상기 후보 단어를 확인하는 음성 인식 결과 확인부; 및
상기 단어열을 상기 모바일 단말기의 디스플레이 장치를 통해 표시하되, 상기 후보 단어가 존재하는 적어도 하나의 단어를 상기 단어열의 나머지 단어와 구분하여 표시하는 단어열 표시부
를 포함하고,
상기 단어열 표시부는,
상기 구분하여 표시된 단어가 사용자에 의해 선택될 때 마다 상기 구분하여 표시된 단어를 신뢰도에 따라 정렬된 상기 후보 단어의 정렬 순서에 따라 해당하는후보 단어로 순차적으로 변경하여 표시하고,
상기 후보 단어는,
상기 음성 인식 서버에서 상기 적어도 하나의 단어의 인식이 시작된 시각, 상기 인식이 끝난 시각 및 상기 인식이 끝난 시각에 부여되는 기선정된 허용 시간값을 통해 결정되는 시간 범위 내에 상기 소리 신호에 따라 인식된 다른 단어들 중 적어도 하나의 단어로서 선택되는 것을 특징으로 하는, 음성 인식 시스템.
제1항에 있어서,
상기 표시된 단어열의 전체 삭제를 위한 사용자 인터페이스를 제공하는 사용자 인터페이스부
를 더 포함하고,
상기 단어열 표시부는,
상기 사용자 인터페이스를 통해 사용자 입력이 발생하는 경우, 상기 표시된 단어열을 전부 삭제하는 것을 특징으로 하는, 음성 인식 시스템.
제1항에 있어서,
상기 단어열이 상기 디스플레이 장치를 통해 표시되는 경우, 또는 상기 단어열이 다른 기기로 전송되는 경우, 상기 단어열이 음성 인식을 통해 제공되었음을 나타내는 서명이 상기 단어열과 함께 표시 또는 전송되는 것을 특징으로 하는, 음성 인식 시스템.
삭제
제1항에 있어서,
입력 장치를 통해 입력되는 소리 신호에 대응하는 상기 음성 인식 결과를 생성하는 음성 인식 결과 생성부
를 더 포함하는, 음성 인식 시스템.
제1항에 있어서,
상기 단어열은, 상기 음성 인식 서버에서 상기 소리 신호에 대응하여 매칭될 수 있는 가능한 모든 단어열 각각의 확률 중 가장 높은 확률을 갖는 단어열로서 선택되는 것을 특징으로 하는, 음성 인식 시스템.
삭제
제1항에 있어서,
상기 다른 단어들 중 적어도 하나의 단어는, 상기 다른 단어들 각각에 대해 계산되는 신뢰도(confidence)에 기초하여 선택되는 것을 특징으로 하는, 음성 인식 시스템.
삭제
모바일 단말기를 통해 음성 인식 결과를 표시하는 음성 인식 시스템에 있어서,
상기 모바일 단말기의 입력 장치를 통해 입력된 소리 신호를 상기 모바일 단말기를 통해 수신하는 소리 신호 수신부;
상기 소리 신호에 대응하는 단어열 및 상기 단어열에 포함된 적어도 하나의 단어에 대한 후보 단어를 결정하여 음성 인식 결과로서 생성하는 음성 인식 결과 생성부; 및
상기 모바일 단말기로 상기 음성 인식 결과를 제공하는 음성 인식 결과 제공부
를 포함하고,
상기 모바일 단말기의 디스플레이 장치에서 상기 단어열이 표시되고,
상기 후보 단어가 존재하는 적어도 하나의 단어는 상기 단어열의 나머지 단어와 구분되어 표시되고,
상기 구분하여 표시된 단어가 상기 모바일 단말기에서 사용자에 의해 선택될 때 마다 상기 구분하여 표시된 단어는 신뢰도에 따라 정렬된 상기 후보 단어의 정렬 순서에 따라 해당하는 후보 단어로 순차적으로 변경되어 표시되고,
상기 음성 인식 결과 생성부는,
상기 적어도 하나의 단어의 인식이 시작된 시각, 상기 인식이 끝난 시각 상기 인식이 끝난 시각에 부여되는 기선정된 허용 시간값을 통해 결정되는 시간 범위 내에 상기 소리 신호에 따라 인식된 다른 단어들 중 적어도 하나의 단어를 상기 음성 인식 결과에 포함될 후보 단어로서 선택하는 것을 특징으로 하는, 음성 인식 시스템.
제10항에 있어서,
상기 모바일 단말기에서 상기 표시된 단어열의 전체 삭제를 위한 사용자 인터페이스가 제공되고,
상기 사용자 인터페이스를 통해 사용자 입력이 발생하는 경우, 상기 표시된 단어열이 전부 삭제되는 것을 특징으로 하는, 음성 인식 시스템.
제10항에 있어서,
상기 단어열이 상기 디스플레이 장치를 통해 표시되는 경우, 또는 상기 단어열이 상기 모바일 단말기에서 다른 기기로 전송되는 경우, 상기 단어열이 음성 인식을 통해 제공되었음을 나타내는 서명이 상기 단어열과 함께 표시 또는 전송되는 것을 특징으로 하는, 음성 인식 시스템.
삭제
제10항에 있어서,
상기 음성 인식 결과 생성부는,
상기 소리 신호에 대응하여 매칭될 수 있는 가능한 모든 단어열 각각의 확률 중 가장 높은 확률을 갖는 단어열을 상기 음성 인식 결과에 포함될 단어열로서 선택하는 것을 특징으로 하는, 음성 인식 시스템.
삭제
제10항에 있어서,
상기 다른 단어들 중 적어도 하나의 단어는, 상기 다른 단어들 각각에 대해 계산되는 신뢰도(confidence)에 기초하여 선택되는 것을 특징으로 하는, 음성 인식 시스템.
삭제
삭제
삭제
모바일 단말기를 통해 음성 인식 결과를 표시하는 음성 인식 방법에 있어서,
입력 장치를 통해 입력되는 소리 신호를 음성 인식 서버로 전송하는 단계;
상기 소리 신호에 대응하는 상기 음성 인식 결과를 상기 음성 인식 서버를 통해 수신하는 단계;
상기 음성 인식 결과로서, 단어열 및 상기 단어열에 포함된 적어도 하나의 단어에 대한 후보 단어가 제공되는 경우, 상기 단어열 및 상기 후보 단어를 확인하는 단계; 및
상기 단어열을 상기 모바일 단말기의 디스플레이 장치를 통해 표시하되, 상기 후보 단어가 존재하는 적어도 하나의 단어를 상기 단어열의 나머지 단어와 구분하여 표시하는 단계
를 포함하고,
상기 표시하는 단계는,
상기 구분하여 표시된 단어가 사용자에 의해 선택될 때 마다 상기 구분하여 표시된 단어를 신뢰도에 따라 정렬된 상기 후보 단어의 정렬 순서에 따라 해당하는 후보 단어로 순차적으로 변경하여 표시하는 단계를 포함하고,
상기 후보 단어는,
상기 음성 인식 서버에서 상기 적어도 하나의 단어의 인식이 시작된 시각, 상기 인식이 끝난 시각 및 상기 인식이 끝난 시각에 부여되는 기선정된 허용 시간값을 통해 결정되는 시간 범위 내에 상기 소리 신호에 따라 인식된 다른 단어들 중 적어도 하나의 단어로서 선택되는 것을 특징으로 하는, 음성 인식 방법.
모바일 단말기를 통해 음성 인식 결과를 표시하는 음성 인식 방법에 있어서,
상기 모바일 단말기의 입력 장치를 통해 입력된 소리 신호를 상기 모바일 단말기를 통해 수신하는 단계;
상기 소리 신호에 대응하는 단어열 및 상기 단어열에 포함된 적어도 하나의 단어에 대한 후보 단어를 결정하여 음성 인식 결과로서 생성하는 단계; 및
상기 모바일 단말기로 상기 음성 인식 결과를 제공하는 단계
를 포함하고,
상기 모바일 단말기의 디스플레이 장치에서 상기 단어열이 표시되고,
상기 후보 단어가 존재하는 적어도 하나의 단어는 상기 단어열의 나머지 단어와 구분되어 표시되고,
상기 구분하여 표시된 단어가 상기 모바일 단말기에서 사용자에 의해 선택될 때 마다 상기 구분하여 표시된 단어는 신뢰도에 따라 정렬된 상기 후보 단어의 정렬 순서에 따라 해당하는 후보 단어로 순차적으로 변경되어 표시되고,
상기 음성 인식 결과로서 생성하는 단계는,
상기 적어도 하나의 단어의 인식이 시작된 시각, 상기 인식이 끝난 시각 상기 인식이 끝난 시각에 부여되는 기선정된 허용 시간값을 통해 결정되는 시간 범위 내에 상기 소리 신호에 따라 인식된 다른 단어들 중 적어도 하나의 단어를 상기 음성 인식 결과에 포함될 후보 단어로서 선택하는 단계를 포함하는 것을 특징으로 하는, 음성 인식 방법.
삭제
삭제
제20항 및 제21항 중 어느 한 항의 방법을 수행하는 프로그램을 기록한 컴퓨터 판독 가능 기록 매체.