KR100998566B1

KR100998566B1 - 음성인식을 이용한 언어 번역 방법 및 장치

Info

Publication number: KR100998566B1
Application number: KR1020080078247A
Authority: KR
Inventors: 김유진; 신원호
Original assignee: 엘지전자 주식회사
Priority date: 2008-08-11
Filing date: 2008-08-11
Publication date: 2010-12-07
Also published as: KR20100019596A; US8407039B2; US20100036653A1; US20130282359A1

Abstract

본 발명은 음성인식을 이용한 언어 번역 방법 및 장치에 관한 것이다. 본 발명은, 제1 언어로 구성된 음성을 입력받는 단계; 상기 입력된 음성에 대한 음성인식을 수행하여, 상기 입력된 음성에 대응되는 적어도 하나의 인식후보를 획득하는 단계; 상기 획득된 적어도 하나의 인식후보 중 적어도 하나를 선택하기 위한 사용자 인터페이스를 제공하는 단계; 및 상기 선택된 적어도 하나의 인식후보에 대응되는 제2 언어를 출력하는 단계를 포함하고, 상기 사용자 인터페이스의 종류는, 상기 획득된 적어도 하나의 인식후보의 개수에 따라 정해지는 것을 특징으로 하는 음성인식을 이용한 언어 번역 방법과, 이를 구현하기 위한 음성인식을 이용한 언어 번역 장치를 제공한다.

음성인식, 사용자 인터페이스

Description

음성인식을 이용한 언어 번역 방법 및 장치 {Method And Apparatus Of Translating Language Using Voice Recognition}

본 발명은 음성인식을 이용한 언어 번역에 관한 것이다. 보다 상세하게는, 사용자로부터 입력된 음성에 대한 음성인식 결과에 따라 다양한 사용자 인터페이스를 제공함으로써, 사용자가 자신이 원하는 번역 결과를 효율적으로 제공받을 수 있도록 하는 음성인식을 이용한 언어 번역 방법 및 장치에 관한 것이다.

음성인식 기술은, 컴퓨터가 인간의 음성을 알아들을 수 있는 기능을 구현하는 기술이다. 최근 기존의 텍스트 입력 기반의 언어 번역 시스템을 휴대 가능한 상황에서 편리하게 이용할 수 있도록 하기 위해 음성인식 기술이 적용되고 있다. 특히 미국에서는 군사적 목적의 휴대용 음성 번역 시스템을 개발하여 상용화하기도 했다.

종래의 번역 시스템은 언어 처리 기술의 한계로 인하여 한정된 상황 또는 문맥(context)에 대한 표현만을 번역해준다. 따라서 번역 시스템은 사용자가 경험할 수 있는 한정된 상황을 가정하고 그때 유용하게 사용될 수 있는 문장에 대한 번역 결과를 미리 내장하고 있다. 종래의 번역 시스템은 한정된 상황을 '여행', '호텔', '식당', '교통' 등의 주제별 카테고리(category)로 분류하고 각 카테고리에 유용한 수백 개의 표현을 내장한다. 따라서 종래의 번역 시스템에서는 사용자가 원하는 표현을 입력하기 위해서는 먼저 카테고리를 선택한 후 자신이 원하는 표현을 선택해야 한다.

종래의 번역 시스템에서, 카테고리를 먼저 선택하는 이유는, 인식해야 할 표현의 후보의 개수를 줄임으로써 결과적으로 인식율을 높이기 위해서이다. 즉 사용자가 카테고리를 선택하지 않고 번역 시스템에 내장된 전체 표현들을 대상으로 인식을 시도할 경우, 카테고리에 따라 유사한 표현이 많은 경우 오인식의 가능성이 높아질 뿐만 아니라, 시스템의 처리 속도에도 악영향을 미치게 된다. 따라서 사용자의 입장에서도 자신이 원하는 표현이 어떤 카테고리에 속하는지를 미리 알고 있어야 하는 불편함이 있다.

본 발명은 상기와 같은 문제점을 해결하고 최근의 추세와 요청에 따라 제안된 것으로서, 사용자가 말하는 언어의 번역 결과를 효율적으로 제공할 수 있도록 하는 음성인식을 이용한 언어 번역 방법 및 장치를 제공하는데 그 목적이 있다.

본 발명의 다른 목적은, 사용자로부터 입력된 음성에 대한 음성인식의 수행 결과에 따라 서로 다른 사용자 인터페이스를 제공함으로써, 사용자가 자신이 원하는 언어 번역 결과를 쉽고 빠르게 제공받을 수 있는 언어 번역 방법 및 장치를 제공하는 것이다.

본 발명의 또 다른 목적은, 사용자의 음성에 대한 음성인식의 수행 결과 획득된 번역 결과를 수정할 수 있는 사용자 인터페이스를 제공함으로써, 사용자가 자신이 원하는 언어 번역 결과를 간편하게 제공받을 수 있는 언어 번역 방법 및 장치를 제공하는 것이다.

상기의 목적을 달성하기 위한 본 발명의 제1 양상으로서, 본 발명에 따른 음성인식을 이용한 언어 번역 방법은, 제1 언어로 구성된 음성을 입력받는 단계; 상기 입력된 음성에 대한 음성인식을 수행하여, 상기 입력된 음성에 대응되는 적어도 하나의 인식후보를 획득하는 단계; 상기 획득된 적어도 하나의 인식후보 중 적어도 하나를 선택하기 위한 사용자 인터페이스를 제공하는 단계; 및 상기 선택된 적어도 하나의 인식후보에 대응되는 제2 언어를 출력하는 단계를 포함하고, 상기 사용자 인터페이스의 종류는, 상기 획득된 적어도 하나의 인식후보의 개수에 따라 정해지는 것을 특징으로 하여 이루어진다.

상기의 목적을 달성하기 위한 본 발명의 제2 양상으로서, 본 발명에 따른 음성인식을 이용한 언어 번역 방법은, 제1 언어로 구성된 음성을 입력받는 단계; 상기 입력된 음성에 대한 음성인식을 수행하여, 상기 입력된 음성에 대응되는 적어도 하나의 인식후보를 각각 포함하는 적어도 하나의 카테고리를 출력하는 단계; 상기 적어도 하나의 카테고리 중 일부의 카테고리가 선택되는 단계; 상기 선택된 일부의 카테고리에 포함된 상기 적어도 하나의 인식후보를 출력하는 단계; 상기 출력된 적어도 하나의 인식후보 중 어느 하나가 선택되는 단계; 및 상기 선택된 인식후보에 대응되고 제2 언어로 구성된 번역데이터를 출력하는 단계를 포함하여 이루어진다.

상기의 목적을 달성하기 위한 본 발명의 제3 양상으로서, 본 발명에 따른 음성인식을 이용한 언어 번역 방법은, 제1 언어로 구성된 음성을 입력받는 단계; 상기 입력된 음성에 대한 음성인식을 수행하여, 상기 입력된 음성에 대응되는 적어도 하나의 인식후보를 획득하는 단계; 상기 입력된 음성과 관련된 일부 표현을 입력받기 위한 사용자 인터페이스를 제공하는 단계; 상기 사용자 인터페이스를 통해 상기 입력된 음성과 관련되는 일부 표현을 입력받는 단계; 상기 획득된 적어도 하나의 인식후보 중 상기 입력된 일부 표현과 관련된 적어도 하나의 인식후보를 출력하는 단계; 상기 입력된 일부 표현과 관련된 적어도 하나의 인식후보 중 어느 하나가 선택되는 단계; 및 상기 선택된 인식후보에 대응되고 제2 언어로 구성된 번역데이터를 출력하는 단계를 포함하여 이루어진다.

상기의 목적을 달성하기 위한 본 발명의 제4 양상으로서, 본 발명에 따른 음성인식을 이용한 언어 번역 장치는, 제1 언어로 구성된 음성을 입력받는 음성 입력부; 상기 입력된 음성에 대한 음성인식을 수행하여, 상기 입력된 음성에 대응되는 적어도 하나의 인식후보를 획득하는 음성 인식부; 상기 획득된 적어도 하나의 인식후보 중 적어도 하나를 선택하기 위한 복수의 사용자 인터페이스들과, 상기 제1 언어와 제2 언어를 복수의 카테고리별로 대응시킨 데이터베이스를 저장하는 메모리; 및 상기 획득된 적어도 하나의 인식후보의 개수에 따라 상기 복수의 사용자 인터페이스들 중 어느 하나의 사용자 인터페이스를 제공하고, 상기 제공된 사용자 인터페이스를 통해 상기 획득된 적어도 하나의 인식후보 중 적어도 하나에 대한 선택신호를 수신하고, 상기 데이터베이스를 참조하여 상기 선택된 적어도 하나의 인식후보에 대응되는 상기 제2 언어로 구성된 번역데이터를 출력하는 제어부를 포함하여 이루어진다.

상기의 목적을 달성하기 위한 본 발명의 제5 양상으로서, 본 발명에 따른 음성인식을 이용한 언어 번역 방법은, 음성 인식 기능을 제공하고 디스플레이를 구비한 전자 기기에서, 음성 인식을 이용한 언어 번역 방법에 있어서, 제1 언어로 구성되고 복수의 단어들을 포함하는 음성을 입력받는 단계; 상기 입력된 음성에 대해 단어 단위로 음성인식을 수행하여, 상기 입력된 음성에 대응되는 인식후보를 획득하는 단계; 상기 복수의 단어들 중 신뢰도가 기준값 이하인 단어가 다른 단어와 구별되도록 상기 인식후보를 상기 디스플레이에 표시하는 단계; 상기 신뢰도가 기준값 이하인 단어가 새로운 단어로 변경되는 단계; 및 상기 신뢰도가 기준값 이하인 단어에 대해 상기 새로운 단어에 대응되는 제2 언어로 대체하여, 상기 인식후보에 대응되는 제2 언어를 상기 디스플레이에 표시하는 단계를 포함하여 이루어진다.

상기의 목적을 달성하기 위한 본 발명의 제6 양상으로서, 본 발명에 따른 음성인식을 이용한 언어 번역 방법은, 음성 인식 기능을 제공하고 디스플레이를 구비한 전자 기기에서, 음성 인식을 이용한 언어 번역 방법에 있어서, 제1 언어로 구성되고 복수의 단어들을 포함하는 음성을 입력받는 단계; 및 상기 입력된 음성에 대해 단어 단위로 음성인식을 수행하여, 상기 입력된 음성에 대응되는 제2 언어로 구성된 번역 데이터를 상기 디스플레이에 표시하는 단계를 포함하고, 상기 번역 데이터를 표시하는 단계는, 상기 복수의 단어들 중 신뢰도가 기준값 이하인 단어에 대응되는 제2 언어로 구성된 단어를, 상기 번역 데이터를 구성하는 다른 단어와 구별되게 표시하는 것을 특징으로 하여 이루어진다.

상기의 목적을 달성하기 위한 본 발명의 제7 양상으로서, 본 발명에 따른 음성인식을 이용한 언어 번역 방법은, 음성 인식 기능을 제공하는 전자 기기에서, 음성 인식을 이용한 언어 번역 방법에 있어서, (a) 제1 언어로 구성된 음성을 입력받는 단계; (b) 상기 입력된 음성에 대해 음성인식을 수행하여, 상기 입력된 음성에 대응되는 제2 언어로 구성된 번역 데이터를 획득하는 단계; (c) 미리 정해진 제1 명령 신호를 수신한 경우, 상기 번역 데이터를 번역 파일에 저장하는 단계; 및 (d) 미리 정해진 제2 명령 신호를 수신할 때까지, 상기 (a) 단계 내지 상기 (c) 단계를 반복 수행하는 단계를 포함하고, 상기 반복 수행마다 획득되는 상기 번역 데이터는, 상기 번역 파일에 추가되어 저장되는 것을 특징으로 하여 이루어진다.

본 발명에 따른 음성인식을 이용한 언어 번역 방법 및 장치에 의하면 다음과 같은 효과가 있다.

본 발명에 의하면, 사용자로부터 입력된 음성에 대한 음성인식의 수행 결과에 따라 서로 다른 사용자 인터페이스를 제공함으로써, 사용자에게 언어의 번역 결과를 효율적으로 제공할 수 있다.

본 발명에 의하면, 음성인식을 수행한 결과 인식 후보가 많은 경우라도, 사용자에게 적절한 사용자 인터페이스를 제공함으로써, 사용자는 최소한의 탐색 과정을 거쳐 자신이 원하는 언어 번역 결과를 제공받을 수 있다.

본 발명에 의하면, 사용자가 자신이 원하는 언어 번역 결과가 속하는 카테고리를 모르더라도 언어 번역 결과를 쉽고 빠르게 찾을 수 있다.

본 발명에 의하면, 사용자가 자신이 원하는 언어 번역 결과를 얻지 못하는 경우, 음성 인식의 수행 결과 획득되는 인식 후보 및 번역 결과를 수정함으로써, 사용자에게 편리한 사용자 인터페이스를 제공할 수 있다.

본 발명의 상술한 목적, 특징들 및 장점은 첨부된 도면과 관련된 다음의 상세한 설명을 통하여 보다 분명해질 것이다. 이하 첨부된 도면을 참조하여 본 발명에 따른 실시예들을 상세히 설명한다. 명세서 전체에 걸쳐서 동일한 참조번호들은 동일한 구성요소들을 나타낸다. 또한, 본 발명과 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우, 그 상세한 설명을 생략한다.

음성인식 기술은 패턴 매칭 기법의 응용이라 볼 수 있다. 즉 인식 대상 단어 또는 음소의 특징 파라미터를 미리 저장하여 놓고 음성이 입력되면 이를 분석하여 특징을 추출한 후 미리 저장되어 있는 단어 또는 음소의 특징들과 유사도(likelihood)를 측정하여 가장 유사한 것을 인식 결과로 출력한다. 음성은 시간의 진행에 따라 변화하므로 음성의 특성은 짧은 구간(frame) 동안에만 안정적인 특성을 갖는다. 따라서 음성의 특징은 각 프레임별로 분석되어 특징벡터가 생성되며 이 특징벡터들의 열로써 표현된다.

음성인식의 방법은 크게 두 가지로 분류된다. 첫째, 음성을 일종의 패턴으로 간주하여 등록되어 있는 패턴과 입력되는 패턴과의 유사도를 측정하여 인식하는 방법이 있다. 둘재, 음성이 발성되는 과정을 모델링하여 각 대상 단어 또는 음소마다 고유의 모델을 할당하여 입력되는 음성이 어떤 음성모델로부터 발생되었을 확률이 가장 높은지를 측정하여 인식하는 방법이 있다. 이외에도, 신경회로망을 이용하는 방법, 여러 가지 방법의 혼합형태 등이 있다. 음성인식 과정에는, 이와 같은 신호처리 측면 이외에도, 언어 체계와 관련된 지식정보를 포함하는 언어모델(language model)이 적용될 수 있다.

도 1은 본 발명의 일 실시예에 따른 음성인식을 이용한 언어 번역 장치(10)의 블록 구성도이다. 본 발명의 일 실시예에 따른 음성인식을 이용한 언어 번역 장치(10)는, 음성 입력부(101), 음성 인식부(103), 음성 합성부(105), 통신부(107), 메모리(109), 표시부(111), 터치 디바이스(113), 키 입력부(115), 음성 출력부(117) 및 제어부(119)를 포함하여 구성될 수 있다.

상기 음성 입력부(101)는, 사용자의 음성 신호를 입력받는다. 예를 들어, 상기 음성 입력부(10)는 마이크(MIC)에 해당할 수 있다.

상기 메모리(109)는, 상기 언어 번역 장치(10)의 전반적인 동작을 제어하는 소정의 프로그램을 저장하고 있으며, 상기 제어부(119)에 의해 상기 언어 번역 장치(10)의 전반적인 동작이 수행될 때 입출력되는 데이터 및 처리되는 각종 데이터를 일시적으로 또는 영구적으로 저장할 수 있다.

상기 메모리(109)는, 본 발명의 동작에 필요한 음향 모델, 인식 사전 및 번역 데이터베이스를 포함할 수 있다. 또한 상기 메모리(109)는, 언어 모델을 포함할 수 있다.

상기 인식 사전은, 특정 언어로 구성되는 단어, 어절, 키워드 및 표현 중 적어도 하나를 포함할 수 있다.

상기 번역 데이터베이스는, 복수의 언어들을 서로 매칭시킨 데이터를 포함한다. 예를 들어, 상기 번역 데이터베이스는, 제1 언어(한국어)와 제2 언어(영어/일본어/중국어)를 서로 매칭시킨 데이터를 포함할 수 있다. 상기 제2 언어는, 상기 제1 언어와 구분하기 위한 용어로서, 복수의 언어일 수 있다. 예를 들어, 상기 번역 데이터베이스는, 한국어 "예약하고 싶습니다."를 영어 "I'd like to make a reservation."에 매칭시킨 데이터를 포함할 수 있다.

상기 번역 데이터베이스는, 상기 제1 언어와 상기 제2 언어를 카테고리별로 대응시킬 수 있다. 상기 카테고리는, 주제별 또는 언어별일 수 있다. 주제별 카테고리의 예를 들면, "일반", "여행", "호텔", "비행기", "쇼핑", "관공서" 등일 수 있다. 언어별 카테고리의 예를 들면, "영어", "일본어", "중국어", "스페인어" 등일 수 있다.

상기 음성 인식부(103)는, 상기 음성 입력부(101)를 통해 입력된 음성 신호에 대한 음성인식을 수행하고, 상기 인식된 음성에 대응되는 적어도 하나의 인식후보를 획득한다. 예를 들어, 상기 음성 인식부(103)는, 상기 입력된 음성신호로부터 음성구간을 검출하고 음향분석을 수행한 후 이를 인식 단위로 인식함으로써 상기 입력된 음성 신호를 인식할 수 있다. 그리고 상기 음성 인식부(103)는, 상기 메모리(109)에 저장된 인식 사전과 번역 데이터베이스를 참조하여 상기 음성인식된 결과에 대응되는 상기 적어도 하나의 인식후보를 획득할 수 있다.

상기 음성 합성부(105)는, TTS(Text-To-Speech) 엔진을 이용하여 텍스트를 음성으로 변환한다. TTS 기술은 문자 정보 또는 기호를 인간의 음성으로 변환하여 들려주는 기술이다. TTS 기술은, 언어의 모든 음소에 대한 발음 데이터베이스를 구축하고 이를 연결시켜 연속된 음성을 생성하게 되는데, 이때 음성의 크기, 길이, 높낮이 등을 조절하여 자연스러운 음성을 합성해 내는 것으로서 이를 위해 자연어 처리 기술이 포함될 수 있다. TTS 기술은 CTI, PC, PDA 및 이동전화 등의 전자통신 분야와 녹음기, 장난감, 게임기 등의 가전 분야에서 쉽게 볼 수 있고, 공장에서 생산성 향상에 기여하거나 보다 편리한 일상생활을 위한 홈오토메이션 시스템 등에 널리 쓰여지고 있다. TTS 기술은 공지 기술이므로 더 이상의 상세한 설명은 생략하 기로 한다.

상기 통신부(107)는, 상기 언어 번역 장치(10)의 외부에 존재하는 유선 또는 무선 네트워크에 접속하여 데이터를 송신하거나 수신하거나 송수신한다. 예를 들어, 상기 통신부(107)는, 방송국으로부터 방송신호를 수신하는 방송수신 모듈, 이동통신망에 접속하여 데이터를 송수신할 수 있는 이동통신 모듈, WiBRO 또는 WiMAX와 같은 휴대인터넷망에 접속하여 데이터를 송수신할 수 있는 휴대인터넷 모듈 중 적어도 하나를 포함할 수 있다. 상기 통신부(107)를 통해 상기 메모리(109)에 저장된 인식 사전과 번역 데이터베이스가 업데이트될 수 있다.

상기 표시부(111)는, 상기 제어부(119)로부터 출력되는 제어 신호에 의해 각종 정보를 표시한다.

상기 터치 디바이스(113)는, 외부의 터치를 인식할 수 있는 입력 장치이다. 예를 들어, 사용자는 손가락이나 스타일러스 펜을 이용하여 상기 터치 디바이스(113)의 어느 지점을 터치함으로써 각종 정보나 명령을 입력할 수 있다. 상기 터치 디바이스(113)의 예를 들면, 터치 패드(touch pad), 터치 스크린(touch screen) 등이 있다. 상기 표시부(111)와 상기 터치 디바이스(113)가 일체화된 장치를 일반적으로 터치 스크린이라고 한다. 본 발명에서 언급되는 터치 입력은, 물리적 터치(physical touch)와 근접 터치(proximity touch)를 모두 포함한다.

상기 키 입력부(115)는, 적어도 하나의 키(key)를 포함하는 입력 장치로서, 사용자는 상기 키 입력부(115)를 통해 각종 정보나 명령을 입력할 수 있다.

상기 음성 출력부(117)는, 스피커를 통해 음성을 출력하는 장치이다. 예를 들어, 상기 음성 출력부(117)는, 상기 음성 합성부(105)로부터 음성 신호를 전달받아 출력할 수 있다.

상기 제어부(119)는, 상기 구성요소들을 제어하고, 본 발명의 실시예들에 따른 언어 번역 장치(10)의 전반적인 동작을 총괄한다.

이하 필요한 도면들을 참조하여, 본 발명의 실시예들에 따른 음성인식을 이용한 언어 번역 장치(10)의 구체적인 동작과, 본 발명의 실시예들에 따른 음성인식을 이용한 언어 번역 방법을 상세히 설명하기로 한다. 이하에서는 편의상 상기 표시부(111)와 상기 터치 디바이스(113)를 터치 스크린(111, 113)으로 설명하기로 한다.

<음성인식 결과에 따른 사용자 인터페이스의 제공>

도 2는 본 발명의 제1 실시예에 따른 음성인식을 이용한 언어 번역 방법의 흐름도이다. 본 발명의 제1 실시예에 따른 음성인식을 이용한 언어 번역 방법은, 도 1에 도시된 언어 번역 장치(10)에서 실행될 수 있다. 이하 본 발명의 제1 실시예에 따른 음성인식을 이용한 언어 번역 방법과, 이를 구현하기 위한 언어 번역 장치(10)의 구체적인 동작을 상세히 설명하기로 한다.

먼저, 상기 음성 입력부(101)를 통해 제1 언어로 구성된 음성을 입력받는다[S100]. 예를 들어, 사용자는, 상기 언어 번역 장치(10)에 구비된 마이크를 통해 "예약하고 싶습니다"라고 말한다.

상기 제어부(119)는, 상기 입력된 음성에 대한 음성인식을 수행하여, 상기 입력된 음성에 대응되는 적어도 하나의 인식후보를 획득한다[S110]. 상기 제어부(119)는, 상기 메모리(109)에 저장된 상기 인식 사전 및 상기 번역 데이터베이스를 참조하여 상기 적어도 하나의 인식후보를 획득할 수 있다.

도 3은 상기 S110 단계의 상세 흐름도이다. 상기 제어부(119)는, 상기 입력된 음성의 특징을 추출하여[S111], 음성을 검출하고[S112], 상기 인식 사전을 탐색하여 단어의 스코어를 계산한다[S113]. 상기 S113 단계는, 상기 입력된 음성 중 상기 인식 사전에 등록되어 있는 단어를 찾는다. 그리고 상기 제어부(119)는, 상기 S113 단계에서 탐색한 단어들을 포함하는 문장을 찾기 위해 문장 스코어를 계산한다[S114]. 상기 S114 단계에서 미리 정해진 스코어 이상의 값을 갖는 적어도 하나의 문장을 상기 적어도 하나의 인식후보로 획득하게 된다[S115].

전술한 바와 같이, 상기 번역 데이터베이스는 상기 제1 언어를 주제별 카테고리로 저장할 수 있다. 이 경우, 상기 S110 단계의 수행에 의해 획득되는 상기 적어도 하나의 인식후보는 각각 서로 다른 카테고리에 속할 수 있다.

상기 제어부(119)는, 상기 S110 단계에서 획득된 상기 적어도 하나의 인식후보 중 적어도 하나를 선택하기 위한 사용자 인터페이스를 제공한다[S120]. 상기 사용자 인터페이스의 종류는, 상기 획득된 적어도 하나의 인식후보의 개수에 따라 정해질 수 있다.

상기 S120 단계에서 상기 획득된 인식후보의 개수에 따라 서로 다른 사용자 인터페이스를 제공하는 것은, 사용자가 상기 획득된 인식후보 중 자신이 원하는 인 식후보를 쉽게 선택할 수 있도록 하기 위함이다.

예를 들어, 상기 획득된 인식후보의 개수가 기준값 이상인 경우, 상기 사용자 인터페이스는 카테고리를 선택하기 위한 것일 수 있다. 상기 획득된 인식후보의 개수가 너무 많은 경우, 이를 모두 사용자에게 제공하는 것은 사용자로 하여금 많은 부담과 불편함을 줄 수 있다. 이때 사용자에게 특정 카테고리를 선택하게 하고, 사용자가 선택한 카테고리에 속하는 인식후보만을 사용자에게 제공하게 되면, 사용자는 원하는 번역결과를 빠르고 편리하게 얻을 수 있다. 카테고리 선택을 위한 사용자 인터페이스를 제공하는 경우에 관해서는, 후술하는 본 발명에 따른 제2 실시예에서 상세히 설명하기로 한다.

또한 예를 들어, 상기 획득된 인식후보의 개수가 기준값 이상인 경우, 상기 입력된 음성에 포함된 일부 표현을 선택하기 위한 것일 수 있다. 카테고리를 선택하는 경우와 마찬가지로, 사용자에게 일부 표현을 선택하게 하고, 사용자가 선택한 일부 표현을 포함하는 인식후보만을 사용자에게 제공하게 되면, 사용자가 너무 많은 인식후보 중에서 자신이 원하는 인식후보를 선택해야 하는 불편함을 피할 수 있다. 일부 표현을 선택하기 위한 사용자 인터페이스를 제공하는 경우에 관해서는, 후술하는 본 발명의 제3 실시예에서 상세히 설명하기로 한다.

또한 예를 들어, 상기 획득된 인식후보의 개수가 기준값 이하인 경우, 상기 사용자 인터페이스는, 사용자가, 더 이상의 계층 구조나 하위 메뉴의 탐색없이, 상기 획득된 인식후보 중 적어도 하나의 인식후보를 직접 선택하기 위한 것일 수 있다. 상기 획득된 인식후보의 개수가 기준값 이하로써, 상기 획득된 인식후보 전체 를 사용자에게 제공하더라도, 사용자가 불편없이 자신이 원하는 인식후보를 선택할 수 있는 경우이다.

상기 사용자 인터페이스는, 다양한 장치와 결합되어 제공될 수 있다. 예를 들어, 상기 사용자 인터페이스는, 터치스크린을 이용한 인터페이스이거나, 음성인식을 이용한 인터페이스일 수 있다.

상기 제어부(119)는, 상기 사용자 인터페이스를 통해 상기 S110 단계에서 획득된 상기 적어도 하나의 인식후보 중 적어도 하나에 대한 선택신호를 수신하고[S130], 상기 S130 단계에서 선택된 적어도 하나의 인식후보에 대응되는 제2 언어를 출력한다[S140].

상기 S140 단계에서, 상기 제어부(119)는, 상기 메모리(109)에 저장된 상기 번역 데이터베이스를 참조하여 상기 제2 언어를 출력할 수 있다. 상기 S140 단계가 수행되면, 번역을 위한 인식후보가 결정되는 것이므로, 상기 결정된 인식후보에 대응되는 제2 언어가 결정될 수 있다.

상기 제2 언어의 출력은 다양한 형태로 수행될 수 있다. 예를 들어, 상기 제어부(119)는, 상기 제2 언어를 표시부(111)에 표시할 수 있다. 또한 예를 들어, 상기 제어부(119)는, 상기 음성 합성부(105)를 제어하여 상기 제2 언어를 음성으로 합성한 후 상기 합성된 음성을 상기 음성 출력부(117)를 통해 출력할 수 있다.

<카테고리 선택을 위한 사용자 인터페이스>

도 4는 본 발명의 제2 실시예에 따른 음성인식을 이용한 언어 번역 방법의 흐름도이다. 도 5는 본 발명의 제2 실시예에 따른 언어 번역 방법이 구현되는 예를 도시한 도면이다. 본 발명의 제2 실시예에 따른 음성인식을 이용한 언어 번역 방법은, 도 1에 도시된 언어 번역 장치(10)에서 실행될 수 있다. 이하 도 4 및 도 5를 참조하여, 본 발명의 제2 실시예에 따른 음성인식을 이용한 언어 번역 방법과, 이를 구현하기 위한 언어 번역 장치(10)의 구체적인 동작을 상세히 설명하기로 한다.

먼저, 상기 음성 입력부(101)를 통해 제1 언어로 구성된 음성을 입력받는다[S200]. 상기 S200 단계는, 도 2의 S100 단계와 동일하다.

상기 제어부(119)는, 상기 음성 인식부(103)를 제어하여 상기 입력된 음성에 대해 음성인식을 수행하여[S210], 상기 입력된 음성에 대응되는 적어도 하나의 인식후보를 각각 포함하는 적어도 하나의 카테고리를 출력한다[S220]. 예를 들어, 도 5에서 사용자로부터 "있습니까"라는 표현을 음성으로 입력받은 경우, 상기 제어부(119)는 음성인식을 수행하여, "있습니까"에 대응되는 인식후보를 포함하는 4개의 카테고리를 터치 스크린(111, 113)에 표시한다. 도 5의 S220 단계에서 표시된 4개의 카테고리는, 각각 "공항", "버스", "비행기" 및 "호텔"에 해당한다.

상기 S220 단계에서, 상기 제어부(119)는, 상기 적어도 하나의 카테고리 각각에 포함된 상기 적어도 하나의 인식후보의 개수를 출력할 수 있다. 예를 들어, 도 5의 S220 단계를 참조하면, 출력된 카테고리에 포함된 인식후보의 개수가 표시되고 있다. 예를 들어, 참조번호 400은 "비행기"에 해당하는 카테고리에는 "있습니까"를 포함하는 인식후보의 개수가 4개임을 나타낸다.

상기 제어부(119)는, 상기 S220 단계에서 출력된 상기 적어도 하나의 카테고 리 중 일부의 카테고리에 대한 선택신호를 수신한다[S230]. 예를 들어, 도 5에 도시된 바와 같이, 사용자는 상기 표시된 4개의 카테고리 중 "비행기"를 선택할 수 있다.

상기 제어부(119)는, 상기 S230 단계에서 선택된 일부 카테고리에 포함된 인식후보들을 출력한다[S240]. 예를 들어, 도 5에 도시된 바와 같이, 상기 제어부(119)는, 사용자가 선택한 "비행기"에 포함되는 인식후보를 상기 터치 스크린(111, 113)에 표시할 수 있다. 상기 제어부(119)는, 상기 S240 단계에서 출력되는 인식후보들의 개수(401)를 화면에 표시할 수 있다. 그리고 상기 제어부(119)는, 상기 S240 단계에서 출력되는 인식후보들이 한 화면에 표시될 수 없는 경우, 도 5에 도시된 바와 같이, 화면을 스크롤하기 위한 스크롤 바(402)를 포함하는 스크롤 영역을 제공할 수 있다.

상기 S240 단계에서, 사용자가 상기 출력된 인식후보들 중 자신이 원하는 인식후보가 존재하지 않는 경우, 상위 메뉴로 복귀하지 않고 다른 카테고리로 직접 이동할 수 있다. 도 6은, 카테고리별 접근을 위한 사용자 인터페이스의 예를 도시한 도면이다. 도 6에서 "비행기"에 포함된 인식후보들을 표시하는 화면(200)에서, 사용자가 "호텔"을 선택함으로써 "호텔"에 포함된 인식후보들을 표시하는 화면(210)으로 바로 진입할 수 있다. 사용자가 특정 카테고리를 선택하는 방식은 다양할 수 있다. 상기 키 입력부(115)에 구비된 방향키를 이용하거나, 상기 터치 스크린(111, 113)에서 해당 영역을 터치함으로써, 특정 카테고리가 선택될 수 있다.

상기 제어부(119)는, 상기 S240 단계에서 출력된 인식후보들 중 적어도 하나 의 인식후보에 대한 선택신호를 수신한다[S250]. 예를 들어, 도 5에 도시된 바와 같이, 사용자는 상기 S240 단계에서 표시된 인식후보들 중 "1. 기내에 빈 좌석이 있습니까?"라는 인식후보를 선택할 수 있다.

상기 제어부(119)는, 상기 S250 단계에서 선택된 적어도 하나의 인식후보에 대응되는 제2 언어로 구성된 번역데이터를 출력한다[S260]. 상기 S260 단계는, 도 2의 S140 단계에 대응된다. 예를 들어, 도 5에 도시된 바와 같이, 상기 제어부(119)는, 사용자가 선택한 "1. 기내에 빈 좌석이 있습니까?"라는 인식후보에 대응되는 제2 언어(도 5에서는 영어)를 상기 터치 스크린(111, 113)과 상기 음성 출력부(117)를 통해 출력할 수 있다.

상기에서 설명한 본 발명의 제2 실시예에 따른 음성인식을 이용한 언어 번역 방법은, 상기 주제별 카테고리 뿐만 아니라 사용자에게 언어별 카테고리를 제공할 수 있다. 도 7은, 언어별 카테고리를 제공하는 사용자 인터페이스의 예를 도시한 도면이다.

예를 들어, 상기 언어별 카테고리를 제공하는 사용자 인터페이스는, 도 4에서 상기 S220 단계에서 제공되거나, 상기 S250 단계에서 제공될 수 있다.

도 7에서, 사용자는 도 6에서와 동일한 방식으로 특정 언어에 관한 카테고리를 선택할 수 있다. 예를 들어, 도 7에서 "영어" 카테고리(300)에서 방향키 또는 터치 방식으로 "일본어" 카테고리(310) 및 "중국어" 카테고리(320)가 선택될 수 있다.

상기 각 언어별 카테고리는, 해당 언어로 구성된 인식 후보를 제공할 수 있 다. 예를 들어, 도 7에서, 제1 내지 제3 인식후보는, 영어로 구성된 인식후보를 포함하고, 제4 내지 제6 인식후보는, 일본어로 구성된 인식후보를 포함하며, 제7 내지 제9 인식후보는, 중국어로 구성된 인식후보는 포함한다. 여기서 언어별로 서로 대응되는 인식후보는, 동일한 의미를 가질 수 있다. 예를 들어, 제1 인식후보, 제4 인식후보 및 제7 인식후보는 서로 다른 언어로 구성되고 서로 동일한 의미를 가질 수 있다.

<일부 표현 선택을 위한 사용자 인터페이스>

도 8은 본 발명의 제3 실시예에 따른 음성인식을 이용한 언어 번역 방법의 흐름도이다. 도 9는 본 발명의 제3 실시예에 따른 언어 번역 방법이 구현되는 예를 도시한 도면이다. 본 발명의 제3 실시예에 따른 음성인식을 이용한 언어 번역 방법은, 도 1에 도시된 언어 번역 장치(10)에서 실행될 수 있다. 이하 도 8 및 도 9를 참조하여, 본 발명의 제3 실시예에 따른 음성인식을 이용한 언어 번역 방법과, 이를 구현하기 위한 언어 번역 장치(10)의 구체적인 동작을 상세히 설명하기로 한다.

먼저, 상기 음성 입력부(101)를 통해 제1 언어로 구성된 음성을 입력받는다[S300]. 상기 S300 단계는, 도 2의 S100 단계와 동일하다.

상기 제어부(119)는, 상기 음성 인식부(103)를 제어하여 상기 입력된 음성에 대해 음성인식을 수행하여, 상기 입력된 음성에 대응되는 적어도 하나의 인식후보를 획득한다[S310]. 예를 들어, 도 9에서, 사용자는 상기 음성 입력부(101)를 통해 "빈 좌석이 있나요"라는 표현을 입력할 수 있다. 상기 제어부(119)는, "빈 좌석이 있나요"라는 표현에 대한 음성인식을 수행하여 적어도 하나의 인식후보를 획득한다. 상기 획득된 적어도 하나의 인식후보는, 상기 메모리(109)에 임시로 저장될 수 있다. 이때 상기 획득된 적어도 하나의 인식후보는, 상기 표시부(111)를 통해 출력될 수도 있고 출력되지 않을 수도 있다. 도 9의 경우는, "빈 좌석이 있나요"라는 음성에 대해 획득된 인식후보들이 상기 표시부(111)에 표시되지 않고, 상기 메모리(109)에 임시로 저장되어 상기 제어부(119)에 의해서 관리되는 경우이다.

상기 제어부(119)는, 상기 입력된 음성과 관련된 일부 표현을 입력받기 위한 사용자 인터페이스를 제공하고[S320], 상기 제공된 사용자 인터페이스를 통해, 상기 입력된 음성과 관련된 일부 표현을 입력받는다[S330].

본 발명의 제1 실시예에서 언급하였듯이, 상기 S320 단계에서 제공되는 상기 사용자 인터페이스는, 사용자가 음성으로 말한 표현에 대응되는 인식후보가 많을 경우에 사용자가 자신이 원하는 인식후보에 빠르게 효율적으로 접근하기 위해 제공되는 것이다. 예를 들어, 도 9에서 상기 제어부(119)가 상기 음성 인식부(103)를 제어하여 음성인식을 수행한 결과, 상기 제어부(119)가 "좌석", "자석" 및 "자식" 중 어느 하나를 사용자가 선택해주면, 인식후보의 개수가 대폭 줄어들 수 있다고 판단할 수 있다. 이때 상기 제어부(119)는, 상기 S300 단계에서 입력된 음성과 관련된 일부 표현을 입력받기 위한 사용자 인터페이스를 제공할 수 있다.

상기 일부 표현을 입력받기 위한 사용자 인터페이스는 다양한 형태로 구현될 수 있다. 도 9에 도시된 바와 같이, 영상 정보 및 음성 정보를 통한 사용자 인터페이스일 수 있다. 예를 들어, 상기 제어부(119)는, 사용자로부터 선택을 받기 위한 복수의 일부 표현들을 상기 터치 스크린(111, 113)에 표시할 수 있다. 또한 예를 들어, 상기 제어부(119)는, 상기 음성 합성부(105)를 제어하여 "'자석'이 맞습니까?"라는 음성을 상기 음성 출력부(117)를 통해 출력할 수 있다. 사용자로부터 "아니오"라는 음성을 입력받게 되면, 상기 제어부(119)는 다시 동일한 과정을 통해 "'좌석'이 맞습니까?"라는 음성을 출력할 수 있다. 사용자로부터 "예"라는 음성을 입력받게 되면, "좌석"이라는 일부 표현이 입력된다.

여기서, 사용자는 상기 터치 스크린(111, 113)에 표시된 일부 표현들 중 자신이 원하는 일부 표현을 터치함으로써 입력할 수도 있다.

상기 일부 표현은, 상기 입력된 음성에 포함된 것일 수도 있고, 상기 입력된 음성과 관련된 키워드일 수도 있다. 어떠한 종류의 일부 표현을 선택하도록 사용자에게 요구할 것인가는, 상기 제어부(119)가 인식후보 개수를 줄이는데 유리한 방향으로 결정할 수 있다. 예를 들어, 상기 제어부(119)가 사용자로부터 입력된 음성 중 일부 표현에 대해 사용자로부터 정확한 선택을 수신하면 인식후보 개수가 현저히 줄어들 것이라고 판단되면, 도 9와 같이 입력 음성 중 일부 표현을 확인하도록 사용자에게 요구할 수 있다.

상기 제어부(119)는, 상기 S310 단계에서 획득된 상기 적어도 하나의 인식후보 중, 상기 S330 단계에서 입력된 일부 표현과 관련된 적어도 하나의 인식후보를 출력한다[S340]. 예를 들어, 도 9에 도시된 바와 같이, "좌석"을 포함하는 인식후보들을 상기 터치 스크린(111, 113)에 표시할 수 있다.

상기 제어부(119)는, 상기 입력된 일부 표현과 관련된 상기 적어도 하나의 인식후보 중 적어도 하나의 인식후보에 대한 선택신호를 수신한다[S350]. 예를 들어, 사용자는, 자신이 요구하는 표현인 "빈 좌석이 있습니까"에 대응되는 서수 "1번"을 말함으로써, "빈 좌석이 있습니까"라는 인식후보가 선택될 수 있다. 또한 예를 들어, 사용자는, 상기 터치 스크린(111, 113)에 표시된 인식후보들 중 특정 인식후보를 터치함으로써 자신이 원하는 인식후보를 선택할 수도 있다.

상기 제어부(119)는, 상기 S350 단계에서 선택된 상기 적어도 하나의 인식후보에 대응되는 제2 언어로 구성된 번역데이터를 출력한다[S360]. 상기 S360 단계는, 도 4의 S260 단계에 대응된다.

<인식후보의 수정을 위한 사용자 인터페이스>

도 10은 본 발명의 제4 실시예에 따른 음성인식을 이용한 언어 번역 방법의 흐름도이다. 도 11은 본 발명의 제4 실시예에 따른 언어 번역 방법이 구현되는 예를 도시한 도면이다. 본 발명의 제4 실시예에 따른 음성인식을 이용한 언어 번역 방법은, 도 1에 도시된 언어 번역 장치(10)에서 실행될 수 있다. 이하 도 10 및 도 11을 참조하여, 본 발명의 제4 실시예에 따른 음성인식을 이용한 언어 번역 방법과, 이를 구현하기 위한 언어 번역 장치(10)의 구체적인 동작을 상세히 설명하기로 한다.

먼저, 상기 음성 입력부(101)를 통해 제1 언어로 구성된 음성을 입력받는다[S400]. 상기 S400 단계는, 도 2의 S100 단계와 동일하다. 단 상기 S400 단계에서 입력되는 음성은 복수의 단어들을 포함할 수 있다. 예를 들어, 도 11의 S400 단 계에서, 사용자가 "기차에 빈 좌석이 있습니까?"라는 음성을 말하고 있는데, 이는 "기차에", "빈", "좌석이" 및 "있습니까"라는 4개의 단어로 구성된다.

본 발명에서 언급되는 "단어"는, 1개의 단어일 수도 있고 2개 이상의 단어를 포함하는 어군일 수도 있다. 예를 들어, 본 발명에서 언급되는 단어는, 1개의 명사이거나, 1개의 명사와 1개의 조사를 포함하는 어군이거나, 1개의 명사와 1개의 전치사를 포함하는 어군일 수 있다.

상기 제어부(119)는, 상기 음성 인식부(103)을 제어하여 음성인식을 수행함으로써 상기 입력된 음성에 대응되는 인식후보를 획득한다[S410]. 이때 상기 음성인식은, 단어 단위로 수행될 수 있다. 상기 메모리(109)에 저장된 상기 인식 사전 및 상기 번역 데이터베이스는, 단어 단위의 음성인식의 수행을 위해서 필요한 구조를 가질 수 있다. 예를 들어, 상기 번역 데이터베이스는, 제1 언어와 제2 언어를 매칭함에 있어서, 특정 문장끼리 매칭하는 매칭 정보와 상기 특정 문장을 구성하는 단어별 매칭 정보를 모두 포함할 수 있다.

상기 제어부(119)는, 상기 S410 단계에서 획득된 상기 인식후보를 상기 터치 스크린(111, 113)에 표시하되, 상기 S400 단계에서 입력된 음성을 구성하는 상기 복수의 단어들 중 신뢰도가 기준값 이하인 단어가 다른 단어와 구별되도록 상기 인식후보를 표시한다[S420]. 예를 들어, 도 11의 S420 단계에서, S400 단계에서 입력된 음성에 대응되는 인식후보인 "기내에 빈 좌석이 있습니까?"라는 한국어 문장이 표시된다. 여기서 사용자는 "기차에"라고 발음하였으나, 이에 대한 신뢰도가 낮거나 "기차에"에 해당하는 인식후보가 존재하지 않아서, "기내에"라는 인식후보가 표 시되고 있다.

음성 인식 결과의 정확성을 판단하기 위한 신뢰도 측정(confidence measure) 알고리즘은 공지 기술에 해당하므로, 이에 대한 상세한 설명은 생략하기로 한다. 이러한 신뢰도 측정에 관한 기술을 utterance verification이라고 한다.

상기 S420 단계에서, 상기 신뢰도가 기준값 이하인 단어의 형상 또는 색깔을 다른 단어와 다르게 표시함으로써, 사용자가 신뢰도가 낮은 단어를 식별할 수 있도록 할 수 있다. 예를 들어, 도 11의 S420 단계에서, "기내에"에 사각형 윤곽(420)을 표시하거나, 볼릭체나 이탤릭체로 표시하거나, 다른 단어와는 다른 색깔 또는 다른 폰트(font)로 표시할 수 있다.

상기 제어부(119)는, 상기 신뢰도가 기준값 이하인 단어를 새로운 단어로 변경한다[S430]. 상기 S430 단계는, 후술하는 S431 단계와 S432 단계를 포함할 수 있다.

사용자가 상기 신뢰도가 기준값 이하인 단어를 선택하면[도 11, S431], 상기 제어부(119)는 상기 신뢰도가 기준값 이하인 단어를 새로운 단어로 변경하기 위한 사용자 인터페이스를 제공하고, 사용자는 상기 사용자 인터페이스를 통해 상기 신뢰도가 기준값 이하인 단어를 새로운 단어로 변경할 수 있다[도 11, S432]. 예를 들어, 도 11의 S432에서는 사용자에게 한국어 사전 또는 한영(한국어-영어) 사전(420)이 제공된다. 사용자는 검색창(421)을 통해 자신이 원하는 한국어를 검색하여, 자신이 원하는 단어를 선택할 수 있다. 상기 사전(420)은, 상기 메모리(109)에 저장될 수도 있고, 외부에 존재할 수도 있다.

상기 제어부(119)는, 상기 신뢰도가 기준값 이하인 단어에 대해 상기 S430 단계에서 변경된 새로운 단어에 대응되는 제2 언어로 대체하여, 상기 인식후보에 대응되는 제2 언어를 상기 터치 스크린(111, 113)에 표시할 수 있다[S440]. 예를 들어, 상기 S420 단계에서 획득된 인식후보는 "기내에 빈 좌석이 있습니까"이고, 이에 대응되는 제2 언어는 "Are there any seat on the flight"이다. 그런데 상기 S430 단계에서 "기내에"가 "기차에"로 변경되었으므로, 상기 제어부(119)는 도 11의 S440 단계에 도시된 바와 같이, 상기 S440 단계에서 상기 인식후보에서 "flight"를 "train"(423)으로 변경하여 최종 번역 결과를 "Are there any seat on the train"으로 출력한다. 상기 S440 단계에서의 출력 방식은, 시각 정보 출력 방식과 청각 정보 출력 방식 중 적어도 하나를 포함한다.

사용자는 상기 S440 단계에서 출력되는 최종 번역 결과를 상기 번역 데이터베이스에 등록할 수도 있다. 사용자가 원하는 특정 단어를 포함하는 문장이 상기 번역 데이터베이스에 존재하지 않는 경우, 상기 번역 데이터베이스에 존재하는 문장을 이용하여 사용자는 새로운 문장을 등록할 수 있는 효과가 있다.

<번역 결과의 수정을 위한 사용자 인터페이스>

도 12는 본 발명의 제5 실시예에 따른 음성인식을 이용한 언어 번역 방법의 흐름도이다. 도 13은 본 발명의 제5 실시예에 따른 언어 번역 방법이 구현되는 예를 도시한 도면이다. 본 발명의 제5 실시예에 따른 음성인식을 이용한 언어 번역 방법은, 도 1에 도시된 언어 번역 장치(10)에서 실행될 수 있다. 이하 도 12 및 도 13을 참조하여, 본 발명의 제5 실시예에 따른 음성인식을 이용한 언어 번역 방법과, 이를 구현하기 위한 언어 번역 장치(10)의 구체적인 동작을 상세히 설명하기로 한다.

먼저, 상기 음성 입력부(101)를 통해 제1 언어로 구성된 음성을 입력받는다[S500]. 상기 S500 단계는, 도 2의 S100 단계와 동일하다. 단 상기 S500 단계에서 입력되는 음성은 복수의 단어들을 포함할 수 있다. 예를 들어, 도 13의 S500 단계에서, 사용자가 "기차에 빈 좌석이 있습니까?"라는 음성을 말하고 있는데, 상기 음성은 "기차에", "빈", "좌석이" 및 "있습니까"라는 4개의 단어로 구성된다. 여기서 "단어"의 의미는, 본 발명의 제4 실시예에서 설명한 바와 동일하다.

상기 제어부(119)는, 상기 S500 단계에서 입력된 음성에 대해 음성인식을 수행하여[S510], 상기 입력된 음성에 대응되는 제2 언어로 구성된 번역 데이터를 상기 터치 스크린(111, 113)에 표시할 수 있다[S520]. 여기서, 상기 제어부(119)는, 상기 복수의 단어들 중 신뢰도가 기준값 이하인 단어에 대응되는 제2 언어를, 상기 번역 데이터를 구성하는 다른 단어와 구별되게 표시한다. 상기 신뢰도가 기준값 이하인 단어에 대응되는 제2 언어를 다른 단어와 구별되게 표시하는 방식은, 전술한 제4 실시예에서와 동일하다. 예를 들어, 도 13을 참조하면, 신뢰도가 기준값 이하인 단어에 해당하는 "fligh"에 윤곽(430)이 표시되어 있다.

예를 들어 도 13을 참조하면, 사용자는 "기차에 빈 좌석이 있습니까"라는 한국어를 발음하였는데[S500], 상기 음성 인식부(103)는 이를 "기내에 빈 좌석이 있습니까"로 인식하여[S510], 상기 제어부(119)는 상기 인식 결과에 대응되는 영어 표현인 "Are there any seat on the flight"를 상기 터치 스크린(111, 113)에 표시할 수 있다[S520].

사용자는 상기 S520 단계에서 다른 단어와 구별되게 표시된 단어를 선택할 수 있다[S530]. 예를 들어, 도 13의 S530 단계에서, 사용자는 "flight"를 선택할 수 있다.

상기 제어부(119)는, 상기 S530 단계의 수행에 따라, 상기 선택된 단어를 변경하기 위한 사용자 인터페이스를 제공할 수 있다[S540]. 예를 들어 도 13의 S540 단계를 참조하면, 상기 제어부(119)는, "flight"를 다른 영단어로 변경하기 위한 영어 사전 또는 영한(영어-한국어) 사전(440)을 제공할 수 있다. 사용자는 상기 사전(440)이 제공하는 검색창(441)을 통해 자신이 원하는 단어를 검색할 수 있다. 그리고 사용자는 자신이 원하는 단어를 선택할 수 있다[도 13, S550].

또한 예를 들어 상기 S540 단계에서 상기 제어부(119)는, "flight"를 다른 영단어로 변경하기 위한 한영 사전을 제공할 수도 있다(도면 미도시). 사용자가 상기 한영 사전이 제공하는 검색창을 이용하여 자신이 원하는 한국어 단어를 검색하면, 상기 제어부(119)는, 상기 한영 사전을 이용하여 상기 검색된 한국어 단어에 해당하는 영어 단어를 선택할 수 있다.

상기 제어부(119)는, 상기 S540 단계 및 상기 S550 단계의 수행에 따라, 사용자가 새롭게 선택한 단어를 번역 결과에 반영하여, 도 13의 S560 단계에 도시된 바와 같이, 새로운 번역 결과를 출력할 수 있다[S560].

사용자는, 전술한 본 발명의 제4 실시예에서와 마찬가지로, 상기 S560 단계 에서 출력된 상기 새로운 번역 결과를 상기 번역 데이터베이스에 등록할 수 있다.

<번역 결과 파일의 관리와 누적적 저장>

도 14는 본 발명의 제6 실시예에 따른 음성인식을 이용한 언어 번역 방법의 흐름도이다. 본 발명의 제6 실시예에 따른 음성인식을 이용한 언어 번역 방법은, 도 1에 도시된 언어 번역 장치(10)에서 실행될 수 있다. 이하 도 14를 참조하여, 본 발명의 제6 실시예에 따른 음성인식을 이용한 언어 번역 방법과, 이를 구현하기 위한 언어 번역 장치(10)의 구체적인 동작을 상세히 설명하기로 한다.

먼저, 상기 음성 입력부(101)를 통해 제1 언어로 구성된 음성을 입력받는다[S600]. 상기 S600 단계는, 도 2의 S100 단계와 동일하다.

상기 제어부(119)는, 상기 입력된 음성에 대해 음성인식을 수행하여, 상기 입력된 음성에 대응되는 제2 언어로 구성된 번역 데이터를 획득하여 출력할 수 있다[S610].

상기 제어부(119)는, 상기 획득된 번역 데이터의 저장에 관한 제1 명령 신호를 수신하였는지를 판단하여[S620], 상기 제1 명령 신호를 수신한 경우 상기 S610 단계에서 획득된 상기 번역 데이터를 특정 번역 파일에 저장한다[S630].

상기 제1 명령 신호의 소스(source)는 다양할 수 있다. 예를 들어, 상기 제어부(119)는, 사용자로부터 상기 언어 번역 장치(10)에 구비된 입력 장치를 통해 상기 제1 명령 신호를 수신할 수 있다. 또한 예를 들어, 상기 제어부(119)는, 미리 설정되어 상기 메모리(109)에 저장된 내부 설정 알고리듬에 의해 상기 제1 명령 신 호를 수신할 수도 있다. 내부 설정 알고리듬에 의해 상기 제1 명령 신호가 상기 제어부(119)에 전달되는 경우, 사용자가 상기 언어 번역 장치(10)에 직접 명령을 내릴 필요는 없다.

상기 제어부(119)는, 상기 획득된 번역 데이터의 저장 종료에 관한 제2 명령 신호를 수신하였는지를 판단하여[S640], 상기 제2 명령 신호를 수신한 경우 상기 번역 데이터의 저장을 종료한다.

그리고 상기 제어부(119)는, 상기 S640 단계의 판단 결과, 상기 제2 명령 신호를 수신하지 않은 경우, 외부로부터 음성을 계속 입력받기 위해 상기 S600 단계로 회귀하여, 상기 S600 단계 내지 상기 S640 단계를 반복 수행한다.

본 발명의 제6 실시예에서, 상기 S600 단계 내지 상기 S640 단계의 반복 수행에 따라 획득되는 상기 번역 데이터는, 상기 번역 파일에 추가되어 저장될 수 있다. 상기 번역 파일에 추가 저장된다는 의미는, 예를 들어, 사용자가 말하는 음성에 대응되는 번역 결과가 동일한 번역 파일에 누적적으로 저장된다는 의미이다.

예를 들어, 사용자가 "한국어(1)"을 발음한 경우[S600], 이에 대응되는 번역 데이터인 "영어(1)"이 획득되어[S610] 사용자의 명령에 따라[S620] 상기 번역 파일에 저장된다[S630]. 그리고 사용자는 상기 번역 데이터의 저장을 종료하지 않고[S640], "한국어(2)"를 발음한 경우[S610], 이에 대응되는 번역 데이터인 "영어(2)"가 획득되어[S610] 사용자의 명령에 따라[S620] 상기 번역 파일에 추가적으로 저장된다[S630].

이때 상기 번역 파일은, "영어(1)"과 "영어(2)가 모두 저장되어 있다. 상기 번역 파일은 "한국어(1)"과 "영어(1)을 매칭하여 저장하고, "한국어(2)"와 "영어(2)"를 매칭하여 저장할 수도 있다.

본 발명의 실시예에 따른 번역 결과의 누적적 저장에 따르면, 복수의 문장들에 대한 번역 결과를 한 개의 파일로 관리하고, 상기 한 개의 파일이 음성 출력됨으로써 사용자에게 한 번에 많은 의미 전달이 가능하다.

상기에서 설명한 다양한 실시예들에서, 특정 검색 결과가 출력되는 경우, 본 발명은 상기 출력되는 특정 검색 결과에서 재검색 기능을 제공할 수 있다. 상기 재검색 기능을 이용하면, 상기 출력되는 특정 검색 결과만을 검색 대상으로 하여 검색 기능을 수행함으로써, 사용자는 자신이 원하는 검색 결과에 효율적으로 접근할 수 있다.

상기에서 설명한 본 발명에 의한 음성인식을 이용한 언어 번역 방법은, 컴퓨터에서 실행시키기 위한 프로그램으로 컴퓨터로 읽을 수 있는 기록매체에 기록하여 제공될 수 있다.

본 발명에 의한 음성인식을 이용한 언어 번역 방법은 소프트웨어를 통해 실행될 수 있다. 소프트웨어로 실행될 때, 본 발명의 구성 수단들은 필요한 작업을 실행하는 코드 세그먼트들이다. 프로그램 또는 코드 세그먼트들은 프로세서 판독 가능 매체에 저장되거나 전송 매체 또는 통신망에서 반송파와 결합된 컴퓨터 데이터 신호에 의하여 전송될 수 있다.

컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 장치의 예로는, ROM, RAM, CD-ROM, DVD±ROM, DVD-RAM, 자기 테이프, 플로피 디스크, 하드 디스크(hard disk), 광데이터 저장장치 등이 있다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 장치에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.

도 1은 본 발명의 일 실시예에 따른 음성인식을 이용한 언어 번역 장치(10)의 블록 구성도이다.

도 2는 본 발명의 제1 실시예에 따른 음성인식을 이용한 언어 번역 방법의 흐름도이다.

도 3은 상기 S110 단계의 상세 흐름도이다.

도 4는 본 발명의 제2 실시예에 따른 음성인식을 이용한 언어 번역 방법의 흐름도이다.

도 5는 본 발명의 제2 실시예에 따른 언어 번역 방법이 구현되는 예를 도시한 도면이다.

도 6은, 카테고리별 접근을 위한 사용자 인터페이스의 예를 도시한 도면이다.

도 7은, 언어별 카테고리를 제공하는 사용자 인터페이스의 예를 도시한 도면이다.

도 8은 본 발명의 제3 실시예에 따른 음성인식을 이용한 언어 번역 방법의 흐름도이다.

도 9는 본 발명의 제3 실시예에 따른 언어 번역 방법이 구현되는 예를 도시한 도면이다.

도 10은 본 발명의 제4 실시예에 따른 음성인식을 이용한 언어 번역 방법의 흐름도이다.

도 11은 본 발명의 제4 실시예에 따른 언어 번역 방법이 구현되는 예를 도시한 도면이다.

도 12는 본 발명의 제5 실시예에 따른 음성인식을 이용한 언어 번역 방법의 흐름도이다.

도 13은 본 발명의 제5 실시예에 따른 언어 번역 방법이 구현되는 예를 도시한 도면이다.

도 14는 본 발명의 제6 실시예에 따른 음성인식을 이용한 언어 번역 방법의 흐름도이다.

<도면의 주요 부분에 대한 부호의 설명>

10: 언어 번역 장치 101: 음성 입력부

103: 음성 인식부 105: 음성 합성부

107: 통신부 109: 메모리

111: 표시부 113: 터치 디바이스

115: 키 입력부 117: 음성 출력부

119: 제어부

Claims

제1 언어로 구성된 음성을 입력받는 단계;

상기 입력된 음성에 대한 음성인식을 수행하여, 상기 입력된 음성에 대응되는 적어도 하나의 인식후보를 획득하는 단계;

상기 획득된 적어도 하나의 인식후보 중 적어도 하나를 선택하기 위한 사용자 인터페이스를 제공하는 단계; 및

상기 선택된 적어도 하나의 인식후보에 대응되는 제2 언어를 출력하는 단계를 포함하고,

상기 사용자 인터페이스의 종류는, 상기 획득된 적어도 하나의 인식후보의 개수에 따라 정해지는 것을 특징으로 하는 음성인식을 이용한 언어 번역 방법.
제 1 항에 있어서, 상기 적어도 하나의 인식후보를 획득하는 단계와, 상기 제2 언어를 출력하는 단계는,

상기 제1 언어와 상기 제2 언어를 복수의 카테고리별로 대응시킨 데이터베이스를 참조하여 수행되는 것을 특징으로 하는 음성 인식을 이용한 언어 번역 방법.
제 2 항에 있어서, 상기 사용자 인터페이스를 제공하는 단계는,

상기 적어도 하나의 인식후보의 개수가 기준값 이상인 경우, 상기 카테고리를 선택하기 위한 사용자 인터페이스를 제공하는 것을 특징으로 하는 음성인식을 이용한 언어 번역 방법.
제 1 항에 있어서, 상기 사용자 인터페이스를 제공하는 단계는,

상기 적어도 하나의 인식후보의 개수가 기준값 이상인 경우, 상기 입력된 음성에 포함된 일부 표현을 선택하기 위한 사용자 인터페이스를 제공하는 것을 특징으로 하는 음성인식을 이용한 언어 번역 방법.
제 1 항에 있어서, 상기 사용자 인터페이스는,

그래픽 및 오디오 중 적어도 하나로 제공되는 것을 특징으로 하는 음성인식을 이용한 언어 번역 방법.
제1 언어로 구성된 음성을 입력받는 단계;

상기 입력된 음성에 대한 음성인식을 수행하여, 상기 입력된 음성에 대응되는 적어도 하나의 인식후보를 각각 포함하는 적어도 하나의 카테고리를 출력하는 단계;

상기 적어도 하나의 카테고리 중 일부의 카테고리가 선택되는 단계;

상기 선택된 일부의 카테고리에 포함된 상기 적어도 하나의 인식후보를 출력하는 단계;

상기 출력된 적어도 하나의 인식후보 중 어느 하나가 선택되는 단계; 및

상기 선택된 인식후보에 대응되고 제2 언어로 구성된 번역데이터를 출력하는 단계를

포함하는 음성인식을 이용한 언어 번역 방법.
제 6 항에 있어서, 상기 적어도 하나의 카테고리는,

주제별 또는 언어별 분류에 의한 것을 특징으로 하는 음성인식을 이용한 언어 번역 방법.
제 6 항에 있어서, 상기 적어도 하나의 카테고리를 출력하는 단계는,

상기 적어도 하나의 카테고리 각각에 포함된 상기 적어도 하나의 인식후보의 개수를 출력하는 단계를 포함하는 음성인식을 이용한 언어 번역 방법.
제1 언어로 구성된 음성을 입력받는 단계;

상기 입력된 음성에 대한 음성인식을 수행하여, 상기 입력된 음성에 대응되는 적어도 하나의 인식후보를 획득하는 단계;

상기 입력된 음성과 관련된 일부 표현을 입력받기 위한 사용자 인터페이스를 제공하는 단계;

상기 사용자 인터페이스를 통해 상기 입력된 음성과 관련되는 일부 표현을 입력받는 단계;

상기 획득된 적어도 하나의 인식후보 중 상기 입력된 일부 표현과 관련된 적어도 하나의 인식후보를 출력하는 단계;

상기 입력된 일부 표현과 관련된 적어도 하나의 인식후보 중 어느 하나가 선택되는 단계; 및

상기 선택된 인식후보에 대응되고 제2 언어로 구성된 번역데이터를 출력하는 단계를

포함하는 음성인식을 이용한 언어 번역 방법.
제 9 항에 있어서, 상기 일부 표현은,

상기 입력된 음성에 포함되는 것을 특징으로 하는 음성인식을 이용한 언어 번역 방법.
제 10 항에 있어서, 상기 사용자 인터페이스는,

상기 일부 표현을 선택하기 위한 것을 특징으로 하는 음성인식을 이용한 언어 번역 방법.
제 9 항에 있어서, 상기 일부 표현은,

상기 입력된 음성과 관련된 키워드인 것을 특징으로 하는 음성인식을 이용한 언어 번역 방법.
제1 언어로 구성된 음성을 입력받는 음성 입력부;

상기 입력된 음성에 대한 음성인식을 수행하여, 상기 입력된 음성에 대응되 는 적어도 하나의 인식후보를 획득하는 음성 인식부;

상기 획득된 적어도 하나의 인식후보 중 적어도 하나를 선택하기 위한 복수의 사용자 인터페이스들과, 상기 제1 언어와 제2 언어를 복수의 카테고리별로 대응시킨 데이터베이스를 저장하는 메모리; 및

상기 획득된 적어도 하나의 인식후보의 개수에 따라 상기 복수의 사용자 인터페이스들 중 어느 하나의 사용자 인터페이스를 제공하고, 상기 제공된 사용자 인터페이스를 통해 상기 획득된 적어도 하나의 인식후보 중 적어도 하나에 대한 선택신호를 수신하고, 상기 데이터베이스를 참조하여 상기 선택된 적어도 하나의 인식후보에 대응되는 상기 제2 언어로 구성된 번역데이터를 출력하는 제어부를

포함하는 음성인식을 이용한 언어 번역 장치.
제 13 항에 있어서, 상기 제어부는,

상기 적어도 하나의 인식후보의 개수가 기준값 이상인 경우, 상기 카테고리를 선택하기 위한 사용자 인터페이스를 제공하는 것을 특징으로 하는 음성인식을 이용한 언어 번역 장치.
제 13 항에 있어서, 상기 제어부는,

상기 적어도 하나의 인식후보의 개수가 기준값 이상인 경우, 상기 입력된 음성과 관련된 일부 표현을 입력받기 위한 사용자 인터페이스를 제공하는 것을 특징으로 하는 음성인식을 이용한 언어 번역 장치.
제 13 항에 있어서, 상기 사용자 인터페이스는,

그래픽 및 오디오 중 적어도 하나로 제공되는 것을 특징으로 하는 음성 인식을 이용한 언어 번역 장치.
제 13 항에 있어서, 상기 제어부는,

상기 제2 언어를 영상 정보 및 음성 정보 중 적어도 하나의 형태로 출력하는 것을 특징으로 하는 음성 인식을 이용한 언어 번역 장치.
제 17 항에 있어서,

상기 제2 언어를 음성으로 합성하기 위한 음성 합성부를 더 포함하고,

상기 제어부는, 상기 제2 언어를 음성 정보의 형태로 출력하는 경우, 상기 음성 합성부를 제어하여 상기 제2 언어를 음성으로 합성하여 출력하는 것을 특징으로 하는 음성 인식을 이용한 언어 번역 장치.
음성 인식 기능을 제공하고 디스플레이를 구비한 전자 기기에서, 음성 인식을 이용한 언어 번역 방법에 있어서,

제1 언어로 구성되고 복수의 단어들을 포함하는 음성을 입력받는 단계;

상기 입력된 음성에 대해 단어 단위로 음성인식을 수행하여, 상기 입력된 음성에 대응되는 인식후보를 획득하는 단계;

상기 복수의 단어들 중 신뢰도가 기준값 이하인 단어가 다른 단어와 구별되도록 상기 인식후보를 상기 디스플레이에 표시하는 단계;

상기 신뢰도가 기준값 이하인 단어가 새로운 단어로 변경되는 단계; 및

상기 신뢰도가 기준값 이하인 단어에 대해 상기 새로운 단어에 대응되는 제2 언어로 대체하여, 상기 인식후보에 대응되는 제2 언어를 상기 디스플레이에 표시하는 단계를

포함하는 음성 인식을 이용한 언어 번역 방법.
제 19 항에 있어서, 상기 인식후보를 표시하는 단계는,

상기 신뢰도가 기준값 이하인 단어의 형상 또는 색깔을 다른 단어와는 다르게 표시하는 것을 특징으로 하는 음성 인식을 이용한 언어 번역 방법.
음성 인식 기능을 제공하고 디스플레이를 구비한 전자 기기에서, 음성 인식을 이용한 언어 번역 방법에 있어서,

제1 언어로 구성되고 복수의 단어들을 포함하는 음성을 입력받는 단계; 및

상기 입력된 음성에 대해 단어 단위로 음성인식을 수행하여, 상기 입력된 음성에 대응되는 제2 언어로 구성된 번역 데이터를 상기 디스플레이에 표시하는 단계를 포함하고,

상기 번역 데이터를 표시하는 단계는, 상기 복수의 단어들 중 신뢰도가 기준값 이하인 단어에 대응되는 제2 언어로 구성된 단어를, 상기 번역 데이터를 구성하 는 다른 단어와 구별되게 표시하는 것을 특징으로 하는 음성 인식을 이용한 언어 번역 방법.
제 21 항에 있어서,

상기 다른 단어와 구별되게 표시된 단어가 선택되면, 상기 선택된 단어를 변경하기 위한 사용자 인터페이스를 제공하는 단계를

더 포함하는 음성 인식을 이용한 언어 번역 방법.
음성 인식 기능을 제공하는 전자 기기에서, 음성 인식을 이용한 언어 번역 방법에 있어서,

(a) 제1 언어로 구성된 음성을 입력받는 단계;

(b) 상기 입력된 음성에 대해 음성인식을 수행하여, 상기 입력된 음성에 대응되는 제2 언어로 구성된 번역 데이터를 획득하는 단계;

(c) 미리 정해진 제1 명령 신호를 수신한 경우, 상기 번역 데이터를 특정 번역 파일에 저장하는 단계; 및

(d) 미리 정해진 제2 명령 신호를 수신할 때까지, 상기 (a) 단계 내지 상기 (c) 단계를 반복 수행하는 단계를 포함하고,

상기 제2 명령 신호의 수신 전까지 상기 반복 수행마다 획득되는 상기 번역 데이터는, 상기 특정 번역 파일에 추가되어 저장되는 것을 특징으로 하는 음성 인식을 이용한 언어 번역 방법.