KR101961139B1

KR101961139B1 - 이동 단말기 및 그것의 음성 인식 방법

Info

Publication number: KR101961139B1
Application number: KR1020120070353A
Authority: KR
Inventors: 김주희; 이준엽; 최정규; 이현섭
Original assignee: 엘지전자 주식회사
Priority date: 2012-06-28
Filing date: 2012-06-28
Publication date: 2019-03-25
Also published as: US9147395B2; CN103533154B; US20140006027A1; JP2014010456A; KR20140001711A; JP5956384B2; EP2680257A1; WO2014003329A1; EP2680257B1; CN103533154A

Abstract

본 발명은 음성 인식 기능을 구비하는 이동 단말기 및 그것의 음성 인식 방법에 관한 것이다. 본 발명의 일 실시 예는 서버와 연동하는 이동 단말기의 음성 인식 방법에 관한 것이다. 상기 음성 인식 방법은, 사용자의 음성을 수신하는 단계; 상기 수신된 음성을 상기 서버에 구비되는 제 1 음성 인식 엔진 및 상기 이동 단말기에 구비되는 제 2 음성 인식 엔진에 제공하는 단계; 상기 제 1 음성 인식 엔진이 상기 수신된 음성을 인식한 결과로서, 제 1 음성 인식 데이터를 획득하는 단계; 상기 제 2 음성 인식 엔진이 상기 수신된 음성을 인식한 결과로서, 제 2 음성 인식 데이터를 획득하는 단계; 상기 제 1 및 제 2 음성 인식 데이터 중 적어도 하나에 근거하여 사용자의 의도에 대응하는 기능을 예측하는 단계; 상기 예측된 기능에 개인 정보가 요구되는 경우, 상기 제 1 및 제 2 음성 인식 데이터 간의 유사도를 산출하는 단계; 및 상기 산출된 유사도에 근거하여 상기 제 1 및 상기 제 2 음성 인식 데이터 중 어느 하나를 선택하는 단계를 포함한다.

Description

이동 단말기 및 그것의 음성 인식 방법{MOBILE TERMINAL AND METHOD FOR RECOGNIZING VOICE THEREOF}

본 발명은 이동 단말기에 관한 것으로, 좀 더 구체적으로 음성 인식 기능을 구비하는 이동 단말기 및 그것의 음성 인식 방법에 관한 것이다.

단말기(terminal)는 이동 가능 여부에 따라 이동 단말기(mobile or portable terminal) 및 고정 단말기(stationary terminal)로 나뉠 수 있다. 다시 이동 단말기는 사용자의 직접 휴대 가능 여부에 따라 휴대(형) 단말기(handheld terminal) 및 거치형 단말기(vehicle mount terminal)로 나뉠 수 있다.

이와 같은 단말기는 기능이 다양화됨에 따라, 예를 들어, 사진이나 동영상의 촬영, 음악이나 동영상 파일의 재생, 게임, 방송 수신 등의 복합적인 기능들을 갖춘 멀티미디어 기기(multimedia player) 형태로 구현되고 있다. 나아가 단말기의 기능 지지 및 증대를 위해, 단말기의 구조적인 부분 및 소프트웨어적인 부분을 개량하는 것이 고려될 수 있다.

이러한 개량의 예로서, 이동 단말기에서 다양한 알고리즘을 이용하여 음성 인식 기능이 실행될 수 있게 되었다. 음성 인식 기능을 실행함에 있어서는, 많은 데이터 연산량 및 자원이 요구된다. 이로 인해, 적절한 자원 분배를 실현하기 위한 분산 음성 인식 시스템이 도입되었다. 하지만, 이러한 분산 음성 인식 시스템에서도 음성 인식 결과의 신속성 및 정확성을 향상시키기 위한 연구는 활발히 진행되고 있다.

본 발명의 목적은 음성 인식 결과에 대한 신뢰성을 향상시킬 수 있는 이동 단말기를 제공하는 데 있다.

본 발명의 다른 목적은 음성 인식 기능의 수행 시에 개인 정보 유출을 방지할 수 있는 이동 단말기를 제공하는 데 있다.

본 발명의 일 실시 예는 서버와 연동하는 이동 단말기의 음성 인식 방법에 관한 것이다. 상기 음성 인식 방법은, 사용자의 음성을 수신하는 단계; 상기 수신된 음성을 상기 서버에 구비되는 제 1 음성 인식 엔진 및 상기 이동 단말기에 구비되는 제 2 음성 인식 엔진에 제공하는 단계; 상기 제 1 음성 인식 엔진이 상기 수신된 음성을 인식한 결과로서, 제 1 음성 인식 데이터를 획득하는 단계; 상기 제 2 음성 인식 엔진이 상기 수신된 음성을 인식한 결과로서, 제 2 음성 인식 데이터를 획득하는 단계; 상기 제 1 및 제 2 음성 인식 데이터 중 적어도 하나에 근거하여 사용자의 의도에 대응하는 기능을 예측하는 단계; 상기 예측된 기능에 개인 정보가 요구되는 경우, 상기 제 1 및 제 2 음성 인식 데이터 간의 유사도를 산출하는 단계; 및 상기 산출된 유사도에 근거하여 상기 제 1 및 상기 제 2 음성 인식 데이터 중 어느 하나를 선택하는 단계를 포함한다.

실시 예에 있어서, 상기 음성 인식 방법은, 상기 예측된 기능에 개인 정보가 요구되지 않는 경우, 상기 제 2 음성 인식 데이터를 무시하는 단계를 더 포함할 수 있다.

실시 예에 있어서, 상기 제 1 음성 인식 데이터를 획득하는 단계는, 상기 제 1 음성 인식 데이터를 요청하기 위한 요청 신호를 상기 서버로 전송하는 단계; 및 상기 요청 신호에 대한 응답으로 상기 제 1 음성 인식 데이터를 상기 서버로부터 수신하는 단계를 포함할 수 있다.

실시 예에 있어서, 상기 음성 인식 방법은, 상기 서버와 상기 이동 단말기를 연결하는 네트워크의 상태 정보를 파악하는 단계; 및 상기 네트워크의 상태 정보에 근거하여 상기 제 1 음성 인식 데이터의 수신을 차단하는 단계를 더 포함하는 할 수 있다. 또한, 상기 음성 인식 방법은, 상기 제 1 음성 인식 데이터의 수신이 차단되는 경우, 상기 제 2 음성 인식 데이터를 이용하여 상기 예측된 기능을 실행하는 단계를 더 포함할 수 있다.

실시 예에 있어서, 상기 음성 인식 방법은, 상기 개인 정보 보호 기능을 실행하기 위한 메뉴 버튼을 표시하는 단계; 및 상기 메뉴 버튼에 대한 터치 입력에 응답하여 상기 개인 정보 보호 기능이 실행되는 경우, 상기 수신된 음성을 상기 제 1 음성 인식 엔진에 제공하는 것을 차단하는 단계를 더 포함할 수 있다. 또한, 상기 음성 인식 방법은, 상기 선택된 어느 하나의 음성 인식 데이터를 이용하여 상기 예측된 기능을 실행하는 단계를 더 포함할 수 있다.

실시 예에 있어서, 상기 제 2 음성 인식 데이터를 획득하는 단계는, 상기 개인 정보를 위한 데이터 베이스를 참조하여 상기 수신된 음성을 인식하는 단계를 포함할 수 있다.

본 발명의 일 실시 예는 서버와 연동하는 이동 단말기에 관한 것이다. 상기 이동 단말기는, 사용자의 음성을 수신하는 마이크; 상기 수신된 음성을 상기 서버로 전송하고, 상기 서버에 구비되는 제 1 음성 인식 엔진이 상기 수신된 음성을 인식한 결과로서 생성되는 제 1 음성 인식 데이터를 수신하는 통신부; 상기 수신된 음성을 인식한 결과로서, 제 2 음성 인식 데이터를 생성하는 제 2 음성 인식 엔진; 및 상기 제 1 및 제 2 음성 인식 데이터 중 적어도 하나에 근거하여 사용자의 의도에 대응하는 기능을 예측하고, 상기 예측된 기능에 개인 정보가 요구되는 경우, 상기 제 1 및 제 2 음성 인식 데이터 간의 유사도를 산출하며, 상기 산출된 유사도에 근거하여 상기 제 1 및 제 2 음성 인식 데이터 중 어느 하나를 선택하는 제어부를 포함한다.

실시 예에 있어서, 상기 제어부는, 상기 예측된 기능에 개인 정보가 요구되지 않는 경우, 상기 제 2 음성 인식 데이터를 무시할 수 있다.

실시 예에 있어서, 상기 제어부는, 상기 서버와 상기 이동 단말기를 연결하는 네트워크의 상태 정보를 파악하고, 상기 네트워크의 상태 정보에 근거하여 상기 제 1 음성 인식 데이터의 수신을 차단할 수 있다. 또한, 상기 제어부는, 상기 제 1 음성 인식 데이터의 수신이 차단되는 경우, 상기 제 2 음성 인식 데이터를 이용하여 상기 예측된 기능을 실행할 수 있다.

실시 예에 있어서, 상기 이동 단말기는, 상기 개인 정보 보호 기능을 실행하기 위한 메뉴 버튼을 표시하는 디스플레이부를 더 포함할 수 있다. 또한, 상기 제어부는, 상기 메뉴 버튼에 대한 터치 입력에 응답하여 상기 개인 정보 보호 기능이 실행되는 경우, 상기 수신된 음성을 상기 서버로 전송하는 것을 차단할 수 있다.

실시 예에 있어서, 상기 제어부는, 상기 선택된 어느 하나의 음성 인식 데이터를 이용하여 상기 예측된 기능을 실행할 수 있다.

실시 예에 있어서, 상기 제 2 음성 인식 엔진은,상기 개인 정보를 위한 데이터 베이스를 참조하여 상기 수신된 음성을 인식할 수 있다.

본 발명에 의하면, 상호 보완적인 원격 음성 인식 엔진(제 1 음성 인식 엔진) 및 로컬 음성 인식 엔진(제 2 음성 인식 엔진)의 음성 인식 결과 중 미리 정해진 알고리즘에 의해 신뢰도가 높다고 판단되는 음성 인식 결과가 선택 및 이용됨으로써, 이동 단말기의 음성 인식률이 향상될 수 있다.

또한, 본 발명에 의하면, 음성 인식 과정에서 예측된 기능에 개인 정보가 요구되는 경우에는, 로컬 음성 인식 엔진의 음성 인식 결과를 이용하고, 원격 음성 인식 엔진에서 개인 정보와 관련된 음성이 인식되는 것이 방지될 수 있다. 다시 말해, 개인 정보 유출이 방지될 수 있다.

또한, 본 발명에 의하면, 네트워크의 상태 불량 시에, 원격 음성 엔진의 음성 인식 결과를 무시하여 원격 음성 엔진으로부터 음성 인식 결과를 수신하는 데에 걸리는 지연이 제거됨으로써, 음성 인식의 처리 속도가 향상될 수 있다.

도 1은 본 발명과 관련된 이동 단말기를 보여주는 블록도이다.
도 2a 및 도 2b는 본 발명과 관련된 이동 단말기의 외관을 보여주는 사시도이다.
도 3은 본 발명의 실시 예에 따른 음성 인식 시스템을 보여주는 블록도이다.
도 4는 본 발명의 실시 예에 따른 이동 단말기의 음성 인식 방법을 설명하기 위한 순서도이다.
도 5 및 도 6은 본 발명의 실시 예에 따른 음성 인식 데이터의 수신 여부와 관련된 이동 단말기의 음성 인식 방법을 설명하기 위한 순서도이다.
도 7은 본 발명의 실시 예에 따른 개인 정보 보호 기능과 관련된 이동 단말기의 음성 인식 방법을 설명하기 위한 순서도이다.
도 8은 도 7의 음성 인식 방법을 적용한 이동 단말기의 사용자 인터페이스를 보여주는 개념도이다.
도 9는 본 발명의 실시 예에 따른 음성 인식 데이터에 대한 사용자 선택과 관련된 이동 단말기의 음성 인식 방법을 설명하기 위한 순서도이다.
도 10은 도 9의 음성 인식 방법을 적용한 이동 단말기의 사용자 인터페이스를 보여주는 개념도이다.

이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 정도로 상세하게 설명하기 위하여, 본 발명의 실시 예가 첨부된 도면을 참조하여 설명한다. 하지만, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고, 도면에서 본 발명을 명확하게 설명하기 위해 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통해 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

본 명세서에서 설명되는 이동 단말기에는 휴대폰, 스마트폰(smart phone), 노트북 컴퓨터(laptop computer), 디지털 방송용 단말기, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 내비게이터(navigator) 등이 포함될 수 있다. 그러나, 본 명세서에 기재된 실시 예에 따른 구성은 이동 단말기에만 적용 가능한 경우를 제외하면, 디지털 TV, 데스크탑 컴퓨터 등과 같은 고정 단말기에도 적용될 수도 있음을 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 쉽게 알 수 있을 것이다.

도 1은 본 발명과 관련된 이동 단말기(100)를 보여주는 블록도이다. 도 1을 참조하면, 이동 단말기(100)는 무선 통신부(110), A/V(Audio/Video) 입력부(120), 사용자 입력부(130), 감지부(140), 출력부(150), 메모리(160), 인터페이스부(170), 제어부(180) 및 전원 공급부(190)를 포함할 수 있다. 도 1에 도시된 구성요소들이 필수적인 것은 아니어서, 그보다 많은 구성요소들을 갖거나 그보다 적은 구성요소들을 갖는 이동 단말기가 구현될 수 있다.

이하에서, 이동 단말기(100)의 구성요소들(110~190)에 대해 차례대로 살펴본다.

무선 통신부(110)는 이동 단말기(100)와 무선 통신 시스템 사이, 또는 이동 단말기(100)와 이동 단말기(100)가 위치한 네트워크 사이의 무선 통신을 가능하게 하는 하나 이상의 모듈을 포함할 수 있다. 예를 들어, 무선 통신부(110)는 방송 수신 모듈(111), 이동통신 모듈(112), 무선 인터넷 모듈(113), 근거리 통신 모듈(114) 및 위치정보 모듈(115)을 포함할 수 있다.

방송 수신 모듈(111)은 방송 채널을 통하여 외부의 방송 관리 서버로부터 방송 신호 및 방송 관련 정보를 수신한다. 여기서, 방송 관련 정보는 방송 채널, 방송 프로그램 또는 방송 서비스 제공자에 관련된 정보를 의미한다. 그리고, 방송 관련 정보는 이동통신망을 통하여도 제공될 수 있다. 이러한 경우에, 방송 관련 정보는 이동통신 모듈(112)에 의해 수신될 수 있다. 방송 수신 모듈(111)을 통해 수신되는 방송 신호 및 방송 관련 정보는 메모리(160)에 저장될 수 있다.

이동통신 모듈(112)은 이동 통신망 상에서 기지국, 외부의 단말기, 서버 중 적어도 하나와 무선 신호를 송수신한다. 이러한 무선 신호는 음성 호 신호, 화상 통화 호 신호, 문자 메시지 또는 멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다.

무선 인터넷 모듈(113)은 무선 인터넷 접속을 위한 모듈로서, 이동 단말기(100)에 내장되거나 외장될 수 있다. 무선 인터넷 기술로는 WLAN(Wireless LAN)(Wi-Fi), Wibro(Wireless broadband), Wimax(World Interoperability for Microwave Access), HSDPA(High Speed Downlink Packet Access) 등이 이용될 수 있다.

근거리 통신 모듈(114)은 근거리 통신을 위한 모듈을 말한다. 근거리 통신(short range communication) 기술로는 블루투스(Bluetooth), RFID(Radio Frequency Identification), 적외선 통신(Infrared Data Association; IrDA), UWB(Ultra Wideband), ZigBee 등이 이용될 수 있다.

위치정보 모듈(115)은 이동 단말기(100)의 위치를 획득하기 위한 모듈로서, 그것의 대표적인 예로는 GPS(Global Position System) 모듈이 있다.

계속해서 도 1을 참조하면, A/V(Audio/Video) 입력부(120)는 오디오 신호 및 비디오 신호 입력을 위한 것으로, 이에는 카메라(121), 마이크(122) 등이 포함될 수 있다. 카메라(121)는 화상 통화 모드 또는 촬영 모드에서 이미지 센서에 의해 얻어지는 정지영상, 동영상 등의 화상 프레임을 처리한다. 카메라(121)에 의해 처리된 화상 프레임은 디스플레이부(151)에 표시될 수 있다. 그리고, 이러한 화상 프레임은 메모리(160)에 저장되거나 무선 통신부(110)를 통하여 외부로 전송될 수 있다. 카메라(121)는 사용 환경에 따라 2개 이상이 구비될 수 있다.

마이크(122)는 통화 모드, 녹음 모드, 음성선택 모드 등에서 외부로부터 입력되는 음향 신호를 전기적인 음성 데이터로 처리한다. 통화 모드에서 마이크(122)에 의해 처리된 음성 데이터는 이동통신 모듈(112)을 통해 이동통신 기지국으로 송신 가능한 형태로 변환되어 출력될 수 있다. 마이크(122)에는 외부의 음향 신호가 입력되는 과정에서 발생하는 잡음(noise)을 제거하기 위한 다양한 잡음 제거 알고리즘이 구현될 수 있다.

사용자 입력부(130)는 사용자가 이동 단말기(100)의 동작 제어를 위한 입력 데이터를 발생시킨다. 사용자 입력부(130)는 키 패드(key pad), 돔 스위치 (dome switch), 터치 패드(정압 및 정전), 조그 휠, 조그 스위치 등으로 구성될 수 있다.

감지부(140)는 사용자 접촉 유무, 이동 단말기(100)의 개폐 상태, 위치, 방위, 가속, 감속 등과 같은 이동 단말기(100)의 현재 상태를 감지하여 이동 단말기(100)의 동작을 제어하기 위한 감지 신호를 발생시킨다. 예를 들어, 이동 단말기(100)가 슬라이드 폰 형태인 경우, 감지부(140)는 슬라이드 폰의 개폐 여부를 감지할 수 있다. 또한, 감지부(140)는 전원 공급부(190)의 전원 공급 여부, 인터페이스부(170)의 외부 기기 결합 여부 등을 감지할 수도 있다.

감지부(140)는 근접 센서(141)를 포함할 수 있다. 또한, 감지부(140)는 디스플레이부(151)에 대한 터치 동작을 감지하는 터치 센서(미도시됨)를 포함할 수 있다.

터치 센서는 터치 필름, 터치 시트, 터치 패드 등의 형태를 가질 수 있다. 터치 센서는 디스플레이부(151)의 특정 부위에 가해진 압력 또는 디스플레이부(151)의 특정 부위에 발생하는 정전 용량의 변화를 전기적인 입력신호로 변환하도록 구성될 수 있다. 터치 센서는 터치 되는 위치 및 면적뿐만 아니라, 터치 압력까지도 검출할 수 있도록 구성될 수 있다.

터치 센서와 디스플레이부(151)가 상호 레이어 구조를 이루는 경우에는, 디스플레이부(151)는 출력 장치 이외에 입력 장치로도 사용될 수 있다. 이러한 디스플레이부(151)는 ‘터치 스크린’으로 호칭할 수 있다.

터치 스크린을 통한 터치 입력이 있는 경우, 그것에 대응하는 신호들은 터치 제어기(미도시됨)로 보내진다. 터치 제어기는 터치 센서로부터 전달되는 신호들을 처리한 다음 처리된 신호들에 대응하는 데이터를 제어부(180)로 전송한다. 이로써, 제어부(180)는 디스플레이부(151)의 어느 영역이 터치 되었는지 여부를 알 수 있게 된다.

터치 스크린이 정전식인 경우에는 감지 대상의 근접에 따른 전계의 변화로 감지 대상의 근접을 검출하도록 구성될 수 있다. 이러한 터치 스크린은 근접 센서(141)로 분류될 수 있다.

근접 센서(141)는 감지 대상의 유무를 전자계의 힘 또는 적외선을 이용하여 기계적 접촉이 없이 검출하는 센서를 말한다. 근접 센서(141)는 접촉식 센서보다는 그 수명이 길며 그 활용도 또한 높다. 근접 센서(141)의 예로는 투과형 광전 센서, 직접 반사형 광전 센서, 미러 반사형 광전 센서, 고주파 발진형 근접 센서, 정전용량형 근접 센서, 자기형 근접 센서, 적외선 근접 센서 등이 있다.

이하에서 설명의 편의를 위해, 감지 대상이 터치 스크린상에 접촉되지 않으면서 근접하는 행위를 “근접 터치(proximity touch)”라고 칭하고, 터치 스크린 상에 감지 대상이 접촉되는 행위를 “접촉 터치(contact touch)”라고 칭한다.

근접 센서(141)는 근접 터치의 유무와 근접 터치 패턴(예를 들어, 근접 터치 거리, 근접 터치 방향, 근접 터치 속도, 근접 터치 시간, 근접 터치 위치, 근접 터치 이동 상태 등)을 감지한다. 이러한 근접 터치 유무 및 근접 터치 패턴에 상응하는 정보는 터치 스크린에 출력될 수 있다.

출력부(150)는 시각, 청각, 촉각 등과 관련된 출력을 발생시킨다. 출력부(150)는 디스플레이부(151), 음향 출력 모듈(152), 알람부(153) 및 햅틱 모듈(154)를 포함할 수 있다.

디스플레이부(151)는 이동 단말기(100)에서 처리되는 정보를 표시(출력)한다. 예를 들어, 이동 단말기(100)가 통화 모드에서 동작하는 경우에는, 디스플레이부(151)는 통화와 관련된 UI(User Interface) 또는 GUI(Graphic User Interface)를 표시한다. 이동 단말기(100)가 화상 통화 모드 또는 촬영 모드에서 동작하는 경우에는, 디스플레이부(151)는 촬영된 영상, 수신된 영상, UI 또는 GUI 등을 표시한다.

디스플레이부(151)는 액정 디스플레이(Liquid Crystal Display, LCD), 박막 트랜지스터 액정 디스플레이(Thin Film Transistor-Liquid Crystal Display, TFT- LCD), 유기 발광 다이오드(Organic Light Emitting Diode, OLED), 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display), 전자잉크 디스플레이(e-ink display) 중 적어도 하나를 포함할 수 있다.

디스플레이부(151)에 포함되는 적어도 하나의 디스플레이(또는 디스플레이 소자)는 그것을 통해 외부를 볼 수 있도록 투명형 또는 광투과형으로 구성될 수 있다. 이는 투명 디스플레이라 호칭할 수 있는데, 이러한 투명 디스플레이의 대표적인 예로는 TOLED(Transparant OLED) 등이 있다. 디스플레이부(151)의 후방 구조 또한 광 투과형 구조로 구성될 수 있다. 이러한 구조에 의하여, 사용자는 단말기 본체에서 디스플레이부(151)가 차지하는 영역을 통해 단말기 본체의 후방에 위치한 사물을 볼 수 있다.

디스플레이부(151)는 이동 단말기(100)의 구현 형태에 따라 2개 이상 존재할 수 있다. 예를 들어, 이동 단말기(100)에는 복수의 디스플레이부들이 하나의 면에 이격되거나 일체로 위치할 수 있고, 또한 서로 다른 면에 각각 위치할 수도 있다.

음향 출력 모듈(152)은 호 신호 수신, 통화 모드 또는 녹음 모드, 음성선택 모드, 방송수신 모드 등에서 무선 통신부(110)로부터 수신되거나 메모리(160)에 저장된 오디오 데이터를 출력할 수 있다. 음향 출력 모듈(152)은 이동 단말기(100)에서 수행되는 기능(예를 들어, 호 신호 수신음, 메시지 수신음 등)과 관련된 음향 신호를 출력하기도 한다. 이러한 음향 출력 모듈(152)에는 리시버(receiver), 스피커(speaker), 버저(buzzer) 등이 포함될 수 있다.

알람부(153)는 이동 단말기(100)의 이벤트 발생을 알리기 위한 신호를 출력한다. 이동 단말기(100)에서 발생 되는 이벤트의 예로는 호 신호 수신, 메시지 수신, 키 신호 입력, 터치 입력 등이 있다. 알람부(153)는 비디오 신호나 오디오 신호 이외에 다른 형태, 예를 들어, 진동으로 이벤트 발생을 알리기 위한 신호를 출력할 수도 있다. 비디오 신호나 오디오 신호는 디스플레이부(151)나 음성 출력 모듈(152)을 통해서도 출력될 수 있으므로, 디스플레이부(151) 및 음성 출력 모듈(152)은 알람부(153)의 일부로 분류될 수도 있다.

햅틱 모듈(haptic module)(154)은 사용자가 느낄 수 있는 다양한 촉각 효과를 발생시킨다. 햅틱 모듈(154)이 발생시키는 촉각 효과의 대표적인 예로는 진동이 있다. 햅택 모듈(154)이 발생시키는 진동의 세기, 패턴 등은 제어가능하다. 예를 들어, 서로 다른 진동을 합성하여 출력하거나 순차적으로 출력할 수도 있다.

햅틱 모듈(154)은, 진동 외에도, 접촉 피부면에 대해 수직 운동하는 핀 배열, 분사구나 흡입구를 통한 공기의 분사력이나 흡입력, 피부 표면에 대한 스침, 전극(eletrode)의 접촉, 정전기력 등의 자극에 의한 효과, 흡열이나 발열 가능한 소자를 이용한 냉온감 재현에 의한 효과 등 다양한 촉각 효과를 발생시킬 수 있다.

햅틱 모듈(154)은 직접적인 접촉을 통해 촉각 효과를 전달할 수 있을 뿐만 아니라, 사용자가 손가락이나 팔 등의 근 감각을 통해 촉각 효과를 느낄 수 있도록 구성될 수도 있다. 햅틱 모듈(154)은 이동 단말기(100)의 구성 태양에 따라 2개 이상이 구비될 수 있다.

메모리(160)는 제어부(180)의 동작을 위한 프로그램을 저장할 수 있고, 입력 및 출력되는 데이터들(예를 들어, 폰북, 메시지, 정지영상, 동영상 등)을 임시 저장할 수도 있다. 메모리(160)는 터치 스크린상의 터치 입력시 출력되는 다양한 패턴의 진동 및 음향에 관한 데이터를 저장할 수 있다.

메모리(160)는 플래시 메모리(flash memory), 하드디스크(hard disk), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(random access memory; RAM), SRAM(static random access memory), 롬(read-only memory; ROM), EEPROM(electrically erasable programmable read-only memory), PROM(programmable read-only memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 저장매체를 포함할 수 있다. 이동 단말기(100)는 인터넷(internet)상에서 메모리(160)의 저장 기능을 수행하는 웹 스토리지(web storage)와 관련되어 동작할 수도 있다.

인터페이스부(170)는 이동 단말기(100)에 연결되는 모든 외부기기와의 통로 역할을 한다. 인터페이스부(170)는 외부 기기로부터 데이터를 전송받거나, 전원을 공급받아 이동 단말기(100) 내부의 각 구성요소에 전달하거나, 이동 단말기(100) 내부의 데이터가 외부 기기로 전송되도록 한다. 예를 들어, 인터페이스부(170)에는 유/무선 헤드셋 포트, 외부 충전기 포트, 유/무선 데이터 포트, 메모리 카드(memory card) 포트, 식별 모듈이 구비된 장치를 연결하는 포트, 오디오 I/O(Input/Output) 포트, 비디오 I/O(Input/Output) 포트, 이어폰 포트 등이 포함될 수 있다.

식별 모듈은 이동 단말기(100)의 사용 권한을 인증하기 위한 각종 정보를 저장한 칩으로서, 사용자 인증 모듈(User Identify Module: UIM), 가입자 인증 모듈(Subscriber Identify Module: SIM), 범용 사용자 인증 모듈(Universal Subscriber Identity Module: USIM) 등을 포함할 수 있다. 식별 모듈이 구비된 장치(이하, ‘식별 장치’라고 칭함)는, 스마트 카드(smart card) 형식으로 제작될 수 있다. 따라서, 식별 장치는 포트를 통하여 단말기(100)와 연결될 수 있다.

인터페이스부(170)는 이동단말기(100)가 외부 크래들(cradle)과 연결될 때 크래들로부터의 전원이 이동단말기(100)에 공급되는 통로가 되거나, 사용자에 의해 크래들에서 입력되는 각종 명령 신호가 이동 단말기(100)로 전달되는 통로가 될 수 있다. 크래들로부터 입력되는 각종 명령 신호 또는 전원은, 상기 이동 단말기(100)가 크래들에 정확히 장착되었음을 인지하기 위한 신호로 동작할 수도 있다.

제어부(controller, 180)는 이동 단말기(100)의 전반적인 동작을 제어한다. 예를 들어, 음성 통화, 데이터 통신, 화상 통화 등과 관련된 제어 및 처리를 수행한다. 제어부(180)는 멀티 미디어 재생을 위한 멀티미디어 모듈(181)을 구비할 수도 있다. 멀티미디어 모듈(181)은 제어부(180) 내에 구현될 수도 있고, 제어부(180)와 별도로 구현될 수도 있다. 제어부(180)는 터치 스크린상에서의 필기 입력 및 그림 그리기 입력을 각각 문자 및 이미지로 선택하는 패턴 선택 처리를 수행할 수 있다.

전원 공급부(190)는 제어부(180)의 제어에 의해 외부의 전원, 내부의 전원을 인가받아 각 구성요소들의 동작에 필요한 전원을 공급한다.

여기에 설명되는 다양한 실시 예는 소프트웨어, 하드웨어 또는 이들의 조합된 것을 이용하여 컴퓨터 또는 이와 유사한 장치로 읽을 수 있는 기록매체 내에서 구현될 수 있다.

하드웨어적인 구현에 의하면, 여기에 설명되는 실시 예는 ASICs(Application specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 프로세서들(processors), 제어기들(controllers), 마이크로 컨트롤러들(micro-controllers), 마이크로 프로세서들(microprocessors), 기타 기능 수행을 위한 전기적인 유닛 중 적어도 하나를 이용하여 구현될 수 있다. 일부의 경우에 본 명세서에서 설명되는 실시 예들이 제어부(180) 자체로 구현될 수 있다.

소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시 예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 상기 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 작동을 수행할 수 있다. 적절한 프로그램 언어로 쓰인 소프트웨어 애플리케이션으로 소프트웨어 코드가 구현될 수 있다. 이러한 소프트웨어 코드는 메모리(160)에 저장되고, 제어부(180)에 의해 실행될 수 있다.

이하에서, 이동 단말기(100)에 대한 사용자 입력의 처리 방법에 대해 설명한다.

사용자 입력부(130)는 이동 단말기(100)의 동작을 제어하기 위한 명령을 입력받기 위해 조작되는 것으로서, 복수의 조작 유닛들을 포함할 수 있다. 조작 유닛들은 조작부(manipulating portion)로도 통칭 될 수 있으며, 사용자의 촉각을 이용하여 조작하게 되는 방식(tactile manner)이라면 어떤 방식이든 채용될 수 있다.

디스플레이부(151)에는 다양한 종류의 시각 정보가 표시될 수 있다. 이와 같은 시각 정보는 문자, 숫자, 기호, 그래픽, 아이콘 등의 형태로 표시될 수 있으며, 3차원 입체영상으로 이루어질 수 있다. 시각 정보의 입력을 위하여 문자, 숫자, 기호, 그래픽 및 아이콘 중 적어도 하나는 일정한 배열을 이루어 표시됨으로써 키패드의 형태로 구현될 수 있다. 이러한 키패드는 소위 ‘소프트키’라고 호칭할 수 있다.

디스플레이부(151)는 전체 영역으로 작동되거나, 복수의 영역들로 나뉘어져 작동될 수 있다. 후자의 경우, 복수의 영역들은 서로 연관되게 작동되도록 구성될 수 있다. 예를 들어, 디스플레이부(151)의 상부와 하부에는 출력창과 입력창이 각각 표시될 수 있다. 출력창과 입력창은 각각 정보의 출력 또는 입력을 위해 할당되는 영역이다. 입력창에는 전화 번호의 입력을 위한 숫자가 표시된 소프트키가 출력될 수 있다. 소프트키가 터치되면, 터치된 소프트키에 대응되는 숫자가 출력창에 표시된다. 조작 유닛이 조작되면 출력창에 표시된 전화 번호에 대한 호 연결이 시도되거나 출력창에 표시된 텍스트가 애플리케이션에 입력될 수 있다.

디스플레이부(151) 또는 터치 패드는 터치 스크롤(scroll)를 감지하도록 구성될 수 있다. 사용자는 디스플레이부(151) 또는 터치 패드를 스크롤 함으로써 디스플레이부(151)에 표시된 개체, 예를 들어, 아이콘에 위치한 커서 또는 포인터를 이동시킬 수 있다. 나아가, 손가락을 디스플레이부(151) 또는 터치 패드 상에서 이동시키는 경우, 손가락이 움직이는 경로가 디스플레이부(151)에 시각적으로 표시될 수도 있다. 이는 디스플레이부(151)에 표시되는 이미지를 편집함에 유용할 것이다.

디스플레이부(151) 및 터치 패드가 일정 시간 범위 내에서 함께 터치되는 경우에 대응하여, 이동 단말기(100)의 일 기능이 실행될 수도 있다. 함께 터치되는 경우로는, 사용자가 엄지 및 검지를 이용하여 이동 단말기(100)의 본체를 집는(clamping) 경우가 있을 수 있다. 이때, 실행되는 이동 단말기(100)의 일 기능은, 예를 들어, 디스플레이부(151) 또는 터치 패드에 대한 활성화 또는 비활성화일 수 있다.

도 2a 및 도 2b는 본 발명과 관련된 이동 단말기(100)의 외관을 보여주는 사시도이다. 도 2a에서는 이동 단말기(100)의 전면 및 일 측면이 도시되고, 도 2b에서는 이동 단말기(100)의 후면 및 타 측면이 도시된다.

도 2a를 참조하면, 이동 단말기(100)는 바 형태의 단말기 본체를 구비한다. 다만, 이동 단말기(100)는 이에 한정되지 않고, 2 이상의 본체들이 상대 이동 가능하게 결합하는 슬라이드 타입, 폴더 타입, 스윙 타입, 스위블 타입 등 다양한 형태로 구현될 수 있다.

단말기 본체는 외관을 형성하는 케이스(케이싱, 하우징, 커버 등)를 포함한다. 실시 예에 있어서, 케이스는 프론트 케이스(101)와 리어 케이스(102)로 구분될 수 있다. 프론트 케이스(101)와 리어 케이스(102)의 사이에 형성된 공간에는 각종 전자부품들이 내장된다. 프론트 케이스(101)와 리어 케이스(102) 사이에는 적어도 하나의 중간 케이스가 추가로 위치할 수 있다.

케이스들은 합성수지를 사출하여 형성되거나 금속 재질, 예를 들어, 스테인레스 스틸(STS), 티타늄(Ti) 등과 같은 금속 재질을 갖도록 형성될 수도 있다.

단말기 본체, 주로 프론트 케이스(101)에는 디스플레이부(151), 음향 출력부(152), 카메라(121), 사용자 입력부(130, 도 1 참조), 마이크(122), 인터페이스(170) 등이 위치할 수 있다.

디스플레이부(151)는 프론트 케이스(101)의 주된 부분을 차지한다. 디스플레이부(151)의 일 단부에 인접한 영역에는 음향 출력부(152)와 카메라(121)가 위치하고, 타 단부에 인접한 영역에는 제 1 사용자 입력부(131) 및 마이크(122)가 위치한다. 제 2 사용자 입력부(132) 및 인터페이스(170)는 프론트 케이스(101) 및 리어 케이스(102)의 측면들에 위치할 수 있다.

사용자 입력부(130)는 이동 단말기(100)의 동작을 제어하기 위한 명령을 수신하기 위해 조작된다. 사용자 입력부(130)는 복수의 조작 유닛들(131, 132)을 포함할 수 있다.

제 1 또는 제 2 조작 유닛들(131, 132)은 다양한 명령들을 수신할 수 있다. 예를 들어, 제 1 조작 유닛(131)은 시작, 종료, 스크롤 등과 같은 명령을 수신할 수 있다. 제 2 조작 유닛(132)은 음향 출력부(152)에서 출력되는 음향의 크기 조절, 디스플레이부(151)의 터치 선택 모드로의 전환 등과 같은 명령을 수신할 수 있다.

도 2b를 참조하면, 단말기 본체의 후면, 즉, 리어 케이스(102)에는 후면 카메라(121´)가 추가 장착될 수 있다. 후면 카메라(121´)는 전면 카메라(121, 도 2a 참조)와 반대되는 촬영 방향을 갖고, 전면 카메라(121)와 다른 화소를 갖도록 구성될 수 있다.

예를 들어, 전면 카메라(121)는 저 화소를 갖도록 구성되고, 후면 카메라(121´)는 고 화소를 갖도록 구성될 수 있다. 이에 따라, 화상 통화 시에 전면 카메라(121)를 이용하면, 사용자의 얼굴을 촬영하여 촬영된 영상을 실시간으로 상대방에 전송하는 경우 전송 데이터의 크기를 줄일 수 있다. 반면, 후면 카메라(121´)는 고 화질의 영상을 저장하기 위한 목적으로 이용될 수 있다.

한편, 카메라들(121, 121´)은 회전 또는 팝업(pop-up) 되도록 단말기 본체에 설치될 수 있다.

플래쉬(123) 및 거울(124) 후면 카메라(121´)에 인접하는 곳에 추가 위치할 수 있다. 플래쉬(123)는 사용자가 후면 카메라(121´)로 피사체를 촬영하는 경우, 피사체를 향해 빛을 낸다. 거울(124)은 사용자가 후면 카메라(121´)를 이용하여 자신을 촬영(셀프 촬영)하는 경우, 사용자의 얼굴을 비춘다.

단말기 본체의 후면에는 후면 음향 출력부(152´)가 추가 위치할 수 있다. 후면 음향 출력부(152´)는 전면 음향 출력부(152, 도 2a 참조)와 함께 스테레오 기능을 수행할 수 있으며, 통화 시에 스피커폰 기능을 수행할 수 있다.

단말기 본체의 측면에는 통화를 위한 안테나 외에 방송신호 수신용 안테나(116)가 추가 위치할 수 있다. 방송 수신 모듈(111, 도 1 참조)의 일부를 구성하는 안테나(116)는 단말기 본체에서 인출 가능하게 설치될 수 있다.

단말기 본체에는 이동 단말기(100)에 전원을 공급하기 위한 전원 공급부(190)가 장착된다. 전원 공급부(190)는 단말기 본체에 내장되거나, 단말기 본체의 외부에서 직접 탈착될 수 있도록 구성될 수 있다.

리어 케이스(102)에는 터치를 감지하기 위한 터치 패드(135)가 추가 장착될 수 있다. 터치 패드(135)는 디스플레이부(151, 도 2a 참조)와 마찬가지로 광 투과형으로 구성될 수 있다. 또한, 터치 패드(135)에도 시각 정보를 출력하기 위한 후면 디스플레이부가 추가 장착될 수 있다. 이때, 전면 디스플레이부(151) 및 후면 디스플레이부 양면에서 출력되는 정보는 터치 패드(135)에 의해 제어될 수 있다.

터치 패드(135)는 디스플레이부(151)와 상호 관련되어 작동한다. 터치 패드(135)는 디스플레이부(151)의 후방에 평행하게 위치할 수 있다. 이러한 터치 패드(135)는 디스플레이부(151)와 동일하거나 작은 크기를 가질 수 있다.

도 3은 본 발명의 실시 예에 따른 음성 인식 시스템을 보여주는 블록도이다. 도 3을 참조하면, 음성 인식 시스템은 분산된 자원을 이용하여 음성 인식을 처리할 수 있도록 네트워크를 통해 상호 연동하는 서버(200) 및 이동 단말기(300)를 포함한다. 다시 말해, 음성 인식 시스템은 분산 음성 인식 기술을 구현할 수 있다.

서버(200)는 제 1 음성 인식 엔진(210) 및 제 1 데이터 베이스(220)를 포함할 수 있다. 제 1 음성 인식 엔진(210)은 정보 범위(domain)가 범용 정보로 특정된 제 1 데이터 베이스(220)를 참조하여 이동 단말기(300)가 제공하는 음성을 인식할 수 있다. 그러한 결과로, 제 1 음성 인식 엔진(210)은 제 1 음성 인식 데이터를 생성할 수 있다. 서버(200)는 제 1 음성 인식 엔진(210)에 의해 생성된 제 1 음성 인식 데이터를 이동 단말기(300)로 전송할 수 있다.

이동 단말기(300)는 마이크(310), 제 2 음성 인식 엔진(320), 제 2 데이터 베이스(330), 통신부(340), 디스플레이부(350) 및 제어부(360)를 포함할 수 있다. 마이크(310)는 사용자의 음성을 수신할 수 있다. 제 2 음성 인식 엔진(320)은 정보 범위가 개인 정보로 특정된 제 2 데이터 베이스(330)를 참조하여 마이크(310)를 통해 수신된 음성을 인식할 수 있다. 그러한 결과로, 제 2 음성 인식 엔진(320)은 제 2 음성 인식 데이터를 생성할 수 있다. 통신부(340)는 마이크(310)를 통해 수신된 음성을 서버(200)로 전송하고, 이에 대한 응답으로 제 1 음성 인식 데이터를 서버로(200)부터 수신할 수 있다. 디스플레이부(350)는 음성 인식과 관련된 각종 정보 및 제어 메뉴를 표시할 수 있다. 제어부(360)는 음성 인식과 관련된 이동 단말기의 전반적인 동작을 제어할 수 있다.

이하, 제 1 및 제 2 음성 인식 엔진(210, 320)의 음성 인식 처리에 대해 상세하게 설명한다. 설명의 편의를 위해, 제 1 및 제 2 음성 인식 엔진(210, 320)을 음성 인식 엔진으로 총칭하고, 제 1 및 제 2 데이터 베이스(220, 330)는 데이터 베이스로 총칭하며, 제 1 및 제 2 음성 인식 데이터를 음성 인식 데이터로 총칭한다.

음성 인식 엔진은 음성 인식 알고리즘을 이용하여 수신된(입력된) 음성의 의미와 문맥을 데이터 베이스의 정보 범위에서 분석한다. 이를 위해, STT(Speech To Text) 알고리즘을 이용하여 음성을 텍스트 형태의 데이터로 변환하여 데이터 베이스에 저장할 수 있다.

음성 인식 알고리즘에 의해 사용자의 음성은 복수의 데이터로 변환될 수 있다. 이런 경우, 음성 인식 엔진은 복수의 데이터에 대한 인식률을 판단하고, 음성 인식 결과로서 복수의 데이터 중 가장 높은 인식률을 갖는 데이터를 선택할 수 있다.

도 4는 본 발명의 실시 예에 따른 이동 단말기(300)의 음성 인식 방법을 설명하기 위한 순서도이다. 도 4를 참조하면, 마이크(310)를 통해 사용자의 음성을 수신하는 단계(S102)가 수행된다.

다음으로, 수신된 음성을 제 1 음성 인식 엔진(210) 및 제 2 음성 인식 엔진(320)에 제공하는 단계(S104)가 수행된다. 이러한 음성은 제 1 음성 인식 엔진(210)에 제공되도록 통신부(310)를 통해 서버(200)로 전송될 수 있다. 이때, 네트워크 상태에 따라 서버(200)로의 음성 전송은 차단될 수 있다.

이후, 제 1 음성 인식 엔진(210)이 음성을 인식한 결과로서, 제 1 음성 인식 데이터를 획득하는 단계(S106)가 수행된다. 제 1 음성 인식 데이터는 서버(200)로부터 수신될 수 있다. 이때, 네트워크 상태에 따라 서버(200)로부터의 음성 수신이 차단될 수 있다. 또한, 제 2 음성 인식 엔진(320)이 음성을 인식한 결과로서, 제 2 음성 인식 데이터를 획득하는 단계(S108)가 수행된다.

다음으로, 획득된 제 1 및 제 2 음성 인식 데이터 중 적어도 하나에 근거하여 사용자의 의도에 대응하는 기능을 예측하는 단계(S110)가 수행된다. 예를 들어, 음성 언어 이해(SLU: Spoken Language Understanding) 작업에 의해 사용자 의도에 대응하는 기능이 예측될 수 있다. SLU 작업은 음성 인식된 문장에서 의미 있는 정보를 추출하여 사용자의 의도를 추론하는 것으로, 주로 주행(Main Action)과 화행(Speech Act) 및 개체명(Named Etity) 등의 정보를 추출하는 것을 말한다. 여기서 주행이란 사용자 발화에 드러난 사용자가 하고자 하는 구체적인 동작이 무엇인가를 의미하고, 화행은 사용자 발화의 유형을 의미한다. 개체명은 발화에 나타난 핵심 단어 사람, 장소, 조직, 시간 등과 같은 정보를 의미한다.

다음으로, 예측된 기능에 개인 정보(예: 연락처 정보 등)가 요구되는지 여부를 판단하는 단계(S112)가 수행된다. 예를 들어, 전화 통화 기능을 실행하기 위해서는 통화 대상에 대한 개인 정보가 요구된다. 예측된 기능에 개인 정보가 요구되는 경우, 제 1 및 제 2 음성 인식 데이터 간의 유사도를 산출하는 단계(S114)가 수행된다. 여기서, 유사도는 상호 비교되는 텍스트들에서 서로 일치하는 문자 또는 단어의 수가 어느 정도인지를 비율로 나타낼 수 있다. 예를 들어, “ABCD”와 “ABCF”는 4개의 문자들 중 3개가 일치하고 1개가 다르므로, 유사도는 75%로 산출될 수 있다.

이후, 산출된 유사도와 미리 정해진 기준값(예: 80%)을 비교하는 단계(S116)가 수행된다. 산출된 유사도가 기준값보다 작으면, 다시 말해, 제 1 및 제 2 음성 인식 데이터 간의 차이가 크다고 판단되면, 제 1 및 제 2 음성 인식 데이터 중 제 1 음성 인식 데이터를 선택하는 단계(S118)가 수행된다. 이에 따라, 선택된 제 1 음성 인식 데이터가 이용되어, 예측된 기능이 실행될 수 있다. 이때, 예측된 기능은 선택된 제 1 음성 인식 데이터에 의해 수정 또는 보완되어 실행될 수 있다.

반면, 산출된 유사도가 기준값과 같거나 그보다 크면, 다시 말해, 제 1 및 제 2 음성 인식 데이터 간의 차이가 작다고 판단되면, 제 1 및 제 2 음성 인식 데이터 중 제 2 음성 인식 데이터를 선택하는 단계(S120)가 수행된다. 이에 따라, 선택된 제 2 음성 인식 데이터가 이용되어, 예측된 기능이 실행될 수 있다. 이때, 예측된 기능은 선택된 제 2 음성 인식 데이터에 의해 수정 또는 보완되어 실행될 수 있다.

한편, 예측된 기능에 개인 정보가 요구되지 않는 경우에는, 제 2 음성 인식 데이터를 무시하는 단계(S122)가 수행된다. 이에 따라, 제 1 음성 인식 데이터가 이용되어, 예측된 기능이 실행될 수 있다.

상술한 바와 같이, 본 발명에 의하면, 상호 보완적인 원격 음성 인식 엔진(제 1 음성 인식 엔진) 및 로컬 음성 인식 엔진(제 2 음성 인식 엔진)의 음성 인식 결과 중 미리 정해진 알고리즘에 의해 신뢰도가 높다고 판단되는 음성 인식 결과가 선택 및 이용됨으로써, 이동 단말기(300)의 음성 인식률이 향상될 수 있다.

도 5 및 도 6은 본 발명의 실시 예에 따른 음성 인식 데이터의 수신 여부와 관련된 이동 단말기(300)의 음성 인식 방법을 설명하기 위한 순서도이다.

도 5를 참조하면, 우선, 서버(200)와 이동 단말기(300) 간에 구축되는 네트워크의 상태를 파악하는 단계(S210)가 수행된다. 네트워크의 상태는 전송 속도, 데이터 패킷 손실률 등에 근거하여 파악될 수 있다.

이후, 네트워크의 상태가 불량인지 여부를 판단하는 단계(S220)가 수행된다. 네트워크 상태가 불량이면, 서버(200)로부터 제 1 음성 인식 데이터를 수신하는 것을 차단하는 단계(S230)가 수행된다.

도 6을 참조하면, 우선, 제 1 음성 인식 데이터에 대한 요청 신호를 서버(200)로 전송하는 단계(S310)가 수행된다. 제 1 음성 인식 데이터는 요청 신호에 대한 응답으로 서버(200)로부터 수신될 수 있다.

다음으로, 기준 응답 시간 내에 제 1 음성 인식 데이터의 수신 여부를 판단하는 단계(S320)가 수행된다. 기준 응답 시간 내에 제 1 음성 인식 데이터가 수신되지 않는 경우, 제 1 음성 인식 데이터에 대한 요청을 취소하기 위한 취소 신호를 서버로 전송하는 단계(S330)가 수행된다. 서버(200)는 취소 신호에 따라 제 1 음성 인식 데이터의 생성 및 전송을 중단할 수 있다.

도 7은 본 발명의 실시 예에 따른 개인 정보 보호 기능과 관련된 이동 단말기(300)의 음성 인식 방법을 설명하기 위한 순서도이다. 도 7을 참조하면, 음성 인식 모드에서, 개인 정보 보호 기능을 실행하기 위한 메뉴 버튼을 표시하는 단계(S410)가 수행된다. 개인 정보 보호 기능은 메뉴 버튼에 대한 터치 입력에 응답하여 실행될 수 있다.

다음으로, 개인 정보 보호 기능의 실행 여부를 판단하는 단계(S420)가 수행된다. 개인 정보 보호 기능이 실행되면, 사용자로부터 수신된 음성을 제 1 음성 인식 엔진(210)에 제공하는 것을 차단할 수 있다. 이는, 사용자의 음성이 서버(300)로 전송되는 것이 차단됨을 의미한다.

도 8은 도 7의 음성 인식 방법을 적용한 이동 단말기(300)의 사용자 인터페이스를 보여주는 개념도이다. 도 8을 참조하면, 제어부(360)는 음성 인식과 관련된 화면 영상(351)을 표시하도록 디스플레이부(350)를 제어할 수 있다. 화면 영상(351)은 음성 인식 모드가 실행되고 있음을 나타내는 안내 정보(352), 개인 정보 보호 기능을 실행하기 위한 메뉴 버튼(353) 등이 포함될 수 있다.

메뉴 버튼(353)에 대한 터치 입력이 감지되면, 제어부(360)는 개인 정보 보호 기능을 실행할 수 있다. 개인 정보 보호 기능의 실행 시에 마이크(310)를 통해 사용자의 음성이 수신되면, 제어부(360)는 수신된 음성을 제 1 음성 인식 엔진(210)에 제공하는 것을 차단하고, 제 2 음성 인식 엔진(320)에 제공할 수 있다.

제 2 음성 인식 엔진(320)은 정보 범위가 개인 정보로 특정된 제 1 데이터 베이스(220)를 참조하여 수신된 음성을 인식하고, 음성 인식 결과를 제어부(360)에 전달할 수 있다. 제어부(360)는 제 2 음성 인식 엔진(320)의 음성 인식 결과에 근거하여 사용자 의도에 대응하는 기능을 예측 및 실행할 수 있다. 예를 들어, 제어부(360)는 사용자로부터 수신된 “김태희한테 전화해”라는 음성이 인식됨에 따라, 전화 통화 기능이 예측 및 실행될 수 있다. 또한, 제어부(360)는 전화 통화 기능과 관련된 화면 영상(354)을 표시하도록 디스플레이부(350)를 제어할 수 있다.

그런데, 전화 통화 기능을 수행하기 위해서는 개인 정보로서 “김태희”의 연락처 정보가 요구된다. 이런 경우, 개인 정보와 관련된 음성이 서버(200)로 전송되지 않도록, 메뉴 버튼(353)을 이용하여 개인 정보 보호 기능이 수동으로 실행될 수 있다.

도 9는 본 발명의 실시 예에 따른 음성 인식 데이터에 대한 사용자 선택과 관련된 이동 단말기(300)의 음성 인식 방법을 설명하기 위한 순서도이다. 도 9를 참조하면, 우선, 제 1 및 제 2 음성 인식 엔진(210, 320)의 음성 인식 결과로서, 제 1 및 제 2 음성 인식 데이터를 표시하는 단계(S510)가 수행된다.

다음으로, 터치 입력에 응답하여 제 1 및 제 2 음성 인식 데이터 중 어느 하나를 선택하는 단계(S520)가 수행된다. 이후, 선택된 어느 하나의 음성 인식 데이터가 이용되어, 예측된 기능이 실행되는 단계(S530)가 수행된다.

도 10은 도 9의 음성 인식 방법을 적용한 이동 단말기(300)의 사용자 인터페이스를 보여주는 개념도이다. 도 10을 참조하면, 제어부(360)는 음성 인식과 관련된 화면 영상(451)을 표시하도록 디스플레이부(350)를 제어할 수 있다. 화면 영상(451)은 음성 인식 모드가 실행되고 있음을 나타내는 안내 정보(452), 제 1 및 제 2 음성 인식 데이터(453, 454) 등이 포함될 수 있다.

예를 들어, 사용자로부터 수신된 “김태희한테 전화해”라는 음성이 인식된 결과로, “김태휘한테 전화해” 및 “김태희한테 전화해”라는 텍스트 형태의 제 1 및 제 2 음성 인식 데이터(453, 454)가 표시될 수 있다. 이때, 제 1 및 제 2 음성 인식 데이터(453, 454)에서 서로 다른 문자 또는 단어는 강조될 수 있다. 예를 들어, “휘” 및 “희”의 굵기, 색상, 기울기, 글씨체 등이 다른 문자와 구분되도록 변경될 수 있다. 또는, “휘” 및 “희”에 밑줄, 음영 등의 그래픽 효과가 부여될 수 있다. 이로써, 사용자는 상대적으로 자신의 의도와 더욱 부합된 음성 인식 데이터가 무엇인지 직관적으로 인식할 수 있다.

제어부(360)는 터치 입력에 응답하여 제 1 및 제 2 음성 인식 데이터(453, 454) 중 어느 하나를 선택할 수 있다. 또한, 제어부(360)는 선택된 어느 하나의 음성 인식 데이터에 근거하여 사용자의 의도에 대응하는 기능을 예측 및 실행할 수 있다. 예를 들어, “김태희한테 전화해”라는 음성 인식 데이터(454)가 선택됨에 따라, 전화 통화 기능이 예측 및 실행될 수 있다.

본 명세서에 개시된 일 실시 예에 의하면, 상술한 방법은, 프로그램이 기록된 매체에 프로세서가 읽을 수 있는 코드로 구현하는 것이 가능하다. 프로세서가 읽을 수 있는 매체의 예로는, ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장장치 등이 있으며, 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다.

본 명세서에 개시된 이동 단말기에 있어서, 상술한 실시 예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 다양한 변형이 이루어질 수 있도록 실시 예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.

Claims

삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
서버와 연동하는 이동 단말기에 있어서:
사용자의 음성을 수신하는 마이크;
상기 수신된 음성을 상기 서버로 전송하고, 상기 서버에 구비되는 제 1 음성 인식 엔진이 상기 수신된 음성을 인식한 결과로서 생성되는 제 1 음성 인식 데이터를 수신하는 통신부;
상기 수신된 음성을 인식한 결과로서, 제 2 음성 인식 데이터를 생성하는 제 2 음성 인식 엔진; 및
상기 제 1 및 제 2 음성 인식 데이터 중 적어도 하나에 근거하여 사용자의 의도에 대응하는 기능을 예측하고,
상기 예측된 기능에 개인 정보가 요구되는 경우, 상기 제 1 및 제 2 음성 인식 데이터 간의 유사도를 산출하며, 상기 산출된 유사도에 근거하여 상기 제 1 및 제 2 음성 인식 데이터 중 어느 하나를 선택하는 제어부를 포함하며,
상기 제어부는,
상기 서버와 상기 이동 단말기를 연결하는 네트워크의 상태 정보를 파악하고, 상기 네트워크의 상태 정보에 근거하여 상기 제 1 음성 인식 데이터의 수신을 차단하는 것을 특징으로 하는 이동 단말기.
제 9 항에 있어서,
상기 제어부는,
상기 예측된 기능에 개인 정보가 요구되지 않는 경우, 상기 제 2 음성 인식 데이터를 무시하는 것을 특징으로 하는 이동 단말기.
삭제
제 9 항에 있어서,
상기 제어부는,
상기 제 1 음성 인식 데이터의 수신이 차단되는 경우, 상기 제 2 음성 인식 데이터를 이용하여 상기 예측된 기능을 실행하는 것을 특징으로 하는 이동 단말기.
제 9 항에 있어서,
상기 개인 정보 보호 기능을 실행하기 위한 메뉴 버튼을 표시하는 디스플레이부를 더 포함하는 이동 단말기.
제 13 항에 있어서,
상기 제어부는,
상기 메뉴 버튼에 대한 터치 입력에 응답하여 상기 개인 정보 보호 기능이 실행되는 경우, 상기 수신된 음성을 상기 서버로 전송하는 것을 차단하는 것을 특징으로 하는 이동 단말기.
제 9 항에 있어서,
상기 제어부는,
상기 선택된 어느 하나의 음성 인식 데이터를 이용하여 상기 예측된 기능을 실행하는 것을 특징으로 하는 이동 단말기.
제 9 항에 있어서,
상기 제 2 음성 인식 엔진은,
상기 개인 정보를 위한 데이터 베이스를 참조하여 상기 수신된 음성을 인식하는 것을 특징으로 하는 이동 단말기.