KR101961139B1 - 이동 단말기 및 그것의 음성 인식 방법 - Google Patents

이동 단말기 및 그것의 음성 인식 방법 Download PDF

Info

Publication number
KR101961139B1
KR101961139B1 KR1020120070353A KR20120070353A KR101961139B1 KR 101961139 B1 KR101961139 B1 KR 101961139B1 KR 1020120070353 A KR1020120070353 A KR 1020120070353A KR 20120070353 A KR20120070353 A KR 20120070353A KR 101961139 B1 KR101961139 B1 KR 101961139B1
Authority
KR
South Korea
Prior art keywords
speech recognition
voice
mobile terminal
recognition data
voice recognition
Prior art date
Application number
KR1020120070353A
Other languages
English (en)
Other versions
KR20140001711A (ko
Inventor
김주희
이준엽
최정규
이현섭
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR1020120070353A priority Critical patent/KR101961139B1/ko
Priority to PCT/KR2013/005017 priority patent/WO2014003329A1/en
Priority to EP13171839.7A priority patent/EP2680257B1/en
Priority to US13/923,511 priority patent/US9147395B2/en
Priority to JP2013134874A priority patent/JP5956384B2/ja
Priority to CN201310269078.9A priority patent/CN103533154B/zh
Publication of KR20140001711A publication Critical patent/KR20140001711A/ko
Application granted granted Critical
Publication of KR101961139B1 publication Critical patent/KR101961139B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/38Transceivers, i.e. devices in which transmitter and receiver form a structural unit and in which at least one part is used for functions of transmitting and receiving
    • H04B1/40Circuits
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/271Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Telephone Function (AREA)

Abstract

본 발명은 음성 인식 기능을 구비하는 이동 단말기 및 그것의 음성 인식 방법에 관한 것이다. 본 발명의 일 실시 예는 서버와 연동하는 이동 단말기의 음성 인식 방법에 관한 것이다. 상기 음성 인식 방법은, 사용자의 음성을 수신하는 단계; 상기 수신된 음성을 상기 서버에 구비되는 제 1 음성 인식 엔진 및 상기 이동 단말기에 구비되는 제 2 음성 인식 엔진에 제공하는 단계; 상기 제 1 음성 인식 엔진이 상기 수신된 음성을 인식한 결과로서, 제 1 음성 인식 데이터를 획득하는 단계; 상기 제 2 음성 인식 엔진이 상기 수신된 음성을 인식한 결과로서, 제 2 음성 인식 데이터를 획득하는 단계; 상기 제 1 및 제 2 음성 인식 데이터 중 적어도 하나에 근거하여 사용자의 의도에 대응하는 기능을 예측하는 단계; 상기 예측된 기능에 개인 정보가 요구되는 경우, 상기 제 1 및 제 2 음성 인식 데이터 간의 유사도를 산출하는 단계; 및 상기 산출된 유사도에 근거하여 상기 제 1 및 상기 제 2 음성 인식 데이터 중 어느 하나를 선택하는 단계를 포함한다.

Description

이동 단말기 및 그것의 음성 인식 방법{MOBILE TERMINAL AND METHOD FOR RECOGNIZING VOICE THEREOF}
본 발명은 이동 단말기에 관한 것으로, 좀 더 구체적으로 음성 인식 기능을 구비하는 이동 단말기 및 그것의 음성 인식 방법에 관한 것이다.
단말기(terminal)는 이동 가능 여부에 따라 이동 단말기(mobile or portable terminal) 및 고정 단말기(stationary terminal)로 나뉠 수 있다. 다시 이동 단말기는 사용자의 직접 휴대 가능 여부에 따라 휴대(형) 단말기(handheld terminal) 및 거치형 단말기(vehicle mount terminal)로 나뉠 수 있다.
이와 같은 단말기는 기능이 다양화됨에 따라, 예를 들어, 사진이나 동영상의 촬영, 음악이나 동영상 파일의 재생, 게임, 방송 수신 등의 복합적인 기능들을 갖춘 멀티미디어 기기(multimedia player) 형태로 구현되고 있다. 나아가 단말기의 기능 지지 및 증대를 위해, 단말기의 구조적인 부분 및 소프트웨어적인 부분을 개량하는 것이 고려될 수 있다.
이러한 개량의 예로서, 이동 단말기에서 다양한 알고리즘을 이용하여 음성 인식 기능이 실행될 수 있게 되었다. 음성 인식 기능을 실행함에 있어서는, 많은 데이터 연산량 및 자원이 요구된다. 이로 인해, 적절한 자원 분배를 실현하기 위한 분산 음성 인식 시스템이 도입되었다. 하지만, 이러한 분산 음성 인식 시스템에서도 음성 인식 결과의 신속성 및 정확성을 향상시키기 위한 연구는 활발히 진행되고 있다.
본 발명의 목적은 음성 인식 결과에 대한 신뢰성을 향상시킬 수 있는 이동 단말기를 제공하는 데 있다.
본 발명의 다른 목적은 음성 인식 기능의 수행 시에 개인 정보 유출을 방지할 수 있는 이동 단말기를 제공하는 데 있다.
본 발명의 일 실시 예는 서버와 연동하는 이동 단말기의 음성 인식 방법에 관한 것이다. 상기 음성 인식 방법은, 사용자의 음성을 수신하는 단계; 상기 수신된 음성을 상기 서버에 구비되는 제 1 음성 인식 엔진 및 상기 이동 단말기에 구비되는 제 2 음성 인식 엔진에 제공하는 단계; 상기 제 1 음성 인식 엔진이 상기 수신된 음성을 인식한 결과로서, 제 1 음성 인식 데이터를 획득하는 단계; 상기 제 2 음성 인식 엔진이 상기 수신된 음성을 인식한 결과로서, 제 2 음성 인식 데이터를 획득하는 단계; 상기 제 1 및 제 2 음성 인식 데이터 중 적어도 하나에 근거하여 사용자의 의도에 대응하는 기능을 예측하는 단계; 상기 예측된 기능에 개인 정보가 요구되는 경우, 상기 제 1 및 제 2 음성 인식 데이터 간의 유사도를 산출하는 단계; 및 상기 산출된 유사도에 근거하여 상기 제 1 및 상기 제 2 음성 인식 데이터 중 어느 하나를 선택하는 단계를 포함한다.
실시 예에 있어서, 상기 음성 인식 방법은, 상기 예측된 기능에 개인 정보가 요구되지 않는 경우, 상기 제 2 음성 인식 데이터를 무시하는 단계를 더 포함할 수 있다.
실시 예에 있어서, 상기 제 1 음성 인식 데이터를 획득하는 단계는, 상기 제 1 음성 인식 데이터를 요청하기 위한 요청 신호를 상기 서버로 전송하는 단계; 및 상기 요청 신호에 대한 응답으로 상기 제 1 음성 인식 데이터를 상기 서버로부터 수신하는 단계를 포함할 수 있다.
실시 예에 있어서, 상기 음성 인식 방법은, 상기 서버와 상기 이동 단말기를 연결하는 네트워크의 상태 정보를 파악하는 단계; 및 상기 네트워크의 상태 정보에 근거하여 상기 제 1 음성 인식 데이터의 수신을 차단하는 단계를 더 포함하는 할 수 있다. 또한, 상기 음성 인식 방법은, 상기 제 1 음성 인식 데이터의 수신이 차단되는 경우, 상기 제 2 음성 인식 데이터를 이용하여 상기 예측된 기능을 실행하는 단계를 더 포함할 수 있다.
실시 예에 있어서, 상기 음성 인식 방법은, 상기 개인 정보 보호 기능을 실행하기 위한 메뉴 버튼을 표시하는 단계; 및 상기 메뉴 버튼에 대한 터치 입력에 응답하여 상기 개인 정보 보호 기능이 실행되는 경우, 상기 수신된 음성을 상기 제 1 음성 인식 엔진에 제공하는 것을 차단하는 단계를 더 포함할 수 있다. 또한, 상기 음성 인식 방법은, 상기 선택된 어느 하나의 음성 인식 데이터를 이용하여 상기 예측된 기능을 실행하는 단계를 더 포함할 수 있다.
실시 예에 있어서, 상기 제 2 음성 인식 데이터를 획득하는 단계는, 상기 개인 정보를 위한 데이터 베이스를 참조하여 상기 수신된 음성을 인식하는 단계를 포함할 수 있다.
본 발명의 일 실시 예는 서버와 연동하는 이동 단말기에 관한 것이다. 상기 이동 단말기는, 사용자의 음성을 수신하는 마이크; 상기 수신된 음성을 상기 서버로 전송하고, 상기 서버에 구비되는 제 1 음성 인식 엔진이 상기 수신된 음성을 인식한 결과로서 생성되는 제 1 음성 인식 데이터를 수신하는 통신부; 상기 수신된 음성을 인식한 결과로서, 제 2 음성 인식 데이터를 생성하는 제 2 음성 인식 엔진; 및 상기 제 1 및 제 2 음성 인식 데이터 중 적어도 하나에 근거하여 사용자의 의도에 대응하는 기능을 예측하고, 상기 예측된 기능에 개인 정보가 요구되는 경우, 상기 제 1 및 제 2 음성 인식 데이터 간의 유사도를 산출하며, 상기 산출된 유사도에 근거하여 상기 제 1 및 제 2 음성 인식 데이터 중 어느 하나를 선택하는 제어부를 포함한다.
실시 예에 있어서, 상기 제어부는, 상기 예측된 기능에 개인 정보가 요구되지 않는 경우, 상기 제 2 음성 인식 데이터를 무시할 수 있다.
실시 예에 있어서, 상기 제어부는, 상기 서버와 상기 이동 단말기를 연결하는 네트워크의 상태 정보를 파악하고, 상기 네트워크의 상태 정보에 근거하여 상기 제 1 음성 인식 데이터의 수신을 차단할 수 있다. 또한, 상기 제어부는, 상기 제 1 음성 인식 데이터의 수신이 차단되는 경우, 상기 제 2 음성 인식 데이터를 이용하여 상기 예측된 기능을 실행할 수 있다.
실시 예에 있어서, 상기 이동 단말기는, 상기 개인 정보 보호 기능을 실행하기 위한 메뉴 버튼을 표시하는 디스플레이부를 더 포함할 수 있다. 또한, 상기 제어부는, 상기 메뉴 버튼에 대한 터치 입력에 응답하여 상기 개인 정보 보호 기능이 실행되는 경우, 상기 수신된 음성을 상기 서버로 전송하는 것을 차단할 수 있다.
실시 예에 있어서, 상기 제어부는, 상기 선택된 어느 하나의 음성 인식 데이터를 이용하여 상기 예측된 기능을 실행할 수 있다.
실시 예에 있어서, 상기 제 2 음성 인식 엔진은,상기 개인 정보를 위한 데이터 베이스를 참조하여 상기 수신된 음성을 인식할 수 있다.
본 발명에 의하면, 상호 보완적인 원격 음성 인식 엔진(제 1 음성 인식 엔진) 및 로컬 음성 인식 엔진(제 2 음성 인식 엔진)의 음성 인식 결과 중 미리 정해진 알고리즘에 의해 신뢰도가 높다고 판단되는 음성 인식 결과가 선택 및 이용됨으로써, 이동 단말기의 음성 인식률이 향상될 수 있다.
또한, 본 발명에 의하면, 음성 인식 과정에서 예측된 기능에 개인 정보가 요구되는 경우에는, 로컬 음성 인식 엔진의 음성 인식 결과를 이용하고, 원격 음성 인식 엔진에서 개인 정보와 관련된 음성이 인식되는 것이 방지될 수 있다. 다시 말해, 개인 정보 유출이 방지될 수 있다.
또한, 본 발명에 의하면, 네트워크의 상태 불량 시에, 원격 음성 엔진의 음성 인식 결과를 무시하여 원격 음성 엔진으로부터 음성 인식 결과를 수신하는 데에 걸리는 지연이 제거됨으로써, 음성 인식의 처리 속도가 향상될 수 있다.
도 1은 본 발명과 관련된 이동 단말기를 보여주는 블록도이다.
도 2a 및 도 2b는 본 발명과 관련된 이동 단말기의 외관을 보여주는 사시도이다.
도 3은 본 발명의 실시 예에 따른 음성 인식 시스템을 보여주는 블록도이다.
도 4는 본 발명의 실시 예에 따른 이동 단말기의 음성 인식 방법을 설명하기 위한 순서도이다.
도 5 및 도 6은 본 발명의 실시 예에 따른 음성 인식 데이터의 수신 여부와 관련된 이동 단말기의 음성 인식 방법을 설명하기 위한 순서도이다.
도 7은 본 발명의 실시 예에 따른 개인 정보 보호 기능과 관련된 이동 단말기의 음성 인식 방법을 설명하기 위한 순서도이다.
도 8은 도 7의 음성 인식 방법을 적용한 이동 단말기의 사용자 인터페이스를 보여주는 개념도이다.
도 9는 본 발명의 실시 예에 따른 음성 인식 데이터에 대한 사용자 선택과 관련된 이동 단말기의 음성 인식 방법을 설명하기 위한 순서도이다.
도 10은 도 9의 음성 인식 방법을 적용한 이동 단말기의 사용자 인터페이스를 보여주는 개념도이다.
이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 정도로 상세하게 설명하기 위하여, 본 발명의 실시 예가 첨부된 도면을 참조하여 설명한다. 하지만, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고, 도면에서 본 발명을 명확하게 설명하기 위해 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통해 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본 명세서에서 설명되는 이동 단말기에는 휴대폰, 스마트폰(smart phone), 노트북 컴퓨터(laptop computer), 디지털 방송용 단말기, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 내비게이터(navigator) 등이 포함될 수 있다. 그러나, 본 명세서에 기재된 실시 예에 따른 구성은 이동 단말기에만 적용 가능한 경우를 제외하면, 디지털 TV, 데스크탑 컴퓨터 등과 같은 고정 단말기에도 적용될 수도 있음을 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 쉽게 알 수 있을 것이다.
도 1은 본 발명과 관련된 이동 단말기(100)를 보여주는 블록도이다. 도 1을 참조하면, 이동 단말기(100)는 무선 통신부(110), A/V(Audio/Video) 입력부(120), 사용자 입력부(130), 감지부(140), 출력부(150), 메모리(160), 인터페이스부(170), 제어부(180) 및 전원 공급부(190)를 포함할 수 있다. 도 1에 도시된 구성요소들이 필수적인 것은 아니어서, 그보다 많은 구성요소들을 갖거나 그보다 적은 구성요소들을 갖는 이동 단말기가 구현될 수 있다.
이하에서, 이동 단말기(100)의 구성요소들(110~190)에 대해 차례대로 살펴본다.
무선 통신부(110)는 이동 단말기(100)와 무선 통신 시스템 사이, 또는 이동 단말기(100)와 이동 단말기(100)가 위치한 네트워크 사이의 무선 통신을 가능하게 하는 하나 이상의 모듈을 포함할 수 있다. 예를 들어, 무선 통신부(110)는 방송 수신 모듈(111), 이동통신 모듈(112), 무선 인터넷 모듈(113), 근거리 통신 모듈(114) 및 위치정보 모듈(115)을 포함할 수 있다.
방송 수신 모듈(111)은 방송 채널을 통하여 외부의 방송 관리 서버로부터 방송 신호 및 방송 관련 정보를 수신한다. 여기서, 방송 관련 정보는 방송 채널, 방송 프로그램 또는 방송 서비스 제공자에 관련된 정보를 의미한다. 그리고, 방송 관련 정보는 이동통신망을 통하여도 제공될 수 있다. 이러한 경우에, 방송 관련 정보는 이동통신 모듈(112)에 의해 수신될 수 있다. 방송 수신 모듈(111)을 통해 수신되는 방송 신호 및 방송 관련 정보는 메모리(160)에 저장될 수 있다.
이동통신 모듈(112)은 이동 통신망 상에서 기지국, 외부의 단말기, 서버 중 적어도 하나와 무선 신호를 송수신한다. 이러한 무선 신호는 음성 호 신호, 화상 통화 호 신호, 문자 메시지 또는 멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다.
무선 인터넷 모듈(113)은 무선 인터넷 접속을 위한 모듈로서, 이동 단말기(100)에 내장되거나 외장될 수 있다. 무선 인터넷 기술로는 WLAN(Wireless LAN)(Wi-Fi), Wibro(Wireless broadband), Wimax(World Interoperability for Microwave Access), HSDPA(High Speed Downlink Packet Access) 등이 이용될 수 있다.
근거리 통신 모듈(114)은 근거리 통신을 위한 모듈을 말한다. 근거리 통신(short range communication) 기술로는 블루투스(Bluetooth), RFID(Radio Frequency Identification), 적외선 통신(Infrared Data Association; IrDA), UWB(Ultra Wideband), ZigBee 등이 이용될 수 있다.
위치정보 모듈(115)은 이동 단말기(100)의 위치를 획득하기 위한 모듈로서, 그것의 대표적인 예로는 GPS(Global Position System) 모듈이 있다.
계속해서 도 1을 참조하면, A/V(Audio/Video) 입력부(120)는 오디오 신호 및 비디오 신호 입력을 위한 것으로, 이에는 카메라(121), 마이크(122) 등이 포함될 수 있다. 카메라(121)는 화상 통화 모드 또는 촬영 모드에서 이미지 센서에 의해 얻어지는 정지영상, 동영상 등의 화상 프레임을 처리한다. 카메라(121)에 의해 처리된 화상 프레임은 디스플레이부(151)에 표시될 수 있다. 그리고, 이러한 화상 프레임은 메모리(160)에 저장되거나 무선 통신부(110)를 통하여 외부로 전송될 수 있다. 카메라(121)는 사용 환경에 따라 2개 이상이 구비될 수 있다.
마이크(122)는 통화 모드, 녹음 모드, 음성선택 모드 등에서 외부로부터 입력되는 음향 신호를 전기적인 음성 데이터로 처리한다. 통화 모드에서 마이크(122)에 의해 처리된 음성 데이터는 이동통신 모듈(112)을 통해 이동통신 기지국으로 송신 가능한 형태로 변환되어 출력될 수 있다. 마이크(122)에는 외부의 음향 신호가 입력되는 과정에서 발생하는 잡음(noise)을 제거하기 위한 다양한 잡음 제거 알고리즘이 구현될 수 있다.
사용자 입력부(130)는 사용자가 이동 단말기(100)의 동작 제어를 위한 입력 데이터를 발생시킨다. 사용자 입력부(130)는 키 패드(key pad), 돔 스위치 (dome switch), 터치 패드(정압 및 정전), 조그 휠, 조그 스위치 등으로 구성될 수 있다.
감지부(140)는 사용자 접촉 유무, 이동 단말기(100)의 개폐 상태, 위치, 방위, 가속, 감속 등과 같은 이동 단말기(100)의 현재 상태를 감지하여 이동 단말기(100)의 동작을 제어하기 위한 감지 신호를 발생시킨다. 예를 들어, 이동 단말기(100)가 슬라이드 폰 형태인 경우, 감지부(140)는 슬라이드 폰의 개폐 여부를 감지할 수 있다. 또한, 감지부(140)는 전원 공급부(190)의 전원 공급 여부, 인터페이스부(170)의 외부 기기 결합 여부 등을 감지할 수도 있다.
감지부(140)는 근접 센서(141)를 포함할 수 있다. 또한, 감지부(140)는 디스플레이부(151)에 대한 터치 동작을 감지하는 터치 센서(미도시됨)를 포함할 수 있다.
터치 센서는 터치 필름, 터치 시트, 터치 패드 등의 형태를 가질 수 있다. 터치 센서는 디스플레이부(151)의 특정 부위에 가해진 압력 또는 디스플레이부(151)의 특정 부위에 발생하는 정전 용량의 변화를 전기적인 입력신호로 변환하도록 구성될 수 있다. 터치 센서는 터치 되는 위치 및 면적뿐만 아니라, 터치 압력까지도 검출할 수 있도록 구성될 수 있다.
터치 센서와 디스플레이부(151)가 상호 레이어 구조를 이루는 경우에는, 디스플레이부(151)는 출력 장치 이외에 입력 장치로도 사용될 수 있다. 이러한 디스플레이부(151)는 ‘터치 스크린’으로 호칭할 수 있다.
터치 스크린을 통한 터치 입력이 있는 경우, 그것에 대응하는 신호들은 터치 제어기(미도시됨)로 보내진다. 터치 제어기는 터치 센서로부터 전달되는 신호들을 처리한 다음 처리된 신호들에 대응하는 데이터를 제어부(180)로 전송한다. 이로써, 제어부(180)는 디스플레이부(151)의 어느 영역이 터치 되었는지 여부를 알 수 있게 된다.
터치 스크린이 정전식인 경우에는 감지 대상의 근접에 따른 전계의 변화로 감지 대상의 근접을 검출하도록 구성될 수 있다. 이러한 터치 스크린은 근접 센서(141)로 분류될 수 있다.
근접 센서(141)는 감지 대상의 유무를 전자계의 힘 또는 적외선을 이용하여 기계적 접촉이 없이 검출하는 센서를 말한다. 근접 센서(141)는 접촉식 센서보다는 그 수명이 길며 그 활용도 또한 높다. 근접 센서(141)의 예로는 투과형 광전 센서, 직접 반사형 광전 센서, 미러 반사형 광전 센서, 고주파 발진형 근접 센서, 정전용량형 근접 센서, 자기형 근접 센서, 적외선 근접 센서 등이 있다.
이하에서 설명의 편의를 위해, 감지 대상이 터치 스크린상에 접촉되지 않으면서 근접하는 행위를 “근접 터치(proximity touch)”라고 칭하고, 터치 스크린 상에 감지 대상이 접촉되는 행위를 “접촉 터치(contact touch)”라고 칭한다.
근접 센서(141)는 근접 터치의 유무와 근접 터치 패턴(예를 들어, 근접 터치 거리, 근접 터치 방향, 근접 터치 속도, 근접 터치 시간, 근접 터치 위치, 근접 터치 이동 상태 등)을 감지한다. 이러한 근접 터치 유무 및 근접 터치 패턴에 상응하는 정보는 터치 스크린에 출력될 수 있다.
출력부(150)는 시각, 청각, 촉각 등과 관련된 출력을 발생시킨다. 출력부(150)는 디스플레이부(151), 음향 출력 모듈(152), 알람부(153) 및 햅틱 모듈(154)를 포함할 수 있다.
디스플레이부(151)는 이동 단말기(100)에서 처리되는 정보를 표시(출력)한다. 예를 들어, 이동 단말기(100)가 통화 모드에서 동작하는 경우에는, 디스플레이부(151)는 통화와 관련된 UI(User Interface) 또는 GUI(Graphic User Interface)를 표시한다. 이동 단말기(100)가 화상 통화 모드 또는 촬영 모드에서 동작하는 경우에는, 디스플레이부(151)는 촬영된 영상, 수신된 영상, UI 또는 GUI 등을 표시한다.
디스플레이부(151)는 액정 디스플레이(Liquid Crystal Display, LCD), 박막 트랜지스터 액정 디스플레이(Thin Film Transistor-Liquid Crystal Display, TFT- LCD), 유기 발광 다이오드(Organic Light Emitting Diode, OLED), 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display), 전자잉크 디스플레이(e-ink display) 중 적어도 하나를 포함할 수 있다.
디스플레이부(151)에 포함되는 적어도 하나의 디스플레이(또는 디스플레이 소자)는 그것을 통해 외부를 볼 수 있도록 투명형 또는 광투과형으로 구성될 수 있다. 이는 투명 디스플레이라 호칭할 수 있는데, 이러한 투명 디스플레이의 대표적인 예로는 TOLED(Transparant OLED) 등이 있다. 디스플레이부(151)의 후방 구조 또한 광 투과형 구조로 구성될 수 있다. 이러한 구조에 의하여, 사용자는 단말기 본체에서 디스플레이부(151)가 차지하는 영역을 통해 단말기 본체의 후방에 위치한 사물을 볼 수 있다.
디스플레이부(151)는 이동 단말기(100)의 구현 형태에 따라 2개 이상 존재할 수 있다. 예를 들어, 이동 단말기(100)에는 복수의 디스플레이부들이 하나의 면에 이격되거나 일체로 위치할 수 있고, 또한 서로 다른 면에 각각 위치할 수도 있다.
음향 출력 모듈(152)은 호 신호 수신, 통화 모드 또는 녹음 모드, 음성선택 모드, 방송수신 모드 등에서 무선 통신부(110)로부터 수신되거나 메모리(160)에 저장된 오디오 데이터를 출력할 수 있다. 음향 출력 모듈(152)은 이동 단말기(100)에서 수행되는 기능(예를 들어, 호 신호 수신음, 메시지 수신음 등)과 관련된 음향 신호를 출력하기도 한다. 이러한 음향 출력 모듈(152)에는 리시버(receiver), 스피커(speaker), 버저(buzzer) 등이 포함될 수 있다.
알람부(153)는 이동 단말기(100)의 이벤트 발생을 알리기 위한 신호를 출력한다. 이동 단말기(100)에서 발생 되는 이벤트의 예로는 호 신호 수신, 메시지 수신, 키 신호 입력, 터치 입력 등이 있다. 알람부(153)는 비디오 신호나 오디오 신호 이외에 다른 형태, 예를 들어, 진동으로 이벤트 발생을 알리기 위한 신호를 출력할 수도 있다. 비디오 신호나 오디오 신호는 디스플레이부(151)나 음성 출력 모듈(152)을 통해서도 출력될 수 있으므로, 디스플레이부(151) 및 음성 출력 모듈(152)은 알람부(153)의 일부로 분류될 수도 있다.
햅틱 모듈(haptic module)(154)은 사용자가 느낄 수 있는 다양한 촉각 효과를 발생시킨다. 햅틱 모듈(154)이 발생시키는 촉각 효과의 대표적인 예로는 진동이 있다. 햅택 모듈(154)이 발생시키는 진동의 세기, 패턴 등은 제어가능하다. 예를 들어, 서로 다른 진동을 합성하여 출력하거나 순차적으로 출력할 수도 있다.
햅틱 모듈(154)은, 진동 외에도, 접촉 피부면에 대해 수직 운동하는 핀 배열, 분사구나 흡입구를 통한 공기의 분사력이나 흡입력, 피부 표면에 대한 스침, 전극(eletrode)의 접촉, 정전기력 등의 자극에 의한 효과, 흡열이나 발열 가능한 소자를 이용한 냉온감 재현에 의한 효과 등 다양한 촉각 효과를 발생시킬 수 있다.
햅틱 모듈(154)은 직접적인 접촉을 통해 촉각 효과를 전달할 수 있을 뿐만 아니라, 사용자가 손가락이나 팔 등의 근 감각을 통해 촉각 효과를 느낄 수 있도록 구성될 수도 있다. 햅틱 모듈(154)은 이동 단말기(100)의 구성 태양에 따라 2개 이상이 구비될 수 있다.
메모리(160)는 제어부(180)의 동작을 위한 프로그램을 저장할 수 있고, 입력 및 출력되는 데이터들(예를 들어, 폰북, 메시지, 정지영상, 동영상 등)을 임시 저장할 수도 있다. 메모리(160)는 터치 스크린상의 터치 입력시 출력되는 다양한 패턴의 진동 및 음향에 관한 데이터를 저장할 수 있다.
메모리(160)는 플래시 메모리(flash memory), 하드디스크(hard disk), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(random access memory; RAM), SRAM(static random access memory), 롬(read-only memory; ROM), EEPROM(electrically erasable programmable read-only memory), PROM(programmable read-only memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 저장매체를 포함할 수 있다. 이동 단말기(100)는 인터넷(internet)상에서 메모리(160)의 저장 기능을 수행하는 웹 스토리지(web storage)와 관련되어 동작할 수도 있다.
인터페이스부(170)는 이동 단말기(100)에 연결되는 모든 외부기기와의 통로 역할을 한다. 인터페이스부(170)는 외부 기기로부터 데이터를 전송받거나, 전원을 공급받아 이동 단말기(100) 내부의 각 구성요소에 전달하거나, 이동 단말기(100) 내부의 데이터가 외부 기기로 전송되도록 한다. 예를 들어, 인터페이스부(170)에는 유/무선 헤드셋 포트, 외부 충전기 포트, 유/무선 데이터 포트, 메모리 카드(memory card) 포트, 식별 모듈이 구비된 장치를 연결하는 포트, 오디오 I/O(Input/Output) 포트, 비디오 I/O(Input/Output) 포트, 이어폰 포트 등이 포함될 수 있다.
식별 모듈은 이동 단말기(100)의 사용 권한을 인증하기 위한 각종 정보를 저장한 칩으로서, 사용자 인증 모듈(User Identify Module: UIM), 가입자 인증 모듈(Subscriber Identify Module: SIM), 범용 사용자 인증 모듈(Universal Subscriber Identity Module: USIM) 등을 포함할 수 있다. 식별 모듈이 구비된 장치(이하, ‘식별 장치’라고 칭함)는, 스마트 카드(smart card) 형식으로 제작될 수 있다. 따라서, 식별 장치는 포트를 통하여 단말기(100)와 연결될 수 있다.
인터페이스부(170)는 이동단말기(100)가 외부 크래들(cradle)과 연결될 때 크래들로부터의 전원이 이동단말기(100)에 공급되는 통로가 되거나, 사용자에 의해 크래들에서 입력되는 각종 명령 신호가 이동 단말기(100)로 전달되는 통로가 될 수 있다. 크래들로부터 입력되는 각종 명령 신호 또는 전원은, 상기 이동 단말기(100)가 크래들에 정확히 장착되었음을 인지하기 위한 신호로 동작할 수도 있다.
제어부(controller, 180)는 이동 단말기(100)의 전반적인 동작을 제어한다. 예를 들어, 음성 통화, 데이터 통신, 화상 통화 등과 관련된 제어 및 처리를 수행한다. 제어부(180)는 멀티 미디어 재생을 위한 멀티미디어 모듈(181)을 구비할 수도 있다. 멀티미디어 모듈(181)은 제어부(180) 내에 구현될 수도 있고, 제어부(180)와 별도로 구현될 수도 있다. 제어부(180)는 터치 스크린상에서의 필기 입력 및 그림 그리기 입력을 각각 문자 및 이미지로 선택하는 패턴 선택 처리를 수행할 수 있다.
전원 공급부(190)는 제어부(180)의 제어에 의해 외부의 전원, 내부의 전원을 인가받아 각 구성요소들의 동작에 필요한 전원을 공급한다.
여기에 설명되는 다양한 실시 예는 소프트웨어, 하드웨어 또는 이들의 조합된 것을 이용하여 컴퓨터 또는 이와 유사한 장치로 읽을 수 있는 기록매체 내에서 구현될 수 있다.
하드웨어적인 구현에 의하면, 여기에 설명되는 실시 예는 ASICs(Application specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 프로세서들(processors), 제어기들(controllers), 마이크로 컨트롤러들(micro-controllers), 마이크로 프로세서들(microprocessors), 기타 기능 수행을 위한 전기적인 유닛 중 적어도 하나를 이용하여 구현될 수 있다. 일부의 경우에 본 명세서에서 설명되는 실시 예들이 제어부(180) 자체로 구현될 수 있다.
소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시 예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 상기 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 작동을 수행할 수 있다. 적절한 프로그램 언어로 쓰인 소프트웨어 애플리케이션으로 소프트웨어 코드가 구현될 수 있다. 이러한 소프트웨어 코드는 메모리(160)에 저장되고, 제어부(180)에 의해 실행될 수 있다.
이하에서, 이동 단말기(100)에 대한 사용자 입력의 처리 방법에 대해 설명한다.
사용자 입력부(130)는 이동 단말기(100)의 동작을 제어하기 위한 명령을 입력받기 위해 조작되는 것으로서, 복수의 조작 유닛들을 포함할 수 있다. 조작 유닛들은 조작부(manipulating portion)로도 통칭 될 수 있으며, 사용자의 촉각을 이용하여 조작하게 되는 방식(tactile manner)이라면 어떤 방식이든 채용될 수 있다.
디스플레이부(151)에는 다양한 종류의 시각 정보가 표시될 수 있다. 이와 같은 시각 정보는 문자, 숫자, 기호, 그래픽, 아이콘 등의 형태로 표시될 수 있으며, 3차원 입체영상으로 이루어질 수 있다. 시각 정보의 입력을 위하여 문자, 숫자, 기호, 그래픽 및 아이콘 중 적어도 하나는 일정한 배열을 이루어 표시됨으로써 키패드의 형태로 구현될 수 있다. 이러한 키패드는 소위 ‘소프트키’라고 호칭할 수 있다.
디스플레이부(151)는 전체 영역으로 작동되거나, 복수의 영역들로 나뉘어져 작동될 수 있다. 후자의 경우, 복수의 영역들은 서로 연관되게 작동되도록 구성될 수 있다. 예를 들어, 디스플레이부(151)의 상부와 하부에는 출력창과 입력창이 각각 표시될 수 있다. 출력창과 입력창은 각각 정보의 출력 또는 입력을 위해 할당되는 영역이다. 입력창에는 전화 번호의 입력을 위한 숫자가 표시된 소프트키가 출력될 수 있다. 소프트키가 터치되면, 터치된 소프트키에 대응되는 숫자가 출력창에 표시된다. 조작 유닛이 조작되면 출력창에 표시된 전화 번호에 대한 호 연결이 시도되거나 출력창에 표시된 텍스트가 애플리케이션에 입력될 수 있다.
디스플레이부(151) 또는 터치 패드는 터치 스크롤(scroll)를 감지하도록 구성될 수 있다. 사용자는 디스플레이부(151) 또는 터치 패드를 스크롤 함으로써 디스플레이부(151)에 표시된 개체, 예를 들어, 아이콘에 위치한 커서 또는 포인터를 이동시킬 수 있다. 나아가, 손가락을 디스플레이부(151) 또는 터치 패드 상에서 이동시키는 경우, 손가락이 움직이는 경로가 디스플레이부(151)에 시각적으로 표시될 수도 있다. 이는 디스플레이부(151)에 표시되는 이미지를 편집함에 유용할 것이다.
디스플레이부(151) 및 터치 패드가 일정 시간 범위 내에서 함께 터치되는 경우에 대응하여, 이동 단말기(100)의 일 기능이 실행될 수도 있다. 함께 터치되는 경우로는, 사용자가 엄지 및 검지를 이용하여 이동 단말기(100)의 본체를 집는(clamping) 경우가 있을 수 있다. 이때, 실행되는 이동 단말기(100)의 일 기능은, 예를 들어, 디스플레이부(151) 또는 터치 패드에 대한 활성화 또는 비활성화일 수 있다.
도 2a 및 도 2b는 본 발명과 관련된 이동 단말기(100)의 외관을 보여주는 사시도이다. 도 2a에서는 이동 단말기(100)의 전면 및 일 측면이 도시되고, 도 2b에서는 이동 단말기(100)의 후면 및 타 측면이 도시된다.
도 2a를 참조하면, 이동 단말기(100)는 바 형태의 단말기 본체를 구비한다. 다만, 이동 단말기(100)는 이에 한정되지 않고, 2 이상의 본체들이 상대 이동 가능하게 결합하는 슬라이드 타입, 폴더 타입, 스윙 타입, 스위블 타입 등 다양한 형태로 구현될 수 있다.
단말기 본체는 외관을 형성하는 케이스(케이싱, 하우징, 커버 등)를 포함한다. 실시 예에 있어서, 케이스는 프론트 케이스(101)와 리어 케이스(102)로 구분될 수 있다. 프론트 케이스(101)와 리어 케이스(102)의 사이에 형성된 공간에는 각종 전자부품들이 내장된다. 프론트 케이스(101)와 리어 케이스(102) 사이에는 적어도 하나의 중간 케이스가 추가로 위치할 수 있다.
케이스들은 합성수지를 사출하여 형성되거나 금속 재질, 예를 들어, 스테인레스 스틸(STS), 티타늄(Ti) 등과 같은 금속 재질을 갖도록 형성될 수도 있다.
단말기 본체, 주로 프론트 케이스(101)에는 디스플레이부(151), 음향 출력부(152), 카메라(121), 사용자 입력부(130, 도 1 참조), 마이크(122), 인터페이스(170) 등이 위치할 수 있다.
디스플레이부(151)는 프론트 케이스(101)의 주된 부분을 차지한다. 디스플레이부(151)의 일 단부에 인접한 영역에는 음향 출력부(152)와 카메라(121)가 위치하고, 타 단부에 인접한 영역에는 제 1 사용자 입력부(131) 및 마이크(122)가 위치한다. 제 2 사용자 입력부(132) 및 인터페이스(170)는 프론트 케이스(101) 및 리어 케이스(102)의 측면들에 위치할 수 있다.
사용자 입력부(130)는 이동 단말기(100)의 동작을 제어하기 위한 명령을 수신하기 위해 조작된다. 사용자 입력부(130)는 복수의 조작 유닛들(131, 132)을 포함할 수 있다.
제 1 또는 제 2 조작 유닛들(131, 132)은 다양한 명령들을 수신할 수 있다. 예를 들어, 제 1 조작 유닛(131)은 시작, 종료, 스크롤 등과 같은 명령을 수신할 수 있다. 제 2 조작 유닛(132)은 음향 출력부(152)에서 출력되는 음향의 크기 조절, 디스플레이부(151)의 터치 선택 모드로의 전환 등과 같은 명령을 수신할 수 있다.
도 2b를 참조하면, 단말기 본체의 후면, 즉, 리어 케이스(102)에는 후면 카메라(121´)가 추가 장착될 수 있다. 후면 카메라(121´)는 전면 카메라(121, 도 2a 참조)와 반대되는 촬영 방향을 갖고, 전면 카메라(121)와 다른 화소를 갖도록 구성될 수 있다.
예를 들어, 전면 카메라(121)는 저 화소를 갖도록 구성되고, 후면 카메라(121´)는 고 화소를 갖도록 구성될 수 있다. 이에 따라, 화상 통화 시에 전면 카메라(121)를 이용하면, 사용자의 얼굴을 촬영하여 촬영된 영상을 실시간으로 상대방에 전송하는 경우 전송 데이터의 크기를 줄일 수 있다. 반면, 후면 카메라(121´)는 고 화질의 영상을 저장하기 위한 목적으로 이용될 수 있다.
한편, 카메라들(121, 121´)은 회전 또는 팝업(pop-up) 되도록 단말기 본체에 설치될 수 있다.
플래쉬(123) 및 거울(124) 후면 카메라(121´)에 인접하는 곳에 추가 위치할 수 있다. 플래쉬(123)는 사용자가 후면 카메라(121´)로 피사체를 촬영하는 경우, 피사체를 향해 빛을 낸다. 거울(124)은 사용자가 후면 카메라(121´)를 이용하여 자신을 촬영(셀프 촬영)하는 경우, 사용자의 얼굴을 비춘다.
단말기 본체의 후면에는 후면 음향 출력부(152´)가 추가 위치할 수 있다. 후면 음향 출력부(152´)는 전면 음향 출력부(152, 도 2a 참조)와 함께 스테레오 기능을 수행할 수 있으며, 통화 시에 스피커폰 기능을 수행할 수 있다.
단말기 본체의 측면에는 통화를 위한 안테나 외에 방송신호 수신용 안테나(116)가 추가 위치할 수 있다. 방송 수신 모듈(111, 도 1 참조)의 일부를 구성하는 안테나(116)는 단말기 본체에서 인출 가능하게 설치될 수 있다.
단말기 본체에는 이동 단말기(100)에 전원을 공급하기 위한 전원 공급부(190)가 장착된다. 전원 공급부(190)는 단말기 본체에 내장되거나, 단말기 본체의 외부에서 직접 탈착될 수 있도록 구성될 수 있다.
리어 케이스(102)에는 터치를 감지하기 위한 터치 패드(135)가 추가 장착될 수 있다. 터치 패드(135)는 디스플레이부(151, 도 2a 참조)와 마찬가지로 광 투과형으로 구성될 수 있다. 또한, 터치 패드(135)에도 시각 정보를 출력하기 위한 후면 디스플레이부가 추가 장착될 수 있다. 이때, 전면 디스플레이부(151) 및 후면 디스플레이부 양면에서 출력되는 정보는 터치 패드(135)에 의해 제어될 수 있다.
터치 패드(135)는 디스플레이부(151)와 상호 관련되어 작동한다. 터치 패드(135)는 디스플레이부(151)의 후방에 평행하게 위치할 수 있다. 이러한 터치 패드(135)는 디스플레이부(151)와 동일하거나 작은 크기를 가질 수 있다.
도 3은 본 발명의 실시 예에 따른 음성 인식 시스템을 보여주는 블록도이다. 도 3을 참조하면, 음성 인식 시스템은 분산된 자원을 이용하여 음성 인식을 처리할 수 있도록 네트워크를 통해 상호 연동하는 서버(200) 및 이동 단말기(300)를 포함한다. 다시 말해, 음성 인식 시스템은 분산 음성 인식 기술을 구현할 수 있다.
서버(200)는 제 1 음성 인식 엔진(210) 및 제 1 데이터 베이스(220)를 포함할 수 있다. 제 1 음성 인식 엔진(210)은 정보 범위(domain)가 범용 정보로 특정된 제 1 데이터 베이스(220)를 참조하여 이동 단말기(300)가 제공하는 음성을 인식할 수 있다. 그러한 결과로, 제 1 음성 인식 엔진(210)은 제 1 음성 인식 데이터를 생성할 수 있다. 서버(200)는 제 1 음성 인식 엔진(210)에 의해 생성된 제 1 음성 인식 데이터를 이동 단말기(300)로 전송할 수 있다.
이동 단말기(300)는 마이크(310), 제 2 음성 인식 엔진(320), 제 2 데이터 베이스(330), 통신부(340), 디스플레이부(350) 및 제어부(360)를 포함할 수 있다. 마이크(310)는 사용자의 음성을 수신할 수 있다. 제 2 음성 인식 엔진(320)은 정보 범위가 개인 정보로 특정된 제 2 데이터 베이스(330)를 참조하여 마이크(310)를 통해 수신된 음성을 인식할 수 있다. 그러한 결과로, 제 2 음성 인식 엔진(320)은 제 2 음성 인식 데이터를 생성할 수 있다. 통신부(340)는 마이크(310)를 통해 수신된 음성을 서버(200)로 전송하고, 이에 대한 응답으로 제 1 음성 인식 데이터를 서버로(200)부터 수신할 수 있다. 디스플레이부(350)는 음성 인식과 관련된 각종 정보 및 제어 메뉴를 표시할 수 있다. 제어부(360)는 음성 인식과 관련된 이동 단말기의 전반적인 동작을 제어할 수 있다.
이하, 제 1 및 제 2 음성 인식 엔진(210, 320)의 음성 인식 처리에 대해 상세하게 설명한다. 설명의 편의를 위해, 제 1 및 제 2 음성 인식 엔진(210, 320)을 음성 인식 엔진으로 총칭하고, 제 1 및 제 2 데이터 베이스(220, 330)는 데이터 베이스로 총칭하며, 제 1 및 제 2 음성 인식 데이터를 음성 인식 데이터로 총칭한다.
음성 인식 엔진은 음성 인식 알고리즘을 이용하여 수신된(입력된) 음성의 의미와 문맥을 데이터 베이스의 정보 범위에서 분석한다. 이를 위해, STT(Speech To Text) 알고리즘을 이용하여 음성을 텍스트 형태의 데이터로 변환하여 데이터 베이스에 저장할 수 있다.
음성 인식 알고리즘에 의해 사용자의 음성은 복수의 데이터로 변환될 수 있다. 이런 경우, 음성 인식 엔진은 복수의 데이터에 대한 인식률을 판단하고, 음성 인식 결과로서 복수의 데이터 중 가장 높은 인식률을 갖는 데이터를 선택할 수 있다.
도 4는 본 발명의 실시 예에 따른 이동 단말기(300)의 음성 인식 방법을 설명하기 위한 순서도이다. 도 4를 참조하면, 마이크(310)를 통해 사용자의 음성을 수신하는 단계(S102)가 수행된다.
다음으로, 수신된 음성을 제 1 음성 인식 엔진(210) 및 제 2 음성 인식 엔진(320)에 제공하는 단계(S104)가 수행된다. 이러한 음성은 제 1 음성 인식 엔진(210)에 제공되도록 통신부(310)를 통해 서버(200)로 전송될 수 있다. 이때, 네트워크 상태에 따라 서버(200)로의 음성 전송은 차단될 수 있다.
이후, 제 1 음성 인식 엔진(210)이 음성을 인식한 결과로서, 제 1 음성 인식 데이터를 획득하는 단계(S106)가 수행된다. 제 1 음성 인식 데이터는 서버(200)로부터 수신될 수 있다. 이때, 네트워크 상태에 따라 서버(200)로부터의 음성 수신이 차단될 수 있다. 또한, 제 2 음성 인식 엔진(320)이 음성을 인식한 결과로서, 제 2 음성 인식 데이터를 획득하는 단계(S108)가 수행된다.
다음으로, 획득된 제 1 및 제 2 음성 인식 데이터 중 적어도 하나에 근거하여 사용자의 의도에 대응하는 기능을 예측하는 단계(S110)가 수행된다. 예를 들어, 음성 언어 이해(SLU: Spoken Language Understanding) 작업에 의해 사용자 의도에 대응하는 기능이 예측될 수 있다. SLU 작업은 음성 인식된 문장에서 의미 있는 정보를 추출하여 사용자의 의도를 추론하는 것으로, 주로 주행(Main Action)과 화행(Speech Act) 및 개체명(Named Etity) 등의 정보를 추출하는 것을 말한다. 여기서 주행이란 사용자 발화에 드러난 사용자가 하고자 하는 구체적인 동작이 무엇인가를 의미하고, 화행은 사용자 발화의 유형을 의미한다. 개체명은 발화에 나타난 핵심 단어 사람, 장소, 조직, 시간 등과 같은 정보를 의미한다.
다음으로, 예측된 기능에 개인 정보(예: 연락처 정보 등)가 요구되는지 여부를 판단하는 단계(S112)가 수행된다. 예를 들어, 전화 통화 기능을 실행하기 위해서는 통화 대상에 대한 개인 정보가 요구된다. 예측된 기능에 개인 정보가 요구되는 경우, 제 1 및 제 2 음성 인식 데이터 간의 유사도를 산출하는 단계(S114)가 수행된다. 여기서, 유사도는 상호 비교되는 텍스트들에서 서로 일치하는 문자 또는 단어의 수가 어느 정도인지를 비율로 나타낼 수 있다. 예를 들어, “ABCD”와 “ABCF”는 4개의 문자들 중 3개가 일치하고 1개가 다르므로, 유사도는 75%로 산출될 수 있다.
이후, 산출된 유사도와 미리 정해진 기준값(예: 80%)을 비교하는 단계(S116)가 수행된다. 산출된 유사도가 기준값보다 작으면, 다시 말해, 제 1 및 제 2 음성 인식 데이터 간의 차이가 크다고 판단되면, 제 1 및 제 2 음성 인식 데이터 중 제 1 음성 인식 데이터를 선택하는 단계(S118)가 수행된다. 이에 따라, 선택된 제 1 음성 인식 데이터가 이용되어, 예측된 기능이 실행될 수 있다. 이때, 예측된 기능은 선택된 제 1 음성 인식 데이터에 의해 수정 또는 보완되어 실행될 수 있다.
반면, 산출된 유사도가 기준값과 같거나 그보다 크면, 다시 말해, 제 1 및 제 2 음성 인식 데이터 간의 차이가 작다고 판단되면, 제 1 및 제 2 음성 인식 데이터 중 제 2 음성 인식 데이터를 선택하는 단계(S120)가 수행된다. 이에 따라, 선택된 제 2 음성 인식 데이터가 이용되어, 예측된 기능이 실행될 수 있다. 이때, 예측된 기능은 선택된 제 2 음성 인식 데이터에 의해 수정 또는 보완되어 실행될 수 있다.
한편, 예측된 기능에 개인 정보가 요구되지 않는 경우에는, 제 2 음성 인식 데이터를 무시하는 단계(S122)가 수행된다. 이에 따라, 제 1 음성 인식 데이터가 이용되어, 예측된 기능이 실행될 수 있다.
상술한 바와 같이, 본 발명에 의하면, 상호 보완적인 원격 음성 인식 엔진(제 1 음성 인식 엔진) 및 로컬 음성 인식 엔진(제 2 음성 인식 엔진)의 음성 인식 결과 중 미리 정해진 알고리즘에 의해 신뢰도가 높다고 판단되는 음성 인식 결과가 선택 및 이용됨으로써, 이동 단말기(300)의 음성 인식률이 향상될 수 있다.
또한, 본 발명에 의하면, 음성 인식 과정에서 예측된 기능에 개인 정보가 요구되는 경우에는, 로컬 음성 인식 엔진의 음성 인식 결과를 이용하고, 원격 음성 인식 엔진에서 개인 정보와 관련된 음성이 인식되는 것이 방지될 수 있다. 다시 말해, 개인 정보 유출이 방지될 수 있다.
또한, 본 발명에 의하면, 네트워크의 상태 불량 시에, 원격 음성 엔진의 음성 인식 결과를 무시하여 원격 음성 엔진으로부터 음성 인식 결과를 수신하는 데에 걸리는 지연이 제거됨으로써, 음성 인식의 처리 속도가 향상될 수 있다.
도 5 및 도 6은 본 발명의 실시 예에 따른 음성 인식 데이터의 수신 여부와 관련된 이동 단말기(300)의 음성 인식 방법을 설명하기 위한 순서도이다.
도 5를 참조하면, 우선, 서버(200)와 이동 단말기(300) 간에 구축되는 네트워크의 상태를 파악하는 단계(S210)가 수행된다. 네트워크의 상태는 전송 속도, 데이터 패킷 손실률 등에 근거하여 파악될 수 있다.
이후, 네트워크의 상태가 불량인지 여부를 판단하는 단계(S220)가 수행된다. 네트워크 상태가 불량이면, 서버(200)로부터 제 1 음성 인식 데이터를 수신하는 것을 차단하는 단계(S230)가 수행된다.
도 6을 참조하면, 우선, 제 1 음성 인식 데이터에 대한 요청 신호를 서버(200)로 전송하는 단계(S310)가 수행된다. 제 1 음성 인식 데이터는 요청 신호에 대한 응답으로 서버(200)로부터 수신될 수 있다.
다음으로, 기준 응답 시간 내에 제 1 음성 인식 데이터의 수신 여부를 판단하는 단계(S320)가 수행된다. 기준 응답 시간 내에 제 1 음성 인식 데이터가 수신되지 않는 경우, 제 1 음성 인식 데이터에 대한 요청을 취소하기 위한 취소 신호를 서버로 전송하는 단계(S330)가 수행된다. 서버(200)는 취소 신호에 따라 제 1 음성 인식 데이터의 생성 및 전송을 중단할 수 있다.
도 7은 본 발명의 실시 예에 따른 개인 정보 보호 기능과 관련된 이동 단말기(300)의 음성 인식 방법을 설명하기 위한 순서도이다. 도 7을 참조하면, 음성 인식 모드에서, 개인 정보 보호 기능을 실행하기 위한 메뉴 버튼을 표시하는 단계(S410)가 수행된다. 개인 정보 보호 기능은 메뉴 버튼에 대한 터치 입력에 응답하여 실행될 수 있다.
다음으로, 개인 정보 보호 기능의 실행 여부를 판단하는 단계(S420)가 수행된다. 개인 정보 보호 기능이 실행되면, 사용자로부터 수신된 음성을 제 1 음성 인식 엔진(210)에 제공하는 것을 차단할 수 있다. 이는, 사용자의 음성이 서버(300)로 전송되는 것이 차단됨을 의미한다.
도 8은 도 7의 음성 인식 방법을 적용한 이동 단말기(300)의 사용자 인터페이스를 보여주는 개념도이다. 도 8을 참조하면, 제어부(360)는 음성 인식과 관련된 화면 영상(351)을 표시하도록 디스플레이부(350)를 제어할 수 있다. 화면 영상(351)은 음성 인식 모드가 실행되고 있음을 나타내는 안내 정보(352), 개인 정보 보호 기능을 실행하기 위한 메뉴 버튼(353) 등이 포함될 수 있다.
메뉴 버튼(353)에 대한 터치 입력이 감지되면, 제어부(360)는 개인 정보 보호 기능을 실행할 수 있다. 개인 정보 보호 기능의 실행 시에 마이크(310)를 통해 사용자의 음성이 수신되면, 제어부(360)는 수신된 음성을 제 1 음성 인식 엔진(210)에 제공하는 것을 차단하고, 제 2 음성 인식 엔진(320)에 제공할 수 있다.
제 2 음성 인식 엔진(320)은 정보 범위가 개인 정보로 특정된 제 1 데이터 베이스(220)를 참조하여 수신된 음성을 인식하고, 음성 인식 결과를 제어부(360)에 전달할 수 있다. 제어부(360)는 제 2 음성 인식 엔진(320)의 음성 인식 결과에 근거하여 사용자 의도에 대응하는 기능을 예측 및 실행할 수 있다. 예를 들어, 제어부(360)는 사용자로부터 수신된 “김태희한테 전화해”라는 음성이 인식됨에 따라, 전화 통화 기능이 예측 및 실행될 수 있다. 또한, 제어부(360)는 전화 통화 기능과 관련된 화면 영상(354)을 표시하도록 디스플레이부(350)를 제어할 수 있다.
그런데, 전화 통화 기능을 수행하기 위해서는 개인 정보로서 “김태희”의 연락처 정보가 요구된다. 이런 경우, 개인 정보와 관련된 음성이 서버(200)로 전송되지 않도록, 메뉴 버튼(353)을 이용하여 개인 정보 보호 기능이 수동으로 실행될 수 있다.
도 9는 본 발명의 실시 예에 따른 음성 인식 데이터에 대한 사용자 선택과 관련된 이동 단말기(300)의 음성 인식 방법을 설명하기 위한 순서도이다. 도 9를 참조하면, 우선, 제 1 및 제 2 음성 인식 엔진(210, 320)의 음성 인식 결과로서, 제 1 및 제 2 음성 인식 데이터를 표시하는 단계(S510)가 수행된다.
다음으로, 터치 입력에 응답하여 제 1 및 제 2 음성 인식 데이터 중 어느 하나를 선택하는 단계(S520)가 수행된다. 이후, 선택된 어느 하나의 음성 인식 데이터가 이용되어, 예측된 기능이 실행되는 단계(S530)가 수행된다.
도 10은 도 9의 음성 인식 방법을 적용한 이동 단말기(300)의 사용자 인터페이스를 보여주는 개념도이다. 도 10을 참조하면, 제어부(360)는 음성 인식과 관련된 화면 영상(451)을 표시하도록 디스플레이부(350)를 제어할 수 있다. 화면 영상(451)은 음성 인식 모드가 실행되고 있음을 나타내는 안내 정보(452), 제 1 및 제 2 음성 인식 데이터(453, 454) 등이 포함될 수 있다.
예를 들어, 사용자로부터 수신된 “김태희한테 전화해”라는 음성이 인식된 결과로, “김태휘한테 전화해” 및 “김태희한테 전화해”라는 텍스트 형태의 제 1 및 제 2 음성 인식 데이터(453, 454)가 표시될 수 있다. 이때, 제 1 및 제 2 음성 인식 데이터(453, 454)에서 서로 다른 문자 또는 단어는 강조될 수 있다. 예를 들어, “휘” 및 “희”의 굵기, 색상, 기울기, 글씨체 등이 다른 문자와 구분되도록 변경될 수 있다. 또는, “휘” 및 “희”에 밑줄, 음영 등의 그래픽 효과가 부여될 수 있다. 이로써, 사용자는 상대적으로 자신의 의도와 더욱 부합된 음성 인식 데이터가 무엇인지 직관적으로 인식할 수 있다.
제어부(360)는 터치 입력에 응답하여 제 1 및 제 2 음성 인식 데이터(453, 454) 중 어느 하나를 선택할 수 있다. 또한, 제어부(360)는 선택된 어느 하나의 음성 인식 데이터에 근거하여 사용자의 의도에 대응하는 기능을 예측 및 실행할 수 있다. 예를 들어, “김태희한테 전화해”라는 음성 인식 데이터(454)가 선택됨에 따라, 전화 통화 기능이 예측 및 실행될 수 있다.
본 명세서에 개시된 일 실시 예에 의하면, 상술한 방법은, 프로그램이 기록된 매체에 프로세서가 읽을 수 있는 코드로 구현하는 것이 가능하다. 프로세서가 읽을 수 있는 매체의 예로는, ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장장치 등이 있으며, 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다.
본 명세서에 개시된 이동 단말기에 있어서, 상술한 실시 예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 다양한 변형이 이루어질 수 있도록 실시 예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.

Claims (16)

  1. 삭제
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 삭제
  8. 삭제
  9. 서버와 연동하는 이동 단말기에 있어서:
    사용자의 음성을 수신하는 마이크;
    상기 수신된 음성을 상기 서버로 전송하고, 상기 서버에 구비되는 제 1 음성 인식 엔진이 상기 수신된 음성을 인식한 결과로서 생성되는 제 1 음성 인식 데이터를 수신하는 통신부;
    상기 수신된 음성을 인식한 결과로서, 제 2 음성 인식 데이터를 생성하는 제 2 음성 인식 엔진; 및
    상기 제 1 및 제 2 음성 인식 데이터 중 적어도 하나에 근거하여 사용자의 의도에 대응하는 기능을 예측하고,
    상기 예측된 기능에 개인 정보가 요구되는 경우, 상기 제 1 및 제 2 음성 인식 데이터 간의 유사도를 산출하며, 상기 산출된 유사도에 근거하여 상기 제 1 및 제 2 음성 인식 데이터 중 어느 하나를 선택하는 제어부를 포함하며,
    상기 제어부는,
    상기 서버와 상기 이동 단말기를 연결하는 네트워크의 상태 정보를 파악하고, 상기 네트워크의 상태 정보에 근거하여 상기 제 1 음성 인식 데이터의 수신을 차단하는 것을 특징으로 하는 이동 단말기.
  10. 제 9 항에 있어서,
    상기 제어부는,
    상기 예측된 기능에 개인 정보가 요구되지 않는 경우, 상기 제 2 음성 인식 데이터를 무시하는 것을 특징으로 하는 이동 단말기.
  11. 삭제
  12. 제 9 항에 있어서,
    상기 제어부는,
    상기 제 1 음성 인식 데이터의 수신이 차단되는 경우, 상기 제 2 음성 인식 데이터를 이용하여 상기 예측된 기능을 실행하는 것을 특징으로 하는 이동 단말기.
  13. 제 9 항에 있어서,
    상기 개인 정보 보호 기능을 실행하기 위한 메뉴 버튼을 표시하는 디스플레이부를 더 포함하는 이동 단말기.
  14. 제 13 항에 있어서,
    상기 제어부는,
    상기 메뉴 버튼에 대한 터치 입력에 응답하여 상기 개인 정보 보호 기능이 실행되는 경우, 상기 수신된 음성을 상기 서버로 전송하는 것을 차단하는 것을 특징으로 하는 이동 단말기.
  15. 제 9 항에 있어서,
    상기 제어부는,
    상기 선택된 어느 하나의 음성 인식 데이터를 이용하여 상기 예측된 기능을 실행하는 것을 특징으로 하는 이동 단말기.
  16. 제 9 항에 있어서,
    상기 제 2 음성 인식 엔진은,
    상기 개인 정보를 위한 데이터 베이스를 참조하여 상기 수신된 음성을 인식하는 것을 특징으로 하는 이동 단말기.
KR1020120070353A 2012-06-28 2012-06-28 이동 단말기 및 그것의 음성 인식 방법 KR101961139B1 (ko)

Priority Applications (6)

Application Number Priority Date Filing Date Title
KR1020120070353A KR101961139B1 (ko) 2012-06-28 2012-06-28 이동 단말기 및 그것의 음성 인식 방법
PCT/KR2013/005017 WO2014003329A1 (en) 2012-06-28 2013-06-07 Mobile terminal and method for recognizing voice thereof
EP13171839.7A EP2680257B1 (en) 2012-06-28 2013-06-13 Mobile terminal and method for recognizing voice thereof
US13/923,511 US9147395B2 (en) 2012-06-28 2013-06-21 Mobile terminal and method for recognizing voice thereof
JP2013134874A JP5956384B2 (ja) 2012-06-28 2013-06-27 移動端末機及びその音声認識方法
CN201310269078.9A CN103533154B (zh) 2012-06-28 2013-06-28 移动终端及其识别语音的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120070353A KR101961139B1 (ko) 2012-06-28 2012-06-28 이동 단말기 및 그것의 음성 인식 방법

Publications (2)

Publication Number Publication Date
KR20140001711A KR20140001711A (ko) 2014-01-07
KR101961139B1 true KR101961139B1 (ko) 2019-03-25

Family

ID=48747311

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120070353A KR101961139B1 (ko) 2012-06-28 2012-06-28 이동 단말기 및 그것의 음성 인식 방법

Country Status (6)

Country Link
US (1) US9147395B2 (ko)
EP (1) EP2680257B1 (ko)
JP (1) JP5956384B2 (ko)
KR (1) KR101961139B1 (ko)
CN (1) CN103533154B (ko)
WO (1) WO2014003329A1 (ko)

Families Citing this family (171)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US10114902B2 (en) 2012-06-29 2018-10-30 Ebay Inc. Method for detecting and analyzing site quality
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
EP3809407A1 (en) 2013-02-07 2021-04-21 Apple Inc. Voice trigger for a digital assistant
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9966065B2 (en) * 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
KR102340251B1 (ko) * 2014-06-27 2021-12-16 삼성전자주식회사 데이터 관리 방법 및 그 방법을 처리하는 전자 장치
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
JP6418820B2 (ja) * 2014-07-07 2018-11-07 キヤノン株式会社 情報処理装置、表示制御方法、及びコンピュータプログラム
JP6118838B2 (ja) * 2014-08-21 2017-04-19 本田技研工業株式会社 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
KR20160056548A (ko) * 2014-11-12 2016-05-20 삼성전자주식회사 질의 응답을 위한 디스플레이 장치 및 방법
US9934406B2 (en) 2015-01-08 2018-04-03 Microsoft Technology Licensing, Llc Protecting private information in input understanding system
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
EP3091422B1 (en) * 2015-05-08 2020-06-24 Nokia Technologies Oy Method, apparatus and computer program product for entering operational states based on an input type
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10338959B2 (en) * 2015-07-13 2019-07-02 Microsoft Technology Licensing, Llc Task state tracking in systems and services
KR101910383B1 (ko) * 2015-08-05 2018-10-22 엘지전자 주식회사 차량 운전 보조 장치 및 이를 구비한 차량
CN105206266B (zh) * 2015-09-01 2018-09-11 重庆长安汽车股份有限公司 基于用户意图猜测的车载语音控制系统及方法
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
CN106971716A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种机器人噪声数据库更新及语音识别装置、方法
CN106971720A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种更新噪声数据库的机器人语音识别方法及装置
US10635281B2 (en) 2016-02-12 2020-04-28 Microsoft Technology Licensing, Llc Natural language task completion platform authoring for third party experiences
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
WO2018117608A1 (ko) * 2016-12-20 2018-06-28 삼성전자 주식회사 전자 장치, 그의 사용자 발화 의도 판단 방법 및 비일시적 컴퓨터 판독가능 기록매체
KR102502220B1 (ko) * 2016-12-20 2023-02-22 삼성전자주식회사 전자 장치, 그의 사용자 발화 의도 판단 방법 및 비일시적 컴퓨터 판독가능 기록매체
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
KR102068182B1 (ko) * 2017-04-21 2020-01-20 엘지전자 주식회사 음성 인식 장치, 및 음성 인식 시스템
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
KR102033929B1 (ko) * 2017-06-28 2019-10-18 포항공과대학교 산학협력단 아식칩과 스마트폰을 구비하는 실시간 음성인식 장치
KR102413282B1 (ko) * 2017-08-14 2022-06-27 삼성전자주식회사 개인화된 음성 인식 방법 및 이를 수행하는 사용자 단말 및 서버
US10515637B1 (en) 2017-09-19 2019-12-24 Amazon Technologies, Inc. Dynamic speech processing
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US11182565B2 (en) 2018-02-23 2021-11-23 Samsung Electronics Co., Ltd. Method to learn personalized intents
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10679620B2 (en) * 2018-03-06 2020-06-09 GM Global Technology Operations LLC Speech recognition arbitration logic
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11314940B2 (en) 2018-05-22 2022-04-26 Samsung Electronics Co., Ltd. Cross domain personalized vocabulary learning in intelligent assistants
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US10922433B2 (en) 2018-11-26 2021-02-16 Wells Fargo Bank, N.A. Interrupting receipt of sensitive information
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
CN109979454B (zh) * 2019-03-29 2021-08-17 联想(北京)有限公司 数据处理方法及装置
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US20220328047A1 (en) * 2019-06-04 2022-10-13 Nippon Telegraph And Telephone Corporation Speech recognition control apparatus, speech recognition control method, and program
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11418875B2 (en) * 2019-10-14 2022-08-16 VULAI Inc End-fire array microphone arrangements inside a vehicle
US11289095B2 (en) 2019-12-30 2022-03-29 Yandex Europe Ag Method of and system for translating speech to text
CN113241066B (zh) * 2020-01-22 2022-04-22 广州汽车集团股份有限公司 语音交互方法及其系统、语音交互设备
CN113241067B (zh) * 2020-01-22 2022-04-22 广州汽车集团股份有限公司 一种语音交互方法及其系统、语音交互设备
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN112164392A (zh) * 2020-11-13 2021-01-01 北京百度网讯科技有限公司 确定显示的识别文本的方法、装置、设备以及存储介质
EP4156179A1 (de) * 2021-09-23 2023-03-29 Siemens Healthcare GmbH Sprachsteuerung einer medizinischen vorrichtung
KR20230123343A (ko) * 2022-02-16 2023-08-23 삼성전자주식회사 음성 지원 서비스를 제공하는 방법 및 장치

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3082618B2 (ja) 1995-03-28 2000-08-28 フジテック株式会社 エレベータの音声入力装置
JP2001142487A (ja) * 1999-11-11 2001-05-25 Sony Corp 音声データ入力システム
US20020138274A1 (en) * 2001-03-26 2002-09-26 Sharma Sangita R. Server based adaption of acoustic models for client-based speech systems
US6738743B2 (en) * 2001-03-28 2004-05-18 Intel Corporation Unified client-server distributed architectures for spoken dialogue systems
GB2383459B (en) 2001-12-20 2005-05-18 Hewlett Packard Co Speech recognition system and method
JP2004272134A (ja) 2003-03-12 2004-09-30 Advanced Telecommunication Research Institute International 音声認識装置及びコンピュータプログラム
JP2004312210A (ja) 2003-04-04 2004-11-04 R & D Associates:Kk 個人認証方法、個人認証装置及び個人認証システム
KR100956941B1 (ko) * 2003-06-27 2010-05-11 주식회사 케이티 네트워크 상황에 따른 선택적 음성인식 장치 및 그 방법
JP4791699B2 (ja) 2004-03-29 2011-10-12 中国電力株式会社 業務支援システム及び方法
US8589156B2 (en) * 2004-07-12 2013-11-19 Hewlett-Packard Development Company, L.P. Allocation of speech recognition tasks and combination of results thereof
US8024194B2 (en) 2004-12-08 2011-09-20 Nuance Communications, Inc. Dynamic switching between local and remote speech rendering
KR101073190B1 (ko) * 2005-02-03 2011-10-13 주식회사 현대오토넷 분산 음성 인식 시스템을 이용한 텔레매틱스 시스템의정보 제공 시스템 및 방법
US20070276651A1 (en) * 2006-05-23 2007-11-29 Motorola, Inc. Grammar adaptation through cooperative client and server based speech recognition
US20090271195A1 (en) * 2006-07-07 2009-10-29 Nec Corporation Speech recognition apparatus, speech recognition method, and speech recognition program
US8635243B2 (en) * 2007-03-07 2014-01-21 Research In Motion Limited Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application
KR101326262B1 (ko) * 2007-12-27 2013-11-20 삼성전자주식회사 음성인식 단말 및 그 방법
JP5283947B2 (ja) * 2008-03-28 2013-09-04 Kddi株式会社 携帯端末の音声認識装置、音声認識方法、音声認識プログラム
JP5050175B2 (ja) 2008-07-02 2012-10-17 株式会社国際電気通信基礎技術研究所 音声認識機能付情報処理端末
US8364481B2 (en) * 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
WO2010013371A1 (ja) * 2008-07-28 2010-02-04 日本電気株式会社 対話音声認識システム、対話音声認識方法および対話音声認識用プログラムを格納する記憶媒体
JP2010113678A (ja) * 2008-11-10 2010-05-20 Advanced Media Inc 姓名解析方法、姓名解析装置、音声認識装置、および姓名頻度データ生成方法
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
JP5326892B2 (ja) * 2008-12-26 2013-10-30 富士通株式会社 情報処理装置、プログラム、および音響モデルを生成する方法
US8515762B2 (en) * 2009-01-22 2013-08-20 Microsoft Corporation Markup language-based selection and utilization of recognizers for utterance processing
JP5377430B2 (ja) * 2009-07-08 2013-12-25 本田技研工業株式会社 質問応答データベース拡張装置および質問応答データベース拡張方法
JP5464078B2 (ja) * 2010-06-30 2014-04-09 株式会社デンソー 音声認識端末
CN102496364A (zh) 2011-11-30 2012-06-13 苏州奇可思信息科技有限公司 基于云端网络的交互式语音识别方法
US20130238326A1 (en) * 2012-03-08 2013-09-12 Lg Electronics Inc. Apparatus and method for multiple device voice control
US10354650B2 (en) * 2012-06-26 2019-07-16 Google Llc Recognizing speech with mixed speech recognition models to generate transcriptions

Also Published As

Publication number Publication date
US9147395B2 (en) 2015-09-29
CN103533154B (zh) 2015-09-02
US20140006027A1 (en) 2014-01-02
JP2014010456A (ja) 2014-01-20
KR20140001711A (ko) 2014-01-07
JP5956384B2 (ja) 2016-07-27
EP2680257A1 (en) 2014-01-01
WO2014003329A1 (en) 2014-01-03
EP2680257B1 (en) 2016-08-10
CN103533154A (zh) 2014-01-22

Similar Documents

Publication Publication Date Title
KR101961139B1 (ko) 이동 단말기 및 그것의 음성 인식 방법
KR101772979B1 (ko) 이동 단말기 및 그것의 제어 방법
KR101995486B1 (ko) 이동 단말기 및 그것의 제어 방법
KR101990037B1 (ko) 이동 단말기 및 그것의 제어 방법
KR101303160B1 (ko) 이동 단말기 및 그것의 사용자 인터페이스 제공 방법
KR101917685B1 (ko) 이동 단말기 및 그것의 제어 방법
KR101917691B1 (ko) 이동 단말기 및 그것의 제어 방법
KR101887453B1 (ko) 이동 단말기 및 그것의 제어 방법
KR20150127842A (ko) 이동 단말기 및 그것의 제어 방법
KR20140061133A (ko) 이동 단말기 및 그것의 제어 방법
KR101899977B1 (ko) 이동 단말기 및 그것의 제어 방법
KR101984094B1 (ko) 이동 단말기 및 그것의 제어방법
KR101925327B1 (ko) 이동 단말기 및 그것의 제어 방법
KR101300260B1 (ko) 이동 단말기 및 그것의 제어 방법
KR101739387B1 (ko) 이동 단말기 및 그것의 제어 방법
KR20140137189A (ko) 휴대 단말기 및 그 제어 방법
KR20130091181A (ko) 이동 단말기 및 그것의 제어 방법
KR101529927B1 (ko) 단말기 및 그 제어 방법
KR101852432B1 (ko) 이동 단말기 및 그것의 제어 방법
KR20150092624A (ko) 전자 기기 및 그 제어 방법
KR101917687B1 (ko) 이동 단말기 및 그것의 제어 방법
KR101978958B1 (ko) 이동 단말기 및 그것의 제어 방법
KR101917693B1 (ko) 이동 단말기 및 그것의 제어 방법
KR20150065511A (ko) 이동 단말기 및 이동 단말기의 제어 방법
KR101984183B1 (ko) 이동 단말기 및 그 제어방법

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant