KR20210108098A - 전자 장치 및 그 제어 방법 - Google Patents

전자 장치 및 그 제어 방법 Download PDF

Info

Publication number
KR20210108098A
KR20210108098A KR1020200022900A KR20200022900A KR20210108098A KR 20210108098 A KR20210108098 A KR 20210108098A KR 1020200022900 A KR1020200022900 A KR 1020200022900A KR 20200022900 A KR20200022900 A KR 20200022900A KR 20210108098 A KR20210108098 A KR 20210108098A
Authority
KR
South Korea
Prior art keywords
user
voice
received
operation corresponding
information
Prior art date
Application number
KR1020200022900A
Other languages
English (en)
Inventor
윤영수
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020200022900A priority Critical patent/KR20210108098A/ko
Priority to PCT/KR2021/000446 priority patent/WO2021172747A1/ko
Publication of KR20210108098A publication Critical patent/KR20210108098A/ko
Priority to US17/498,943 priority patent/US20220027125A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Child & Adolescent Psychology (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

전자 장치가 개시된다. 본 전자 장치는 마이크, 입력부, 메모리, 디스플레이 및 마이크, 입력부, 메모리 및 디스플레이와 연결되어 전자 장치를 제어하는 프로세서를 포함하며, 프로세서는 마이크를 통해 제1 사용자 음성이 수신되면 제1 사용자 음성에 대응되는 동작을 수행하고, 제1 사용자 음성이 수신된 시점 또는 제1 사용자 음성에 대응되는 동작을 수행한 시점으로부터 제1 임계 시간 이내에 입력부를 통해 사용자 명령이 수신되면 제1 사용자 음성에 대응되는 동작에 대한 정보 및 사용자 명령을 포함하는 사용자 반응 정보를 메모리에 저장하고, 마이크를 통해 제2 사용자 음성이 수신되면 제2 사용자 음성에 대응되는 동작을 수행하고, 제1 사용자 음성에 대응되는 동작의 타입 및 제2 사용자 음성에 대응되는 동작의 타입이 동일하면 메모리에 저장된 사용자 반응 정보에 기초하여 사용자 명령에 대응되는 가이드 정보를 제공하도록 디스플레이를 제어할 수 있다.

Description

전자 장치 및 그 제어 방법 { ELECTRONIC APPARATUS AND CONTROL METHOD THEREOF }
본 개시는 전자 장치 및 그 제어 방법에 대한 것으로, 더욱 상세하게는 사용자의 음성 명령에 따른 동작을 수행하는 전자 장치 및 그 제어 방법에 대한 것이다.
최근 기술이 발달함에 따라 Voice Assistant Platform을 구비한 전자 장치가 증가하고 있다. 전자 장치는 Voice Assistant Platform을 통해 다양한 서비스를 제공할 수 있다. 특히, 전자 장치는 사용자의 발화와 관련된 발화를 추천할 수 있다. 예를 들어, 전자 장치는 사용자의 발화가 수신되면, 직전 발화와 연관된 추천 발화 목록을 제공할 수 있다. 또한, 전자 장치는 현재 시스템의 상태, App 실행 여부, 위치 또는 네트워크 연결 상태의 변화 중 적어도 하나를 더 고려하여 추천 발화 목록을 제공할 수도 있다.
다만, 전자 장치가 사용자의 음성 명령을 100% 완벽하게 인식할 수 있는 것은 아니다. 이 경우, 전자 장치는 사용자의 음성 명령에 부합되지 않는 동작을 수행하거나 아무런 동작을 수행하지 않게 된다.
사용자는 전자 장치가 어떤 발화를 지원하는지에 대한 정보가 없기 때문에, 전자 장치가 사용자의 음성 명령에 부합되지 않는 동작을 수행하거나 아무런 동작을 수행하지 않는 경우, 새로운 음성 명령을 발화하기 어려운 문제가 있다.
또한, 전자 장치는 사용자의 음성 명령에 부합되지 않는 동작을 수행하거나 아무런 동작을 수행하지 않아 문제가 발생한 상황이더라도 이를 인지하지 못하는 문제도 있다.
그에 따라, 전자 장치가 오동작하고 있음을 식별하고, 이를 개선하기 위한 방법이 개발될 필요가 있다.
본 개시는 상술한 필요성에 따른 것으로, 본 개시의 목적은 사용자의 음성 명령에 따른 동작이 오동작인지 여부를 식별하고, 이러한 오동작을 개선하기 위한 전자 장치 및 그 제어 방법을 제공함에 있다.
이상과 같은 목적을 달성하기 위한 본 개시의 일 실시 예에 따르면, 전자 장치는 마이크, 입력부, 메모리, 디스플레이 및 상기 마이크, 상기 입력부, 상기 메모리 및 상기 디스플레이와 연결되어 상기 전자 장치를 제어하는 프로세서를 포함하며, 상기 프로세서는 상기 마이크를 통해 제1 사용자 음성이 수신되면 상기 제1 사용자 음성에 대응되는 동작을 수행하고, 상기 제1 사용자 음성이 수신된 시점 또는 상기 제1 사용자 음성에 대응되는 동작을 수행한 시점으로부터 제1 임계 시간 이내에 상기 입력부를 통해 사용자 명령이 수신되면 상기 제1 사용자 음성에 대응되는 동작에 대한 정보 및 상기 사용자 명령을 포함하는 사용자 반응 정보를 상기 메모리에 저장하고, 상기 마이크를 통해 제2 사용자 음성이 수신되면 상기 제2 사용자 음성에 대응되는 동작을 수행하고, 상기 제1 사용자 음성에 대응되는 동작의 타입 및 상기 제2 사용자 음성에 대응되는 동작의 타입이 동일하면 상기 메모리에 저장된 상기 사용자 반응 정보에 기초하여 상기 사용자 명령에 대응되는 가이드 정보를 제공하도록 상기 디스플레이를 제어할 수 있다.
또한, 상기 프로세서는 상기 제1 사용자 음성에 대응되는 동작이 수행된 시점으로부터 제2 임계 시간 이내에 상기 마이크를 통해 제2 사용자 음성이 수신되면 상기 제2 사용자 음성의 타입을 식별하고, 상기 제2 사용자 음성의 타입이 기설정된 타입이고 상기 사용자 명령이 수신되면 상기 제1 사용자 음성에 대응되는 동작에 대한 정보 및 상기 사용자 명령을 포함하는 상기 사용자 반응 정보를 상기 메모리에 저장할 수 있다.
그리고, 상기 프로세서는 상기 기설정된 타입의 상기 제2 사용자 음성이 수신된 후 상기 사용자 명령이 수신되면 상기 제1 사용자 음성에 대응되는 동작에 대한 정보 및 상기 사용자 명령을 포함하는 상기 사용자 반응 정보를 상기 메모리에 저장할 수 있다.
또한, 상기 기설정된 타입의 상기 제2 사용자 음성은 부정적 감정을 나타내는 단어를 포함하는 사용자 음성일 수 있다.
그리고, 상기 프로세서는 상기 제2 사용자 음성에 대응되는 컨텐츠를 디스플레이하고 상기 가이드 정보를 상기 컨텐츠에 오버레이하여 디스플레이하도록 상기 디스플레이를 제어할 수 있다.
그리고, 상기 프로세서는 상기 가이드 정보가 디스플레이되는 동안 상기 컨텐츠의 재생을 정지할 수 있다.
또한, 상기 프로세서는 상기 사용자 반응 정보가 상기 메모리에 저장된 횟수가 임계 횟수 이상인 상태에서 상기 제2 사용자 음성이 수신되면, 상기 사용자 명령에 대응되는 동작을 수행할 수 있다.
그리고, 상기 가이드 정보는 상기 사용자 명령에 대응되는 동작을 유도하는 메시지 또는 상기 사용자 명령에 대응되는 동작을 실행시키기 위한 아이템 중 적어도 하나를 포함할 수 있다.
또한, 상기 프로세서는 상기 가이드 정보가 제공된 후 제3 임계 시간 내에 상기 입력부를 통해 사용자 명령이 수신되지 않으면, 상기 제1 사용자 음성에 대응되는 상기 사용자 반응 정보를 상기 메모리에서 삭제할 수 있다.
그리고, 통신 인터페이스를 더 포함하며, 상기 프로세서는 상기 사용자 명령이 수신되면 상기 제1 사용자 음성에 대응되는 동작에 대한 정보 및 상기 사용자 명령을 서버로 전송하도록 상기 통신 인터페이스를 제어하며, 상기 통신 인터페이스를 통해 상기 서버로부터 상기 사용자 반응 정보를 수신하고, 상기 수신된 사용자 반응 정보를 상기 메모리에 저장할 수 있다.
또한, 상기 제1 사용자 음성에 대응되는 동작에 대한 정보는 상기 제1 사용자 음성에 기초하여 전자 장치가 수행할 동작의 타입에 대한 정보를 포함할 수 있다.
한편, 본 개시의 일 실시 예에 따르면, 전자 장치의 제어 방법은 제1 사용자 음성이 수신되면, 상기 제1 사용자 음성에 대응되는 동작을 수행하는 단계, 상기 제1 사용자 음성이 수신된 시점 또는 상기 제1 사용자 음성에 대응되는 동작을 수행한 시점으로부터 제1 임계 시간 이내에 사용자 명령이 수신되면 상기 제1 사용자 음성에 대응되는 동작에 대한 정보 및 상기 사용자 명령을 포함하는 사용자 반응 정보를 저장하는 단계, 제2 사용자 음성이 수신되면, 상기 제2 사용자 음성에 대응되는 동작을 수행하는 단계 및 상기 제1 사용자 음성에 대응되는 동작의 타입 및 상기 제2 사용자 음성에 대응되는 동작의 타입이 동일하면 상기 사용자 반응 정보에 기초하여 상기 사용자 명령에 대응되는 가이드 정보를 제공하는 단계를 포함한다.
또한, 상기 제1 사용자 음성에 대응되는 동작이 수행된 시점으로부터 제2 임계 시간 이내에 제2 사용자 음성이 수신되면 상기 제2 사용자 음성의 타입을 식별하는 단계를 더 포함하며, 상기 저장하는 단계는 상기 제2 사용자 음성의 타입이 기설정된 타입이고 상기 사용자 명령이 수신되면 상기 제1 사용자 음성에 대응되는 동작에 대한 정보 및 상기 사용자 명령을 포함하는 상기 사용자 반응 정보를 저장할 수 있다.
그리고, 상기 저장하는 단계는 상기 기설정된 타입의 상기 제2 사용자 음성이 수신된 후 상기 사용자 명령이 수신되면 상기 제1 사용자 음성에 대응되는 동작에 대한 정보 및 상기 사용자 명령을 포함하는 상기 사용자 반응 정보를 저장할 수 있다.
또한, 상기 기설정된 타입의 상기 제2 사용자 음성은 부정적 감정을 나타내는 단어를 포함하는 사용자 음성일 수 있다.
그리고, 상기 상기 제2 사용자 음성에 대응되는 동작을 수행하는 단계는 상기 제2 사용자 음성에 대응되는 컨텐츠를 디스플레이하고, 상기 제공하는 단계는 상기 가이드 정보를 상기 컨텐츠에 오버레이하여 디스플레이할 수 있다.
또한, 상기 제공하는 단계는 상기 가이드 정보가 디스플레이되는 동안 상기 컨텐츠의 재생을 정지할 수 있다.
그리고, 상기 제공하는 단계는 상기 사용자 반응 정보가 저장된 횟수가 임계 횟수 이상인 상태에서 상기 제2 사용자 음성이 수신되면, 상기 사용자 명령에 대응되는 동작을 수행할 수 있다.
또한, 상기 가이드 정보는 상기 사용자 명령에 대응되는 동작을 유도하는 메시지 또는 상기 사용자 명령에 대응되는 동작을 실행시키기 위한 아이템 중 적어도 하나를 포함할 수 있다.
그리고, 상기 가이드 정보가 제공된 후 제3 임계 시간 내에 사용자 명령이 수신되지 않으면, 상기 제1 사용자 음성에 대응되는 상기 사용자 반응 정보를 삭제하는 단계를 더 포함할 수 있다.
또한, 상기 저장하는 단계는 상기 사용자 명령이 수신되면 상기 제1 사용자 음성에 대응되는 동작에 대한 정보 및 상기 사용자 명령을 서버로 전송하는 단계, 상기 서버로부터 상기 사용자 반응 정보를 수신하는 단계 및 상기 수신된 사용자 반응 정보를 저장하는 단계를 포함할 수 있다.
이상과 같은 본 개시의 다양한 실시 예에 따르면, 전자 장치는 사용자의 음성 명령 이후의 사용자의 반응을 학습하고, 이후 동일한 음성 명령이 입력되면 학습된 사용자의 반응에 기초한 가이드 정보를 제공함에 따라 사용자의 편의를 향상시킬 수 있다.
도 1은 본 개시의 일 실시 예에 따른 전자 장치의 구성을 나타내는 블럭도이다.
도 2a 및 도 2b는 본 개시의 일 실시 예에 따른 학습 동작을 설명하기 위한 도면들이다.
도 3a 및 도 3b는 본 개시의 다른 실시 예에 따른 학습 동작을 설명하기 위한 도면들이다.
도 4a 및 도 4b는 본 개시의 일 실시 예에 따른 다양한 사용자 음성에 대한 학습 동작을 설명하기 위한 도면들이다.
도 5는 본 개시의 일 실시 예에 따른 사용자 반응 정보에 따른 동작을 설명하기 위한 도면이다.
도 6은 본 개시의 일 실시 예에 따른 사용자 설정 동작을 설명하기 위한 도면이다.
도 7은 본 개시의 일 실시 예에 따른 서버를 이용하는 이점을 설명하기 위한 도면이다.
도 8은 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.
이하에서는 첨부 도면을 참조하여 본 개시를 상세히 설명한다.
본 개시의 실시 예에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 개시의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.
본 명세서에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.
A 또는/및 B 중 적어도 하나라는 표현은 "A" 또는 "B" 또는 "A 및 B" 중 어느 하나를 나타내는 것으로 이해되어야 한다.
본 명세서에서 사용된 "제1," "제2," "첫째," 또는 "둘째,"등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구성되다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 명세서에서, 사용자라는 용어는 전자 장치를 사용하는 사람 또는 전자 장치를 사용하는 장치(예: 인공 지능 전자 장치)를 지칭할 수 있다.
이하 첨부된 도면들을 참조하여 본 개시의 일 실시 예를 보다 상세하게 설명한다.
도 1은 본 개시의 일 실시 예에 따른 전자 장치의 구성을 나타내는 블럭도이다.
전자 장치(100)는 사용자 음성에 따른 동작을 수행하는 장치로서, TV, 데스크탑 PC, 노트북, 비디오 월(video wall), LFD(large format display), Digital Signage(디지털 간판), DID(Digital Information Display), 프로젝터 디스플레이, DVD(digital video disk) 플레이어, 스마트폰, 태블릿 PC, 모니터, 스마트 안경, 스마트 워치 등과 같이 디스플레이를 구비하고, 획득된 그래픽 이미지를 직접 디스플레이하는 장치일 수 있다.
또는, 전자 장치(100)는 셋탑박스(STB), 스피커, 컴퓨터 본체 등과 같이 디스플레이가 구비되지 않은 장치로서, 사용자 음성에 따른 동작을 나타내는 그래픽 이미지를 디스플레이 장치로 제공하는 장치일 수도 있다. 다만, 이에 한정되는 것은 아니며, 전자 장치(100)는 사용자 음성에 따른 동작을 수행하는 장치라면 어떠한 장치라도 무방하다.
도 1에 따르면, 전자 장치(100)는 마이크(110), 입력부(120), 메모리(130), 디스플레이(140) 및 프로세서(150)를 포함한다. 다만, 이에 한정되는 것은 아니며, 전자 장치(100)는 일부 구성이 제외된 형태로 구현될 수도 있다.
마이크(110)는 사운드를 입력받아 오디오 신호로 변환하기 위한 구성이다. 마이크(110)는 프로세서(150)와 전기적으로 연결되며, 프로세서(150)의 제어에 의해 사운드를 수신할 수 있다. 여기서, 사운드는 사용자 음성 및 전자 장치(100)의 주변의 노이즈를 포함할 수 있다.
마이크(110)는 전자 장치(100)의 상측이나 전면 방향, 측면 방향 등에 일체화된 형태로 구현될 수 있다. 또는, 마이크(110)는 전자 장치(100)와는 별도의 리모컨 등에 구비될 수도 있다. 이 경우, 리모컨은 마이크(110)를 통해 사운드를 수신하고, 수신된 사운드를 전자 장치(100)로 제공할 수도 있다.
마이크(110)는 아날로그 형태의 사운드를 수집하는 마이크, 수집된 사운드를 증폭하는 앰프 회로, 증폭된 사운드를 샘플링하여 디지털 신호로 변환하는 A/D 변환회로, 변환된 디지털 신호로부터 노이즈 성분을 제거하는 필터 회로 등과 같은 다양한 구성을 포함할 수 있다.
마이크(110)는 복수의 서브 마이크를 포함할 수 있다. 예를 들어, 마이크(110)는 전자 장치(100)의 전후좌우에 각각 하나의 서브 마이크를 포함할 수 있다. 다만, 이에 한정되는 것은 아니며, 전자 장치(100)는 하나의 마이크(110)만을 포함할 수도 있다.
마이크(110)는 사운드 센서의 형태로 구현될 수도 있다.
입력부(120)는 사용자 명령을 수신하는 구성이다. 예를 들어, 입력부(120)는 통신 인터페이스로서 원격 제어 장치로부터의 제어 신호를 수신하는 형태로 구현될 수 있다. 이 경우, 사용자는 원격 제어 장치를 통해 사용자 명령을 입력하는 방식으로 전자 장치(100)를 제어할 수 있다.
여기서, 통신 인터페이스는 다양한 유형의 통신방식에 따라 다양한 유형의 외부 장치와 통신을 수행하는 구성이다. 통신 인터페이스는 와이파이 모듈, 블루투스 모듈, 적외선 통신 모듈 또는 무선 통신 모듈 중 적어도 하나를 포함할 수 있다. 여기서, 각 통신 모듈은 적어도 하나의 하드웨어 칩 형태로 구현될 수 있다.
와이파이 모듈, 블루투스 모듈은 각각 WiFi 방식, 블루투스 방식으로 통신을 수행한다. 와이파이 모듈이나 블루투스 모듈을 이용하는 경우에는 SSID 및 세션 키 등과 같은 각종 연결 정보를 먼저 송수신하여, 이를 이용하여 통신 연결한 후 각종 정보들을 송수신할 수 있다. 적외선 통신 모듈은 시 광선과 밀리미터파 사이에 있는 적외선을 이용하여 근거리에 무선으로 데이터를 전송하는 적외선 통신(IrDA, infrared Data Association)기술에 따라 통신을 수행한다.
무선 통신 모듈은 상술한 통신 방식 이외에 지그비(zigbee), 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evolution), LTE-A(LTE Advanced), 4G(4th Generation), 5G(5th Generation)등과 같은 다양한 무선 통신 규격에 따라 통신을 수행하는 적어도 하나의 통신 칩을 포함할 수 있다.
그 밖에 통신 인터페이스는 LAN(Local Area Network) 모듈, 이더넷 모듈, 또는 페어 케이블, 동축 케이블 또는 광섬유 케이블 등을 이용하여 통신을 수행하는 유선 통신 모듈 중 적어도 하나를 포함할 수도 있다.
또 다른 예로, 입력부(120)는 전자 장치(100)의 본체 외관의 전면부나 측면부, 배면부 등의 임의의 영역에 형성된 기계적 버튼, 터치 패드, 휠 등과 같은 다양한 유형의 버튼으로서 사용자 명령을 직접 입력받는 형태로 구현될 수도 있다.
또는, 입력부(120)는 카메라로 구현되어 사용자의 모션과 같은 사용자 인터랙션을 수신할 수도 있다. 또는, 입력부(120)는 마이크(110)를 포함하는 형태로 구현될 수도 있다. 이 경우, 사용자는 사용자 음성을 발화하며 사용자 명령을 전자 장치(100)로 입력할 수도 있다.
다만, 이상의 예는 일 실시 예에 불과하며, 입력부(120)는 사용자 명령을 수신할 수 있는 형태라면 어떠한 형태라도 무방하다.
메모리(130)는 사용자 반응 정보를 저장할 수 있다. 사용자 반응 정보는 사용자 음성에 따른 동작이 있은 후, 임계 시간 내의 사용자 반응에 대한 정보를 포함할 수 있으며, 이에 대한 구체적인 설명은 후술한다.
메모리(130)는 비휘발성 메모리 및 휘발성 메모리 등으로 구현될 수 있으나, 이에 한정되는 것은 아니다. 예를 들어, 메모리(130) 대신 하드디스크가 이용될 수도 있으며, 데이터를 저장할 수 있는 구성이라면 어떠한 구성이라도 가능하다.
디스플레이(140)는 그래픽 데이터를 표시하기 위한 구성이다. 예를 들어, 디스플레이(140)는 사용자 명령에 대응되는 가이드 정보를 표시하는 구성으로, LCD(Liquid Crystal Display), OLED(Organic Light Emitting Diodes) 디스플레이, PDP(Plasma Display Panel), micro LED, Laser Display, VR, Glass 등과 같은 다양한 형태의 디스플레이로 구현될 수 있다. 디스플레이(140) 내에는 a-si TFT, LTPS(low temperature poly silicon) TFT, OTFT(organic TFT) 등과 같은 형태로 구현될 수 있는 구동 회로, 백라이트 유닛 등도 함께 포함될 수 있다. 한편, 디스플레이(140)는 터치 센서와 결합된 터치 스크린, 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display) 등으로 구현될 수 있다.
프로세서(150)는 전자 장치(100)의 동작을 전반적으로 제어한다. 구체적으로, 프로세서(150)는 전자 장치(100)의 각 구성과 연결되어 전자 장치(100)의 동작을 전반적으로 제어할 수 있다. 예를 들어, 프로세서(150)는 마이크(110), 입력부(120), 메모리(130), 디스플레이(140) 등과 같은 구성과 연결되어 전자 장치(100)의 동작을 제어할 수 있다.
일 실시 예에 따라 프로세서(150)는 디지털 시그널 프로세서(digital signal processor(DSP), 마이크로 프로세서(microprocessor), TCON(Time controller)으로 구현될 수 있다. 다만, 이에 한정되는 것은 아니며, 중앙처리장치(central processing unit(CPU)), MCU(Micro Controller Unit), MPU(micro processing unit), 컨트롤러(controller), 어플리케이션 프로세서(application processor(AP)), 또는 커뮤니케이션 프로세서(communication processor(CP)), ARM 프로세서 중 하나 또는 그 이상을 포함하거나, 해당 용어로 정의될 수 있다. 또한, 프로세서(150)는 프로세싱 알고리즘이 내장된 SoC(System on Chip), LSI(large scale integration)로 구현될 수도 있고, FPGA(Field Programmable gate array) 형태로 구현될 수도 있다.
프로세서(150)는 마이크(110)를 통해 제1 사용자 음성이 수신되면 제1 사용자 음성에 대응되는 동작을 수행할 수 있다. 예를 들어, 프로세서(150)는 "채널 2번 틀어줘."라는 사용자 음성이 수신되면, 사용자 음성에 대응되도록 채널 2번을 디스플레이할 수 있다.
다만, 프로세서(150)는 음성 인식을 실패하거나 음성 인식을 잘못 수행할 수도 있다. 예를 들어, 프로세서(150)는 "채널 2번 틀어줘."라는 사용자 음성을 수신하더라도 이를 인식하지 못한 경우, 아무런 동작을 수행하지 않거나 "다시 말씀해주세요."와 같은 안내 메시지를 제공할 수 있다. 또는, 프로세서(150)는 "채널 2번 틀어줘."라는 사용자 음성을 수신하더라도 "채널 1번 틀어줘."로 식별하고, 채널 1번을 디스플레이할 수도 있다. 이하에서는 설명의 편의를 위하여, 프로세서(150)가 "채널 2번 틀어줘."라는 사용자 음성을 "채널 1번 틀어줘."로 식별하는 것으로 설명한다.
이 경우, 사용자는 원하는 채널이 디스플레이되지 않기 때문에, 다른 방식으로 채널 2번을 디스플레이하기 위한 사용자 명령을 전자 장치(100)로 제공할 수 있다. 예를 들어, 사용자는 원격 제어 장치의 2번 키를 눌러서 채널 2번을 디스플레이하기 위한 사용자 명령을 전자 장치(100)로 제공할 수 있다. 또는, 사용자는 추가로 사용자 음성을 발화하여 사용자 명령을 전자 장치(100)로 제공할 수도 있다.
프로세서(150)는 제1 사용자 음성이 수신된 시점 또는 제1 사용자 음성에 대응되는 동작을 수행한 시점으로부터 제1 임계 시간 이내에 입력부(120)를 통해 사용자 명령이 수신되면 제1 사용자 음성에 대응되는 동작에 대한 정보 및 사용자 명령을 포함하는 사용자 반응 정보를 메모리(130)에 저장할 수 있다. 여기서, 제1 사용자 음성에 대응되는 동작에 대한 정보는 제1 사용자 음성에 기초하여 전자 장치(100)가 수행할 동작의 타입에 대한 정보를 포함할 수 있다. 예를 들어, 프로세서(150)는 제1 사용자 음성에 따라 채널을 변경하는 동작, 컨텐츠를 검색하는 동작, 사전에서 단어를 검색하는 동작 등을 수행할 수 있으며, 이 경우 제1 사용자 음성에 대응되는 동작에 대한 정보는 채널을 변경하는 동작, 컨텐츠를 검색하는 동작 또는 사전에서 단어를 검색하는 동작 중 적어도 하나를 포함할 수 있다.
좀더 구체적으로 예를 들면, 프로세서(150)는 "채널 2번 틀어줘."와 같은 사용자 음성이 수신된 시점 또는 사용자 음성에 따라 채널을 1번으로 변경한 시점으로부터 5초 이내에 입력부(120)를 통해 채널 2번을 디스플레이하기 위한 사용자 명령이 수신되면, 제1 사용자 음성에 기초하여 채널 1번을 디스플레이한 정보 및 채널 2번을 디스플레이하기 위한 사용자 명령을 포함하는 사용자 반응 정보를 메모리(130)에 저장할 수 있다.
즉, 프로세서(150)는 제1 사용자 음성이 수신된 시점 또는 제1 사용자 음성에 대응되는 동작을 수행한 시점으로부터 제1 임계 시간 이내에 사용자 명령이 수신되는 경우에만, 제1 사용자 음성에 따른 동작이 문제가 있다고 판단하고 사용자 명령과 함께 사용자 반응 정보로서 메모리(130)에 저장하게 된다.
여기서, 프로세서(150)는 제1 사용자 음성에 대응되는 동작에 대한 정보 및 사용자 명령을 매칭시켜 사용자 반응 정보로서 저장할 수 있다. 즉, 사용자 반응 정보는 복수의 정보 쌍을 포함할 수 있다.
예를 들어, 사용자 반응 정보는 채널 1번을 디스플레이한 정보 및 채널 2번을 디스플레이하기 위한 사용자 명령을 제1 정보 쌍으로 포함하고, 채널 11번을 디스플레이한 정보 및 채널 12번을 디스플레이하기 위한 사용자 명령을 제2 정보 쌍으로 포함할 수 있으며, 그 밖에 얼마든지 다양한 정보 쌍을 포함할 수 있다.
사용자 반응 정보가 메모리(130)에 저장된 이후, 프로세서(150)는 마이크를 통해 제2 사용자 음성이 수신되면 제2 사용자 음성에 대응되는 동작을 수행하고, 제1 사용자 음성에 대응되는 동작의 타입 및 제2 사용자 음성에 대응되는 동작의 타입이 동일한지 식별할 수 있다. 그리고, 프로세서(150)는 제1 사용자 음성에 대응되는 동작의 타입 및 제2 사용자 음성에 대응되는 동작의 타입이 동일하면 메모리(130)에 저장된 사용자 반응 정보에 기초하여 사용자 명령에 대응되는 가이드 정보를 제공하도록 디스플레이(140)를 제어할 수 있다.
상술한 예에서, 프로세서(150)는 "채널 2번 틀어줘."와 같은 사용자 음성이 수신되면, 이를 잘못 식별하고 채널 1번을 디스플레이할 수 있다. 그리고, 프로세서(150)는 채널 1번을 디스플레이한 동작이 사용자 반응 정보에 저장된 제1 사용자 음성에 대응되는 동작인지 식별할 수 있다. 즉, 프로세서(150)는 채널 1번을 디스플레이한 동작이 사용자 반응 정보에 저장된 정보라고 식별되면, 채널 2번을 디스플레이하기 위한 사용자 명령에 대응되는 가이드 정보를 제공하도록 디스플레이(140)를 제어할 수 있다.
여기서, 가이드 정보는 사용자 명령에 대응되는 동작을 유도하는 메시지 또는 사용자 명령에 대응되는 동작을 실행시키기 위한 아이템 중 적어도 하나를 포함할 수 있다. 상술한 예에서, 가이드 정보는 "채널 2번을 디스플레이해줘."와 같은 메시지 또는 "채널 2번"를 나타내는 아이템 중 적어도 하나를 포함할 수 있다. 사용자는 메시지와 동일하게 사용자 음성을 발화하여 채널 1번을 채널 2번으로 변경할 수 있다. 또는, 사용자는 아이템을 원격 제어 장치 등을 통해 선택함으로써 채널 1번을 채널 2번으로 변경할 수도 있다.
한편, 이상에서는 제1 사용자 음성이 수신된 시점 또는 제1 사용자 음성에 대응되는 동작을 수행한 시점으로부터 제1 임계 시간 이내에 사용자 명령이 수신되는 경우에 사용자 반응 정보가 메모리(130)에 저장되는 것으로 설명하였으나, 이는 일 실시 예에 불과하다.
예를 들어, 프로세서(150)는 제1 사용자 음성에 대응되는 동작이 수행된 시점으로부터 제2 임계 시간 이내에 마이크(110)를 통해 제2 사용자 음성이 수신되면 제2 사용자 음성의 타입을 식별하고, 제2 사용자 음성의 타입이 기설정된 타입이고 사용자 명령이 수신되면 제1 사용자 음성에 대응되는 동작에 대한 정보 및 사용자 명령을 포함하는 사용자 반응 정보를 메모리(130)에 저장할 수도 있다.
즉, 프로세서(150)는 제1 사용자 음성이 수신된 시점으로부터 제2 임계 시간 이내에 기설정된 타입의 제2 사용자 음성이 더 수신된 경우에 사용자 반응 정보를 메모리(130)에 저장할 수도 있다.
특히, 프로세서(150)는 기설정된 타입의 제2 사용자 음성이 수신된 후 사용자 명령이 수신되면 제1 사용자 음성에 대응되는 동작에 대한 정보 및 사용자 명령을 포함하는 사용자 반응 정보를 메모리(130)에 저장할 수 있다. 이 경우, 제1 임계 시간은 제2 임계 시간보다 크다.
다만, 이에 한정되는 것은 아니며, 제1 임계 시간이 제2 임계 시간보다 작은 경우에도 사용자 반응 정보가 메모리(130)에 저장될 수도 있다. 예를 들어, 프로세서(150)는 사용자 명령이 수신된 후 기설정된 타입의 제2 사용자 음성이 수신되면 제1 사용자 음성에 대응되는 동작에 대한 정보 및 사용자 명령을 포함하는 사용자 반응 정보를 메모리(130)에 저장할 수도 있다.
기설정된 타입의 제2 사용자 음성은 부정적 감정을 나타내는 단어를 포함하는 사용자 음성일 수 있다. 예를 들어, 제2 사용자 음성은 "잘 안되네.", "아니. 그거 말고."와 같이 부정적 감정을 나타내는 단어를 포함하는 사용자 음성일 수 있다.
한편, 프로세서(150)는 제2 사용자 음성에 대응되는 컨텐츠를 디스플레이하고 가이드 정보를 컨텐츠에 오버레이하여 디스플레이하도록 디스플레이(140)를 제어할 수 있다.
상술한 예에서, 프로세서(150)는 채널 1번에서 제공하는 컨텐츠를 디스플레이하고, "채널 2번"을 디스플레이해줘."와 같은 메시지 또는 "채널 2번"를 나타내는 아이템과 같은 가이드 정보를 컨텐츠에 오버레이하여 디스플레이하도록 디스플레이(140)를 제어할 수 있다. 이 경우, 프로세서(150)는 가이드 정보가 디스플레이되는 동안 컨텐츠의 재생을 정지할 수도 있다.
한편, 이상에서는 제1 사용자 음성이 수신된 시점 또는 제1 사용자 음성에 대응되는 동작을 수행한 시점으로부터 제1 임계 시간 이내에 사용자 명령이 수신되는 횟수가 1회인 경우를 가정하였다. 다만, 이러한 오동작이 수 차례 반복될 수도 있으며, 프로세서(150)는 동일한 사용자 반응 정보의 횟수를 메모리(130)에 더 저장할 수도 있다.
그리고, 프로세서(150)는 동일한 사용자 반응 정보가 메모리(130)에 저장된 횟수가 임계 횟수 이상인 상태에서 제2 사용자 음성이 수신되면, 사용자 명령에 대응되는 동작을 수행할 수 있다. 이 경우, 프로세서(150)는 가이드 정보를 제공하는 동작을 수행하지 않을 수도 있다.
프로세서(150)는 가이드 정보가 제공된 후 제3 임계 시간 내에 입력부(120)를 통해 사용자 명령이 수신되지 않으면, 제1 사용자 음성에 대응되는 사용자 반응 정보를 메모리(130)에서 삭제할 수 있다. 다만, 이에 한정되는 것은 아니며, 가이드 정보가 제공된 후 제3 임계 시간 내에 사용자 명령이 수신되지 않는 횟수가 임계 횟수 이상인 경우에만 제1 사용자 음성에 대응되는 사용자 반응 정보가 삭제될 수도 있다.
이상에서는 전자 장치(100)가 직접 사용자 반응 정보를 획득하는 것으로 설명하였으나, 이에 한정되는 것은 아니다. 예를 들어, 전자 장치(100)는 통신 인터페이스를 더 포함하며, 프로세서(150)는 사용자 명령이 수신되면 제1 사용자 음성에 대응되는 동작에 대한 정보 및 사용자 명령을 서버로 전송하도록 통신 인터페이스를 제어하며, 통신 인터페이스를 통해 서버로부터 사용자 반응 정보를 수신하고, 수신된 사용자 반응 정보를 메모리(130)에 저장할 수도 있다.
이 경우, 서버는 전자 장치(100) 뿐만 아니라 복수의 타 전자 장치로부터 다양한 사용자 반응 정보를 수집할 수 있다.
이상과 같이 전자 장치(100)는 사용자의 음성 명령 이후의 사용자의 반응을 학습하고, 이후 동일한 음성 명령이 입력되면 학습된 사용자의 반응에 기초한 가이드 정보를 제공할 수 있다.
이하에서는 전자 장치(100)의 동작을 도면을 통해 좀더 구체적으로 설명한다.
도 2a 및 도 2b는 본 개시의 일 실시 예에 따른 학습 동작을 설명하기 위한 도면들이다.
먼저, 프로세서(150)는 도 2a에 도시된 바와 같이, 마이크(110)를 통해 "채널 2번 틀어줘."와 같은 제1 사용자 음성을 수신할 수 있다. 다만, 프로세서(150)를 이를 잘못 인식하여 채널 1번을 디스플레이할 수 있다.
프로세서(150)는 도 2b에 도시된 바와 같이, 제1 사용자 음성이 수신된 시점 또는 제1 사용자 음성에 대응되는 동작을 수행한 시점으로부터 제1 임계 시간 이내에 원격 제어 장치로부터 채널 2번을 디스플레이하라는 제어 명령이 수신되면, 먼저 채널 2번을 디스플레이할 수 있다.
그리고, 프로세서(150)는 제1 사용자 음성에 기초하여 채널 1번을 디스플레이한 정보 및 채널 2번을 디스플레이하기 위한 제어 명령을 포함하는 사용자 반응 정보를 메모리(130)에 저장할 수 있다.
여기서, 프로세서(150)는 제1 사용자 음성 자체를 사용자 반응 정보로서 저장하지 않을 수 있다. 예를 들어, "채널 2번 틀어줘."와 같은 제1 사용자 음성과 채널 2번을 디스플레이하기 위한 제어 명령이 매칭되어 사용자 반응 정보로 저장되면, "채널 2번 틀어줘."와는 사용자 음성을 식별하지 못하기 때문이다. 가령, 프로세서(150)는 "채널 2번.", "2번 켜줘."와 같은 사용자 음성이 입력되면, 대응되는 사용자 반응 정보를 식별하지 못할 수도 있다. 따라서, 프로세서(150)는 제1 사용자 음성 자체가 아닌 제1 사용자 음성에 따른 동작을 사용자 명령과 매칭시켜 사용자 반응 정보로서 저장하게 된다.
도 3a 및 도 3b는 본 개시의 다른 실시 예에 따른 학습 동작을 설명하기 위한 도면들이다.
먼저, 프로세서(150)는 도 3a에 도시된 바와 같이, 마이크(110)를 통해 "채널 2번 틀어줘."와 같은 제1 사용자 음성을 수신할 수 있다. 다만, 프로세서(150)는 이를 잘못 인식하여 채널 1번을 디스플레이할 수 있다.
그리고, 프로세서(150)는 제1 사용자 음성에 대응되는 동작이 수행된 시점으로부터 제2 임계 시간 이내에 마이크(110)를 통해 "아니. 그거 말고."와 같은 제2 사용자 음성을 수신하고, 제2 사용자 음성이 부정적 감정을 나타내는 단어를 포함하는 것을 식별할 수 있다.
프로세서(150)는 도 3b에 도시된 바와 같이, 제2 사용자 음성이 부정적 감정을 나타내는 단어를 포함하고 제1 사용자 음성이 수신된 시점 또는 제1 사용자 음성에 대응되는 동작을 수행한 시점으로부터 제1 임계 시간 이내에 원격 제어 장치로부터 채널 2번을 디스플레이하라는 제어 명령이 수신되면, 먼저 채널 2번을 디스플레이할 수 있다.
그리고, 프로세서(150)는 제1 사용자 음성에 기초하여 채널 1번을 디스플레이한 정보 및 채널 2번을 디스플레이하기 위한 제어 명령을 포함하는 사용자 반응 정보를 메모리(130)에 저장할 수 있다.
즉, 프로세서(150)는 제1 사용자 음성에 따른 동작을 수행한 후, 사용자의 부정적인 반응이 있고, 사용자 명령이 수신된 경우에 사용자 반응 정보를 저장할 수도 있다.
이 경우, 도 2a 및 도 2b의 경우보다 사용자 반응 정보의 신뢰도가 향상될 수 있다.
도 2a 내지 도 3b에서는 사용자가 채널을 변경하는 사용자 음성을 발화한 경우를 설명하였다. 도 4a 및 도 4b에는 좀더 다양한 사용자 음성에 따른 프로세서(150)의 학습 동작을 설명한다.
도 4a 및 도 4b는 본 개시의 일 실시 예에 따른 다양한 사용자 음성에 대한 학습 동작을 설명하기 위한 도면들이다.
먼저, 프로세서(150)는 도 4a의 상단에 도시된 바와 같이, 마이크(110)를 통해 “컨텐츠 A 찾아줘.”와 같은 제1 사용자 음성을 수신할 수 있다.
프로세서(150)는 도 4a의 하단에 도시된 바와 같이, 컨텐츠 A에 대한 검색 결과가 식별되지 않아, “관련 컨텐츠를 찾지 못했습니다.”와 같은 안내 메시지를 디스플레이할 수 있다. 즉, 프로세서(150)는 사용자가 원하는 결과물을 제공하지 못할 수 있다. 이는, 프로세서(150)가 검색을 수행한 데이터베이스가 잘못된 경우일 수 있다. 가령, 데이터베이스 A에는 컨텐츠 A에 대한 정보가 저장되어 있고 데이터베이스 B에는 컨텐츠 A에 대한 정보가 저장되어 있지 않으며, 프로세서(150)가 데이터베이스 B에서만 검색을 수행한 경우 검색 결과가 식별되지 않을 수 있다.
그리고, 프로세서(150)는 제1 사용자 음성이 수신된 시점 또는 제1 사용자 음성에 대응되는 동작을 수행한 시점으로부터 제1 임계 시간 이내에 마이크(110)를 통해 “App A 실행해줘.”와 같은 제2 사용자 음성을 수신할 수 있다. 이 경우, 프로세서(150)는 App A를 실행하며, 제1 사용자 음성에 기초하여 컨텐츠의 검색 동작에 대한 정보 및 App A에 대한 실행 명령을 포함하는 사용자 반응 정보를 메모리(130)에 저장할 수 있다.
도 4a에서는 컨텐츠 A에 대한 검색이 불가능한 경우를 도시하였으나, 이에 한정되는 것은 아니다. 예를 들어, 프로세서(150)는 컨텐츠 A에 대한 검색을 App A’에서 수행하고, App A’에서 검색된 결과를 디스플레이할 수도 있다. 여기서, App A’은 컨텐츠 A에 대한 소개 영상을 제공하는 어플리케이션이며, 사용자는 컨텐츠 A 자체를 제공하는 App A를 실행하고 싶어할 수도 있다. 프로세서(150)는 App A’에서 검색된 결과를 디스플레이한 후, “App A 실행해줘.”와 같은 제2 사용자 음성을 수신할 수 있다. 이 경우, 프로세서(150)는 App A를 실행하며, 제1 사용자 음성에 기초하여 컨텐츠의 검색 동작에 대한 정보 및 App A에 대한 실행 명령을 포함하는 사용자 반응 정보를 메모리(130)에 저장할 수도 있다.
또는, 프로세서(150)는 도 4b의 상단에 도시된 바와 같이, 마이크(110)를 통해 “MLB.”와 같은 제1 사용자 음성을 수신할 수도 있다.
프로세서(150)는 도 4b의 하단에 도시된 바와 같이, 사전에서 MLB에 대한 정보를 검색하고, 검색 결과를 디스플레이할 수 있다. 사용자는 MLB와 관련된 스포츠 채널을 시청하려는 의도였을 수 있으나, 프로세서(150)는 사전적인 의미만을 검색하여 사용자가 원하는 결과물을 제공하지 못한 상태일 수 있다.
프로세서(150)는 제1 사용자 음성이 수신된 시점 또는 제1 사용자 음성에 대응되는 동작을 수행한 시점으로부터 제1 임계 시간 이내에 마이크(110)를 통해 “App B 실행해줘.”와 같은 제2 사용자 음성을 수신할 수 있다. App B는 다양한 방송 채널을 제공하는 어플리케이션일 수 있다.
이 경우, 프로세서(150)는 App B를 실행하며, 제1 사용자 음성에 기초하여 사전에서 단어를 검색한 동작에 대한 정보 및 App B에 대한 실행 명령을 포함하는 사용자 반응 정보를 메모리(130)에 저장할 수 있다.
이상과 같이, 사용자가 원하는 동작이 수행되지 않은 경우, 프로세서(150)는 사용자의 반응을 식별하고, 이를 사용자 반응 정보로서 메모리(130)에 저장할 수 있다.
도 5는 본 개시의 일 실시 예에 따른 사용자 반응 정보에 따른 동작을 설명하기 위한 도면이다. 도 5는 도 2a 내지 도 3b에서 설명한 사용자 반응 정보가 저장된 상태를 가정한다. 즉, 사용자 반응 정보는 제1 사용자 음성에 기초하여 채널 1번을 디스플레이한 정보 및 채널 2번을 디스플레이하기 위한 제어 명령을 포함하는 것으로 설명한다.
프로세서(150)는 도 5에 도시된 바와 같이, 마이크(110)를 통해 "채널 2번 틀어줘."와 같은 제2 사용자 음성이 수신되면 제2 사용자 음성에 대응되는 동작을 수행할 수 있다. 여기서, 제2 사용자 음성에 대응되는 동작 역시 오인식에 의한 채널 1번을 디스플레이하는 동작일 수 있다. 만약, 프로세서(150)가 제2 사용자 음성을 제대로 인식하여 채널 2번을 디스플레이하는 경우, 사용자 반응 정보에는 채널 2번을 디스플레이한 정보가 없으므로 추가 동작을 수행하지 않게 된다.
프로세서(150)는 제1 사용자 음성에 대응되는 동작의 타입 및 제2 사용자 음성에 대응되는 동작의 타입이 동일하면 메모리(130)에 저장된 사용자 반응 정보에 기초하여 사용자 명령에 대응되는 가이드 정보를 제공할 수 있다. 가이드 정보는 "채널 2번" 아이템(510), "2번 틀어줘."와 같은 메시지(520) 또는 "STB 채널 2번" 아이템(530) 중 적어도 하나를 포함할 수 있다.
한편, 이상에서는 도 2a 내지 도 3b의 제1 사용자 음성과 도 5의 제2 사용자 음성이 모두 "채널 2번 틀어줘."인 것으로 설명하였으나, 도 2a 내지 도 3b의 제1 사용자 음성만이 "채널 2번 틀어줘."이고, 도 5의 제2 사용자 음성이 "2번 켜줘."일 수도 있다. 여기서, 프로세서(150)가 "2번 켜줘."와 같은 제2 사용자 음성을 오인식하여 채널 1번을 디스플레이하는 경우, 상술한 바와 동일한 가이드 정보가 제공될 수 있다. 즉, 제1 사용자 음성과 제2 사용자 음성이 상이하더라도 그에 따른 동작이 동일한 경우, 프로세서(150)는 동일한 가이드 정보를 제공할 수 있다. 이는 프로세서(150)는 제1 사용자 음성 자체가 아닌 제1 사용자 음성에 따른 동작을 사용자 반응 정보로서 저장하기 때문이다. 또는, 프로세서(150)가 "2번 켜줘."와 같은 제2 사용자 음성을 오인식하지 않고 채널 2번을 디스플레이하면 아무런 문제가 없고 추가 동작을 수행하지 않게 된다.
또는, 도 2a 내지 도 3b의 제1 사용자 음성만이 "채널 2번 틀어줘."이고, 도 5의 제2 사용자 음성이 "채널 12번 틀어줘."일 수도 있다. 여기서, 프로세서(150)가 "채널 12번 틀어줘."와 같은 제2 사용자 음성을 오인식하여 채널 1번을 디스플레이할 수도 있다. 이 경우, 프로세서(150)는 도 5의 하단과 같은 가이드 정보를 제공하게 되나, 이는 사용자가 원하는 채널 12번과는 무관하다. 다만, 이러한 가이드 정보는 단순히 디스플레이될 뿐이고, 일정 시간 사용자 명령이 입력되지 않으면 사라지게 되어 사용자의 불편을 최소화할 수 있다.
도 6은 본 개시의 일 실시 예에 따른 사용자 설정 동작을 설명하기 위한 도면이다. 도 6의 사용자 설정 화면은 제1 사용자 음성이 수신된 후 음소거(mute) 명령이 수신된 경우, 제1 사용자 음성이 수신된 후 영화 감상 모드(movie mode) 명령이 수신된 경우 및 제1 사용자 음성이 수신된 후 미러링(mirroring) 명령이 수신된 경우에 따라 사용자 반응 정보가 생성된 경우를 가정하였다.
프로세서(150)는 도 6에 도시된 바와 같이, 사용자 설정 화면을 제공할 수도 있다. 가령, 도 5에서 화면의 일 측면에는 사용자 설정 화면을 디스플레이하기 위한 아이콘이 제공될 수 있고, 사용자는 이를 선택하여 도 6과 같은 화면을 제공받을 수 있다.
그리고, 프로세서(150)는 도 6의 사용자 설정 화면에서 제공하는 메뉴 중 하나가 선택되고, 이후 제1 사용자 음성과 동일한 동작을 수행하게 하는 사용자 음성이 수신되는 경우, 가이드 정보의 제공 없이 선택된 기능에 따른 동작을 수행할 수도 있다.
도 7은 본 개시의 일 실시 예에 따른 서버(200)를 이용하는 이점을 설명하기 위한 도면이다.
프로세서(150)는 도 7에 도시된 바와 같이, 서버(200)와 통신을 수행하여 사용자 반응 정보를 관리할 수도 있다.
예를 들어, 프로세서(150)는 제1 사용자 음성이 수신된 시점 또는 제1 사용자 음성에 대응되는 동작을 수행한 시점으로부터 제1 임계 시간 이내에 사용자 명령이 수신되면 제1 사용자 음성에 대응되는 동작에 대한 정보 및 사용자 명령을 서버(200)로 전송하며, 서버(200)로부터 사용자 반응 정보를 수신하고, 수신된 사용자 반응 정보를 메모리(130)에 저장할 수 있다. 이후, 프로세서(150)는 제2 사용자 음성이 수신되면 제2 사용자 음성에 대응되는 동작을 수행하고, 제1 사용자 음성에 대응되는 동작의 타입 및 제2 사용자 음성에 대응되는 동작의 타입이 동일하면 메모리(130)에 저장된 사용자 반응 정보에 기초하여 사용자 명령에 대응되는 가이드 정보를 제공할 수 있다.
또는, 프로세서(150)는 제1 사용자 음성이 수신된 시점 또는 제1 사용자 음성에 대응되는 동작을 수행한 시점으로부터 제1 임계 시간 이내에 사용자 명령이 수신되면 제1 사용자 음성에 대응되는 동작에 대한 정보 및 사용자 명령을 서버(200)로 전송할 수 있다. 서버(200)는 제1 사용자 음성에 대응되는 동작에 대한 정보 및 사용자 명령을 포함하는 사용자 반응 정보를 획득할 수 있다. 이후, 프로세서(150)는 제2 사용자 음성이 수신되면 제2 사용자 음성에 대응되는 동작을 수행하고, 제2 사용자 음성에 대응되는 동작에 대한 정보를 서버(200)로 전송할 수 있다. 서버(200)는 제2 사용자 음성에 대응되는 동작이 사용자 반응 정보로서 저장되어 있는지 식별하고, 저장되어 있는 경우 제2 사용자 음성에 대응되는 동작과 매칭되어 저장된 사용자 명령을 식별하며, 식별된 사용자 명령에 대응되는 가이드 정보를 전자 장치(100)로 전송할 수 있다. 프로세서(150)는 수신된 가이드 정보를 제공할 수 있다.
도 8은 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.
먼저, 제1 사용자 음성이 수신되면, 제1 사용자 음성에 대응되는 동작을 수행한다(S810). 그리고, 제1 사용자 음성이 수신된 시점 또는 제1 사용자 음성에 대응되는 동작을 수행한 시점으로부터 제1 임계 시간 이내에 사용자 명령이 수신되면 제1 사용자 음성에 대응되는 동작에 대한 정보 및 사용자 명령을 포함하는 사용자 반응 정보를 저장한다(S820). 그리고, 제2 사용자 음성이 수신되면, 제2 사용자 음성에 대응되는 동작을 수행한다(S830). 그리고, 제1 사용자 음성에 대응되는 동작의 타입 및 제2 사용자 음성에 대응되는 동작의 타입이 동일하면 사용자 반응 정보에 기초하여 사용자 명령에 대응되는 가이드 정보를 제공한다(S840).
여기서, 제1 사용자 음성에 대응되는 동작이 수행된 시점으로부터 제2 임계 시간 이내에 제2 사용자 음성이 수신되면 제2 사용자 음성의 타입을 식별하는 단계를 더 포함하며, 저장하는 단계(S820)는 제2 사용자 음성의 타입이 기설정된 타입이고 사용자 명령이 수신되면 제1 사용자 음성에 대응되는 동작에 대한 정보 및 사용자 명령을 포함하는 사용자 반응 정보를 저장할 수 있다.
그리고, 저장하는 단계(S820)는 기설정된 타입의 제2 사용자 음성이 수신된 후 사용자 명령이 수신되면 제1 사용자 음성에 대응되는 동작에 대한 정보 및 사용자 명령을 포함하는 사용자 반응 정보를 저장할 수 있다.
여기서, 기설정된 타입의 제2 사용자 음성은 부정적 감정을 나타내는 단어를 포함하는 사용자 음성일 수 있다.
한편, 제2 사용자 음성에 대응되는 동작을 수행하는 단계(S830)는 제2 사용자 음성에 대응되는 컨텐츠를 디스플레이하고, 제공하는 단계(S840)는 가이드 정보를 컨텐츠에 오버레이하여 디스플레이할 수 있다.
여기서, 제공하는 단계(S840)는 가이드 정보가 디스플레이되는 동안 컨텐츠의 재생을 정지할 수 있다.
한편, 제공하는 단계(S840)는 사용자 반응 정보가 저장된 횟수가 임계 횟수 이상인 상태에서 제2 사용자 음성이 수신되면, 사용자 명령에 대응되는 동작을 수행할 수 있다.
그리고, 가이드 정보는 사용자 명령에 대응되는 동작을 유도하는 메시지 또는 사용자 명령에 대응되는 동작을 실행시키기 위한 아이템 중 적어도 하나를 포함할 수 있다.
한편, 가이드 정보가 제공된 후 제3 임계 시간 내에 사용자 명령이 수신되지 않으면, 제1 사용자 음성에 대응되는 사용자 반응 정보를 삭제하는 단계를 더 포함할 수 있다.
그리고, 저장하는 단계(S820)는 사용자 명령이 수신되면 제1 사용자 음성에 대응되는 동작에 대한 정보 및 사용자 명령을 서버로 전송하는 단계, 서버로부터 사용자 반응 정보를 수신하는 단계 및 수신된 사용자 반응 정보를 저장하는 단계를 포함할 수 있다.
이상과 같은 본 개시의 다양한 실시 예에 따르면, 전자 장치는 사용자의 음성 명령 이후의 사용자의 반응을 학습하고, 이후 동일한 음성 명령이 입력되면 학습된 사용자의 반응에 기초한 가이드 정보를 제공함에 따라 사용자의 편의를 향상시킬 수 있다.
한편, 본 개시의 일시 예에 따르면, 이상에서 설명된 다양한 실시 예들은 기기(machine)(예: 컴퓨터)로 읽을 수 있는 저장 매체(machine-readable storage media)에 저장된 명령어를 포함하는 소프트웨어로 구현될 수 있다. 기기는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작이 가능한 장치로서, 개시된 실시 예들에 따른 전자 장치(예: 전자 장치(A))를 포함할 수 있다. 명령이 프로세서에 의해 실행될 경우, 프로세서가 직접, 또는 프로세서의 제어 하에 다른 구성요소들을 이용하여 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.
또한, 본 개시의 일 실시 예에 따르면, 이상에서 설명된 다양한 실시 예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 온라인으로 배포될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
또한, 본 개시의 일 실시 예에 따르면, 이상에서 설명된 다양한 실시 예들은 소프트웨어(software), 하드웨어(hardware) 또는 이들의 조합을 이용하여 컴퓨터(computer) 또는 이와 유사한 장치로 읽을 수 있는 기록 매체 내에서 구현될 수 있다. 일부 경우에 있어 본 명세서에서 설명되는 실시 예들이 프로세서 자체로 구현될 수 있다. 소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시 예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 동작을 수행할 수 있다.
한편, 상술한 다양한 실시 예들에 따른 기기의 프로세싱 동작을 수행하기 위한 컴퓨터 명령어(computer instructions)는 비일시적 컴퓨터 판독 가능 매체(non-transitory computer-readable medium)에 저장될 수 있다. 이러한 비일시적 컴퓨터 판독 가능 매체에 저장된 컴퓨터 명령어는 특정 기기의 프로세서에 의해 실행되었을 때 상술한 다양한 실시 예에 따른 기기에서의 처리 동작을 특정 기기가 수행하도록 한다. 비일시적 컴퓨터 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 비일시적 컴퓨터 판독 가능 매체의 구체적인 예로는, CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등이 있을 수 있다.
또한, 상술한 다양한 실시 예들에 따른 구성 요소(예: 모듈 또는 프로그램) 각각은 단수 또는 복수의 개체로 구성될 수 있으며, 전술한 해당 서브 구성 요소들 중 일부 서브 구성 요소가 생략되거나, 또는 다른 서브 구성 요소가 다양한 실시 예에 더 포함될 수 있다. 대체적으로 또는 추가적으로, 일부 구성 요소들(예: 모듈 또는 프로그램)은 하나의 개체로 통합되어, 통합되기 이전의 각각의 해당 구성 요소에 의해 수행되는 기능을 동일 또는 유사하게 수행할 수 있다. 다양한 실시예들에 따른, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.
이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시에 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
100 : 전자 장치 110 : 마이크
120 : 입력부 130 : 메모리
140 : 디스플레이 150 : 프로세서

Claims (20)

  1. 전자 장치에 있어서,
    마이크;
    입력부;
    메모리;
    디스플레이; 및
    상기 마이크, 상기 입력부, 상기 메모리 및 상기 디스플레이와 연결되어 상기 전자 장치를 제어하는 프로세서;를 포함하며,
    상기 프로세서는,
    상기 마이크를 통해 제1 사용자 음성이 수신되면 상기 제1 사용자 음성에 대응되는 동작을 수행하고, 상기 제1 사용자 음성이 수신된 시점 또는 상기 제1 사용자 음성에 대응되는 동작을 수행한 시점으로부터 제1 임계 시간 이내에 상기 입력부를 통해 사용자 명령이 수신되면 상기 제1 사용자 음성에 대응되는 동작에 대한 정보 및 상기 사용자 명령을 포함하는 사용자 반응 정보를 상기 메모리에 저장하고,
    상기 마이크를 통해 제2 사용자 음성이 수신되면 상기 제2 사용자 음성에 대응되는 동작을 수행하고, 상기 제1 사용자 음성에 대응되는 동작의 타입 및 상기 제2 사용자 음성에 대응되는 동작의 타입이 동일하면 상기 메모리에 저장된 상기 사용자 반응 정보에 기초하여 상기 사용자 명령에 대응되는 가이드 정보를 제공하도록 상기 디스플레이를 제어하는, 전자 장치.
  2. 제1항에 있어서,
    상기 프로세서는,
    상기 제1 사용자 음성에 대응되는 동작이 수행된 시점으로부터 제2 임계 시간 이내에 상기 마이크를 통해 제2 사용자 음성이 수신되면 상기 제2 사용자 음성의 타입을 식별하고,
    상기 제2 사용자 음성의 타입이 기설정된 타입이고 상기 사용자 명령이 수신되면 상기 제1 사용자 음성에 대응되는 동작에 대한 정보 및 상기 사용자 명령을 포함하는 상기 사용자 반응 정보를 상기 메모리에 저장하는, 전자 장치.
  3. 제2항에 있어서,
    상기 프로세서는,
    상기 기설정된 타입의 상기 제2 사용자 음성이 수신된 후 상기 사용자 명령이 수신되면 상기 제1 사용자 음성에 대응되는 동작에 대한 정보 및 상기 사용자 명령을 포함하는 상기 사용자 반응 정보를 상기 메모리에 저장하는, 전자 장치.
  4. 제2항에 있어서,
    상기 기설정된 타입의 상기 제2 사용자 음성은,
    부정적 감정을 나타내는 단어를 포함하는 사용자 음성인, 전자 장치.
  5. 제1항에 있어서,
    상기 프로세서는,
    상기 제2 사용자 음성에 대응되는 컨텐츠를 디스플레이하고 상기 가이드 정보를 상기 컨텐츠에 오버레이하여 디스플레이하도록 상기 디스플레이를 제어하는, 전자 장치.
  6. 제5항에 있어서,
    상기 프로세서는,
    상기 가이드 정보가 디스플레이되는 동안 상기 컨텐츠의 재생을 정지하는, 전자 장치.
  7. 제1항에 있어서,
    상기 프로세서는,
    상기 사용자 반응 정보가 상기 메모리에 저장된 횟수가 임계 횟수 이상인 상태에서 상기 제2 사용자 음성이 수신되면, 상기 사용자 명령에 대응되는 동작을 수행하는, 전자 장치.
  8. 제1항에 있어서,
    상기 가이드 정보는,
    상기 사용자 명령에 대응되는 동작을 유도하는 메시지 또는 상기 사용자 명령에 대응되는 동작을 실행시키기 위한 아이템 중 적어도 하나를 포함하는, 전자 장치.
  9. 제1항에 있어서,
    상기 프로세서는,
    상기 가이드 정보가 제공된 후 제3 임계 시간 내에 상기 입력부를 통해 사용자 명령이 수신되지 않으면, 상기 제1 사용자 음성에 대응되는 상기 사용자 반응 정보를 상기 메모리에서 삭제하는, 전자 장치.
  10. 제1항에 있어서,
    통신 인터페이스;를 더 포함하며,
    상기 프로세서는,
    상기 사용자 명령이 수신되면 상기 제1 사용자 음성에 대응되는 동작에 대한 정보 및 상기 사용자 명령을 서버로 전송하도록 상기 통신 인터페이스를 제어하며,
    상기 통신 인터페이스를 통해 상기 서버로부터 상기 사용자 반응 정보를 수신하고,
    상기 수신된 사용자 반응 정보를 상기 메모리에 저장하는, 전자 장치.
  11. 제1항에 있어서,
    상기 제1 사용자 음성에 대응되는 동작에 대한 정보는,
    상기 제1 사용자 음성에 기초하여 전자 장치가 수행할 동작의 타입에 대한 정보를 포함하는, 전자 장치.
  12. 전자 장치의 제어 방법에 있어서,
    제1 사용자 음성이 수신되면, 상기 제1 사용자 음성에 대응되는 동작을 수행하는 단계;
    상기 제1 사용자 음성이 수신된 시점 또는 상기 제1 사용자 음성에 대응되는 동작을 수행한 시점으로부터 제1 임계 시간 이내에 사용자 명령이 수신되면 상기 제1 사용자 음성에 대응되는 동작에 대한 정보 및 상기 사용자 명령을 포함하는 사용자 반응 정보를 저장하는 단계;
    제2 사용자 음성이 수신되면, 상기 제2 사용자 음성에 대응되는 동작을 수행하는 단계; 및
    상기 제1 사용자 음성에 대응되는 동작의 타입 및 상기 제2 사용자 음성에 대응되는 동작의 타입이 동일하면 상기 사용자 반응 정보에 기초하여 상기 사용자 명령에 대응되는 가이드 정보를 제공하는 단계;를 포함하는 제어 방법.
  13. 제12항에 있어서,
    상기 제1 사용자 음성에 대응되는 동작이 수행된 시점으로부터 제2 임계 시간 이내에 제2 사용자 음성이 수신되면 상기 제2 사용자 음성의 타입을 식별하는 단계;를 더 포함하며,
    상기 저장하는 단계는,
    상기 제2 사용자 음성의 타입이 기설정된 타입이고 상기 사용자 명령이 수신되면 상기 제1 사용자 음성에 대응되는 동작에 대한 정보 및 상기 사용자 명령을 포함하는 상기 사용자 반응 정보를 저장하는, 제어 방법.
  14. 제13항에 있어서,
    상기 저장하는 단계는,
    상기 기설정된 타입의 상기 제2 사용자 음성이 수신된 후 상기 사용자 명령이 수신되면 상기 제1 사용자 음성에 대응되는 동작에 대한 정보 및 상기 사용자 명령을 포함하는 상기 사용자 반응 정보를 저장하는, 제어 방법.
  15. 제13항에 있어서,
    상기 기설정된 타입의 상기 제2 사용자 음성은,
    부정적 감정을 나타내는 단어를 포함하는 사용자 음성인, 제어 방법.
  16. 제12항에 있어서,
    상기 상기 제2 사용자 음성에 대응되는 동작을 수행하는 단계는,
    상기 제2 사용자 음성에 대응되는 컨텐츠를 디스플레이하고,
    상기 제공하는 단계는,
    상기 가이드 정보를 상기 컨텐츠에 오버레이하여 디스플레이하는, 제어 방법.
  17. 제16항에 있어서,
    상기 제공하는 단계는,
    상기 가이드 정보가 디스플레이되는 동안 상기 컨텐츠의 재생을 정지하는, 제어 방법.
  18. 제12항에 있어서,
    상기 제공하는 단계는,
    상기 사용자 반응 정보가 저장된 횟수가 임계 횟수 이상인 상태에서 상기 제2 사용자 음성이 수신되면, 상기 사용자 명령에 대응되는 동작을 수행하는, 제어 방법.
  19. 제12항에 있어서,
    상기 가이드 정보는,
    상기 사용자 명령에 대응되는 동작을 유도하는 메시지 또는 상기 사용자 명령에 대응되는 동작을 실행시키기 위한 아이템 중 적어도 하나를 포함하는, 제어 방법.
  20. 제12항에 있어서,
    상기 가이드 정보가 제공된 후 제3 임계 시간 내에 사용자 명령이 수신되지 않으면, 상기 제1 사용자 음성에 대응되는 상기 사용자 반응 정보를 삭제하는 단계;를 더 포함하는, 제어 방법.
KR1020200022900A 2020-02-25 2020-02-25 전자 장치 및 그 제어 방법 KR20210108098A (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020200022900A KR20210108098A (ko) 2020-02-25 2020-02-25 전자 장치 및 그 제어 방법
PCT/KR2021/000446 WO2021172747A1 (ko) 2020-02-25 2021-01-13 전자 장치 및 그 제어 방법
US17/498,943 US20220027125A1 (en) 2020-02-25 2021-10-12 Electronic device and control method therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200022900A KR20210108098A (ko) 2020-02-25 2020-02-25 전자 장치 및 그 제어 방법

Publications (1)

Publication Number Publication Date
KR20210108098A true KR20210108098A (ko) 2021-09-02

Family

ID=77491154

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200022900A KR20210108098A (ko) 2020-02-25 2020-02-25 전자 장치 및 그 제어 방법

Country Status (3)

Country Link
US (1) US20220027125A1 (ko)
KR (1) KR20210108098A (ko)
WO (1) WO2021172747A1 (ko)

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7899671B2 (en) * 2004-02-05 2011-03-01 Avaya, Inc. Recognition results postprocessor for use in voice recognition systems
US9318108B2 (en) * 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US20110279359A1 (en) * 2010-05-12 2011-11-17 Rovi Technologies Corporation Systems and methods for monitoring motion sensor signals and adjusting interaction modes
US20190304460A1 (en) * 2012-10-30 2019-10-03 Google Technology Holdings LLC Voice control user interface with progressive command engagement
US20160365088A1 (en) * 2015-06-10 2016-12-15 Synapse.Ai Inc. Voice command response accuracy
KR102502220B1 (ko) * 2016-12-20 2023-02-22 삼성전자주식회사 전자 장치, 그의 사용자 발화 의도 판단 방법 및 비일시적 컴퓨터 판독가능 기록매체
KR102527278B1 (ko) * 2017-12-04 2023-04-28 삼성전자주식회사 전자 장치, 그 제어 방법 및 컴퓨터 판독가능 기록 매체
JP6654611B2 (ja) * 2017-12-05 2020-02-26 株式会社日立製作所 成長型対話装置
JP7334420B2 (ja) * 2019-02-21 2023-08-29 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム

Also Published As

Publication number Publication date
WO2021172747A1 (ko) 2021-09-02
US20220027125A1 (en) 2022-01-27

Similar Documents

Publication Publication Date Title
US10678563B2 (en) Display apparatus and method for controlling display apparatus
US11462213B2 (en) Information processing apparatus, information processing method, and program
US20170287465A1 (en) Speech Recognition and Text-to-Speech Learning System
US11580970B2 (en) System and method for context-enriched attentive memory network with global and local encoding for dialogue breakdown detection
KR102374620B1 (ko) 음성 인식을 위한 전자 장치 및 시스템
KR20190083476A (ko) 디스플레이장치 및 그 제어방법
US20200075008A1 (en) Voice data processing method and electronic device for supporting same
EP3185573B1 (en) Method and device for playing audio
US20220301312A1 (en) Electronic apparatus for identifying content based on an object included in the content and control method thereof
US11270693B2 (en) Speech information processing method, device and storage medium
US11664024B2 (en) Artificial intelligence device
US20210110824A1 (en) Electronic apparatus and controlling method thereof
US11710498B2 (en) Electronic device and control method therefor
US11175789B2 (en) Electronic apparatus and method for controlling the electronic apparatus thereof
KR20200042627A (ko) 전자 장치 및 그 제어 방법
KR20210108098A (ko) 전자 장치 및 그 제어 방법
KR20220143622A (ko) 전자 장치 및 그 제어 방법
US20230154470A1 (en) Electronic apparatus and controlling method thereof
US11930236B2 (en) Content playback device using voice assistant service and operation method thereof
KR20150134252A (ko) 디스플레이 장치, 원격 제어 장치, 시스템 및 그 제어 방법
US11430429B2 (en) Information processing apparatus and information processing method
KR102582332B1 (ko) 전자 장치, 이의 모바일 장치 제어 방법 및 컴퓨터 판독가능 기록 매체
KR20210065698A (ko) 전자 장치 및 이의 제어 방법
US20240161752A1 (en) Electronic apparatus and controlling method thereof
US11948569B2 (en) Electronic apparatus and controlling method thereof

Legal Events

Date Code Title Description
A201 Request for examination