KR102209519B1 - 음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법 - Google Patents

음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법 Download PDF

Info

Publication number
KR102209519B1
KR102209519B1 KR1020140009388A KR20140009388A KR102209519B1 KR 102209519 B1 KR102209519 B1 KR 102209519B1 KR 1020140009388 A KR1020140009388 A KR 1020140009388A KR 20140009388 A KR20140009388 A KR 20140009388A KR 102209519 B1 KR102209519 B1 KR 102209519B1
Authority
KR
South Korea
Prior art keywords
display device
text
voice
command
display
Prior art date
Application number
KR1020140009388A
Other languages
English (en)
Other versions
KR20150089145A (ko
Inventor
한상진
박은희
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020140009388A priority Critical patent/KR102209519B1/ko
Priority to US14/515,781 priority patent/US9711149B2/en
Priority to EP15152749.6A priority patent/EP2899719B1/en
Publication of KR20150089145A publication Critical patent/KR20150089145A/ko
Application granted granted Critical
Publication of KR102209519B1 publication Critical patent/KR102209519B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

디스플레이 장치의 음성 제어 방법이 개시된다. 디스플레이 장치의 음성 인식 방법에 있어서, 사용자 음성을 입력받는 단계, 상기 사용자 음성을 텍스트로 변환하는 단계, 상기 텍스트에 대응되는 제어 동작이 결정될 때까지 복수의 서로 다른 판단 기준을 순차적으로 변경 적용하여 상기 텍스트에 대응되는 제어 동작을 실행하는 단계를 포함한다. 이에 따라, 효율적인 음성 제어를 수행할 수 있다.

Description

음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법 { DISPLAY APPARATUS FOR PERFORMING A VOICE CONTROL AND METHOD THEREFOR }
본 발명은 디스플레이 장치 및 그 음성 제어 방법에 대한 것으로, 보다 상세하게는 사용자의 음성입력을 판별하여 동작을 수행하는 디스플레이 장치 및 그 음성 제어 방법에 대한 것이다.
근래의 디스플레이 장치가 점점 다기능화, 고도화됨에 따라, 디스플레이 장치를 제어하기 위한 다양한 입력 방법이 개발되어 왔다. 예를 들어, 음성 제어 기술을 이용한 입력 방법, 마우스를 이용한 입력 방법, 터치 패드를 이용한 입력 방법 및 모션 센싱 리모컨을 이용한 입력 방법 등이 개발되어 왔다.
그러나, 음성 제어 기술을 이용하여 디스플레이 장치를 사용하기에는 몇 가지 어려움이 있었다. 가령, 사용자가 발화한 음성이 동사가 없는 단순 키워드일 경우 사용자 의도와 다른 동작이 실행될 수 있는 문제가 있었다.
즉, 디스플레이 장치가 사용자가 발화한 음성을 오인식하는 경우, 사용자가 원하는 방향으로 디스플레이 장치를 제어할 수 없게 되는 문제가 발생하게 된다.
이에 따라, 음성 입력 제어를 좀 더 효율적이고 정확하게 수행할 수 있는 기술에 대한 필요성이 대두되었다.
본 발명은 이러한 필요성에 따른 것으로, 본 발명의 목적은 사용자의 음성 입력을 판별하여 사용자 의도에 부합하는 동작을 실행하는 디스플레이 장치 및 그 음성 제어 방법을 제공함에 있다.
이상과 같은 목적을 달성하기 위한 본 발명의 일 실시 예에 따르면, 디스플레이 장치의 음성 인식 방법에 있어서, 사용자 음성을 입력받는 단계, 상기 사용자 음성을 텍스트로 변환하는 단계, 및 상기 텍스트에 대응되는 제어 동작이 결정될 때까지 복수의 서로 다른 판단 기준을 순차적으로 변경 적용하여 상기 텍스트에 대응되는 제어 동작을 실행하는 단계를 포함할 수도 있다.
여기서, 상기 실행하는 단계는, 상기 텍스트가 상기 디스플레이 장치에 디스플레이된 화면 내의 오브젝트의 명칭에 대응되는지 여부를 판단하는 단계, 및 상기 텍스트가 상기 오브젝트의 명칭과 대응되면, 상기 오브젝트에 매칭된 동작을 실행하는 단계를 포함하는 것을 특징으로 할 수 있다.
또한, 상기 판단하는 단계는 상기 오브젝트의 명칭이 일부만 디스플레이된 경우, 상기 텍스트가 상기 일부만 디스플레이된 오브젝트의 명칭 중 적어도 일부와 일치하면, 상기 텍스트가 상기 오브젝트의 명칭에 대응되는 것으로 판단하는 것을 특징으로 할 수도 있다.
여기서, 상기 판단하는 단계는 상기 오브젝트의 명칭에 포함된 적어도 하나의 단어 중 하나가 일부만 디스플레이된 경우, 상기 텍스트가 상기 일부만 디스플레이된 단어 전체와 일치하면, 상기 텍스트가 상기 오브젝트의 명칭에 대응되는 것으로 판단하는 것을 특징으로 할 수도 있다.
또한, 상기 오브젝트는, 상기 화면에 표시된 컨텐츠 타이틀, 이미지 타이틀, 텍스트 아이콘, 메뉴 명, 숫자 중 적어도 하나를 포함하는 것을 특징으로 할 수도 있다.
또한, 상기 실행하는 단계는, 상기 텍스트가 상기 오브젝트의 명칭과 대응되지 않는 경우, 상기 텍스트가 기 저장된 명령어에 대응되는지 여부를 판단하는 단계, 상기 텍스트가 상기 기 저장된 명령어에 대응되면, 상기 명령어에 매칭된 동작을 실행하는 단계를 포함하는 것을 특징으로 할 수도 있다.
한편, 상기 기 저장된 명령어는, 상기 디스플레이 장치의 전원 제어에 관한 명령어, 채널 제어에 관한 명령어 및 음량 제어에 관한 명령어 중 적어도 하나를 포함하는 것을 특징으로 할 수도 있다.
또한, 상기 실행하는 단계는, 상기 텍스트가 상기 기 저장된 명령어에 대응되지 않으며, 상기 텍스트가 의미 분석이 가능한지 텍스트인지 여부를 판단하는 단계, 및 상기 텍스트가 의미 분석이 가능한 텍스트인 경우, 상기 텍스트의 의미를 분석하고, 상기 분석 결과에 대응되는 응답 메시지를 디스플레이하는 단계를 포함할 수 있다.
또한, 상기 실행하는 단계는, 상기 텍스트가 의미 분석이 가능하지 않은 텍스트인 경우, 상기 텍스트를 키워드로 검색을 수행하는 단계를 포함하는 것을 특징으로 할 수도 있다.
한편, 디스플레이 장치에 있어서, 사용자 음성을 입력받는 음성 입력부, 상기 사용자 음성을 텍스트로 변환하는 음성 변환부, 복수의 서로 다른 판단 기준이 저장된 저장부, 상기 텍스트에 대응되는 제어 동작이 결정될 때까지 상기 저장부에 저장된 복수의 서로 다른 판단 기준을 순차적으로 변경 적용하여 상기 텍스트에 대응되는 제어 동작을 실행하는 제어부를 포함할 수도 있다.
또한, 상기 제어부는, 상기 텍스트가 상기 디스플레이 장치에 디스플레이된 화면 내의 오브젝트의 명칭에 대응되는지 여부를 판단하고, 상기 텍스트가 상기 오브젝트의 명칭과 대응되면, 상기 오브젝트에 매칭된 동작을 실행하는 것을 특징으로 할 수도 있다.
또한, 상기 제어부는, 상기 오브젝트의 명칭이 일부만 디스플레이된 경우, 상기 텍스트가 상기 일부만 디스플레이된 오브젝트의 명칭 중 적어도 일부와 일치하면, 상기 텍스트가 상기 오브젝트의 명칭에 대응되는 것으로 판단하는 것을 특징으로 할 수도 있다.
또한, 상기 제어부는, 상기 오브젝트의 명칭에 포함된 적어도 하나의 단어 중 하나가 일부만 디스플레이된 경우, 상기 텍스트가 상기 일부만 디스플레이된 단어 전체와 일치하면, 상기 텍스트가 상기 오브젝트의 명칭에 대응되는 것으로 판단하는 것을 특징으로 할 수도 있다.
또한, 상기 오브젝트는, 상기 화면에 표시된 컨텐츠 타이틀, 이미지 타이틀, 텍스트 아이콘, 메뉴명, 숫자 중 적어도 하나를 포함하는 것을 특징으로 할 수도 있다.
또한, 상기 제어부는, 상기 텍스트가 상기 오브젝트의 명칭과 대응되지 않는 경우, 상기 텍스트가 기 저장된 명령어에 대응되는지 여부를 판단하고, 상기 텍스트가 상기 기 저장된 명령어에 대응되면, 상기 명령어에 매칭된 동작을 실행하는 것을 특징으로 할 수도 있다.
또한, 상기 기 저장된 명령어는, 상기 디스플레이 장치의 전원 제어에 관한 명령어, 채널 제어에 관한 명령어 및 음량 제어에 관한 명령어 중 적어도 하나를 포함하는 것을 특징으로 할 수도 있다.
또한, 상기 제어부는, 상기 텍스트가 상기 기 저장된 명령어에 대응되지 않으면, 상기 텍스트가 의미 분석이 가능한 텍스트인지 여부를 판단하며, 상기 텍스트가 의미 분석이 가능한 텍스트인 경우, 상기 텍스트의 의미를 분석하고, 상기 분석 결과에 대응되는 응답 메시지를 디스플레이하는 것을 특징으로 할 수도 있다.
또한, 상기 제어부는, 상기 텍스트가 의미 분석이 가능하지 않은 텍스트인 경우, 상기 텍스트를 키워드로 검색을 수행하는 것을 특징으로 할 수도 있다.
이상과 같은 본 발명의 다양한 실시 예들에 따르면, 사용자가 동사 없는 단순 키워드를 입력한 경우에도 사용자 의도에 부합하는 정확한 동작을 처리할 수 있다.
도 1은 본 발명의 일 실시 예에 따른 디스플레이 장치의 구성을 나타내는 블럭도,
도 2는 본 발명의 일 실시 예에 따른 디스플레이 장치의 구성을 상세히 도시한 블럭도,
도 3은 본 발명의 일 실시 예에 따른 저장부의 소프트웨어 구조의 일 예를 도시한 블럭도,
도 4 내지 도 6은 본 발명의 일 실시 예에 따른 오브젝트에 대응되는 사용자 음성이 발화된 경우 음성 제어 동작을 설명하기 위한 도면,
도 7 및 도 8은 본 발명은 일 실시 예에 따른 오브젝트에 대응되는 사용자 음성이 발화된 경우 음성 제어 동작을 설명하기 위한 도면,
도 9는 본 발명의 일 실시 예에 따른 기저장된 명령어가 발화된 경우 음성 제어 동작을 설명하기 위한 도면,
도 10은 본 발명의 일 실시 예에 따른 문법분석이 가능한 사용자 음성이 발화된 경우 음성 제어 동작을 설명하기 위한 도면,
도 11은 본 발명의 일 실시 예에 따른 문법분석이 불가능한 사용자 음성이 발화된 경우 음성 제어 동작을 설명하기 위한 도면,
도 12는 본 발명의 일 실시 예에 따른 본 발명의 일 실시 예에 따른 음성 제어 방법을 설명하기 위한 흐름도,
도 13은 본 발명의 일 실시 예에 따른 본 발명의 일 실시 예에 따른 음성 제어 방법을 설명하기 위한 흐름도,
도 14는 본 발명의 일 실시 예에 따른 음성 제어 시스템의 구성의 일 예를 나태낸 도면이다.
이하에서, 첨부된 도면을 이용하여 본 발명에 대하여 구체적으로 설명한다.
도 1은 본 발명의 일 실시예에 따른, 디스플레이 장치(100)의 구성을 간략히 도시한 블럭도이다. 도 1에 도시된 바와 같이, 디스플레이 장치(100)는 음성 입력부(110), 음성 변환부(120), 제어부(140) 및 저장부(130)를 포함한다.
디스플레이 장치(100)는 음성 입력부(110)를 통해 사용자 음성을 입력받아 사용자 음성을 음성 변환부(120)를 통해 텍스트로 변환할 수 있다. 이 때, 디스플레이 장치(100)는 변환된 텍스트에 대응되는 제어 동작이 결정될 때까지 복수의 서로 다른 판단 기준을 순차적으로 변경 적용하여 변환된 텍스트에 대응되는 제어 동작을 결정하게 된다.
디스플레이 장치(100)는 스마트 TV와 같은 디스플레이 장치일 수 있으나, 이는 일 실시예에 불과할 뿐, 데스크탑 PC, 태블릿 PC, 스마트 폰 등과 같은 디스플레이 장치로 구현될 수 있으나, 음성 입력 장치의 다른 입력 장치로 구현될 수 있다.
음성 입력부(110)는 사용자 음성을 입력받기 위한 구성요소이다. 구체적으로, 음성 입력부(110)는 자체적으로 마이크를 포함하여 사용자 음성을 직접 입력받을 수도 있고, 디스플레이 장치(100)와 유무선으로 연결된 마이크를 통해 사용자 음성을 입력받을 수도 있다. 음성 입력부(110)는 입력된 사용자의 음성을 음성 변환부(120)로 전달한다.
음성 변환부(120)는 음성 입력부(110)를 통해 입력된 사용자의 음성 특징의 파형(즉, 음성의 특징 백터)을 분석하여, 사용자가 발화한 음성과 대응되는 단어 또는 단어열을 식별하고, 식별된 단어를 텍스트 정보로 출력한다.
구체적으로, 음성 변환부(120)는 동적정합법(Dynamic time warping method), 은닉 마코프모델(Hidden Markov Model), 신경망(Neural Network) 등과 같은 다양한 인식 알고리즘 중 적어도 하나를 이용하여 음성을 인식하고, 인식된 음성을 텍스트로 변환할 수 있다. 일 예로, 은닉 마코프 모델을 사용하는 경우, 음성 변환부(120)는 사용자 음성의 시간적 변화 및 스펙트럼 변화를 각각 모델링하여, 기 저장된 언어 데이터베이스에서 유사한 어휘를 검출한다. 이에 따라, 검출된 어휘를 텍스트로 출력할 수 있다.
한편, 상술한 실시 예에서는 음성 입력부(110) 또는 음성 변환부(120)가 디스플레이 장치(100)에 내장된 구성으로 설명하였으나, 이는 일 실시 예에 불과할 뿐 이들 구성요소는 외부 장치로 구현되어 사용자가 발화한 음성을 인식할 수도 있다.
한편, 제어부(140)는 음성 입력부(110)를 통해 입력되는 사용자 음성에 대응되는 제어 동작을 수행한다. 제어부(140)는 사용자의 선택에 따라 음성 입력 모드를 개시할 수 있다. 음성 입력 모드가 개시되면, 제어부(140)는 사용자 음성을 입력받도록 음성 입력부(110) 및 음성 변환부(120)을 활성화시킬 수 있다. 음성 인식 모드를 유지하는 동안 사용자의 음성이 입력되면, 제어부(140)는 저장부(130)에 기 저장된 복수의 서로 다른 판단 기준을 적용하여 사용자 의도를 분석한다. 제어부(140)는 분석 결과에 따라 제어 동작을 결정하여 디스플레이 장치(100)의 동작을 실행시키게 된다.
구체적으로, 제어부(140)는 변환된 텍스트가 디스플레이된 화면 내의 오브젝트의 명칭에 대응되는지 여부를 판단한다. 제어부(140)는 텍스트가 오브젝트의 명칭에 대응될 경우, 오브젝트에 매칭된 동작을 실행하게 된다. 구체적으로 오브젝트는 화면에 표시된 컨텐츠 타이틀, 이미지 타이틀, 텍스트 아이콘, 메뉴 명, 숫자 중 적어도 하나를 포함할 수 있다.
본 발명의 일 실시예로, 오브젝트의 명칭이 일부만 디스플레이된 경우, 제어부(140)는 텍스트가 일부만 디스플레이된 오브젝트의 명칭 중 적어도 일부와 일치하면, 텍스트가 오브젝트의 명칭에 대응되는 것으로 판단한다.
또 다른 실시 예로, 오브젝트의 명칭에 포함된 적어도 하나의 단어 중 하나가 일부만 디스플레이된 경우, 제어부(140)는 텍스트가 일부만 디스플레이된 단어 전체와 일치하면, 텍스트가 오브젝트의 명칭에 대응되는 것으로 판단한다.
제어부(140)는 텍스트가 오브젝트의 명칭에 대응되지 않을 경우, 텍스트가 저장부(130)에 기 저장된 명령어에 대응되는지 여부를 판단하게 된다. 제어부(140)는 텍스트가 저장부(130)에 기 저장된 명령어에 대응될 경우 명령어에 매칭된 동작을 실행하게 된다.
그리고, 제어부(140)는 기 저장된 명령어에 대응되지 않을 경우 텍스트가 의미 분석이 가능한지 여부를 판단한다. 제어부(140)는 텍스트가 의미 분석이 가능한 텍스트인 경우, 텍스트의 의미를 분석하고 분석 결과에 대응되는 응답 메시지를 디스플레이할 수 있다.
한편, 제어부(140)는 텍스트가 의미 분석이 가능하지 않은 텍스트인 경우, 텍스트를 키워드로 검색을 수행할 수도 있다.
사용자 음성의 분석 및 텍스트 변환 작업은 제어부(140)가 직접 처리할 수도 있지만, 실시 예에 따라서, 다르게는, 외부의 서버 장치로 사용자 음성을 전달하여, 서버 장치가 해당 사용자 음성을 텍스트로 변환하며 그 변환된 텍스트를 제공받을 수도 있다. 음성을 텍스트로 변환하는 서버 장치는 설명의 편의상 음성 인식 장치로 명명할 수 있다. 음성 인식 장치와 연동하여 음성을 텍스트로 변환하는 실시 예는 후술하는 부분에서 구체적으로 설명한다.
저장부(130)는 디스플레이 장치(100)를 구동하기 위한 다양한 모듈을 저장하기 위한 구성요소이다. 저장부(130)는 음성 인식 효과를 제공하기 위한 복수의 판단 기준 및 복수의 명령어를 저장할 수 있다. 예를 들어, 저장부(130)에는 음성 변환 모듈, 텍스트 분석 모듈, 복수의 판단 기준, 제어 분석 기준, 베이스 모듈, 센싱 모듈, 통신 모듈, 프리젠테이션 모듈, 웹 브라우저 모듈, 서비스 모듈을 포함하는 소프트웨어가 저장될 수 있다.
본 발명의 일 실시예로, 저장부(130)는 디스플레이 장치(100)의 전원 제어에 관한 명령어, 채널 제어에 관한 명령어 및 음량 제어에 관한 명령어 중 적어도 하나가 저장될 수 있다. 저장부(130)에 기 저장된 명령어는 사용자의 입력에 의해 저장될 수 있다. 디스플레이 장치(100)의 명령어는 상술한 예에 한정됨 없이 다양한 명령어가 될 수도 있다.
도 1에서는 디스플레이 장치(100)가 단독으로 음성 제어를 수행하는 것으로 설명하였으나, 외부의 서버 장치와 연동하여 음성 제어를 수행할 수도 있다.
도 2는 본 발명의 일 실시예에 따른, 디스플레이 장치(100)의 구성을 자세히 도시한 블럭도이다.
도 3은 본 발명의 일 실시 예에 따른, 저장부(130)의 소프트웨어 구조의 일 예를 나타내는 블럭도이다.
도 2에 도시된 바와 같이, 디스플레이 장치(100)는 디스플레이부(102), 음성 입력부(110), 음성 변환부(120), 통신부(106), 영상 수신부(107), 오디오 출력부(108), 저장부(130), 영상 처리부(117), 오디오 처리부(118), 입력부(105), 제어부(140), 스피커부(103), 리모컨 수신부(104)를 포함한다.
한편, 도 2는 디스플레이 장치(100)가 통신 기능, 방송 수신 기능, 동영상 재생 기능, 디스플레이 기능 등과 같이 다양한 기능을 구비한 장치인 경우를 예로 들어, 각종 구성 요소들을 종합적으로 도시한 것이다. 따라서, 실시 예에 따라서는, 도 2에 도시된 구성 요소 중 일부는 생략 또는 변경될 수도 있고 다른 구성요소 더 추가될 수도 있다.
디스플레이부(102)는 영상 수신부(107)로부터 수신한 영상 데이터를 영상 처리부(117)가 처리한 비디오 프레임 및 그래픽 처리부(미도시)에서 생성된 다양한 화면 중 적어도 하나를 디스플레이한다.
통신부(106)는 다양한 유형의 통신방식에 따라 다양한 유형의 외부 기기 또는 외부의 서버와 통신을 수행하는 구성이다. 통신부(106)는 와이파이 칩, 블루투스 칩, NFC칩, 무선 통신 칩 등과 같은 다양한 통신 칩을 포함할 수 있다. 이때, 와이파이 칩, 블루투스 칩, NFC 칩은 각각 WiFi 방식, 블루투스 방식, NFC 방식으로 통신을 수행한다. 이 중 NFC 칩은 135kHz, 13.56MHz, 433MHz, 860~960MHz, 2.45GHz 등과 같은 다양한 RF-ID 주파수 대역들 중에서 13.56MHz 대역을 사용하는 NFC(Near Field Communication) 방식으로 동작하는 칩을 의미한다. 와이파이 칩이나 블루투스 칩을 이용하는 경우에는 SSID 및 세션 키 등과 같은 각종 연결 정보를 먼저 송수신하여, 이를 이용하여 통신 연결한 후 각종 정보들을 송수신할 수 있다. 무선 통신 칩은 IEEE, 지그비, 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evoloution) 등과 같은 다양한 통신 규격에 따라 통신을 수행하는 칩을 의미한다.
본 발명의 일 실시예로, 통신부(106)는 사용자 음성을 음성 인식 장치로 전송하며, 음성 인식 장치로부터 변환된 텍스트를 수신할 수 있다. 또한, 통신부(106)는 외부의 서버 장치에 텍스트 정보 및 사용자가 원하는 검색 정보를 저장할 수 있다.
영상 수신부(107)는 다양한 소스를 통해 영상 데이터를 수신한다. 예를 들어, 영상 수신부(107)는 외부의 방송국으로부터 방송 데이터를 수신할 수 있으며, 외부 장치(예를 들어, DVD 장치)로부터 영상 데이터를 수신할 수 있다.
오디오 출력부(108)는 오디오 처리부(118)에서 처리된 각종 오디오 데이터뿐만 아니라 각종 알림 음이나 음성 메시지를 출력하는 구성이다. 특히, 외부로부터 수신된 사용자 음성을 출력할 수도 있다.
저장부(130)는 디스플레이장치(100)를 구동하기 위한 다양한 모듈을 저장한다. 저장부(130)에 저장된 모듈에 대해서는 도 3을 참고하여 설명하기로 한다. 도 3에 도시된 바와 같이 저장부(130)에는 음성변환모듈(131), 텍스트 분석 모듈(132), UI프레임 워크(133), 복수의 판단 기준(134-1), 복수의 명령어(134-2), 베이스 모듈, 센싱 모듈, 통신 모듈, 프리젠테이션 모듈, 웹 브라우저 모듈, 서비스 모듈을 포함하는 소프트웨어가 저장될 수 있다.
본 발명의 일 실시예로, 저장부(130)는 디스플레이 장치(100)의 전원 제어에 관한 명령어, 채널 제어에 관한 명령어 및 음량 제어에 과한 명령어 중 적어도 하나가 저장될 수 있다. 저장부(130)에 기 저장된 복수의 명령어(134-2)는 사용자의 입력에 의해 저장될 수 있다. 디스플레이 장치(100)의 명령어는 상술한 예에 한정됨 없이 다양한 명령어일 수 있다.
음성변환모듈(131)은 사용자가 입력한 음성을 텍스트로 변환하여 텍스트 정보를 출력하는 기능을 수행한다.
텍스트 분석 모듈(132)은 변환된 텍스트를 분석하여 디스플레이 장치의 정확한 기능을 수행한다.
이때, 베이스 모듈은 디스플레이장치(100)에 포함된 각 하드웨어들로부터 전달되는 신호를 처리하여 상위 레이어 모듈로 전달하는 기초 모듈이다. 센싱 모듈은 각종 센서들로부터 정보를 수집하고, 수집된 정보를 분석 및 관리하는 모듈로서, 얼굴 인식 모듈, 음성 인식 모듈, 모션 인식 모듈, NFC 인식 모듈 등을 포함할 수도 있다. 프리젠테이션 모듈은 디스플레이 화면을 구성하기 위한 모듈로서, 멀티미디어 컨텐츠를 재생하여 출력하기 위한 멀티미디어 모듈, UI 및 그래픽 처리를 수행하는 UI 렌더링 모듈을 포함할 수 있다. 통신 모듈은 외부와 통신을 수행하기 위한 모듈이다. 웹 브라우저 모듈은 웹 브라우징을 수행하여 웹 서버에 액세스하는 모듈을 의미한다. 서비스 모듈은 다양한 서비스를 제공하기 위한 각종 어플리케이션을 포함하는 모듈이다.
음성 입력부(110)는 사용자 음성을 입력받기 위한 구성요소이다. 음성 입력부(110)는 자체적으로 마이크를 포함하여 사용자 음성을 직접 입력받을 수도 있고, 디스플레이 장치(100)와 유무선으로 연결된 마이크를 통해 사용자 음성을 입력받을 수도 있다. 음성 입력부(110)는 입력된 사용자의 음성을 음성 변환부(120)로 전달한다.
음성 변환부(120)는 음성 입력부(110)를 통해 입력된 사용자의 음성 특징의 파형(즉, 음성의 특징 백터)을 분석하여, 사용자가 발화한 음성과 대응되는 단어 또는 단어열을 식별하고, 식별된 단어를 텍스트 정보로 출력한다.
구체적으로, 음성 변환부(120)는 동적정합법(Dynamic time warping method), 은닉 마코프모델(Hidden Markov Model), 신경망(Neural Network) 등과 같은 다양한 인식 알고리즘 중 적어도 하나를 이용하여 음성을 인식하고, 인식된 음성을 텍스트로 변환할 수 있다. 일 예로, 은닉 마코프 모델을 사용하는 경우, 음성 변환부(120)는 사용자 음성의 시간적 변화 및 스펙트럼 변화를 각각 모델링하여, 기 저장된 언어 데이터베이스에서 유사한 어휘를 검출한다. 이에 따라, 검출된 어휘를 텍스트로 출력할 수 있다.
오디오 처리부(118)는 오디오 데이터에 대한 처리를 수행하는 구성요소이다. 오디오 처리부(118)에서는 오디오 데이터에 대한 디코딩이나 증폭, 노이즈 필터링 등과 같은 다양한 처리가 수행될 수 있다. 오디오 처리부(180)에서 처리된 오디오 데이터는 오디오 출력부(108)로 출력될 수 있다.
입력부(105)는 디스플레이장치(100)의 전반적인 동작을 제어하기 위한 사용자 명령을 수신한다. 특히, 입력부(105)는 음성입력 모드를 실행하기 위한 사용자 명령, 수행하고자 하는 서비스를 선택하는 사용자 명령 등을 수신할 수 있다.
한편, 입력부(105)는 터치 패널로 구현될 수 있으나, 이는 일 실시 예에 불과할 뿐, 리모컨, 포인팅 디바이스 등과 같이 디스플레이장치(100)를 제어할 수 있는 다른 입력 장치로 구현될 수 있다.
제어부(140)는 저장부(130)에 저장된 각종 프로그램을 이용하여 전자기기(100)의 전반적인 동작을 제어한다.
구체적으로, 제어부(140)는 음성 입력부(110)를 통해 입력되는 사용자 음성에 대응되는 제어 동작을 수행한다. 제어부(140)는 사용자의 선택에 따라 음성 입력 모드를 개시할 수 있다. 음성 입력 모드가 개시되면, 제어부(140)는 사용자 음성을 입력받도록 음성 입력부(110) 및 음성 변환부(120)을 활성화시킬 수 있다. 음성 인식 모드를 유지하는 동안 사용자의 음성이 입력되면, 제어부(140)는 저장부(130)에 기 저장된 복수의 서로 다른 판단 기준(134-1)을 순차적으로 변경 적용하여 사용자 의도를 분석한다. 제어부(140)는 분석 결과에 따라 제어 동작을 결정하여 디스플레이 장치(100)의 동작을 실행시키게 된다.
구체적으로, 제어부(140)는 입력된 음성이 디스플레이 장치(100)에 디스플레이된 화면 내의 오브젝트에 대응되는지 여부를 판단한다. 제어부(140)는 변환된 텍스트가 오브젝트의 명칭과 대응되면 오브젝트에 매칭된 동작을 실행하게 된다. 변환된 텍스트와 디스플레이된 오브젝트의 대응여부 판단은 도 4 내지 도 6을 참고하여 설명하기로 한다.
도 4는 변환된 텍스트가 디스플레이 장치(100)에 디스플레이된 화면 내에 Title과 동일하거나 디스플레이 장치일 측면에 표시된 숫자와 동일한 경우를 도시한 도면이다. 제어부(140)는 변환된 텍스트가 디스플레이 화면 내에 Title과 대응될 경우 해당 기능을 실행하게 된다. 가령, 사용자(10)가 '턴 온'이라고 발화한 경우, 입력된 음성을 음성 변화부(120)을 통해 텍스트로 변환하게 된다. 제어부(140)는 TV의 디스플레이된 화면 내에 표기된 복수의 타이틀 중 '턴 온'의 채널 1(410)과 변환된 텍스트인 '턴온' 대응된다고 판단하여 현재 상영 중인 'BBB'의 채널 12를 '턴 온' 의 채널 1(410)로 변경하게 된다.
또 다른 실시 예로, 도 5는 변환된 텍스트가 디스플레이 장치(100)에 디스플레이된 화면 내에 복수의 아이콘 및 그 명칭과 동일한 경우를 도시한 도면이다. 제어부(140)는 변환된 텍스트가 디스플레이 화면 내에 복수의 아이콘 및 그 명칭에 대응될 경우 해당 기능을 실행하게 된다. 가령, 사용자가 'more'라고 발화한 경우, 입력된 음성을 음성 변환부(120)을 통해 텍스트로 변환하게 된다. 제어부(140)는 복수의 오브젝트(510 내지 530) 중 변환된 텍스트 'more'와 대응되는 아이콘 'more'(510)가 존재하므로 해당 아이콘인 'more'(510)의 기능이 실행하게 된다.
일 실시 예로, 도 6은 변환된 텍스트가 디스플레이 장치(100)에 디스플레이된 화면 내에 복수의 메뉴 및 메뉴 일 측 상단에 표시된 숫자와 동일한 경우를 도시한 도면이다. 제어부(140)는 변환된 테스트가 디스플레이 화면 내에 복수의 메뉴 및 메뉴 일 측 상단에 표시된 숫자와 동일한 경우 해당 기능을 실행하게 된다. 가령, 디스플레이 장치(100)에 복수의 메뉴 리스트 및 각 메뉴 일 측 상단에 숫자가 표시되는 동안 사용자가 '1번 메뉴'(3)를 발화하면, 입력된 음성을 음성 변환부(120)를 통해 텍스트로 변환하게 된다. 제어부(130)는 복수의 메뉴(610 내지 690) 중 숫자가 표기된 복수의 메뉴 리스트 중 입력된 음성과 대응되는 '1번 메뉴'(610)를 실행시키게 된다.
본 발명의 일 실시 예로, 도 7은 오브젝트의 명칭이 일부만 디스플레이된 경우, 변환된 텍스트가 일부만 디스플레이된 오브젝트의 명칭 중 적어도 일부와 일치하면, 텍스트가 오브젝트의 명칭에 대응되는 것으로 판단하는 경우를 도시한 도면이다. 가령, 디스플레이장치(100)에 1(710), 2(720) 및 3(730)의 기능실행 오브젝트가 디스플레이된 경우, 사용자(10)가 'Lord'라고 발화하면, 입력된 음성을 음성 변환부(120)을 통해 텍스트로 변환하게 된다. 제어부(140)는 사용자(10)가 발화한 'Lord'가 일부만 디스플레이된 오브젝트의 명칭 중 적어도 일부(710)와 일치한다고 판단하여 1번 오브젝트(710)의 기능을 실행하게 된다.
또 다른 실시 예로, 도 8은 오브젝트의 단어 중 하나가 일부만 디스플레이 된 경우, 텍스트가 일부만 디스플레이된 단어 전체와 일치하면 텍스트가 오브젝트의 명칭에 대응되는 것으로 판단하게 된다. 가령, 디스플레이 장치(100)에 1 (810), 2(820) 및 3(830) 의 기능실행 오브젝트가 디스플레이된 경우, 사용자(10)가 'Story'라고 전체 단어를 발화하면, 입력된 음성 'story'를 음성 변환부(120)을 통해 텍스트로 변환하게 된다. 제어부(140)는 사용자(10)가 발화한 'Story'가 단어 일부만 디스플레이된 1번 기능실행 오브젝트(810)의 명칭에 대응되는 것으로 판단하여 1번 오브젝트의 기능을 실행하게 된다.
본 발명의 일 실시예로 제어부(140)는 변환된 텍스트가 오브젝트의 명칭과 대응되지 않는 경우, 변환된 텍스트가 저장부(130)에 기 저장된 명령어에 대응되는지 여부를 판단하게 된다. 변환된 텍스트가 기 저장된 명령어에 대응될 경우 명령어에 매칭된 동작을 실행하게 된다. 가령, 도 9에 따르면, TV 채널 11 상영 중(25), 입력된 음성이 '볼륨 업' 인 경우 제어부(130)는 입력된 음성 '볼륨 업'을 음성 변화부(120)를 통해 텍스트로 변환하게 된다. 제어부(130)는 변환된 텍스트 '볼륨 업'을 TV디스플레이 화면 내의 오브젝트와 대응되는지 여부를 판단하게 된다. 도 9에 도시된 바와 같이 제어부(140)는 '볼륨 업'에 대응되는 오브젝트가 존재하지 않으므로 저장부(130)에 기저장된 명령어와의 대응여부를 판단하게 된다. 제어부(140)는 변환된 텍스트인 '볼륨 업'에 대응되는 명령어가 저장부(130)에 저장되어 있을 경우 해당 채널 11의 볼륨을 높이게 된다.
또한, 상술한 바와 같이, 입력된 음성이 저장부(130)에 기저장된 명령어와 대응되지 않을 경우, 입력된 음성의 의미가 문법적으로 분석 가능한 지 여부를 판단하게 된다. 입력된 음성의 의미가 문법적으로 분석 가능한 텍스트인 경우 텍스트의 의미를 분석하고 분석 결과에 대응되는 응답 메시지를 디스플레이할 수 있다. 가령, 도 10에 따르면, TV 채널 11 상영 중(25)에 사용자가 '몇시'라는 음성을 입력할 경우, 제어부(140)는 입력된 음성인 '몇시'를 음성 변환부(120)를 통해 텍스트로 변환하게 된다. 이때, 제어부(140)는 디스플레이 장치에 디스플레이된 화면 내의 오브젝트의 명칭에 대응 여부를 판단하게 된다. 제어부(140)는 '몇시'에 대응되는 오브젝트가 디스플레이되있지 않으므로 저장부(130)에 '몇시'에 대응하는 기능이 있는지 여부를 판단하게 된다. 제어부(140)가 대응되는 기능이 있다고 판단하면 '몇시'에 대응되는 기능을 실행하게 된다. 하지만, 제어부(140)는 '몇시'에 대응되는 기능이 없다고 판단하면 저장부(130)에 기저장된 기준에 따라 '몇시'라는 음성을 문법에 따른 발화인지 여부를 판단하게 된다. 제어부(140)는 문법에 따른 발화라고 판단하면, 채널 11이 상영중(25)인 디스플레이 화면 일 면에 시간정보인 '지금은 11:00 AM입니다'(145)를 표시할 수 있다. 즉, 디스플레이 장치(100)는 분석 결과에 대응되는 응답 메시지를 화면 내에 표시할 수 있다.
상술한 바와 같이, 또 다른 실시 예로 제어부(140)가 입력된 음성의 의미가 문법적으로 분석 가능한지 여부를 판단하여 문법적으로 분석이 불가능할 경우, 입력된 음성을 키워드로 하여 검색을 수행할 수도 있다. 가령, 도11에 따르면, 사용자가 "AAA"라는 음성을 입력한 경우 제어부(130)는 "AAA"가 디스플레이 장치에 디스플레이된 화면 내의 오브젝트의 명칭에 대응되는지 여부를 판단하게 된다. 제어부(140)는 "AAA"가 오브젝트의 명칭과 대응되지 않는다고 판단되면 "AAA"가 저장부(130)에 기 저장된 명령어의 대응 여부를 판단하게 된다. 제어부(140)는 "AAA"가 저장부(130)에 기 저장된 명령어에 대응되지 않을 경우 "AAA"의 의미를 분석하고 분석 결과에 대응되는 응답 메시지를 디스플레이할 수 있다. 제어부(140)는 "AAA"가 의미 분석이 가능하지 않는다고 판단한 경우 "AAA"를 키워드로 검색을 수행할 수 있다. 제어부(140)는 "AAA"에 대한 검색을 수행하여, 검색 결과를 화면에 표시할 수 있다. 일 실시예로 복수의 검색 결과가 검색될 경우(155, 156, 157..), 복수의 검색 결과(155, 156, 157..)를 숫자와 함께 표시할 수 있다. 사용자가 복수의 리스트 중 하나를 음성 입력부(110)를 통해 입력한 경우, 즉, '1번'(155)이라고 입력하면 제어부(130)는 'AAA 뉴스 방송 시간'을 복수의 상영 시간과 함께 표시(155, 157)할 수 있다. 이때, 사용자가 선택한 항목은 다른 항목들과 구분될 수 있도록 color, 형태 변경 및 애니메이션등으로 표시할 수도 있다.
또한, 제어부(140)는 도 2에 도시된 바와 같이, RAM(109),ROM(111), 그래픽 처리부(113), 메인 CPU(112), 제1 내지 n 인터페이스(미도시), 버스(101)를 포함한다. 이때, RAM(109), ROM(111), 그래픽 처리부(113), 메인 CPU(112), 제1 내지 n 인터페이스(미도시) 등은 버스(101)를 통해 서로 연결될 수 있다.
ROM(111)에는 시스템 부팅을 위한 명령어 세트 등이 저장된다. 턴 온 명령이 입력되어 전원이 공급되면, 메인 CPU(112)는 ROM(111)에 저장된 명령어에 따라 저장부(130)에 저장된 O/S를 RAM(109)에 복사하고, O/S를 실행시켜 시스템을 부팅시킨다.
그래픽 처리부(113)는 연산부(미도시) 및 렌더링부(미도시)를 이용하여 아이콘, 이미지, 텍스트 등과 같은 다양한 객체를 포함하는 화면을 생성한다. 연산부는 입력부(105)로부터 수신된 제어 명령을 이용하여 화면의 레이아웃에 따라 각 객체들이 표시될 좌표값, 형태, 크기, 컬러 등과 같은 속성값을 연산한다. 렌더링부는 연산부에서 연산한 속성값에 기초하여 객체를 포함하는 다양한 레이아웃의 화면을 생성한다. 렌더링부에서 생성된 화면은 디스플레이부(102)의 디스플레이 영역 내에 표시된다.
메인 CPU(112)는 저장부(130)에 액세스하여, 저장부(130)에 저장된 O/S를 이용하여 부팅을 수행한다. 그리고, 메인 CPU(112)는 저장부(130)에 저장된 각종 프로그램, 컨텐츠, 데이터 등을 이용하여 다양한 동작을 수행한다.
제1 내지 n 인터페이스(미도시)는 상술한 각종 구성요소들과 연결된다. 인터페이스들 중 하나는 네트워크를 통해 외부 장치와 연결되는 네트워크 인터페이스가 될 수도 있다.
특히, 제어부(140)는 통신부(106)를 통해 음성 인식 장치(350)로 부터 전달받은 변환된 텍스트를 저장부(130)에 저장할 수도 있다.
그리고, 입력부(105)를 통해 음성 인식 모드 전환 명령이 입력되면, 제어부(140)는 음성 인식 모드를 실행한다. 음성 인식 모드가 실행되면, 제어부(140)는 음성 입력부(110)를 통해 입력된 사용자의 음성을 음성 변환부(120)를 통해 텍스트로 변환하여 디스플레이 장치(100)를 제어하게 된다.
스피커부(103)는 오디오 처리부(118)에서 생성한 오디오 데이터를 출력한다.
도 12는 본 발명의 일 실시 예에 다른 음성 제어 방법을 설명하기 위한 흐름도이다.
도 12에 따르면, 음성 입력 모드가 개시되면, 디스플레이 장치(100)는 사용자가 음성을 입력하게 된다(S1210). 상술한 바와 같이, 사용자 음성은 디스플레이 장치(100)의 본체에 마련된 마이크를 통해 입력될 수도 있고, 리모콘이나 기타 외부 장치에 마련된 마이크를 통해 입력되어 디스플레이 장치(100)로 전송될 수도 있다.
사용자 음성이 입력되면(S1210), 음성 변환부(120)는 입력된 사용자 음성을 텍스트로 변환하게 된다(S1220). 또한, 사용자 음성의 텍스트 변환은 디스플레이 장치 내의 음성 변환부(120)를 통해 이루어질 수 있고, 디스플레이 장치(100) 외부에 별도로 마련된 외부 서버 장치에 의해 이루어질 수도 있다.
디스플레이 장치(100)의 제어부(140)는 변환된 텍스트를 저장부(130)에 기 저장된 복수의 서로 다른 판단 기준(134-1)을 순차적으로 변경하여 적용하게 된다(S1230).
가령, 변환된 텍스트가 디스플레이 장치(100)에 디스플레이된 화면 내의 오브젝트에 대응될 경우, 오브젝트에 매칭되는 동작을 제어 동작으로 결정하게 된다.
디스플레이된 화면 내의 오브 젝트는 컨텐츠 타이틀, 이미지 타이틀, 텍스트아이콘, 메뉴 명, 숫자 중 적어도 하나일 수 있다. 이에 대한 실시 예는 상술하는 바와 같다.
하지만, 대응되는 오브젝트가 없을 경우, 저장부(130)에 기 저장된 명령어에 대응되는지 여부를 판단하게 된다. 구체적으로, 제어부(140)는 음성 입력부(110)를 통해 입력되는 사용자 음성이 기 저장된 명령어인 경우에는, 그 명령어에 대응되는 동작을 수행할 수 있다. 제어부(140)는 사용자가 음성 명령어를 입력하면, 해당 명령어에 대응되는 동작을 수행한다.
한편, 제어부(140)는 사용자 음성이 기 저장된 명령어가 아닌 임의의 텍스트를 발음한 것이라면, 해당 텍스트의 의미를 문법적으로 분석하고, 분석 결과에 대응되는 응답 메시지를 제어 동작으로 결정하게 된다. 문법적 분석을 통해서도 텍스트의 의미가 파악되지 않는 경우, 사용자가 입력한 텍스트를 키워드로 하여 검색을 수행하는 동작을 실행하게 된다. 가령, 사용자가 "영화배우 ABCD" 라고 발음한 경우, 디스플레이 장치(100)는 "영화배우 ABCD"라는 텍스트를 포함하는 다양한 정보들을 검색하여 그 검색 결과를 디스플레이하여 줄 수도 있다.
도 13은 본 발명의 일 실시 예에 따른 음성 제어 방법을 설명하기 위한 흐름도이다.
도 13에 따르면, 음성 입력 모드가 개시되면, 디스플레이 장치(100)는 사용자의 음성을 입력받게 된다(S1310). 상술한 바와 같이, 사용자 음성은 디스플레이 장치(100)의 본체에 마련된 마이크를 통해 입력될 수도 있고, 리모콘이나 기타 외부 장치에 마련된 마이크를 통해 입력되어 디스플레이 장치(100)로 전송될 수도 있다.
디스플레이 장치(100)는 입력된 사용자 음성을 음성 변화부(120)를 통해 텍스트로 변환한다(S1320). 텍스트 변환은 디스플레이 장치(100)가 자체적으로 수행할 수도 있으나, 또 다른 실시 예에 따르면, 디스플레이 장치(100)가 외부의 서버 장치로 사용자 음성을 전송하여 음성을 텍스트로 변환하면, 변환된 텍스트를 통신부(106)를 통해 수신할 수도 있다.
디스플레이 장치(100)는 변환된 텍스트가 디스플레이 장치(100)에 디스플레이된 화면 내의 오브젝트의 명칭에 대응되는지 여부를 판단하게 된다(S1330). 디스플레이된 화면 내의 오브젝트는 컨텐츠 타이틀, 이미지 타이틀, 텍스트 아이콘, 메뉴 명, 숫자 중 적어도 하나를 포함하여 표시되며 오브젝트의 종류 등에 따라 다양하게 구현될 수 있다.
변환된 텍스트가 디스플레이된 화면 내의 오브젝트에 대응될 경우(S1330-Y), 디스플레이 장치(100)는 해당 오브젝트를 제어동작으로 실행할 수 있다(S1335).가령, 사용자가 '턴 온'이라고 음성 입력한 경우, 디스플레이 장치(100)의 디스플레이된 화면 내에 표기된 복수의 타이틀 중 '턴 온'과 대응되면 현재 상영 중인 'BBB'의 채널 12를 '턴 온' 의 채널 1로 변경하게 된다.
변환된 텍스트가 디스플레이된 화면 내의 오브젝트에 대응되는 것이 없을 경우(S1330-N), 디스플레이 장치(100)는 저장부(130)에 기저장된 명령어에 대응되는지 여부를 분석하게 된다(S1340).
이때, 디스플레이 장치(100)가 TV인 경우, 저장부(130)에는 턴-온, 턴-오프, 볼륨 업, 볼륨 다운 등과 같은 다양한 동작 각각에 대해 음성 명령어가 지정되어 저장될 수 있다.
변환된 텍스트가 저장부(130)에 기저장된 명령어에 대응되는 것이 분석된 경우(S1340-Y), 디스플레이 장치(100)는 해당 명령어에 대응되는 동작을 제어 동작으로 결정한다(S1345). 가령, 사용자가 "볼륨 업" 이라고 발화한 경우 제어부(140)는 입력된 음성인 "볼륨 업"에 대응되는 명령어가 저장부(130)에 저장되어 있을 경우 해당 채널의 볼륨을 높이게 된다.
변환된 텍스트가 저장부(130)에 기저장된 명령어에 대응되지 않는 것으로 분석된 경우(S1340-N), 디스플레이 장치(100)는 변환된 텍스트의 의미가 문법적으로 분석 가능하지 여부를 판단하게 된다(S1350).
디스플레이 장치(100)는 변환된 텍스트의 의미가 문법적으로 분석 가능할 경우(S1350-Y) 디스플레이 장치(100)는 분석결과에 대응되는 응답 메시지를 디스플레이한다(S1355). 가령, 사용자가 "오늘 날씨 어때 ?" 라고 발화한 경우 사용자가 입력한 음성을 문법적으로 분석하여 디스플레이 장치(100) 화면에 날씨에 관한 정보를 표시할 수 있다.
변환된 텍스트의 의미가 문법적으로 분석되지 않을 경우(S1350-N), 디스플레이 장치(100)는 변환된 텍스트를 키워드로 하여 검색을 수행하게 된다(S1360). 가령, 상술한 일 실시 예와 같이 사용자가 "AAA"라는 키워드를 발화한 경우, 디스플레이 장치(100)는 "AAA"에 대한 검색을 수행하여, 검색 결과를 결과 표시 영역에 표시할 수 있다. 이때 "AAA"에 대한 검색 결과가 복수 개가 존재할 경우, 복수 개의 검색 결과 중 사용자가 선택한 검색 결과는 Color, 형태 및 애니메이션 등 다양한 방법으로 구현되어 표시될 수도 있다.
도 14은 본 발명의 일 실시 예에 따른 음성 제어 시스템의 구성의 일 예를 나타낸 도면이다.
구체적으로, 도 14에 따르면, 음성 제어 시스템(600)은 음성 인식 장치(350), 서버 장치(300), 디스플레이 장치(100)를 포함한다.
디스플레이 장치(100)는 음성 인식 장치(350) 및 서버 장치(300)등과 연동할 수 있는 클라이언트 모듈(미도시)을 포함할 수 있다. 제어부(140)는 음성 입력 모드가 개시되면, 클라이언트 모듈을 실행시켜, 음성 입력에 대응되는 제어 동작을 수행할 수 있다.
구체적으로, 제어부(140)는 사용자 음성이 입력되면, 통신부(106)를 통해 사용자 음성을 음성 인식 장치(350)로 전송할 수 있다. 음성 인식 장치(350)는 디스플레이 장치(100)를 통해 전송되는 사용자 음성을 텍스트로 변환하여 제공하는 일종의 서버 장치를 의미한다.
디스플레이 장치(100)는 음성 인식 장치(350)로부터 변환된 텍스트가 입력되면, 디스플레이 장치(100)의 저장부(130)에 기저장된 복수의 판단 기준(134-1)을 순차적으로 적용하여 그 텍스트에 대응되는 동작을 수행한다.
또한, 발명의 일 실시 예에서 디스플레이 장치(100)는 변환된 텍스트를 서버 장치(300)로 제공할 수 있다. 서버 장치(300)는 제공된 텍스트에 대응되는 정보를 자체 데이터베이스 또는 기타 서버 장치들로부터 검색할 수 있다. 서버장치(300)는 검색 결과를 디스플레이 장치(100)로 다시 피드백할 수 있다.
또한, 이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는안 될 것이다.
10 : 사용자 100 : 디스플레이 장치
110 : 음성 입력부 120 : 음성변환부
130 : 제어부 140 : 저장부
141 : 음성 변환 모듈 142 : 텍스트 분석 모듈
143-1 : 제1 분석 기준 143-2 : 제2 분석 기준
143-n : 제어 분석 기준 195 : 디스플레이부
300 : 서버장치 350 : 음성 인식 장치

Claims (21)

  1. 디스플레이 장치에 있어서,
    디스플레이;
    사용자의 음성 입력을 수신하는 음성 수신부; 및
    상기 디스플레이의 화면 상에 적어도 하나의 오브젝트를 표시하도록 상기 디스플레이를 제어하고,
    상기 적어도 하나의 오브젝트가 상기 디스플레이의 스크린 상에 표시되는 동안 상기 음성 수신부를 통해 음성 입력을 수신하며,
    상기 수신된 음성 입력을 처리하여 텍스트를 획득하고,
    상기 획득된 텍스트가 상기 디스플레이의 스크린 상에 표시된 상기 적어도 하나의 오브젝트 중 하나의 오브젝트에 관련된 텍스트에 대응되면, 상기 하나의 오브젝트에 대응되는 컨텐츠를 표시하도록 상기 디스플레이를 제어하며,
    상기 획득된 텍스트가 상기 디스플레이의 스크린 상에 표시된 상기 적어도 하나의 오브젝트 각각에 관련된 텍스트에 대응되지 않고 상기 디스플레이 장치를 제어하기 위한 명령어에 대응되면, 상기 명령어에 따라 상기 디스플레이 장치를 제어하는 적어도 하나의 프로세서; 를 포함하는 디스플레이 장치.
  2. 제1 항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 획득된 텍스트가 상기 하나의 오브젝트에 관련된 텍스트에 대응되고 상기 명령어에 대응되면, 상기 컨텐츠를 표시하도록 상기 디스플레이를 제어하는 디스플레이 장치.
  3. 제1 항에 있어서,
    상기 하나의 오브젝트에 관련된 텍스트는 상기 하나의 오브젝트의 제목의 적어도 일부인 디스플레이 장치.
  4. 제3 항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 제목의 적어도 일부를 상기 디스플레이 장치의 스크린 상에 표시하도록 상기 디스플레이를 제어하고,
    상기 획득된 텍스트가 상기 제목의 적어도 일부에 대응되면, 상기 컨텐츠를 표시하도록 상기 디스플레이를 제어하는 디스플레이 장치.
  5. 제1 항에 있어서,
    통신부; 를 더 포함하고,
    상기 적어도 하나의 프로세서는,
    상기 통신부를 통해 상기 디스플레이 장치와 연결된 제1 서버로 상기 음성 입력에 대한 정보를 전송하고,
    상기 통신부를 통해 상기 제1 서버로부터 상기 음성 입력에 대응되는 텍스트에 대한 정보를 수신하는 디스플레이 장치.
  6. 제5 항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 통신부를 통해 상기 디스플레이 장치와 상기 제1 서버에 연결된 제2 서버로부터, 상기 디스플레이가 상기 컨텐츠를 표시하도록 제어하기 위한 제1 제어 정보 또는 상기 명령어에 따라 상기 디스플레이 장치를 제어하기 위한 제2 제어 정보를 수신하고,
    상기 수신된 제1 제어 정보 또는 상기 제2 제어 정보에 기초하여 상기 디스플레이 장치를 제어하는 디스플레이 장치.
  7. 제1 항에 있어서,
    상기 음성 수신부는 마이크를 포함하고,
    상기 음성 입력은 상기 마이크를 통해 수신되는 디스플레이 장치.
  8. 제1 항에 있어서,
    상기 음성 입력은 상기 디스플레이 장치를 제어하기 위한 원격 제어 장치로부터 수신되는 디스플레이 장치.
  9. 제1 항에 있어서,
    상기 명령어는 상기 디스플레이 장치의 전원을 제어하기 위한 명령, 상기 디스플레이 장치의 채널을 제어하기 위한 명령 및 상기 디스플레이 장치의 볼륨을 제어하기 위한 명령 중 하나인 디스플레이 장치.
  10. 제1 항에 있어서,
    상기 명령어를 저장하는 메모리; 를 더 포함하는 디스플레이 장치.
  11. 디스플레이 장치의 제어 방법에 있어서,
    상기 디스플레이 장치의 화면 상에 적어도 하나의 오브젝트를 표시하는 단계;
    상기 적어도 하나의 오브젝트가 상기 디스플레이 장치의 스크린 상에 표시되는 동안 음성 입력을 수신하는 단계;
    상기 수신된 음성 입력을 처리하여 텍스트를 획득하는 단계;
    상기 획득된 텍스트가 상기 디스플레이 장치의 스크린 상에 표시된 상기 적어도 하나의 오브젝트 중 하나의 오브젝트에 관련된 텍스트에 대응되면, 상기 하나의 오브젝트에 대응되는 컨텐츠를 표시하는 단계; 및
    상기 획득된 텍스트가 상기 디스플레이 장치의 스크린 상에 표시된 상기 적어도 하나의 오브젝트 각각에 관련된 텍스트에 대응되지 않고 상기 디스플레이 장치를 제어하기 위한 명령어에 대응되면, 상기 명령어에 따라 상기 디스플레이 장치를 제어하는 단계; 를 포함하는 디스플레이 장치의 제어 방법.
  12. 제11 항에 있어서,
    상기 하나의 오브젝트에 대응되는 컨텐츠를 표시하는 단계는,
    상기 획득된 텍스트가 상기 하나의 오브젝트에 관련된 텍스트에 대응되고 상기 획득된 텍스트가 상기 명령어에 대응되면, 상기 컨텐츠를 표시하는 디스플레이 장치의 제어 방법.
  13. 제11 항에 있어서,
    상기 하나의 오브젝트에 관련된 텍스트는 상기 하나의 오브젝트의 제목의 적어도 일부인 전자 장치의 제어 방법.
  14. 제13 항에 있어서,
    상기 제목의 적어도 일부를 상기 디스플레이 장치의 스크린 상에 표시하는 단계; 및
    상기 획득된 텍스트가 상기 제목의 적어도 일부에 대응되면, 상기 컨텐츠를 표시하는 단계; 를 더 포함하는 디스플레이 장치의 제어 방법.
  15. 제11 항에 있어서,
    상기 디스플레이 장치와 연결된 제1 서버로 상기 음성 입력에 대한 정보를 전송하는 단계; 및
    상기 제1 서버로부터 상기 음성 입력에 대응되는 텍스트에 대한 정보를 수신하는 단계; 를 더 포함하는 디스플레이 장치의 제어 방법.
  16. 제15 항에 있어서,
    상기 디스플레이 장치와 상기 제1 서버에 연결된 제2 서버로부터, 상기 디스플레이 장치가 상기 컨텐츠를 표시하도록 제어하기 위한 제1 제어 정보 또는 상기 명령어에 따라 상기 디스플레이 장치를 제어하기 위한 제2 제어 정보를 수신하는 단계; 및
    상기 수신된 제1 제어 정보 또는 상기 제2 제어 정보에 기초하여 상기 디스플레이 장치를 제어하는 단계; 를 더 포함하는 디스플레이 장치의 제어 방법.
  17. 제11 항에 있어서,
    상기 음성 입력은 상기 디스플레이 장치에 포함된 마이크를 통해 수신되는 디스플레이 장치의 제어 방법.
  18. 제11 항에 있어서,
    상기 음성 입력은 상기 디스플레이 장치를 제어하기 위한 원격 제어 장치로부터 수신되는 디스플레이 장치의 제어 방법.
  19. 제11 항에 있어서,
    상기 명령어는 상기 디스플레이 장치의 전원을 제어하기 위한 명령, 상기 디스플레이 장치의 채널을 제어하기 위한 명령 및 상기 디스플레이 장치의 볼륨을 제어하기 위한 명령 중 하나인 디스플레이 장치의 제어 방법.
  20. 제11 항에 있어서,
    상기 명령어는 상기 디스플레이 장치에 포함된 메모리에 저장되는 디스플레이 장치의 제어 방법.
  21. 디스플레이 장치의 제어 방법을 실행하는 프로그램을 포함하는 비일시적 컴퓨터 판독 가능 기록매체에 있어서,
    상기 디스플레이 장치의 제어 방법은,
    상기 디스플레이 장치의 화면 상에 적어도 하나의 오브젝트를 표시하는 단계;
    상기 적어도 하나의 오브젝트가 상기 디스플레이 장치의 스크린 상에 표시되는 동안 음성 입력을 수신하는 단계;
    상기 수신된 음성 입력을 처리하여 텍스트를 획득하는 단계;
    상기 획득된 텍스트가 상기 디스플레이 장치의 스크린 상에 표시된 상기 적어도 하나의 오브젝트 중 하나의 오브젝트에 관련된 텍스트에 대응되면, 상기 하나의 오브젝트에 대응되는 컨텐츠를 표시하는 단계; 및
    상기 획득된 텍스트가 상기 디스플레이 장치의 스크린 상에 표시된 상기 적어도 하나의 오브젝트 각각에 관련된 텍스트에 대응되지 않고 상기 디스플레이 장치를 제어하기 위한 명령어에 대응되면, 상기 명령어에 따라 상기 디스플레이 장치를 제어하는 단계; 를 포함하는 컴퓨터 판독 가능 기록매체.
KR1020140009388A 2014-01-27 2014-01-27 음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법 KR102209519B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020140009388A KR102209519B1 (ko) 2014-01-27 2014-01-27 음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법
US14/515,781 US9711149B2 (en) 2014-01-27 2014-10-16 Display apparatus for performing voice control and voice controlling method thereof
EP15152749.6A EP2899719B1 (en) 2014-01-27 2015-01-27 Display apparatus for performing voice control and voice controlling method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140009388A KR102209519B1 (ko) 2014-01-27 2014-01-27 음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법

Publications (2)

Publication Number Publication Date
KR20150089145A KR20150089145A (ko) 2015-08-05
KR102209519B1 true KR102209519B1 (ko) 2021-01-29

Family

ID=52423607

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140009388A KR102209519B1 (ko) 2014-01-27 2014-01-27 음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법

Country Status (3)

Country Link
US (1) US9711149B2 (ko)
EP (1) EP2899719B1 (ko)
KR (1) KR102209519B1 (ko)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103945152A (zh) * 2014-03-14 2014-07-23 京东方科技集团股份有限公司 一种语音控制电视机的方法及其电视机
US9934782B2 (en) * 2015-09-22 2018-04-03 Meshrose Ltd. Automatic performance of user interaction operations on a computing device
KR20170046958A (ko) * 2015-10-22 2017-05-04 삼성전자주식회사 전자 장치 및 그의 음성 인식을 이용한 기능 실행 방법
US20170221336A1 (en) 2016-01-28 2017-08-03 Flex Ltd. Human voice feedback system
KR20170100309A (ko) 2016-02-25 2017-09-04 삼성전자주식회사 음성 인식 제어를 제공하는 전자 장치 및 그 동작 방법
US10147423B2 (en) * 2016-09-29 2018-12-04 Intel IP Corporation Context-aware query recognition for electronic devices
KR101925034B1 (ko) 2017-03-28 2018-12-04 엘지전자 주식회사 스마트 컨트롤링 디바이스 및 그 제어 방법
KR102452644B1 (ko) * 2017-10-31 2022-10-11 삼성전자주식회사 전자 장치, 음성 인식 방법 및 기록 매체
KR102480570B1 (ko) 2017-11-10 2022-12-23 삼성전자주식회사 디스플레이장치 및 그 제어방법
KR102036279B1 (ko) * 2018-02-09 2019-10-24 충북대학교 산학협력단 사용자의 발표 패턴을 이용한 프리젠테이션 제어 시스템 및 방법
KR102416135B1 (ko) * 2018-09-05 2022-07-01 삼성중공업 주식회사 음성 작업지시 기능을 가지는 도면 편집 장치 및 도면 편집 방법
KR102279319B1 (ko) * 2019-04-25 2021-07-19 에스케이텔레콤 주식회사 음성분석장치 및 음성분석장치의 동작 방법
CN110839180A (zh) * 2019-09-29 2020-02-25 王东 一种视频播放进度控制方法、装置及电子设备
CN110689891A (zh) * 2019-11-20 2020-01-14 广东奥园奥买家电子商务有限公司 一种基于公众显示装置的语音交互方法以及设备
CN112511882B (zh) * 2020-11-13 2022-08-30 海信视像科技股份有限公司 一种显示设备及语音唤起方法
CN113658598B (zh) * 2021-08-12 2024-02-27 Vidaa(荷兰)国际控股有限公司 一种显示设备的语音交互方法及显示设备
WO2024019186A1 (ko) * 2022-07-19 2024-01-25 엘지전자 주식회사 디스플레이 장치 및 그의 동작 방법

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8073695B1 (en) * 1992-12-09 2011-12-06 Adrea, LLC Electronic book with voice emulation features
KR101545582B1 (ko) * 2008-10-29 2015-08-19 엘지전자 주식회사 단말기 및 그 제어 방법
WO2012012911A1 (en) * 2010-07-28 2012-02-02 Hewlett-Packard Development Company, L.P. Producing web page content
KR20120080069A (ko) 2011-01-06 2012-07-16 삼성전자주식회사 디스플레이 장치 및 그 음성 제어 방법
US9183832B2 (en) 2011-06-07 2015-11-10 Samsung Electronics Co., Ltd. Display apparatus and method for executing link and method for recognizing voice thereof
WO2013022221A2 (en) * 2011-08-05 2013-02-14 Samsung Electronics Co., Ltd. Method for controlling electronic apparatus based on voice recognition and motion recognition, and electronic apparatus applying the same
KR20130078486A (ko) 2011-12-30 2013-07-10 삼성전자주식회사 전자 장치 및 그의 제어 방법
KR20130125067A (ko) * 2012-05-08 2013-11-18 삼성전자주식회사 전자 장치 및 그의 제어 방법
KR20130140423A (ko) * 2012-06-14 2013-12-24 삼성전자주식회사 디스플레이 장치, 대화형 서버 및 응답 정보 제공 방법
US9734151B2 (en) * 2012-10-31 2017-08-15 Tivo Solutions Inc. Method and system for voice based media search
KR20140087717A (ko) * 2012-12-31 2014-07-09 삼성전자주식회사 디스플레이 장치 및 제어 방법
KR102158315B1 (ko) * 2013-10-14 2020-09-21 삼성전자주식회사 음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법

Also Published As

Publication number Publication date
KR20150089145A (ko) 2015-08-05
US9711149B2 (en) 2017-07-18
US20150213799A1 (en) 2015-07-30
EP2899719B1 (en) 2018-03-21
EP2899719A1 (en) 2015-07-29

Similar Documents

Publication Publication Date Title
KR102209519B1 (ko) 음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법
KR102246900B1 (ko) 전자 장치 및 이의 음성 인식 방법
KR102210433B1 (ko) 전자 장치 및 이의 음성 인식 방법
US9886952B2 (en) Interactive system, display apparatus, and controlling method thereof
US20240046934A1 (en) Display apparatus capable of releasing a voice input mode by sensing a speech finish and voice control method thereof
EP3190512B1 (en) Display device and operating method therefor
US9148688B2 (en) Electronic apparatus and method of controlling electronic apparatus
EP3142107A1 (en) Voice recognition apparatus and controlling method thereof
KR102527082B1 (ko) 디스플레이장치 및 그 제어방법
EP2830321A1 (en) Display apparatus and method for providing personalized service thereof
JP2014532933A (ja) 電子装置及びその制御方法
KR102317684B1 (ko) 영상 표시 장치 및 그 동작 방법
JP2014132442A (ja) 電子装置およびその制御方法
US10770067B1 (en) Dynamic voice search transitioning
KR102656611B1 (ko) 보이스 어시스턴트 서비스를 이용한 컨텐츠 재생 장치 및 그 동작 방법
KR102093353B1 (ko) 서비스 제공 장치 및 방법
KR102482457B1 (ko) 음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법
KR102359163B1 (ko) 전자 장치 및 이의 음성 인식 방법
KR102420155B1 (ko) 음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법
KR102667407B1 (ko) 음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법
KR102237832B1 (ko) 음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법
CN117809646A (zh) 显示设备、服务器、语音处理方法及存储介质
KR20240078409A (ko) 음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant