KR102179506B1

KR102179506B1 - 전자장치 및 그 제어방법

Info

Publication number: KR102179506B1
Application number: KR1020130161138A
Authority: KR
Inventors: 유영준; 김동완; 배재현; 신기훈; 조남국; 고병섭; 김기범; 류희섭
Original assignee: 삼성전자 주식회사
Priority date: 2013-12-23
Filing date: 2013-12-23
Publication date: 2020-11-17
Also published as: US20170330568A1; WO2015099336A1; US9830907B2; EP3055992A4; CN105850115A; US20150179176A1; CN105850115B; EP3055992B1; US10468023B2; EP3055992A1; KR20150073441A

Abstract

본 발명은 전자장치 및 그 제어방법에 관한 것으로서, 전자장치는, 사용자가 발화하는 음성을 수신하는 음성수신부와; 상기 수신된 음성이, 상기 전자장치가 미리 정해진 동작을 수행할 것을 명령하는 예약어에 해당할 가능성이 높은 예약어 후보인지 여부를 판단하는 제1음성인식부와; 상기 수신된 음성이 상기 예약어 후보인 것으로 판단되면, 절전상태로부터 정상상태가 되어, 상기 수신된 음성이 상기 예약어인지 여부를 판단하는 제2음성인식부와; 상기 수신된 음성이 상기 예약어인 경우, 상기 미리 정해진 동작을 수행하는 동작수행부를 포함한다.
이에 의하여, 전력소모를 최소화하면서 낮은 비용으로 보다 신뢰성 높게 사용자의 음성을 인식하여 동작을 수행할 수 있다.

Description

전자장치 및 그 제어방법{ELECTRONIC APPARATUS AND CONTROL METHOD THEREOF}

본 발명은, 전자장치 및 그 제어방법에 관한 것으로서, 사용자의 음성을 수신하고, 수신된 음성에 따라 동작하는 전자장치 및 그 제어방법에 관한 것이다.

TV와 같은 디스플레이장치, 게임기기, 차량 네비게이션기기 등의 전자장치에서는 사용자의 음성을 통한 장치 제어가 점차 확대되어가고 있다. 예컨대, 사용자가 전자장치의 전원을 끈 상황(이하, '대기모드'라고도 함)에서, 사용자가 음성을 발화하여 전자장치의 전원을 켜는 기능은, 사용자의 음성을 통하여 전자장치를 제어하는 하나의 응용 형태가 될 수 있다.

　도 1은 본 발명과 관련된 전자장치가 대기모드에서 사용자의 음성에 따라 동작을 수행하는 하나의 예를 도시한다. 먼저, 전자장치는 대기모드에서 음성(sound)을 수신한다(11). 전자장치가 수신하는 음성은 사용자의 음성(voice)일 수도 있고, 사용자의 음성이 아닌 그 외의 소리(sound)일 수도 있다. 사용자의 음성 중에는, 특히, 전자장치가 대응하는 미리 정해진 동작을 수행하도록 하는 명령어(이하, '예약어'라고도 함)가 포함된다. 다음으로, 전자장치는 수신된 음성이 예약어인지 여부를 인식한다(12). 만일, 수신된 음성이 예약어인 경우라면(13), 전자장치는 해당 예약어에 대응하는 동작을 수행한다(14). 예컨대, 예약어가 전원을 켜는 예약어라면, 전자장치는 대기모드에서 벗어나 전원을 켜는 동작을 수행한다.

그런데, 전자장치가 대기모드에서 음성을 수신하고, 예약어를 인식하려면 이에 대응하는 음성인식수단(15)이 대기모드에서 켜져 있고 언제든지 동작할 준비가 되어 있어야 한다. 이러한 음성인식수단(15)은, 예컨대, 마이크로프로세서 등으로 구현될 수 있다. 그러므로, 음성인식수단(15)은 대기모드 시 불가피하게 전력을 소모할 수 밖에 없다. 반면, 최근 대기모드 시 전자장치의 소비전력을 가급적 낮추고자 하는 요구가 커지고 있다. 따라서, 대기모드 시 동작하는 음성인식수단(15)의 전력 소모를 최소화할 필요가 있다.

한편, 음성인식수단(15)이 예약어를 인식함에 있어서의 신뢰성은 음성인식수단(15)의 하드웨어적인 성능이나, 소프트웨어적인 수준을 높일수록 좋아진다. 그러나, 음성인식수단(15)의 하드웨어적인 성능이나, 소프트웨어적인 수준을 높일수록 비용이 증가할 수 밖에 없다. 또한, 음성인식수단(15)의 하드웨어적인 성능이나, 소프트웨어적인 수준이 높아지면, 이에 따라 전력 소모도 증가하게 된다. 따라서, 음성인식수단(15)의 신뢰성을 향상하기 위해서는, 비용이나, 전력소모를 고려하여 보다 효율적으로 음성인식수단(15)을 설계할 필요가 있다.

따라서 본 발명의 목적은, 대기모드 시 전력소모를 최소화하면서 사용자의 음성에 따라 동작을 수행할 수 있는 전자장치 및 그 제어방법을 제공하는 것이다.

또한, 본 발명의 다른 목적은, 비용 혹은 전력소모를 최소화하면서도 보다 높은 신뢰성을 가지고 사용자의 음성을 인식하여 동작을 수행할 수 있는 전자장치 및 그 제어방법을 제공하는 것이다.

본 발명의 상기 목적은, 디스플레이장치에 있어서, 방송신호를 수신하는 신호수신부와; 상기 수신된 방송신호에 기초하여 영상을 표시하는 디스플레이부와; 사용자가 발화하는 음성을 수신하는 음성수신부와; 상기 디스플레이장치가 대기모드인 경우 전원이 공급되며, 상기 대기모드에서 상기 음성수신부에 의해 수신된 음성이, 상기 디스플레이장치가 미리 정해진 동작을 수행할 것을 명령하는 예약어에 해당할 가능성이 높은 예약어 후보인지 여부를 판단(determine)하는 제1음성인식부와; 상기 대기모드에서 전원 공급이 차단되며, 상기 수신된 음성이 상기 예약어 후보인 것으로 판단되면, 전원이 공급되어, 상기 수신된 음성이 상기 예약어인지 여부를 판단하는 제2음성인식부와; 상기 수신된 음성이 상기 예약어인 경우, 상기 미리 정해진 동작이 수행되도록 제어하는 제어부를 포함하는 디스플레이장치에 의해서 달성될 수 있다..

상기 제1음성인식부는, 상기 수신된 음성의 레벨을 포함하는 에너지 특징에 기초하여 상기 수신된 음성이 상기 예약어 후보인지 여부를 판단할 수 있다.

상기 제1음성인식부는, 상기 수신된 음성의 제로크로싱 비율, 공간평탄도 및 발화존재가능성 중 적어도 하나를 포함하는 사람의 음성 특징에 기초하여 상기 수신된 음성이 상기 예약어 후보인지 여부를 판단할 수 있다.

상기 제1음성인식부는, 상기 예약어와의 유사 여부에 기초하여 상기 수신된 음성이 상기 예약어 후보인지 여부를 판단할 수 있다.

상기 제1음성인식부는, 에너지 특징, 사람의 음성 특징 및 상기 예약어와의 유사 여부 중 현재의 상황에 따라 선택된 적어도 하나에 기초하여 상기 수신된 음성이 상기 예약어 후보인지 여부를 판단할 수 있다.

상기 신호수신부 및 상기 디스플레이부 중 상기 판단된 예약어에 대응하는 적어도 하나는, 상기 대기모드 시 전원 공급이 차단되며, 상기 수신된 음성이 상기 예약어인 것으로 판단되면, 전원이 공급될 수 있다.

상기 예약어는, 제1예약어 및 제2예약어를 포함하며, 상기 제1음성인식부는, 상기 대기모드에서 수신된 음성이 상기 제1예약어에 대응하는 예약어 후보인지 여부를 판단하고, 상기 디스플레이장치가 정상모드인 경우 상기 수신된 음성이 상기 제2예약어에 대응하는 예약어 후보인지 여부를 판단할 수 있다.

상기 제2예약어에 대응하는 명령어의 개수는 상기 제1예약어에 대응하는 명령어의 개수보다 많을 수 있다.

본 발명의 상기 목적은, 수신된 방송신호에 기초하여 영상을 표시하는 디스플레이장치의 제어방법에 있어서, 상기 디스플레이장치가 대기모드인 경우 사용자가 발화하는 음성을 수신하는 단계와; 상기 대기모드에서 전원이 공급되는 제1음성인식부를 이용하여, 상기 수신된 음성이, 상기 디스플레이장치가 미리 정해진 동작을 수행할 것을 명령하는 예약어에 해당할 가능성이 높은 예약어 후보인지 여부를 판단하는 단계와; 상기 대기모드에서 전원 공급이 차단되며, 상기 수신된 음성이 상기 예약어 후보인 것으로 판단되면, 전원이 공급되는 제2음성인식부를 이용하여, 상기 수신된 음성이 상기 예약어인지 여부를 판단하는 단계와; 상기 수신된 음성이 상기 예약어인 경우, 상기 미리 정해진 동작을 수행하는 단계를 포함하는 디스플레이장치의 제어방법에 의해서도 달성될 수 있다.

상기 예약어 후보인지 여부를 판단하는 단계는, 상기 수신된 음성의 레벨을 포함하는 에너지 특징에 기초하여 상기 수신된 음성이 상기 예약어 후보인지 여부를 판단하는 단계를 포함할 수 있다.

상기 예약어 후보인지 여부를 판단하는 단계는, 상기 수신된 음성의 제로크로싱 비율, 공간평탄도 및 발화존재가능성 중 적어도 하나를 포함하는 사람의 음성 특징에 기초하여 상기 수신된 음성이 상기 예약어 후보인지 여부를 판단하는 단계를 포함할 수 있다.

상기 예약어 후보인지 여부를 판단하는 단계는, 상기 예약어와의 유사 여부에 기초하여 상기 수신된 음성이 상기 예약어 후보인지 여부를 판단하는 단계를 포함할 수 있다.

상기 예약어 후보인지 여부를 판단하는 단계는, 에너지 특징, 사람의 음성 특징 및 상기 예약어와의 유사 여부 중 현재의 상황에 따라 선택된 적어도 하나에 기초하여 상기 수신된 음성이 상기 예약어 후보인지 여부를 판단하는 단계를 포함할 수 있다.

디스플레이장치의 제어방법은, 상기 대기모드 시 상기 예약어에 대응하는 동작을 수행하는 동작수행부에 전원 공급을 차단하고, 상기 수신된 음성이 상기 예약어인 것으로 판단되면, 상기 동작수행부에 전원을 공급하는 단계를 더 포함할 수 있다.

상기 예약어는, 제1예약어 및 제2예약어를 포함하며, 상기 예약어 후보인지 여부를 판단하는 단계는, 상기 대기모드에서 수신된 음성이 상기 제1예약어에 대응하는 예약어 후보인지 여부를 판단하는 단계와; 상기 디스플레이장치가 정상모드인 경우 상기 수신된 음성이 상기 제2예약어에 대응하는 예약어 후보인지 여부를 판단하는 단계를 포함할 수 있다.

상기한 바와 같이, 본 발명에 의하면, 대기모드 시 전력소모를 최소화하면서 사용자의 음성에 따라 동작을 수행할 수 있다.

또한, 본 발명에 의하면, 비용 혹은 전력소모를 최소화하면서도 보다 높은 신뢰성을 가지고 사용자의 음성을 인식하여 동작을 수행할 수 있다.

도 1은 본 발명과 관련된 전자장치가 대기모드에서 사용자의 음성에 따라 동작을 수행하는 하나의 예를 도시하며,
도 2는 본 발명의 일실시예에 의한 전자장치의 구성을 나타내는 블록도이며,
도 3은 본 발명의 일실시예에 의한 전자장치의 음성수신부가 수신하는 음성의 종류를 나타내며,
도 4는 본 발명의 일실시예에 의한 전자장치의 동작을 도시하는 흐름도이며,
도 5는 본 발명의 일실시예에 의한 전자장치의 제1음성인식부의 구성의 예들을 도시한 블록도이며,
도 6은 본 발명의 일실시예에 의한 전자장치의 동작의 다른 예를 도시하는 흐름도이며,
도 7은 본 발명의 일실시예에 의한 디스플레이장치의 구성을 도시한 블록도이며,
도 8은 본 발명의 일실시예에 의한 디스플레이장치의 대기모드 시 동작을 나타내며,
도 9는 본 발명의 일실시예에 의한 디스플레이장치의 동작을 도시한 흐름도이다.

이하, 본 발명의 일실시예에 관하여 상세히 설명한다. 도 2는 본 발명의 일실시예에 의한 전자장치의 구성을 나타내는 블록도이다. 도 2에 도시된 바와 같은 전자장치(2)는 TV와 같은 디스플레이장치, 게임기기, 차량 네비게이션기기 등으로 구현될 수 있으며, 음성을 인식하여 동작할 수 있는 어떠한 기기도 포함될 수 있다. 전자장치(2)는, 도 2에 도시된 바와 같이, 음성수신부(sound receiver; 21), 제1음성인식부(first sound recognizer; 22), 제2음성인식부(second sound recognizer; 23) 및 동작수행부(operation performer; 24)를 포함한다.

음성수신부(21)는 음성(sound)을 수신한다. 음성수신부(2)는 마이크로 구현될 수 있다. 음성수신부(2)가 수신하는 음성은 사용자의 음성(voice)일 수도 있고, 사용자의 음성이 아닌 그 외의 소리(sound)일 수도 있다. 도 3은 음성수신부(21)가 수신하는 음성의 종류를 나타낸다. 먼저, 음성수신부(21)가 수신하는 모든 음성(31) 중에는 잡음 등이 포함되며, 특히, 레벨이 큰 음성(32)이 포함될 수 있다. 다음으로, 레벨이 큰 음성(32) 중에는, 예컨대 레벨이 큰 잡음도 있을 수 있지만, 이 중에는 동물의 음성(33)과, 사람의 음성(34)이 있을 수 있다. 다음으로, 사람의 음성(33) 중에는 미리 정해진 예약어에 해당할 가능성이 높은 음성(35; 이하, '예약어 후보'라고도 함)이 있을 수가 있다. 마지막으로, 예약어 후보(35) 중에는 미리 정해진 예약어(36)가 포함된다. 도 3에 도시된 바와 같이, 좌측으로 갈수록 음성 인식에 드는 비용이나, 전력 소모가 작아지고, 우측으로 갈수록 비용이나, 전력 소모가 커짐을 나타낸다.

다시 도 2를 참조하면, 제1음성인식부(22) 및 제2음성인식부(23)는 음성수신부(21)가 수신하는 음성에 대하여 음성 인식을 각각 수행한다. 제1음성인식부(22)는 제2음성인식부(23)의 동작에 대한 전처리 단계로서 음성 인식(이하, '제1음성 인식'이라고도 함)을 수행한다. 제2음성인식부(23)는 제1음성인식부(22)의 동작에 대한 후처리 단계로서 음성 인식(이하, '제2음성 인식'이라고도 함)을 수행한다. 즉, 제1음성인식부(22)의 제1음성인식은 기본적이거나, 개괄적인 인식이 될 수 있으며, 제2음성인식부(23)의 제2음성인식은, 보다 구체적이거나, 심층적인 인식이 될 수 있다. 구체적으로, 제1음성인식부(22)는 음성수신부(21)에 의해 수신된 음성이 미리 정해진 예약어에 대응하는 예약어 후보인지 여부를 판단(determine)한다. 한편, 제2음성인식부(23)는 음성수신부(21)가 수신한 음성이 미리 정해진 예약어인지 여부를 판단한다.

도 2를 참조하면, 동작수행부(24)는 예약어에 대응하는 동작을 수행한다. 동작수행부(24)는 전자장치(2)의 용도나 기능에 대응하는 적어도 하나 이상의 다양한 동작을 수행할 수 있다. 예컨대, 전자장치(2)가 TV와 같은 디스플레이장치인 경우, 동작수행부(24)는 영상신호를 처리하여 영상을 표시하는 동작을 수행할 수 있다. 동작수행부(24)는 하드웨어, 소프트웨어, 또는 그 조합으로 구현될 수 있으며, 복수 개로 구현될 수 있다.

도 4는 본 발명의 일실시예에 의한 전자장치(2)의 동작을 도시하는 흐름도이다. 동작 S41에서, 전자장치(2)는, 음성을 수신한다. 다음으로, 동작 S42에서, 전자장치(2)는 수신된 음성이 미리 정해진 예약어 후보인지 여부를 판단한다. 만일, 수신된 음성이 미리 정해진 예약어 후보가 아니라고 판단되면(S42의 No), 전자장치(2)는 동작을 종료한다. 만일, 수신된 음성이 미리 정해진 예약어 후보라고 판단되면(S42의 Yes), 동작 S43에서, 전자장치(2)는 수신된 음성이 미리 정해진 예약어인지 여부를 판단한다. 만일, 수신된 음성이 미리 정해진 예약어가 아니라고 판단되면(S43의 No), 전자장치(2)는 동작을 종료한다. 만일, 수신된 음성이 미리 정해진 예약어라고 판단되면(S43의 Yes), 동작 S44에서, 전자장치(2)는 판단된 예약어에 대응하는 동작을 수행한다.

이와 같이, 본 발명의 일실시예에 의하면, 수신되는 음성에 대한 인식을 전처리 단계로서의 제1음성 인식과, 후처리 단계로서의 제2음성 인식으로 나누어 수행한다. 즉, 기본적이고, 개괄적인 인식을 수행하는 제1음성 인식에 의해, 수신된 음성 중에서 예약어의 가능성이 낮은 음성들은 사전에 걸러지게 되고, 예약어의 가능성이 높은 예약어 후보에 대응하는 음성에 대해서만 구체적이고, 심층적인 제2음성 인식을 수행할 수 있게 된다. 이는, 제1음성 인식과, 제2음성 인식 각각에 대한 역할 분담을 가능하게 하는 것이며, 제1음성 인식과, 제2음성 인식 각각의 특성에 맞게끔 효율적이고 최적화된 설계가 가능해진다. 또한, 예약어에 앞서 예약어의 가능성이 높은 예약어 후보인지 여부를 사전에 판단하여 예약어의 가능성이 낮은 음성을 걸러 줌으로써, 예약어에 대한 인식 성공율을 향상시킬 수 있다. 따라서, 본 발명의 일실시예에 의한 전자장치(2)는, 음성인식의 신뢰성 향상을 위하여, 제한된 단일의 음성인식수단에 대해서 하드웨어적 성능이나, 소프트웨어적 수준을 높여야만 하는 경우와 대비하여, 비용을 최소화하면서 보다 높은 신뢰성으로 음성 인식을 수행할 수 있다.

도 2를 다시 참조하면, 제1음성인식부(22)는, 에너지 특징, 음성 특징 및 예약어와의 유사 여부 중 적어도 하나에 기초하여, 음성수신부(21)에 의해 수신된 음성이 예약어 후보에 해당하는지 여부를 판단할 수 있다. 예컨대, 제1음성인식부(22)는, 음성의 에너지 특징에 기초하여 수신된 모든 음성(31) 중에서 레벨이 큰 음성(32)을 판별할 수 있다. 또한, 제1음성인식부(22)는, 동물 내지 사람의 음성 특징에 기초하여, 모든 음성(31) 혹은 레벨이 큰 음성(32) 중에서 동물의 음성(33)과, 사람의 음성(34)을 판별할 수 있다. 또한, 제1음성인식부(22)는, 미리 정해진 예약어와의 유사 여부에 기초하여, 모든 음성(31), 레벨이 큰 음성(32), 동물의 음성(33) 혹은 사람의 음성(34) 중에서 예약어 후보(35)를 판별할 수 있다.

제1음성인식부(22)는, 수신된 음성의 구간을 판단하여 해당 음성의 에너지 특징 또는 음성 특징을 검출할 수 있다. 제1음성인식부(22)는, 음성의 시간 영역 또는 주파수 영역에서 해당 음성의 에너지 특징 또는 음성 특징을 판단할 수 있다. 제1음성인식부(22)는, 수신된 음성의 특정 에너지 레벨 조건을 기준으로 해당 음성의 에너지 특징을 검출할 수 있다. 제1음성인식부(22)는, 수신된 음성의 특정 크기(dB)를 임계점으로 하여 해당 음성의 에너지 특징을 판단할 수 있다. 또는, 제1음성인식부(22)는, 수신된 음성의 크기와, 기준 음성의 크기 간 상대적 비율로 에너지 특징을 판단할 수도 있다. 또는, 제1음성인식부(22)는, 수신된 음성에 대한 판단 구간의 유지 시간으로 에너지 특징을 판단할 수도 있다.

제1음성인식부(22)는, 수신된 음성의 제로 크로싱 비율(Zero Crossing Rate)에 기초하여 동물 또는 사람의 음성 특징을 판단할 수 있다. 제1음성인식부(22)는, 평균 무음 구간 레벨 기준으로 +/- 교차된 횟수로 수신된 음성의 제로 크로싱 비율을 결정할 수 있다. 또는, 제1음성인식부(22)는, 주파수 영역에서의 입력 신호 분포의 기울기, 즉, 공간 평탄도(Spectral Flatness)에 기초하여 수신된 음성의 특징을 판단할 수 있다. 또는, 제1음성인식부(22)는, 발화/잡음(Speech/Noise)에 대한 확률 모델 기반, 즉, 발화 존재 가능성(Speech Presence Probability)에 기초하여 수신된 음성의 특징을 판단할 수 있다.

제1음성인식부(22)는, 수신된 음성이 미리 정해진 예약어와 유사한지 여부에 기초하여 예약어 후보인지 여부를 판단할 수 있다. 제1음성인식부(22)는 전자장치(2)를 제어할 수 있는 복수의 명령어 중에서 선택된 일부 명령어에 대응하는 예약어와의 유사 여부를 판단할 수 있다. 제1음성인식부(22)는 제2음성인식부(23)의 제2음성 인식과 대비하여 상대적으로 경량화된 모델 혹은 계층화(Classification) 기반으로 예약어와의 유사 여부를 판단할 수 있다.

제1음성인식부(22)는, 에너지 특징, 사람의 음성 특징 및 예약어와의 유사 여부 중 현재의 상황에 따라 선택된 적어도 하나에 기초하여 수신된 음성이 예약어 후보인지 여부를 판단할 수 있다. 도 5는 본 발명의 일실시예에 의한 제1음성인식부(22)의 구성의 예들을 도시한 블록도이다. 도 5에 도시된 바와 같이, 제1음성인식부(22)는, 에너지 특징, 사람의 음성 특징 및 예약어와의 유사 여부 중 어느 하나만을 이용하여 수신된 음성이 예약어 후보인지 여부를 판단할 수 있다(도 5의 (a), (b) 및 (c) 참조). 혹은, 제1음성인식부(22)는, 에너지 특징, 사람의 음성 특징 및 예약어와의 유사 여부 중 선택된 2개를 순차 조합한 형태로 이용하여 수신된 음성이 예약어 후보인지 여부를 판단할 수 있다(도 5의 (d), (e) 및 (f) 참조). 혹은, 제1음성인식부(22)는, 에너지 특징, 사람의 음성 특징 및 예약어와의 유사 여부 모두를 순차 조합한 형태로 이용하여 수신된 음성이 예약어 후보인지 여부를 판단할 수 있다(도 5의 (g) 참조).

에너지 특징의 경우, 적은 알고리즘 계산량이 요구되는 특성이 있는 반면, 신뢰성이 상대적으로 낮은 특성이 있다. 음성 특징의 경우, 에너지 특징에 비하여, 알고리즘 계산량과, 신뢰성은 상대적으로 높은 특성이 있다. 예약어와의 유사 여부의 경우는, 에너지 특징 및 음성 특징에 비하여, 알고리즘 계산량과, 신뢰성은 상대적으로 가장 높으나, 전력 소비가 상대적으로 큰 특성이 있다. 에너지 특징, 사람의 음성 특징 및 예약어와의 유사 여부 중 어느 것을 선택할 것인지는, 에너지 특징, 사람의 음성 특징 및 예약어와의 유사 여부 각각의 특성을 고려하여, 전자장치(2)의 상태, 주위의 환경 또는 사용자의 요청 등에 따라 결정될 수 있다. 도 6은 본 발명의 일실시예에 의한 전자장치(2)의 동작의 다른 예를 도시하는 흐름도이다. 동작 S61에서, 전자장치(2)는, 현재의 상황을 판단한다. 다음으로, 동작 S62에서, 전자장치(2)는, 판단된 현재의 상황에 따라 에너지 특징, 사람의 음성 특징 및 예약어와의 유사 여부 중 현재의 상황에 대응하는 적어도 하나를 선택할 수 있다. 전자장치(2)는, 적어도 하나의 센서, 예컨대, 마이크, 카메라, 동작센서, 압력센서, 온도센서 또는 외부장치로부터 현재의 상황을 나타내는 정보를 수집하고, 수집된 정보에 기초하여 에너지 특징, 사람의 음성 특징 및 예약어와의 유사 여부 중 현재의 상황에 대응하는 적어도 하나를 선택할 수 있다. 다음으로, 동작 S63에서, 전자장치(2)의 제1음성인식부(22)는, 에너지 특징, 사람의 음성 특징 및 예약어와의 유사 여부 중 선택된 적어도 하나에 기초하여 수신된 음성이 예약어 후보인지 여부를 판단할 수 있다.

전자장치(2)가 대기모드인 경우, 제1음성인식부(22)는 전원이 공급되는 정상상태를 유지하도록 하는 한편, 제2음성인식부(23) 및 동작수행부(24)는 전원 공급이 차단되는 절전상태가 되도록 할 수 있다. 제1음성인식부(22)는 대기모드 시 정상적으로 동작하여, 수신된 음성이 예약어 후보인지 여부를 판단할 수 있다. 제2음성인식부(23)는 대기모드 시 절전상태로 있다가, 수신된 음성이 제1음성인식부(22)에 의해 예약어 후보인 것으로 판단되면, 절전상태로부터 전원이 공급되는 정상상태가 되며, 제2음성 인식을 수행할 수 있다. 다른 실시예로서, 제2음성인식부(23)는 전원은 공급되나 전력 소모 수준이 소정치 미만이 되는 절전상태가 될 수도 있다.

따라서, 전자장치(2)가 대기모드인 경우, 제1음성인식부(22)가 제1음성 인식을 수행하는 동안, 제2음성인식부(23)를 절전상태로 만들 수 있으므로, 대기모드 시 음성 인식은 수행하면서도 전자장치(2)의 전력 소모를 최소화시킬 수 있다. 한편, 동작수행부(24)는 수신된 음성이 제2음성인식부(23)에 의해 예약어인 것으로 판단되면, 절전상태로부터 정상상태가 되어 예약어에 대응하는 동작을 수행할 수 있다. 이에 따라, 대기모드 등의 경우 음성 인식은 수행하면서도 전자장치(2)의 전력 소모를 보다 저감시킬 수 있다.

본 발명의 일실시예에 의한 전자장치(2)는 TV와 같은 디스플레이장치로 구현될 수 있다. 도 7은 본 발명의 일실시예에 의한 디스플레이장치의 구성을 도시한 블록도이다. 디스플레이장치(7)는 음성수신부(75), 제1음성인식부(76), 제2음성인식부(77), 동작수행부(71), 입력수신부(input receiver; 72), 부제어부(sub controller; 73) 및 전원공급부(power supply; 74)를 포함할 수 있다. 도 7에 도시된 음성수신부(75), 제1음성인식부(76) 및 제2음성인식부(77)는 특별한 다른 설명이 없으면 도 2 내지 도 6을 참조하여 설명한 음성수신부(21), 제1음성인식부(22) 및 제2음성인식부(23)와 동일 내지 유사한 구성을 가진다. 동작수행부(71)는 도 7에 도시된 바와 같이, 신호수신부(signal receiver; 711), 신호처리부(signal processor; 712), 디스플레이부(display; 713), 음성출력부(sound output; 714), 저장부(storage; 715), 통신부(communicator; 717) 및 주제어부(716)를 포함할 수 있다. 다만, 도 7에 도시된 디스플레이장치(7)의 구성은 하나의 실시예에 불과하며, 경우에 따라서는 이와 다르게 구성될 수도 있다. 즉, 도시되지는 않았으나, 도 7에 도시된 디스플레이장치(7)의 구성 중 적어도 어느 하나가 배제되거나, 새로운 구성이 추가될 수도 있다.

신호수신부(711)는 영상, 음성 및 데이터 중 적어도 하나가 포함된 신호를 수신한다. 신호수신부(711)는 튜너부를 구비하여 방송신호와 같은 신호를 수신할 수 있다. 튜너부는 주제어부(716)의 제어에 따라 복수의 채널 중 선택된 어느 하나의 채널의 신호를 튜닝하여 수신할 수 있다. 채널의 선택은 사용자에 의해 이루어질 수 있다. 입력수신부(72)는, 사용자의 입력을 수신할 수 있다. 입력수신부(72)는 채널의 선택에 관한 사용자의 입력을 수신하여 주제어부(716)로 전달한다. 입력수신부(72)는 디스플레이장치(7)에 마련되는 조작패널을 구비하여 사용자의 입력을 수신하거나, 리모컨신호수신부를 포함하여, 리모컨으로부터 사용자의 입력이 포함된 리모컨신호를 수신할 수 있다. 다른 실시예로서, 입력수신부(72)는 카메라와 같은 이미지수신부를 포함하고, 사용자의 입력으로서 제스처와 같은 동작을 촬상한 이미지를 수신할 수도 있다. 신호수신부(711)는, 다른 실시예로서, 셋탑박스, DVD 등과 같은 영상기기 혹은 PC와 같은 사용자단말기로부터 신호를 수신할 수도 있다.

신호처리부(712)는 수신되는 신호에 대하여 영상처리, 음성처리 혹은 데이터처리를 수행하여 디스플레이부(713)에 영상 및/또는 정보가 표시되도록 하거나, 음성출력부(714)를 통하여 음성이 출력되도록 한다. 신호처리부(712)는 수신되는 신호에 대하여, 예컨대, 모듈레이션, 디모듈레이션, 멀티플렉싱, 디멀티플렉싱, 아날로그-디지털변환, 디지털-아날로그변환, 디코딩, 인코딩, 이미지인핸스먼트, 스케일링 등의 영상처리를 수행할 수 있다.

디스플레이부(713)는 신호처리부(712)에 의해 처리되는 신호에 기초하여 영상 및/또는 정보를 표시한다. 디스플레이부(713)는 LCD, PDP, OLED 등 다양한 방식으로 영상을 표시할 수 있다. 음성출력부(714)는 스피커를 포함할 수 있으며, 신호처리부(712)에 의해 처리되는 신호에 기초하여 음성을 출력한다. 저장부(715)는 플래시메모리, 하드디스크 등과 같은 비휘발성의 메모리로 구현되며, 디스플레이장치(7)의 동작에 필요한 프로그램, 정보 및 데이터를 저장한다. 통신부(717)는 유선 혹은 무선 네트워크를 통하여 외부장치와의 통신을 수행하여, 외부장치와 디스플레이장치(7)의 동작에 필요한 정보 및/또는 데이터를 주고 받는다. 통신부(717)는 인터넷과 같은 네트워크를 통하여 서버로부터 영상 등이 포함된 신호를 수신하거나, 혹은, 로컬 무선 네트워크를 통하여 주변의 랩탑PC, 스마트폰, 스마트패드 등으로부터 영상 등이 포함된 신호를 수신할 수 있다. 통신부(717)를 통하여 수신된 신호는 신호처리부(712)에 의해 처리될 수 있다.

주제어부(716)는 미리 설정된 정보에 따라, 혹은 입력수신부(72)나 음성수신부(75)를 통하여 입력되는 사용자의 명령에 따라, 디스플레이장치(7)가 동작을 수행하도록 제어한다. 예컨대, 주제어부(716)는 사용자가 선국한 채널의 신호에 기초하여 영상이 표시되도록 신호수신부(711) 및 신호처리부(712)를 제어할 수 있다. 주제어부(716)는 이와 같은 제어의 수행을 위한 제어프로그램과, 제어프로그램의 전부 또는 일부가 저장되는 비휘발성의 메모리 및 휘발성의 메모리와, 제어프로그램을 실행하는 마이크로프로세서를 포함할 수 있다.

전원공급부(74)는 음성수신부(75), 제1음성인식부(76), 제2음성인식부(77), 입력수신부(72), 부제어부(73) 및 동작수행부(71)가 동작할 수 있도록 전원을 공급한다. 전원공급부(74)는 AC전원을 입력 받아 소정 레벨의 DC전압을 출력하며, AC-DC컨버터, DC-DC컨버터 등을 포함할 수 있다.

부제어부(73)는 주제어부(716)를 보조하여 디스플레이장치(7)가 동작하도록 제어를 수행한다. 예컨대, 대기모드 시, 동작수행부(71) 및 제2음성인식부(77)는 절전상태(혹은 슬립상태)가 될 수 있다. 부제어부(73)는 대기모드 중에 동작수행부(71) 등이 깨어나야 하는 이벤트가 발생하는지를 판단하고, 해당 이벤트가 발생하면 동작수행부(71) 등을 깨어나도록 하여, 즉, 절전상태로부터 정상상태가 되도록 하여, 동작수행부(71) 등이 발생한 이벤트에 대응하는 동작을 수행하도록 제어한다. 대기모드 시 발생한 이벤트는, 음성수신부(75)를 통하여 수신되는 음성일 수 있다. 혹은, 대기모드 시 발생한 이벤트는, 입력수신부(72)를 통하여 수신되는 사용자의 입력을 포함할 수도 있다. 부제어부(73)는 대기모드 시 발생한 이벤트가 동작수행부(71)가 수행하는 어떠한 동작에 해당하는지를 판단하는 동작판단부(732)를 포함할 수 있다. 또한, 부제어부(73)는 대기모드 시 발생한 이벤트에 따라 전원공급부(74)를 제어하여 동작수행부(71) 등에 전원을 공급하거나 전원을 차단하도록 하는 전원제어부(731)를 포함할 수 있다.

도 8은 본 발명의 일실시예에 의한 디스플레이장치(7)의 대기모드 시 동작을 나타낸다. 도 8에 도시된 디스플레이장치(7)는 단계적인 전원상태(811 내지 81n)를 가진다. 즉, 디스플레이장치(7)는 전력 소비가 가작 적은 '전원상태1'(811)에서부터 전력 소비가 가장 큰 '전원상태n'(81n)을 가질 수 있다. 한편, 동작수행부(73)는 '동작수행부1'(861) 내지 '동작수행부n'(86n)을 가진다. '동작수행부1'(861) 내지 '동작수행부n'(86n)는 도 7에 도시된 동작수행부(73)에 포함된 신호수신부(711) 등을 각각 나타낸다. '동작수행부1'(861) 내지 '동작수행부n'(86n)가 순차적으로 절전상태로부터 정상상태가 되면서, '전원상태1'(811)에서 '전원상태n'(81n)으로 단계적으로 전환될 수 있다.

먼저 대기모드 시, '전원상태2'(812)에서, 제2음성인식부(77)는 절전상태에 있는 것으로 한다. 이 때, 음성수신부(75)가 음성을 수신한다(82). 다음으로, 제1음성인식부(76)는 음성수신부(75)에 의해 수신된 음성이 예약어 후보인지 여부를 판단한다(83). 예약어 후보는 디스플레이장치(7)의 전원이 켜지도록 하는 예약어, 예컨대, 'Hi, TV 전원 켜기'에 대응할 수 있다. 만일, 음성수신부(75)에 의해 수신된 음성이 예약어 후보인 것으로 판단되면(84, Yes), 전원제어부(731)는 전원공급부(74)를 제어하여 제2음성인식부(77)가 절전상태로부터 정상상태가 되도록 할 수 있다(851). 다음으로, 제2음성인식부(77)는 음성수신부(75)에 의해 수신된 음성이 미리 정해진 예약어인지 여부를 판단한다(87). 만일, 음성수신부(75)에 의해 수신된 음성이 미리 정해진 예약어인 것으로 판단되면(88, Yes), 동작판단부(732)는 해당 예약어에 대응하는 '동작수행부3'(863)를 결정하고(89), 전원제어부(731)는 전원공급부(74)를 제어하여, 결정된 '동작수행부3'(863)가 절전상태로부터 정상상태가 되어 해당 예약어에 대응하는 동작을 수행하도록 한다(852). 예컨대, 예약어, 'Hi, TV 전원 켜기'인 경우, 부제어부(73)는 주제어부(716) 등을 절전상태로부터 정상상태가 되도록 하며, 주제어부(716) 등은 초기 동작을 수행하여 디스플레이장치(7)는 사용자가 사용할 준비가 된다.

다른 실시예로서, 예약어가 '뉴스 요약'인 경우, 부제어부(73)는 주제어부(716) 외에 신호수신부(711) 혹은 통신부(717)와, 신호처리부(712) 음성출력부(714)를 절전상태로부터 정상상태가 되도록 한다. 신호수신부(711) 혹은 통신부(717)는 뉴스 요약에 관한 정보를 방송신호를 통하여 수신하거나 혹은 외부 서버로부터 수신한다. 신호처리부(712)는 방송신호 등을 처리하여 뉴스 요약에 관한 정보를 얻어내고, 음성출력부(714)는 뉴스 요약에 관한 정보를 음성으로 출력할 수 있다. 이 경우, 디스플레이부(713) 등은 계속하여 절전상태를 유지할 수 있다. 또 다른 실시예로서, 예약어가 '날씨 요약'인 경우, '뉴스 요약'의 경우와 비슷한 방법으로, 대응하는 동작수행부(71)의 구성을 절전상태로부터 정상상태로 되도록 하여 날씨 요약에 관한 정보를 출력하도록 하거나, 또 다른 예로서 예약어가 '약속 시간'의 경우 사용자가 미리 설정해 둔 약속 시간에 관한 정보를 출력하도록 할 수 있다.

이와 같이, 본 발명의 일실시예에 의한 디스플레이장치(7)에 따르면, 대기모드에서 절전상태에 있는 동작수행부(71)의 복수의 구성 중에서 예약어에 해당하는 일부의 구성만을 정상상태로 동작시키고, 나머지 구성들은 계속하여 절전상태를 유지시킬 수 있으므로, 불필요한 전력 소비를 최소화시킬 수 있다.

디스플레이장치(7)의 제1음성인식부(76)는 상황에 따라 예약어 후보를 달리하여 음성 인식을 수행할 수 있다. 도 9는 본 발명의 일실시예에 의한 디스플레이장치(7)의 동작을 도시한 흐름도이다. 먼저, 동작 S91에서, 디스플레이장치(7)는 현재의 동작모드를 판단한다. 예컨대, 동작모드는 대기모드, 정상모드 등을 포함한다. 다음으로, 현재의 동작모드가 제1동작모드에 해당하는 경우(S92의 Yes), 동작 S93에서, 디스플레이장치(7)의 제1음성인식부(76)는 수신된 음성이 제1예약어에 대응하는 예약어 후보인지 여부를 판단한다. 예컨대 제1동작모드가 대기모드인 경우, 제1음성인식부(76)는 수신된 음성이 'Hi, TV 전원 켜기'와 같은 제1예약어에 대응하는 예약어 후보인지 여부를 판단한다. 만일, 현재의 동작모드가 제1동작모드에 해당하지 않는 경우(S92의 Yes), 동작 S94에서, 디스플레이장치(7)는 현재의 동작모드가 제2동작모드에 해당하는지 여부를 판단한다. 현재의 동작모드가 제2동작모드에 해당하는 경우(S94의 Yes), 동작 S95에서, 제1음성인식부(76)는 수신된 음성이 제2예약어에 대응하는 예약어 후보인지 여부를 판단한다. 예컨대 제2동작모드가 정상모드인 경우, 제1음성인식부(76)는 수신된 음성이 '채널 올려', '채널 내려', '볼륨 올려', '볼륨 내려'와 같은 제2예약어에 대응하는 예약어 후보인지 여부를 판단한다. 제2예약어에 해당하는 명령어의 개수는, 제1예약어에 해당하는 명령어의 개수보다 많을 수 있다. 즉, 대기모드 등의 경우에는, 소수의 제1예약어만으로 음성 인식이 이루어지도록 하여, 제1음성인식부(76)를 이용하여 제1예약어의 가능성이 낮은 음성은 차단함으로써, 절전상태에 있던 제2음성인식부(77)나, 동작수행부(71)가 불필요하게 동작하지 않도록 할 수 있다. 한편, 정상모드 등의 경우에는, 통상적으로 이용되는 다양한 제2예약어에 대한 음성 인식을 수행하도록 하여, 제1음성인식부(76)가 제2예약어의 가능성이 높은 음성을 인식하여 예약어 후보로 판단된 음성을 제2음성인식부(77)로 원활히 전달할 수 있도록 한다.

이상, 바람직한 실시예를 통하여 본 발명에 관하여 상세히 설명하였으나, 본 발명은 이에 한정되는 것은 아니며 특허청구범위 내에서 다양하게 실시될 수 있다.

2: 전자장치
21: 음성수신부
22: 제1음성인식부
23: 제2음성인식부
24; 동작수행부
7: 디스플레이장치

Claims

디스플레이장치에 있어서,
방송신호를 수신하는 신호수신부와;
상기 수신된 방송신호에 기초하여 영상을 표시하는 디스플레이부와;
사용자가 발화하는 음성을 수신하는 음성수신부와;
상기 디스플레이장치가 정상모드 또는 대기모드 시에 전원이 공급되며, 상기 대기모드 시에 상기 음성수신부에 의해 수신된 음성이 상기 디스플레이장치가 미리 정해진 제1동작을 수행할 것을 명령하는 제1예약어에 해당할 가능성이 높은 제1예약어 후보인지 여부를 판단하고, 상기 정상모드 시에 상기 수신된 음성이 상기 제1동작과 상이한 제2동작을 수행할 것을 명령하는 제2예약어에 해당할 가능성이 높은 제2예약어 후보인지 여부를 판단하는 제1음성인식부와;
상기 정상모드 시 전원이 공급되고 상기 대기모드 시 전원 공급이 차단되며, 상기 대기모드 시 상기 수신된 음성이 상기 제1예약어 후보인 것으로 판단되면 전원이 공급되어 상기 수신된 음성이 상기 제1예약어인지 여부를 판단하고, 상기 정상모드 시 상기 수신된 음성이 상기 제2예약어 후보인 것으로 판단되면 상기 수신된 음성이 상기 제2예약어인지 여부를 판단하는 제2음성인식부와;
상기 수신된 음성이 상기 제1예약어 또는 상기 제2예약어로 판단되는 것에 기초하여, 상기 제1동작 또는 상기 제2동작이 수행되도록 제어하는 제어부를 포함하는 디스플레이장치.
제1항에 있어서,
상기 제1음성인식부는, 상기 수신된 음성의 레벨을 포함하는 에너지 특징에 기초하여 상기 수신된 음성이 상기 제1예약어 후보 또는 상기 제2예약어 후보인지 여부를 판단하는 디스플레이장치.
제1항에 있어서,
상기 제1음성인식부는, 상기 수신된 음성의 제로크로싱 비율, 공간평탄도 및 발화존재가능성 중 적어도 하나를 포함하는 사람의 음성 특징에 기초하여 상기 수신된 음성이 상기 제1예약어 후보 또는 상기 제2예약어 후보인지 여부를 판단하는 디스플레이장치.
제1항에 있어서,
상기 제1음성인식부는, 상기 제1예약어 또는 상기 제2예약어와의 유사 여부에 기초하여 상기 수신된 음성이 상기 제1예약어 후보 또는 상기 제2예약어 후보인지 여부를 판단하는 디스플레이장치.
제1항에 있어서,
상기 제1음성인식부는, 에너지 특징, 사람의 음성 특징, 및 상기 제1예약어 또는 상기 제2예약어와의 유사 여부 중 현재의 상황에 따라 선택된 적어도 하나에 기초하여 상기 수신된 음성이 상기 제1예약어 후보 또는 상기 제2예약어 후보인지 여부를 판단하는 디스플레이장치.
제1항에 있어서,
상기 대기모드 시 상기 신호수신부 또는 상기 디스플레이부에 대한 전원 공급이 차단되며,
상기 수신된 음성이 상기 신호수신부 또는 상기 디스플레이부에 대응하는 상기 제1예약어인 것으로 판단되면, 상기 판단된 제1예약어에 대응하는 상기 신호수신부 또는 상기 디스플레이부에 전원이 공급되도록 마련되는 디스플레이장치.
삭제
제1항에 있어서,
상기 제2예약어에 대응하는 명령어의 개수는 상기 제1예약어에 대응하는 명령어의 개수보다 많은 디스플레이장치.
수신된 방송신호에 기초하여 영상을 표시하는 디스플레이장치의 제어방법에 있어서,
사용자가 발화하는 음성을 수신하는 단계와;
상기 디스플레이장치가 정상모드 또는 대기모드 시에 전원이 공급되는 제1음성인식부를 이용하여, 상기 대기모드 시에 수신된 상기 음성이 상기 디스플레이장치가 미리 정해진 제1동작을 수행할 것을 명령하는 제1예약어에 해당할 가능성이 높은 제1예약어 후보인지 여부를 판단하고, 상기 정상모드 시에 수신된 상기 음성이 상기 제1동작과 상이한 제2동작을 수행할 것을 명령하는 제2예약어에 해당할 가능성이 높은 제2예약어 후보인지 여부를 판단하는 단계와;
상기 정상모드 시 전원이 공급되고 상기 대기모드 시 전원 공급이 차단되는 제2음성인식부를 이용하여, 상기 대기모드 시 상기 음성이 상기 제1예약어 후보인 것으로 판단되면 상기 음성이 상기 제1예약어인지 여부를 판단하고, 상기 정상모드 시 상기 음성이 상기 제2예약어 후보인 것으로 판단되면 상기 음성이 상기 제2예약어인지 여부를 판단하는 단계와;
상기 수신된 음성이 상기 제1예약어 또는 상기 제2예약어로 판단되는 것에 기초하여, 상기 제1동작 또는 상기 제2동작을 수행하는 단계를 포함하는 디스플레이장치의 제어방법.
제9항에 있어서,
상기 제1예약어 후보 또는 상기 제2예약어 후보인지 여부를 판단하는 단계는, 상기 수신된 음성의 레벨을 포함하는 에너지 특징에 기초하여 판단하는 단계를 포함하는 디스플레이장치의 제어방법.
제9항에 있어서,
상기 제1예약어 후보 또는 상기 제2예약어 후보인지 여부를 판단하는 단계는, 상기 수신된 음성의 제로크로싱 비율, 공간평탄도 및 발화존재가능성 중 적어도 하나를 포함하는 사람의 음성 특징에 기초하여 판단하는 단계를 포함하는 디스플레이장치의 제어방법.
제9항에 있어서,
상기 제1예약어 후보 또는 상기 제2예약어 후보인지 여부를 판단하는 단계는, 상기 제1예약어 또는 상기 제2예약어와의 유사 여부에 기초하여 판단하는 단계를 포함하는 디스플레이장치의 제어방법.
제9항에 있어서,
상기 제1예약어 후보 또는 상기 제2예약어 후보인지 여부를 판단하는 단계는, 에너지 특징, 사람의 음성 특징, 및 상기 제1예약어 또는 상기 제2예약어와의 유사 여부 중 현재의 상황에 따라 선택된 적어도 하나에 기초하여 판단하는 단계를 포함하는 디스플레이장치의 제어방법.
제9항에 있어서,
상기 대기모드 시 상기 제1예약어에 대응하는 동작을 수행하는 동작수행부에 전원 공급을 차단하고, 상기 수신된 음성이 상기 제1예약어인 것으로 판단되면, 상기 동작수행부에 전원을 공급하는 단계를 더 포함하는 디스플레이장치의 제어방법.
삭제
제9항에 있어서,
상기 제2예약어에 대응하는 명령어의 개수는 상기 제1예약어에 대응하는 명령어의 개수보다 많은 디스플레이장치의 제어방법.