KR102247533B1

KR102247533B1 - 음성 인식 장치 및 그 제어 방법

Info

Publication number: KR102247533B1
Application number: KR1020140097098A
Authority: KR
Inventors: 최성욱; 황성필; 유지원
Original assignee: 삼성전자주식회사
Priority date: 2014-07-30
Filing date: 2014-07-30
Publication date: 2021-05-03
Also published as: KR20160014926A; US9524714B2; US20160034458A1

Abstract

음성 인식 제어 방법이 개시된다. 음성 인식 제어 방법은, 웹 페이지가 선택되면, 상기 웹 페이지를 크롤링(crawling)하여 이슈성 키워드를 추출하는 단계, 복수의 어휘가 등록된 어휘 사전에 상기 이슈성 키워드를 추가하여 상기 어휘 사전을 업데이트하는 단계, 사용자의 발화 음성이 입력되면, 상기 업데이트된 어휘 사전에 기초하여 상기 발화 음성을 인식하는 단계 및 상기 인식 결과에 따라 검색을 수행하여, 검색 결과를 디스플레이하는 단계를 포함한다.

Description

음성 인식 장치 및 그 제어 방법 { SPEECH RECOGNITION APPARATUS AND METHOD THEREOF}

본 발명은 음성 인식 장치 및 그 제어 방법에 관한 것으로서 보다 상세하게는, 사용자가 발화한 음성을 인식하는 음성 인식 장치 및 그 제어 방법에 관한 것이다.

사용자가 발화한 음성을 인식하는 음성 인식 기능을 갖는 전자기기의 사용이 점차 늘어나고 있다. 음성 인식 기술은 사용자가 발화한 음성을 집음하여 획득한 음성 신호를 소정 언어에 대응되는 신호로 인식하는 기술로 다양한 분야에 활용될 수 있다. 특히, 음성 인식 기술은 손가락 등을 통해 특정 버튼을 누르는 등의 종래의 입력 방식에 비해 간편하므로, 종래의 입력 방식을 대체하는 수단으로 PC, 이동통신기기뿐만 아니라 디지털 TV, 에어컨, 홈시어터 등과 같은 다양한 전자기기에서도 적극적으로 사용되는 추세이다. 예를 들어, TV에서 'ABC'라는 프로그램을 시청하고 싶다면, 'ABC 틀어줘'와 같이 프로그램명을 음성으로 입력하고, TV 내의 음성 인식 모듈을 통해 TV가 사용자의 음성 신호를 인식하여 'ABC'라는 프로그램이 방영되는 채널로 채널 조정을 수행할 수 있다.

한편, 기존의 음성 인식 기술에서는, 사용자가 발화한 음성을 신속하게 인식하기 위하여, 음성 인식을 위해 인식할 어휘 및 미리 정해진 발음열 생성 규칙에 따라 생성된 어휘의 발음열이 등록된 어휘 사전 등을 이용하고 있다. 그러나, 날마다 새로운 어휘들이 생성되고 있으며, 이에 따라 새로운 어휘에 대해서는 음성 인식률의 저하가 일어날 수 밖에 없다. 특히, 새롭게 생성되는 어휘들은 최근에 이슈가 되는 키워드일 가능성이 높으며, 이슈가 되는 키워드는 사용자의 관심 영역에 있을 확률이 높다. 그러나, 기존의 음성 인식 기술은, 이슈가 되는 키워드를 어휘 사전에 일일히 등록하는 데에 어려움이 있고, 이에 따라, 음성 인식 장치의 음성 인식률을 일정 수준으로 높이는 데에는 한계가 있었다.

따라서, 이슈가 되는 키워드들을 자동적으로 학습하여 음성 인식률을 높이기 위한 방안의 모색이 요청된다.

본 발명은 상술한 문제점을 해결하기 위해 안출된 것으로, 본 발명의 목적은 웹 크롤링(web crawling)을 이용하여 웹 페이지로부터 이슈성 키워드를 추출하고, 추출된 이슈성 키워드를 어휘 사전에 자동적으로 추가하여 어휘 사전을 업데이트할 수 있는 음성 인식 장치 및 그 제어 방법을 제공함에 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시 예에 따른, 음성 인식 제어 방법은, 웹 페이지를 크롤링하여 이슈성 키워드를 추출하는 단계, 복수의 어휘가 등록된 어휘 사전에 이슈성 키워드를 추가하여 어휘 사전을 업데이트하는 단계, 사용자의 발화 음성이 입력되면, 업데이트된 어휘 사전에 기초하여 발화 음성을 인식하는 단계 및, 인식 결과에 따라 검색을 수행하여 검색 결과를 디스플레이하는 단계를 포함한다.

또한, 이슈성 키워드를 추출하는 단계는, 웹 페이지에 포함된 텍스트들을 검출하는 단계, 검출된 텍스트들의 출현 빈도를 카운팅하는 단계 및, 출현 빈도가 기 설정된 임계치 이상인 텍스트를 이슈성 키워드로 추출하는 단계를 포함할 수 있다.

또한, 이슈성 키워드를 추출하는 단계는, 웹 페이지에 포함된 텍스트들을 검출하는 단계 및, 검출된 텍스트들 중에서 어휘 사전이 미등록된 텍스트를 이슈성 키워드로 추출하는 단계를 포함할 수 있다.

또한, 이슈성 키워드를 추출하는 단계는, 웹 페이지의 전체 레이아웃 상에서 기 설정된 위치에 배치된 텍스트를 이슈성 키워드로 추출할 수 있다.

또한, 어휘 사전을 업데이트하는 단계는, 추출된 이슈성 키워드에 대하여 기 설정된 조건에 따라 가중치를 부여하는 단계, 부여된 가중치에 따라 추출된 이슈성 키워드의 검색 우선 순위를 산정하는 단계 및, 검색 우선 순위에 기초하여 추출된 이슈성 키워드를 어휘 사전에 추가 등록하는 단계를 포함할 수 있다.

또한, 어휘 사전을 업데이트하는 단계는, 추출된 이슈성 키워드를 카테고리별로 분류하여 저장하고, 사용자의 발화 음성을 인식하는 단계는, 발화 음성을 분석하여 발화 음성에 대응되는 카테고리로 분류된 이슈성 키워드 중에서 발화 음성에 대응되는 어휘를 검색하는 단계를 포함할 수 있다.

또한, 이슈성 키워드를 추출하는 단계는, 기 설정된 주기마다 웹 페이지를 자동으로 크롤링하여 새로운 이슈성 키워드를 추출할 수 있다.

또한, 사용자의 발화 음성을 인식하는 단계는, 발화 음성에 포함된 어휘와 어휘 사전에 등록된 이슈성 키워드의 발음 유사도를 측정하는 단계, 측정된 발음 유사도가 기 설정된 값 이상인 키워드들에 대하여 각각 메타데이터 검색을 수행하는 단계 및, 메타데이터 검색 결과를 기초로 의미 분석을 수행하여 발화 음성을 인식하는 단계를 포함할 수 있다.

또한, 발화 음성에 포함된 어휘에 대한 인식 히스토리를 업데이트하는 단계를 더 포함할 수 있다.

또한, 웹 페이지를 변경하기 위한 리모컨 신호를 수신하는 단계, 리모컨 신호에 따라 웹 페이지를 변경하여 디스플레이하는 단계 및, 변경된 웹 페이지로부터 이슈성 키워드를 추출하는 단계를 더 포함할 수 있다.

한편, 본 발명의 일 실시 예에 따른 음성 인식 장치는 음성 인식에 사용되기 위한 어휘 사전이 저장된 저장부, 웹 페이지가 선택되면 웹 페이지를 제공하는 소스 장치에 액세스하여 웹 페이지 데이터를 수신하는 통신부, 웹 페이지 데이터가 수신되면 웹페이지를 크롤링하여 웹 페이지에 표시된 이슈성 키워드를 추출하고, 이슈성 키워드를 어휘 사전에 추가하여 어휘 사전을 업데이트하는 제어부를 포함한다.

또한, 제어부는, 웹 페이지에 포함된 텍스트들을 검출하고, 검출된 텍스트들의 출현 빈도를 카운팅하며, 출현 빈도가 기 설정된 임계치 이상인 텍스트를 이슈성 키워드로 추출할 수 있다.

또한, 제어부는, 웹 페이지에 포함된 텍스트들을 검출하고, 검출된 텍스트들 중에서 어휘 사전에 미등록된 텍스트를 이슈성 키워드로 추출할 수 있다.

또한, 제어부는, 웹 페이지의 전체 레이아웃 상에서 기 설정된 위치에 배치된 텍스트를 이슈성 키워드로 추출할 수 있다.

또한, 제어부는, 추출된 이슈성 키워드에 대하여 기 설정된 조건에 따라 가중치를 부여하고, 부여된 가중치에 따라 추출된 이슈성 키워드의 검색 우선 순위를 산정하고, 검색 우선 순위에 기초하여 이슈성 키워드를 어휘 사전에 추가 등록할 수 있다.

또한, 제어부는, 추출된 이슈성 키워드를 카테고리별로 분류하여 저장하고, 발화 음성을 분석하여 발화 음성에 대응되는 카테고리로 분류된 이슈성 키워드 중에서 발화 음성에 대응되는 어휘를 검색할 수 있다.

또한, 제어부는, 기 설정된 주기마다 웹 페이지를 자동으로 크롤링하여 새로운 이슈성 키워드를 추출할 수 있다.

또한, 제어부는, 발화 음성에 포함된 어휘와 어휘 사전에 등록된 이슈성 키워드의 발음 유사도를 측정하고, 측정된 발음 유사도가 기 설정된 값 이상인 키워드들에 대하여 각각 메타데이터 검색을 수행하고, 메타데이터 검색 결과를 기초로 의미 분석을 수행하여 발화 음성을 인식할 수 있다.

또한, 제어부는, 발화 음성을 인식한 후, 발화 음성에 포함된 어휘에 대한 인식 히스토리를 업데이트할 수 있다.

또한, 사용자의 발화 음성을 입력받기 위한 마이크, 리모컨 신호를 수신하기 위한 리모컨 신호 수신부 및, 디스플레이부를 더 포함하며, 제어부는, 리모컨 신호에 의해 선택된 웹 페이지를 디스플레이부에 디스플레이하고, 디스플레이부에 디스플레이된 웹 페이지로부터 이슈성 키워드를 검출하여 어휘 사전을 업데이트하고, 마이크를 통해 발화 음성이 입력되면 업데이트된 어휘 사전에 기초하여 발화 음성을 인식하고 인식 결과에 따라 검색을 수행하여 검색 결과를 디스플레이부에 디스플레이할 수 있다.

상술한 본 발명의 다양한 실시 예에 따르면, 웹 크롤링을 이용하여 웹 페이지로부터 이슈성 키워드를 추출하고, 추출된 이슈성 키워드를 어휘 사전에 자동적으로 추가하여 어휘 사전을 자동으로 업데이트할 수 있으므로, 사용자의 편이성이 향상된다.

도 1은 본 발명의 일 실시 예에 따른, 음성 인식 장치의 구성을 간략히 도시한 블럭도,
도 2는 본 발명의 일 실시 예에 따른, 음성 인식 장치의 제어 방법을 설명하기 위한 흐름도,
도 3은 본 발명의 일 실시 예에 따른, 저장부의 구성을 상세히 도시한 블럭도,
도 4는 본 발명의 일 실시 예에 따른, 크롤링을 위한 웹 페이지를 선택하는 과정을 설명하기 위한 도면,
도 5 내지 도 7은 본 발명의 다양한 실시 예에 따른, 웹 페이지를 크롤링하여 이슈성 키워드를 추출하는 방법을 설명하기 위한 도면,
도 8은 본 발명의 다른 실시 예에 따른, 음성 인식 장치의 구성을 간략히 도시한 블럭도,
도 9는 본 발명의 다른 실시 예에 따른, 음성 인식 장치의 구성을 상세히 도시한 블럭도,
도 10은 본 발명의 일 실시 예에 따른, 사용자의 발화 음성을 인식하고 검색 결과를 디스플레이하는 과정을 설명하기 위한 도면,
도 11은 본 발명의 다른 실시 예에 따른, 음성 인식 장치의 음성 인식 방법을 설명하기 위한 도면,
도 12는 본 발명의 다른 실시 예에 따른, 음성 인식 장치의 음성 인식 방법을 설명하기 위한 도면,
도 13은 본 발명의 다른 실시 예에 따른, 음성 인식 장치의 제어 방법을 설명하기 위한 흐름도,
도 14는 본 발명의 일 실시 예에 따른, 어휘 사전을 업데이트하는 방법을 설명하기 위한 흐름도이다.

이하에서는 도면을 참조하여 본 발명에 대해 상세히 설명하도록 한다.

도 1은 본 발명의 일 실시 예에 따른, 음성 인식 장치의 구성을 간략히 도시한 블럭도이다.

도 1에 따르면 본 발명의 일 실시 예에 따른 음성 인식 장치(100)는, 통신부(110), 저장부(120) 및 제어부(130)를 포함한다.

통신부(110)는 웹 페이지를 제공하는 소스 장치에 액세스하여 웹 페이지 데이터를 수신하는 구성이다. 통신부(110)는 소스 장치에 네트워크를 통해 액세스될 수 있다. 여기서 네트워크는 근거리 통신망(Local Area Network; LAN), 광역 통신망(Wide Area Network; WAN), 부가 가치 통신망(Value Added Network; VAN), 개인 근거리 무선 통신(Personal Area Network; PAN), 이동 통신망(mobile radio communication network) 또는 위성 통신망 등과 같은 모든 종류의 유무선 네트워크로 구현될 수 있다. 이에 따라, 음성 인식 장치(100)는 통신부(110)를 통해 웹 페이지를 제공하는 소스 장치와 데이터를 교환하여, 소스 장치로부터 웹 페이지를 제공받을 수 있다. 여기서 웹 페이지는, HTML(Hyper-Text Markup Language), HTM, ASP(Active Server Page), XML(Extensible Markup Language) 기반의 웹 문서를 포함할 수 있다. 소스 장치는 네트워크를 통해 음성 인식 장치(100)로 웹 페이지를 제공하는 일종의 컴퓨터이다.

저장부(120)는 음성 인식에 사용되기 위한 어휘 사전을 저장하는 구성이다. 어휘 사전이란, 복수의 어휘 및 이에 대응하는 적어도 하나 이상의 발음열을 쌍으로 하여 저장한 데이터베이스를 의미한다. 여기서, 발음열은 미리 정해진 발음열 생성 규칙에 따라 자동으로 생성되어 저장될 수 있다. 이 후에, 사용자로부터 발화된 음성이 입력되면 음성 인식 장치(100)는 어휘 사전에 저장된 발음열들을 참조하여 입력된 음성을 인식할 수 있다. 특히, 저장부(120)는 입력된 음성을 인식하기 위한 각종 모듈을 저장할 수 있다.

제어부(130)는 음성 인식 장치(100)의 전반적인 동작을 제어하는 기능을 한다.

특히, 제어부(130)는 통신부(110)가 웹 페이지 데이터를 수신하면, 웹 페이지를 크롤링(crawling)하여 웹 페이지에 표시된 이슈성 키워드(keyword)를 추출할 수 있다. 웹 크롤링(web crawling)은 정보 검색 엔진에 흔히 쓰이는 것으로, 웹 크롤러(web crawler)가 새로운 웹 페이지 또는 갱신된 웹 페이지를 수집하여 검색 대상의 색인으로 포함시키는 기술을 의미한다. 여기서 웹 크롤링의 대상이 되는 웹 페이지는 기등록되어 있거나 사용자에 의해 선택되어 등록될 수 있다. 이슈성 키워드란, 웹 페이지 내의 새로운 어휘 또는 자주 반복되는 중요한 어휘를 의미하는 것으로, 예를 들어, 최근 사회적으로 이슈가 되는 인물의 이름 또는 사건을 구성하는 핵심 단어, 조어 등이 이슈성 키워드가 될 수 있다. 이에 따라, 웹 크롤링의 대상이 되는 웹 페이지는 많은 이슈성 키워드를 추출할 수 있는 것으로 선택되는 것이 바람직하다. 예를 들어, 웹 페이지는 포털 사이트의 실시간 검색어 페이지, SNS(Social Network Service) 페이지, 방송사 편성표 페이지 또는 시청률 페이지, 언론사 뉴스 페이지, 개인 블로그 등을 포함할 수 있다.

또한, 제어부(130)는 이슈성 키워드가 추출되면, 이를 저장부(120)에 저장된 어휘 사전에 추가하여 어휘 사전을 업데이트할 수 있다. 어휘 사전에 추출된 이슈성 키워드가 추가되면, 이슈성 키워드에 대한 발음열이 미리 정해진 발음열 생성 규칙에 따라 자동으로 생성되어 저장될 수 있다. 이 후, 제어부(130)는 사용자가 발화한 음성 내에 저장된 이슈성 키워드가 포함되면, 생성된 발음열에 따라 이슈성 키워드를 빠르게 인식할 수 있다.

또한, 제어부(130)는 웹 페이지에 포함된 텍스트들을 검출하고, 검출된 텍스트들의 출현 빈도를 카운팅하여, 출현 빈도가 기 설정된 임계치 이상인 텍스트를 이슈성 키워드로 추출할 수 있다. 예를 들어, 기 설정된 임계치가 3이라면, 검출된 텍스트들을 각각 카운팅하고, 특정 텍스트가 3회 이상 출현한 경우, 그 특정 텍스트는 이슈성 키워드라고 판단될 수 있다.

또한, 제어부(130)는 웹 페이지에 포함된 텍스트들을 검출하고, 검출된 텍스트들 중에서 어휘 사전에 미등록된 텍스트를 이슈성 키워드로 추출할 수 있다. 이슈가 되는 키워드는 어휘 사전에 미등록된 경우가 많을 것이므로, 출현 빈도와 상관 없이 이를 이슈성 키워드라고 판단할 수 있다.

예를 들어, "별에서 온 당신"이라는 프로그램이 새로 방영된다고 했을 때, 이 프로그램은 "별에서 온 당신" 또는 "별당신"으로 축약하여 지칭될 수 있다. 웹 페이지 내에 "별에서 온 당신" 및 "별당신"이 포함된 경우, "별에서 온 당신" 및 "별당신"은 어휘 사전에 미등록된 텍스트이므로 이를 이슈성 키워드라고 판단될 수 있다. 따라서, 이슈성 키워드라고 판단된 "별에서 온 당신" 및 "별당신"은 어휘 사전에 추가될 수 있고, 이 후, 사용자가 "별에서 온 당신"을 포함한 음성을 발화했을 때, 제어부(130)는 어휘 사전을 통해 "별에서 온 당신"을 각 음절로 분리하지 않고 하나로 인식할 수 있다. 사용자가 "별당신"을 포함한 음성을 발화했을 때, 어휘 사전을 통해 "별당신"이 인식될 수 있는 것은 물론이다.

또한, 제어부(130)는 웹 페이지의 전체 레이아웃 상에서 기 설정된 위치에 배치된 텍스트를 이슈성 키워드로 추출할 수 있다. 즉, 제어부(130)는 미리 수신한 웹 페이지의 레이아웃 구조에 대한 정보를 이용하여, 이슈성 키워드가 추출될 수 있는 영역을 미리 한정하여 웹 크롤링을 수행할 수 있다.

또한, 제어부(130)는 추출된 이슈성 키워드에 대하여 기 설정된 조건에 따라 가중치를 부여하고, 부여된 가중치에 따라 추출된 이슈성 키워드의 검색 우선 순위를 산정할 수 있다. 여기서 기 설정된 조건은, 추출된 이슈성 키워드가 신규한지 여부, 출현 빈도의 고저, 출처가 신뢰할 만한지 여부, 인식 히스토리가 있는지 여부 등을 포함할 수 있다. 신규한지 여부는 어휘 사전에 등록되지 않은 새로운 키워드임을 의미하며 이 경우 특별히 높은 가중치를 얻게 되어 검색 우선 순위가 상위에 랭크될 수 있다. 출현 빈도는 해당 이슈성 키워드가 인용된 횟수를 나타내며, 횟수가 높을수록 가중치가 올라갈 수 있다. 출처는, 해당 이슈성 키워드를 추출한 출처가 되는 웹 페이지를 의미한다. 즉, 출처가 되는 웹 페이지가 신뢰할 만한지 여부에 따라 가중치가 다르게 부여될 수 있다. 예를 들어, 포털 사이트의 실시간 검색어 페이지, 방송사 편성표 페이지 또는 시청률 페이지, 언론사 사이트의 뉴스 웹 페이지, SNS 또는 개인 블로그 순으로 출처에 따른 가중치가 낮아지도록 설정될 수 있다. 이 때, 출처가 중복되는 경우에는, 가장 높은 출처의 가중치만 계산에 반영될 수 있다. 인식 히스토리는, 해당 이슈성 키워드가 사용자에 의해 발화된 사례가 있었는지 여부를 의미하며, 실제 메타데이터에 대한 검색 결과도 존재하는 경우 가중치가 부여될 수 있다. 또한, 제어부(130)는 사용자 정보를 분석하여 사용자와 이슈성 키워드의 관련도에 따라 가중치를 부여할 수도 있을 것이다. 사용자 정보란, 사용자의 성별, 나이, 직업, 관심사 등의 정보를 포함하는 정보로 저장부(120)에 기저장되어 있거나 외부 서버로부터 수신될 수 있다. 일반적으로 관련도가 높을 수록 가중치를 높게 부여할 수 있다.

이 후, 제어부(130)는 부여된 검색 우선 순위에 기초하여 이슈성 키워드를 어휘 사전에 추가로 등록할 수 있다. 즉, 이슈성 키워드는 각각 가중치가 부여되어 검색 우선 순위 순으로 등록될 수 있다. 이에 따라, 사용자 발화한 어휘와 유사한 발음을 가진 이슈성 키워드가 등록되어 있는 경우, 이 중 가중치가 더 높은 이슈성 키워드가 사용자가 발화한 어휘로 인식될 수 있다.

또한, 제어부(130)는 추출된 이슈성 키워드를 카테고리별로 분류하여 저장할 수 있다. 제어부(130)는 이슈성 키워드를 포함하는 문장의 내용 및 구조, 웹 페이지의 레이아웃 등을 분석하여 추출된 이슈성 키워드의 카테고리를 판단할 수 있다. 예를 들어, 웹 페이지 내에 "ABC 2회가 방송됩니다"라는 문장이 있는 경우, 제어부(130)는 기저장되어 있는 문장 내 "2회", "방송"이라는 단어 및 문장의 구조에 대한 정보를 이용하여 ABC가 방송 프로그램이라는 카테고리를 가졌다고 판단할 수 있다. 이에 따라 ABC는 방송 프로그램이라는 카테고리로 분류되어 저장될 수 있다. 이후, 사용자 발화 음성을 동일한 방법으로 분석하여 발화 음성에 대응되는 카테고리를 판단하고, 동일한 카테고리로 분류된 이슈성 키워드 중에서 발화 음성에 대응되는 어휘를 검색할 수 있다.

또한, 제어부(130)는 기 설정된 주기마다 웹 페이지를 자동으로 크롤링하여 새로운 이슈성 키워드를 추출할 수 있다. 예를 들어, 사용자는 하루에 한번 설정된 시간이 되면, 웹 페이지를 크롤링하도록 음성 인식 장치(100)를 설정할 수 있다. 이에 따라, 제어부(130)는 기 설정된 시간마다 등록된 웹 페이지 주소에 자동 접속하여 접속된 웹 페이지에 포함된 텍스트를 크롤링할 수 있으므로, 지정된 웹 사이트의 업데이트된 내용에 포함된 새로운 이슈성 키워드를 추출하여 어휘 사전에 등록할 수 있다. 기 설정된 주기 외에도 사용자의 조작에 의해 직접 웹 페이지를 크롤링할 수 있음은 물론이다.

또한, 제어부(130)는 발화 음성에 포함된 어휘와 어휘 사전에 등록된 이슈성 키워드의 발음 유사도를 측정하고, 측정된 발음 유사도가 기 설정된 값 이상인 키워드들에 대하여 각각 메타데이터 검색을 수행할 수 있다. 메타데이터란, 대량의 정보 가운데에서 찾고 있는 정보를 효율적으로 찾아내서 이용하기 위해 일정한 규칙에 따라 컨텐츠에 부여되는 데이터이다. 이러한 메타데이터를 이용하여 원하는 특정 데이터를 검색엔진 등으로 쉽게 찾아낼 수 있다.

이 후, 제어부(130)는 메타데이터 검색 결과를 기초로 의미 분석(semantic analysis)을 수행하여 발화 음성을 인식할 수 있다. 의미 분석 방법에는 사용자가 발화한 원래의 문장 그대로를 분석하거나, 원래의 문장 전체와 비슷한 발음 유사도를 가진 컨텐츠가 있는 경우에 해당 컨텐츠에 대한 검색을 수행하거나, 사용자가 발화한 원래의 문장 중 일부에 해당되는 어휘와 기 설정된 값 이상의 발음 유사도를 가진 컨텐츠가 존재할 경우, 해당 컨텐츠명으로 어휘를 교체하여 분석하는 방법이 포함된다. 의미 분석 모듈은 각 키워드에 대한 메타데이터 검색 결과를 토대로 어떤 형태의 의미 분석 방법이 적절한지를 판단할 수 있다.

또한, 제어부(130)는 발화 음성을 인식한 후, 발화 음성에 포함된 어휘에 대한 인식 히스토리를 업데이트할 수 있다. 인식 히스토리란, 특정 어휘에 대한 총 인식 횟수를 의미하는 것으로 즉, 사용자가 많이 발화하는 어휘일수록 검색 우선 순위에 대한 가중치를 높게 부여할 수 있다.

상술한 바와 같은 본 발명의 다양한 실시 예에 의해, 사용자가 발화한 음성을 정확하고 신속하게 인식하여 사용자에게 적절한 검색 결과를 제공할 수 있게 된다.

도 2는 본 발명의 일 실시 예에 따른, 음성 인식 장치의 제어 방법을 설명하기 위한 흐름도이다.

먼저, 웹 페이지를 크롤링하여 이슈성 키워드를 추출한다(S210). 이 때, 웹 페이지는 포털 사이트의 실시간 검색어 페이지, SNS 페이지, 방송사 편성표 페이지 또는 시청률 페이지, 언론사 뉴스 페이지, 개인 블로그 등을 포함할 수 있다. 이 때, 기 설정된 주기마다 웹 페이지를 자동으로 크롤링하여 새로운 이슈성 키워드를 추출할 수 있다. 이 후, 복수의 어휘가 등록된 어휘 사전에 이슈성 키워드를 추가하여 어휘 사전을 업데이트한다(S220). 이 때, 이슈성 키워드가 추가되면 이슈성 키워드에 대한 발음열이 미리 정해진 발음열 생성 규칙에 따라 자동으로 생성되어 저장될 수 있다. 이 때, 추출된 이슈성 키워드에 대하여 기 설정된 조건에 따라 가중치를 부여하여 검색 우선 순위를 산정할 수 있다. 여기서 기 설정된 조건은 추출된 이슈성 키워드가 신규한지 여부, 출현 빈도의 고저, 출처가 신뢰할 만한지 여부, 인식 히스토리가 있는지 여부 등을 포함할 수 있다. 일반적으로 추출된 이슈성 키워드가 신규할수록, 출현 빈도가 높을수록, 출처의 신뢰도가 높을수록, 인식 히스토리가 많을 수록 가중치를 높게 부여할 수 있다. 이 때, 추출된 이슈성 키워드는 카테고리별로 분류되어 저장될 수 있다. 이 후, 사용자의 발화 음성이 입력되면, 업데이트된 어휘 사전에 기초하여 발화 음성을 인식한다(S230). 이 때, 발화 음성을 분석하여 발화 음성에 대응되는 카테고리로 분류된 이슈성 키워드 중에서 발화 음성에 대응되는 어휘를 검색할 수 있다. 이 때, 발화 음성에 포함된 어휘에 대한 인식 히스토리를 업데이트할 수 있다. 이 후, 발화 음성의 인식 결과에 따라 검색을 수행하여 검색 결과를 디스플레이한다(S240).

도 3은 본 발명의 일 실시 예에 따른, 저장부의 구성을 상세히 도시한 블럭도이다.

도 3에 따르면, 저장부(120)에는 베이스 모듈(121), 음성 인식 모듈(122), 센싱 모듈(123), 통신 모듈(124), 프리젠테이션 모듈(125), 웹 브라우저 모듈(126), 서비스 모듈(127)을 포함하는 소프트웨어가 저장될 수 있다.

베이스 모듈(121)이란 음성 인식 장치(100)에 포함된 각 하드웨어들로부터 전달되는 신호를 처리하여 상위 레이어 모듈로 전달하는 기초 모듈을 의미한다. 베이스 모듈(121)은 스토리지 모듈(121-1), 보안 모듈(121-2) 및 네트워크 모듈(121-3) 등을 포함한다. 스토리지 모듈(121-1)이란 데이터베이스(DB)나 레지스트리를 관리하는 프로그램 모듈이다. 보안 모듈(121-2)이란 하드웨어에 대한 인증(Certification), 요청 허용(Permission), 보안 저장(Secure Storage) 등을 지원하는 프로그램 모듈이고, 네트워크 모듈(121-3)이란 네트워크 연결을 지원하기 위한 모듈로 DNET 모듈, UPnP 모듈 등을 포함한다.

음성 인식 모듈(122)은 사용자의 발화 음성을 인식하기 위한 모듈을 의미한다. 음성 인식 모듈(122)은 웹 크롤링 모듈(122-1), 어휘 후보 인식 모듈(122-2), 발음 유사 키워드 인식 모듈(122-3), 메타데이터 검색 모듈(122-4), 의미분석 모듈(122-5) 등을 포함한다. 웹 크롤링 모듈(122-1)이란 선택된 웹 페이지를 크롤링하여 웹 페이지에 포함된 텍스트를 검출하고 이로부터 이슈성 키워드를 추출하는 프로그램 모듈이다. 기 설정된 주기마다 웹 페이지를 자동으로 크롤링하도록 프로그래밍될 수 있다. 어휘 후보 인식 모듈(122-2)는 사용자 발화 음성을 분석하여 발화된 전체 문장 중 인식 대상이 될 어휘 부분을 검출하는 프로그램 모듈이다. 발음 유사 키워드 인식 모듈(122-3)은 사용자 발화 어휘와 어휘 사전에 등록된 이슈성 키워드의 유사도를 측정하고, 측정된 발음 유사도가 기 설정된 값 이상인 키워드를 발음 유사 키워드로 추출하는 프로그램 모듈이다. 메타데이터 검색 모듈(122-4)은 추출된 발음 유사 키워드들에 대하여 각각 메타데이터 검색을 수행하는 프로그램 모듈이다. 의미 분석 모듈(122-5)는 메타데이터 검색 결과를 기초로 의미 분석을 수행하여 발화 음성을 최종적으로 인식할 수 있는 프로그램 모듈이다. 의미 분석 모듈(122-5)은 어떤 형태의 의미 분석이 적절한지를 판단할 수 있다.

센싱 모듈(123)은 각종 센서들로부터 정보를 수집하고, 수집된 정보를 분석 및 관리하는 모듈이다.

통신 모듈(124)은 외부와 통신을 수행하기 위한 모듈이다. 통신 모듈(124)은 메시징 모듈(124-1) 및 전화 모듈(124-2)을 포함할 수 있다.

프리젠테이션 모듈(125)은 디스플레이부가 구비된 경우 디스플레이 화면을 구성하기 위한 모듈이다. 프리젠테이션 모듈(125)은 멀티미디어 컨텐츠를 재생하여 출력하기 위한 멀티미디어 모듈, UI 및 그래픽 처리를 수행하는 UI 렌더링 모듈을 포함한다.

웹 브라우저 모듈(126)은 웹 브라우징을 수행하여 웹 서버에 액세스하는 모듈을 의미한다. 웹 브라우저 모듈(126)은 웹 페이지를 구성하는 웹 뷰(web view) 모듈, 다운로드를 수행하는 다운로드 에이전트 모듈, 북마크 모듈, 웹킷(Webkit) 모듈 등과 같은 다양한 모듈을 포함할 수 있다.

서비스 모듈(127)은 다양한 서비스를 제공하기 위한 각종 어플리케이션을 포함하는 모듈이다. 구체적으로는, 서비스 모듈(127)은 SNS 프로그램, 컨텐츠 재생 프로그램, 게임 프로그램, 전자 책 프로그램, 달력 프로그램, 알람 관리 프로그램, 기타 위젯 등과 같은 다양한 프로그램 모듈을 포함할 수 있다.

도 4는 본 발명의 일 실시 예에 따른, 크롤링을 위한 웹 페이지를 선택하는 과정을 설명하기 위한 도면이다.

음성 인식 장치(100)는 인터넷(40)을 통하여 사용자가 등록한 웹 페이지(41~44)를 주기적으로 자동 크롤링할 수 있다. 사용자에 의해 웹 페이지의 URL(Uniform Resource Locator:웹 페이지 주소)이 등록되고, 음성 인식 장치(100)는 등록된 URL에 주기적으로 자동 접속하여 해당 URL의 내용을 읽어올 수 있다. 등록된 URL들 및 크롤링 주기는 저장부에 저장되어 관리될 수 있다. 이에 따라, 음성 인식 장치(100)는 자동 크롤링된 웹 페이지의 최신 업데이트된 정보까지도 탐색하여 새로운 이슈성 키워드를 추출할 수 있다.

등록 웹페이지(41~44)는, 포털 사이트의 실시간 검색어 페이지, SNS(Social Network Service) 페이지, 방송사 편성표 페이지 또는 시청률 페이지, 언론사 뉴스 페이지, 개인 블로그 등을 포함할 수 있다. 한편, 등록 웹페이지(41~44)의 레이아웃에 대한 정보는 저장부(120)에 기 저장되어 있을 수 있다. 예를 들어, 등록 웹페이지(43)가 방송 편성표가 포함된 웹 페이지인 경우, 이슈성 키워드가 추출될 관심 영역은 방송 프로그램의 제목이 표시되는 레이아웃 상의 영역일 수 있다. 음성 인식 장치(100)는 이러한 레이아웃에 대한 정보를 이용하여 방송 프로그램의 제목이 표시되는 영역에 대하여만 웹 크롤링을 수행하여 이슈성 키워드를 빠르게 추출할 수 있다. 또한, 이 경우 추출된 이슈성 키워드에 대한 카테고리는 자동적으로 방송 프로그램으로 분류될 수 있다.

한편, 상술한 실시 예에서는 설명의 편의를 위해 등록 웹 페이지가 4개인 경우를 예로 들어 설명하였지만, 등록 웹 페이지의 수는 사용자 설정에 따라 다양하게 조정될 수 있음은 물론이다.

도 5 내지 도 7은 본 발명의 다양한 실시 예에 따른, 웹 페이지를 크롤링하여 이슈성 키워드를 추출하는 방법을 설명하기 위한 도면이다.

도 5에서는 웹 페이지(41)가 언론사 뉴스 페이지인 경우 이슈성 키워드를 추출하는 방법에 대해 설명하기로 한다. 도 5에 도시된 바와 같이 음성 인식 장치(100)는 뉴스 페이지를 크롤링하여 뉴스 페이지에 포함된 전체 텍스트를 검출할 수 있다. 이 때, 음성 인식 장치(100)는 검출된 전체 텍스트들의 출현 빈도를 카운팅하여, 출현 빈도가 기 설정된 임계치 이상인 텍스트를 이슈성 키워드로 추출할 수 있다. 예를 들어, 기 설정된 임계치가 3인 경우, 도 5에서 '브라질 월드컵'의 출현 빈도는 5회(51~55)가 되므로 '브라질 월드컵'이 이슈성 키워드로 추출될 수 있다. 이에 더하여 '브라질' 및 '월드컵'이 각각 따로 이슈성 키워드로 추출될 수도 있다.

한편, 출현 빈도가 높을 수록 크게 이슈가 되는 키워드일 가능성이 높고, '브라질 월드컵'은 5회 출현하였는바, 출현 횟수 5에 대응되는 가중치가 '브라질 월드컵'에 부여될 수 있다. 이에 따라 '브라질 월드컵' 및 '브라질 월드컵'의 산정된 검색 우선 순위가 어휘 사전에 등록될 수 있다. 만일 '브라질 월드컵'이 이미 어휘 사전에 등록된 경우라면 가중치에 따라, 어휘 사전의 검색 우선 순위만 업데이트될 수 있다.

또한, 뉴스 페이지의 카테고리는 '스포츠'로 분류되어 있는바, '브라질 월드컵' 또한 동일한 카테고리를 가질 가능성이 높다. 이에 따라, '브라질 월드컵'은 카테고리가 '스포츠'로 분류되어 어휘 사전에 등록될 수 있다.

한편, 상술한 실시 예에서는 설명의 편의를 위해 하나의 웹 페이지 내에서 검출된 텍스트들의 출현 빈도를 카운팅하는 경우를 예로 들어 설명하였지만, 등록된 복수의 웹 페이지 전체에 대하여 검출된 텍스트들의 출현 빈도를 카운팅하여 이슈성 키워드를 추출할 수 있음은 물론이다.

도 6에서는 웹 페이지(42)가 SNS 사이트인 경우 이슈성 키워드를 추출하는 방법에 대해 설명하기로 한다. 도 6에 도시된 바와 같이 SNS 또는 개인 블로그의 웹 페이지에서는 사용자와 친구들 간의 대화가 댓글 형식으로 표시될 수 있다. 음성 인식 장치(100)는 SNS 페이지를 크롤링하여 SNS 페이지에 포함된 전체 텍스트를 검출할 수 있다. 이 때, 음성 인식 장치(100)는 검출된 전체 텍스트들 중에서 어휘 사전에 미등록된 텍스트를 이슈성 키워드로 추출할 수 있다. 예를 들어, 영화 제목 'ABC(81, 82)'가 미등록 텍스트인 경우, 영화 제목 'ABC(81, 82)'를 이슈성 키워드로 추출할 수 있다.

한편, 음성 인식 장치(100)는 일정한 대화 패턴을 미리 분석하여 등록하고, 이를 이용하여 해당 이슈성 키워드의 카테고리를 분류하여 저장할 수 있다. 음성 인식 장치(100)는 사용자 Kim의 '이번에 개봉한 영화 ABC 정말 재밌었다!'라는 문장에서 '개봉(83)' 및 '영화(84)'라는 텍스트 및 기등록된 문장 패턴을 이용하여 'ABC(81, 82)'는 영화 카테고리를 가지는 영화 제목이라고 판단할 수 있다. 이에 따라, 'ABC(81, 82)'는 카테고리가 '영화'로 분류되어 어휘 사전에 등록될 수 있다. 한편, 'ABC(81, 82)'는 신규한 어휘인 바 높은 가중치를 얻게 되어 검색 우선 순위상에서 상위에 랭크될 수 있다.

한편, 상술한 실시 예에서는 설명의 편의를 위해, 이슈성 키워드가 신규한지 여부만을 판단하여 검색 우선 순위를 산정하는 경우를 예로 들어 설명하였지만, 출현 빈도의 고저, 출처가 신뢰할 만한지 여부 등을 종합하여 검색 우선 순위를 산정할 수 있음은 물론이다.

도 7에서는 웹 페이지가 방송사 홈페이지의 방송편성표(43)인 경우 이슈성 키워드를 추출하는 방법에 대해 설명하기로 한다. 도 7에 도시된 바와 같이 음성 인식 장치(100)는 방송편성표를 포함하는 웹 페이지를 크롤링하여 방송 편성표를 포함하는 웹 페이지에 포함된 전체 텍스트를 검출할 수 있다. 이 때, 음성 인식 장치(100)는 웹 페이지의 전체 레이아웃 상에서 기 설정된 위치에 배치된 텍스트를 이슈성 키워드로 추출할 수 있다. 예를 들어, 도 7에서 이슈성 키워드가 추출될 관심 영역은 방송 프로그램의 제목(72~76)이 표시되는 레이아웃 상의 영역(70)일 수 있다. 음성 인식 장치(100)는 이러한 웹 페이지의 레이아웃에 대한 정보를 저장부(120)에 미리 저장하고, 저장된 레이아웃에 대한 정보를 이용하여 방송 프로그램의 제목이 표시되는 영역(70)에 대하여만 웹 크롤링을 수행할 수 있다. 이에 따라, 제목이 표시되는 영역(70) 내의 텍스트인 ABCDE(72), FGHIJ(73), KLMNO(74), PQRST(75), UVWXY(76) 등이 이슈성 키워드로 추출될 수 있다.

한편, 추출된 이슈성 키워드는 기저장된 레이아웃 정보에 따라 카테고리가 자동적으로 방송 프로그램으로 분류될 수 있다. 상술한 바와 같이, 웹 페이지의 레이아웃 정보를 활용하면, 이슈성 키워드 및 이슈성 키워드의 카테고리를 용이하게 추출할 수 있다.

도 8은 본 발명의 다른 실시 예에 따른, 음성 인식 장치의 구성을 간략히 도시한 블럭도이다. 도 8에 도시된 바와 같이, 본 발명의 다른 실시 예에 따른, 음성 인식 장치(100')는 통신부(110), 저장부(120), 제어부(130), 디스플레이부(140), 마이크(182), 리모컨 신호 수신부(183)를 포함한다. 이하에서는 도 1에서의 설명과 중복되는 부분에 대한 설명은 생략하기로 한다.

디스플레이부(140)는 인식 결과에 따라 검색을 수행한 검색 결과를 디스플레이한다. 특히, 디스플레이부(140)는 검색 결과에 따라 사용자 발화 음성에 대응되는 정보를 직접 디스플레이할 수 있고, 사용자로 하여금 정보를 선택하게 할 수도 있다. 예를 들어, 인식 결과에 따라 검색을 수행하면, 검색 결과들이 디스플레이부(140) 하단에 작게 썸네일(thumbnail) 이미지로 디스플레이될 수 있다.

한편, 디스플레이부(140)는 LCD(Liquid Crystal Display), OLED(Organic Light Emitting Diodes) 등으로 구현될 수 있으나, 이에 한정되는 것은 아니다. 또한, 디스플레이부(140)는 경우에 따라 플렉서블 디스플레이, 투명 디스플레이 등으로 구현되는 것도 가능하다.

이에 따라, 음성 인식 장치(100')는 디지털 TV(digital TV), PC(personal Computer), 네비게이션(Navigation), 키오스크(Kiosk), DID(Digital Information Display) 등과 같이 디스플레이 기능을 갖춘 다양한 유형의 장치로 구현될 수 있다. 음성 인식 장치(100')가 디지털 TV로 구현되는 경우 음성 인식 장치(100')는 리모컨(10)에 의해 제어될 수 있다.

한편, 이하 음성 인식 장치(100')는 디지털 TV로 구현되는 경우에 관해 설명한다. 다만, 이에 한정되는 것은 아니며, 음성 인식 장치(100')는 고정장치인 디지털 TV 이외에도 영상을 처리 가능한 휴대할 수 있는 다양한 종류의 PMP, 태블릿 PC, 전자사전 등으로도 구현될 수 있음은 물론이다.

마이크(182)는 사용자 발화 음성을 입력받는 구성이다. 제어부(130)는 마이크(182)를 통해 입력되는 사용자 발화 음성에 의해 제어 동작을 수행할 수 있다.

리모컨 신호 수신부(183)는 리모컨(10)의 신호를 수신한다. 음성 인식 장치(100')는 리모컨 신호 수신부(183)을 통해 리모컨(10)의 신호를 수신받아 동작 제어가 이루어질 수 있다. 음성 인식 장치(100')의 동작을 제어하기 위해 리모컨(10)을 이용하여 동작 명령을 입력하면 동작 제어 신호는 음성 인식 장치(100')에 마련된 리모컨 신호 수신부(183)로 전달될 수 있다. 이후 음성 인식 장치(100')의 동작을 제어하는 제어부(130)는 리모컨 신호 수신부(183)로부터 전송된 제어 신호를 해석하여 사용자의 명령에 따라 해당 기능부의 동작을 제어할 수 있다. 이 경우, 마이크(182)는 리모컨(10)에 구비되어 있을 수 있다. 이 경우, 사용자는 리모컨(10)에 구비된 마이크(182)를 통해 음성을 발화하고, 리모컨(10)은 발화된 음성을 음성 신호로 변환하여 리모컨 신호 수신부(183)로 전송할 수 있다.

한편, 음성 인식 장치(100')는 리모컨(10)을 통해 리모컨 신호를 수신하고, 리모컨 신호에 따라 크롤링의 대상이 되는 웹 페이지를 변경하고, 변경된 웹 페이지를 디스플레이하도록 제어할 수 있다. 이 경우, 디스플레이된 변경된 웹 페이지로부터 이슈성 키워드를 추출하여 어휘 사전을 업데이트할 수 있다.

도 9는 본 발명의 다른 실시 예에 따른, 음성 인식 장치의 구성을 상세히 도시한 블럭도이다. 도 9에 도시된 바와 같이, 본 발명의 다른 실시 예에 따른, 음성 인식 장치(100')는 통신부(110), 저장부(120), 제어부(130), 디스플레이부(140), 오디오 출력부(150), 오디오 처리부(160), 비디오 처리부(170), 사용자 인터페이스부(180)를 포함한다. 이하에서는 도 1 및 도 8에서의 설명과 중복되는 부분에 대한 설명은 생략하기로 한다.

통신부(110)는 다양한 유형의 통신방식에 따라 다양한 유형의 외부 기기 또는 외부 서버와 통신을 수행하는 구성이다. 통신부(110)는 외부 서버와 통신을 수행하여 사용자 발화 음성에 대응되는 컨텐츠를 음성 인식 장치(100')로 전송할 수 있다. 통신부(110)는 와이파이 칩, 블루투스 칩, NFC칩, 무선 통신 칩 등과 같은 다양한 통신 칩을 포함할 수 있다. 이때, 와이파이 칩, 블루투스 칩, NFC 칩은 각각 WiFi 방식, 블루투스 방식, NFC 방식으로 통신을 수행한다. 이 중 NFC 칩은 135kHz, 13.56MHz, 433MHz, 860~960MHz, 2.45GHz 등과 같은 다양한 RF-ID 주파수 대역들 중에서 13.56MHz 대역을 사용하는 NFC(Near Field Communication) 방식으로 동작하는 칩을 의미한다. 와이파이 칩이나 블루투스 칩을 이용하는 경우에는 SSID 및 세션 키 등과 같은 각종 연결 정보를 먼저 송수신하여, 이를 이용하여 통신 연결한 후 각종 정보들을 송수신할 수 있다. 무선 통신 칩은 IEEE, 지그비, 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evoloution) 등과 같은 다양한 통신 규격에 따라 통신을 수행하는 칩을 의미한다.

저장부(120)는 음성 인식 장치(100')를 구동하기 위한 다양한 모듈을 저장한다. 저장부(120)의 구성에 대하여는 도 3에서 설명한 바 있으므로 생략하도록 한다.

제어부(130)는 저장부(120)에 저장된 각종 모듈을 이용하여 음성 인식 장치(100')의 전반적인 동작을 제어한다.

제어부(130)는 도 9에 도시된 바와 같이, RAM(131), ROM(132), 그래픽 처리부(133), 메인 CPU(134), 제1 내지 n 인터페이스(135-1 ~ 135-n), 버스(136)를 포함한다. 이때, RAM(131), ROM(132), 그래픽 처리부(133), 메인 CPU(134), 제1 내지 n 인터페이스(135-1 ~ 135-n) 등은 버스(136)를 통해 서로 연결될 수 있다.

ROM(131)에는 시스템 부팅을 위한 명령어 세트 등이 저장된다. 메인 CPU(134)는 저장부(120)에 저장된 각종 어플리케이션 프로그램을 RAM(131)에 복사하고, RAM(131)에 복사된 어플리케이션 프로그램을 실행시켜 각종 동작을 수행한다.

그래픽 처리부(133)는 연산부(미도시) 및 렌더링부(미도시)를 이용하여 아이콘, 이미지, 텍스트 등과 같은 다양한 객체를 포함하는 화면을 생성한다. 연산부는 화면의 레이아웃에 따라 각 객체들이 표시될 좌표값, 형태, 크기, 컬러 등과 같은 속성값을 연산한다. 렌더링부는 연산부에서 연산한 속성값에 기초하여 객체를 포함하는 다양한 레이아웃의 화면을 생성한다.

메인 CPU(134)는 저장부(120)에 액세스하여, 저장부(120)에 저장된 O/S를 이용하여 부팅을 수행한다. 그리고, 메인 CPU(134)는 저장부(120)에 저장된 각종 프로그램, 컨텐츠, 데이터 등을 이용하여 다양한 동작을 수행한다.

제1 내지 n 인터페이스(135-1 내지 135-n)는 상술한 각종 구성요소들과 연결된다. 인터페이스들 중 하나는 네트워크를 통해 외부 장치와 연결되는 네트워크 인터페이스가 될 수도 있다.

오디오 출력부(150)는 오디오 처리부(160)에서 처리된 각종 오디오 데이터뿐만 아니라 각종 알림 음이나 음성 메시지를 출력하는 구성이다. 특히, 오디오 출력부(150)는 스피커로 구현될 수 있으나, 이는 일 실시 예에 불과할 뿐, 오디오 출력 단자와 같은 다른 오디오 출력부로 구현될 수 있다.

오디오 처리부(160)는 오디오 데이터에 대한 처리를 수행하는 구성요소이다. 오디오 처리부(160)에서는 오디오 데이터에 대한 디코딩이나 증폭, 노이즈 필터링 등과 같은 다양한 처리가 수행될 수 있다. 한편, 오디오 처리부(160)는 사용자 발화 음성을 분석하고 처리하기 위한 오디오 처리 모듈이 구비될 수 있다.

비디오 처리부(170)는 통신부(110)에서 수신한 컨텐츠에 대한 처리를 수행하는 구성요소이다. 비디오 처리부(170)에서는 컨텐츠에 대한 디코딩, 스케일링, 노이즈 필터링, 프레임 레이트 변환, 해상도 변환 등과 같은 다양한 이미지 처리를 수행할 수 있다. 한편, 비디오 처리부(170)는 컨텐츠에 대응되는 비디오를 처리하기 위한 비디오 처리 모듈을 구비할 수 있다.

사용자 인터페이스부(180)는 음성 인식 장치(100')의 전반적인 동작을 제어하기 위한 사용자 인터렉션을 감지하기 위한 구성이다. 특히, 사용자 인터페이스부(180)는 도 9에 도시된 바와 같이, 카메라(181), 마이크(182), 리모컨 신호 수신부(183) 등과 같은 다양한 인터렉션 감지 장치를 포함할 수 있다.

음성 인식 장치(100')는 상술한 통신부(110)를 이용하여 네트워크를 통해 웹 페이지를 제공하는 소스 장치에 액세스하고, 웹 페이지 데이터를 수신할 수 있다. 상술한 저장부(120)에는 음성 인식에 사용되기 위한 어휘 사전이 저장되어 있고, 음성 인식 장치(100')는 수신된 웹 페이지를 크롤링하여 추출된 이슈성 키워드를 저장부(120)의 어휘 사전에 추가하여 어휘 사전을 업데이트할 수 있다. 음성 인식 장치(100')는 저장부(120)에 저장된 음성 인식 모듈(122)을 통해 어휘 사전에 등록된 어휘와 마이크(182)를 통해 입력된 사용자 발화 음성에 포함된 어휘의 발음 유사도를 비교하여 사용자 발화 음성을 인식할 수 있게 된다. 음성이 인식되면 디스플레이부(140)를 통해 검색 결과가 디스플레이될 수 있다. 즉, 음성 인식 장치(100')는 상술한 바와 같이 통신부(110), 저장부(120), 제어부(130), 디스플레이부(140), 마이크(182), 리모컨 신호 수신부(183)을 모두 구비하는 하나의 사용자 단말 장치로 구현될 수 있다.

도 10은 본 발명의 일 실시 예에 따른, 사용자의 발화 음성을 인식하고 검색 결과를 디스플레이하는 과정을 설명하기 위한 도면이다.

도 10(a)와 같이, 음성 인식 장치(100')에 기존의 컨텐츠(1050)가 디스플레이되고 있는 경우 사용자는 "XYZ"라는 프로그램을 시청하고자 할 수 있다. 이 경우 사용자는 "XYZ 찾아줘"라는 발화 음성을 통해 음성 인식 장치(100')에 명령어를 입력할 수 있다. 명령어가 입력되면 음성 인식 장치(100')는 기저장되어 있는 어휘사전 또는 문장패턴을 통해 "XYZ" 및 "찾아줘"의 두 어휘를 인식하고, "XYZ"에 대한 프로그램을 검색하여, 화면에 디스플레이할 수 있다. 이 경우, "XYZ" 프로그램은 기존에 디스플레이되고 있는 컨텐츠(1050)를 대체하여 디스플레이될 수 있다. 또한, 도 10(b)와 같이 "XYZ"에 대한 프로그램의 검색 결과는 기존에 시청하고 있는 컨텐츠(1050)의 시청을 방해하지 않도록 디스플레이부(140) 하단에 썸네일 이미지(1010~1040)로 생성될 수도 있다. 사용자는 생성된 썸네일 이미지(1010~1040)를 선택하여 "XYZ"에 대한 프로그램에 대한 세부적인 선택을 수행할 수 있다.

도 11은 본 발명의 다른 실시 예에 따른, 음성 인식 장치의 음성 인식 방법을 설명하기 위한 도면이다.

도 11에 따르면, 음성 인식 장치(100)는 외부의 음성 인식 제어 서버(200)와 네트워크를 통해 연결되어 음성 인식을 수행할 수 있다.

음성 인식 제어 서버(200)는 음성 인식 장치(100)의 음성 인식을 제어한다. 이를 위해, 음성 인식 제어 서버(200)는 네트워크를 통하여 음성 인식 장치(100)로부터 음성 인식 요청 신호를 수신하고, 수신된 음성 인식 요청 신호에 대응하는 응답 신호를 음성 인식 장치(100)로 전송한다.

음성 인식 제어 서버(200)는 인터넷 망 등을 통해 웹 페이지를 제공하는 소스 장치로부터 웹 페이지를 수신할 수 있고, 이를 디스플레이부(140)를 구비한 음성 인식 장치(100)에 전송하여 음성 인식 장치(100)가 웹 페이지를 수신하여 디스플레이하게 할 수도 있다. 또한, 음성 인식 제어 서버(200)는 내부에 복수의 음성 인식 엔진들을 포함하고, 사용자 발화 음성을 인식할 수 있다. 음성 인식 장치(100)는 음성 인식 제어 서버(200)로 음성 데이터를 송신하고, 송신된 음성 데이터에 대응하는 결과 정보를 수신할 수 있다. 즉, 음성 인식 제어 서버(200)는 인식 결과에 따라 검색을 수행하여 검색 결과를 음성 인식 장치(100)로 전송할 수 있다. 한편, 음성 인식 제어 서버(200)는 음성 인식 장치(100) 내부에 포함되는 구성일 수 있다.

도 12는 본 발명의 다른 실시 예에 따른, 음성 인식 장치의 음성 인식 방법을 설명하기 위한 도면이다.

도 12에 다르면, 음성 인식 장치(100)는 외부의 음성 인식 제어 서버(200) 및 대화형 서버 장치(300)와 네트워크를 통해 연결되어 음성 인식을 수행할 수 있다. 이를 위해 음성 인식 제어 서버(200) 및 대화형 서버 장치(300)은 다양한 통신 모듈을 포함하는 통신부를 포함한다.

대화형 서버 장치(300)는 사용자의 음성을 입력 받아 음성 인식 서비스를 제공할 수 있다. 음성 인식 제어 서버(200)는 대화형 서버 장치(300)로부터 전송되는 사용자 발화 음성에 대한 음성 인식을 수행하고, 음성 인식 수행 결과를 대화형 서버 장치(300)에 전송할 수 있다. 대화형 서버 장치(300)는 컴퓨터, 랩탑, 데스크탑, 타블렛 PC, PDA(Personal Digital Assistant)를 포함하는 컴퓨팅 장치일 수 있으며, 휴대 전화, 위성 전화, 무선 전화, SIP(Session Initiation Protocol), WLL(Wireless Local Loop) 스테이션, 스마트폰, 기타 무선 접속 기능을 갖는 핸드헬드 장치를 포함하는 무선 컴퓨팅 장치 또는 다른 무선 모뎀에 연결된 프로세싱 장치일 수도 있다. 대화형 서버 장치(300)는 음성 인식 제어 서버(200)로부터 인식된 음성 신호를 수신하고, 이에 대응되는 응답 메세지 또는 문의 메세지를 생성하여 음성 인식 장치(100)에 전송할 수 있다. 이를 위해 대화형 서버 장치(300)는 음성 신호에 대응되는 응답 메세지, 문의 메세지 등을 저장하는 저장부를 포함할 수 있다. 음성 인식 장치(100)는 수신한 응답 메세지 또는 문의 메세지에 따른 프로세싱을 수행할 수 있다. 음성 인식 장치(100)가 디스플레이부를 포함하는 경우, 수신한 응답 메세지 또는 문의 메세지를 디스플레이할 수도 있다. 한편, 대화형 서버 장치(300)는 음성 인식 장치(100) 내에 포함되는 구성일 수 있다.

도 13은 본 발명의 다른 실시 예에 따른, 음성 인식 장치의 제어 방법을 설명하기 위한 흐름도이다.

먼저, 크롤링 대상이 되는 웹 페이지가 선택되면(S1310), 선택된 웹 페이지를 크롤링하여 웹 페이지에 포함된 텍스트를 검출한다(S1320). 이 때, 크롤링 대상이 되는 웹 페이지는 기등록되어 있거나 사용자에 의해 선택되어 등록될 수 있다. 이 때, 웹 크롤링의 대상이 되는 웹 페이지는 포털 사이트의 실시간 검색어 페이지, SNS 페이지, 방송사 편성표 페이지 또는 시청률 페이지, 언론사 뉴스 페이지, 개인 블로그 등을 포함할 수 있다. 이 때, 웹 페이지의 전체 레이아웃 상에서 기 설정된 위치에 배치된 텍스트를 크롤링하여 이슈성 키워드를 추출할 수 있다. 이에 따라 검출된 텍스트들이 어휘 사전에 미등록된 텍스트인지 여부를 판단하고, 미등록된 텍스트라고 판단되는 경우(S1330:Y), 그 텍스트를 이슈성 키워드로 판단하고, 어휘 사전에 추가하여 어휘 사전을 업데이트 한다(S1350). 만약 등록된 텍스트라고 판단되는 경우(S1330:N), 그 텍스트의 출현 빈도를 카운팅하여 기설정된 임계치 이상인지 여부를 추가로 판단한다(S1340). 출현 빈도가 기설정된 임계치 이상이라고 판단되는 경우(S1340:Y), 그 텍스트를 이슈성 키워드로 판단하고, 어휘 사전에 추가하여 어휘 사전을 업데이트한다(S1350). 만약 출현 빈도가 기설정된 임계치 미만이라고 판단되면(S1340:N), 웹 페이지 내 이슈성 키워드는 없는 것으로 판단하고, 어휘 사전을 업데이트 하지 않는다. 이 경우, 기 설정된 주기마다 웹 페이지를 자동으로 크롤링하여 동일한 과정을 반복적으로 수행할 수 있다.

도 14는 본 발명의 일 실시 예에 따른, 어휘 사전을 업데이트하는 방법을 설명하기 위한 흐름도이다.

먼저, 추출된 이슈성 키워드에 대하여 기 설정된 조건에 따라 가중치를 부여한다(S1410). 이 때, 기 설정된 조건은, 추출된 이슈성 키워드가 신규한지 여부, 출현 빈도의 고저, 출처가 신뢰할 만한지 여부, 인식 히스토리가 있는지 여부 등을 포함할 수 있다. 일반적으로 추출된 이슈성 키워드가 신규할수록, 출현 빈도가 높을수록, 출처의 신뢰도가 높을수록, 인식 히스토리가 많을수록 가중치를 높게 부여할 수 있다.

S1420 단계에서, 추출된 이슈성 키워드에 대하여 부여된 가중치에 따라 검색 우선 순위를 산정한다. 검색 우선 순위는 기 설정된 조건에 따른 가중치를 종합적으로 합산하여 산정될 수 있다. 검색 우선 순위가 높은 이슈성 키워드는 유사한 발음의 검색 우선 순위가 낮은 이슈성 키워드에 비하여 사용자가 발화한 어휘로 인식될 확률이 높을 수 있다. 이 후, 추출된 이슈성 키워드를 검색 우선 순위에 기초하여 어휘 사전에 추가로 등록한다(S1430). 만일 추출된 이슈성 키워드가 이미 어휘 사전에 등록된 경우라면 가중치에 따라, 어휘 사전의 검색 우선 순위만 업데이트할 수 있다.

상술한 다양한 실시 예에 따른 음성 인식 장치의 제어 방법은 프로그램으로 구현되어 음성 인식 장치에 제공될 수 있다.

일 예로, 웹페이지를 크롤링하여 이슈성 키워드를 추출하는 단계, 복수의 어휘가 등록된 어휘 사전에 이슈성 키워드를 추가하여 어휘 사전을 업데이트하는 단계, 사용자의 발화 음성이 입력되면, 업데이트된 어휘 사전에 기초하여 발화 음성을 인식하는 단계 및, 인식 결과에 따라 검색을 수행하여 검색 결과를 디스플레이하는 단계를 수행하는 프로그램이 저장된 비일시적 판독 가능 매체(non-transitory computer readable medium)가 제공될 수 있다.

비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.

또한, 이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

100: 음성 인식 장치 200: 음성 인식 제어 서버
300: 대화형 서버 장치 10: 리모컨
110: 통신부 120: 저장부
130: 제어부

Claims

수신된 리모컨 신호에 기초하여 선택된 웹 페이지를 디스플레이하는 단계;
상기 웹 페이지로부터 키워드를 획득하는 단계;
복수의 어휘가 등록된 어휘 사전에 상기 키워드를 추가하여 상기 어휘 사전을 업데이트하는 단계;
사용자의 음성 입력이 수신되면, 상기 업데이트된 어휘 사전에 기초하여 상기 음성 입력을 인식하는 단계; 및
상기 인식 결과에 따라 검색을 수행하여, 검색 결과를 디스플레이하는 단계;를 포함하는 음성 인식 제어 방법.
제1항에 있어서,
상기 키워드를 획득하는 단계는,
상기 웹 페이지에 포함된 텍스트들을 검출하는 단계;
검출된 상기 텍스트들의 출현 빈도를 카운팅하는 단계; 및
상기 출현 빈도가 기 설정된 임계치 이상인 텍스트를 상기 키워드로 획득하는 단계;를 포함하는 것을 특징으로 하는 음성 인식 제어 방법.
제1항에 있어서,
상기 키워드를 획득하는 단계는,
상기 웹 페이지에 포함된 텍스트들을 검출하는 단계; 및
검출된 상기 텍스트들 중에서 상기 어휘 사전에 미등록된 텍스트를 상기 키워드로 획득하는 단계;를 포함하는 것을 특징으로 하는 음성 인식 제어 방법.
제1항에 있어서,
상기 키워드를 획득하는 단계는,
상기 웹 페이지의 전체 레이아웃 상에서 기 설정된 위치에 배치된 텍스트를 상기 키워드로 획득하는 것을 특징으로 하는 음성 인식 제어 방법.
제1항에 있어서,
상기 어휘 사전을 업데이트하는 단계는,
상기 획득된 키워드에 대하여 기 설정된 조건에 따라 가중치를 부여하는 단계;
상기 부여된 가중치에 따라 상기 획득된 키워드의 검색 우선 순위를 산정하는 단계; 및
상기 검색 우선 순위에 기초하여 상기 획득된 키워드를 상기 어휘 사전에 추가 등록하는 단계;를 포함하는 것을 특징으로 하는 음성 인식 제어 방법.
제1항에 있어서,
상기 어휘 사전을 업데이트하는 단계는,
상기 획득된 키워드를 카테고리별로 분류하여 저장하는 것을 특징으로 하고,
상기 사용자의 음성 입력을 인식하는 단계는,
상기 음성 입력을 분석하여 상기 음성 입력에 대응되는 카테고리로 분류된 키워드 중에서 상기 음성 입력에 대응되는 어휘를 검색하는 단계;를 포함하는 것을 특징으로 하는 음성 인식 제어 방법.
제1항에 있어서,
상기 키워드를 획득하는 단계는,
기 설정된 주기마다 상기 웹 페이지로부터 새로운 키워드를 획득하는 것을 특징으로 하는 음성 인식 제어 방법.
제1항에 있어서,
상기 사용자의 음성 입력을 인식하는 단계는,
상기 음성 입력에 포함된 어휘와 상기 어휘 사전에 등록된 키워드의 발음 유사도를 측정하는 단계;
상기 측정된 발음 유사도가 기 설정된 값 이상인 키워드들에 대하여 각각 메타데이터 검색을 수행하는 단계; 및
상기 메타데이터 검색 결과를 기초로 의미 분석을 수행하여 상기 음성 입력을 인식하는 단계;를 포함하는 것을 특징으로 하는 음성 인식 제어 방법.
제1항에 있어서,
상기 음성 입력에 포함된 어휘에 대한 인식 히스토리를 업데이트하는 단계;를 더 포함하는 것을 특징으로 하는 음성 인식 제어 방법.
삭제
음성 인식에 사용되기 위한 어휘 사전이 저장된 저장부;
통신부;
사용자의 음성 입력을 수신하기 위한 마이크;
리모컨 신호를 수신하기 위한 리모컨 신호 수신부;
디스플레이부; 및
상기 수신된 리모컨 신호에 기초하여 선택된 웹 페이지를 표시하도록 상기 디스플레이부를 제어하고,
상기 통신부를 통해 수신된 상기 웹 페이지로부터 키워드를 획득하고, 상기 획득된 키워드를 상기 어휘 사전에 추가하여 상기 어휘 사전을 업데이트하며,
상기 마이크를 통해 상기 음성 입력이 수신되면, 상기 업데이트된 어휘 사전에 기초하여 상기 음성 입력을 인식하고,
상기 인식 결과에 따라 검색을 수행하여, 검색 결과를 표시하도록 상기 디스플레이부를 제어하는 제어부;를 포함하는 음성 인식 장치.
제11항에 있어서,
상기 제어부는,
상기 웹 페이지에 포함된 텍스트들을 검출하고, 검출된 상기 텍스트들의 출현 빈도를 카운팅하며, 상기 출현 빈도가 기 설정된 임계치 이상인 텍스트를 상기 키워드로 획득하는 것을 특징으로 하는 음성 인식 장치.
제11항에 있어서,
상기 제어부는,
상기 웹 페이지에 포함된 텍스트들을 검출하고, 검출된 상기 텍스트들 중에서 상기 어휘 사전에 미등록된 텍스트를 상기 키워드로 획득하는 것을 특징으로 하는 음성 인식 장치.
제11항에 있어서,
상기 제어부는,
상기 웹 페이지의 전체 레이아웃 상에서 기 설정된 위치에 배치된 텍스트를 상기 키워드로 획득하는 것을 특징으로 하는 음성 인식 장치.
제11항에 있어서,
상기 제어부는,
상기 획득된 키워드에 대하여 기 설정된 조건에 따라 가중치를 부여하고, 상기 부여된 가중치에 따라 상기 획득된 키워드의 검색 우선 순위를 산정하고,
상기 검색 우선 순위에 기초하여 상기 키워드를 상기 어휘 사전에 추가 등록하는 것을 특징으로 하는 음성 인식 장치.
제11항에 있어서,
상기 제어부는,
상기 획득된 키워드를 카테고리별로 분류하여 저장하고, 상기 음성 입력을 분석하여 상기 음성 입력에 대응되는 카테고리로 분류된 키워드 중에서 상기 음성 입력에 대응되는 어휘를 검색하는 것을 특징으로 하는 음성 인식 장치.
제11항에 있어서,
상기 제어부는,
기 설정된 주기마다 상기 웹 페이지로부터 새로운 키워드를 획득하는 것을 특징으로 하는 음성 인식 장치.
제11항에 있어서,
상기 제어부는,
상기 음성 입력에 포함된 어휘와 상기 어휘 사전에 등록된 키워드의 발음 유사도를 측정하고, 상기 측정된 발음 유사도가 기 설정된 값 이상인 키워드들에 대하여 각각 메타데이터 검색을 수행하고, 상기 메타데이터 검색 결과를 기초로 의미 분석을 수행하여 상기 음성 입력을 인식하는 것을 특징으로 하는 음성 인식 장치.
제11항에 있어서,
상기 제어부는,
상기 음성 입력을 인식한 후, 상기 음성 입력에 포함된 어휘에 대한 인식 히스토리를 업데이트하는 것을 특징으로 하는 음성 인식 장치.
삭제