KR100764174B1

KR100764174B1 - 음성 대화 서비스 장치 및 방법

Info

Publication number: KR100764174B1
Application number: KR1020060020600A
Authority: KR
Inventors: 곽병관; 조정미; 강인호
Original assignee: 삼성전자주식회사
Priority date: 2006-03-03
Filing date: 2006-03-03
Publication date: 2007-10-08
Also published as: KR20070090642A; US20070208556A1; US7734461B2

Abstract

본 발명에 따른 음성 대화 서비스 장치는, 소정의 텍스트에 기록된 문장이 포함하는 단어 각각에 품사(POS: Part Of Speech)를 태깅(Tagging)하고, 상기 각 단어의 의미를 분류하여 상기 문장을 구문 해석하며, 상기 구문 해석 결과에 따라 상기 문장에 대응하는 하나 이상의 시맨틱 프레임(Semantic Frame)을 생성하는 언어 분석 모듈; 및 상기 각 시맨틱 프레임에 대응하는 상기 문장의 의도(Intention)를 분석하고, 상기 각 문장 의도에 대응하는 액션(Action)의 수행 가능 여부에 따라 소정의 문장 의도를 선택하여 상기 문장 의도에 대응하는 시스템 응답(System Response)을 생성하는 대화 관리 모듈을 포함하는 것을 특징으로 한다.

음성 인식, Semantic, 문맥(Context), 대화, 언어 분석

Description

음성 대화 서비스 장치 및 방법{APPARATUS FOR PROVIDING VOICE DIALOGUE SERVICE AND METHOD FOR OPERATING THE APPARATUS}

도 1은 본 발명의 일실시예에 따른 음성 대화 서비스 시스템의 음성 대화 서비스 방법의 전체 흐름을 도시한 블록도.

도 2는 본 발명의 일실시예에 따른 음성 대화 서비스 장치의 구성을 도시한 블록도.

도 3은 본 발명의 일실시예에 따른 시맨틱 프레임의 일례를 도시한 도면.

도 4는 본 발명의 일실시예에 따라 도메인 액션이 채널 변경으로 설정된 레퍼런스 테이블의 일례를 도시한 도면.

도 5는 본 발명의 일실시예에 따라 도메인 액션이 예약 녹화로 설정된 레퍼런스 테이블의 일례를 도시한 도면.

도 6은 본 발명의 일실시예에 따른 음성 대화 서비스 방법의 흐름을 도시한 순서도.

<도면의 주요 부분에 대한 부호의 설명>

210 : 음성 인식 모듈 220 : 언어 분석 모듈

221 : 품사 태깅부 222 : 구문 해석부

223 : 격틀 해석부 230 : 대화 관리 모듈

231 : 문맥 정보부 232 : 사용자 의도 분석부

233 : 응답 제어부 234 : 레퍼런스 데이터베이스

235 : 포커스 스택 236 : 문맥 모델 데이터베이스

본 발명은 음성 대화 서비스 장치 및 방법에 관한 것으로서, 더욱 상세하게는 사용자가 발화하는 자연어를 포함하는 대화체 문장을 시맨틱 슬롯(Semantic Slot)을 통해 해석하고, 동적 문맥(Context) 관리를 통해 상기 문장 중 생략된 정보를 보완하여 상기 사용자의 의도를 분석하고 실행함으로써, 사용자가 시스템이 인식할 수 있는 특정 유형으로 발화하지 않고 일상 대화와 같은 자연어로 발화하더라도 항상 정확하게 상기 사용자의 발화 내용을 분석하여 실행할 수 있는 음성 대화 서비스 장치 및 방법에 관한 것이다.

최근 홈 네트워크에 관한 기술 발전에 가속도가 붙고 있다. 홈 네트워크를 통해 TV, VTR, 전화기, 세탁기, 냉장고 등의 가전 기기들이 서로 연결되고 있으며, 사용자는 상기 가전 기기들의 네트워크 연결을 통해 다양한 혜택을 누릴 수 있게 되었다.

종래에는 홈 네트워크로 가전 기기들을 제어하기 위해 사용자가 각 가전 기기에 대응하는 명령 체계나 상기 가전 기기들 간의 내부적인 상호 동작을 알고 있어야 한다. 예를 들어, 사용자는 리모컨이나 휴대 단말기 등을 통해 가전 기기를 직접 제어할 수 있다.

그러나, 유비쿼터스 시대가 도래함에 따라 상기와 같이 사용자가 직접 가전 기기를 제어하는 방법은 점차 사용자가 음성으로 발화한 대화 내용을 가전 기기가 인식하여 실행함으로써 가전 기기들을 제어하는 방법으로 대체되고 있다.

상기 대화형 가전 기기 제어 방법을 위해서는 사용자의 음성을 입력 받아 텍스트로 전환시키는 음성 인식 기술과, 음성 인식을 통해 해석한 대화형 명령을 홈 네트워크로 연결된 가전기기에 적용하는 기술이 필요하다.

그러나 이러한 종래의 음성 인식을 통한 가전 기기 제어에 따르면, 사용자의 발화 내용에 제약이 뒤따른다. 즉, 사용자는 상기 가전 기기 제어 시스템이 인식할 수 있는 몇 가지 명령어만을 발화하여 가전 기기를 제어할 수 있을 뿐이다. 따라서, 사용자가 상기 시스템 인식 가능한 명령어를 숙지하고 있어야만 가전 기기를 제어할 수 있다는 불편함이 있다.

이에, 공지된 자연어 분석 기술을 이용하여 사용자가 보다 자유롭게 명령어를 발화하고, 상기 발화된 자연어 명령어를 시스템이 인식하여 가전 기기를 제어할 수 있는 대화형 음성 인식 서비스가 개발되고 있다. 이러한 대화형 음성 인식 서비스에 따르면, 사용자는 특정 명령어를 미리 숙지하고 있을 필요가 없고, 통상적으로 인지될 수 있는 단어를 발화함으로써, 쉽게 가전 기기들을 제어할 수 있다.

이러한 종래의 대화형 음성 인식 서비스 모델로는 사용자의 발화 내용으로부터 키워드를 추출하여 키워드 리스트를 작성한 후, 상기 키워드에 대응하는 템플릿(Template)을 데이터베이스로부터 추출한 후 서로 비교하여 응답을 결정하는 서비 스 모델이 있다. 상기 서비스 모델로는 미국특허 US 660490 및 미국출원특허 US 2001-921826가 있다.

또한, 종래의 대화형 음성 인식 서비스 모델로는 예상되는 대화 형태를 사전에 기록하여 사용자의 발화 내용에 따라 소정의 시나리오에 따라 카테고리 별로 응답을 제공함으로써 사용자의 의도를 파악하는 서비스 모델이 있다. 상기 서비스 모델로는 미국특허 US 624691 및 미국특허 US 6786651이 있다.

그러나, 이러한 종래의 대화형 음성 인식 서비스에서는 단지 미리 입력되어 있는 정형화된 단어들을 참조하여 사용자가 발화한 자연어 명령어를 인식함으로써, 문어체나 한정된 문장 집합을 대상으로 하는 자연어 분석에 한계가 있다. 즉, 사용자가 발화하는 자연어 문장은 소정의 단어나 어구가 생략되거나 시제가 일치하지 않고 순서가 뒤바뀐 불완전한 문장인 경우가 대부분이다. 따라서 의미 자체가 모호할 가능성이 크지만 상기 종래 기술에 따른 서비스 방법으로는 이러한 불완전한 문장으로 구성되는 자연어를 정확하게 인식하기란 불가능하다.

또한, 특정 시나리오를 통해 사용자의 의도를 분석하는 경우, 상황에 따라 사용자의 의도가 수시로 변하는 예측 불가능한 일반적인 대화 환경에 대응할 수 없다는 문제점이 있다.

상기와 같은 문제점의 지적에 따라, 사용자가 발화하는 자연어 명령의 불완전한 문장 내용을 항상 정확하게 분석하여 응답함으로써, 보다 지능적이고 자연스러운 대화를 유도할 수 있는 대화형 음성 인식 서비스 모델의 개발이 요구되고 있다.

본 발명은 상기와 같은 종래 기술을 개선하기 위해 안출된 것으로서, 시맨틱 슬롯(Semantic Slot) 인식을 이용하여 자연어를 포함하는 사용자 발화 내용을 해석함으로써, 사용자의 발화 유형에 관계 없이 보다 정확하게 사용자의 발화 내용을 인식할 수 있는 음성 대화 서비스 장치 및 방법을 제공하는 것을 목적으로 한다.

또한, 본 발명은 동적 문맥(Context) 관리를 통해 사용자 발화 내용을 해석함으로써, 사용자의 발화 유형에 관계 없이 보다 정확하게 사용자의 의도를 분석할 수 있는 음성 대화 서비스 장치 및 방법을 제공하는 것을 목적으로 한다.

또한, 본 발명은 시맨틱 슬롯(Semantic Slot) 인식 및 문맥(Context) 관리를 통해 사용자 발화 내용을 정확하게 인식함으로써, 사용자가 시스템이 인식 가능한 발화 유형을 일일이 기억할 필요 없이 즉석에서 생각나는 대로 소정의 자연어를 발화하여도 항상 정확하게 상기 사용자의 의도를 파악하고 그에 따른 서비스를 실행할 수 있는 음성 대화 서비스 장치 및 방법을 제공하는 것을 목적으로 한다.

상기의 목적을 이루고 종래기술의 문제점을 해결하기 위하여, 본 발명에 따른 음성 대화 서비스 장치는, 소정의 텍스트에 기록된 문장이 포함하는 단어 각각에 품사(POS: Part Of Speech)를 태깅(Tagging)하고, 상기 각 단어의 의미를 분류하여 상기 문장을 구문 해석하며, 상기 구문 해석 결과에 따라 상기 문장에 대응하는 하나 이상의 시맨틱 프레임(Semantic Frame)을 생성하는 언어 분석 모듈; 및 상기 각 시맨틱 프레임에 대응하는 상기 문장의 의도(Intention)를 분석하고, 상기 각 문장 의도에 대응하는 액션(Action)의 수행 가능 여부에 따라 소정의 문장 의도를 선택하여 상기 문장 의도에 대응하는 시스템 응답(System Response)을 생성하는 대화 관리 모듈을 포함하는 것을 특징으로 한다.

이하에서는 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명한다.

우선, 본 명세서에서는 도 1을 참조하여 본 발명에 따른 음성 대화 서비스 시스템의 전체 구성 및 동작의 흐름을 간략하게 설명한 후, 도 2 내지 도 6을 참조하여 본 발명의 음성 대화 서비스 장치 및 방법을 상세히 설명하기로 한다.

도 1은 본 발명의 일실시예에 따른 음성 대화 서비스 시스템의 음성 대화 서비스 방법의 전체 흐름을 도시한 블록도이다.

도 1에 도시된 바와 같이, 본 발명의 일실시예에 따른 음성 대화 서비스 시스템은 사용자가 발화한 음성을 인식한다. 상기 사용자의 발화 내용은 자연어로 구성될 수 있다. 즉, 상기 음성 대화 서비스 시스템에 기저장 되어 있는 특정 유형의 언어뿐만 아니라, 상기 사용자가 즉석에서 생각나는 대로 말하는 내용으로 구성될 수 있다.

상기 자연어로 구성된 발화 내용은 모호성(Ambiguity)을 내포할 수 있다. 자연어는 컴퓨터의 프로그래밍 언어와 같은 인공어(artificial language)에 비해 문법의 제약이 심하지 않고, 사용되는 영역이 제한되지 않는다. 따라서, 자연어는 문장을 구성하는 어절, 구문들이 문맥에 따라 한가지 이상의 품사, 구문 구조 또는 의미로 해석되는 모호성(ambiguity)을 갖는다.

상기 자연어의 모호성이란 어절, 문장 또는 구문 구조 등 자연어를 구성하는 요소에 대한 하나 이상의 해석이 가능한 현상을 의미한다. 자연어에서 발생하는 모호성은 어휘적 모호성(lexical ambiguity), 구문적 모호성(syntactic ambiguity) 그리고 의미적 모호성(semantic ambiguity)으로 구분될 수 있다.

상기 어휘적 모호성은 문장에 사용된 단어 또는 어절이 하나 이상의 품사 또는 형태소 분석 결과를 낳을 수 있음을 의미한다. 상기 구문적 모호성은 하나의 문법 구조가 두 가지 이상의 해석이 가능한 현상을 의미하며, 상기 의미 모호성은 단어 또는 어절의 의미가 두 가지 이상으로 해석 가능한 현상을 의미한다.

상기 음성 대화 서비스 시스템은 상기 사용자가 발화한 음성을 인식하여 텍스트로 변환한다(단계(110)). 이후, 상기 텍스트를 통해 상기 사용자가 발화한 단어 또는 문장을 분석한다(단계(120)). 상기 단어 또는 문장의 분석이 완료되면, 상기 음성 대화 서비스 시스템은 상기 발화 내용에 따른 상기 사용자의 의도를 분석하는 대화 관리를 수행한다(단계(130)). 상기 사용자의 의도가 분석되면, 상기 음성 대화 서비스 시스템은 상기 분석된 의도에 따른 서비스 실행에 대한 플랜(Plan) 관리를 수행하고(단계(140)), 그에 따라 각 서비스를 실행할 수 있다(단계(150)). 또한, 단계(130)에서, 상기 사용자의 의도를 정확하게 분석하지 못한 것으로 판단되는 경우, 상기 의도에 대한 시스템 응답을 상기 사용자에게 질의할 수도 있다(단계(160)).

도 2는 본 발명의 일실시예에 따른 음성 대화 서비스 장치의 구성을 도시한 블록도이다.

본 발명의 일실시예에 따른 음성 대화 서비스 장치는, 음성 인식 모듈(210), 언어 분석 모듈(220), 대화 관리 모듈(230), 및 서비스 실행 제어 모듈(240)을 포함하여 구성된다.

음성 인식 모듈(210)은 사용자가 발화한 음성을 인식하여 텍스트로 변환한다. 음성 인식 모듈(210)은 사용자의 음성을 인식하여 소정의 텍스트로 변환할 수 있는 일반적인 음성 인식 장치로 구현될 수 있다. 상기 텍스트는 상기 사용자가 발화한 하나 이상의 자연어를 포함할 수 있다.

언어 분석 모듈(220)은 품사 태깅부(221), 구문 해석부(222), 및 격틀 해석부(223)를 포함하여 구성될 수 있다. 언어 분석 모듈(220)은 상기 텍스트에 기록된 문장이 포함하는 단어 각각에 품사(POS: Part Of Speech)를 태깅(Tagging)하고, 상기 각 단어의 의미를 분류하여 상기 문장을 구문 해석하며, 상기 구문 해석 결과에 따라 상기 문장에 대응하는 하나 이상의 시맨틱 프레임(Semantic Frame)을 생성하는 동작을 수행할 수 있다.

품사 태깅부(221)는 상기 문장의 형태소(Morpheme)를 분석하여 상기 문장이 포함하는 각 단어의 품사를 태깅한다. 품사 태깅은 문장 내에서 단어가 사용된 문맥에 따라 각 단어에 올바른 품사 정보를 할당하는 과정을 의미한다. 품사 태깅은 일반적으로 어휘 모호성으로 인한 구문 분석 단계에서의 과다한 부담을 줄이기 위한 전처리 과정으로 사용될 수 있다.

품사 태깅 방법으로는 자연어 처리 분야에서 일반적으로 사용되고 있는 규칙 기반 품사 태깅 방법 및 통계 기반 품사 태깅 방법이 있다. 통계 기반 접근 방법은 실세계 자연어 용례들과 부속 정보를 포함하는 대량의 원시(raw) 또는 태깅된 (tagged) 코퍼스(corpus)를 분석하고, 자연어에 대한 통계 정보를 추출하여 얻은 확률(probability) 또는 불확실성(uncertainty)을 이용하여 어휘적 모호성 문제를 확률적으로 해결하는 방법을 의미한다.

한편, 규칙 기반 접근 방법은 품사 태깅에 적용되는 공통적인 원리나 결정적인 규칙을 찾아내고, 이를 이용하여 어휘적 모호성을 결정적으로 해결하는 방법을 의미한다. 품사 태깅부(221)는 상기 규칙 기반 접근 방법 및 통계 기반 접근 방법과 당업계에서 사용될 수 있는 품사 태깅 방법을 모두 포함하여 상기 품사를 태깅할 수 있다.

구문 해석부(222)는 상기 각 단어를 의미별로 분류하여, 상기 문장을 하나 이상의 어구로 파싱(Parsing)한다. 구문 해석부(222)는 상기 품사 태깅된 각 단어의 의미를 분류하여 각 단어에 대응하는 기본 의미를 태깅할 수 있다. 구문 해석부(222)는 단어의 일반적 의미가 기록된 소정의 워드 센스(Word Sense) 데이터베이스(도시되지 아니함)를 참조하여 상기 단어의 의미를 분류할 수 있다.

구문 해석부(222)는 상기 의미 분류된 단어를 서로 조합하여 상기 문장을 하나 이상의 어구로 파싱할 수 있다. 즉, 상기 각 단어에 태깅된 품사 또는 의미를 이용하여 상기 각 단어를 서로 조합할 수 있다. 예를 들어, 상기 문장이 "텔레비전 채널을 11번으로 틀어줘" 인 경우, 상기 문장이 포함하는 단어는 "텔레비전", "채널", "을", "11", "번", "으로", "틀어줘" 가 될 수 있다. 이 때, 구문 해석부(222)는 상기 각 단어에 태깅된 품사 또는 의미분류를 통해 상기 각 단어를 서로 동일 역할을 하는 단어끼리 조합하여 "텔레비전", "채널을", "11번으로", "틀어줘" 라는 어구로 파싱할 수 있다.

격틀 해석부(223)는 상기 각 어구를 테마(Theme), 파라미터(Parameter), 및 액션(Action) 별로 각각 분류하여, 상기 문장에 대응하는 하나 이상의 시맨틱 프레임(Semantic Frame)을 생성한다. 격틀 해석부(223)는 구문 해석부(222)에 의해 상기 어구가 파싱되면, 상기 각 어구에 해당하는 시맨틱 슬롯을 설정하여 대입함으로써 상기 문장에 대응하는 시맨틱 프레임을 생성할 수 있다. 상기 시맨틱 슬롯은 테마 슬롯, 파라미터 슬롯, 및 액션 슬롯으로 설정될 수 있다. 이는 도 3을 참조하여 그 일례를 상세히 설명한다.

도 3은 본 발명의 일실시예에 따른 시맨틱 프레임의 일례를 도시한 도면이다.

도 3에 도시된 바와 같이, 본 발명의 일실시예에 따른 시맨틱 프레임은 테마 슬롯, 파라미터 슬롯, 및 액션 슬롯을 포함하여 구성될 수 있다. 또한, 각 슬롯에 대응하는 센스 코드(Sense Code), 발화값(Uttered Value), 해석된 값(Resolved Value)이 각각 설정될 수 있다.

사용자가 발화한 문장이 예를 들어, "텔레비전 채널 18번 변경해" 인 경우, 상기 문장은 구문 해석부(222)에 의해 "텔레비전", "채널", "18번", "변경해" 라는 어구로 각각 파싱될 수 있다. 격틀 해석부(223)는 상기 각 어구가 적용되는 슬롯 타입을 결정한다. 즉, "텔레비전" 및 "18번"은 파라미터 슬롯에 적용될 수 있고, "채널"은 테마 슬롯에 적용될 수 있으며, "변경해"는 액션 슬롯에 적용될 수 있다.

상기와 같이 각 어구가 각각의 시맨틱 슬롯에 적용되면, 격틀 해석부(223)는 상기 각 어구를 재해석할 수 있다. 즉, 파라미터 슬롯에 적용된 "텔레비전" 이라는 어구는 "TV" 로 재해석될 수 있고, 파라미터 슬롯에 적용된 "18번" 이라는 어구는 "18" 로 재해석될 수 있다. 이와 같이, 격틀 해석부(223)는 각 어구를 시스템이 인식할 수 있는 일종의 도메인 의존적인 언어로 재해석하여 시맨틱 프레임을 생성할 수 있다.

또한, 격틀 해석부(223)는 하나의 문장에 대응하여 복수 개의 시맨틱 프레임을 생성할 수 있다. 즉, 각 어구를 적용하는 시맨틱 슬롯을 서로 달리함으로써, 복수 개의 시맨틱 프레임을 각각 생성할 수도 있다.

상기와 같은 시맨틱 프레임의 생성을 위하여, 격틀 해석부(223)는 하나 이상의 제어 대상 기기(예를 들어, TV, 냉장고, 로봇, 에어컨, 비디오 등) 각각에 대하여 센스 코드가 다양한 방법으로 미리 설정되어 있는 하나 이상의 시맨틱 프레임을 유지하고 있을 수 있다.

다시 도 2에서, 대화 관리 모듈(230)은 문맥 정보부(231), 사용자 의도 분석부(232), 응답 제어부(233), 레퍼런스 데이터베이스(234), 포커스 스택(235), 및 문맥 모델 데이터베이스(236)를 포함하여 구성될 수 있다.

대화 관리 모듈(230)은 상기 각 시맨틱 폼에 대응하는 상기 문장의 의도(Intention)를 분석하고, 상기 각 문장 의도에 대응하는 액션(Action)의 수행 가능 여부에 따라 소정의 문장 의도를 선택하여 상기 문장 의도에 대응하는 시스템 응답(System Response)을 생성하는 동작을 수행할 수 있다.

문맥 정보부(231)는 레퍼런스(Reference) 데이터베이스(234)를 참조하여 상 기 시맨틱 폼의 각 어구를 유효한 어구 또는 디폴트 값으로 변환한다. 이를 위하여, 레퍼런스 데이터베이스(234)는 상기 테마(Theme), 파라미터(Parameter), 및 액션(Action) 중 하나가 기준 도메인(Domain)으로 설정되고, 소정의 어구에 대하여 설정된 기준 도메인 이외의 도메인에 대응하는 하나 이상의 유효 어구 또는 디폴트 값이 기록된 레퍼런스(Reference) 테이블을 유지할 수 있다. 이는 도 4 및 도 5를 참조하여 그 일례를 상세히 설명한다.

도 4는 본 발명의 일실시예에 따라 도메인 액션이 채널 변경으로 설정된 레퍼런스 테이블의 일례를 도시한 도면이다.

도 4에는 사용자가 발화 내용이 채널 설정에 관한 경우에 따른 레퍼런스 테이블이 도시되어 있다. 즉, 시맨틱 프레임의 테마 슬롯의 어구가 채널에 관한 것이고, 액션 슬롯의 어구가 "틀어줘" "변경해" 등의 어구로 설정된 경우 상기 레퍼런스 테이블이 로딩될 수 있다. 이러한 경우, 상기 레퍼런스 테이블에서의 도메인 액션(Domain Action)은 "setChannel"로 설정될 수 있다.

사용자의 발화 내용에 따른 문장이 예를 들어 "MBC 틀어줘" 인 경우, 상기와 같이 도메인 액션이 "setChannel"인 레퍼런스 테이블이 로딩될 수 있다. 상기 레퍼런스 테이블에서, 상기 문장 중 "MBC"는 MBC 그대로 인식될 수 있으며, "11"이라는 채널 정보로 인식될 수도 있다.

또한, 상기 문장은 목표 대상을 포함하고 있지 않다. 즉, MBC로 채널을 변경해야 될 대상, 즉, 복수 개의 TV 중 어떠한 TV의 채널을 변경할 것인지에 대한 정보가 누락되어 있다. 이러한 경우, 도 4의 레퍼런스 테이블에 도시된 바와 같 이, 문맥 정보부(231)는 상기 TV 정보를 디폴트 값(Default Value)인 "TV#1"으로 설정할 수 있다.

도 5는 본 발명의 일실시예에 따라 도메인 액션이 예약 녹화로 설정된 레퍼런스 테이블의 일례를 도시한 도면이다.

사용자의 발화 내용에 따른 문장이 예를 들어 "대장금 녹화"인 경우, 문맥 정보부(231)는 도메인 액션이 "setRecordBooking" 으로 설정된 레퍼런스 테이블을 레퍼런스 데이터베이스(234)로부터 로딩할 수 있다. 도 5의 레퍼런스 테이블에서, 타겟(target) 정보는 도 4의 경우에서와 같이 디폴트 값으로 설정될 수도 있고, 사용자에게 질의하여 설정될 수도 있다.

채널(absolute-channel) 정보는 소정의 서버를 통해 수신할 수 있다. 즉, 상기 문장에는 채널 정보가 명시되어 있지 않다. 따라서, 문맥 정보부(231)는 TV 프로그램 정보를 제공하는 소정의 서버에 접속하여 상기 서버로부터 "대장금"에 대응하는 채널 정보가 "11"임을 수신하여 상기 레퍼런스 테이블에 설정할 수 있다.

녹화 시작 시간(start-time) 정보 및 녹화 종료 시간(end-time) 정보 또한 상기 서버를 통해 수신할 수 있다. 문맥 정보부(231)는 상기 서버로부터 "대장금"의 방영 시간이 "월요일 10:00부터 11:00"임을 수신하여 상기 레퍼런스 테이블에 설정할 수 있다.

상기 서버는 외부에 위치하는 서버일 수도 있고, 본 발명의 음성 대화 서비스 장치가 포함하는 소정의 메모리 수단으로 구현될 수도 있다. 예를 들어, 데이터 방송의 경우, 상기 음성 대화 서비스 장치는 각 방송국으로부터 수시로 다양한 프로그램 정보를 수신하여 상기 메모리 수단에 기록하고 유지할 수 있다.

도 4 및 도 5를 통해 설명한 바와 같이, 문맥 정보부(231)는 상기 문장의 각 어구를 레퍼런스 테이블에 적용하여 상기 문장을 해석함으로써, 상기 문장의 각 어구를 해석하기 용이한 유효 어구 또는 디폴트 값으로 변환할 수 있다.

또한, 문맥 정보부(231)는 상기 사용자의 이전 발화 내용을 참조하여 상기 문장에서 생략된 것으로 판단되는 어구를 유추하고 상기 문장을 복원할 수 있다. 상기 사용자의 이전 발화 내용은 포커스 스택(Focus Stack)(235)에 기록되어 유지될 수 있다. 포커스 스택(235)에는 상기 레퍼런스 테이블의 경우와 같이, 도메인 액션 또는 인자(Argument)의 유형에 따라 상기 사용자의 이전 발화 내용이 기록될 수 있다. 또한, 문맥 정보부(231)는 포커스 스택(235)에 가장 최근에 기록된 값으로부터 상기 문장의 생략된 인자 값을 유추할 수 있다.

상술한 바와 같이, 문맥 정보부(231)는 레퍼런스 데이터베이스(234) 및 포커스 스택(235)을 참조하여 상기 문장을 복원할 수 있다. 이 때, 상기 문장 복원 후에도, 상기 문장에 의미가 모호한 어구가 포함되어 있거나 생략된 값이 있는 것으로 판단되는 경우, 응답 제어부(233)는 상기 의미가 모호한 어구 또는 생략된 값에 대한 질의를 사용자에게 할 수 있다. 상기 질의는 음성으로 구현될 수 있다.

다시 도 2에서, 사용자 의도 분석부(232)는 상기 복원된 문장에 따른 상기 사용자의 의도를 분석하여 하나 이상의 액션 리스트를 생성하고, 상기 각 액션의 수행 가능 여부를 판단하여 소정의 액션을 선택한다. 사용자 의도 분석부(232)는 문맥(Context) 모델 데이터베이스(236)을 참조하여 상기 문장에 따른 상기 사용자 의 의도를 분석할 수 있다.

문맥 모델 데이터베이스(236)에는 하나 이상의 어구에 각각 대응하는 인자(Argument) 및 소정의 사용자 각각에 대응하여 상기 사용자의 이전 발화 내용에 따른 인자의 조합인 서브 다이얼로그(Sub-dialogue)가 기록되어 유지될 수 있다.

이 때, 사용자 의도 분석부(232)는 문맥 모델 데이터베이스(236)를 참조하여, 상기 문장이 포함하는 각 어구에 대응하는 인자를 추출하고, 상기 추출한 인자와 연관된 서브 다이얼로그를 참조하여 상기 문장에 따른 상기 사용자의 의도를 분석할 수 있다.

예를 들어, 상기 문장이 "음성 메시지 남겨줄래" 인 경우, 사용자 의도 분석부(232)는 문맥 모델 데이터베이스(236)을 참조하여 "남겨줄래" 라는 어구에 대응하는 "deliverVoiceMessage"라는 도메인 액션의 서브 다이얼로그를 생성할 수 있다.

따라서, 사용자 의도 분석부(232)는 상기 레퍼런스 테이블의 경우에서와 같이, 상기 서브 다이얼로그를 통해 사용자의 의도를 분석할 수 있다. 이 때, 상기 서브 다이얼로그에는 대상(Opponent)가 생략되었음을 인지하고, 사용자 의도 분석부(232)는 응답 제어부(233)를 통해 상기 사용자에게 상기 대상을 질의하고 사용자의 응답으로부터 상기 대상을 설정할 수 있다.

또한, 사용자 의도 분석부(232)는 상기 설정된 인자와 연관된 서브 다이얼로그가 문맥 모델 데이터베이스(236)에 존재하지 않는 경우, 상기 인자에 대응하는 서브 다이얼로그를 생성하여 상기 문맥 모델 데이터베이스에 기록할 수 있다.

또한, 사용자 의도 분석부(232)는 상기 사용자 의도를 하나 이상으로 분석할 수 있다. 즉, 상기 인자의 조합 방법이나 생략된 문구에 따른 의미의 모호성에 따라 상기 사용자 의도는 하나 이상 다양하게 설정될 수 있다. 예를 들어, 사용자의 발화 내용이 "TV" 인 경우, 사용자 의도 분석부(232)는 TV를 온(On)시키는 경우 및 오프(Off) 시키는 경우에 따른 사용자 의도를 각각 설정할 수 있다.

사용자 의도 분석부(232)는 상기 하나 이상의 사용자 의도에 대응하는 액션 리스트를 생성한다. 이 후, 사용자 의도 분석부(232)는 상기 각 액션의 수행 가능 여부를 판단하여 소정의 액션을 선택한다. 상기 예에서, 사용자 의도 분석부(232)는 TV를 켜는 것을 내용으로 하는 액션 및 TV를 끄는 것을 내용으로 하는 액션을 포함하는 액션 리스트를 생성할 수 있다. 이 후, 사용자 의도 분석부(232)는 TV의 현재 상태가 온 상태인지 오프 상태인지를 판독한다. 상기 판독 결과, TV가 온 상태인 경우, 사용자 의도 분석부(232)는 TV를 오프시키는 것을 내용으로 하는 액션을 선택할 수 있다. 물론, 이와 같은 경우에도 사용자 의도 분석부(232)는 TV를 온시킬 것인지 오프시킬 것인지에 대한 질의를 사용자에게 할 수도 있다.

상기와 같이 사용자 의도 분석부(232)에 의해 상기 사용자 의도에 따른 액션이 선택되면, 서비스 실행 제어모듈(240)은 상기 선택된 액션에 따른 서비스가 실행되도록 상기 서비스를 제공하는 소정의 기기를 제어할 수 있다.

이와 같이, 본 발명에 따른 음성 대화 서비스 장치는 시맨틱 슬롯(Semantic Slot) 해석을 통해 사용자의 대화를 해석하고 동적 문맥(Context) 관리를 통해 사용자의 의도를 파악할 수 있다. 따라서, 사용자의 다양한 발화 유형에 관계없이 항상 보다 정확하게 상기 사용자가 발화한 내용에 따른 사용자 의도를 파악할 수 있다. 또한, 사용자는 시스템이 인식 가능한 발화 유형을 일일이 기억할 필요 없이 즉석에서 하고 싶은 말만 하는 것으로도 서비스를 제공받을 수 있다. 또한, 서브 다이얼로그(Sub-Dialogue)를 통해 사용자의 발화를 처리할 수 있고, 지능적이고 동적인 음성 대화 서비스를 제공할 수 있는 효과를 얻을 수 있다.

도 6은 본 발명의 일실시예에 따른 음성 대화 서비스 방법의 흐름을 도시한 순서도이다.

본 발명의 일실시예에 따른 음성 대화 서비스 장치는 사용자가 발화한 음성은 인식하여 텍스트로 변환한다(단계(610)). 상기 음성 대화 서비스 장치는 상기 텍스트에 기록된 문장이 포함하는 단어 각각에 품사를 태깅(Tagging)한다(단계(620)). 상기 품사 태깅 후, 상기 음성 대화 서비스 장치는 상기 각 단어의 의미를 분류하여 상기 문장을 구문을 해석한다(단계(630)).

상기 음성 대화 서비스 장치는 상기 구문 해석 결과에 따라 상기 문장에 대응하는 하나 이상의 시맨틱 프레임을 생성한다(단계(640)). 상기 음성 대화 서비스 장치는 상기 각 시맨틱 폼에 대응하는 상기 문장의 의도(Intention)를 분석하고(단계(650)), 상기 각 문장 의도에 대응하는 액션(Action)의 수행 가능 여부에 따라 소정의 문장 의도를 선택한다(단계(660)). 이 후 상기 음성 대화 서비스 장치는 상기 선택된 문장 의도에 따른 서비스가 실행되도록 소정의 기기를 제어한다(단계(670)). 또한, 단계(670)에서 상기 음성 대화 서비스 장치는 상기 문장 의도에 대응하는 소정의 시스템 응답(System Response)을 생성하여 상기 사용자에게 제공 할 수도 있다. 상기 시스템 응답은 상기 문자의 모호성이나 서비스 실행 불가 등에 따른 사용자 질의를 포함하는 개념이다.

도 6을 통해 설명한 본 발명에 따른 음성 대화 서비스 방법은 도 2 내지 도 5를 통해 설명한 본 발명에 따른 음성 대화 서비스 장치의 구성에 따른 동작을 모두 포함하여 구현될 수 있다.

본 발명에 따른 음성 대화 서비스 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 상기 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행 하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

지금까지 본 발명에 따른 구체적인 실시예에 관하여 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서는 여러 가지 변형이 가능함은 물론이다.

그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 안되며, 후술하는 특허청구의 범위뿐 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.

본 발명의 음성 대화 서비스 장치 및 방법에 따르면, 시맨틱 슬롯(Semantic Slot) 인식을 이용하여 자연어를 포함하는 사용자 발화 내용을 해석함으로써, 사용자의 발화 유형에 관계 없이 보다 정확하게 사용자의 발화 내용을 인식할 수 있는 효과를 얻을 수 있다.

또한, 본 발명의 음성 대화 서비스 장치 및 방법에 따르면, 동적 문맥(Context) 관리를 통해 사용자 발화 내용을 해석함으로써, 사용자의 발화 유형에 관계 없이 보다 정확하게 사용자의 의도를 분석할 수 있는 효과를 얻을 수 있다.

또한, 본 발명의 음성 대화 서비스 장치 및 방법에 따르면, 시맨틱 슬롯(Semantic Slot) 인식 및 문맥(Context) 관리를 통해 사용자 발화 내용을 정확하게 인식함으로써, 사용자가 시스템이 인식 가능한 발화 유형을 일일이 기억할 필요 없이 즉석에서 생각나는 대로 소정의 자연어를 발화하여도 항상 정확하게 상기 사용자의 의도를 파악하고 그에 따른 서비스를 실행할 수 있는 효과를 얻을 수 있다.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명 사상은 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.

Claims

소정의 텍스트에 기록된 문장의 형태소(Morpheme)를 분석하여 상기 문장이 포함하는 단어 각각에 품사(POS: Part Of Speech)를 태깅(Tagging)하는 품사 태깅부, 상기 각 단어를 의미별로 분류하여, 상기 문장을 하나 이상의 어구로 파싱(Parsing)하는 구문 해석부, 및 상기 각 어구를 테마(Theme), 파라미터(Parameter), 및 액션(Action) 별로 각각 분류하여 상기 문장에 대응하는 하나 이상의 시맨틱 프레임(Semantic Frame)을 생성하는 격틀 해석부를 포함하는 언어 분석 모듈; 및

상기 각 시맨틱 프레임에 대응하는 상기 문장의 의도(Intention)를 분석하고, 상기 각 문장 의도에 대응하는 액션(Action)의 수행 가능 여부에 따라 소정의 문장 의도를 선택하여 상기 문장 의도에 대응하는 시스템 응답(System Response)을 생성하는 대화 관리 모듈

을 포함하는 것을 특징으로 하는 음성 대화 서비스 장치.
제1항에 있어서,

사용자가 발화(Uttering)한 음성을 인식하여 텍스트로 변환하는 음성 인식 모듈

을 더 포함하고,

상기 텍스트는 상기 사용자가 발화한 하나 이상의 자연어를 포함하는 것을 특징으로 하는 음성 대화 서비스 장치.
삭제
제1항에 있어서,

상기 대화 관리 모듈은,

소정의 데이터베이스를 참조하여 상기 시맨틱 프레임의 각 어구를 유효한 어구 또는 디폴트 값으로 변환하거나, 상기 문장에서 생략된 것으로 판단되는 어구를 유추하여 상기 문장을 복원하는 문맥 정보부; 및

상기 복원된 문장에 따른 사용자의 의도를 분석하여 하나 이상의 액션 리스트를 생성하고, 상기 각 액션의 수행 가능 여부를 판단하여 소정의 액션을 선택하는 사용자 의도 분석부

를 포함하는 것을 특징으로 하는 음성 대화 서비스 장치.
제4항에 있어서,

상기 데이터베이스는,

상기 테마(Theme), 파라미터(Parameter), 및 액션(Action) 중 하나가 기준 도메인(Domain)으로 설정되고, 소정의 어구에 대하여 설정된 기준 도메인 이외의 도메인에 대응하는 하나 이상의 유효 어구 또는 디폴트 값이 기록된 레퍼런스(Reference) 테이블을 유지하는 레퍼런스 데이터베이스; 및

하나 이상의 사용자에 대응하여 이전 발화 내용의 분석 결과가 각각 기록된 포커스 스택(Focus Stack)

을 포함하는 것을 특징으로 하는 음성 대화 서비스 장치.
제4항에 있어서,

상기 문맥 정보부가 상기 문장에 포함된 소정의 어구를 유효한 어구 또는 디폴트 값으로 변환하지 못하거나, 상기 문장에서 생략된 것으로 판단되는 어구를 유추하지 못하는 경우, 상기 사용자에게 상기 어구 또는 상기 생략된 것으로 판단되는 어구에 대한 질의 내용을 포함하는 음성을 제공하는 응답 제어부

를 더 포함하는 것을 특징으로 하는 음성 대화 서비스 장치.
제4항에 있어서,

하나 이상의 어구에 각각 대응하는 인자(Argument) 및 소정의 사용자 각각에 대응하여 상기 사용자의 이전 발화 내용에 따른 인자의 조합인 서브 다이얼로그가 기록된 문맥 모델 데이터베이스

를 더 포함하고,

상기 사용자 의도 분석부는 상기 문맥 모델 데이터베이스를 참조하여, 상기 문장이 포함하는 각 어구에 대응하는 인자를 추출하고, 상기 추출한 인자와 연관된 서브 다이얼로그를 참조하여 상기 문장에 따른 상기 사용자의 의도를 분석하는 것을 특징으로 하는 음성 대화 서비스 장치.
제7항에 있어서,

상기 사용자 의도 분석부는 상기 추출한 인자와 연관된 서브 다이얼로그가 상기 문맥 모델 데이터베이스에 존재하지 않는 경우, 상기 추출한 인자에 대응하는 서브 다이얼로그를 생성하여 상기 문맥 모델 데이터베이스에 기록하는 것을 특징으로 하는 음성 대화 서비스 장치.
제4항에 있어서,

상기 사용자 의도 분석부는 상기 각 액션 리스트에 대응하는 액션을 수행할 장치(Device)의 현재 상태를 확인하여 상기 액션의 수행 가능 여부를 판단하는 것을 특징으로 하는 음성 대화 서비스 장치.
소정의 텍스트에 기록된 문장의 형태소(Morpheme)를 분석하여 상기 문장이 포함하는 단어 각각에 품사(POS: Part Of Speech)를 태깅(Tagging)하는 단계;

상기 각 단어를 의미별로 분류하여, 상기 문장을 하나 이상의 어구로 파싱(Parsing)하는 단계;

상기 각 어구를 테마(Theme), 파라미터(Parameter), 및 액션(Action) 별로 각각 분류하여 상기 문장에 대응하는 하나 이상의 시맨틱 프레임(Semantic Frame)을 생성하는 단계;

상기 각 시맨틱 프레임에 대응하는 상기 문장의 의도(Intention)를 분석하는 단계;

상기 각 문장 의도에 대응하는 액션(Action)의 수행 가능 여부에 따라 소정의 문장 의도를 선택하는 단계; 및

상기 문장 의도에 대응하는 시스템 응답(System Response)을 생성하는 단계

를 포함하는 것을 특징으로 하는 음성 대화 서비스 방법.
제10항의 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.