KR101567154B1

KR101567154B1 - 다중 사용자 기반의 대화 처리 방법 및 이를 수행하는 장치

Info

Publication number: KR101567154B1
Application number: KR1020130152483A
Authority: KR
Inventors: 이근배; 송재윤; 한상도; 이규송
Original assignee: 포항공과대학교 산학협력단
Priority date: 2013-12-09
Filing date: 2013-12-09
Publication date: 2015-11-09
Also published as: KR20150066882A

Abstract

다중 사용자 기반의 대화 처리 방법 및 이를 수행하는 장치에 대한 기술이 개시된다. 다중 사용자 기반의 대화 처리 방법은 적어도 하나의 센서로부터 수집한 다중 사용자의 영상 또는 음성을 기반으로 다중 사용자 중에서 발화자를 인식하는 단계, 적어도 하나의 센서를 이용하여 발화자의 음성을 녹음하고 녹음된 발화자의 음성을 분석하여 발화자의 발화 의도를 추출하는 단계 및 미리 구축된 대화 이력 모델을 기반으로 발화자의 발화 의도에 상응하는 응답을 생성하는 단계를 포함한다. 따라서, 기존의 단일 사용자 기반의 대화 처리 시스템과는 달리 다수의 사용자에게 자연스럽고 직관적인 대화를 제공함과 동시에 발화자의 발화 의도에 상응하는 정확한 응답을 제공할 수 있다.

Description

다중 사용자 기반의 대화 처리 방법 및 이를 수행하는 장치{METHOD FOR PROCESSING DIALOGUE BASED ON MULTIPLE USER AND APPARATUS FOR PERFORMING THE SAME}

본 발명은 디지털 신호 처리에 기반한 대화 처리 시스템에 관한 것으로, 더욱 상세하게는, 다중 사용자 중에서 발화자를 인식하고 발화자의 발화 의도에 상응하는 응답을 제공하는 다중 사용자 기반의 대화 처리 방법 및 이를 수행하는 장치에 관한 것이다.

최근 정보 처리 기술이 급속하게 발달하여 스마트폰, 태블릿 PC, PDA(Personal Digital Assistant) 등의 정보 처리 장치에서 텍스트 또는 음성과 같은 언어적 요소뿐만 아니라 몸짓, 손짓 또는 제스처와 같은 비언어적인 요소를 인식하여 처리할 수 있게됨에 따라 정보 처리 장치와 사용자 간의 상호 작용을 제공하는 대화 처리 시스템이 활발하게 연구되고 있다.

특히, 빅데이터(Big data) 시대가 도래함에 따라 대화 처리 시스템을 통해 사용자의 의도에 부합하는 정확한 정보를 제공할 수 있다는 점에서 콘텐츠 검색, 지능형 로봇, 차세대 PC, 텔레매틱스, 홈네트워크와 같은 다양한 분야에서 활용될 것으로 기대된다.

일반적으로 대화 처리 시스템은 사용자가 발화를 시작하기 전에 미리 신체적 접촉을 통해 발화할 것임을 알리는 신호를 입력한 후, 시스템에 입력 신호가 감지됨에 따라 사용자의 발화를 인식하는 Push-To-Talk 방식을 적용하였다. 그러나, Push-To-Talk 방식을 적용한 대화 처리 시스템으로는 사용자와 정보 처리 장치 간의 직관적이고 자연스러운 대화를 제공할 수 없다는 문제가 있다.

그리하여, 발화 시작 전에 사용자에 의해 신호를 입력 받는 과정없이 정보 처리 장치에 탑재된 센서를 이용하여 사용자의 동공, 입의 모양 및 정보 처리 장치의 흔들림과 같은 입력 데이터를 수집하여 사용자가 발화할 의도가 있는지를 파악함으로써 발화를 인식하는 방법이 대화 처리 시스템에 적용되었다.

그러나, 이와 같은 종래의 대화 처리 시스템은 정보 처리 장치와 단일 사용자가 1 대 1로 상호 작용하는 경우에 한하여 대화를 처리하므로 다중 사용자 환경에 적용할 수 없다는 문제가 있다.

즉, 종래의 대화 처리 시스템은 다수의 사용자 중에서 누가 발화하였는지 발화자를 정확하게 인식하지 못하기 때문에 대화의 흐름이 끊기거나 대화의 내용과 상관없는 응답이 사용자에게 제공될 수 있다는 점에서 대화 처리에 대한 정확성 및 효율성이 떨어진다는 문제가 있다.

상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 기존의 단일 사용자 기반의 대화 처리 시스템과는 달리 다중 사용자의 사용자 별로 대화 이력을 관리함으로써 발화자의 발화 의도에 상응하는 정확한 응답을 제공할 수 있는 다중 사용자 기반의 대화 처리 방법을 제공하는 데 있다.

또한, 본 발명의 다른 목적은, 그래픽 아이콘을 이용하여 발화자의 발화 의도에 상응하는 응답을 제공함으로써 보다 자연스럽고 직관적인 대화를 제공할 수 있는 다중 사용자 기반의 대화 처리 장치를 제공하는 데 있다.

상기 목적을 달성하기 위한 본 발명의 일 측면에 따른 다중 사용자 기반의 대화 처리 방법은, 디지털 신호 처리가 가능한 정보 처리 장치에서 수행되며 적어도 하나의 센서로부터 수집한 다중 사용자의 영상 또는 음성을 기반으로 다중 사용자 중에서 발화자를 인식하는 단계, 적어도 하나의 센서를 이용하여 발화자의 음성을 녹음하고, 녹음된 발화자의 음성을 분석하여 발화자의 발화 의도를 추출하는 단계 및 미리 구축된 대화 이력 모델을 기반으로 발화자의 발화 의도에 상응하는 응답을 생성하는 단계를 포함한다.

여기에서, 다중 사용자 기반의 대화 처리 방법은 그래픽 아이콘을 통해 발화자를 향한 시선 및 모션 중 적어도 하나를 디스플레이함과 동시에 발화자에게 발화 의도에 상응하는 응답을 제공하는 단계를 더 포함할 수 있다.

여기에서, 다중 사용자 중에서 발화자를 인식하는 단계는 다중 사용자의 영상을 분석하여 입 모양이 변화하거나 일정 시간 동안 동공이 정보 처리 장치의 디스플레이 장치를 응시하거나 정보 처리 장치를 향해 모션을 취하는 적어도 하나의 사용자를 대화 참여자로 판별할 수 있다.

여기에서, 다중 사용자 중에서 발화자를 인식하는 단계는 대화 참여자 중에서 적어도 하나의 센서를 통해 음성이 수집된 사용자를 발화자로 인식하고 다중 사용자의 영상 또는 음성으로부터 발화자의 얼굴 또는 음성의 특징을 추출하여 발화자를 식별할 수 있다.

여기에서, 발화자의 발화 의도를 추출하는 단계는 녹음된 발화자의 음성을 텍스트로 변환하고 텍스트로부터 발화자의 발화 의도를 추출할 수 있다.

여기에서, 대화 이력 모델은 다중 사용자의 사용자별로 발화가 진행되는 상황에서의 영상 및 음성을 수집하여 저장된 사용자별 대화 이력과 대화 말뭉치(corpus)를 확률 기반 모델 또는 기계 학습 기반으로 훈련함으로써 구축될 수 있다.

여기에서, 발화자의 발화 의도에 상응하는 응답을 생성하는 단계는 미리 구축된 대화 이력 모델에서 발화자에 상응하는 사용자별 대화 이력을 추출하고 추출된 사용자별 대화 이력을 기반으로 발화자의 발화 의도에 상응하는 응답을 생성할 수 있다.

또한, 상기 목적을 달성하기 위한 본 발명의 다른 측면에 따른 다중 사용자 기반의 대화 처리 장치는, 디지털 신호 처리가 가능한 정보 처리 장치에 구현되며 적어도 하나의 센서로부터 수집한 다중 사용자의 영상 또는 음성을 기반으로 다중 사용자 중에서 발화자를 인식하는 발화자 인식부, 적어도 하나의 센서를 이용하여 발화자의 음성을 녹음하고, 녹음된 발화자의 음성을 분석하여 발화자의 발화 의도를 추출하는 발화의도 추출부 및 미리 구축된 대화 이력 모델을 기반으로 발화자의 발화 의도에 상응하는 응답을 생성하는 응답 생성부를 포함한다.

여기에서, 다중 사용자 기반의 대화 처리 장치는 그래픽 아이콘을 통해 발화자를 향한 시선 및 모션 중 적어도 하나를 디스플레이함과 동시에 발화자에게 발화 의도에 상응하는 응답을 제공하는 응답 제공부를 더 포함할 수 있다.

상술한 바와 같은 본 발명의 실시예에 따른 다중 사용자 기반의 대화 처리 방법 및 이를 수행하는 장치에 따르면, 기존의 단일 사용자 기반의 대화 처리 시스템과는 달리 다중 사용자의 사용자 별로 대화 이력을 관리함으로써 발화자의 발화 의도에 상응하는 정확한 응답을 제공할 수 있다.

또한, 그래픽 아이콘을 이용하여 발화자의 발화 의도에 상응하는 응답을 제공함으로써 보다 자연스럽고 직관적인 대화를 제공할 수 있다.

도 1은 본 발명의 실시예에 따른 다중 사용자 기반의 대화 처리 방법을 설명하는 흐름도이다.
도 2는 본 발명의 실시예에 따른 다중 사용자 중에서 발화자를 인식하는 것을 설명하는 예시도이다.
도 3은 본 발명의 실시예에 따른 대화 이력 모델을 구축하는 것을 설명하는 흐름도이다.
도 4는 본 발명의 실시예에 따른 그래픽 아이콘을 통해 발화자에게 응답을 제공하는 것을 설명하는 예시도이다.
도 5는 본 발명의 실시예에 따른 다중 사용자 기반의 대화 처리 장치를 나타내는 블록도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하에서 후술할 다중 사용자 기반의 대화 처리 방법 및 이를 수행하는 장치는 디지털 신호 처리가 가능한 적어도 하나의 정보 처리 장치에 의해 수행될 수 있다.

적어도 하나의 정보 처리 장치는 서버 또는 다른 정보 처리 장치와 직접적으로 연결되거나 시리얼, USB(Universal Serial Bus), 블루투스(Bluetooth), 와이파이(WiFi, Wireless Fidelity), 3G(3Generation), LTE(Long Term Evolution)과 같은 유무선 네트워크로 연결되어 다중 사용자의 대화를 처리할 수 있다.

여기서, 정보 처리 장치는 멀티모달 인터페이스(Multimodal Interface)를 활용할 수 있도록 적어도 하나의 센서를 탑재하고 센서를 통해 입력된 신호를 처리할 수 있는 정보 처리 기능을 구비한 스마트폰, 태블릿 PC, PDA(Personal Digital Assistant), 노트북, 컴퓨터, 스마트 가전 기기 및 시스템 로봇과 같은 사용자 단말을 의미할 수 있으나 이에 한정되지 않고 사용자와의 상호 작용이 필요한 다양한 기기로 확장될 수 있다.

이 때, 멀티모달 인터페이스(Multimodal Interface)란 터치스크린, 키패드, 키보드와 같은 입력 장치를 통해 입력 받은 텍스트나 음성뿐만 아니라 정보 처리 장치에 탑재된 각종 센서를 통해 수신한 사용자의 영상 또는 정보 처리 장치의 움직임 정보를 이용하여 사용자와 정보 처리 장치 간의 대화를 지원할 수 있는 사용자 인터페이스를 의미할 수 있으나 이에 한정되는 것은 아니다.

종래의 대화 처리 시스템에서는 단일 사용자에 대한 대화를 처리하기 때문에 다수의 사용자가 동시에 발화를 진행하면 발화를 정확하게 인식하지 못하여 대화의 흐름이 끊기거나 사용자의 발화 의도와 상관없는 정보가 제공될 수 있다는 문제가 있다.

이와 달리 본 발명에서 제시하는 대화 처리 방법 및 이를 수행하는 장치는 다중 사용자의 대화 처리를 지원하기 위해 사용자 별로 대화를 관리함으로써 다중 사용자 각각에게 발화 의도에 상응하는 정확한 응답을 제공함과 동시에 보다 자연스럽고 직관적인 대화를 제공할 수 있다.

이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 1은 본 발명의 실시예에 따른 다중 사용자 기반의 대화 처리 방법을 설명하는 흐름도이고, 도 2는 본 발명의 실시예에 따른 다중 사용자 중에서 발화자를 인식하는 것을 설명하는 예시도이다.

또한, 도 3은 본 발명의 실시예에 따른 대화 이력 모델을 구축하는 것을 설명하는 흐름도이며, 도 4는 본 발명의 실시예에 따른 그래픽 아이콘을 통해 발화자에게 응답을 제공하는 것을 설명하는 예시도이다.

도 1을 참조하면, 다중 사용자 기반의 대화 처리 방법은 다중 사용자 중에서 발화자를 인식하는 단계(S100), 발화자의 음성을 녹음하고 녹음된 발화자의 음성을 분석하여 발화자의 발화 의도를 추출하는 단계(S110) 및 미리 구축된 대화 이력 모델을 기반으로 발화자의 발화 의도에 상응하는 응답을 생성하는 단계(S120)를 포함할 수 있다. 또한, 그래픽 아이콘을 통해 발화자에게 발화 의도에 상응하는 응답을 제공하는 단계(S130)를 더 포함할 수 있다.

여기서, 다중 사용자 기반의 대화 처리 방법은 디지털 신호 처리가 가능한 정보 처리 장치에서 수행될 수 있으며, 정보 처리 장치에 탑재된 적어도 하나의 센서로부터 다중 사용자의 영상 또는 음성을 수집할 수 있다. 이 때 수집된 다중 사용자의 영상 또는 음성을 기반으로 다중 사용자 중에서 발화를 진행하는 발화자를 인식할 수 있다(S100).

발화자를 인식하기 위해서는 먼저, 다중 사용자의 영상을 분석하여 정보 처리 장치(10)와 대화를 진행 중이거나 대화할 의도가 있는 적어도 하나의 사용자를 대화 참여자로 판별할 수 있다.

구체적으로 예를 들어, 도 2a에 도시된 바와 같이 정보 처리 장치(10)에 탑재된 카메라(11)로부터 수집한 다중 사용자의 영상에서 다중 사용자 각각의 입 모양을 추출할 수 있다. 이 때, 추출된 다중 사용자 각각의 입 모양을 분석하여 입이 열려있는 적어도 하나의 사용자를 대화 참여자로 판별할 수 있다.

또한, 도 2b와 같이 정보 처리 장치(10)에 탑재된 카메라(11)로부터 수집한 다중 사용자의 영상에서 다중 사용자 각각에 대한 동공의 위치를 추출할 수 있다. 추출된 다중 사용자 각각에 대한 동공의 위치를 분석하여 일정 시간 동안 정보 처리 장치(10)의 디스플레이 장치(12)를 응시하는 적어도 하나의 사용자를 대화 참여자로 판별할 수 있다.

특히, 본 발명에서는 다중 사용자에게 보다 직관적이고 자연스러운 대화 환경을 지원하기 위하여 정보 처리 장치(10)의 디스플레이 장치(12)에 아바타(avatar) 또는 캐릭터(character)와 같은 그래픽 아이콘을 출력할 수 있다. 이에 따라 정보 처리 장치(10)와 대화를 진행 중이거나 대화할 의도가 있는 사용자는 그래픽 아이콘이 출력되는 위치의 디스플레이 장치(12)를 응시할 수 있다.

따라서, 다중 사용자의 사용자 별로 동공이 응시하는 디스플레이 장치(12)의 좌표를 추출하고 그래픽 아이콘이 출력되는 디스플레이 장치(12)의 좌표 범위에 동공의 좌표가 포함되는지를 확인하여 그래픽 아이콘을 응시하는 것으로 판단되는 적어도 하나의 사용자를 대화 참여자로써 판별할 수 있다.

뿐만 아니라, 도 2c와 같이 다중 사용자의 영상에서 사용자의 모션을 분석함으로써 대화 참여자를 판별할 수 있다. 보다 구체적으로, 다중 사용자 영상에서 정보 처리 장치(10)와 대화를 진행함에 따라 사용자가 취할 수 있는 제스처나 손, 팔, 어깨, 머리 등 신체의 움직임을 인식함으로써 대화 참여자를 판별할 수 있다.

이 때, 사용자의 모션을 추출하기 위한 다중 사용자의 영상은 정보 처리 장치(10)에 탑재된 카메라(11)와 같은 이미지 센서뿐만 아니라 사용자의 동작을 감지할 수 있는 깊이 카메라 및 키넥트 카메라를 통해 수집될 수 있다.

여기서는 다중 사용자의 영상에서 추출된 입 모양, 동공의 위치 및 모션을 각각 분석하여 대화 참여자를 판별하였으나 이에 한정되지 않고 입 모양, 동공의 위치 및 모션을 동시에 분석하여 입 모양이 변화함과 동시에 모션을 취하거나 일정 시간 동안 디스플레이 장치(12)를 응시함과 동시에 입 모양이 변화하는 적어도 하나의 사용자를 대화 참여자로써 판별할 수 있다. 또한, 입 모양, 동공의 위치 및 모션에 한정되지 않고 다중 사용자의 영상을 분석하여 대화자를 판별할 수 있는 다양한 방법이 이용될 수 있다.

다중 사용자 중에서 대화 참여자를 판별한 후, 대화 참여자 중에서 마이크와 같은 음성 인식 센서를 통해 음성이 수집된 사용자를 발화자로 인식할 수 있다. 이 때, 발화자 별로 정보 처리 장치(10)와 진행하는 대화의 흐름이 상이할 수 있기 때문에 대화의 흐름이 끊기거나 대화의 내용과 상관없는 응답이 제공되지 않도록 발화자를 식별해야할 필요가 있다.

따라서, 다중 사용자의 영상에서 얼굴의 특징을 추출하거나 다중 사용자의 음성에서 음성의 특징을 추출하여 이를 사용자 별로 기록하고, 이를 기반으로 대화 참여자 중에서 발화자를 식별할 수 있다.

다중 사용자 중에서 발화자가 인식됨에 따라 적어도 하나의 센서를 이용하여 발화자의 음성을 녹음하고 녹음된 발화자의 음성을 분석하여 발화자의 발화 의도를 추출할 수 있다(S110).

여기서, 발화자의 발화 의도는 녹음된 발화자의 음성을 텍스트로 변환하고 변환된 텍스트를 분석함으로써 추출할 수 있다. 이 때, 발화 의도를 추출하는 이유는 발화자가 제공받고자 하는 응답의 목적 또는 종류를 명확하게 파악하여 발화자에게 의도에 부합하는 정확한 응답을 제공하기 위해서이다.

미리 구축된 대화 이력 모델을 기반으로 발화자의 발화 의도에 상응하는 응답을 생성할 수 있다(S120). 즉, 미리 구축된 대화 이력 모델에서 발화자에 상응하는 사용자별 대화 이력을 추출하고 추출된 사용자별 대화 이력을 기반으로 발화자의 발화 의도에 상응하는 응답을 생성할 수 있다.

여기서, 대화 이력 모델은 도 3에 도시된 바와 같이 다중 사용자의 사용자 별로 발화가 진행되는 상황에서의 영상 및 음성을 수집하여 사용자 별 대화 이력을 저장하고(S300) 사용자 별 대화 이력과 대화 말뭉치(corpus)를 훈련함으로써(S310) 구축될 수 있다(S320).

이 때, 사용자 별 대화 이력에는 다중 사용자의 영상 또는 음성으로부터 추출된 얼굴 식별 정보 및 음성 식별 정보가 사용자 별로 미리 기록될 수 있다. 즉, 다중 사용자 중에서 발화자를 식별할 수 있도록 다중 사용자의 영상에서 사용자 별로 얼굴의 특징을 추출하여 기록함과 동시에 다중 사용자의 음성에서 음성의 높낮이, 주파수와 같은 음성의 특징을 추출하여 기록할 수 있다.

이와 같이 사용자 별로 기록된 식별 정보를 기반으로 정보 처리 장치(10)와 주고 받은 대화 이력을 저장할 수 있다. 또한, 발화가 진행되는 상황에서의 영상을 수집하여 입 모양, 동공의 위치 및 모션과 같이 정보 처리 장치(10)와 대화를 진행하는 동안의 사용자 별 동작을 저장할 수 있다.

대화 말뭉치(corpus)는 다중 사용자와 정보 처리 장치(10) 간의 대화에 이용될 수 있는 모든 텍스트를 컴퓨터가 읽을 수 있는 형태로 모아 놓은 언어 자료로써 대화 말뭉치와 사용자 별 대화 이력을 훈련시킴으로써 대화 이력 모델을 구축할 수 있다(S320).

이 때, 대화 이력 모델의 구축에는 베이지안 네트워크(Bayesian Network), 은닉 마코프 모델(Hidden Markov Model)과 같은 확률 기반의 모델 또는 CRF(Conditional Random Fields), SVM(Support Vector Machine)과 같은 기계 학습 알고리즘을 이용할 수 있으나 이에 한정되는 것은 아니다.

발화자의 발화 의도에 상응하는 응답은 그래픽 아이콘을 통해 발화자에게 제공할 수 있다(S130). 예를 들어, 도 4에 도시된 바와 같이 정보 처리 장치(10)의 디스플레이 장치(12)에 그래픽 아이콘(14)을 디스플레이함과 동시에 발화자의 발화 의도에 상응하는 응답을 음성으로 변환하여 스피커(13)를 통해 출력할 수 있다.

이 때, 대화의 현실감을 부여하기 위하여 카메라(11)로 발화자의 눈의 위치를 감지하여 발화자의 시선과 맞출 수 있도록 그래픽 아이콘(14)을 디스플레이할 수 있다. 또한, 스피터(13)를 통해 음성으로 변환된 응답을 제공함에 있어 응답에 상응하는 입 모양 및 제스처와 같은 모션을 동시에 디스플레이할 수 있다.

여기서, 그래픽 아이콘은 2차원 또는 3차원 형태의 아바타(avatar) 및 캐릭터(character)를 의미할 수 있으며 이를 정보 처리 장치(10)의 디스플레이 장치(12)에 출력함으로써 발화자에게 보다 직관적이고 자연스러운 대화 환경을 제공할 수 있다.

도 5는 본 발명의 실시예에 따른 다중 사용자 기반의 대화 처리 장치를 나타내는 블록도이다.

도 5를 참조하면, 다중 사용자 기반의 대화 처리 장치(100)는 발화자 인식부(110), 발화의도 추출부(120) 및 응답 생성부(130)로 구성될 수 있다. 또한, 응답 제공부(150)를 더 포함할 수 있다.

이 때, 다중 사용자 기반의 대화 처리 장치(100)는 디지털 신호 처리가 가능한 정보 처리 장치에 구현될 수 있으며 정보 처리 장치에 탑재된 적어도 하나의 센서로부터 다중 사용자의 영상 또는 음성을 수집할 수 있다.

여기서, 적어도 하나의 센서는 정보 처리 장치에 탑재되어 다중 사용자의 영상을 획득할 수 있는 카메라, 깊이 카메라 및 키넥트 카메라와 같은 이미지 센서 또는 다중 사용자의 음성을 획득할 수 있는 마이크와 같은 음성 인식 센서를 포함할 수 있으나 이에 한정되는 것은 아니다.

발화자 인식부(110)는 센서로부터 수집한 다중 사용자의 영상 또는 음성을 기반으로 다중 사용자 중에서 발화자를 인식할 수 있다. 여기서, 발화자 인식부(110)는 참여자 판별 모듈(111) 및 발화자 식별 모듈(113)을 포함할 수 있다.

참여자 판별 모듈(111)은 다중 사용자의 영상을 분석하여 정보 처리 장치와 대화를 진행 중이거나 대화할 의도가 있는 적어도 하나의 사용자를 대화 참여자로 판별할 수 있다.

예를 들어, 다중 사용자의 영상에서 다중 사용자 각각의 입 모양을 추출할 수 있다. 이 때, 추출된 다중 사용자 각각의 입 모양을 분석하여 입이 열려있는 적어도 하나의 사용자를 대화 참여자로 판별할 수 있다.

특히, 본 발명에서는 다중 사용자에게 보다 직관적이고 자연스러운 대화 환경을 지원하기 위하여 정보 처리 장치의 디스플레이 장치에 아바타(avatar) 또는 캐릭터(character)와 같은 그래픽 아이콘을 출력할 수 있다. 이에 따라 정보 처리 장치와 대화를 진행 중이거나 대화할 의도가 있는 사용자는 그래픽 아이콘이 출력되는 위치의 디스플레이 장치를 응시할 수 있다.

따라서, 다중 사용자의 사용자 별로 동공이 응시하는 디스플레이 장치의 좌표를 추출하고 그래픽 아이콘이 출력되는 디스플레이 장치의 좌표 범위에 동공의 좌표가 포함되는지를 확인하여 그래픽 아이콘을 응시하는 것으로 판단되는 적어도 하나의 사용자를 대화 참여자로써 판별할 수 있다.

뿐만 아니라, 다중 사용자의 영상에서 사용자가 정보 처리 장치와 대화를 진행함에 따라 취할 수 있는 제스처나 손, 팔, 어깨, 머리 등 신체의 움직임을 인식함으로써 대화 참여자를 판별할 수 있다.

발화자 식별 모듈(113)은 판별된 대화 참여자 중에서 센서를 통해 음성이 수집된 사용자를 발화자로 인식하고 다중 사용자의 영상 또는 음성으로부터 발화자의 얼굴 또는 음성의 특징을 추출하여 발화자를 식별할 수 있다. 이 때, 발화자 별로 정보 처리 장치와 진행하는 대화의 흐름이 상이할 수 있기 때문에 대화의 흐름이 끊기거나 대화의 내용과 상관없는 응답이 제공되지 않도록 발화자를 식별 해야할 필요가 있다.

발화의도 추출부(120)는 다중 사용자 중에서 발화자가 인식됨에 따라 적어도 하나의 센서를 이용하여 발화자의 음성을 녹음하고 녹음된 발화자의 음성을 분석하여 발화자의 발화 의도를 추출할 수 있다.

여기서, 발화자의 발화 의도는 녹음된 발화자의 음성을 텍스트로 변환하고 변환된 텍스트를 분석함으로써 추출할 수 있다. 이 때, 발화 의도를 추출하는 이유는 발화자가 제공받고자 하는 응답의 목적 또는 종류를 명확하게 파악하여 발화자에게 의도에 부합하는 정확한 응답을 제공하기 위함이다.

응답 생성부(130)는 미리 구축된 대화 이력 모델(140)을 기반으로 발화자의 발화 의도에 상응하는 응답을 생성할 수 있다. 즉, 미리 구축된 대화 이력 모델(140)에서 발화자에 상응하는 사용자별 대화 이력을 추출하고 추출된 사용자별 대화 이력을 기반으로 발화자의 발화 의도에 상응하는 응답을 생성할 수 있다.

여기서, 대화 이력 모델(140)은 다중 사용자의 사용자 별로 발화가 진행되는 상황에서의 영상 및 음성을 수집하여 사용자 별 대화 이력을 저장하고 사용자 별 대화 이력과 대화 말뭉치를 훈련함으로써 구축될 수 있다.

이와 같이 사용자 별로 기록된 식별 정보를 기반으로 정보 처리 장치와 주고 받은 대화 이력을 저장할 수 있다. 또한, 발화가 진행되는 상황에서의 영상을 수집하여 입 모양, 동공의 위치 및 모션과 같이 정보 처리 장치와 대화를 진행하는 동안의 사용자 별 동작을 저장할 수 있다.

대화 말뭉치(corpus)는 다중 사용자와 정보 처리 장치 간의 대화에 이용될 수 있는 모든 텍스트를 컴퓨터가 읽을 수 있는 형태로 모아 놓은 언어 자료로써 대화 말뭉치와 사용자 별 대화 이력을 훈련 시킴으로써 대화 이력 모델을 구축할 수 있다.

이 때, 대화 이력 모델(140)의 구축에는 베이지안 네트워크(Bayesian Network), 은닉 마코프 모델(Hidden Markov Model)과 같은 확률 기반의 모델 또는 CRF(Conditional Random Fields), SVM(Support Vector Machine)과 같은 기계 학습 알고리즘을 이용할 수 있으나 이에 한정되는 것은 아니다.

응답 제공부(150)는 발화 의도에 상응하는 응답을 그래픽 아이콘을 통해 발화자에게 제공할 수 있다. 여기서, 그래픽 아이콘은 2차원 또는 3차원 형태의 아바타(avatar) 및 캐릭터(character)를 의미할 수 있다.

예를 들어, 정보 처리 장치의 디스플레이 장치에 그래픽 아이콘을 디스플레이함과 동시에 발화자의 발화 의도에 상응하는 응답을 음성으로 변환하여 스피커를 통해 출력할 수 있다.

이 때, 대화의 현실감을 부여하기 위하여 카메라로 발화자의 눈의 위치를 감지하여 발화자의 시선과 맞출 수 있도록 그래픽 아이콘을 디스플레이할 수 있다. 또한, 스피터를 통해 음성으로 변환된 응답을 제공함에 있어 응답에 상응하는 입 모양 및 제스처와 같은 모션을 동시에 디스플레이할 수 있다.

상술한 바와 같은 본 발명의 실시예에 따른 다중 사용자 기반의 대화 처리 방법 및 이를 수행하는 장치에 따르면, 기존의 단일 사용자 기반의 대화 처리 시스템과는 달리 다중 사용자 환경에서 사용자에 따른 대화를 효율적으로 처리할 수 있다.

또한, 대화 이력 모델을 기반으로 다중 사용자의 대화를 사용자 별로 관리함으로써 사용자에게 보다 자연스럽고 직관적인 대화를 제공함과 동시에 발화자의 발화 의도에 상응하는 정확한 응답을 제공할 수 있다.

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

10: 정보 처리 장치 11: 카메라
12: 디스플레이 장치 13: 스피커
14: 그래픽 아이콘 100: 대화 처리 장치
110: 발화자 인식부 111: 참여자 판별 모듈
113: 발화자 식별 모듈 120: 발화의도 추출부
130: 응답 생성부 140: 대화 이력 모델
150: 응답 제공부

Claims

디지털 신호 처리가 가능한 정보 처리 장치에서 수행되는 다중 사용자 기반의 대화 처리 방법에 있어서,
적어도 하나의 센서로부터 수집한 다중 사용자의 영상 또는 음성을 기반으로 상기 다중 사용자 중에서 발화자를 인식하는 단계;
상기 적어도 하나의 센서를 이용하여 상기 발화자의 음성을 녹음하고, 상기 녹음된 발화자의 음성을 분석하여 상기 발화자의 발화 의도를 추출하는 단계;
미리 구축된 대화 이력 모델을 기반으로 상기 발화자의 발화 의도에 상응하는 응답을 생성하는 단계; 및
상기 정보 처리 장치의 디스플레이 장치에 그래픽 아이콘을 디스플레이함과 동시에 상기 생성된 응답을 음성으로 변환하여 출력함으로써 상기 발화자에게 상기 발화자의 발화 의도에 상응하는 응답을 제공하는 단계를 포함하되,
상기 다중 사용자 중에서 발화자를 인식하는 단계는,
상기 다중 사용자의 영상으로부터 입 모양의 변화, 일정 시간 동안 동공의 상기 정보 처리 장치의 디스플레이 장치에 대한 응시 및 상기 정보 처리 장치를 향한 모션을 분석하여 적어도 하나의 사용자를 대화 참여자로 판별하는 단계;
상기 대화 참여자 중에서 상기 적어도 하나의 센서를 통해 음성이 수집되는 사용자를 발화자로 인식하는 단계; 및
상기 다중 사용자의 영상 및 음성으로부터 상기 발화자의 얼굴 및 음성의 특징을 추출하여 상기 발화자를 식별하는 단계를 포함하고,
상기 발화자의 발화 의도에 상응하는 응답을 제공하는 단계는,
상기 발화자에게 현실감있는 대화를 제공할 수 있도록 상기 센서를 통해 상기 발화자의 눈의 위치를 감지하여 상기 발화자의 시선과 맞출 수 있도록 상기 그래픽 아이콘을 디스플레이하되, 상기 음성으로 변환된 응답에 상응하도록 상기 그래픽 아이콘의 입 모양 및 제스처를 포함하는 모션을 디스플레이하는 것을 특징으로 하는 다중 사용자 기반의 대화 처리 방법.
삭제
삭제
삭제
청구항 1에 있어서,
상기 발화자의 발화 의도를 추출하는 단계는,
상기 녹음된 발화자의 음성을 텍스트로 변환하고, 상기 텍스트로부터 상기 발화자의 발화 의도를 추출하는 것을 특징으로 하는 다중 사용자 기반의 대화 처리 방법.
청구항 1에 있어서,
상기 대화 이력 모델은,
상기 다중 사용자의 사용자 별로 발화가 진행되는 상황에서의 영상 및 음성을 수집하여 저장된 사용자 별 대화 이력과 대화 말뭉치(corpus)를 확률 기반 모델 또는 기계 학습 기반으로 훈련함으로써 구축되는 것을 특징으로 하는 다중 사용자 기반의 대화 처리 방법.
청구항 6에 있어서,
상기 발화자의 발화 의도에 상응하는 응답을 생성하는 단계는,
상기 미리 구축된 대화 이력 모델에서 상기 발화자에 상응하는 상기 사용자 별 대화 이력을 추출하고 상기 추출된 사용자 별 대화 이력을 기반으로 상기 발화자의 발화 의도에 상응하는 응답을 생성하는 것을 특징으로 하는 다중 사용자 기반의 대화 처리 방법.
디지털 신호 처리가 가능한 정보 처리 장치에 구현되는 다중 사용자 기반의 대화 처리 장치에 있어서,
적어도 하나의 센서로부터 수집한 다중 사용자의 영상 또는 음성을 기반으로 상기 다중 사용자 중에서 발화자를 인식하는 발화자 인식부;
상기 적어도 하나의 센서를 이용하여 상기 발화자의 음성을 녹음하고, 상기 녹음된 발화자의 음성을 분석하여 상기 발화자의 발화 의도를 추출하는 발화의도 추출부;
미리 구축된 대화 이력 모델을 기반으로 상기 발화자의 발화 의도에 상응하는 응답을 생성하는 응답 생성부; 및
상기 정보 처리 장치의 디스플레이 장치에 그래픽 아이콘을 디스플레이함과 동시에 상기 생성된 응답을 음성으로 변환하여 출력함으로써 상기 발화자에게 상기 발화자의 발화 의도에 상응하는 응답을 제공하는 응답 제공부를 포함하되,
상기 발화자 인식부는,
상기 다중 사용자의 영상으로부터 입 모양의 변화, 일정 시간 동안 동공의 상기 정보 처리 장치의 디스플레이 장치에 대한 응시 및 상기 정보 처리 장치를 향한 모션을 분석하여 적어도 하나의 사용자를 대화 참여자로 판별하는 참여자 판별 모듈; 및
상기 대화 참여자 중에서 상기 적어도 하나의 센서를 통해 음성이 수집되는 사용자를 발화자로 인식하고, 상기 다중 사용자의 영상 및 음성으로부터 상기 발화자의 얼굴 및 음성의 특징을 추출하여 상기 발화자를 식별하는 발화자 식별 모듈을 포함하고,
상기 응답 제공부는,
상기 발화자에게 현실감있는 대화를 제공할 수 있도록 상기 센서를 통해 상기 발화자의 눈의 위치를 감지하여 상기 발화자의 시선과 맞출 수 있도록 상기 그래픽 아이콘을 디스플레이하되, 상기 음성으로 변환된 응답에 상응하도록 상기 그래픽 아이콘의 입 모양 및 제스처를 포함하는 모션을 디스플레이하는 것을 특징으로 하는 다중 사용자 기반의 대화 처리 장치.
삭제
삭제
삭제
청구항 8에 있어서,
상기 발화의도 추출부는,
상기 녹음된 발화자의 음성을 텍스트로 변환하고, 상기 텍스트로부터 상기 발화자의 발화 의도를 추출하는 것을 특징으로 하는 다중 사용자 기반의 대화 처리 장치.
청구항 8에 있어서,
상기 대화 이력 모델은,
상기 다중 사용자의 사용자 별로 발화가 진행되는 상황에서의 영상 및 음성을 수집하여 저장된 사용자 별 대화 이력과 대화 말뭉치(corpus)를 확률 기반 모델 또는 기계 학습 기반으로 훈련함으로써 구축되는 것을 특징으로 하는 다중 사용자 기반의 대화 처리 장치.
청구항 13에 있어서,
상기 응답 생성부는,
상기 미리 구축된 대화 이력 모델에서 상기 발화자에 상응하는 상기 사용자 별 대화 이력을 추출하고 상기 추출된 사용자 별 대화 이력을 기반으로 상기 발화자의 발화 의도에 상응하는 응답을 생성하는 것을 특징으로 하는 다중 사용자 기반의 대화 처리 장치.