KR20180059347A

KR20180059347A - 대화형 질의응답 장치 및 그 방법

Info

Publication number: KR20180059347A
Application number: KR1020170142242A
Authority: KR
Inventors: 왕지현; 김현기; 이충희; 임수종; 최미란; 박상규; 배용진; 이형직; 임준호; 장명길; 허정
Original assignee: 한국전자통신연구원
Priority date: 2016-11-25
Filing date: 2017-10-30
Publication date: 2018-06-04
Also published as: KR102122918B1

Abstract

본 발명은 종래의 부자연스러운 형태의 질의문을 개선할수 있으며, 추가적인 정보를 모르는 상태에서는 질문이 불가능한 경우를 방지하여 마치 사람에게 대화하듯 질문을 할 수 있는 멀티모달 기반의 질의응답 방식을 제시한다. 또한, 이미지, 동영상, 오디오 등의 컨텐츠를 잠재적인 상품 구매자들에게 질의응답 서비스의 형태로 노출시킬 수 있기 때문에 광고 시장에 활용될 수 있는 환경을 제공한다.

Description

대화형 질의응답 장치 및 그 방법{INTERACTIVE QUESTION-ANWERING APPARATUS AND METHOD THEREOF}

본 발명은 질문에 대한 정답을 제공하는 대화형 질의응답 장치 및 방법에 관한 것이다.

종래의 질의응답 장치에서는, 입력된 질의에 대한 응답을 획득하는 과정에서 질의 내에서 응답을 찾기 위한 힌트 정보가 부족한 경우, 정확한 응답을 획득할 수 없는 경우가 빈번하다. 따라서, 종래의 질의응답 장치에서는, 질의에 대한 응답을 획득하는 프로세스에 앞서, 상기 힌트 정보를 포함하도록 질의를 생성하는 프로세스가 필요하다. 예를 들면, 질문자가 미술 박물관에서 특정 작품을 감상하는 상황에서, 상기 특정 작품의 제작 년도를 알고 싶은 경우, 질문자는 상기 특정 작품의 화가 이름 또는 상기 특정 작품의 제목과 관련된 힌트를 포함하도록 질의문을 생성하여 장치에 입력해야 한다. 만일, 질문자가 상기 특정 작품의 화가 이름 또는 상기 특정 작품의 제목을 정확히 알지 못한 경우, 적절한 질의문을 생성할 수 없다.

이러한 문제를 해소하기 위해, 종래의 질의응답 장치는 여러 턴(Turn)에 걸친 질문자와 대화를 통해 적절한 질의를 생성하도록 유도하고 있다. 예를 들어, 질문자는 짧은 길이의 상품 이름이 포함된 질의를 질의응답 장치에 입력하면, 질의응답 장치는 상품의 이름과 유사도가 가장 높은 상품의 이름을 질문자에게 확인하는 과정을 수행하고, 이러한 확인과정은 정확한 상품을 찾을 때까지 질문자와 질의응답 장치 간의 여러 턴에 걸쳐 대화를 통해 반복 수행한다.

이와 같이, 종래의 질의응답 장치에서의 질의문 입력 방식은 질문자가 알고자 하는 대상과 관련된 정확한 정보를 모르는 경우에도 질문자와 질의응답 장치 간의 자연스러운 대화를 통해 질의가 완성된다.

그러나 이러한 대화형 질의문 입력 방식은 질문자와 질의응답 장치 간의 여러 턴에 걸쳐 반복 수행되는 대화로 인해 불편하다.

상술한 종래의 문제점을 해결하기 위한 본 발명의 목적은, 질문자와 질의응답 장치 간에 반복 수행되는 대화를 통해 질의문을 생성하지 않고, 자연스러운 질의문을 그대로 이용하여 정확한 응답문을 제공하는 대화형 질의응답 장치 및 그 방법을 제공하는 데 있다.

상술한 목적을 달성하기 위한 본 발명의 일면에 따른 사용자 단말에서의 대화형 질의응답 방법은, 상기 컴퓨터 프로세서가, 상기 서버로부터 멀티미디어 컨텐츠와 상기 멀티미디어 컨텐츠에서 사용자가 관심을 갖는 다수의 엔티티에 대한 메타정보를 수신하는 단계; 상기 컴퓨터 프로세서가, 상기 멀티모달 인터페이스로부터 상기 다수의 엔티티 중에서 상기 사용자가 선택한 엔티티에 대한 질의문을 수신하는 단계; 상기 컴퓨터 프로세서가, 상기 메타정보로부터 상기 사용자가 선택한 엔티티의 식별정보를 추출하는 단계; 및 상기 컴퓨터 프로세서가, 상기 엔티티의 식별정보와 상기 질의문을 상기 서버로 송신하고, 상기 질의문에 대한 응답문으로서, 상기 엔티티의 식별정보에 의해 제약된 정답 후보를 포함하는 상기 응답문을 상기 서버로부터 수신하는 단계를 포함한다.

본 발명의 다른 일면에 따른 서버에서의 대화형 질의응답 방법은, 상기 컴퓨터 프로세서가, 멀티미디어 컨텐츠 내에서 사용자가 관심을 갖는 다수의 엔티티에 대한 식별정보를 포함하는 메타정보와 상기 식별정보에 부여된 속성정보를 생성하는 단계; 상기 컴퓨터 프로세서가, 상기 멀티미디어 컨텐츠와 상기 메타정보를 사용자 단말로 송신하는 단계; 상기 컴퓨터 프로세서가, 상기 다수의 엔티티 중에서 상기 사용자가 선택한 엔티티에 대한 질의문과, 상기 메타정보로부터 추출된 상기 사용자가 선택한 엔티티의 식별정보를 상기 사용자 단말로부터 수신하는 단계; 및 상기 컴퓨터 프로세서가, 상기 사용자가 선택한 엔티티의 식별정보에 부여된 속성정보를 기반으로 상기 질의문에 대한 응답문을 생성하고, 상기 응답문을 상기 사용자 단말로 송신하는 단계를 포함한다.

본 발명의 또 다른 일면에 따른 서버를 포함하는 대화형 질의응답 장치에서, 상기 서버는, 멀티미디어 컨텐츠, 멀티미디어 컨텐츠 내에서 사용자가 관심을 갖는 다수의 엔티티에 대한 식별정보를 포함하는 메타정보 및 상기 식별정보에 할당된 속성정보를 저장하는 저장유닛; 및 상기 멀티미디어 컨텐츠와 상기 메타정보를 사용자 단말로 송신하고, 상기 다수의 엔티티 중에서 상기 사용자가 선택한 엔티티에 대한 질의문과, 상기 메타정보로부터 추출된 상기 사용자가 선택한 엔티티의 식별정보를 상기 사용자 단말로부터 수신하고, 상기 사용자가 선택한 엔티티의 식별정보에 할당된 속성정보를 기반으로 상기 질의문에 대한 응답문을 생성하여 상기 응답문을 상기 사용자 단말로 송신하는 컴퓨터 프로세서를 포함한다.

본 발명에 따르면, 자연스러운 질의문에 대한 정확한 응답문을 직접 제공함으로써, 응답문과 관련된 힌트가 포함되도록 자연스러운 질의문을 질문자와 장치간에 반복 수행되는 대화를 통해 부자연스러운 질의문으로 변경해야 하는 번거로운 작업을 생략할 수 있다. 나아가 응답문과 관련된 힌트가 없거나 그 정보량이 매우 적은 자연스러운 질의문에 대해서도 정확한 응답문을 제공할 수 있다.

도 1은 본 발명의 일 실시 예에 따른 대화형 질의응답 장치의 블록도이다.
도 2는 도 1에 도시한 사용자 단말의 구성도이다.
도 3은 도 2에 도시한 멀티모달 인터페이스의 구성도이다.
도 4는 도 1에 도시한 컨텐츠 서버의 구성도이다.
도 5는 도 4에 도시한 저장유닛에 저장되는 정보들의 예이다.
도 6은 도 6는 도 1에 도시한 질의응답 서버의 구성도이다.
도 7 내지 9는 본 발명의 실시 예들에 따른 메타정보의 데이터구조를 나타낸 도면들이다.
도 10은 도 7에 도시한 화면좌표를 설명하기 위한 도면이다.
도 11은 본 발명의 일 실시 예에 따른 속성정보의 데이터구조를 나타낸 도면이다.
도 12는 본 발명의 일 실시 예에 따른 사용자 단말에서의 질의응답 방법을 나타내는 흐름도이다.
도 13은 본 발명의 일 실시 예에 따른 서버에서의 질의응답 방법을 나타내는 흐름도이다.
도 14은 도 13에 도시된 단계 S240의 상세 흐름도이다.

본 발명에 따른 동작 및 작용을 이해하는 데 필요한 부분을 중심으로 상세히 설명한다. 본 발명의 실시 예를 설명하면서, 본 발명이 속하는 기술 분야에 익히 알려졌고 본 발명과 직접적으로 관련이 없는 기술 내용에 대해서는 설명을 생략한다. 이는 불필요한 설명을 생략함으로써 본 발명의 요지를 흐리지 않고 더욱 명확히 전달하기 위함이다.

또한, 본 발명의 구성 요소를 설명하는 데 있어서, 동일한 명칭의 구성 요소에 대하여 도면에 따라 다른 참조부호를 부여할 수도 있으며, 서로 다른 도면임에도 동일한 참조부호를 부여할 수도 있다. 그러나 이와 같은 경우라 하더라도 해당 구성 요소가 실시 예에 따라 서로 다른 기능을 갖는다는 것을 의미하거나, 서로 다른 실시 예에서 동일한 기능을 갖는다는 것을 의미하는 것은 아니며, 각각의 구성 요소의 기능은 해당 실시 예에서의 각각의 구성 요소에 대한 설명에 기초하여 판단하여야 할 것이다.

본 발명의 실시 예들에 대한 설명에 앞서, 명세서 전반에 걸쳐 언급되는 용어 엔티티(Entity)가 정의된다.

'엔티티(Entity)'는 이미지, 오디오, 동영상 등을 포함하는 멀티미디어 컨텐츠에서 사용자가 관심을 가질 것으로 예상하는 정보로서, 멀티미디어 컨텐츠에는 포함되지 않는 정보이다.

엔티티의 예시 유형은, 장소명, 사건, 작품의 제작년도, 인물, 가전 제품, 의류, 출연 배우명, 장소명, 제작자, 출연배우가 착용하고 있는 의류, 신발, 가방, 가격, 색상 등을 포함하며, 이에 한정하지 않고, 컨텐츠의 종류에 따라 다양한 예시 유형을 더 포함할 수 있다.

이하, 도면을 참조하여 본 발명의 실시 예에 따른 대화형 질의 응답 장치에 대해 상세히 기술한다.

도 1은 본 발명의 일 실시 예에 따른 대화형 질의응답 장치의 블록도이다.

도 1을 참조하면, 본 발명의 일 실시 예에 따른 대화형 질의응답 장치는 사용자 단말(100), 통신망(200) 및 서버(300)를 포함한다.

상기 사용자 단말(100)은 통신망(200)에 접속 가능하도록 통신 기능을 구비하며, 통신망(200)을 통해 서버(300)와 통신할 수 있다.

상기 사용자 단말(100)은 통신망(200)을 통해 상기 서버(300)로부터 컨텐츠와 컨텐츠에 대한 메타정보를 수신할 수 있다. 상기 컨텐츠는, 정치, 경제, 사회, 교육, 방송, 연예, 스포츠, 홈쇼핑 등과 같은 다양한 분야의 멀티미디어 컨텐츠일 수 있다. 상기 멀티미디어 컨텐츠는, 이미지 컨텐츠, 동영상 컨텐츠 및 오디오 컨텐츠를 포함할 수 있다. 상기 메타정보는, 상기 컨텐츠에서 사용자가 관심을 가질 것으로 예측한 다수의 엔티티에 대한 정보로서, '메타데이터'로 지칭할 수도 있다. 이러한 메타정보는 다수의 엔티티를 식별하는 식별정보를 포함할 수 있다. 상기 식별정보는 사용자 단말(100)에 구비된 멀티모달 인터페이스에서 출력되는 멀티모달 정보의 속성을 갖도록 구성될 수 있다.

상기 사용자 단말(100)은 상기 멀티모달 인터페이스로부터 입력되는 멀티모달 입력을 인식하여 상기 다수의 엔티티 중에서 상기 사용자가 선택한 엔티티에 대한 자연스러운 질의문을 생성한다.

멀티모달 입력의 예시유형은 음성 입력, 키보드(또는 펜) 입력, 마우스 입력, 펜 입력, 터치스크린 입력, 제스처 입력 등을 포함하며, 본 발명에서는 편의상 음성 입력 또는 키보드(또는 펜) 입력을 이용하여 인식한 결과로부터 자연스러운 질의문을 생성하는 것을 가정한다. 그러나 본 발명이 이에 한정되는 것은 아니며, 서로 다른 둘 이상 또는 다수의 입력을 이용하여 구현할 수 있다.

상기 사용자 단말(100)은 상기 서버(300)로부터 수신된 메타정보로부터 상기 멀티모달 인터페이스를 이용하여 선택한 엔티티의 식별정보를 추출한다.

상기 사용자 단말(100)은 상기 추출한 엔티티의 식별정보와 상기 자연스러운 질의문을 상기 통신망(200)을 통해 상기 서버(300)로 송신하고, 상기 서버(300)로부터 상기 질의문에 대한 응답문을 상기 통신망(200)을 통해 수신한다.

상기 엔티티의 식별정보는 상기 서버(300)에서 상기 질의문에 대한 응답문의 정답확률을 크게 높이는 역할을 한다. 즉, 상기 서버(300)는 상기 엔티티의 식별정보에 부여된 속성으로 정답후보를 제약하고, 이러한 정답후보가 포함된 응답문을 생성한다. 따라서, 본 발명의 사용자 단말(100)은 종래와 같이 응답문의 정답확률을 높이기 위해, 엔티티에 대한 힌트가 포함하도록 자연스러운 질의문을 부자연스러운 질의문으로 변경하는 불필요한 작업을 생략할 수 있다.

상기 서버(300)는 컨텐츠 서버(310)와 질의응답 서버(330)를 포함한다.

상기 컨텐츠 서버(310)는 컨텐츠 공급자가 운영하는 서버일 수 있다.

상기 컨턴츠 서버(310)는 컨텐츠 공급자가 제작한 멀티미디어 컨텐츠를 통신망(200)을 통해 상기 사용자 단말(100)로 송신한다.

상기 컨텐츠 서버(300)는 상기 멀티미디어 컨텐츠에서 사용자가 관심을 가질 것으로 예측하는 다수의 엔티티에 대한 메타정보를 생성하고, 상기 멀티미디어 컨텐츠와 함께 상기 메타정보를 사용자 단말(100)로 송신한다.

상기 컨텐츠 서버(310)는, 상기 다수의 엔티티 중에서 상기 사용자가 멀티모달 인터페이스를 이용하여 선택한 엔티티의 식별정보와 상기 사용자가 선택한 엔티티에 대한 질의문을 상기 사용자 단말(100)로부터 수신한다.

상기 질의응답 서버(330)는 상기 질의문과 상기 엔티티의 식별정보를 상기 컨텐츠 서버(310)를 수신하고, 상기 엔티티의 식별정보에 할당된 속성정보를 기반으로 상기 질의문에 대한 응답문을 생성한다.

상기 질의응답 서버(330)는 상기 응답문을 상기 컨텐츠 서버(310)를 통해 사용자 단말(110)로 제공한다.

도 2는 도 1에 도시한 사용자 단말의 구성도이다.

도 2를 참조하면, 사용자 단말(100)은 통신 기능을 갖는 컴퓨팅 장치로 구현될 수 있다. 상기 컴퓨팅 장치는, 예를 들면, 스마트폰, 태블릿, 노트북, 데스크탑 PC, 웨어러블 기기, 통신기능을 갖는 스마트 TV, 스마트 세탁기, 스마트 냉장고와 같은 가전 제품 등일 수 있으며, 그 밖에 쇼핑몰, 관광지, 박물관 등의 키오스크(kiosk)일 수 있다.

상기 컴퓨팅 장치로 구현될 수 있는 사용자 단말(100)은 컴퓨터 프로세서(110), 멀티모달 인터페이스(120), 통신인터페이스(130), 메모리(140), 저장유닛(150), 음성 출력부(160) 및 이들을 연결하는 버스(170)을 포함할 수 있다.

컴퓨터 프로세서(110)는 사용자 단말(100)의 전반적인 동작을 제어한다.

컴퓨터 프로세서(110)는 다수의 알고리즘을 실행하는 적어도 하나의 범용 프로세서를 포함할 수 있다. 범용 프로세서는 그래픽 연산에 특화된 그래픽 프로세서를 포함할 수 있다. 상기 알고리즘은, 예를 들면, 음성 인식, 음성 합성, 영상 인식 등과 관련된 알고리즘을 포함할 수 있다. 본 발명에서는 상기 알고리즘을 한정하는데 특징이 있는 것이 아니므로, 이에 대한 설명은 공지기술로 대신한다.

컴퓨터 프로세서(110)는 멀티모달 인터페이스(120)로부터 출력되는 멀티모달 입력정보를 분석하여, 멀티모달 입력을 인식한다.

컴퓨터 프로세서(110)는 인식한 멀티모달 입력을 기반으로 상기 서버(300)로부터 송신된 멀티미디어 컨텐츠에서 사용자가 관심을 갖는 엔티티에 대한 자연스러운 질의문을 생성한다.

상기 질의문을 생성하기 위해, 상기 컴퓨터 프로세서(110)는 음성 입력 및/또는 키보드(펜) 입력을 포함하는 멀티모달 입력을 이용하여 질의문을 생성할 수 있다.

일 예로, 컴퓨터 프로세서(110)는 음성인식 알고리즘을 기반으로 사용자의 발화음성을 인식하고, 그 인식결과를 기반으로 텍스트 형태의 질의문을 생성할 수 있다.

다른 예로, 컴퓨터 프로세서(110)는 키보드(펜) 입력을 인식하고, 그 인식결과를 기반으로 텍스트 형태의 질의문을 생성할 수 있다. 키보드 입력을 인식하기 위해, 컴퓨터 프로세서(110)는 사용자 단말(100)에 구비된 표시화면상에 질의문을 입력하기 위한 입력창을 제공할 수 있다.

컴퓨터 프로세서(110)는 멀티모달 입력을 인식한 인식결과를 기반으로 상기 서버(300)로부터 송신된 메타정보로부터 상기 사용자가 관심을 갖는 엔티티의 식별정보를 추출한다.

메타정보로부터 엔티티의 식별정보를 추출하기 위해, 일 예로, 컴퓨터 프로세서(110)는 멀티모달 인터페이스(120)로부터 사용자가 선택한 엔티티의 터치 좌표를 수신하고, 상기 수신된 터치 좌표에 대응하는 상기 엔티티의 식별정보를 상기 메타정보로부터 추출할 수 있다.

다른 예로, 컴퓨터 프로세서(110)는 멀티모달 인터페이스(120)로부터 질의문에 대응하는 사용자의 발화음성이 입력되는 입력 시간을 계산하고, 상기 입력 시간에 대응하는 상기 엔티티의 식별정보를 상기 메타정보로부터 추출할 수 있다. 여기서, 사용자의 발화음성이 입력되는 입력 시간은 상기 멀티미디어 컨텐츠(동영상 컨텐츠 또는 오디오 컨텐츠)의 재생 시작 시간으로부터 카운팅된 시간일 수 있다. 또 다른 예로, 상기 컴퓨터 프로세서(110)는 상기 멀티모달 인터페이스(120)로부터 상기 질의문에 대응하는 키보드(또는 펜) 입력이 입력되는 입력 시간을 계산하고, 상기 입력 시간에 대응하는 엔티티의 식별정보를 상기 메타정보로부터 추출할 수 있다.

멀티모달 인터페이스(120)는 멀티미디어 컨텐츠에 포함된 다수의 엔티티 중에서 사용자가 선택한 엔티티에 대한 다수의 멀티모달 입력 정보를 생성한다.

다수의 멀티모달 입력 정보를 생성하기 위해, 멀티모달 인터페이스(120)는 도 3에 도시된 바와 같이, 음성 입력부(120-1), 키보드 입력부(120-3), 펜 입력부(120-5), 마우스 입력부(120-7), 터치스크린 입력부(120-9) 및 제스처 입력부(120-11)를 포함한다.

음성 입력부(120-1)는 질의문에 대응하는 사용자의 발화음성을 디지털 형태의 음성 입력 정보로 변환하는 것으로, 도시하지는 않았으나, 마이크와 같은 음성 수집기와 상기 음성 수집기에서 수집된 사용자의 발화음성을 음성 입력 정보로 변환하는 오디오 프로세서를 포함할 수 있다.

키보드 입력부(120-3)는 사용자가 선택한 엔티티에 대한 질의문을 직접 타이핑할 수 있게 하는 키보드를 포함할 수 있다.

펜 입력부(120-5)는 사용자가 선택한 엔티티에 대한 질의문을 표시화면상에 제공되는 입력창에 직접 작성할 수 있게 하는 전자 펜을 포함할 수 있다.

마우스 입력부(120-7)는 사용자가 선택한 엔티티에 대한 질의문 목록 중에서 사용자가 원하는 질의문을 클릭할 수 있게 하는 마우스를 포함할 수 있다. 여기서, 질의문 목록은 서버(300)에서 제공될 수 있다. 질의문 목록은 멀티미디어 컨텐츠에서 사용자가 선택한 엔티티에 대한 예상 질의문들을 사전 학습을 통해 생성한 목록일 수 있다.

터치 스크린 입력부(120-9)는 사용자가 선택한 엔티티의 터치 좌표를 제공할 수 있는 터치 스크린 또는 터치 패널이 탑재된 표시 장치를 포함할 수 있다.

제스처 입력부(120-11)는 상기 사용자가 선택한 엔티티에 대한 제스처 입력을 제공할 수 있는 웨어러블 기기, 신체에 부착된 가속도 센서 및 자이로 센서, 사용자 움직임을 감지하는 카메라 센서를 포함할 수 있다. 제스처는, 예를 들면, 사용자가 표시화면에 표시되는 컨텐츠에서 특정 엔티티를 가리키는 손가락 제스처일 수 있다.

다시 도 2를 참조하면, 통신 인터페이스(130)는 통신망(200)과 사용자 단말(100)을 인터페이싱하는 역할을 한다.

통신 인터페이스(130)는 컴퓨터 프로세서(110)에서 생성한 데이터 또는 정보를 상기 통신망(200)에서 정의하는 통신 규약에 따라 변환하고, 변환된 데이터를 유선 또는 무선통신으로 서버(300)에 송신하는 역할을 한다.

메모리(140)는 컴퓨터 프로세서(110)가 멀티모달 인터페이스(120)로부터 수신한 정보 및 서버(300)로부터 수신한 정보를 처리 및 가공하기 위한 작업 공간, 즉, 메모리 공간을 제공한다. 메모리(140)는 휘발성 및 비휘발성 메모리를 포함한다.

저장 유닛(150)은 서버(300)로부터 수신한 멀티미디어 컨텐츠 및 메타정보를 저장한다.

음성 출력부(160)는 서버(300)로부터 수신한 응답문을 음성으로 변환하여 출력하는 역할을 한다. 이러한 변환은 공지의 음성합성 알고리즘을 기반으로 수행될 수 있다.

도 4는 도 1에 도시한 컨텐츠 서버의 구성도이다.

도 4를 참조하면, 컨텐츠 서버(310)는 컴퓨터 프로세서(311), 메모리(313), 저장유닛(315), 통신 인터페이스(317) 및 출력부(319)를 포함한다.

컴퓨터 프로세서(311)는 컨텐츠 서버(310)의 전반적인 동작을 제어한다.

컴퓨터 프로세서(311)는 다수의 알고리즘을 실행하는 적어도 하나의 범용 프로세서를 포함할 수 있다. 범용 프로세서는 그래픽 연산 처리에 특화된 그래픽 프로세서를 포함할 수 있다.

컴퓨터 프로세서(311)는 멀티미디어 컨텐츠에서 사용자가 관심을 갖는 다수의 엔티티에 대한 메타정보를 생성하고, 생성된 메타정보를 상기 저장유닛(315)에 저장한다.

컴퓨터 프로세서(311)는 멀티미디어 컨텐츠에서 사용자가 관심을 갖는 다수의 엔티티에 대한 속성정보를 생성하고, 생성된 속성정보를 저장유닛(315)에 저장한다.

메타정보를 생성하기 위해, 컴퓨터 프로세서(310)는 멀티미디어 컨텐츠에서 사용자가 관심을 갖는 다수의 엔티티를 분류한다. 엔티티 분류는 엔티티 분류 모델에 의해 수행될 수 있다. 엔티티 분류 모델은 멀티미디어 컨텐츠와 상기 멀티미디어 컨텐츠에서 사용자가 관심을 가질 것으로 예상되는 엔티티들 간의 상호 연관성을 학습한 학습 모델이다. 상기 상호 연관성을 학습하기 위해, 기계학습의 일종인 딥러닝 기법(deep learning)이 이용될 수 있다.

컴퓨터 프로세서(311)는 상기 엔티티 분류 모델에 따라 분류된 다수의 엔티티들 각각에 식별정보를 할당하여 메타정보를 구성한다.

컴퓨터 프로세서(311)는 상기 엔티티 분류 모델에 따라 분류된 다수의 엔티티들 각각에 할당된 식별정보에 속성명 및 속성값을 포함하는 속성정보를 구성한다.

컴퓨터 프로세서(311)는 메타정보 및 속성정보를 멀티미디어 컨텐츠와 함께 저장유닛(315)에 저장한다.

저장유닛(315)은, 도 5에 도시된 바와 같이, 멀티미디어 컨텐츠가 저장되는 저장소(315-1), 엔티티 분류 모델이 저장되는 저장소(315-3) 및 상기 메타정보와 상기 속성정보가 저장된 저장소(315-5)를 포함한다.

컴퓨터 프로세서(311)는 저장유닛(315)에 저장된 멀티미디어 컨텐츠, 상기 멀티미디어 컨텐츠에 대한 메타정보를 상기 사용자 단말(100)에 송신하도록 상기 통신 인터페이스(317)를 제어한다.

상기 컴퓨터 프로세서(311)는 저장유닛(315)에 저장된 멀티미디어 컨텐츠, 상기 멀티미디어 컨텐츠에 대한 메타정보 및 상기 메타정보에 대응하는 속성정보를 상기 질의응답 서버(330)에 송신하도록 상기 통신 인터페이스(340)를 제어한다. 따라서, 상기 컨텐츠 서버(310) 및 상기 질의응답 서버(330)는 상기 멀티미디어 컨텐츠, 상기 멀티미디어 컨텐츠에 대한 메타정보 및 상기 메타정보에 대응하는 속성정보를 공유한다.

통신 인터페이스(317)는 통신망(200)과 컨텐츠 서버(310)를 인터페이싱하는 역할을 한다. 상기 통신 인터페이스(317)는 컴퓨터 프로세서(311)의 제어에 따라, 상기 멀티미디어 컨텐츠와 상기 멀티미디어 컨텐츠에 대한 메타정보를 상기 통신망(200)에서 정의하는 통신 규약에 따라 변환하고, 변환된 데이터를 유선 또는 무선통신으로 사용자 단말(100)에 송신한다.

컴퓨터 프로세서(311)는 상기 사용자 단말(100)로부터 사용자가 선택한 엔티티에 대한 식별정보와 상기 사용자가 선택한 엔티티에 대한 질의문을 수신하고, 이를 질의응답 서버(330)로 송신한다.

한편, 메모리(313)는 상기 메타정보를 생성하기 위해 상기 컴퓨터 프로세서(310)에서 사용하는 프로그램, 실행 명령어 등이 실행될 수 있는 작업 공간을 제공한다.

출력부(319)는 상기 컴퓨터 프로세서(310)에서 생성한 메타정보를 서버 관리자에게 표시하는 표시 기기 및 오디오를 출력하는 오디오 기기를 포함할 수 있다.

도 6는 도 1에 도시한 질의응답 서버의 구성도이다.

도 6를 참조하면, 질의응답 서버(330)는 상기 컨텐츠 서버(310)로부터 멀티미디어 컨텐츠에서 사용자가 선택한 엔티티의 식별정보와 상기 사용자가 선택한 엔티티에 대한 질의문을 수신하고, 상기 엔티티에 부여된 속성정보를 기반으로 상기 수신된 질의문에 대한 응답문을 생성하고, 상기 생성한 응답문을 상기 컨텐츠 서버(310)를 통해 사용자 단말(100)로 송신한다. 이때, 상기 질의응답 서버(330)는 상기 생성한 응답문을 상기 컨텐츠 서버(310)를 거치지 않고, 직접 상기 사용자 단말(100)에게 송신할 수도 있다.

이를 위해, 상기 질의응답 서버(330)는 컴퓨터 프로세서(331), 메모리(333), 저장 유닛(335), 통신 인터페이스(337) 및 출력부(339)를 포함한다.

상기 컴퓨터 프로세서(331)는 상기 질의응답 서버(330)의 전반적인 동작을 제어하고, 상기 컨텐츠 서버(310)로부터 수신한 상기 질의문에 대한 응답문을 생성한다. 이때, 상기 컴퓨터 프로세서(331)는 상기 컨텐츠 서버(310)로부터 상기 질의문과 함께 수신한 식별정보에 대응하는 속성정보를 기반으로 상기 질의문에 대한 응답문을 생성한다.

상기 응답문을 생성하기 위해, 상기 컴퓨터 프로세서(331)는 질의응답 알고리즘을 실행한다. 즉, 상기 컴퓨터 프로세서(331)에 의해 실행되는 질의응답 알고리즘은 상기 컨텐츠 서버(310)로부터 수신된 상기 식별정보에 부여된 속성정보가 저장된 데이터베이스를 기반으로 응답문을 생성한다. 상기 질의응답 알고리즘을 기반으로 처리되는 질의응답 과정에 대해서는 아래에서 상세히 설명한다.

메모리(333)는 상기 컴퓨터 프로세서(331)에서 실행하는 질의응답 알고리즘의 실행공간을 제공하는 것으로, 휘발성 및 비휘발성 메모리를 포함한다.

저장유닛(335)는 상기 컨텐츠 서버(310)에서 제공하는 메타정보 및 상기 메타정보에 대응하는 속성정보를 저장한다.

통신 인터페이스(337)는 상기 질의응답 서버(330)와 상기 컨텐츠 서버(310)를 인터페이싱하는 역할을 한다.

출력부(339)는 상기 컴퓨터 프로세서(331)에 의해 생성된 응답문을 표시하는 표시 장치 및 오디오를 출력하는 오디오 장치를 포함한다.

본 실시예에서는 컨텐츠 서버(310)와 질의응답 서버(330)가 분리된 것으로 설명하고 있으나, 하나의 서버로 통합될 수 있다.

도 7 내지 9는 도 1에 도시한 컨텐츠 서버에서 생성하는 메타정보의 데이터구조를 예시한 도면들이다.

도 7에서는, 멀티미디어 컨텐츠가 이미지 컨텐츠인 경우, 메타정보의 데이터 구조가 도시된다. 이미지에서의 메타정보는 이미지 파일 경로(71), 상기 이미지에 포함된 엔티티가 표시화면 상에서 위치하는 화면좌표(73, 75), 상기 엔티티의 고유 식별자(77, URI) 및 엔티티 속성명(79)을 포함한다. 여기서, 상기 화면좌표(73, 75)는, 엔티티를 둘러싸는 가상의 사각 영역을 정의할 때, 상기 사각 영역의 왼쪽 상단 모서리에 대응하는 왼쪽 상단 좌표(73)와 상기 사각 영역의 오른쪽 하단 모서리에 대응하는 오른쪽 하단 좌표(75)를 포함한다. 도 10에는 상기 화면좌표의 일 예를 도시한 것으로서, 사용자 단말(100)의 표시화면(10)에 나타나는 이미지는 3개의 가방들이 진열대(12)에 진열된 이미지로서, 이 이미지에서 엔티티는 가방이다. 사용자가 3개의 가방들 중 가운데 위치한 가방을 선택하기 위해 표시 화면(17)상에 터치한 터치 좌표가 왼쪽 상단 좌표(73)와 오른쪽 하단 좌표(75)를 포함하는 상기 사각 영역 내에 위치하면, 사용자 단말은 상기 가운데에 위치한 가방을 사용자가 선택한 엔티티로 인식하고, 메타정보에서 상기 인식된 엔티티의 고유 식별자(URI_50)를 추출한다. 상기 사용자 단말(100)은 상기 추출한 고유 식별자(URI_50)와 상기 엔티티에 대한 질의문을 서버(300)로 송신한다. 이때, 질의문은 '저 가방은 얼마지'일 수 있다. 예시된 질의문에는 가방의 제품번호, 사이즈, 색상에 대한 힌트 정보가 없지만, 상기 고유 식별자(URI_50)가 상기 힌트 정보를 대신하는 역할을 한다. 따라서, 사용자 단말(100)은 예시된 자연스러운 질의문을 가방의 제품번호, 사이즈, 색상에 대한 힌트 정보가 포함하도록 부자연스러운 질의문으로 변경하는 과정을 생략할 수 있다.

도 8에서는, 멀티미디어 컨텐츠가 동영상 컨텐츠인 경우, 메타정보의 데이터 구조가 도시된다. 동영상 컨텐츠인 경우에서의 메타정보는 동영상 파일경로(81), 상기 동영상 컨텐츠 내에서 사용자가 관심을 갖는 엔티티가 재생되는 시간 구간(83, 85), 상기 시간 구간의 고유 식별자(87, URI) 및 상기 고유 식별자(87)에 할당된 엔티티 속성명(89)을 포함한다. 상기 시간 구간(83, 85)은 재생 시작 시간(83) 및 재생 종료 시간(85)를 포함한다. 사용자가 현재 재생되는 동영상 컨텐츠에 나타나는 장소명을 알고 싶은 경우, 질의문은 "저 장소는 어디지"일 수 있다, 이때, 상기 질의문에 대응하는 사용자 발화음성이 입력되는 입력시간이 재생 시작 시간(83) 및 재생 종료 시간(85) 사이에 존재하는 경우, 사용자 단말(100)은 도 8에 도시된 메타정보에서 재생 시작 시간(83) 및 재생 종료 시간(85)을 정의하는 시간 구간(83, 85)에 할당된 고유 식별자(URI_100)를 추출한다. 사용자 단말(100)은 상기 질의문과 상기 고유 식별자(URI_100)를 컨텐츠 서버로(310)로 송신한다.

도 9에서는, 멀티미디어 컨텐츠가 오디오 컨텐츠인 경우, 메타정보의 데이터 구조가 도시된다. 오디오 컨텐츠인 경우에서의 메타정보는 오디오 파일경로(91), 상기 오디오 컨텐츠 내에서 사용자가 관심을 갖는 엔티티가 재생되는 시간 구간(93, 95), 상기 시간 구간의 고유 식별자(97, URI) 및 상기 고유 식별자(97)에 할당된 엔티티 속성명(99)을 포함한다. 전술한 동영상 컨텐츠에서 식별자를 추출하는 방식과 유사하게, 사용자 단말(100)은 상기 오디오 컨텐츠에서 사용자가 선택한 엔티티에 대한 질의문과 상기 엔티티에 대한 고유 식별자를 메타정보로부터 추출할 수 있다. 오디오 컨텐츠의 경우, 엔티티의 예시유형은 '노래 제목' 일 수 있고, 질의문의 예시 유형은 "지금 나오는 노래제목은?"일 수 있다.

도 11은 도 1에 도시한 컨텐츠 서버에서 생성하는 속성정보의 데이터 구조를 예시한 도면이다.

도 11을 참조하면, 속정 정보는 컨텐츠 서버(310)와 질의응답 서버(330)가 공유하는 정보로서, 상기 고유 식별자(21)에 할당되는 속성명(23)과 속성값(25)을 포함한다. 동일한 고유 식별자(URI_50)에 2개 이상의 속성명(23)과 속성값(25)이 각각 할당될 수 있다. 예를 들어, URI가 'URI_50'인 엔티티에는 이름, 제작자, 제작년도로 이루어진 3개의 속성명과 각 속성명에 대응하는 "최후의 심판", "미켈란 젤로" 및 "16세기경"로 이루어진 3개의 속성값이 할당될 수 있고, URI가 'URI_300'인 엔티티는 이름 및 가수로 이루어진 2개의 속성명과 각 속성명에 대응하는 "LET IT BE" 및 "비틀즈"로 이루어진 2개의 속성값이 할당될 수 있다.

전술한 실시 예에서는, 컨텐츠 서버(310)가 속성정보를 생성하여 질의응답 서버(330)에 제공하는 것으로 설명하고 있으나, 반대로, 질의응답 서버(330)에서 속성정보를 생성하여 컨텐츠 서버(310)에 제공할 수도 있다. 이 경우, 메타정보도 질의응답 서버(330)에서 생성하여 컨텐츠 서버(310)에 제공할 수도 있다.

도 12는 본 발명의 일 실시 예에 따른 사용자 단말에서의 질의응답 방법을 나타내는 흐름도로서, 아래의 각 단계의 수행 주체는 상기 사용자 단말(110)에 구비된 컴퓨터 프로세서(110)로 가정한다.

도 12를 참조하면, 먼저, 단계 S110에서, 상기 컴퓨터 프로세서(110)가 상기 서버(300)로부터 멀티미디어 컨텐츠와 상기 멀티미디어 컨텐츠에 대한 메타정보를 수신한다. 여기서, 상기 메타정보는 상기 멀티미디어 컨텐츠에서 사용자가 관심을 갖는 다수의 엔티티에 대한 정보로서, 상기 다수의 엔티티를 식별할 수 있는 정보이다.

이어, 단계 S120에서, 상기 컴퓨터 프로세서(110)가, 상기 멀티모달 인터페이스(120)로부터 상기 다수의 엔티티 중에서 상기 사용자가 선택한 엔티티에 대한 질의문을 수신한다. 상기 질의문은 상기 멀티모달 인터페이스에 포함된 음성 입력, 키보드 입력 및 펜 입력에 의해 제공될 수 있다.

이어, 단계 S130에서, 상기 컴퓨터 프로세서가, 상기 메타정보로부터 상기 사용자가 선택한 엔티티의 식별정보를 추출한다. 상기 메타정보로부터 엔티티의 식별정보를 추출하는 일 예는, 상기 컴퓨터 프로세서가 상기 멀티모달 인터페이스로부터 상기 사용자가 선택한 엔티티를 식별하는 멀티모달 입력정보를 수신하는 과정과, 상기 메타정보 내에서 상기 멀티모달 입력정보에 대응하는 상기 엔티티의 식별정보를 검색하는 과정 및 상기 검색된 식별정보를 상기 메타정보로부터 추출하는 과정을 포함할 수 있다. 상기 메타정보로부터 엔티티의 식별정보를 추출하는 다른 예는, 상기 멀티미디어 컨텐츠가 동영상 컨텐츠인 경우, 상기 동영상 컨텐츠의 재생 시작 시간을 기준으로 상기 질의문에 대응하는 사용자 발화음성이 입력되는 입력 시간을 계산하는 과정과 상기 계산된 입력 시간에 재생되는 상기 엔트리의 식별자를 상기 메타정보로부터 추출하는 과정을 포함한다. 상기 메타정보로부터 엔티티의 식별정보를 추출하는 또 다른 예는, 상기 멀티모달 인터페이스로부터 상기 오디오 컨테츠의 재생 시작 시간을 기준으로 상기 질의문에 대응하는 사용자 음성이 입력되는 입력 시간을 계산하는 과정과 상기 입력 시간에 재생되는 상기 오디오 컨텐츠에 포함된 상기 엔트리의 식별자를 상기 메타정보로부터 추출하는 과정을 포함한다.

이어, 단계 S140에서, 상기 질의문과 상기 엔티티의 식별정보를 서버로 전송한다.

이어, 단계 S150에서, 상기 컴퓨터 프로세서가, 상기 서버로부터, 상기 질의문에 대한 응답문을 수신한다. 이때, 상기 응답문은, 상기 엔티티의 식별정보 또는 상기 엔티티의 식별정보에 부여된 속성정보에 의해 제약된 다수의 정답후보를 포함한다.

도 13은 본 발명의 일 실시 예에 따른 서버에서의 질의응답 방법을 나타내는 흐름도로서, 설명의 편의를 위해, 아래의 단계들은 컨텐츠 서버(310)와 질의응답 서버(330)가 통합된 하나의 서버에서 수행되는 것으로 가정한다. 다만, 아래의 단계들의 수행주체를 구분하는 경우, 단계 S210 내지 S230의 수행주체는 도 1에 도시한 컨텐츠 서버(310)일 수 있고, 단계 S240 및 S250의 수행주체는 도 1에 도시한 질의응답 서버(330)일 수 있다.

도 13을 참조하면, 먼저, 단계 S210에서, 서버(300)는 멀티미디어 컨텐츠에 대한 메타정보 및 속성정보를 생성한다. 메타정보는 멀티미디어 컨텐츠에서 사용자가 관심을 갖는 다수의 엔티티에 대한 식별정보를 포함한다. 이러한 메타정보를 생성하는 방법은 상기 멀티미디어 컨텐츠에서 사용자가 관심을 가질 것으로 예상되는 다수의 엔티티를 사전에 학습된 엔티티 분류 모델을 이용하여 분류하는 과정과, 상기 분류된 다수의 엔티티 각각에 대한 상기 식별정보와 상기 멀티모달 인터페이스의 멀티모달 입력정보를 비교하기 위해 상기 식별정보를 상기 멀티모달 입력정보의 속성을 갖도록 생성하는 과정과 상기 생성된 식별정보를 포함하도록 구성된 상기 메타정보를 생성하는 과정을 포함한다. 상기 메타정보에 포함된 식별정보의 예시유형은 상기 다수의 엔티티 각각의 고유 식별자, 상기 사용자 단말의 표시화면에 상기 다수의 엔티티 각각이 표시되는 화면 좌표, 상기 다수의 엔티티를 포함하는 동영상 컨텐츠가 재생되는 시간 구간, 상기 다수의 엔티티를 포함하는 오디오 컨텐츠가 재생되는 시간 구간 및 상기 다수의 엔티티 각각의 속성을 나타내는 속성명을 포함할 수 있다. 상기 속성정보는 상기 고유 식별자(URI)에 할당된 속성명과 속성값을 포함할 수 있다. 속성명과 속성값의 일 예는 도 11을 참조한 설명으로 대신한다.

이어, 단계 S220에서, 서버(300)가 상기 멀티미디어 컨텐츠와 상기 메타정보를 사용자 단말(100)로 송신한다.

이어, 단계 S230에서, 서버(300)가 상기 다수의 엔티티 중에서 상기 사용자가 선택한 엔티티에 대한 질의문과, 상기 메타정보로부터 추출된 상기 사용자가 선택한 엔티티의 식별정보를 상기 사용자 단말로부터 수신한다.

이어, 단계 S240에서, 서버(300)가 상기 사용자가 선택한 엔티티의 식별정보에 할당된 속성정보(속성명 및 속성값)를 기반으로 상기 질의문에 대한 응답문을 생성한다. 즉, 서버(300)는 상기 사용자가 선택한 엔티티의 식별정보에 할당된 속성정보에 의해 제약(Constraint)되는 정답후보를 포함하는 응답문을 생성한다.

이어, 단계 S250에서, 서버(300)가 상기 응답문을 사용자 단말(100)로 송신한다.

도 14은 도 13에 도시된 단계 S240의 상세 흐름도이다.

도 14를 참조하면, 단계 S240-1에서, 서버(300)가, 사용자 단말(100)로부터 송신된 질의문을 분석하고, 그 분석결과를 기반으로 질의문에서 질문중심어휘를 인식한다.

질의문 분석은, 예를 들면, 형태소 분석(Morphological analysis), 개체명 분석(syntax analysis), 의미 분석(semantic analysis) 및 화용 분석(pragmatic analysis)을 포함하는 언어 처리 알고리즘을 기반으로 수행될 수 있다. 본 발명은 이러한 언어 처리 알고리즘에 특징이 있는 것이 아니므로, 이에 대한 설명은 공지기술로 대신한다.

질문중심어휘는 질의문의 대상을 가리키는 단어로 정의할 수 있다. 예를 들어, "이 그림의 제작년도는?"라는 질의문에서 질문중심어휘는 '그림'이고, "저 빨간색 가방은 얼마지?"라는 질의문에서 질문중심어휘는 '가방'이고, "여기 어디야"라는 질의문에서 질문중심어휘는 '여기'이고, "지금 나오는 노래의 가수가 누구야"라는 질의문에서 질문중심어휘는 '노래'이다.

이어, 단계 S240-3에서, 서버(300)가 사용자 단말(100)로부터 송신된 식별정보를 기반으로 상기 질문중심어휘의 속성을 결정한다. 예를 들면, 서버(300)가 도 11에 도시된 속성정보가 저장된 데이터베이스를 조회하여 사용자 단말(100)로부터 송신된 식별정보에 포함된 식별자(URI)와 동일한 식별자를 검색한다. 데이터베이스에서 동일한 식별자가 확인되면, 확인된 식별자에 할당된 속성정보 즉, 속성값(도 11의 25)을 상기 질문중심어휘의 속성으로 결정한다.

만일, 확인된 식별자에 할당된 속성값이 복수인 경우, 복수의 속성값 모두를 질문중심어휘의 속성으로 결정한다. 예를 들면, 사용자 단말(100)로부터 송신된 식별자가 URI_50이고, URI_50에 도 11에 도시된 바와 같이, '이름', '제작자', '제작년도'로 이루어진 3개의 속성이 할당된 경우, 3개의 속성 모두가 질문중심어휘의 속성으로 결정된다.

이어, 단계 S240-5에서, 서버(300)가 상기 결정된 속성을 나타내는 단어를 정답 후보로 선정하고, 선정된 정답후보가 포함된 응답문을 생성한다. 상기 결정된 속성을 나타내는 단어가 복수인 경우, 다수의 정답후보가 선정될 수 있다. 다수의 정답후보가 각각 포함된 다수의 응답문이 사용자 단말(100)로 송신될 수 있다. 사용자 단말은 다수의 응답문을 표시화면을 통해 사용자에게 제공하고, 사용자는 표시된 응답문에서 자신이 원하는 정답을 선택한다.

이상에서 설명한 실시 예들은 그 일 예로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시 예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

통신망을 통해 서버와 통신하는 컴퓨터 프로세서를 포함하는 사용자 단말에서의 질의응답 방법에서,
상기 컴퓨터 프로세서가, 상기 서버로부터 멀티미디어 컨텐츠와 상기 멀티미디어 컨텐츠에서 사용자가 관심을 갖는 다수의 엔티티에 대한 메타정보를 수신하는 단계;
상기 컴퓨터 프로세서가, 상기 멀티모달 인터페이스로부터 상기 다수의 엔티티 중에서 상기 사용자가 선택한 엔티티에 대한 질의문을 수신하는 단계;
상기 컴퓨터 프로세서가, 상기 메타정보로부터 상기 사용자가 선택한 엔티티의 식별정보를 추출하는 단계; 및
상기 컴퓨터 프로세서가, 상기 엔티티의 식별정보와 상기 질의문을 상기 서버로 송신하고, 상기 질의문에 대한 응답문으로서, 상기 엔티티의 식별정보에 의해 제약된 정답 후보를 포함하는 상기 응답문을 상기 서버로부터 수신하는 단계;
를 포함하는 사용자 단말에서의 대화형 질의응답 방법.
제1항에서, 상기 추출하는 단계는,
상기 멀티모달 인터페이스로부터 상기 사용자가 선택한 엔티티를 식별하는 멀티모달 입력정보를 수신하는 단계;
상기 메타정보 내에서 상기 멀티모달 입력정보에 대응하는 상기 엔티티의 식별정보를 검색하는 단계; 및
상기 검색된 식별정보를 상기 메타정보로부터 추출하는 단계
를 포함하는 것인 사용자 단말에서의 대화형 질의응답 방법.
제1항에서, 상기 멀티미디어 컨텐츠는 상기 사용자 단말의 표시화면에 표시되는 이미지 컨텐츠인 경우, 상기 추출하는 단계는,
상기 멀티모달 인터페이스로부터 상기 사용자가 선택한 엔티티의 터치 좌표를 수신하는 단계; 및
상기 터치 좌표에 대응하는 상기 엔트리의 식별정보를 상기 메타정보로부터 추출하는 단계
를 포함하는 것인 사용자 단말에서의 대화형 질의응답 방법.
제1항에서, 상기 멀티미디어 컨텐츠가 동영상 컨텐츠인 경우, 상기 추출하는 단계는,
상기 멀티모달 인터페이스로부터 상기 동영상 컨텐츠의 재생 시작 시간을 기준으로 상기 질의문에 대응하는 사용자 음성이 입력되는 입력 시간을 계산하는 단계; 및
상기 계산된 입력 시간에 재생되는 상기 엔트리의 식별자를 상기 메타정보로부터 추출하는 단계;
를 포함하는 것인 사용자 단말에서의 대화형 질의응답 방법.
제1항에서, 상기 멀티미디어 컨텐츠가 오디오 컨텐츠인 경우, 상기 추출하는 단계는,
상기 멀티모달 인터페이스로부터 상기 오디오 컨테츠의 재생 시작 시간을 기준으로 상기 질의문에 대응하는 사용자 음성이 입력되는 입력 시간을 계산하는 단계; 및
상기 입력 시간에 재생되는 상기 오디오 컨텐츠에 포함된 상기 엔트리의 식별자를 상기 메타정보로부터 추출하는 단계
를 포함하는 것인 사용자 단말에서의 대화형 질의응답 방법.
제1항에서, 상기 식별정보는,
상기 다수의 엔티티 각각의 고유 식별자, 상기 사용자 단말의 표시화면 상에 상기 다수의 엔티티 각각이 표시되는 영역의 좌표, 상기 다수의 엔티티를 포함하는 동영상 컨텐츠가 재생되는 시간 구간, 상기 다수의 엔티티를 포함하는 오디오 컨텐츠가 재생되는 시간 구간 및 상기 다수의 엔티티 각각의 속성을 나타내는 속성명을 포함하는 것인 사용자 단말에서의 대화형 질의응답 방법.
통신망을 통해 사용자 단말과 통신하는 컴퓨터 프로세서를 포함하는 서버에서의 대화형 질의응답 방법에서,
상기 컴퓨터 프로세서가, 멀티미디어 컨텐츠 내에서 사용자가 관심을 갖는 다수의 엔티티에 대한 식별정보를 포함하는 메타정보와 상기 식별정보에 부여된 속성정보를 생성하는 단계;
상기 컴퓨터 프로세서가, 상기 멀티미디어 컨텐츠와 상기 메타정보를 사용자 단말로 송신하는 단계;
상기 컴퓨터 프로세서가, 상기 다수의 엔티티 중에서 상기 사용자가 선택한 엔티티에 대한 질의문과, 상기 메타정보로부터 추출된 상기 사용자가 선택한 엔티티의 식별정보를 상기 사용자 단말로부터 수신하는 단계; 및
상기 컴퓨터 프로세서가, 상기 사용자가 선택한 엔티티의 식별정보에 부여된 속성정보를 기반으로 상기 질의문에 대한 응답문을 생성하고, 상기 응답문을 상기 사용자 단말로 송신하는 단계
를 포함하는 서버에서의 대화형 질의응답 방법.
제7항에서, 상기 메타정보를 생성하는 단계는,
상기 멀티미디어 컨텐츠에서 사용자가 관심을 가질 것으로 예상되는 다수의 엔티티를 사전에 학습된 엔티티 분류 모델을 이용하여 분류하는 단계;
상기 분류된 다수의 엔티티 각각에 대한 상기 식별정보를 상기 멀티모달 인터페이스 기반으로 생성하는 단계; 및
상기 생성된 식별정보를 포함하는 상기 메타정보를 생성하는 단계
를 포함하는 서버에서의 대화형 질의응답 방법.
제8항에서, 상기 식별정보를 상기 멀티모달 인터페이스 기반으로 생성하는 단계는,
상기 멀티모달 인터페이스에서 출력되는 멀티모달 입력정보와 상기 식별정보를 비교하기 위해, 상기 식별정보를 상기 멀티모달 입력정보의 속성을 갖도록 생성하는 단계; 및
상기 생성된 식별정보를 포함하도록 상기 메타정보를 생성하는 단계
를 포함하는 서버에서의 대화형 질의응답 방법.
제7항에서, 상기 식별정보는,
상기 다수의 엔티티의 각 고유 식별자, 상기 다수의 엔티티가 표시화면에서 위치하는 화면좌표, 동영상 컨텐츠에 포함된 엔티티가 재생되는 시간 구간, 오디오 컨텐츠에 포함된 엔티티가 재생되는 시간 구간 및 상기 다수의 엔티티 각각의 속성을 나타내는 속성명을 포함하는 것인 서버에서의 대화형 질의응답 방법.
제7항에서, 상기 응답문을 상기 사용자 단말로 송신하는 단계는,
상기 사용자 단말로부터 송신된 질의문을 분석하여, 상기 질의문에서 질문중심어휘를 인식하는 단계;
상기 사용자 단말로부터 송신된 식별정보를 기반으로 상기 질문중심어휘의 속성정보를 결정하는 단계;
상기 속성정보를 정답 후보로 선정하고, 선정된 정답후보가 포함된 상기 응답문을 생성하는 단계
를 포함하는 것인 서버에서의 대화형 질의응답 방법.
제11항에서, 상기 속성값을 결정하는 단계는,
상기 속성정보가 저장된 데이터베이스를 조회하여, 상기 사용자 단말로부터 송신된 식별정보에 포함된 식별자와 동일한 식별자를 검색하는 단계; 및
상기 데이터베이스에서 동일한 식별자가 확인되면, 확인된 식별자에 할당된 속성정보를 상기 질문중심어휘의 속성정보로 결정하는 단계
를 포함하는 것인 서버에서의 대화형 질의응답 방법.
통신망을 통해 사용자 단말과 통신하는 컴퓨터 프로세서를 포함하는 서버를 포함하는 대화형 질의응답 장치에서,
상기 서버는,
멀티미디어 컨텐츠, 멀티미디어 컨텐츠 내에서 사용자가 관심을 갖는 다수의 엔티티에 대한 식별정보를 포함하는 메타정보 및 상기 식별정보에 할당된 속성정보를 저장하는 저장유닛; 및
상기 멀티미디어 컨텐츠와 상기 메타정보를 사용자 단말로 송신하고, 상기 다수의 엔티티 중에서 상기 사용자가 선택한 엔티티에 대한 질의문과, 상기 메타정보로부터 추출된 상기 사용자가 선택한 엔티티의 식별정보를 상기 사용자 단말로부터 수신하고, 상기 사용자가 선택한 엔티티의 식별정보에 할당된 속성정보를 기반으로 상기 질의문에 대한 응답문을 생성하여 상기 응답문을 상기 사용자 단말로 송신하는 컴퓨터 프로세서
를 포함하는 대화형 질의응답 장치.
제13항에서, 상기 컴퓨터 프로세서는,
상기 멀티미디어 컨텐츠에서 사용자가 관심을 가질 것으로 예상되는 다수의 엔티티를 사전에 학습된 엔티티 분류 모델을 이용하여 분류하고, 상기 분류된 다수의 엔티티 각각에 대한 상기 식별정보를 상기 멀티모달 인터페이스 기반으로 생성하고, 상기 생성된 식별정보를 포함하는 상기 메타정보를 생성하여 상기 저장 유닛에 저장하는 것인 대화형 질의응답 장치.
제14항에서, 상기 컴퓨터 프로세서는,
상기 멀티모달 인터페이스에서 출력되는 멀티모달 입력정보와 상기 식별정보를 비교하기 위해, 상기 식별정보를 상기 멀티모달 입력정보의 속성을 갖도록 생성하는 것인 대화형 질의응답 장치.
제14항에서, 상기 컴퓨터 프로세서는,
상기 다수의 엔티티의 각 고유 식별자, 상기 다수의 엔티티가 표시화면에서 위치하는 화면좌표, 동영상 컨텐츠에 포함된 엔티티가 재생되는 시간 구간, 오디오 컨텐츠에 포함된 엔티티가 재생되는 시간 구간 및 상기 다수의 엔티티 각각의 속성을 나타내는 속성명을 포함하는 상기 식별정보를 포함하도록 상기 메타정보를 생성하여, 상기 저장 유닛에 저장하는 것인 대화형 질의응답 장치.
제14항에서, 상기 컴퓨터 프로세서는,
상기 사용자 단말로부터 송신된 질의문을 분석하여, 상기 질의문에서 질문중심어휘를 인식하고, 상기 사용자 단말로부터 송신된 식별정보를 기반으로 상기 질문중심어휘의 속성정보를 결정하고, 상기 결정된 속성정보를 정답 후보로 선정하고, 선정된 정답후보가 포함된 상기 응답문을 생성하는 것인 대화형 질의응답 장치.
제17항에서, 상기 컴퓨터 프로세서는,
상기 속성정보가 저장된 저장유닛을 조회하여, 상기 사용자 단말로부터 송신된 식별정보에 포함된 식별자와 동일한 식별자를 검색하고, 상기 저장유닛에서 동일한 식별자가 확인되면, 확인된 식별자에 할당된 속성정보를 상기 질문중심어휘의 속성정보로 결정하는 것인 대화형 질의응답 장치.