KR20230012785A - 비디오 스토리 질의응답을 위한 트랜스포머 모델을 구축하는 방법 및 이를 수행하기 위한 컴퓨팅 장치 - Google Patents

비디오 스토리 질의응답을 위한 트랜스포머 모델을 구축하는 방법 및 이를 수행하기 위한 컴퓨팅 장치 Download PDF

Info

Publication number
KR20230012785A
KR20230012785A KR1020210093486A KR20210093486A KR20230012785A KR 20230012785 A KR20230012785 A KR 20230012785A KR 1020210093486 A KR1020210093486 A KR 1020210093486A KR 20210093486 A KR20210093486 A KR 20210093486A KR 20230012785 A KR20230012785 A KR 20230012785A
Authority
KR
South Korea
Prior art keywords
embedding
video
data
character
feature
Prior art date
Application number
KR1020210093486A
Other languages
English (en)
Inventor
장병탁
최성호
Original Assignee
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학협력단 filed Critical 서울대학교산학협력단
Priority to KR1020210093486A priority Critical patent/KR20230012785A/ko
Priority to US17/615,662 priority patent/US20240037896A1/en
Priority to PCT/KR2021/013257 priority patent/WO2023286914A1/ko
Publication of KR20230012785A publication Critical patent/KR20230012785A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/469Contour-based spatial representations, e.g. vector-coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Image Processing (AREA)
  • Studio Circuits (AREA)

Abstract

일 실시예에 따른 비디오 스토리 질의응답을 위한 트랜스포머 모델을 구축하는 방법은, 영상(vision) 데이터 및 자막(subtitle) 데이터를 포함하는 비디오 데이터, 그리고 비디오 질의응답을 위한 질문(question) 데이터로부터 비디오의 등장인물과 관련된 특징벡터(feature vector)를 추출하고, 상기 등장인물과 관련된 특징벡터를 이용하여 입력 임베딩(input embedding)을 생성하는 단계 및 상기 입력 임베딩을 이용하여 트랜스포머 모델을 학습시키는 단계를 포함한다.

Description

비디오 스토리 질의응답을 위한 트랜스포머 모델을 구축하는 방법 및 이를 수행하기 위한 컴퓨팅 장치 {METHOD FOR GENERATING TRANSFORMER MODEL FOR VIDEO STORY QUESTION ANSWERING, AND COMPUTING APPARATUS FOR PERFORMING THE SAME}
본 명세서에서 개시되는 실시예들은 비디오 스토리 질의응답을 위한 트랜스포머 모델을 구축하는 방법 및 이를 수행하기 위한 컴퓨팅 장치에 관한 것이다.
최근 비디오 스토리 모델링 분야는 시각 및 자연어 처리 연구를 융합하는 고난도의 분야로 새롭게 떠오르고 있다. 이러한 시각 및 자연어 처리의 융합된 영역을 다루는 대표적인 기술로서 Visual Question Answering (VQA) 기술이 있다. VQA 기술은 비디오에 내포된 의미나 줄거리에 대한 질의에 응답할 수 있도록 비디오에 포함된 데이터를 분석하고 그에 따라 질문에 대한 답변을 추론한다.
그러나 비디오 스토리 질의응답 문제는 단순한 이미지와는 차원이 다르게 많은 정보를 내포하는 비디오 자체의 특성과, 그 특성에서 오는 질의의 다양한 종류로 인한 문제 난이도의 증가로 인해, 해결하기 어려운 분야로 평가 받고 있다. 특히, 스토리가 연결되는 긴 길이의 비디오의 경우에는 원하는 정보를 얻어내기 힘든 한계가 있다.
한편, 전술한 배경기술은 발명자가 본 발명의 도출을 위해 보유하고 있었거나, 본 발명의 도출 과정에서 습득한 기술 정보로서, 반드시 본 발명의 출원 전에 일반 공중에게 공개된 공지기술이라 할 수는 없다.
본 명세서에서 개시되는 실시예들은, 비디오 스토리 질의응답을 효과적으로 수행할 수 있는 트랜스포머 모델을 구축하고자 한다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 일 실시예에 따르면 비디오 스토리 질의응답을 위한 트랜스포머 모델을 구축하는 방법은, 영상(vision) 데이터 및 자막(subtitle) 데이터를 포함하는 비디오 데이터, 그리고 비디오 질의응답을 위한 질문(question) 데이터로부터 비디오의 등장인물과 관련된 특징벡터(feature vector)를 추출하고, 상기 등장인물과 관련된 특징벡터를 이용하여 입력 임베딩(input embedding)을 생성하는 단계 및 상기 입력 임베딩을 이용하여 트랜스포머 모델을 학습시키는 단계를 포함할 수 있다.
이때, 상기 입력 임베딩을 생성하는 단계는, 상기 영상 데이터, 자막 데이터 및 질문 데이터를 복수의 카테고리로 분류하는 단계, 상기 복수의 카테고리별로 특징벡터를 추출하는 단계, 상기 추출된 특징벡터들을 이용하여 특징 임베딩(feature embedding), 세그먼트 임베딩(segment embedding) 및 포지션 임베딩(position embedding)을 생성하는 단계 및 상기 특징 임베딩, 세그먼트 임베딩 및 포지션 임베딩을 합하여 상기 입력 임베딩을 생성하는 단계를 포함하며, 상기 복수의 카테고리는 상기 등장인물의 특징에 관한 카테고리를 적어도 하나 이상 포함할 수 있다.
이때, 상기 등장인물의 특징에 관한 카테고리는, 상기 비디오에 포함된 영상 프레임에서 상기 등장인물을 포함하는 바운딩 박스(bounding box), 상기 등장인물의 행동(behavior) 및 상기 등장인물의 감정(emotion)을 포함할 수 있다.
또는 이때, 상기 추출된 특징벡터들을 이용하여 특징 임베딩, 세그먼트 임베딩 및 포지션 임베딩을 생성하는 단계는, 상기 복수의 카테고리별로 추출된 특징벡터를 모두 이어 붙여 상기 특징 임베딩을 생성하는 단계, 상기 복수의 카테고리별로 학습 가능한 임베딩 매트릭스(learnable embedding matrix)를 이용한 임베딩 룩업(embedding lookup)을 수행하여 상기 세그먼트 임베딩을 생성하는 단계 및 상기 복수의 카테고리별로 추출된 특징벡터와 관련된 위치정보를 포함하는 벡터를 생성함으로써 상기 포지션 임베딩을 생성하는 단계를 포함할 수 있다.
한편, 상기 트랜스포머 모델을 학습시키는 단계는, 마스크드 언어 모델링(Masked Language Modeling), 마스크드 프레임 모델링(Masked Frame Modeling) 및 응답 언어 모델링(Response Language Modeling)을 포함하는 다중 작업 학습(Multi Task Learning)을 통해 수행될 수 있다.
다른 실시예에 따르면, 비디오 스토리 질의응답을 위한 트랜스포머 모델을 구축하는 방법을 수행하기 위한 컴퓨터 프로그램으로서, 비디오 스토리 질의응답을 위한 트랜스포머 모델을 구축하는 방법은, 영상(vision) 데이터 및 자막(subtitle) 데이터를 포함하는 비디오 데이터, 그리고 비디오 질의응답을 위한 질문(question) 데이터로부터 비디오의 등장인물과 관련된 특징벡터(feature vector)를 추출하고, 상기 등장인물과 관련된 특징벡터를 이용하여 입력 임베딩(input embedding)을 생성하는 단계 및 상기 입력 임베딩을 이용하여 트랜스포머 모델을 학습시키는 단계를 포함할 수 있다.
또 다른 실시예에 따르면, 비디오 스토리 질의응답을 위한 트랜스포머 모델을 구축하는 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체로서, 비디오 스토리 질의응답을 위한 트랜스포머 모델을 구축하는 방법은, 영상(vision) 데이터 및 자막(subtitle) 데이터를 포함하는 비디오 데이터, 그리고 비디오 질의응답을 위한 질문(question) 데이터로부터 비디오의 등장인물과 관련된 특징벡터(feature vector)를 추출하고, 상기 등장인물과 관련된 특징벡터를 이용하여 입력 임베딩(input embedding)을 생성하는 단계 및 상기 입력 임베딩을 이용하여 트랜스포머 모델을 학습시키는 단계를 포함할 수 있다.
또 다른 실시예에 따르면, 비디오 스토리 질의응답을 위한 트랜스포머 모델을 구축하기 위한 컴퓨팅 장치는, 영상(vision) 데이터 및 자막(subtitle) 데이터를 포함하는 비디오 데이터, 그리고 비디오 질의응답을 위한 질문(question) 데이터를 입력받고, 비디오 스토리 질의응답 결과를 출력하기 위한 입출력부, 비디오 스토리 질의응답을 수행하기 위한 프로그램 및 데이터가 저장되는 저장부 및 적어도 하나의 프로세서를 포함하며, 상기 저장된 프로그램을 실행함으로써 비디오 스토리 질의응답을 위한 트랜스포머 모델을 구축하는 제어부를 포함하며, 상기 제어부는 상기 비디오 데이터 및 질문 데이터로부터 비디오의 등장인물과 관련된 특징벡터(feature vector)를 추출하고, 상기 등장인물과 관련된 특징벡터를 이용하여 입력 임베딩(input embedding)을 생성한 후, 상기 입력 임베딩을 이용하여 상기 트랜스포머 모델을 학습시킬 수 있다.
이때, 상기 제어부는 상기 입력 임베딩을 생성함에 있어서, 상기 영상 데이터, 자막 데이터 및 질문 데이터를 복수의 카테고리로 분류하고, 상기 복수의 카테고리별로 특징벡터를 추출한 후, 상기 추출된 특징벡터들을 이용하여 특징 임베딩(feature embedding), 세그먼트 임베딩(segment embedding) 및 포지션 임베딩(position embedding)을 생성하고, 상기 특징 임베딩, 세그먼트 임베딩 및 포지션 임베딩을 합하여 상기 입력 임베딩을 생성하며, 상기 복수의 카테고리는 상기 등장인물의 특징에 관한 카테고리를 적어도 하나 이상 포함할 수 있다.
또한 이때, 상기 등장인물의 특징에 관한 카테고리는, 상기 비디오에 포함된 영상 프레임에서 상기 등장인물을 포함하는 바운딩 박스(bounding box), 상기 등장인물의 행동(behavior) 및 상기 등장인물의 감정(emotion)을 포함할 수 있다.
또는 이때, 상기 제어부는 상기 추출된 특징벡터들을 이용하여 특징 임베딩, 세그먼트 임베딩 및 포지션 임베딩을 생성함에 있어서, 상기 복수의 카테고리별로 추출된 특징벡터를 모두 이어 붙여 상기 특징 임베딩을 생성하고, 상기 복수의 카테고리별로 학습 가능한 임베딩 매트릭스(learnable embedding matrix)를 이용한 임베딩 룩업(embedding lookup)을 수행하여 상기 세그먼트 임베딩을 생성하고, 상기 복수의 카테고리별로 추출된 특징벡터와 관련된 위치정보를 포함하는 벡터를 생성함으로써 상기 포지션 임베딩을 생성할 수 있다.
한편, 상기 제어부는 상기 트랜스포머 모델을 학습시킴에 있어서, 마스크드 언어 모델링(Masked Language Modeling), 마스크드 프레임 모델링(Masked Frame Modeling) 및 응답 언어 모델링(Response Language Modeling)을 포함하는 다중 작업 학습(Multi Task Learning)을 수행할 수 있다.
전술한 과제 해결 수단 중 어느 하나에 의하면, 비디오 스토리에 등장하는 인물을 중심으로 모델링을 수행함으로써 비디오 스토리의 길이가 긴 경우에도 효과적으로 원하는 정보를 얻어낼 수 있는 효과가 있다.
개시되는 실시예들에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 개시되는 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
도 1은 일 실시예에 따른 비디오 스토리 질의응답을 위한 트랜스포머 모델의 구조를 도시한 도면이다.
도 2는 일 실시예에 따른 비디오 스토리 질의응답을 위한 트랜스포머를 구축하기 위한 컴퓨팅 장치의 구성을 도시한 도면이다.
도 3 내지 도 5는 실시예들에 따른 비디오 스토리 질의응답을 위한 트랜스포머 모델의 구축 방법을 설명하기 위한 순서도들이다.
아래에서는 첨부한 도면을 참조하여 다양한 실시예들을 상세히 설명한다. 아래에서 설명되는 실시예들은 여러 가지 상이한 형태로 변형되어 실시될 수도 있다. 실시예들의 특징을 보다 명확히 설명하기 위하여, 이하의 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에게 널리 알려져 있는 사항들에 관해서 자세한 설명은 생략하였다. 그리고, 도면에서 실시예들의 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 구성이 다른 구성과 "연결"되어 있다고 할 때, 이는 '직접적으로 연결'되어 있는 경우뿐 아니라, '그 중간에 다른 구성을 사이에 두고 연결'되어 있는 경우도 포함한다. 또한, 어떤 구성이 어떤 구성을 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한, 그 외 다른 구성을 제외하는 것이 아니라 다른 구성들을 더 포함할 수도 있음을 의미한다.
본 명세서에서 설명되는 실시예들은 비디오 스토리에 대한 질의응답을 수행하기 위한 멀티모달 트랜스포머(multimodal transformer) 모델의 구축에 관한 것이다.
이하에서는 먼저 트랜스포머 모델을 구축하기 위한 컴퓨팅 장치의 구성에 대해서 간단히 설명하고, 이어서 컴퓨팅 장치가 트랜스포머 모델에 대한 입력 임베딩(input embedding)을 생성하고, 이를 이용하여 트랜스포머 모델을 학습시키는 방법에 대해서 자세히 설명한다.
본 명세서에서 설명되는 실시예들에서는 영상(vision) 및 텍스트(text) 등의 모달리티(modality)에 대한 임베딩을 수행하여 입력 임베딩을 생성함에 있어서, 영상에서 나타나는 등장인물의 행동(behavior) 및 감정(emotion), 그리고 자막(subtitle)에 포함된 발화자의 정보와 같이 등장인물과 관련된 정보를 이용한다. 참고로, 비슷한 방식으로 객체(object), 장소(place) 및 관계(relation) 등과 같은 부가정보를 이용한 모달리티 임베딩까지 확장함으로써 비디오의 스토리를 다각적으로 분석할 수도 있다. 즉, 본 명세서에서 설명되는 실시예들에서는 등장인물을 중심으로 비디오 스토리를 분석하기 위해 등장인물과 관련된 정보를 이용하여 임베딩을 수행하지만, 분석의 포인트를 다르게 하기 위해 임베딩 시 이용되는 정보의 종류를 추가하거나 변경할 수 있다.
또한, 본 명세서에서 설명되는 실시예들에서는 영상과 자막 간 순서 정렬 문제를 해결하기 위해, 자막 정보의 시작과 끝 구간 사이에 해당하는 비디오 프레임의 포지션 임베딩(position embedding)을 자막의 포지션 임베딩으로 활용한다. 기존에는 비디오 프레임 단위로 또는 자막 단위로 표현을 학습함으로 인해 영상과 자막 간 정렬 학습에 한계가 있었는데, 본 명세서에서 설명되는 실시예들에서는 위와 같은 문제를 포지션 임베딩을 통해 해결할 수 있다.
이하 첨부된 도면을 참고하여 실시예들을 상세히 설명하기로 한다.
도 1은 일 실시예에 따른 비디오 스토리 질의응답을 위한 트랜스포머 모델의 구조를 도시한 도면이다. 도 1에 도시된 트랜스포머 모델은 트랜스포머 인코더(110) 및 트랜스포머 디코더(120)를 포함하며,
Figure pat00001
(10)가 입력 임베딩(input embedding)으로서 트랜스포머 인코더(110)에 인가됨으로써 트랜스포머 모델에 대한 학습이 수행된다.
도 1에 도시된 트랜스포머 모델은 후술할 컴퓨팅 장치에 의해 구현되며, 입력 임베딩을 생성하는 방법에 대해서는 아래에서 자세히 설명하도록 한다. 본 명세서에서 설명되는 실시예들은 입력 임베딩 생성 시 비디오 스토리에 등장하는 인물과 관련된 특징벡터(feature vector)를 이용함으로써 등장인물을 중심으로 모델링하는 특징을 갖는다.
도 2는 일 실시예에 따른 비디오 스토리 질의응답을 위한 트랜스포머를 구축하기 위한 컴퓨팅 장치의 구성을 도시한 도면이다. 도 2를 참조하면, 일 실시예에 따른 컴퓨팅 장치(200)는 입출력부(210), 제어부(220) 및 저장부(230)를 포함할 수 있다.
컴퓨팅 장치(200)는, 사용자와의 인터랙션이 가능한 인터페이스를 포함할 수 있는 컴퓨터나 휴대용 단말기, 및 웨어러블 디바이스(wearable device) 등으로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 웹 브라우저(web browser)가 탑재된 노트북, 데스크톱(desktop), 랩톱(laptop)등을 포함하고, 휴대용 단말기는 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, PCS(Personal Communication System), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant),GSM(Global System for Mobile communications), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet), 스마트폰(Smart Phone), 모바일WiMAX(Mobile Worldwide Interoperability for Microwave Access) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다. 또한, 웨어러블 디바이스는 예를 들어, 시계, 안경, 액세서리, 의복, 신발 등 인체에 직접 착용 가능한 타입의 정보처리장치로서, 직접 또는 다른 정보처리장치를 통해 네트워크를 경유하여 원격지의 서버에 접속하거나 타 단말과 연결될 수 있다.
입출력부(210)는 비디오 데이터 및 질문 데이터를 입력받고, 비디오 스토리 질의응답 결과를 출력하기 위한 구성이다. 입출력부(210)는 사용자로부터 입력을 수신하기 위한 다양한 종류의 입력장치(e.g. 키보드, 터치스크린 등)를 포함할 수 있으며, 또한 비디오 스토리 질의응답의 수행에 필요한 데이터를 송수신하기 위한 연결 포트나 통신 모듈을 포함할 수도 있다.
제어부(220)는 CPU 등과 같은 적어도 하나의 프로세서를 포함하는 구성으로서, 저장부(230)에 저장된 프로그램을 실행함으로써 이하에서 제시되는 프로세스에 따라 비디오 스토리 질의응답을 위한 트랜스포머 모델을 구축하고 비디오 스토리 질의응답을 수행한다. 다시 말해, 제어부(220)가 저장부(230)에 저장된 프로그램을 실행함으로써 도 1에 도시된 트랜스포머 모델이 구현되고, 제어부(220)는 비디오 데이터 및 질문 데이터로부터 입력 임베딩을 생성하고, 생성된 입력 임베딩을 이용하여 트랜스포머 모델을 학습시킨 후 비디오 스토리 질의응답을 수행할 수 있다. 제어부(220)가 입력 임베딩을 생성하고 이를 이용하여 트랜스포머 모델을 학습시키는 방법에 대해서는 아래에서 자세히 설명한다.
저장부(230)는 파일 및 프로그램이 저장될 수 있는 구성으로서 다양한 종류의 메모리를 통해 구성될 수 있다. 특히, 저장부(230)에는 제어부(220)가 이하에서 제시되는 프로세스에 따라 비디오 스토리 질의응답을 위한 트랜스포머 모델을 구축할 수 있도록 하는 데이터 및 프로그램이 저장될 수 있다.
이하에서는 제어부(220)가 저장부(230)에 저장된 프로그램을 실행시킴으로써 비디오 데이터 및 질문 데이터로부터 입력 임베딩을 생성하고, 생성된 입력 임베딩을 이용하여 트랜스포머 모델을 학습시키는 과정에 대해서 자세히 설명한다. 아래에서 설명되는 프로세스들은 특별히 다른 언급이 없는 한 제어부(220)가 저장부(230)에 저장된 프로그램을 실행시킴으로써 수행하는 것이다.
입력 임베딩 생성에 대해서는 1. 전처리 단계 및 2. 입력 임베딩의 생성 부분에서 설명하고, 실시예들에서 사용되는 트랜스포머 모델의 구조에 대해서는 3. 모델 구조 부분에서 설명하고, 트랜스포머 모델의 학습에 대해서는 4. 모델 학습에서 설명한다.
상세 프로세스를 설명하기 전에 전체적인 흐름에 대해서 간단히 설명하면 다음과 같다. 컴퓨팅 장치(200)는 비디오 데이터 및 질문 데이터를 수신하는데, 비디오 데이터는 영상 데이터 및 자막 데이터를 포함한다. 질문 데이터는 비디오 스토리에 관한 질문 및 그에 대한 복수의 보기를 포함하도록 구성된다.
제어부(220)는 수신한 데이터를 모달리티별로 분류하여 영상 데이터와 텍스트 데이터로 나눈다. 텍스트 데이터는 비디오 데이터에 포함된 자막 데이터와 질문 데이터를 포함한다. 이어서, 제어부(220)는 각 모달리티를 복수의 카테고리로 분류하고 분류된 카테고리별로 특징벡터(feature vector)를 추출한다. 이때, 복수의 카테고리는 등장인물의 특징에 관한 카테고리를 포함하는 것이 특징이다. (1. 전처리 단계)
제어부(220)는 카테고리별로 추출된 특징벡터를 이용하여 입력 임베딩을 생성하는데, 입력 임베딩은 특징 임베딩(feature embedding), 세그먼트 임베딩(segment embedding) 및 포지션 임베딩(modality-wise position embedding)의 합이다. 제어부(220)는 복수의 카테고리별로 추출된 특징벡터를 모두 이어 붙임으로써 특징 임베딩을 생성하고, 복수의 카테고리별로 학습 가능한 임베딩 매트릭스(learnable embedding matrix)를 이용한 임베딩 룩업(embedding lookup)을 수행함으로써 세그먼트 임베딩을 생성하고, 복수의 카테고리별로 추출된 특징벡터와 관련된 위치정보를 포함하는 벡터를 생성함으로써 포지션 임베딩을 생성할 수 있다. (2. 입력 임베딩의 생성)
제어부(220)는 위와 같이 생성된 입력 임베딩을 이용하여 트랜스포머 모델을 학습시킴으로써 비디오 스토리 질의응답을 수행할 수 있다. (3. 모델 구조 및 4. 모델 학습)
1. 전처리 단계
트랜스포머 모델의 입력을 생성하기 위해 비디오 데이터 및 자막 데이터를 전처리하는 과정에 대해서 설명한다. 트랜스포머 모델의 입력인 비디오 데이터는 다음의 수학식 1과 같이 표현된다고 가정한다.
Figure pat00002
이때,
Figure pat00003
은 전체 비디오
Figure pat00004
에서 n번째 프레임(frame)을 의미하고,
Figure pat00005
는 전체 비디오
Figure pat00006
에서 m번째 자막을 의미한다.
일 실시예에 따르면, 각각의 프레임에 대한 정보는 선학습된 I3D (Inflated 3D ConvNet) 모델을 활용해 특징벡터를 추출하여
Figure pat00007
으로 나타낼 수 있다. 각각의
Figure pat00008
에는
Figure pat00009
의 형태로 등장인물에 대한 정보가 포함되어 있으며, 각 등장인물의 정보는 다음의 수학식 2와 같이 표현될 수 있다.
Figure pat00010
이때,
Figure pat00011
는 등장인물을 포함하는 바운딩 박스(bounding box)의 이미지를 선학습된 ResNet152 모델을 사용하여 특징벡터로 표현한 것이고,
Figure pat00012
는 등장인물의 행동(behavior)을 선학습된 GloVe 모델을 사용하여 특징벡터로 표현한 것이며,
Figure pat00013
는 등장인물의 감정(emotion)을 선학습된 GloVe 모델을 사용하여 특징벡터로 표현한 것이다.
각각의
Figure pat00014
에는
Figure pat00015
의 형태로 발화자에 대한 정보(
Figure pat00016
) 및 단어(
Figure pat00017
)로 구성되는 문장에 대한 정보(
Figure pat00018
)가 포함되어 있다.
발화자와 단어는 모두 워드 임베딩(word embedding)을 통해 고차원의 특징벡터로 표현되며, 자막에 포함된 각각의 문장은 토큰(token) 분해(e.g. Word Tokenizer를 이용한 토큰 분해)를 통해 복수의 단어들로 나누어진다.
비디오 데이터와 함께 입력되는 질문 데이터는 다음의 수학식 3과 같이 표기하고, 각각의 질문도 토큰 분해를 통해 복수의 단어들로 나누어진다.
Figure pat00019
2. 입력 임베딩(input embedding)의 생성
일 실시예에 따르면, 제어부(220)는 앞서 설명한 전처리된 데이터를 이용하여 선학습된 GPT-2 모델의 입력 형태에 맞춰 입력 임베딩을 생성한다. 생성되는 입력 임베딩은 다음의 수학식 4와 같이 나타내며, 각각의 항을 구하는 방법에 대해서는 아래에서 자세히 설명한다.
Figure pat00020
(1) 특징 임베딩 (feature embedding)
Figure pat00021
제어부(220)는 모든
Figure pat00022
을 시간의 흐름에 따라 2차원의 시퀀스(sequence) 형태로 이어 붙이고, 그 뒤에
Figure pat00023
도 마찬가지로 시간의 흐름에 따라 2차원의 시퀀스 형태로 이어 붙인 후, 마지막으로
Figure pat00024
을 이어 붙임으로써 특징 임베딩
Figure pat00025
을 생성한다. 이와 같이 생성된 특징 임베딩은 다음의 수학식 5와 같이 표현되며, 시퀀스의 길이는
Figure pat00026
가 된다.
Figure pat00027
만약, I3D 또는 ResNet을 이용하여 특징을 추출한다면, GloVe 모델을 이용하여 추출한 특징과 차원이 다르므로, 한 층의 학습 가능한 선형 층(linear layer)을 통해 차원을 맞춰주는 작업이 필요하다.
(2) 세그먼트 임베딩 (segment embedding)
Figure pat00028
제어부(220)는 비디오 데이터 및 질문 데이터를 다음과 같은 7개의 카테고리로 분류하고, 학습 가능한 임베딩 매트릭스(learnable embedding matrix)
Figure pat00029
에서 임베딩 룩업(embedding lookup)을 수행함으로써 각각의 카테고리에 대한 세그먼트 임베딩을 생성한다.
1) 각 프레임에 대한 특징벡터
Figure pat00030
(일 실시예에 따르면, I3D 모델을 이용하여 추출)
2) 각 등장인물의 바운딩 박스에 대한 특징벡터
Figure pat00031
(일 실시예에 따르면, ResNet 모델을 이용하여 추출)
3) 각 등장인물의 행동에 대한 특징벡터
Figure pat00032
(일 실시예에 따르면, GloVe 모델을 이용하여 추출)
4) 각 등장인물의 감정에 대한 특징벡터
Figure pat00033
(일 실시예에 따르면, GloVe 모델을 이용하여 추출)
5) 각 자막의 발화자에 대한 특징벡터
Figure pat00034
6) 각 자막에 포함된 단어에 대한 특징벡터
Figure pat00035
7) 각 질문에 포함된 단어에 대한 특징벡터
Figure pat00036
(3) 모달리티별 포지션 임베딩 (modality-wise position embedding)
Figure pat00037
제어부(220)는 비디오 데이터 및 자막 데이터 간 위치 관계를 나타내기 위해 모달리티별 포지션 임베딩을 생성한다.
Figure pat00038
의 모달리티별 포지션 임베딩, 즉 영상에 대한 포지션 임베딩은 다음의 수학식 6 및 7과 같이 나타낼 수 있다.
Figure pat00039
Figure pat00040
이때,
Figure pat00041
,
Figure pat00042
Figure pat00043
는 각각
Figure pat00044
의 시간상 위치,
Figure pat00045
의 바운딩 박스 중점의 위치 및
Figure pat00046
의 바운딩 박스의 크기를 학습 가능한 임베딩 매트릭스
Figure pat00047
,
Figure pat00048
Figure pat00049
에서 임베딩 룩업을 수행한 결과 얻을 수 있다.
또한,
Figure pat00050
Figure pat00051
는 각각 프레임 중점의 위치 및 프레임의 크기를 학습 가능한 임베딩 매트릭스
Figure pat00052
Figure pat00053
에서 임베딩 룩업을 수행한 결과 얻을 수 있다.
각 구성을 인덱스를 통해 나타내는 방법에 대해 설명하면, 일 실시예에 따르면, 시간상 위치는 프레임 하나당 하나씩 대응되는 인덱스를 통해 나타낼 수 있고, 바운딩 박스 중점의 위치 또는 프레임 중점의 위치는 비디오의 프레임을 그리드(grid) 형태(예를 들어, 4x6)로 나누었을 때 하나의 칸마다 하나씩 대응되는 인덱스(예를 들어, 0~23)를 통해 나타낼 수 있고, 바운딩 박스의 크기 또는 프레임의 크기는 미리 정의된 크기 구간에서 어떤 구간에 해당하는지에 대한 인덱스로 나타낼 수 있다.
Figure pat00054
Figure pat00055
의 모달리티별 포지션 임베딩, 즉 텍스트에 대한 포지션 임베딩은 다음의 수학식 8 내지 10과 같이 나타낼 수 있다.
Figure pat00056
Figure pat00057
이때,
Figure pat00058
는 자막에 해당하는
Figure pat00059
의 평균으로 나타낸다.
Figure pat00060
는 자막에 포함된 문장상에서의 단어의 위치를 이용하여 학습 가능한 임베딩 매트릭스
Figure pat00061
에서 임베딩 룩업을 수행하여 얻을 수 있다.
Figure pat00062
이때,
Figure pat00063
는 질문상에서의 단어의 위치를 이용하여 학습 가능한 임베딩 매트릭스
Figure pat00064
에서 임베딩 룩업을 수행하여 얻을 수 있다.
제어부(220)는 상기 수학식 4에 나타난 바와 같이, 특징 임베딩에, 각각의 특징이 포함되는 카테고리에 해당되는 세그먼트 임베딩 및 각각의 특징의 위치에 따른 모달리티별 포지션 임베딩을 더함으로써 입력 임베딩을 생성할 수 있다.
3. 모델 구조
앞서 살펴본 도 1에는 일 실시예에 따른 멀티모달 트랜스포머 모델의 구조가 도시되었다. 제어부(220)가 저장부(230)에 저장된 프로그램을 실행함으로써 도 1에 도시된 트랜스포머 모델을 구현하게 된다.
도 1을 참고하면, 제어부(220)는 트랜스포머 모델의 인코더(110)에
Figure pat00065
(10)를 입력 임베딩으로 인가하고, 트랜스포머 모델의 디코더(120)에서는 주어진 질문에 대한 답변이 출력될 수 있다. 도 1에 도시된 트랜스포머 모델을 학습시키는 방법에 대해서는 아래의 “4. 모델 학습” 부분에서 설명한다.
일 실시예에 따른 트랜스포머 모델은 GPT-2 모델 등과 같이 기존의 모델을 이용하여 구현될 수 있으며, 트랜스포머 모델을 통해 응답을 생성하는 과정은 기존의 트랜스포머 모델과 같으므로 이에 대해 자세한 설명은 생략한다.
4. 모델 학습
도 1에 도시된 트랜스포머 모델을 학습시키는 방법에 대해서 설명하기 전에, 설명의 편의를 위해 전체 비디오 데이터를 텍스트 정보집합
Figure pat00066
와 영상 정보집합
Figure pat00067
로 나눈다.
트랜스포머 모델의 학습은 마스크드 언어 모델링(Masked Language Modeling, MLM), 마스크드 프레임 모델링(Masked Frame Modeling, MFM) 및 응답 언어 모델링(Response Language Modeling, RLM)을 포함하는 다중 작업 학습(Multi Task Learning)을 통해 수행된다.
각각의 학습은 다음의 수학식 11 내지 13에 따라 수행될 수 있다. 수학식 11은 마스크드 언어 모델링을 통한 학습을 수행하기 위한 것이고, 수학식 12는 마스크드 프레임 모델링을 통한 학습을 수행하기 위한 것이고, 수학식 13은 응답 언어 모델링을 통한 학습을 수행하기 위한 것이다.
Figure pat00068
Figure pat00069
Figure pat00070
제어부(220)는 이와 같은 과정을 통해 학습된 트랜스포머 모델을 이용하여 비디오 스토리 질의응답을 수행할 수 있다.
이하에서는 상술한 바와 같은 컴퓨팅 장치(200)를 이용하여 비디오 스토리 질의응답을 위한 트랜스포머 모델을 구축하는 방법을 설명한다. 도 3 내지 도 5는 일 실시예에 따른 비디오 스토리 질의응답을 위한 트랜스포머 모델을 구축하는 방법을 설명하기 위한 순서도들이다.
도 3 내지 도 5에 도시된 실시예들에 따른 비디오 스토리 질의응답을 위한 트랜스포머 모델을 구축하는 방법은 도 2에 도시된 컴퓨팅 장치(200)에서 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하에서 생략된 내용이라고 하더라도 도 2의 컴퓨팅 장치(200)에 관하여 이상에서 기술한 내용은 도 3 내지 도 5에 도시된 실시예들에 따른 비디오 스토리 질의응답을 위한 트랜스포머 모델을 구축하는 방법에도 적용될 수 있다.
도 3을 참조하면, 301 단계에서 컴퓨팅 장치(200)의 제어부(220)는 영상(vision) 데이터 및 자막(subtitle) 데이터를 포함하는 비디오 데이터, 그리고 비디오 질의응답을 위한 질문(question) 데이터로부터 비디오의 등장인물과 관련된 특징벡터(feature vector)를 추출하고, 등장인물과 관련된 특징벡터를 이용하여 입력 임베딩(input embedding)을 생성한다.
제어부(220)는 비디오 데이터 및 질문 데이터를 모달리티별로 분류하여 영상 데이터와 텍스트 데이터로 나눈다. 텍스트 데이터는 비디오 데이터에 포함된 자막 데이터와 질문 데이터를 포함한다. 이어서, 제어부(220)는 각 모달리티를 복수의 카테고리로 분류하고 분류된 카테고리별로 특징벡터(feature vector)를 추출한다. 이때, 복수의 카테고리는 등장인물의 특징에 관한 카테고리를 포함하는 것이 특징이다.
제어부(220)는 카테고리별로 추출된 특징벡터를 이용하여 입력 임베딩을 생성하는데, 입력 임베딩은 특징 임베딩(feature embedding), 세그먼트 임베딩(segment embedding) 및 포지션 임베딩(modality-wise position embedding)의 합이다.
301 단계에 포함되는 세부단계들을 도 4에 도시하였다.
도 4를 참조하면, 401 단계에서 제어부(220)는 영상 데이터 및 텍스트 데이터(자막 데이터 및 질문 데이터)를 복수의 카테고리로 분류한다. 이때, 복수의 카테고리는 등장인물의 특징에 관한 카테고리를 포함하는 것이 특징이다.
402 단계에서 제어부(220)는 복수의 카테고리별로 특징벡터를 추출한다.
403 단계에서 제어부(220)는 추출된 특징벡터들을 이용하여 특징 임베딩(feature embedding), 세그먼트 임베딩(segment embedding) 및 포지션 임베딩(position embedding)을 생성한다.
403 단계에 포함되는 세부단계들을 도 5에 도시하였다.
도 5를 참조하면, 501 단계에서 제어부(220)는 복수의 카테고리별로 추출된 특징벡터를 모두 이어 붙여 특징 임베딩을 생성한다.
502 단계에서 제어부(220)는 복수의 카테고리별로 학습 가능한 임베딩 매트릭스(learnable embedding matrix)를 이용한 임베딩 룩업(embedding lookup)을 수행하여 세그먼트 임베딩을 생성한다.
503 단계에서 제어부(220)는 복수의 카테고리별로 추출된 특징벡터와 관련된 위치정보를 포함하는 벡터를 생성함으로써 포지션 임베딩을 생성한다.
다시 도 4로 돌아와서, 404 단계에서 제어부(220)는 특징 임베딩, 세그먼트 임베딩 및 포지션 임베딩을 합하여 입력 임베딩을 생성한다.
다시 도 3으로 돌아와서, 302 단계에서 제어부(220)는 입력 임베딩을 이용하여 트랜스포머 모델을 학습시킨다.
이상 살펴본 실시예들에 따르면, 비디오 스토리에 등장하는 인물을 중심으로 모델링을 수행함으로써 비디오 스토리의 길이가 긴 경우에도 효과적으로 원하는 정보를 얻어낼 수 있는 효과를 기대할 수 있다.
이상의 실시예들에서 사용되는 '~부'라는 용어는 소프트웨어 또는 FPGA(field programmable gate array) 또는 ASIC 와 같은 하드웨어 구성요소를 의미하며, '~부'는 어떤 역할들을 수행한다. 그렇지만 '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램특허 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다.
구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로부터 분리될 수 있다.
뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU 들을 재생시키도록 구현될 수도 있다.
도 3 내지 도 5를 통해 설명된 실시예들에 따른 비디오 스토리 질의응답을 위한 트랜스포머 모델을 구축하는 방법은 컴퓨터에 의해 실행 가능한 명령어 및 데이터를 저장하는, 컴퓨터로 판독 가능한 매체의 형태로도 구현될 수 있다. 이때, 명령어 및 데이터는 프로그램 코드의 형태로 저장될 수 있으며, 프로세서에 의해 실행되었을 때, 소정의 프로그램 모듈을 생성하여 소정의 동작을 수행할 수 있다. 또한, 컴퓨터로 판독 가능한 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터로 판독 가능한 매체는 컴퓨터 기록 매체일 수 있는데, 컴퓨터 기록 매체는 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함할 수 있다. 예를 들어, 컴퓨터 기록 매체는 HDD 및 SSD 등과 같은 마그네틱 저장 매체, CD, DVD 및 블루레이 디스크 등과 같은 광학적 기록 매체, 또는 네트워크를 통해 접근 가능한 서버에 포함되는 메모리일 수 있다.
또한 도 3 내지 도 5를 통해 설명된 실시예들에 따른 비디오 스토리 질의응답을 위한 트랜스포머 모델을 구축하는 방법은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 컴퓨터 프로그램(또는 컴퓨터 프로그램 제품)으로 구현될 수도 있다. 컴퓨터 프로그램은 프로세서에 의해 처리되는 프로그래밍 가능한 기계 명령어를 포함하고, 고레벨 프로그래밍 언어(High-level Programming Language), 객체 지향 프로그래밍 언어(Object-oriented Programming Language), 어셈블리 언어 또는 기계 언어 등으로 구현될 수 있다. 또한 컴퓨터 프로그램은 유형의 컴퓨터 판독가능 기록매체(예를 들어, 메모리, 하드디스크, 자기/광학 매체 또는 SSD(Solid-State Drive) 등)에 기록될 수 있다.
따라서 도 3 내지 도 5를 통해 설명된 실시예들에 따른 비디오 스토리 질의응답을 위한 트랜스포머 모델을 구축하는 방법은 상술한 바와 같은 컴퓨터 프로그램이 컴퓨팅 장치에 의해 실행됨으로써 구현될 수 있다. 컴퓨팅 장치는 프로세서와, 메모리와, 저장 장치와, 메모리 및 고속 확장포트에 접속하고 있는 고속 인터페이스와, 저속 버스와 저장 장치에 접속하고 있는 저속 인터페이스 중 적어도 일부를 포함할 수 있다. 이러한 성분들 각각은 다양한 버스를 이용하여 서로 접속되어 있으며, 공통 머더보드에 탑재되거나 다른 적절한 방식으로 장착될 수 있다.
여기서 프로세서는 컴퓨팅 장치 내에서 명령어를 처리할 수 있는데, 이런 명령어로는, 예컨대 고속 인터페이스에 접속된 디스플레이처럼 외부 입력, 출력 장치상에 GUI(Graphic User Interface)를 제공하기 위한 그래픽 정보를 표시하기 위해 메모리나 저장 장치에 저장된 명령어를 들 수 있다. 다른 실시예로서, 다수의 프로세서 및(또는) 다수의 버스가 적절히 다수의 메모리 및 메모리 형태와 함께 이용될 수 있다. 또한 프로세서는 독립적인 다수의 아날로그 및(또는) 디지털 프로세서를 포함하는 칩들이 이루는 칩셋으로 구현될 수 있다.
또한 메모리는 컴퓨팅 장치 내에서 정보를 저장한다. 일례로, 메모리는 휘발성 메모리 유닛 또는 그들의 집합으로 구성될 수 있다. 다른 예로, 메모리는 비휘발성 메모리 유닛 또는 그들의 집합으로 구성될 수 있다. 또한 메모리는 예컨대, 자기 혹은 광 디스크와 같이 다른 형태의 컴퓨터 판독 가능한 매체일 수도 있다.
그리고 저장장치는 컴퓨팅 장치에게 대용량의 저장공간을 제공할 수 있다. 저장 장치는 컴퓨터 판독 가능한 매체이거나 이런 매체를 포함하는 구성일 수 있으며, 예를 들어 SAN(Storage Area Network) 내의 장치들이나 다른 구성도 포함할 수 있고, 플로피 디스크 장치, 하드 디스크 장치, 광 디스크 장치, 혹은 테이프 장치, 플래시 메모리, 그와 유사한 다른 반도체 메모리 장치 혹은 장치 어레이일 수 있다.
상술된 실시예들은 예시를 위한 것이며, 상술된 실시예들이 속하는 기술분야의 통상의 지식을 가진 자는 상술된 실시예들이 갖는 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 상술된 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 명세서를 통해 보호 받고자 하는 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태를 포함하는 것으로 해석되어야 한다.
110: 트랜스포머 인코더 120: 트랜스포머 디코더
200: 컴퓨팅 장치 210: 입출력부
220: 제어부 230: 저장부

Claims (12)

  1. 비디오 스토리 질의응답을 위한 트랜스포머 모델을 구축하는 방법에 있어서,
    영상(vision) 데이터 및 자막(subtitle) 데이터를 포함하는 비디오 데이터, 그리고 비디오 질의응답을 위한 질문(question) 데이터로부터 비디오의 등장인물과 관련된 특징벡터(feature vector)를 추출하고, 상기 등장인물과 관련된 특징벡터를 이용하여 입력 임베딩(input embedding)을 생성하는 단계; 및
    상기 입력 임베딩을 이용하여 트랜스포머 모델을 학습시키는 단계를 포함하는, 방법.
  2. 제1항에 있어서,
    상기 입력 임베딩을 생성하는 단계는,
    상기 영상 데이터, 자막 데이터 및 질문 데이터를 복수의 카테고리로 분류하는 단계;
    상기 복수의 카테고리별로 특징벡터를 추출하는 단계;
    상기 추출된 특징벡터들을 이용하여 특징 임베딩(feature embedding), 세그먼트 임베딩(segment embedding) 및 포지션 임베딩(position embedding)을 생성하는 단계; 및
    상기 특징 임베딩, 세그먼트 임베딩 및 포지션 임베딩을 합하여 상기 입력 임베딩을 생성하는 단계를 포함하며,
    상기 복수의 카테고리는 상기 등장인물의 특징에 관한 카테고리를 적어도 하나 이상 포함하는 것을 특징으로 하는 방법.
  3. 제2항에 있어서,
    상기 등장인물의 특징에 관한 카테고리는,
    상기 비디오에 포함된 영상 프레임에서 상기 등장인물을 포함하는 바운딩 박스(bounding box), 상기 등장인물의 행동(behavior) 및 상기 등장인물의 감정(emotion)을 포함하는 것을 특징으로 하는 방법.
  4. 제2항에 있어서,
    상기 추출된 특징벡터들을 이용하여 특징 임베딩, 세그먼트 임베딩 및 포지션 임베딩을 생성하는 단계는,
    상기 복수의 카테고리별로 추출된 특징벡터를 모두 이어 붙여 상기 특징 임베딩을 생성하는 단계;
    상기 복수의 카테고리별로 학습 가능한 임베딩 매트릭스(learnable embedding matrix)를 이용한 임베딩 룩업(embedding lookup)을 수행하여 상기 세그먼트 임베딩을 생성하는 단계; 및
    상기 복수의 카테고리별로 추출된 특징벡터와 관련된 위치정보를 포함하는 벡터를 생성함으로써 상기 포지션 임베딩을 생성하는 단계를 포함하는 것을 특징으로 하는 방법.
  5. 제1항에 있어서,
    상기 트랜스포머 모델을 학습시키는 단계는,
    마스크드 언어 모델링(Masked Language Modeling), 마스크드 프레임 모델링(Masked Frame Modeling) 및 응답 언어 모델링(Response Language Modeling)을 포함하는 다중 작업 학습(Multi Task Learning)을 통해 수행되는 것을 특징으로 하는 방법.
  6. 제1항에 있어서,
    컴퓨터에 제1항에 기재된 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.
  7. 컴퓨팅 장치에 의해 수행되며, 제1항에 기재된 방법을 수행하기 위해 기록 매체에 저장된 컴퓨터 프로그램.
  8. 비디오 스토리 질의응답을 위한 트랜스포머 모델을 구축하기 위한 컴퓨팅 장치에 있어서,
    영상(vision) 데이터 및 자막(subtitle) 데이터를 포함하는 비디오 데이터, 그리고 비디오 질의응답을 위한 질문(question) 데이터를 입력받고, 비디오 스토리 질의응답 결과를 출력하기 위한 입출력부;
    비디오 스토리 질의응답을 수행하기 위한 프로그램 및 데이터가 저장되는 저장부; 및
    적어도 하나의 프로세서를 포함하며, 상기 저장된 프로그램을 실행함으로써 비디오 스토리 질의응답을 위한 트랜스포머 모델을 구축하는 제어부를 포함하며,
    상기 제어부는 상기 비디오 데이터 및 질문 데이터로부터 비디오의 등장인물과 관련된 특징벡터(feature vector)를 추출하고, 상기 등장인물과 관련된 특징벡터를 이용하여 입력 임베딩(input embedding)을 생성한 후, 상기 입력 임베딩을 이용하여 상기 트랜스포머 모델을 학습시키는, 컴퓨팅 장치.
  9. 제8항에 있어서,
    상기 제어부는 상기 입력 임베딩을 생성함에 있어서,
    상기 영상 데이터, 자막 데이터 및 질문 데이터를 복수의 카테고리로 분류하고, 상기 복수의 카테고리별로 특징벡터를 추출한 후, 상기 추출된 특징벡터들을 이용하여 특징 임베딩(feature embedding), 세그먼트 임베딩(segment embedding) 및 포지션 임베딩(position embedding)을 생성하고, 상기 특징 임베딩, 세그먼트 임베딩 및 포지션 임베딩을 합하여 상기 입력 임베딩을 생성하며,
    상기 복수의 카테고리는 상기 등장인물의 특징에 관한 카테고리를 적어도 하나 이상 포함하는 것을 특징으로 하는, 컴퓨팅 장치.
  10. 제9항에 있어서,
    상기 등장인물의 특징에 관한 카테고리는,
    상기 비디오에 포함된 영상 프레임에서 상기 등장인물을 포함하는 바운딩 박스(bounding box), 상기 등장인물의 행동(behavior) 및 상기 등장인물의 감정(emotion)을 포함하는 것을 특징으로 하는 컴퓨팅 장치.
  11. 제9항에 있어서,
    상기 제어부는 상기 추출된 특징벡터들을 이용하여 특징 임베딩, 세그먼트 임베딩 및 포지션 임베딩을 생성함에 있어서,
    상기 복수의 카테고리별로 추출된 특징벡터를 모두 이어 붙여 상기 특징 임베딩을 생성하고, 상기 복수의 카테고리별로 학습 가능한 임베딩 매트릭스(learnable embedding matrix)를 이용한 임베딩 룩업(embedding lookup)을 수행하여 상기 세그먼트 임베딩을 생성하고, 상기 복수의 카테고리별로 추출된 특징벡터와 관련된 위치정보를 포함하는 벡터를 생성함으로써 상기 포지션 임베딩을 생성하는 것을 특징으로 하는 컴퓨팅 장치.
  12. 제8항에 있어서,
    상기 제어부는 상기 트랜스포머 모델을 학습시킴에 있어서,
    마스크드 언어 모델링(Masked Language Modeling), 마스크드 프레임 모델링(Masked Frame Modeling) 및 응답 언어 모델링(Response Language Modeling)을 포함하는 다중 작업 학습(Multi Task Learning)을 수행하는 것을 특징으로 하는 컴퓨팅 장치.
KR1020210093486A 2021-07-16 2021-07-16 비디오 스토리 질의응답을 위한 트랜스포머 모델을 구축하는 방법 및 이를 수행하기 위한 컴퓨팅 장치 KR20230012785A (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020210093486A KR20230012785A (ko) 2021-07-16 2021-07-16 비디오 스토리 질의응답을 위한 트랜스포머 모델을 구축하는 방법 및 이를 수행하기 위한 컴퓨팅 장치
US17/615,662 US20240037896A1 (en) 2021-07-16 2021-09-28 Method of constructing transformer model for answering questions about video story and computing apparatus for performing the same
PCT/KR2021/013257 WO2023286914A1 (ko) 2021-07-16 2021-09-28 비디오 스토리 질의응답을 위한 트랜스포머 모델을 구축하는 방법 및 이를 수행하기 위한 컴퓨팅 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210093486A KR20230012785A (ko) 2021-07-16 2021-07-16 비디오 스토리 질의응답을 위한 트랜스포머 모델을 구축하는 방법 및 이를 수행하기 위한 컴퓨팅 장치

Publications (1)

Publication Number Publication Date
KR20230012785A true KR20230012785A (ko) 2023-01-26

Family

ID=84919378

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210093486A KR20230012785A (ko) 2021-07-16 2021-07-16 비디오 스토리 질의응답을 위한 트랜스포머 모델을 구축하는 방법 및 이를 수행하기 위한 컴퓨팅 장치

Country Status (3)

Country Link
US (1) US20240037896A1 (ko)
KR (1) KR20230012785A (ko)
WO (1) WO2023286914A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102594480B1 (ko) * 2023-03-03 2023-10-26 주식회사 인피닉 Mim 기반의 퓨샷 객체 검출 모델 학습 방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) * 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
KR101652486B1 (ko) * 2015-04-05 2016-08-30 주식회사 큐버 멀티모달 다중 에이전트 기반의 감정 통신 시스템
KR102276728B1 (ko) * 2019-06-18 2021-07-13 빅펄 주식회사 멀티모달 콘텐츠 분석 시스템 및 그 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102594480B1 (ko) * 2023-03-03 2023-10-26 주식회사 인피닉 Mim 기반의 퓨샷 객체 검출 모델 학습 방법

Also Published As

Publication number Publication date
WO2023286914A1 (ko) 2023-01-19
US20240037896A1 (en) 2024-02-01

Similar Documents

Publication Publication Date Title
AU2019200270B2 (en) Concept mask: large-scale segmentation from semantic concepts
Bandi et al. The power of generative ai: A review of requirements, models, input–output formats, evaluation metrics, and challenges
US11657230B2 (en) Referring image segmentation
US20230042654A1 (en) Action synchronization for target object
US11238306B2 (en) Generating vector representations of code capturing semantic similarity
US9875445B2 (en) Dynamic hybrid models for multimodal analysis
JP6361351B2 (ja) 発話ワードをランク付けする方法、プログラム及び計算処理システム
Ryumin et al. Audio-visual speech and gesture recognition by sensors of mobile devices
KR20200070142A (ko) 질의 응답 장치 및 방법
CN114511906A (zh) 基于跨模态动态卷积的视频多模态情感识别方法、装置及计算机设备
Singh et al. Mobile Deep Learning with TensorFlow Lite, ML Kit and Flutter: Build scalable real-world projects to implement end-to-end neural networks on Android and iOS
CN110175336A (zh) 翻译方法、装置和电子设备
US20240105159A1 (en) Speech processing method and related device
KR20230012785A (ko) 비디오 스토리 질의응답을 위한 트랜스포머 모델을 구축하는 방법 및 이를 수행하기 위한 컴퓨팅 장치
Miah et al. Multi-stream general and graph-based deep neural networks for skeleton-based sign language recognition
Dong et al. Hr-prgan: High-resolution story visualization with progressive generative adversarial networks
Alzahrani et al. Object recognition system for the visually impaired: a deep learning approach using Arabic annotation
He et al. Generative Adversarial Networks (GANs) for Audio-Visual Speech Recognition in Artificial Intelligence IoT
US20190236419A1 (en) Method and apparatus for recognizing video fine granularity, computer device and storage medium
Li et al. End-to-end training for compound expression recognition
da Silva et al. Facial action unit detection methodology with application in Brazilian sign language recognition
Le et al. KFSENet: a key frame-based skeleton feature estimation and action recognition network for improved robot vision with face and emotion recognition
CN116958323A (zh) 图像生成方法、装置、电子设备、存储介质及程序产品
KR20200068553A (ko) 딥러닝 네트워크를 이용하여 복수의 이미지들로부터 이야기를 생성하기 위한 방법 및 장치
Ysique‐Neciosup et al. DeepHistory: A convolutional neural network for automatic animation of museum paintings

Legal Events

Date Code Title Description
E902 Notification of reason for refusal