WO2021167238A1 - Method and system for automatically creating table of contents of video on basis of content - Google Patents

Method and system for automatically creating table of contents of video on basis of content Download PDF

Info

Publication number
WO2021167238A1
WO2021167238A1 PCT/KR2021/000093 KR2021000093W WO2021167238A1 WO 2021167238 A1 WO2021167238 A1 WO 2021167238A1 KR 2021000093 W KR2021000093 W KR 2021000093W WO 2021167238 A1 WO2021167238 A1 WO 2021167238A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
video
video content
contents
content
Prior art date
Application number
PCT/KR2021/000093
Other languages
French (fr)
Korean (ko)
Inventor
손영석
Original Assignee
제주대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 제주대학교 산학협력단 filed Critical 제주대학교 산학협력단
Publication of WO2021167238A1 publication Critical patent/WO2021167238A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47217End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for controlling playback functions for recorded or on-demand content, e.g. using progress bars, mode or play-point indicators or bookmarks

Abstract

The present invention provides a method for automatically creating a table of contents of video on the basis of content, comprising the steps of: selecting video content for which a table of contents is to be created; extracting voice information spoken in the video content so as to generate text information; classifying the text information into morphemes, and converting, into data, morpheme information including part of speech and frequency of use of each morpheme; dividing the video content into a plurality of sections, and selecting characteristic words from the divided sections of the video content on the basis of the morpheme information; sequentially arranging the characteristic words selected from the divided sections of the video content so as to generate table of contents information; setting an individual playback section of the video content on the basis of spoken time information of the characteristic words in the video content; linking the table of contents information and an individual playback section of video content; and linking the table of contents information so that same is displayed in relation to the video content.

Description

내용 기반 동영상 목차 자동생성 방법 및 시스템Content-based video table of contents automatic creation method and system
본 발명은 동영상 목차 자동생성 방법 및 시스템에 관한 것으로서, 상세하게는 사용자의 수작업 없이 동영상 콘텐츠의 내용을 기반으로 자동으로 목차를 생성하고, 해당 목차와 관련된 구간을 자동으로 재생할 수 있는 새로운 방법 및 시스템을 제안한다.The present invention relates to a method and system for automatically generating a table of contents for a video, and more particularly, a new method and system for automatically generating a table of contents based on the contents of video content without a user's manual work, and automatically playing a section related to the table of contents suggest
컴퓨터 등 정보통신의 비약적인 발전으로 모든 분야에서 정보화가 이루어진 지식정보화사회에서는 초고속정보통신망에 의해 세계가 하나로 연결되고 수많은 정보가 디지털화되고 있다. 정보통신 시설 및 이용이 고도화된 기반 위에서 온갖 정보와 창의적인 지식이 융합되어 기술과 산업을 이끄는 사회라고 할 수 있다.In the knowledge-information society, where information has been achieved in all fields due to the rapid development of information and communication systems such as computers, the world is connected to one another by the high-speed information and communication network, and a lot of information is being digitized. It can be said that it is a society that leads technology and industry by convergence of all kinds of information and creative knowledge on the basis of advanced information and communication facilities and use.
지식정보화사회에서는 정보의 생산 및 공급을 위한 시스템 뿐만 아니라, 정보의 원활한 공유를 위한 기술적 기반이 매우 중요하다. 특히 기하급수적으로 쏟아지는 정보의 바다에서 사용자가 원하는 정보를 선택하고, 해당 정보에서 특정 부분을 쉽고 빠르게 찾아내는 것은 정보 활용 측면에서 필수적인 요소라고 할 수 있다.In the knowledge information society, not only the system for information production and supply, but also the technical basis for the smooth sharing of information is very important. In particular, it can be said that it is an essential element in terms of information utilization to select the desired information from the exponentially pouring sea of information and to quickly and easily find a specific part of the information.
퍼스널 컴퓨터와 웹 기반의 인터넷망이 각종 디지털 정보를 생산하고 공유하는 수단이 된 지 오래이며, 최근에는 정보의 생산 및 공유를 더 확산시키는 모바일 플랫폼이 계속 증가되고 있다. 정보화 플랫폼의 개발에 따라 정보의 활용 기술도 함께 반전하고 있는데, 종래의 서적으로 대표되는 인쇄물의 경우, 인쇄물에 포함된 내용이 목차로 제공되므로 첫 페이지부터 순차적으로 읽지 않아도 목차를 바탕으로 이용자가 원하는 정보가 어느 곳에 적혀있는지를 찾아볼 수 있다. 반면 동영상 콘텐츠의 경우 목차가 제공되지 않으므로 영상 시작부부터 종료부까지 순차적으로 시청하지 않으면 어느 부분에서 어떠한 내용이 발화되었는지를 짐작하기가 어려워 원하는 정보를 찾기가 쉽지 않다. Personal computers and web-based Internet networks have long been a means of producing and sharing various kinds of digital information, and in recent years, mobile platforms that further spread the production and sharing of information continue to increase. With the development of the information platform, information utilization technology is also being reversed. In the case of printed materials represented by conventional books, the contents included in the printed materials are provided as a table of contents, so users do not need to read the first page sequentially. You can find out where the information is written. On the other hand, in the case of video content, since a table of contents is not provided, it is difficult to guess what content was uttered in which part unless you watch it sequentially from the beginning to the end of the video, making it difficult to find the desired information.
불과 몇 년 전까지만 하여도 대부분의 정보검색은 텍스트에 기반하여 이뤄져왔다. 하지만 최근에는 급속한 속도로 동영상에 기반한 정보검색이 확산되고 있다. 이러한 사실은 최근 10, 20대 등 젊은 층은 물론 중장년층에서도 네이버 등의 포털사이트 검색 보다 유투브 등 동영상 공유 서비스를 10배 이상 많이 사용한다는 통계 결과를 통해서도 확인할 수 있다. Until just a few years ago, most information retrieval was based on text. However, recently, information retrieval based on video is spreading at a rapid pace. This fact can also be confirmed through the statistical results that recently, young people such as teenagers and 20s as well as middle-aged people use video sharing services such as YouTube 10 times more than searching portal sites such as Naver.
동영상 관련 기술의 비약적인 발달에 따라, 네트워크상에서 관심 있는 동영상 파일을 검색하고자 하는 사용자의 요구가 커지고 있다. 이러한 요구를 충족시키지 위해 여러 형태의 동영상 검색 방법이 개발되고 있는데, 현재 통상적으로 사용되고 있는 동영상 검색 방법으로는 입력된 텍스트 키워드를 이용하여 전체 동영상 파일에 대한 텍스트 주석을 검색하는 주석 기반 검색, 엔진에 의한 검색 방법이 있다. 이러한 방식에서는, 특정한 동영상 파일을 대표할 수 있는 영화 타이틀이나 관련 신문 기사 제목 등이 주석으로 붙여진 동영상을 키워드 입력에 따라 텍스트 주석과 텍스트 키워드를 비교하여 검색하게 된다. 또 다른 방식으로, 동영상에서 특정인물이 등장하는 구간정보를 바탕으로 동영상에서 특정인물이 등장하는 구간을 자동적으로 검색하는 시스템이 제안되고 있다. BACKGROUND With the rapid development of video-related technologies, the demand of users to search for video files of interest on a network is increasing. Various types of video search methods have been developed to meet these needs. Currently, the commonly used video search method is an annotation-based search engine that searches text annotations for the entire video file using the input text keyword. There is a search method by In this method, a moving picture in which a movie title or a related newspaper article title, which can represent a specific moving picture file, is annotated is searched for by comparing the text annotation with the text keyword according to the keyword input. As another method, a system for automatically searching for a section in which a specific person appears in a video based on section information in which a specific person appears in the video is proposed.
이처럼 동영상의 검색은 '제목'이나 '해시태그(#)'를 이용하는데 그치고 있다. 즉 현재의 동영상 검색 방법은 이용자가 검색한 키워드가 (동영상을 업로드한 이가 임의로 붙인) 동영상의 제목 또는 해시태그와 일치하지 않으면 원하는 동영상을 찾아볼 수 없다. 이와 같은 동영상 검색 방법만으로는 인터넷상의 무수한 동영상을 검색하는데 한계가 있으며, 쏟아지는 동영상 콘텐츠의 대중적 이용 및 확산의 걸림돌이 되고 있다. As such, video searches are limited to using 'title' or 'hashtag (#)'. In other words, in the current video search method, if the keyword searched by the user does not match the title or hashtag of the video (randomly attached by the person who uploaded the video), the desired video cannot be found. There is a limit to searching for countless videos on the Internet only with such a video search method, and it is an obstacle to the popular use and spread of the pouring video content.
이러한 상황에서 본 발명자는 사용자가 검색하고자 하는 내용이 동영상 파일 내의 특정한 내용에 해당하는 경우, 그 특정한 내용이 반영된 구간의 장면만이 재생되도록 제어하는 내용을 기반으로 하는 동영상 검색시스템을 제안한 바 있다(등록특허 10-1940289 참조). In this situation, the present inventor has proposed a video search system based on content that controls so that only the scene in the section reflecting the specific content is played when the content the user wants to search for corresponds to a specific content in the video file ( See Registered Patent 10-1940289).
이 기술은 여러 개의 동영상 중에서 특정 단어가 사용된 부분의 영상만을 발췌 및 정렬하여 연속해서 재생해주는 기술로서, 구체적으로는 검색키워드를 이용하여 동영상 검색을 요청하는 동영상 검색자 단말기와; 인터넷 상에서 서비스되는 동영상 컨텐츠를 저장관리하는 동영상 저장서버들과; 상기 동영상 검색자 단말기로부터 동영상 검색 요청에 의해 전송된 검색키워드를 토대로 상기 동영상 저장서버들에 저장관리되는 동영상 컨텐츠 중 상기 검색키워드가 발화되는 동영상 컨텐츠를 수집하고, 그 수집된 동영상 컨텐츠마다 상기 검색키워드가 발화되는 재생구간인 '검색키워드 재생구간'을 설정하여 상기 동영상 검색자 단말기에 제공함으로써, 상기 동영상 검색자 단말기에서 그 제공되는 동영상 컨텐츠를 시청 시 검색키워드 재생구간 부문만 재생되도록 제어하는 동영상 검색서버;로 이루어진다. This technology extracts and arranges only images of a part in which a specific word is used from among several videos and sequentially reproduces them. Specifically, a video searcher terminal for requesting a video search using a search keyword; video storage servers for storing and managing video content serviced on the Internet; Based on the search keyword transmitted by the video search request from the video searcher terminal, video contents in which the search keyword is uttered among video contents stored and managed in the video storage servers are collected, and the search keyword is obtained for each of the collected video contents. By setting a 'search keyword playback section', which is a playback section in which is uttered, and providing it to the video searcher terminal, when viewing the video content provided in the video searcher terminal, a video search that controls only the search keyword playback section section to be played server; consists of
상기 동영상 검색서버에는 DB부; 및 동영상 검색엔진;이 탑재되고, 상기 DB부에는, 상기 동영상 저장서버들에서 저장관리되는 동영상 컨텐츠를 식별하는 식별자인 저장위치별 동영상 컨텐츠 식별정보, 상기 동영상 저장서버들에서 저장관리되는 동영상 컨텐츠에서 출력되는 대화가 문장단위로 기록되되, 그 동영상 컨텐츠에서 '대화가 발화되는 시점'에 따라 기록 저장되는 동영상 컨텐츠 대화내용 텍스트정보가 각 동영상 컨텐츠별로 구분되어 저장된 저장위치 동영상 컨텐츠별 대화내용 텍스트정보 DB를 포함하며, 상기 동영상 검색엔진은 상기 동영상 검색자 단말기로부터 전송된 검색키워드를 상기 저장위치 동영상 컨텐츠별 대화내용 텍스트정보 DB의 동영상 컨텐츠 대화내용 텍스트정보와 매칭하고, 그 매칭되는 동영상 컨텐츠 대화내용 텍스트정보와 연계되는 저장위치별 동영상 컨텐츠 식별정보를 인지하며, 그 인지된 저장위치별 동영상 컨텐츠 식별정보와 매칭되는 해당 검색키워드가 포함된 동영상 컨텐츠를 수집하며, 상기 동영상 컨텐츠 대화내용 텍스트정보를 참조하여 그 수집된 동영상 컨텐츠의 영상 중 상기 검색키워드를 중심으로 전 문맥과 후 문맥을 포함하는 문장단위에 해당하는 시간영역 만큼 재생되도록 링크시킨다.The video search server includes a DB unit; and a video search engine; and in the DB unit, video content identification information for each storage location, which is an identifier for identifying video content stored and managed by the video storage servers, from video content stored and managed by the video storage servers. The output dialogue is recorded in sentence units, and the video contents that are recorded and stored according to the 'when the dialogue is uttered' in the video contents are stored separately for each video content Conversation text information DB including, wherein the video search engine matches the search keyword transmitted from the video searcher terminal with the video content conversation text information of the conversation content text information DB for each video content in the storage location, and the matching video content conversation text text Recognizes video content identification information for each storage location associated with the information, collects video content that includes a corresponding search keyword matching the recognized video content identification information for each storage location, and refers to the video content conversation text information Among the images of the collected video content, the search keyword is linked to be reproduced by a time region corresponding to a sentence unit including the preceding and following contexts.
이와 같은 종래의 동영상 검색 방법은 사용자가 검색하고자 하는 내용이 동영상 파일 내의 특정한 내용에 해당하는 경우, 그 특정 내용이 반영된 동영상들을 검색할 수 있다는 점에서 의의가 있으나, 동영상 내에서 내용에 따른 목차를 확인하기 어려워 사용자가 보다 구체적으로 동영상을 검색하고 특정 동영상 중 원하는 부분만을 선별하여 재생시키는 것은 불가능하였다.Such a conventional video search method is meaningful in that, when the content a user wants to search for corresponds to a specific content in the video file, it is possible to search for videos reflecting the specific content. It was difficult to confirm, so it was impossible for a user to search for a video more specifically and to select and play only a desired part of a specific video.
본 발명은 전술한 기술적 배경하에서 창안된 것으로, 본 발명의 목적은 온라인을 통해 제공되는 다양한 동영상 콘텐츠의 검색에 있어서 사용자의 니즈에 맞춘 새로운 동영상 검색방법을 제공하는 것이다.The present invention was conceived under the above technical background, and an object of the present invention is to provide a new video search method tailored to the needs of users in searching for various video content provided online.
본 발명의 다른 목적은 동영상 전체를 재생해보지 않아도 사용자가 원하는 부분을 확인하고 해당 부분만 재생할 수 있는 동영상 재생방법을 제공하는 것이다.Another object of the present invention is to provide a video playback method in which a user can check a desired part and play only the corresponding part without playing the entire video.
본 발명의 또 다른 목적은 동영상 콘텐츠 제작자가 동영상 내용에 따라 일일히 목차를 생성하고 동영상의 해당 부분이 재생되도록 목차와 영상 부분을 링크시키는 번거로운 작업 없이, 동영상 콘텐츠에 대해 자동적으로 목차를 생성하고 해당 목차에 관련된 동영상 부분이 재생되도록 하는 시스템을 제공하는 것이다. Another object of the present invention is to automatically create a table of contents for video content without the cumbersome task of linking the table of contents and the video part so that the video content creator creates a table of contents according to the video content and plays the corresponding part of the video. It is to provide a system that allows the video part related to the table of contents to be played.
기타, 본 발명의 또 다른 목적 및 기술적 특징은 이하의 상세한 설명에서 보다 구체적으로 제시될 것이다.In addition, other objects and technical features of the present invention will be presented in more detail in the following detailed description.
상기 목적을 달성하기 위하여, 본 발명은 목차 생성 대상 동영상 콘텐츠를 선택하는 단계, 동영상 콘텐츠에서 발화(發話)되는 음성정보를 추출하여 텍스트 정보를 생성하는 단계, 상기 텍스트 정보를 형태소(形態素)로 구분하여, 각 형태소의 품사, 사용된 횟수를 포함하는 형태소 정보를 데이터화하는 단계, 상기 동영상 콘텐츠를 복수의 구간으로 구획하고, 상기 형태소 정보를 기초로 동영상 콘텐츠의 구획 구간에서 특징어를 선택하는 단계, 상기 동영상 콘텐츠의 구획 구간에서 선택된 특징어들을 순차적으로 나열하여 목차 정보를 생성하는 단계, 상기 동영상 콘텐츠에서 상기 특징어의 발화된 시점 정보를 기초로 동영상 콘텐츠의 개별 재생 구간을 설정하는 단계, 상기 목차 정보와 동영상 콘텐츠의 개별 재생 구간을 링크시키는 단계, 및 상기 동영상 콘텐츠와 관련하여 상기 목차 정보가 디스플레이되도록 연동시키는 단계를 포함하는 내용 기반 동영상 목차 자동생성 방법을 제공한다.In order to achieve the above object, the present invention provides the steps of selecting a video content to be generated for a table of contents, extracting voice information uttered from the video content to generate text information, and dividing the text information into morphemes. to data the morpheme information including the part-of-speech of each morpheme and the number of times used, dividing the video content into a plurality of sections, and selecting a characteristic word from the section of the video content based on the morpheme information; generating table of contents information by sequentially arranging the characteristic words selected in the segmentation section of the moving picture content; setting individual playback sections of the moving picture content based on the utterance information of the characteristic word in the moving picture content; the table of contents There is provided a method for automatically generating a content-based video table of contents, comprising the steps of linking information and individual playback sections of video content, and linking the information to display the table of contents information in relation to the video content.
본 발명에 있어서, 상기 동영상 콘텐츠의 음성정보로부터 텍스트 정보 생성 시 음성정보에 해당하는 언어의 문자로 텍스트 정보를 생성하는 것이 바람직하다.In the present invention, when generating text information from the audio information of the video content, it is preferable to generate text information in characters of a language corresponding to the audio information.
본 발명에 있어서, 상기 동영상 콘텐츠의 구간 구획 시, 동영상 콘텐츠의 전체 재생 시간을 균등한 시간으로 나누어 복수의 구간으로 구획할 수 있다. 또한, 상기 특징어는 동영상 콘텐츠의 구획 구간에서 발화된 빈도가 가장 많은 텍스트를 선택할 수 있다. In the present invention, when dividing the section of the moving picture content, the entire playback time of the moving picture content can be divided into a plurality of sections by equal time. In addition, the characteristic word may select a text having the highest frequency of utterance in a section of the moving picture content.
또한, 본 발명에 있어서, 상기 동영상 콘텐츠에서 제1특징어가 최초 발화된 시점과 제2특징어가 최초 발화된 시점을 기초로 동영상 콘텐츠의 개별 재생 구간을 설정할 수 있다. In addition, in the present invention, it is possible to set an individual playback section of the video content based on the first utterance time of the first characteristic word and the first utterance time of the second characteristic word in the video content.
본 발명은 또한, 목차 생성 대상 동영상 콘텐츠를 선택하고 선택된 동영상 콘텐츠를 복수의 구간으로 구획하는 동영상 관리부, 동영상 콘텐츠에서 발화되는 음성정보를 추출하고 추출된 음성정보로부터 텍스트 정보를 생성하는 텍스트 변환부, 상기 텍스트 정보를 형태소로 구분하여 각 형태소의 품사, 사용된 횟수를 포함하는 형태소 정보를 데이터화하는 형태소 분석부, 상기 형태소 정보를 기초로 동영상 콘텐츠의 구획 구간에서 특징어를 선택하고 동영상 콘텐츠의 구획 구간에서 선택된 특징어들을 순차적으로 나열하여 목차 정보를 생성하는 목차 생성부, 상기 동영상 콘텐츠에서 상기 특징어의 발화된 시점 정보를 기초로 동영상 콘텐츠의 개별 재생 구간을 설정하고 상기 목차 정보와 동영상 콘텐츠의 개별 재생 구간을 링크시키며 상기 동영상 콘텐츠와 관련하여 상기 목차 정보가 디스플레이되도록 연동시키는 출력 제어부를 포함하는 내용 기반 동영상 목차 자동생성 시스템을 제공한다.The present invention also provides a video management unit that selects the target video content for creating a table of contents and divides the selected video content into a plurality of sections, a text converter that extracts voice information uttered from the video content and generates text information from the extracted audio information; A morpheme analyzer that divides the text information into morphemes and converts the morpheme information into data including the part-of-speech of each morpheme and the number of times used. a table of contents generator for generating table of contents information by sequentially listing the characteristic words selected in It provides a content-based automatic content-based video table of contents generation system including an output control unit that links the playback section and interlocks the table of contents information to be displayed in relation to the video content.
본 발명에 따르면, 인터넷을 통해 제공되는 각종 동영상 콘텐츠에 대해 선택적으로 또는 일괄적으로 목차 정보를 자동으로 생성할 수 있으며, 동영상이 어떤 내용을 담고 있는지를 전체를 재생하지 않더라도 동영상의 개별 구간에 대해 생성된 목차 정보를 통해 동영상의 내용을 확인할 수 있으며, 필요에 따라 해당 목차 정보를 통해 원하는 구간만을 재생하는 것이 가능하다. According to the present invention, it is possible to automatically generate table of contents information for various video contents provided through the Internet selectively or collectively, and for individual sections of a video without replaying the entire contents of the video. You can check the contents of the video through the generated table of contents information, and if necessary, it is possible to play only a desired section through the corresponding table of contents information.
본 발명은 개인 유투버나 인터넷 상에서 동영상을 스트림 형식으로 제공하고 있는 각종 동영상 플랫폼 및 관련 IT기업들에서 널리 활용될 수 있을 것으로 기대된다.It is expected that the present invention can be widely used in various video platforms and related IT companies that provide video streams on individual YouTubers or the Internet.
도 1은 본 발명의 목차생성 시스템의 구성을 보인 모식도1 is a schematic diagram showing the configuration of a table of contents generation system of the present invention;
도 2는 본 발명의 동영상 목차생성 방법을 보인 순서도2 is a flowchart illustrating a method for generating a video table of contents according to the present invention;
도 3은 핵심어 추출 방법을 보인 모식도3 is a schematic diagram showing a key word extraction method
도 4는 구획 구간과 재생 구간을 보인 모식도4 is a schematic diagram showing a section section and a playback section;
도 5는 동영상 콘텐츠와 목차 정보를 보인 인터넷 화면5 is an Internet screen showing video contents and table of contents information;
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되는 실시예를 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예로 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이다.Advantages and features of the present invention, and methods for achieving them, will become apparent with reference to the embodiments described below in detail in conjunction with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below, but will be implemented in various different forms.
본 발명은 동영상 콘텐츠의 내용을 기반으로 자동으로 목차를 생성하고, 해당 목차와 관련된 구간을 자동으로 재생할 수 있는 새로운 방법 및 시스템을 제안한다.The present invention proposes a new method and system for automatically generating a table of contents based on the contents of video content and automatically reproducing sections related to the table of contents.
동영상 목차 자동 생성에 있어서, 목차가 동영상의 내용을 기반으로 하기 위해, 본 발명의 바람직한 실시예에서는 동영상 내 일정 부분에서 빈출(頻出)한 단어(특징어)들을 바탕으로 해당 동영상의 목차를 생성하고, 생성된 목차를 해당 동영상 부분과 각각 연동시켜 목차와 관련된 동영상이 재생되도록 한다. 내용 기반 목차 생성에는 빈출 단어를 특징어로 선택하는 것 이외에도 다양한 방식이 이용될 수 있다.In the automatic creation of the video table of contents, in order for the table of contents to be based on the contents of the video, in a preferred embodiment of the present invention, the table of contents of the video is generated based on words (feature words) that appear frequently in a certain part of the video, and , the generated table of contents is linked with the corresponding video part, respectively, so that the video related to the table of contents is played. Various methods may be used for content-based table of contents generation in addition to selecting a frequent word as a characteristic word.
이와 같은 목차 자동 생성은 개별 동영상 콘텐츠에 대해 적용하여 하나의 동영상 내에서 원하는 목차에 해당하는 동영상 부분을 선택적으로 시청할 수도 있고, 내용이나 카테고리가 유사한 복수의 동영상에 대해 목차를 생성한 후 복수의 동영상 중 원하는 목차에 해당하는 동영상을 선택적으로 시청하는 것도 가능하다. This automatic table of contents generation can be applied to individual video content to selectively watch a video part corresponding to a desired table of contents within a single video, and after creating a table of contents for a plurality of videos with similar content or categories, a plurality of videos It is also possible to selectively watch a video corresponding to a desired table of contents.
본 발명의 목차 생성방법을 구현하기 위해서는 동영상의 선택, 목차의 생성 및 디스플레이, 동영상의 구분(분할) 방식 및 핵심어 추출 방법, 디스플레이된 목차와 동영상의 해당 부분의 링크 등의 기술적 수단이 중요하며, 이를 위하여 본 발명에 따른 시스템은 여러가지 하드웨어적 및 소프트웨어적 수단이 필요하다. 도 1을 참조하면, 본 발명의 목차생성 시스템(100)의 각 기능 처리부 구성을 도시한 것으로, 동영상 관리부(110), 텍스트 변환부(120), 형태소 분석부(130), 목차 생성부(140) 및 출력 제어부(150)를 포함하고 있으며, 예를 들어 온라인 플랫폼 형태로 구축될 수 있고 컴퓨터 단말 등의 서버를 구비할 수 있으며, 유무선 통신망을 통해 다른 서버 내지 인터넷 웹사이트 등과 네트워킹이 가능하다.In order to implement the table of contents generation method of the present invention, technical means such as selection of a video, creation and display of a table of contents, a method of dividing (segmenting) a video and a method of extracting key words, a link between the displayed table of contents and the corresponding part of the video are important, To this end, the system according to the present invention requires various hardware and software means. Referring to FIG. 1 , the configuration of each function processing unit of the table of contents generating system 100 of the present invention is shown. A video management unit 110 , a text conversion unit 120 , a morpheme analysis unit 130 , and a table of contents generation unit 140 . ) and the output control unit 150, for example, may be built in the form of an online platform, may include a server such as a computer terminal, and may be networked with other servers or Internet websites through a wired/wireless communication network.
동영상 관리부는 기본적으로 목차 생성 대상 동영상 콘텐츠를 선택하고 해당 콘텐츠 정보를 관리하며, 선택된 동영상 콘텐츠를 복수의 구간으로 구획하는 추가적인 기능도 수행한다. 동영상 관리부는 전체 시스템과 관련된 서버 내에 포함될 수 있다.The video management unit basically selects the target video content for creating the table of contents, manages the corresponding content information, and also performs an additional function of dividing the selected video content into a plurality of sections. The video management unit may be included in a server related to the entire system.
텍스트 변환부는 동영상 콘텐츠에서 발화(發話)되는 음성정보를 추출하고 추출된 음성정보로부터 텍스트 정보를 생성하는 기능을 담당하며, 음성정보 이외에 문자 정보나 기타 정보를 텍스트로 변환할 수 있고, 음성정보가 특정 국가나 민족의 언어에 해당할 경우 그 언어를 판별하는 기능도 포함한다. 텍스트 변환부에는 음성정보로부터 변환된 문자 정보를 저장하는 텍스트 데이터베이스를 포함할 수 있다. 형태소 분석부는 상기 텍스트 정보를 형태소(形態素)로 구분하여, 각 형태소의 품사, 사용된 횟수를 포함하는 형태소 정보를 데이터화하며, 얻어진 형태소 정보를 저장하는 데이터베이스를 포함할 수 있다. The text conversion unit is responsible for extracting voice information uttered from video content and generating text information from the extracted voice information, and can convert text information or other information other than voice information into text, and If it corresponds to the language of a specific country or ethnicity, it also includes a function to determine the language. The text converter may include a text database for storing text information converted from voice information. The morpheme analyzer may include a database for classifying the text information into morphemes, converting morpheme information including parts of speech of each morpheme and the number of times used, into data, and storing the obtained morpheme information.
상기 텍스트 변환부와 형태소 분석부는 각각 독립된 기능을 하는 구성요소로서 서버 내에 포함될 수 있으며, 외부의 오픈 API를 이용할 경우 시스템 서버 내에는 외부 API를 이용한 결과물을 저장하는 데이터베이스만을 포함할 수도 있다.The text conversion unit and the morpheme analysis unit may be included in the server as components having independent functions, and when using an external open API, the system server may include only a database for storing the result using the external API.
목차 생성부는 상기 형태소 정보를 기초로 동영상 콘텐츠의 구획 구간에서 특징어를 선택하고, 동영상 콘텐츠의 구획 구간에서 선택된 특징어들을 순차적으로 나열하여 목차 정보를 생성한다. 생성된 목차는 텍스트 형태의 목차 정보와 함께 동영상의 해당 부분(특정 재생 구간)과 관련된 연결 정보를 포함할 수 있다.The table of contents generator selects a characteristic word from a section of the moving picture content based on the morpheme information, and sequentially lists the selected feature words from a section of the moving picture content to generate the table of contents information. The generated table of contents may include connection information related to a corresponding part (a specific playback section) of a video together with table of contents information in text form.
출력 제어부는 동영상 콘텐츠에서 상기 특징어의 발화된 시점 정보를 기초로 동영상 콘텐츠의 개별 재생 구간을 설정하는 한편, 상기 목차 정보와 동영상 콘텐츠의 개별 재생 구간을 링크시키며, 상기 동영상 콘텐츠와 관련하여 상기 목차 정보가 디스플레이되도록 연동시킨다. 출력 제어부는 독립적으로 구성되어 시스템 서버 내에 포함될 수도 있으며, 상기 동영상 관리부 또는 목차 생성부에 포함되어 통합적인 동영상 제어부로 구성하는 것도 가능하다. The output control unit sets an individual playback section of the video content based on the utterance information of the characteristic word in the video content, and links the table of contents information with the individual playback section of the video content, and the table of contents in relation to the video content Link the information to be displayed. The output control unit may be independently configured and included in the system server, or it may be included in the video management unit or the table of contents generator to form an integrated video control unit.
또한, 본 발명에 있어서, 상기 동영상 관리부와 출력 제어부는 외부의 동영상 제공서버(S), 예를 들어 인터넷을 통한 동영상 제공 관련 웹사이트 또는 모바일 플랫폼 등과 실시간으로 통신하면서, 데이터를 송수신하고 목차 정보(재생 정보 포함)를 제공할 수 있다. In addition, in the present invention, the video management unit and the output control unit transmit and receive data while communicating in real time with an external video providing server (S), for example, a video providing related website or mobile platform through the Internet, and contents information ( playback information) can be provided.
이와 같은 내용 기반 동영상 목차 자동생성 시스템을 통해, 사용자 자체 제작 동영상은 물론 인터넷에 공개되는 제3자의 동영상에 대해서 자동으로 목차를 생성할 수 있으며, 생성된 목차를 선택하여 동영상에서 해당 영역만을 재생시킬 수 있다. 이러한 방법은 다음과 같은 주요 단계를 통해 구현되는데, 동영상 내에서 발화된 내용을 자동으로 녹취하여 문자화 텍스트를 생성하는 단계, 문자화 텍스트를 형태소해석 프로그램 등에 기반하여 단어단위로 구분하는 단계, 동영상 내 일정 부분에서 빈출 단어 또는 특징어 등을 바탕으로 목차를 생성하는 단계, 목차를 바탕으로 '목차 구간'의 장면만 재생되도록 동영상을 제어하는 단계를 포함한다. Through such a content-based automatic video table of contents generation system, a table of contents can be automatically created for user-generated videos as well as third-party videos that are published on the Internet, can This method is implemented through the following main steps, the step of automatically recording the contents uttered in the video to generate the textualized text, the step of dividing the textualized text into word units based on the morpheme analysis program, etc., and the schedule in the video It includes the steps of generating a table of contents based on the most frequent words or characteristic words in the part, and controlling the video to reproduce only the scenes of the 'table of contents section' based on the table of contents.
이와 같은 동영상 목차 자동 생성 방법에 대해 도 2를 참조하여 보다 구체적으로 설명한다. Such a method for automatically generating a table of contents for a video will be described in more detail with reference to FIG. 2 .
먼저, 시스템의 동영상 관리부는 목차 생성 대상 동영상 콘텐츠를 선택하거나 또는 수신한다(단계 S110). 동영상의 선택은 서버가 자체적으로 진행할 수도 있고, 외부로부터 목차 생성을 의뢰받은 동영상 정보를 수신할 수도 있으며, 개별 동영상뿐만 아니라 복수의 동영상에 대해 목차 생성을 의뢰받을 수도 있다. First, the video management unit of the system selects or receives the target video content to be created (step S110). The selection of a video may be performed by the server itself, or may receive video information requested to generate a table of contents from outside, or may be requested to generate a table of contents for a plurality of videos as well as individual videos.
목차 생성 동영상이 결정되면, 텍스트 변환부는 동영상 콘텐츠에서 발화되는 음성정보를 추출하고, 추출된 음성정보로부터 텍스트 정보를 생성한다(단계 S120), 동영상의 음성정보는 대부분 하나 이상의 언어를 포함하고 있는데, 이러한 음성정보로부터 텍스트 정보 생성 시 음성정보에 해당하는 언어의 문자로 텍스트 정보를 생성하고, 복수의 언어가 포함되면 각 언어에 해당하는 문자로 텍스트를 변환하는 것이 바람직하다. 필요에 따라 두 개 이상의 언어로 된 음성정보를 하나의 언어도 통일하여 텍스트 정보를 일원화시키는 것도 가능하다. 동영상 내에서 발화된 내용을 자동으로 녹취하여 문자화텍스트를 생성하는 과정은 해당 알고리즘이 포함된 텍스트 변환부를 서버 내에 자체적으로 구비할 수도 있지만, 외부의 서비스를 이용하는 것도 가능하다. 예를 들어 음성을 녹취하여 자동으로 텍스트로 전환해주는 STT(Speech to Text) 서비스를 이용할 수 있으며, 이 경우 시스템 서버에는 텍스트 변환 관련 제어부와 변환된 텍스트 정보의 데이터베이스를 구비한다. When the table of contents creation video is determined, the text converter extracts voice information uttered from the video content, and generates text information from the extracted voice information (step S120). Most of the audio information of the video includes one or more languages, When generating text information from such voice information, it is preferable to generate text information in characters of a language corresponding to voice information, and convert the text into characters corresponding to each language when a plurality of languages are included. If necessary, it is also possible to unify text information by unifying voice information in two or more languages into one language. In the process of automatically recording the content uttered in the video to generate the transcribed text, a text converter including the corresponding algorithm may be provided in the server itself, but it is also possible to use an external service. For example, a speech to text (STT) service that records voice and automatically converts it into text may be used. In this case, the system server includes a text conversion related control unit and a database of converted text information.
다음으로, 상기 텍스트 정보를 형태소로 구분하여, 각 형태소의 품사, 사용된 횟수를 포함하는 형태소 정보를 데이터화한다(단계 S130). 문자화 텍스트(문장)는 형태소해석 프로그램(형태소분석기)에 기반하여 단어 단위로 구분할 수 있는데, 예를 들어 '까치 까치 설날은 어저께고요, 우리 우리 설날은 오늘이래요.'라는 문장을 '까치/ 까치/ 설날/은/ 어저께/고/요/, 우리/ 우리/ 설날/은/ 오늘/이래/요.'로 자동으로 구분할 수 있다. 또한, 까치(명사) 2회, 우리(명사) 2회, 설날(명사) 2회, 요(조사) 2회, 오늘(명사) 1회와 같이 각 단어의 품사, 사용 횟수 등을 확인할 수 있다. 형태소 해석기는 시스템 서버내에 자체적으로 구비할 수도 있으며, 외부의 공개 프로그램을 이용하는 것도 가능하다. 이 경우 시스템 서버에는 형태소 정보 변환 관련 제어부와 추출된 형태소 정보의 데이터베이스를 구비한다. Next, the text information is divided into morphemes, and morpheme information including the part-of-speech of each morpheme and the number of times it is used is converted into data (step S130). Characterized texts (sentences) can be divided into word units based on the morpheme analysis program (morpheme analyzer). New Year's Day/Eun/Yesterday/Go/Yo/, We/We/New Year's Day/Eun/Today/Since/Yo.' can be automatically classified. In addition, you can check the part-of-speech of each word and the number of times it is used, such as magpie (noun) 2 times, Woori (noun) 2 times, Lunar New Year (noun) 2 times, Yo (noun) 2 times, and today (noun) 1 time. . The morpheme analyzer may be provided by itself in the system server, and it is also possible to use an external public program. In this case, the system server includes a control unit related to morpheme information conversion and a database of extracted morpheme information.
텍스트 변환 및 형태소 정보의 데이터화가 완료되면, 상기 동영상 콘텐츠를 복수의 구간으로 구획하고, 상기 형태소 정보를 기초로 동영상 콘텐츠의 구획 구간에서 특징어를 선택한다(단계 S140). When text conversion and data conversion of morpheme information are completed, the video content is divided into a plurality of sections, and a characteristic word is selected from the section section of the video content based on the morpheme information (step S140).
도 3은 핵심어 추출 방법을 보인 모식도로서, 특정 구획 구간(section 1)에서 발화된 다수의 단어 중 빈도가 높은 단어(AAA)를 핵심어로 선정하는 것을 보이고 있다. 여기서, 동영상 콘텐츠의 구획 구간과 후술하는 동영상 재생 구간과는 상이하며(도 4 참조), 특징어 추출을 위해 임시적으로 동영상 콘텐츠를 복수개의 영역으로 나눈 분할 영상에 해당한다. 구간의 구획은 다양한 기준에 의해 설정될 수 있는데, 예를 들어 동영상 콘텐츠의 전체 재생 시간을 균등한 시간으로 나누어 복수의 구간으로 구분할 수 있으며, 동영상의 분량에 따라 구획되는 구간(시간)이 달라질 수 있다.3 is a schematic diagram illustrating a method of extracting a key word, and shows that a word with high frequency (AAA) is selected as a key word among a plurality of words uttered in a specific section section (section 1). Here, it is different from a segmented section of video content and a video playback section to be described later (see FIG. 4 ), and corresponds to a split image in which video content is temporarily divided into a plurality of regions for feature word extraction. The division of the section can be set according to various criteria. For example, the entire playback time of the video content can be divided into a plurality of sections by equal time, and the section (time) divided according to the amount of the video can vary. have.
동영상의 경우 물리적인 경계가 없는 관계로, 소정 시간 간격으로 구분된 구간에서 많이 사용된 단어를 해당 구간의 특징어로 선택할 수 있다. 예를 들어 10분 분량의 동영상이라면 먼저 기계적으로 동영상의 구간을 10등분한 후 1분 단위로 나눠진 각각의 구간에서 특히 많이 사용된 각 단어(다른 구간에서는 적게 등장)를 특징어로 선택한다. 특징어는 명사, 동사, 또는 명사와 동사가 결합된 단문 형태가 될 수도 있다. 또한, 빈출어가 없을 경우 해당 구간에서 최초 단어를 임시 특징어로 결정할 수도 있다.In the case of a moving picture, since there is no physical boundary, a word frequently used in a section divided by a predetermined time interval can be selected as a characteristic word of the section. For example, if the video is 10 minutes long, first, the video section is mechanically divided into 10 equal parts, and then each word that is particularly frequently used in each section divided by 1 minute (which appears less in other sections) is selected as a characteristic word. The characteristic word may be in the form of a noun, a verb, or a short sentence in which a noun and a verb are combined. In addition, when there is no frequent word, the first word in the corresponding section may be determined as a temporary characteristic word.
구획 구간에서 특징어(중요 어휘)를 방법론적으로 어떻게 추출해낼지는 본 발명의 동영상 목차 생성에 있어서 매우 중요하다. 전술한 바와 같이, 소정 시간 간격으로 구분된 구간에서 많이 사용된 단어를 해당 구간의 특징어로 삼을 수도 있고, 다른 특징어 추출기법에 따라 알고리즘이 수행되도록 할 수도 있다. TF-IDF(Term Frequency - Inverse Document Frequency)는 대표적인 특징어 산출 방법 중 하나이다. TF-IDF는 정보 검색과 텍스트 마이닝에서 이용하는 가중치로, 여러 문서로 이루어진 문서군이 있을 때 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 통계적 수치로 나타낸다. 이 방법을 이용하여 동영상 구획 구간에서 핵심어를 추출하거나, 복수의 구획 구간에서 비슷한 핵심어들을 비교하여 특징어를 구별하는데 사용할 수 있다.How to methodologically extract a feature word (important vocabulary) from a section section is very important in generating the video table of contents of the present invention. As described above, a word frequently used in a section divided by a predetermined time interval may be used as a characteristic word of the corresponding section, or an algorithm may be performed according to another characteristic word extraction technique. Term Frequency - Inverse Document Frequency (TF-IDF) is one of the representative feature word calculation methods. TF-IDF is a weight used in information retrieval and text mining, and when there is a document group consisting of several documents, it indicates how important a word is in a specific document as a statistical value. By using this method, a key word can be extracted from a video segmentation section or used to distinguish a characteristic word by comparing similar key words in a plurality of section sections.
다음으로, 동영상 콘텐츠의 구획 구간에서 선택된 특징어들을 순차적으로 나열하여 목차 정보를 생성한다(단계 S150). 예를 들어, 동영상 내 일정 부분에서만 빈출한 단어(특징어)들을 바탕으로 목차를 생성할 수 있으며, 목차는 선정된 특징어에 해당하는 명사, 동사, 또는 명사와 동사가 결합된 단문 형태가 될 수도 있다. Next, the table of contents information is generated by sequentially arranging the selected feature words in the section section of the video content (step S150). For example, a table of contents can be created based on words (characteristic words) that occur only in certain parts of a video, and the table of contents will be in the form of a noun, a verb, or a combination of a noun and a verb. may be
목차 정보를 생성한 다음, 출력 제어부는 목차를 바탕으로 '목차 구간'의 장면만이 재생되도록 동영상을 제어한다. 구체적으로, 동영상 콘텐츠에서 상기 특징어의 발화된 시점 정보를 기초로 동영상 콘텐츠의 개별 재생 구간을 설정하고, 상기 목차 정보와 동영상 콘텐츠의 개별 재생 구간을 링크시킨다(단계 S160).After generating the table of contents information, the output controller controls the video so that only the scenes of the 'table of contents section' are reproduced based on the table of contents. Specifically, an individual playback section of the video content is set based on the utterance information of the characteristic word in the video content, and the table of contents information is linked with the individual playback section of the video content (step S160).
도 4는 구획 구간과 재생 구간을 보인 모식도이다. 구획 구간이 예를 들어 전체 동영상을 균등한 시간으로 분할한 것인데 반하며, 재생 구간은 추출된 특징어의 발화된 시점 정보를 기초로 설정되기 때문에 각 재생 구간의 길이가 서로 달라질 수 있다. 재생 구간은 동영상 콘텐츠에서 제1특징어가 최초 발화된 시점과 제2특징어가 최초 발화된 시점을 기초로 동영상 콘텐츠의 재생 구간을 설정할 수 있다. 예를 들어 특징어 A가 처음 등장한 시점부터 특징어 B가 등장하기 직전까지의 구간을 하나의 특징어 A와 관련된 제1목차 재생 구간으로 설정하고, 특징어 B가 처음 등장한 시점부터 특징어 C가 등장하기 직전까지의 구간을 특징어 B와 관련된 제2목차 재생 구간으로 설정할 수 있다. 이 경우 목차 정보에서 특징어 A와 관련된 제1목차를 클릭하게 되면 동영상의 최초 시작 시점이 아닌, 특징어 A가 처음 등장한 지점부터 동영상이 재생되도록 할 수 있다. 이를 위하여 출력 제어부는 선정된 특징어에 해당하는 목차 정보와 설정된 동영상의 개별 재생 구간을 상호 링크시킨다. 재생 구간은 특징어가 최초 발화되는 지점보다 앞선 시점에서 시작되도록 설정하는 것도 가능하다. 4 is a schematic diagram showing a division section and a reproduction section. In contrast to the segmentation section, for example, in which the entire video is divided into equal time, the length of each reproduction section may be different because the reproduction section is set based on the utterance information of the extracted feature word. The playback section may set the playback section of the video content based on a time point at which the first characteristic word is first uttered and a time point at which the second feature word is first uttered in the video content. For example, the section from the first appearance of the feature word A to just before the appearance of the feature word B is set as the first table of contents playback section related to one feature word A, and from the time when the feature word B first appears, the feature word C is The section just before the appearance may be set as the second table of contents playback section related to the feature word B. In this case, if the first table of contents related to the feature word A is clicked in the table of contents information, the video may be played from the point where the feature word A first appears, not from the first start point of the video. To this end, the output control unit interconnects the table of contents information corresponding to the selected characteristic word and the individual playback section of the set moving picture. It is also possible to set the reproduction section to start at a point in time prior to the point at which the characteristic word is first uttered.
출력 제어부는 또한 동영상 콘텐츠와 관련하여 상기 목차 정보가 디스플레이되도록 연동하는 단계를 포함한다. 이 경우 목차 정보는 목차 리스트에 대해 디스플레이에 적합한 레이아웃, 및 개별 목차에 대한 동영상 재생 구간과 링크 정보를 포함할 수 있다. 도 5는 동영상 콘텐츠(210)와 목차 정보를 보인 인터넷 화면(200)으로서, 목차 정보는 동영상 콘텐츠 내에 일체화되어 디스플레이될 수도 있고(300a 참조), 동영상 바깥의 다른 영역에 별도로 디스플레이될 수도 있다(300b).The output control unit also includes the step of linking to display the table of contents information in relation to the video content. In this case, the table of contents information may include a layout suitable for display with respect to the table of contents list, and video playback section and link information for an individual table of contents. 5 is an Internet screen 200 showing moving picture content 210 and table of contents information. The table of contents information may be displayed integrally within the moving picture content (see 300a) or separately displayed in another area outside the moving picture (300b). ).
특징어 기반으로 생성된 목차 정보와 재생 구간의 링크를 통해, 특정 동영상이 어떤 내용을 담고 있는지를 전체적으로 재생해보지 않아도, 개별 동영상 구간을 선별적으로 재생하여 원하는 내용을 시청할 수 있게 된다. 이러한 동영상 콘텐츠의 목차 자동생성을 통해 사용자의 동영상 이용 편리성이 향상되며, 인터넷상에서 각종 동영상을 스트림 형식으로 제공하는 동영상 플랫폼 기업에서의 활용이 기대된다.Through the table of contents information generated based on the characteristic word and the link of the playback section, it is possible to selectively play individual video sections and watch the desired content without replaying the contents of the specific video as a whole. of these video content The user's convenience in using video is improved through automatic creation of the table of contents, and it is expected to be used by video platform companies that provide various videos on the Internet in stream format.
특히, 본 발명에 따른 목차 생성 방법은 강의 동영상이나 음악(노래) 동영상 등에 적용될 수 있고, 길이가 긴 드라마나 영화 관련 동영상에도 효과적으로 적용될 수 있으며, 언어 음성 정보가 없는 경우에는 문자 정보를 활용하여 목차 정보를 생성하는 것도 가능하다. 또한, 본 발명은 본 발명자가 기 개발한 등록특허 10-1940289호의 내용 기반 동영상 검색 시스템과 기술적으로 연계하여, 온라인을 통해 제공되는 다양한 동영상 콘텐츠에 대해 사용자가 핵심어 중심으로 내용 기반의 동영상 검색을 수행하는 한편, 핵심어 중심으로 제공된 목차 서비스를 통해 동영상을 시청하도록 할 수도 있을 것이다. In particular, the method for generating a table of contents according to the present invention can be applied to a lecture video or a music (song) video, and can be effectively applied to a long drama or movie related video. It is also possible to generate information. In addition, the present invention is technically linked with the content-based video search system of Patent No. 10-1940289 previously developed by the present inventor, and the user performs a content-based video search based on key words for various video contents provided online. On the other hand, it may be possible to watch the video through the table of contents service provided focusing on key words.
이상에서 바람직한 실시예를 통하여 본 발명을 예시적으로 설명하였으나, 본 발명은 이와 같은 특정 실시예에만 한정되는 것은 아니며 본 발명에서 제시한 기술적 사상, 구체적으로는 특허청구범위에 기재된 범주 내에서 다양한 형태로 수정, 변경, 또는 개선될 수 있다Although the present invention has been exemplarily described through preferred embodiments above, the present invention is not limited to such specific embodiments, and various forms within the scope of the technical idea presented in the present invention, specifically, the claims may be modified, changed, or improved with
본 발명에의 구성 요소들이 소프트웨어 프로그래밍 또는 소프트웨어 요소들로 실행될 수 있는 것과 유사하게, 본 발명은 데이터 구조, 프로세스들, 루틴들 또는 다른 프로그래밍 구성들의 조합으로 구현되는 다양한 알고리즘을 포함하여, C, C++, 자바(Java), 어셈블러(assembler) 등과 같은 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능적인 측면들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 본 발명은 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다. "매커니즘", "요소", "수단", "구성"과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다. 상기 용어는 프로세서 등과 연계하여 소프트웨어의 일련의 처리들(routines)의 의미를 포함할 수 있다.Similar to how components of the present invention may be implemented as software programming or software elements, the present invention includes various algorithms implemented as data structures, processes, routines, or combinations of other programming constructs, including C, C++ , Java, assembler, etc. may be implemented in a programming or scripting language. Functional aspects may be implemented in an algorithm running on one or more processors. Further, the present invention may employ prior art techniques for electronic configuration, signal processing, and/or data processing, and the like. Terms such as “mechanism”, “element”, “means” and “configuration” may be used broadly and are not limited to mechanical and physical configurations. The term may include the meaning of a series of routines of software in association with a processor or the like.
이상에서와 같이 본 발명의 기술적 사상은 바람직한 실시예에서 구체적으로 기술되었으나, 상기한 바람직한 실시예는 그 설명을 위한 것이며, 그 제한을 위한 것이 아니다. 이처럼 이 기술 분야의 통상의 전문가라면 본 발명의 기술 사상의 범위 내에서 본 발명의 실시예의 결합을 통해 다양한 실시예들이 가능함을 이해할 수 있을 것이다.As described above, the technical idea of the present invention has been specifically described in the preferred embodiment, but the preferred embodiment is for the purpose of explanation and not for limitation. As such, those skilled in the art will be able to understand that various embodiments are possible through the combination of the embodiments of the present invention within the scope of the technical spirit of the present invention.

Claims (5)

  1. 목차 생성 대상 동영상 콘텐츠를 선택하는 단계, selecting the video content to be created for the table of contents;
    동영상 콘텐츠에서 발화되는 음성정보를 추출하여 텍스트 정보를 생성하는 단계,generating text information by extracting voice information uttered from video content;
    상기 텍스트 정보를 형태소로 구분하여, 각 형태소의 품사, 사용된 횟수를 포함하는 형태소 정보를 데이터화하는 단계,classifying the text information into morphemes and converting the morpheme information including parts of speech of each morpheme and the number of times it is used into data;
    상기 동영상 콘텐츠를 복수의 구간으로 구획하고, 상기 형태소 정보를 기초로 동영상 콘텐츠의 구획 구간에서 특징어를 선택하는 단계,dividing the video content into a plurality of sections, and selecting a characteristic word from the section of the video content based on the morpheme information;
    상기 동영상 콘텐츠의 구획 구간에서 선택된 특징어들을 순차적으로 나열하여 목차 정보를 생성하는 단계,generating table of contents information by sequentially arranging the selected characteristic words in the segmentation section of the video content;
    상기 동영상 콘텐츠에서 상기 특징어의 발화된 시점 정보를 기초로 동영상 콘텐츠의 개별 재생 구간을 설정하는 단계, setting an individual playback section of the video content based on the utterance information of the characteristic word in the video content;
    상기 목차 정보와 동영상 콘텐츠의 개별 재생 구간을 링크시키는 단계, 및linking the table of contents information and individual playback sections of video content; and
    상기 동영상 콘텐츠와 관련하여 상기 목차 정보가 디스플레이되도록 연동시키는 단계를 포함하며, and linking the table of contents information to be displayed in relation to the video content,
    상기 동영상 콘텐츠의 음성정보로부터 텍스트 정보 생성 시 음성정보에 해당하는 언어의 문자로 텍스트 정보를 생성하는 것을 특징으로 하는 내용 기반 동영상 목차 자동생성 방법.When text information is generated from the voice information of the video content, text information is generated in characters of a language corresponding to the voice information.
  2. 제1항에 있어서, According to claim 1,
    상기 동영상 콘텐츠의 구간 구획 시, 동영상 콘텐츠의 전체 재생 시간을 균등한 시간으로 나누어 복수의 구간으로 구획하는 것을 특징으로 하는 내용 기반 동영상 목차 자동생성 방법.When dividing the section of the video content, the method for automatically generating a content-based video table of contents, characterized in that the entire playback time of the video content is divided by equal time and divided into a plurality of sections.
  3. 제1항에 있어서, According to claim 1,
    상기 특징어는 동영상 콘텐츠의 구획 구간에서 발화된 빈도가 가장 많은 텍스트를 선택하는 것을 특징으로 하는 내용 기반 동영상 목차 자동생성 방법.The method for automatically generating a content-based video table of contents, characterized in that the characteristic word selects the text with the highest frequency of utterance in a section of the video content.
  4. 제1항에 있어서, According to claim 1,
    상기 동영상 콘텐츠에서 제1특징어가 최초 발화된 시점과 제2특징어가 최초 발화된 시점을 기초로 동영상 콘텐츠의 개별 재생 구간을 설정하는 것을 특징으로 하는 내용 기반 동영상 목차 자동생성 방법.A method for automatically generating a content-based video table of contents, characterized in that the individual playback sections of the video content are set based on the first utterance time of the first characteristic word and the first utterance time of the second characteristic word in the video content.
  5. 목차 생성 대상 동영상 콘텐츠를 선택하고 선택된 동영상 콘텐츠를 복수의 구간으로 구획하는 동영상 관리부,a video management unit that selects video content to be created and divides the selected video content into a plurality of sections;
    동영상 콘텐츠에서 발화되는 음성정보를 추출하고 추출된 음성정보로부터 텍스트 정보를 생성하는 텍스트 변환부,A text conversion unit that extracts voice information uttered from video content and generates text information from the extracted voice information;
    상기 텍스트 정보를 형태소로 구분하여, 각 형태소의 품사, 사용된 횟수를 포함하는 형태소 정보를 데이터화하는 형태소 분석부,a morpheme analysis unit that divides the text information into morphemes and converts the morpheme information including parts of speech of each morpheme and the number of times it is used into data;
    상기 형태소 정보를 기초로 동영상 콘텐츠의 구획 구간에서 특징어를 선택하고, 동영상 콘텐츠의 구획 구간에서 선택된 특징어들을 순차적으로 나열하여 목차 정보를 생성하는 목차 생성부,a table of contents generator for selecting a characteristic word from a section of the moving picture content based on the morpheme information, and sequentially arranging the selected characteristic words from a section of the moving picture content to generate table of contents information;
    상기 동영상 콘텐츠에서 상기 특징어의 발화된 시점 정보를 기초로 동영상 콘텐츠의 개별 재생 구간을 설정하고, 상기 목차 정보와 동영상 콘텐츠의 개별 재생 구간을 링크시키며, 상기 동영상 콘텐츠와 관련하여 상기 목차 정보가 디스플레이되도록 연동시키는 출력 제어부를 포함하는 내용 기반 동영상 목차 자동생성 시스템.In the video content, an individual playback section of the video content is set based on the utterance information of the characteristic word in the video content, the table of contents information is linked to an individual playback section of the video content, and the table of contents information is displayed in relation to the video content Content-based video table of contents automatic creation system including an output control unit that interlocks as much as possible.
PCT/KR2021/000093 2020-02-17 2021-01-05 Method and system for automatically creating table of contents of video on basis of content WO2021167238A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2020-0018991 2020-02-17
KR1020200018991A KR102252522B1 (en) 2020-02-17 2020-02-17 Method and system for automatic creating contents list of video based on information

Publications (1)

Publication Number Publication Date
WO2021167238A1 true WO2021167238A1 (en) 2021-08-26

Family

ID=75913247

Family Applications (2)

Application Number Title Priority Date Filing Date
PCT/KR2020/018634 WO2021167220A1 (en) 2020-02-17 2020-12-18 Method and system for automatically generating table of contents for video on basis of contents
PCT/KR2021/000093 WO2021167238A1 (en) 2020-02-17 2021-01-05 Method and system for automatically creating table of contents of video on basis of content

Family Applications Before (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/018634 WO2021167220A1 (en) 2020-02-17 2020-12-18 Method and system for automatically generating table of contents for video on basis of contents

Country Status (2)

Country Link
KR (1) KR102252522B1 (en)
WO (2) WO2021167220A1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102618768B1 (en) * 2022-08-30 2023-12-29 호서대학교 산학협력단 Method of providing work orders for equipment maintenance based on time series data
KR102636431B1 (en) * 2022-10-27 2024-02-14 주식회사 일만백만 Method of providing video skip function and apparatus performing thereof

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09238298A (en) * 1996-03-01 1997-09-09 Nippon Telegr & Teleph Corp <Ntt> Method and device for generating table of contents of video information
JP2004326404A (en) * 2003-04-24 2004-11-18 Nec Corp Index creation device, index creation method and index creation program
KR20150022088A (en) * 2013-08-22 2015-03-04 주식회사 엘지유플러스 Context-based VOD Search System And Method of VOD Search Using the Same
KR20190061734A (en) * 2017-11-28 2019-06-05 삼성에스디에스 주식회사 Apparatus and method for providing moving picture contents
KR102057706B1 (en) * 2018-08-06 2019-12-19 조돈제 Method for entrying a table into a content and playing the content

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09238298A (en) * 1996-03-01 1997-09-09 Nippon Telegr & Teleph Corp <Ntt> Method and device for generating table of contents of video information
JP2004326404A (en) * 2003-04-24 2004-11-18 Nec Corp Index creation device, index creation method and index creation program
KR20150022088A (en) * 2013-08-22 2015-03-04 주식회사 엘지유플러스 Context-based VOD Search System And Method of VOD Search Using the Same
KR20190061734A (en) * 2017-11-28 2019-06-05 삼성에스디에스 주식회사 Apparatus and method for providing moving picture contents
KR102057706B1 (en) * 2018-08-06 2019-12-19 조돈제 Method for entrying a table into a content and playing the content

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
PCT/KR2020/018634 has the same priority date as the present application(PCT/KR2021/000093), and claims 1-5 are the same as claims 1-5 of present application, respectively. (Therefore, PCT/KR2020/018634 is related to category "L".) L 1-5 *

Also Published As

Publication number Publication date
KR102252522B1 (en) 2021-05-13
WO2021167220A1 (en) 2021-08-26

Similar Documents

Publication Publication Date Title
US11055342B2 (en) System and method for rich media annotation
US10325397B2 (en) Systems and methods for assembling and/or displaying multimedia objects, modules or presentations
US8091028B2 (en) Method and apparatus for annotating a line-based document
KR101255405B1 (en) Indexing and searching speech with text meta-data
US10225625B2 (en) Caption extraction and analysis
US20100274667A1 (en) Multimedia access
US20050038814A1 (en) Method, apparatus, and program for cross-linking information sources using multiple modalities
JP2009522845A (en) Searchable multimedia stream
WO2021167238A1 (en) Method and system for automatically creating table of contents of video on basis of content
JPH11249867A (en) Voice browser system
KR20040035318A (en) Apparatus and method of object-based MPEG-4 content editing and authoring and retrieval
US20200342856A1 (en) Multi-modal interface in a voice-activated network
WO2021149929A1 (en) System for providing customized video producing service using cloud-based voice combining
JP2002108892A (en) Data management system, data management method and recording medium
JP2003030204A (en) Server for providing video contents, device and method for preparing file for video contents retrieval, computer program and device and method for supporting video clip preparation
US20100131464A1 (en) Method and apparatus for enabling simultaneous reproduction of a first media item and a second media item
KR20030014804A (en) Apparatus and Method for Database Construction of News Video based on Closed Caption and Method of Content-based Retrieval/Serching It
Sack et al. Automated annotations of synchronized multimedia presentations
JP5474591B2 (en) Image selection apparatus, image selection method, and image selection program
JP2006195900A (en) Multimedia content generation device and method
JP2007293602A (en) System and method for retrieving image and program
WO2018115878A1 (en) A method and system for digital linear media retrieval
JP2003076699A (en) System and method for providing image contents viewer information, device therefor, program and recording medium for program
JP2002304420A (en) Audio-visual content distribution system
WO2006030995A1 (en) Index-based authoring and editing system for video contents

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21756449

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21756449

Country of ref document: EP

Kind code of ref document: A1