WO2020091431A1 - Subtitle generation system using graphic object - Google Patents

Subtitle generation system using graphic object Download PDF

Info

Publication number
WO2020091431A1
WO2020091431A1 PCT/KR2019/014501 KR2019014501W WO2020091431A1 WO 2020091431 A1 WO2020091431 A1 WO 2020091431A1 KR 2019014501 W KR2019014501 W KR 2019014501W WO 2020091431 A1 WO2020091431 A1 WO 2020091431A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
subtitle
speaker
character
data
Prior art date
Application number
PCT/KR2019/014501
Other languages
French (fr)
Korean (ko)
Inventor
한승룡
Original Assignee
주식회사 모두앤모두
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 모두앤모두 filed Critical 주식회사 모두앤모두
Publication of WO2020091431A1 publication Critical patent/WO2020091431A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker

Definitions

  • the present invention relates to a system for generating captions using graphic objects.
  • Conventional subtitle broadcasting for the hearing impaired generates subtitles as shorthand in real-time broadcasting or recorded broadcasting.
  • the subtitles were generated in shorthand according to the speed of the video speaker, there were frequent typos, and a time difference occurred between the subtitles and the actual screen.
  • the quality of shorthand subtitles varies according to the shorthand's capabilities.
  • the problem to be solved by the present invention is to provide a caption generation system using a graphic object.
  • a system for generating captions using a graphic object for solving the above-described problem, receives multimedia content including audio data and video data from a content management server, and uses the multimedia content to expand caption data. And a subtitle generator for generating, wherein the subtitle generator receives the audio data, and generates basic subtitle data using the audio data, and receives the audio data, and uses the audio data.
  • a speech recognition processor for generating speaker character identifiers and emotion classification information by speech recognition, and a facial recognition processor for receiving the video data and generating appearance character information and emotion classification information by facial recognition using the video data
  • the speaker car A speaker information generator that receives a liter identifier and the character information, and generates speaker information, receives emotion classification information by the speech recognition, emotion classification information by the face recognition, and the speaker information, and generates emotion information
  • the emotion information generator, the basic subtitle data, the speaker information and the emotion information, and the extended subtitle data generator for generating the extended caption data and the voice and emotion information of the speaker character and the facial information and emotion information of the character appearing And a management database, wherein the basic subtitle data includes a character string detected from the audio data and information on a start time point, and the speaker information is the speaker character identifier when the character includes a speaker And the position, and if the speaker does not appear in the scene,
  • the speaker character identifier, and the emotion information is information that combines the results of the speech recognition and the facial recognition
  • the subtitle graphic object is output as a letter type, a font size, a font color, a font thickness, a graphic object shape, a graphic object size, and a background color of the graphic object corresponding to the emotion information.
  • the speech recognition processor generates the speaker character identifier and the emotion classification information in cooperation with the database.
  • the facial recognition processor generates the character information and the emotion classification information in cooperation with the database.
  • the character information includes the number of characters, the character identifier, and the location.
  • a subtitle synthesizer is further included, and the subtitle synthesizer receives the extended subtitle data from the subtitle generator and synthesizes the multimedia content and the extended subtitle data.
  • a system for generating captions using a graphic object for solving the above-described problem, receives multimedia content and basic subtitle data including audio data and video data from a content management server, and the multimedia content and And a subtitle generator for generating extended subtitle data using basic subtitle data, the subtitle generator receiving the audio data, and generating speaker character identifiers and emotion classification information by speech recognition using the audio data
  • a voice recognition processor receiving the video data, receiving the facial recognition processor for generating character information and emotion classification information by facial recognition using the video data, receiving the speaker character identifier and the character information, and speaker information
  • Speaker information generator emotion classification information by the speech recognition, emotion classification information by the face recognition, and the speaker information, and an emotion information generator that generates emotion information, the basic subtitle data, the speaker information, and the emotion information
  • a database for storing and managing voice information and emotion information of the speaker character and facial information and emotion information of the character of the speaker, and an extended caption data generator for generating extended caption data, and wherein the basic caption data is a character string.
  • the speaker information is the speaker character identifier and the location when the character is included in the character, and the speaker character identifier when the speaker does not appear in the scene, the Emotion information, if the character is included in the speaker, the speech recognition
  • the information obtained by combining the facial recognition results, and when the speaker does not appear in the scene, is information reflecting the results of the speech recognition
  • the extended subtitle data includes the character string, the starting point, the speaker character identifier, the location and It includes a subtitle graphic object corresponding to the emotion information, and is combined with the multimedia content.
  • the subtitle graphic object is output as a letter type, a font size, a font color, a font thickness, a graphic object shape, a graphic object size, and a background color of the graphic object corresponding to the emotion information.
  • the speech recognition processor generates the speaker character identifier and the emotion classification information in cooperation with the database.
  • the facial recognition processor generates the character information and the emotion classification information in cooperation with the database.
  • the character information includes the number of characters, the character identifier, and the location.
  • a subtitle synthesizer is further included, and the subtitle synthesizer receives the extended subtitle data from the subtitle generator and synthesizes the multimedia content and the extended subtitle data.
  • the subtitle generation system using the graphic object of the present invention generates emotion information of the speaker character and the character by voice recognition and facial recognition, and generates extended subtitle data corresponding to the emotion information. can do.
  • the caption generation system using the graphic object makes it possible to visually transmit the emotion information to the hearing impaired by making the graphic object displaying the extended caption correspond to the emotion information.
  • the subtitle generation system using a graphic object enables a visually recognizable speaker to a hearing impaired person by adding a speaker character identifier to the video when the speaker is not present in the video.
  • the subtitle generation system using a graphic object allows a subtitle to correspond to a speaker using a graphic object when a single video has multiple speakers, so that a visually recognized who is speaking among the plurality of speakers to a hearing impaired person. do.
  • FIG. 1 is an input / output diagram of a caption generator according to an embodiment of the present invention.
  • FIG. 2 is a block diagram of a caption generator according to an embodiment of the present invention.
  • FIG. 3 is an input / output diagram of a basic caption data generator and a speech recognition processor according to an embodiment of the present invention.
  • FIG. 4 is an input / output diagram of a facial recognition processor according to an embodiment of the present invention.
  • FIG. 5 is an input / output diagram of a speaker information generator according to an embodiment of the present invention.
  • FIG. 6 is an input / output diagram of an emotion information generator according to an embodiment of the present invention.
  • FIG. 7 is an input / output diagram of an extended caption data generator according to an embodiment of the present invention.
  • FIG. 8 is a flowchart of a subtitle generation method using a graphic object according to an embodiment of the present invention.
  • FIG. 9 is an input / output diagram of a caption synthesizer according to an embodiment of the present invention.
  • FIG. 10 is an exemplary diagram of multimedia content synthesized with extended caption data according to an embodiment of the present invention.
  • FIG. 11 is an input and output diagram of a caption generator and a caption synthesizer according to an embodiment of the present invention.
  • FIG. 12 is an input / output diagram of a caption generator according to an embodiment of the present invention.
  • FIG. 13 is a block diagram of a caption generator according to an embodiment of the present invention.
  • FIGS. 12 to 13 describe a system for generating basic subtitle data and extended subtitle data in real time by receiving multimedia content
  • FIGS. 12 to 13 receiving and expanding basic subtitle data and multimedia content already generated by a content production company
  • a system for generating subtitle data is described.
  • Multimedia content is digitized information that is produced, distributed, and consumed by information equipment, and includes drama, movies, news, animation, educational programs, and games, and is composed of audio data and video data.
  • FIG 1 is an input and output diagram of the caption generator 1000 according to an embodiment of the present invention.
  • the caption generator 1000 receives multimedia content and generates extended caption data.
  • the subtitle generator 1000 receives multimedia content including audio data and video data from the content management server, and generates extended subtitle data using the multimedia content.
  • the content management server is operated by a multimedia content production company, and manages and stores multimedia content and basic subtitle data.
  • the content management server may transmit only the multimedia content to the subtitle generator 1000, and may simultaneously transmit the multimedia content and the basic subtitle data produced by the content producer to the subtitle generator 1000.
  • the caption generator 1000 may process multimedia data according to a predetermined rule to generate extended caption data reflecting the speaker's emotion information.
  • FIG. 2 is a block diagram of a caption generator 1000 according to an embodiment of the present invention.
  • the subtitle generator 1000 includes a basic subtitle data generator 1100, a speech recognition processor 1200, a facial recognition processor 1300, a speaker information generator 1400, an emotion information generator 1500, and extended subtitles.
  • Data generator 1600 and database 1700 are examples of the subtitle generator 1000.
  • the basic caption data generator 1100 receives audio data and generates basic caption data using the audio data.
  • the basic subtitle data generator 1100 receives audio data among multimedia contents, and processes the audio data according to a predetermined rule to generate basic subtitle data.
  • the speech recognition processor 1200 receives audio data and generates speaker character identifiers and emotion classification information by speech recognition using the audio data.
  • the speech recognition processor 1200 receives audio data among multimedia contents, and processes the audio data according to predetermined rules to generate speaker character identifiers and emotion classification information.
  • the facial recognition processor 1300 receives video data, and generates character information and emotion classification information by facial recognition using the video data.
  • the facial recognition processor 1300 receives video data among multimedia contents, and processes the video data according to predetermined rules to generate character information and emotion classification information.
  • the speaker information generator 1400 receives the speaker character identifier and the character information, and generates speaker information.
  • the speaker information generator 1400 receives the speaker character identifier from the speech recognition processor 1200, receives the character information from the facial recognition processor 1300, and processes the speaker character identifier and the character information according to predetermined rules. Generate speaker information.
  • the emotion information generator 1500 receives emotion classification information by voice recognition, emotion classification information by face recognition, and speaker information, and generates emotion information.
  • the emotion information generator 1500 receives emotion classification information by voice recognition from the speech recognition processor 1200, receives emotion classification information by face recognition from the facial recognition processor 1300, and performs voice recognition and facial recognition.
  • the emotion classification information is processed according to a predetermined rule to generate emotion information.
  • the extended caption data generator 1600 receives basic caption data, speaker information, and emotion information, and generates extended caption data.
  • the extended caption data generator 1600 receives basic caption data from the basic caption data generator 1100, receives speaker information from the speaker information generator 1400, and receives emotion information from the emotion information generator 1500, and Extended caption data is generated by processing caption data, speaker information, and emotion information according to predetermined rules.
  • the database 1700 stores and manages voice information and emotion information of the speaker character and facial information and emotion information of the character.
  • the database can store and manage the voice information and emotion information of the speaker character and the facial information and emotion information of the character in advance in broadcasting the multimedia content, and the voice information and emotion information and the character of the speaker character in real time during the multimedia content broadcast. Can store and manage facial information and emotion information.
  • the database 1700 automatically receives and stores voice information and emotion information of the speaker character and facial information and emotion information of the character from the subtitle generator 1000 from multimedia contents when a specific speaker repeatedly or periodically appears for a certain period of time. And manage.
  • FIG 3 is an input / output diagram of the basic caption data generator 1100 and the speech recognition processor 1200 according to an embodiment of the present invention.
  • the basic caption data generator 1100 receives audio data, generates basic caption data, and the voice recognition processor 1200 receives audio data, and generates a speaker character identifier.
  • the basic caption data generator 1100 receives audio data and generates basic caption data using the audio data.
  • the basic subtitle data includes character strings detected from the audio data and information at the start time.
  • the speech recognition processor 1200 receives audio data and generates speaker character identifiers and emotion classification information by speech recognition using the audio data.
  • the speaker character identifier may be a specific symbol, icon, or image for defining a character, character, or the like speaking on the audio data.
  • the emotion classification information is information that classifies the emotions of the speaker, and may be joy, sadness, anger, and the like.
  • the voice recognition processor 1200 recognizes voice information of the audio data, and generates speaker character identifiers and emotion classification information in association with the database 1700.
  • the voice recognition processor 1200 recognizes a speaker character corresponding to the voice information of the database 1700 when the voice information recognized from the audio data of the multimedia content is similar to or more than a predetermined criterion as the voice information of the database 1700, thereby recognizing the speaker character. Create a character identifier.
  • the voice recognition processor 1200 recognizes emotion information corresponding to the voice information in the database 1700 when the voice information recognized from the audio data of the multimedia content is similar to or more than a predetermined criterion as the voice information in the database 1700. To generate emotion classification information.
  • FIG 4 is an input / output diagram of the facial recognition processor 1300 according to an embodiment of the present invention.
  • the facial recognition processor 1300 receives video data and generates character information and emotion classification information.
  • the facial recognition processor 1300 receives video data, and generates character information and emotion classification information by facial recognition using the video data.
  • the character information includes the number of characters, the character identifier, and the location.
  • the emotion classification information is information that classifies emotions of the character of the character, and may be joy, sadness, anger, and the like.
  • the face recognition processor 1300 face-recognizes face information of the video data, and generates character information and emotion classification information in association with the database 1700.
  • the facial recognition processor 1300 recognizes an appearance character corresponding to the facial information in the database 1700 when the facial information recognized from the video data of the multimedia content is similar to or greater than a predetermined criterion for the facial information in the database 1700. Create number of characters, identifier, and location.
  • the facial recognition processor 1300 recognizes the emotion information corresponding to the facial information in the database 1700 when the facial information recognized from the video data of the multimedia content is similar to or greater than a predetermined criterion with the facial information in the database 1700 To generate emotion classification information.
  • FIG 5 is an input / output diagram of the speaker information generator 1400 according to an embodiment of the present invention.
  • the speaker information generator 1400 receives speaker character identifiers and character information, and generates speaker information.
  • the speaker information generator 1400 receives the speaker character identifier and the character information, and generates speaker information.
  • the speaker information is a speaker character identifier and location when a speaker is included in the character, and is a speaker character identifier when the speaker does not appear in the scene.
  • the speaker information generator 1400 determines that a speaker is included in the character, if the speaker character identifier and the character identifier are similar to or above a predetermined criterion, and generates speaker information of the speaker character identifier and location. In addition, the speaker information generator 1400 determines that the speaker does not appear in the scene when the speaker character identifier and the character identifier are similar below a predetermined criterion, and generates speaker information of the speaker character identifier.
  • FIG. 6 is an input / output diagram of the emotion information generator 1500 according to the embodiment of the present invention.
  • the emotion information generator 1500 receives emotion classification information by voice recognition, emotion classification information by face recognition, and speaker information, and generates emotion information.
  • the emotion information is information that combines the results of speech recognition and facial recognition when the character includes a speaker, and information that reflects the results of speech recognition when the speaker does not appear in the scene.
  • the emotion information generator 1500 determines if the speaker character identifier and the character identifier are similar to or above a predetermined criterion, determines that the character includes a speaker, and combines emotion classification information by voice recognition and emotion classification information by facial recognition. To generate emotion information.
  • the emotion information generator 1500 determines that the speaker does not appear in the scene when the speaker character identifier and the appearance character identifier are similar below a predetermined criterion, and generates emotion information using emotion classification information by voice recognition. do.
  • FIG 7 is an input / output diagram of the extended caption data generator 1600 according to an embodiment of the present invention.
  • the extended caption data generator 1600 receives basic caption data, speaker information, and emotion information, and generates extended caption data.
  • the extended caption data generator 1600 receives basic caption data, speaker information, and emotion information, and generates extended caption data.
  • the extended subtitle data includes a subtitle graphic object corresponding to a character string, a starting point, a speaker character identifier, location and emotion information, and is combined with multimedia content.
  • the extended subtitle data is different for every starting point when subtitles of multimedia contents are output, the character string, the speaker character identifier, the character position of the characters, the character type, the font size, the font color, the shape of the graphic object, the size of the graphic object, and the background color of the graphic object.
  • extended subtitle data can be configured to reflect the speaker's emotions rather than simply outputting a string.
  • the subtitle graphic object is a tool for displaying a character string on the screen, and is output as a character type, a font size, a font color, a graphic object shape, a graphic object size, and a graphic object background color corresponding to emotion information.
  • the subtitle graphic object is described in detail in FIG. 10.
  • FIG. 8 is a flowchart of a subtitle generation method using a graphic object according to an embodiment of the present invention.
  • a subtitle generation method using a graphic object includes a basic subtitle data generation step, a voice recognition processing step, a face recognition processing step, speaker information generation step, emotion information generation step, and extended subtitle data generation step.
  • step S5100 audio data among multimedia contents is received from the content management server, and basic subtitle data is generated using the audio data.
  • step S5200 audio data among multimedia contents is received from the content management server, and speaker character identifiers and emotion classification information by voice recognition are generated using the audio data.
  • step S5300 video data among multimedia contents is received from the content management server, and character information and emotion classification information by facial recognition are generated using the video data.
  • step S5400 the speaker character identifier and the character information are received, and the speaker information is generated.
  • step S5500 emotion classification information by voice recognition, emotion classification information by face recognition, and speaker information are received, and emotion information is generated.
  • step S5600 basic subtitle data, speaker information, and emotion information are received, and extended subtitle data is generated.
  • FIG 9 is an input / output diagram of the caption synthesizer 2000 according to an embodiment of the present invention.
  • the subtitle synthesizer 2000 receives multimedia content and extended subtitle data, and generates multimedia content synthesized with the extended subtitle data.
  • the subtitle synthesizer 2000 receives the extended subtitle data from the subtitle generator 1000 and synthesizes the multimedia content and the extended subtitle data.
  • the multimedia content in which the extended subtitle data is synthesized will be described in detail in FIG. 10.
  • the subtitle synthesizer 2000 compares the identifier of the multimedia content and the identifier of the extended subtitle data and synthesizes the multimedia content and the extended subtitle data when they correspond to each other.
  • FIG. 10 is an exemplary diagram of multimedia content synthesized with extended caption data according to an embodiment of the present invention.
  • FIG. 10 it is an exemplary view of multimedia content in which extended subtitle data is synthesized when the speaker is not present in the video.
  • the present invention outputs the speaker character identifier to the image, and outputs extended caption data at the location of the speaker character identifier.
  • the subtitle graphic object corresponding to the emotion information of the extended subtitle data may be output on the image in the form of a speech bubble, and the text type, text size, text color, text thickness, shape of the graphic object, and graphic object correspond to the speaker's emotion information.
  • the size and background color of the graphic object can be output. For example, when the speaker's emotion information is anger, the font size can be increased to a predetermined standard or more, the font color is red, the font thickness is thick, and the subtitle graphic object is in a sharp shape. can do.
  • the text type, text size, text color, text thickness, graphic object shape, graphic object size, and graphic object background color corresponding to the speaker's emotion information can be set by the administrator of the subtitle generation system, and the user is a hearing impaired person. It can be set differently according to the taste of the.
  • FIG. 10 it is an exemplary view of multimedia content in which extended subtitle data is synthesized when a plurality of speakers are present in an image.
  • the present invention can determine the appearance character corresponding to the extended caption data, and output the extended caption data at the position of the corresponding character.
  • FIG 11 is an input and output diagram of the caption generator 1000 and the caption synthesizer 2000 according to an embodiment of the present invention.
  • the subtitle generator 1000 receives multimedia content, generates extended subtitle data
  • the subtitle synthesizer 2000 receives multimedia content and extended subtitle data, and displays multimedia content synthesized by extended subtitle data. To create.
  • the subtitle generator 3000, the subtitle synthesizer, the multimedia content, the extended subtitle data, and the multimedia content in which the extended subtitle data is synthesized are described in FIGS. 1 to 10, and thus will be omitted in the description of FIG.
  • the subtitle generator 3000 of FIGS. 12 and 13 is a system for generating extended subtitle data by receiving basic subtitle data and multimedia content already generated by a content production company.
  • FIGS. 1 to 10 in that the basic subtitle data is received from a content producer It is different from the subtitle generator 3000 of, and the description of terms is the same, and thus will be briefly described below.
  • FIG. 12 is an input / output diagram of the caption generator 3000 according to an embodiment of the present invention.
  • the subtitle generator 3000 receives multimedia content and basic subtitle data, and generates extended subtitle data.
  • the subtitle generator 3000 receives multimedia content and basic subtitle data including audio data and video data from the content management server, and generates extended subtitle data using the multimedia content and the basic subtitle data.
  • the basic subtitle data includes a character string and information at a starting point.
  • the subtitle synthesizer receives extended subtitle data from the subtitle generator 3000 and synthesizes multimedia content and extended subtitle data.
  • FIG. 13 is a block diagram of a caption generator 3000 according to an embodiment of the present invention.
  • the subtitle generator 3000 includes a speech recognition processor 3100, a facial recognition processor 3200, a speaker information generator 3300, an emotion information generator 3400, an extended subtitle data generator 3500 and a database ( 3600).
  • the voice recognition processor 3100 receives audio data, and generates speaker character identifiers and emotion classification information by voice recognition using the audio data.
  • the speech recognition processor 3100 generates a speaker character identifier and emotion classification information in cooperation with the database 3600.
  • the facial recognition processor 3200 receives video data, and generates character information and emotion classification information by facial recognition using the video data.
  • the facial recognition processor 3200 generates appearance character information and emotion classification information in conjunction with the database 3600.
  • the character information includes the number of characters, the character identifier, and the location.
  • the speaker information generator 3300 receives the speaker character identifier and the character information, and generates speaker information.
  • the speaker information is a speaker character identifier and location when a speaker is included in the character, and is a speaker character identifier when the speaker does not appear in the scene.
  • the emotion information generator 3400 receives emotion classification information by voice recognition, emotion classification information by face recognition, and speaker information, and generates emotion information.
  • the emotion information is information that combines the results of speech recognition and facial recognition when the character includes a speaker, and information that reflects the results of speech recognition when the speaker does not appear in the scene.
  • the extended caption data generator 3500 receives basic caption data, speaker information, and emotion information, and generates extended caption data.
  • the extended subtitle data includes a subtitle graphic object corresponding to a character string, a starting point, a speaker character identifier, location and emotion information, and is combined with multimedia content.
  • the subtitle graphic object is output as text type, text size, text color, graphic object shape, graphic object size, and graphic object background color corresponding to emotion information.
  • the database 3600 stores and manages voice information and emotion information of the speaker character, and facial information and emotion information of the character.
  • the subtitle generator and subtitle synthesizer of FIGS. 1 to 11 and the subtitle generator and subtitle synthesizer of FIGS. 12 to 13 are applicable to a video call environment.
  • the application in the smartphone transmits the video call multimedia content to the video call multimedia content management server, and the subtitle generator and subtitle synthesizer of the video call multimedia content management server can generate multimedia content synthesized with extended subtitle data. have.
  • an application in a smartphone includes a program corresponding to a caption generator and a caption synthesizer, and a program corresponding to the caption generator and the caption synthesizer can generate multimedia content synthesized with extended caption data.
  • the steps of a method or algorithm described in connection with an embodiment of the present invention may be implemented directly in hardware, a software module executed by hardware, or a combination thereof.
  • the software modules may include random access memory (RAM), read only memory (ROM), erasable programmable ROM (EPROM), electrically erasable programmable ROM (EPMROM), flash memory, hard disk, removable disk, CD-ROM, or It may reside on any type of computer readable recording medium well known in the art.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Child & Adolescent Psychology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Studio Circuits (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

The present invention provides a subtitle generation system using a graphic object. The system comprises a subtitle generator for receiving a multimedia content including audio data and video data from a content management server, and generating extension subtitle data by using the multimedia content, wherein the subtitle generator includes a basic subtitle data generator, a voice recognition processor, a facial recognition processor, a speaker information generator, an emotion information generator, an extension subtitle data generator, and a database.

Description

그래픽 객체를 이용한 자막 생성 시스템Subtitle generation system using graphic objects
본 발명은 그래픽 객체를 이용한 자막 생성 시스템에 관한 것이다.The present invention relates to a system for generating captions using graphic objects.
기존 청각 장애인을 위한 자막방송은 실시간 방송 또는 녹화방송에서 속기로 자막을 생성하고 있다. 영상의 화자가 말하는 속도에 맞춰 속기로 자막을 생성하다 보니, 오타 발생이 잦고, 자막과 실제 화면 간의 시간차가 발생하였다. 또한, 속기사의 역량에 따라 속기한 자막의 품질이 달리되는 문제점이 있다. 그리고 단순히 자막으로 영상 하단에 표시하는 것으로는 실제 배우의 감정, 감성 들을 이해하기 어려웠다. 예를 들어, 속기는 배우의 화난 목소리를 표현할 방법이 없고, 배우의 음성을 통한 감정을 느끼지 못하여 청각 장애인들은 영상을 보는 즐거움이 반감된다.Conventional subtitle broadcasting for the hearing impaired generates subtitles as shorthand in real-time broadcasting or recorded broadcasting. As the subtitles were generated in shorthand according to the speed of the video speaker, there were frequent typos, and a time difference occurred between the subtitles and the actual screen. In addition, there is a problem in that the quality of shorthand subtitles varies according to the shorthand's capabilities. And it was difficult to understand the emotions and emotions of a real actor simply by displaying them at the bottom of the video as subtitles. For example, shorthand has no way of expressing an actor's angry voice, and since he does not feel the emotion through the actor's voice, the hearing impaired enjoys half the pleasure of watching the video.
본 발명이 해결하고자 하는 과제는 그래픽 객체를 이용한 자막 생성 시스템을 제공하는 것이다.The problem to be solved by the present invention is to provide a caption generation system using a graphic object.
본 발명이 해결하고자 하는 과제들은 이상에서 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.The problems to be solved by the present invention are not limited to the problems mentioned above, and other problems not mentioned will be clearly understood by those skilled in the art from the following description.
상술한 과제를 해결하기 위한 본 발명의 일 면에 따른 그래픽 객체를 이용한 자막 생성 시스템은, 콘텐츠 관리 서버로부터 오디오 데이터와 비디오 데이터를 포함하는 멀티미디어 콘텐츠를 수신하고, 상기 멀티미디어 콘텐츠를 이용하여 확장 자막 데이터를 생성하는 자막 생성기를 포함하고, 상기 자막 생성기는, 상기 오디오 데이터를 수신하고, 상기 오디오 데이터를 이용하여 기본 자막 데이터를 생성하는 기본 자막 데이터 생성기, 상기 오디오 데이터를 수신하고, 상기 오디오 데이터를 이용하여 음성 인식에 의한 화자 캐릭터 식별자 및 감정 분류 정보를 생성하는 음성 인식 처리기, 상기 비디오 데이터를 수신하고, 상기 비디오 데이터를 이용하여 안면 인식에 의한 등장 캐릭터 정보 및 감정 분류 정보를 생성하는 안면 인식 처리기, 상기 화자 캐릭터 식별자 및 상기 등장 캐릭터 정보를 수신하고, 화자 정보를 생성하는 화자 정보 생성기, 상기 음성 인식에 의한 감정 분류 정보, 상기 안면 인식에 의한 감정 분류 정보 및 상기 화자 정보를 수신하고, 감정 정보를 생성하는 감정 정보 생성기, 상기 기본 자막 데이터, 상기 화자 정보 및 상기 감정 정보를 수신하고, 확장 자막 데이터를 생성하는 확장 자막 데이터 생성기 및 화자 캐릭터의 음성 정보와 감정 정보 및 등장 캐릭터의 안면 정보와 감정 정보를 저장 및 관리하는 데이터 베이스를 포함하고, 상기 기본 자막 데이터는, 상기 오디오 데이터로부터 검출된 문자열, 시작 시점의 정보를 포함하고, 상기 화자 정보는, 상기 등장 캐릭터에 화자가 포함되는 경우, 상기 화자 캐릭터 식별자 및 상기 위치이고, 상기 화자가 장면에 등장하지 않는 경우, 상기 화자 캐릭터 식별자이고, 상기 감정 정보는, 상기 등장 캐릭터에 화자가 포함되는 경우, 상기 음성 인식 및 상기 안면 인식 결과를 조합한 정보이고, 상기 화자가 장면에 등장하지 않는 경우, 상기 음성 인식 결과를 반영한 정보이고, 상기 확장 자막 데이터는, 상기 문자열, 상기 시작 시점, 상기 화자 캐릭터 식별자, 상기 위치 및 상기 감정 정보에 상응하는 자막 그래픽 객체를 포함하고, 상기 멀티미디어 콘텐츠와 결합된다.A system for generating captions using a graphic object according to an aspect of the present invention for solving the above-described problem, receives multimedia content including audio data and video data from a content management server, and uses the multimedia content to expand caption data. And a subtitle generator for generating, wherein the subtitle generator receives the audio data, and generates basic subtitle data using the audio data, and receives the audio data, and uses the audio data. A speech recognition processor for generating speaker character identifiers and emotion classification information by speech recognition, and a facial recognition processor for receiving the video data and generating appearance character information and emotion classification information by facial recognition using the video data, The speaker car A speaker information generator that receives a liter identifier and the character information, and generates speaker information, receives emotion classification information by the speech recognition, emotion classification information by the face recognition, and the speaker information, and generates emotion information The emotion information generator, the basic subtitle data, the speaker information and the emotion information, and the extended subtitle data generator for generating the extended caption data and the voice and emotion information of the speaker character and the facial information and emotion information of the character appearing And a management database, wherein the basic subtitle data includes a character string detected from the audio data and information on a start time point, and the speaker information is the speaker character identifier when the character includes a speaker And the position, and if the speaker does not appear in the scene, The speaker character identifier, and the emotion information is information that combines the results of the speech recognition and the facial recognition when the character includes the speaker, and when the speaker does not appear in the scene, the voice recognition result The reflected information, and the extended subtitle data includes a subtitle graphic object corresponding to the character string, the start point, the speaker character identifier, the location and the emotion information, and is combined with the multimedia content.
일부 실시예에서, 상기 자막 그래픽 객체는, 상기 감정 정보에 상응하는 글자 종류, 글자 크기, 글자 색, 글자 굵기, 그래픽 객체의 형태, 그래픽 객체의 크기 및 그래픽 객체의 바탕색으로 출력된다.In some embodiments, the subtitle graphic object is output as a letter type, a font size, a font color, a font thickness, a graphic object shape, a graphic object size, and a background color of the graphic object corresponding to the emotion information.
일부 실시예에서, 상기 음성 인식 처리기는, 상기 데이터베이스와 연동하여 상기 화자 캐릭터 식별자 및 상기 감정 분류 정보를 생성한다.In some embodiments, the speech recognition processor generates the speaker character identifier and the emotion classification information in cooperation with the database.
일부 실시예에서, 상기 안면 인식 처리기는, 상기 데이터베이스와 연동하여 상기 등장 캐릭터 정보 및 상기 감정 분류 정보를 생성한다.In some embodiments, the facial recognition processor generates the character information and the emotion classification information in cooperation with the database.
일부 실시예에서, 상기 등장 캐릭터 정보는, 등장 캐릭터 수, 등장 캐릭터 식별자, 위치를 포함한다.In some embodiments, the character information includes the number of characters, the character identifier, and the location.
일부 실시예에서, 자막 합성기를 더 포함하고, 상기 자막 합성기는, 상기 자막 생성기로부터 상기 확장 자막 데이터를 수신하고, 상기 멀티미디어 콘텐츠 및 상기 확장 자막 데이터를 합성한다.In some embodiments, a subtitle synthesizer is further included, and the subtitle synthesizer receives the extended subtitle data from the subtitle generator and synthesizes the multimedia content and the extended subtitle data.
상술한 과제를 해결하기 위한 본 발명의 또 다른 면에 따른 그래픽 객체를 이용한 자막 생성 시스템은, 콘텐츠 관리 서버로부터 오디오 데이터와 비디오 데이터를 포함하는 멀티미디어 콘텐츠 및 기본 자막 데이터를 수신하고, 상기 멀티미디어 콘텐츠 및 기본 자막 데이터를 이용하여 확장 자막 데이터를 생성하는 자막 생성기를 포함하고, 상기 자막 생성기는, 상기 오디오 데이터를 수신하고, 상기 오디오 데이터를 이용하여 음성 인식에 의한 화자 캐릭터 식별자 및 감정 분류 정보를 생성하는 음성 인식 처리기, 상기 비디오 데이터를 수신하고, 상기 비디오 데이터를 이용하여 안면 인식에 의한 등장 캐릭터 정보 및 감정 분류 정보를 생성하는 안면 인식 처리기, 상기 화자 캐릭터 식별자 및 상기 등장 캐릭터 정보를 수신하고, 화자 정보를 생성하는 화자 정보 생성기, 상기 음성 인식에 의한 감정 분류 정보, 상기 안면 인식에 의한 감정 분류 정보 및 상기 화자 정보를 수신하고, 감정 정보를 생성하는 감정 정보 생성기, 상기 기본 자막 데이터, 상기 화자 정보 및 상기 감정 정보를 수신하고, 확장 자막 데이터를 생성하는 확장 자막 데이터 생성기 및 화자 캐릭터의 음성 정보와 감정 정보 및 등장 캐릭터의 안면 정보와 감정 정보를 저장 및 관리하는 데이터 베이스를 포함하고, 상기 기본 자막 데이터는, 문자열, 시작 시점의 정보를 포함하고, 상기 화자 정보는, 상기 등장 캐릭터에 화자가 포함되는 경우, 상기 화자 캐릭터 식별자 및 상기 위치이고, 상기 화자가 장면에 등장하지 않는 경우, 상기 화자 캐릭터 식별자이고, 상기 감정 정보는, 상기 등장 캐릭터에 화자가 포함되는 경우, 상기 음성 인식 및 상기 안면 인식 결과를 조합한 정보이고, 상기 화자가 장면에 등장하지 않는 경우, 상기 음성 인식 결과를 반영한 정보이고, 상기 확장 자막 데이터는, 상기 문자열, 상기 시작 시점, 상기 화자 캐릭터 식별자, 상기 위치 및 상기 감정 정보에 상응하는 자막 그래픽 객체를 포함하고, 상기 멀티미디어 콘텐츠와 결합된다.A system for generating captions using a graphic object according to another aspect of the present invention for solving the above-described problem, receives multimedia content and basic subtitle data including audio data and video data from a content management server, and the multimedia content and And a subtitle generator for generating extended subtitle data using basic subtitle data, the subtitle generator receiving the audio data, and generating speaker character identifiers and emotion classification information by speech recognition using the audio data A voice recognition processor, receiving the video data, receiving the facial recognition processor for generating character information and emotion classification information by facial recognition using the video data, receiving the speaker character identifier and the character information, and speaker information To generate Speaker information generator, emotion classification information by the speech recognition, emotion classification information by the face recognition, and the speaker information, and an emotion information generator that generates emotion information, the basic subtitle data, the speaker information, and the emotion information And a database for storing and managing voice information and emotion information of the speaker character and facial information and emotion information of the character of the speaker, and an extended caption data generator for generating extended caption data, and wherein the basic caption data is a character string. , Including information on a start time, and the speaker information is the speaker character identifier and the location when the character is included in the character, and the speaker character identifier when the speaker does not appear in the scene, the Emotion information, if the character is included in the speaker, the speech recognition The information obtained by combining the facial recognition results, and when the speaker does not appear in the scene, is information reflecting the results of the speech recognition, and the extended subtitle data includes the character string, the starting point, the speaker character identifier, the location and It includes a subtitle graphic object corresponding to the emotion information, and is combined with the multimedia content.
일부 실시예에서, 상기 자막 그래픽 객체는, 상기 감정 정보에 상응하는 글자 종류, 글자 크기, 글자 색, 글자 굵기, 그래픽 객체의 형태, 그래픽 객체의 크기 및 그래픽 객체의 바탕색으로 출력된다.In some embodiments, the subtitle graphic object is output as a letter type, a font size, a font color, a font thickness, a graphic object shape, a graphic object size, and a background color of the graphic object corresponding to the emotion information.
일부 실시예에서, 상기 음성 인식 처리기는, 상기 데이터베이스와 연동하여 상기 화자 캐릭터 식별자 및 상기 감정 분류 정보를 생성한다.In some embodiments, the speech recognition processor generates the speaker character identifier and the emotion classification information in cooperation with the database.
일부 실시예에서, 상기 안면 인식 처리기는, 상기 데이터베이스와 연동하여 상기 등장 캐릭터 정보 및 상기 감정 분류 정보를 생성한다.In some embodiments, the facial recognition processor generates the character information and the emotion classification information in cooperation with the database.
일부 실시예에서, 상기 등장 캐릭터 정보는, 등장 캐릭터 수, 등장 캐릭터 식별자, 위치를 포함한다.In some embodiments, the character information includes the number of characters, the character identifier, and the location.
일부 실시예에서, 자막 합성기를 더 포함하고, 상기 자막 합성기는, 상기 자막 생성기로부터 상기 확장 자막 데이터를 수신하고, 상기 멀티미디어 콘텐츠 및 상기 확장 자막 데이터를 합성한다.In some embodiments, a subtitle synthesizer is further included, and the subtitle synthesizer receives the extended subtitle data from the subtitle generator and synthesizes the multimedia content and the extended subtitle data.
본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.Other specific matters of the present invention are included in the detailed description and drawings.
본 발명의 그래픽 객체를 이용한 자막 생성 시스템에 의하면, 그래픽 객체를 이용한 자막 생성 시스템은 음성 인식 및 안면 인식에 의해서 화자 캐릭터 및 등장 캐릭터의 감정 정보를 생성하고, 감정 정보에 상응하는 확장 자막 데이터를 생성할 수 있다.According to the subtitle generation system using the graphic object of the present invention, the subtitle generation system using the graphic object generates emotion information of the speaker character and the character by voice recognition and facial recognition, and generates extended subtitle data corresponding to the emotion information. can do.
또한, 그래픽 객체를 이용한 자막 생성 시스템은 확장 자막이 표시되는 그래픽 객체를 감정 정보에 상응하도록 하여 청각 장애인에게 감정 정보를 시각적으로 전달할 수 있게 한다.In addition, the caption generation system using the graphic object makes it possible to visually transmit the emotion information to the hearing impaired by making the graphic object displaying the extended caption correspond to the emotion information.
또한, 그래픽 객체를 이용한 자막 생성 시스템은 화자가 영상에 없는 경우 화자 캐릭터 식별자를 영상에 추가하여 청각 장애인에게 영상에 없는 화자를 시각적으로 인지할 수 있도록 한다.In addition, the subtitle generation system using a graphic object enables a visually recognizable speaker to a hearing impaired person by adding a speaker character identifier to the video when the speaker is not present in the video.
또한, 그래픽 객체를 이용한 자막 생성 시스템은 하나의 영상에 복수의 화자가 있는 경우 그래픽 객체를 이용하여 자막을 화자와 대응되도록 하여 청각 장애인에게 복수의 화자 중 누가 발언하고 있는지를 시각적으로 인지할 수 있도록 한다.In addition, the subtitle generation system using a graphic object allows a subtitle to correspond to a speaker using a graphic object when a single video has multiple speakers, so that a visually recognized who is speaking among the plurality of speakers to a hearing impaired person. do.
본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.The effects of the present invention are not limited to the effects mentioned above, and other effects not mentioned will be clearly understood by those skilled in the art from the following description.
도 1은 본 발명의 실시예에 따른 자막 생성기의 입출력도이다.1 is an input / output diagram of a caption generator according to an embodiment of the present invention.
도 2는 본 발명의 실시예에 따른 자막 생성기의 구성도이다.2 is a block diagram of a caption generator according to an embodiment of the present invention.
도 3은 본 발명의 실시예에 따른 기본 자막 데이터 생성기 및 음성 인식 처리기의 입출력도이다.3 is an input / output diagram of a basic caption data generator and a speech recognition processor according to an embodiment of the present invention.
도 4는 본 발명의 실시예에 따른 안면 인식 처리기의 입출력도이다.4 is an input / output diagram of a facial recognition processor according to an embodiment of the present invention.
도 5는 본 발명의 실시예에 따른 화자 정보 생성기의 입출력도이다.5 is an input / output diagram of a speaker information generator according to an embodiment of the present invention.
도 6은 본 발명의 실시예에 따른 감정 정보 생성기의 입출력도이다.6 is an input / output diagram of an emotion information generator according to an embodiment of the present invention.
도 7은 본 발명의 실시예에 따른 확장 자막 데이터 생성기의 입출력도이다.7 is an input / output diagram of an extended caption data generator according to an embodiment of the present invention.
도 8은 본 발명의 실시예에 따른 그래픽 객체를 이용한 자막 생성 방법의 순서도이다.8 is a flowchart of a subtitle generation method using a graphic object according to an embodiment of the present invention.
도 9는 본 발명의 실시예에 따른 자막 합성기의 입출력도이다.9 is an input / output diagram of a caption synthesizer according to an embodiment of the present invention.
도 10은 본 발명의 실시예에 따른 확장 자막 데이터가 합성된 멀티미디어 콘텐츠의 예시도이다.10 is an exemplary diagram of multimedia content synthesized with extended caption data according to an embodiment of the present invention.
도 11은 본 발명의 실시예에 따른 자막 생성기 및 자막 합성기의 입출력도이다.11 is an input and output diagram of a caption generator and a caption synthesizer according to an embodiment of the present invention.
도 12는 본 발명의 실시예에 따른 자막 생성기의 입출력도이다.12 is an input / output diagram of a caption generator according to an embodiment of the present invention.
도 13은 본 발명의 실시예에 따른 자막 생성기의 구성도이다.13 is a block diagram of a caption generator according to an embodiment of the present invention.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. Advantages and features of the present invention, and methods for achieving them will be clarified with reference to embodiments described below in detail together with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below, but may be implemented in various different forms, only the present embodiments allow the disclosure of the present invention to be complete, and are common in the technical field to which the present invention pertains. It is provided to fully inform the skilled person of the scope of the present invention, and the present invention is only defined by the scope of the claims.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.The terminology used herein is for describing the embodiments and is not intended to limit the present invention. In this specification, the singular form also includes the plural form unless otherwise specified in the phrase. As used herein, “comprises” and / or “comprising” does not exclude the presence or addition of one or more other components other than the components mentioned. Throughout the specification, the same reference numerals refer to the same components, and “and / or” includes each and every combination of one or more of the mentioned components. Although "first", "second", etc. are used to describe various components, it goes without saying that these components are not limited by these terms. These terms are only used to distinguish one component from another component. Therefore, it goes without saying that the first component mentioned below may be the second component within the technical spirit of the present invention.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.Unless otherwise defined, all terms (including technical and scientific terms) used in the present specification may be used as meanings commonly understood by those skilled in the art to which the present invention pertains. In addition, terms defined in the commonly used dictionary are not ideally or excessively interpreted unless explicitly defined.
도 1 내지 도 11에서는 멀티미디어 콘텐츠를 수신하여 실시간으로 기본 자막 데이터와 확장 자막 데이터를 생성하는 시스템을 기술하고, 도 12 내지 도 13에서는 콘텐츠 제작사에서 이미 생성한 기본 자막 데이터와 멀티미디어 콘텐츠를 수신하여 확장 자막 데이터를 생성하는 시스템을 기술한다.1 to 11 describe a system for generating basic subtitle data and extended subtitle data in real time by receiving multimedia content, and in FIGS. 12 to 13, receiving and expanding basic subtitle data and multimedia content already generated by a content production company A system for generating subtitle data is described.
멀티미디어 콘텐츠는 정보를 디지털화하여 정보기기로 생산, 유통, 소비되는 형태의 콘텐츠로써, 드라마, 영화, 뉴스, 애니메이션, 교육 프로그램, 게임 등이 있고, 오디오 데이터와 비디오 데이터로 구성된다.Multimedia content is digitized information that is produced, distributed, and consumed by information equipment, and includes drama, movies, news, animation, educational programs, and games, and is composed of audio data and video data.
이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.
도 1은 본 발명의 실시예에 따른 자막 생성기(1000)의 입출력도이다.1 is an input and output diagram of the caption generator 1000 according to an embodiment of the present invention.
도 1을 참조하면, 자막 생성기(1000)는 멀티미디어 콘텐츠를 수신하고, 확장 자막 데이터를 생성한다.Referring to FIG. 1, the caption generator 1000 receives multimedia content and generates extended caption data.
자막 생성기(1000)는 콘텐츠 관리 서버로부터 오디오 데이터와 비디오 데이터를 포함하는 멀티미디어 콘텐츠를 수신하고, 멀티미디어 콘텐츠를 이용하여 확장 자막 데이터를 생성한다.The subtitle generator 1000 receives multimedia content including audio data and video data from the content management server, and generates extended subtitle data using the multimedia content.
콘텐츠 관리 서버는 멀티미디어 콘텐츠 제작사에 의해 운영되며, 멀티미디어 콘텐츠 및 기본 자막 데이터를 관리 및 저장한다. 콘텐츠 관리 서버는 멀티미디어 콘텐츠 만을 자막 생성기(1000)에 송신할 수 있고, 멀티미디어 콘텐츠와 콘텐츠 제작사에 의해 제작된 기본 자막 데이터를 동시에 자막 생성기(1000)에 송신할 수도 있다.The content management server is operated by a multimedia content production company, and manages and stores multimedia content and basic subtitle data. The content management server may transmit only the multimedia content to the subtitle generator 1000, and may simultaneously transmit the multimedia content and the basic subtitle data produced by the content producer to the subtitle generator 1000.
자막 생성기(1000)는 멀티미디어 콘텐츠를 소정의 규칙에 의해 데이터를 가공하여 화자의 감정 정보가 반영된 확장 자막 데이터를 생성할 수 있다.The caption generator 1000 may process multimedia data according to a predetermined rule to generate extended caption data reflecting the speaker's emotion information.
도 2는 본 발명의 실시예에 따른 자막 생성기(1000)의 구성도이다.2 is a block diagram of a caption generator 1000 according to an embodiment of the present invention.
도 2를 참조하면, 자막 생성기(1000)는 기본 자막 데이터 생성기(1100), 음성 인식 처리기(1200), 안면 인식 처리기(1300), 화자 정보 생성기(1400), 감정 정보 생성기(1500), 확장 자막 데이터 생성기(1600) 및 데이터베이스(1700)를 포함한다.Referring to FIG. 2, the subtitle generator 1000 includes a basic subtitle data generator 1100, a speech recognition processor 1200, a facial recognition processor 1300, a speaker information generator 1400, an emotion information generator 1500, and extended subtitles. Data generator 1600 and database 1700.
기본 자막 데이터 생성기(1100)는 오디오 데이터를 수신하고, 오디오 데이터를 이용하여 기본 자막 데이터를 생성한다. 기본 자막 데이터 생성기(1100)는 멀티미디어 콘텐츠 중 오디오 데이터를 수신하고, 오디오 데이터를 소정의 규칙에 의해 가공하여 기본 자막 데이터를 생성한다.The basic caption data generator 1100 receives audio data and generates basic caption data using the audio data. The basic subtitle data generator 1100 receives audio data among multimedia contents, and processes the audio data according to a predetermined rule to generate basic subtitle data.
음성 인식 처리기(1200)는 오디오 데이터를 수신하고, 오디오 데이터를 이용하여 음성 인식에 의한 화자 캐릭터 식별자 및 감정 분류 정보를 생성한다. 음성 인식 처리기(1200)는 멀티미디어 콘텐츠 중 오디오 데이터를 수신하고, 오디오 데이터를 소정의 규칙에 의해 가공하여 화자 캐릭터 식별자 및 감정 분류 정보를 생성한다.The speech recognition processor 1200 receives audio data and generates speaker character identifiers and emotion classification information by speech recognition using the audio data. The speech recognition processor 1200 receives audio data among multimedia contents, and processes the audio data according to predetermined rules to generate speaker character identifiers and emotion classification information.
안면 인식 처리기(1300)는 비디오 데이터를 수신하고, 비디오 데이터를 이용하여 안면 인식에 의한 등장 캐릭터 정보 및 감정 분류 정보를 생성한다. 안면 인식 처리기(1300)는 멀티미디어 콘텐츠 중 비디오 데이터를 수신하고, 비디오 데이터를 소정의 규칙에 의해 가공하여 등장 캐릭터 정보 및 감정 분류 정보를 생성한다.The facial recognition processor 1300 receives video data, and generates character information and emotion classification information by facial recognition using the video data. The facial recognition processor 1300 receives video data among multimedia contents, and processes the video data according to predetermined rules to generate character information and emotion classification information.
화자 정보 생성기(1400)는 화자 캐릭터 식별자 및 등장 캐릭터 정보를 수신하고, 화자 정보를 생성한다. 화자 정보 생성기(1400)는 음성 인식 처리기(1200)로부터 화자 캐릭터 식별자를 수신하고, 안면 인식 처리기(1300)로부터 등장 캐릭터 정보를 수신하고, 화자 캐릭터 식별자 및 등장 캐릭터 정보를 소정의 규칙에 의해 가공하여 화자 정보를 생성한다.The speaker information generator 1400 receives the speaker character identifier and the character information, and generates speaker information. The speaker information generator 1400 receives the speaker character identifier from the speech recognition processor 1200, receives the character information from the facial recognition processor 1300, and processes the speaker character identifier and the character information according to predetermined rules. Generate speaker information.
감정 정보 생성기(1500)는 음성 인식에 의한 감정 분류 정보, 안면 인식에 의한 감정 분류 정보 및 화자 정보를 수신하고, 감정 정보를 생성한다. 감정 정보 생성기(1500)는 음성 인식 처리기(1200)로부터 음성 인식에 의한 감정 분류 정보를 수신하고, 안면 인식 처리기(1300)로부터 안면 인식에 의한 감정 분류 정보를 수신하고, 음성 인식 및 안면 인식에 의한 감정 분류 정보를 소정의 규칙에 의해 가공하여 감정 정보를 생성한다.The emotion information generator 1500 receives emotion classification information by voice recognition, emotion classification information by face recognition, and speaker information, and generates emotion information. The emotion information generator 1500 receives emotion classification information by voice recognition from the speech recognition processor 1200, receives emotion classification information by face recognition from the facial recognition processor 1300, and performs voice recognition and facial recognition. The emotion classification information is processed according to a predetermined rule to generate emotion information.
확장 자막 데이터 생성기(1600)는 기본 자막 데이터, 화자 정보 및 감정 정보를 수신하고, 확장 자막 데이터를 생성한다. 확장 자막 데이터 생성기(1600)는 기본 자막 데이터 생성기(1100)로부터 기본 자막 데이터를 수신하고, 화자 정보 생성기(1400)로부터 화자 정보를 수신하고, 감정 정보 생성기(1500)로부터 감정 정보를 수신하고, 기본 자막 데이터와 화자 정보와 감정 정보를 소정의 규칙에 의해 가공하여 확장 자막 데이터를 생성한다.The extended caption data generator 1600 receives basic caption data, speaker information, and emotion information, and generates extended caption data. The extended caption data generator 1600 receives basic caption data from the basic caption data generator 1100, receives speaker information from the speaker information generator 1400, and receives emotion information from the emotion information generator 1500, and Extended caption data is generated by processing caption data, speaker information, and emotion information according to predetermined rules.
데이터베이스(1700)는 화자 캐릭터의 음성 정보와 감정 정보 및 등장 캐릭터의 안면 정보와 감정 정보를 저장 및 관리한다. 데이터 베이스는 멀티미디어 콘텐츠 방송 사전에 화자 캐릭터의 음성 정보와 감정 정보 및 등장 캐릭터의 안면 정보와 감정 정보를 저장 및 관리할 수 있고, 멀티미디어 콘텐츠 방송 중 실시간으로 화자 캐릭터의 음성 정보와 감정 정보 및 등장 캐릭터의 안면 정보와 감정 정보를 저장 및 관리할 수 있다.The database 1700 stores and manages voice information and emotion information of the speaker character and facial information and emotion information of the character. The database can store and manage the voice information and emotion information of the speaker character and the facial information and emotion information of the character in advance in broadcasting the multimedia content, and the voice information and emotion information and the character of the speaker character in real time during the multimedia content broadcast. Can store and manage facial information and emotion information.
데이터베이스(1700)는 일정 시간 동안 특정 화자가 반복적 또는 주기적으로 등장 시에 멀티미디어 콘텐츠로부터 자동으로 화자 캐릭터의 음성 정보와 감정 정보 및 등장 캐릭터의 안면 정보와 감정 정보를 자막 생성기(1000)로부터 수신하여 저장 및 관리한다.The database 1700 automatically receives and stores voice information and emotion information of the speaker character and facial information and emotion information of the character from the subtitle generator 1000 from multimedia contents when a specific speaker repeatedly or periodically appears for a certain period of time. And manage.
도 3은 본 발명의 실시예에 따른 기본 자막 데이터 생성기(1100) 및 음성 인식 처리기(1200)의 입출력도이다.3 is an input / output diagram of the basic caption data generator 1100 and the speech recognition processor 1200 according to an embodiment of the present invention.
도 3을 참조하면, 기본 자막 데이터 생성기(1100)는 오디오 데이터를 수신하고, 기본 자막 데이터를 생성하고, 음성 인식 처리기(1200)는 오디오 데이터를 수신하고, 화자 캐릭터 식별자를 생성한다.Referring to FIG. 3, the basic caption data generator 1100 receives audio data, generates basic caption data, and the voice recognition processor 1200 receives audio data, and generates a speaker character identifier.
기본 자막 데이터 생성기(1100)는 오디오 데이터를 수신하고, 오디오 데이터를 이용하여 기본 자막 데이터를 생성한다. 기본 자막 데이터는 오디오 데이터로부터 검출된 문자열, 시작 시점의 정보를 포함한다.The basic caption data generator 1100 receives audio data and generates basic caption data using the audio data. The basic subtitle data includes character strings detected from the audio data and information at the start time.
음성 인식 처리기(1200)는 오디오 데이터를 수신하고, 오디오 데이터를 이용하여 음성 인식에 의한 화자 캐릭터 식별자 및 감정 분류 정보를 생성한다. 화자 캐릭터 식별자는 오디오 데이터 상에서 발언하고 있는 캐릭터, 등장 인물 등을 규정하기 위한 특정 기호, 아이콘 또는 이미지일 수 있다. 감정 분류 정보는 화자의 감정을 분류한 정보로써, 기쁨 슬픔, 분노 등 일 수 있다.The speech recognition processor 1200 receives audio data and generates speaker character identifiers and emotion classification information by speech recognition using the audio data. The speaker character identifier may be a specific symbol, icon, or image for defining a character, character, or the like speaking on the audio data. The emotion classification information is information that classifies the emotions of the speaker, and may be joy, sadness, anger, and the like.
음성 인식 처리기(1200)는 오디오 데이터의 음성 정보를 음성 인식하고, 데이터베이스(1700)와 연동하여 화자 캐릭터 식별자 및 감정 분류 정보를 생성한다. 음성 인식 처리기(1200)는 멀티미디어 콘텐츠의 오디오 데이터로부터 음성 인식된 음성 정보가 데이터베이스(1700)의 음성 정보와 소정의 기준 이상 유사한 경우, 데이터베이스(1700)의 음성 정보에 상응하는 화자 캐릭터를 인식하여 화자 캐릭터 식별자를 생성한다. 또한, 음성 인식 처리기(1200)는 멀티미디어 콘텐츠의 오디오 데이터로부터 음성 인식된 음성 정보가 데이터베이스(1700)의 음성 정보와 소정의 기준 이상 유사한 경우, 데이터베이스(1700)의 음성 정보에 상응하는 감정 정보를 인식하여 감정 분류 정보를 생성한다.The voice recognition processor 1200 recognizes voice information of the audio data, and generates speaker character identifiers and emotion classification information in association with the database 1700. The voice recognition processor 1200 recognizes a speaker character corresponding to the voice information of the database 1700 when the voice information recognized from the audio data of the multimedia content is similar to or more than a predetermined criterion as the voice information of the database 1700, thereby recognizing the speaker character. Create a character identifier. In addition, the voice recognition processor 1200 recognizes emotion information corresponding to the voice information in the database 1700 when the voice information recognized from the audio data of the multimedia content is similar to or more than a predetermined criterion as the voice information in the database 1700. To generate emotion classification information.
도 4는 본 발명의 실시예에 따른 안면 인식 처리기(1300)의 입출력도이다.4 is an input / output diagram of the facial recognition processor 1300 according to an embodiment of the present invention.
도 4를 참조하면, 안면 인식 처리기(1300)는 비디오 데이터를 수신하고, 등장 캐릭터 정보 및 감정 분류 정보를 생성한다.Referring to FIG. 4, the facial recognition processor 1300 receives video data and generates character information and emotion classification information.
안면 인식 처리기(1300)는 비디오 데이터를 수신하고, 비디오 데이터를 이용하여 안면 인식에 의한 등장 캐릭터 정보 및 감정 분류 정보를 생성한다. 등장 캐릭터 정보는 등장 캐릭터 수, 등장 캐릭터 식별자, 위치를 포함한다. 또한, 감정 분류 정보는 등장 캐릭터의 감정을 분류한 정보로써, 기쁨 슬픔, 분노 등 일 수 있다.The facial recognition processor 1300 receives video data, and generates character information and emotion classification information by facial recognition using the video data. The character information includes the number of characters, the character identifier, and the location. Also, the emotion classification information is information that classifies emotions of the character of the character, and may be joy, sadness, anger, and the like.
안면 인식 처리기(1300)는 비디오 데이터의 안면 정보를 안면 인식하고, 데이터베이스(1700)와 연동하여 등장 캐릭터 정보 및 감정 분류 정보를 생성한다. 안면 인식 처리기(1300)는 멀티미디어 콘텐츠의 비디오 데이터로부터 안면 인식된 안면 정보가 데이터베이스(1700)의 안면 정보와 소정의 기준 이상 유사한 경우, 데이터베이스(1700)의 안면 정보에 상응하는 등장 캐릭터를 인식하여 등장 캐릭터 수, 식별자, 위치를 생성한다. 또한, 안면 인식 처리기(1300)는 멀티미디어 콘텐츠의 비디오 데이터로부터 안면 인식된 안면 정보가 데이터베이스(1700)의 안면 정보와 소정의 기준 이상 유사한 경우, 데이터베이스(1700)의 안면 정보에 상응하는 감정 정보를 인식하여 감정 분류 정보를 생성한다.The face recognition processor 1300 face-recognizes face information of the video data, and generates character information and emotion classification information in association with the database 1700. The facial recognition processor 1300 recognizes an appearance character corresponding to the facial information in the database 1700 when the facial information recognized from the video data of the multimedia content is similar to or greater than a predetermined criterion for the facial information in the database 1700. Create number of characters, identifier, and location. In addition, the facial recognition processor 1300 recognizes the emotion information corresponding to the facial information in the database 1700 when the facial information recognized from the video data of the multimedia content is similar to or greater than a predetermined criterion with the facial information in the database 1700 To generate emotion classification information.
도 5는 본 발명의 실시예에 따른 화자 정보 생성기(1400)의 입출력도이다.5 is an input / output diagram of the speaker information generator 1400 according to an embodiment of the present invention.
도 5를 참조하면, 화자 정보 생성기(1400)는 화자 캐릭터 식별자 및 등장 캐릭터 정보를 수신하고, 화자 정보를 생성한다.Referring to FIG. 5, the speaker information generator 1400 receives speaker character identifiers and character information, and generates speaker information.
화자 정보 생성기(1400)는 화자 캐릭터 식별자 및 등장 캐릭터 정보를 수신하고, 화자 정보를 생성한다.The speaker information generator 1400 receives the speaker character identifier and the character information, and generates speaker information.
화자 정보는 등장 캐릭터에 화자가 포함되는 경우, 화자 캐릭터 식별자 및 위치이고, 화자가 장면에 등장하지 않는 경우, 화자 캐릭터 식별자이다. 화자 정보 생성기(1400)는 화자 캐릭터 식별자와 등장 캐릭터 식별자가 소정의 기준 이상 유사한 경우, 등장 캐릭터에 화자가 포함된 것으로 판단하여, 화자 캐릭터 식별자와 위치의 화자 정보를 생성한다. 또한, 화자 정보 생성기(1400)는 화자 캐릭터 식별자와 등장 캐릭터 식별자가 소정의 기준 미만으로 유사한 경우, 화자가 장면에 등장하지 않는 것으로 판단하여, 화자 캐릭터 식별자의 화자 정보를 생성한다.The speaker information is a speaker character identifier and location when a speaker is included in the character, and is a speaker character identifier when the speaker does not appear in the scene. The speaker information generator 1400 determines that a speaker is included in the character, if the speaker character identifier and the character identifier are similar to or above a predetermined criterion, and generates speaker information of the speaker character identifier and location. In addition, the speaker information generator 1400 determines that the speaker does not appear in the scene when the speaker character identifier and the character identifier are similar below a predetermined criterion, and generates speaker information of the speaker character identifier.
도 6은 본 발명의 실시예에 따른 감정 정보 생성기(1500)의 입출력도이다.6 is an input / output diagram of the emotion information generator 1500 according to the embodiment of the present invention.
도 6을 참조하면, 감정 정보 생성기(1500)는 음성 인식에 의한 감정 분류 정보, 안면 인식에 의한 감정 분류 정보 및 화자 정보를 수신하고, 감정 정보를 생성한다.Referring to FIG. 6, the emotion information generator 1500 receives emotion classification information by voice recognition, emotion classification information by face recognition, and speaker information, and generates emotion information.
감정 정보는 등장 캐릭터에 화자가 포함되는 경우, 음성 인식 및 안면 인식 결과를 조합한 정보이고, 화자가 장면에 등장하지 않는 경우, 음성 인식 결과를 반영한 정보이다. 감정 정보 생성기(1500)는 화자 캐릭터 식별자와 등장 캐릭터 식별자가 소정의 기준 이상 유사한 경우, 등장 캐릭터에 화자가 포함된 것으로 판단하여, 음성 인식에 의한 감정 분류 정보와 안면 인식에 의한 감정 분류 정보를 조합하여 감정 정보를 생성한다. 또한, 감정 정보 생성기(1500)는 화자 캐릭터 식별자와 등장 캐릭터 식별자가 소정의 기준 미만으로 유사한 경우, 화자가 장면에 등장하지 않는 것으로 판단하여, 음성 인식에 의한 감정 분류 정보를 이용하여 감정 정보를 생성한다.The emotion information is information that combines the results of speech recognition and facial recognition when the character includes a speaker, and information that reflects the results of speech recognition when the speaker does not appear in the scene. The emotion information generator 1500 determines if the speaker character identifier and the character identifier are similar to or above a predetermined criterion, determines that the character includes a speaker, and combines emotion classification information by voice recognition and emotion classification information by facial recognition. To generate emotion information. In addition, the emotion information generator 1500 determines that the speaker does not appear in the scene when the speaker character identifier and the appearance character identifier are similar below a predetermined criterion, and generates emotion information using emotion classification information by voice recognition. do.
도 7은 본 발명의 실시예에 따른 확장 자막 데이터 생성기(1600)의 입출력도이다.7 is an input / output diagram of the extended caption data generator 1600 according to an embodiment of the present invention.
도 7을 참조하면, 확장 자막 데이터 생성기(1600)는 기본 자막 데이터, 화자 정보 및 감정 정보를 수신하고, 확장 자막 데이터를 생성한다.Referring to FIG. 7, the extended caption data generator 1600 receives basic caption data, speaker information, and emotion information, and generates extended caption data.
확장 자막 데이터 생성기(1600)는 기본 자막 데이터, 화자 정보 및 감정 정보를 수신하고, 확장 자막 데이터를 생성한다. 확장 자막 데이터는 문자열, 시작 시점, 화자 캐릭터 식별자, 위치 및 감정 정보에 상응하는 자막 그래픽 객체를 포함하고, 멀티미디어 콘텐츠와 결합된다.The extended caption data generator 1600 receives basic caption data, speaker information, and emotion information, and generates extended caption data. The extended subtitle data includes a subtitle graphic object corresponding to a character string, a starting point, a speaker character identifier, location and emotion information, and is combined with multimedia content.
확장 자막 데이터는 멀티미디어 콘텐츠의 자막이 출력되는 모든 시작 시점 마다 문자열, 화자 캐릭터 식별자, 등장 캐릭터 위치, 글자 종류, 글자 크기, 글자 색, 그래픽 객체의 형태, 그래픽 객체의 크기 및 그래픽 객체의 바탕색을 달리하여 문자열 만을 단순히 출력하는 것이 아닌 화자의 감정이 반영되도록 확장 자막 데이터를 구성할 수 있다.The extended subtitle data is different for every starting point when subtitles of multimedia contents are output, the character string, the speaker character identifier, the character position of the characters, the character type, the font size, the font color, the shape of the graphic object, the size of the graphic object, and the background color of the graphic object. Thus, extended subtitle data can be configured to reflect the speaker's emotions rather than simply outputting a string.
자막 그래픽 객체는 문자열이 화면에 출력되게 하는 도구로써, 감정 정보에 상응하는 글자 종류, 글자 크기, 글자 색, 그래픽 객체의 형태, 그래픽 객체의 크기 및 그래픽 객체의 바탕색으로 출력된다. 자막 그래픽 객체는 도 10에서 자세히 설명된다.The subtitle graphic object is a tool for displaying a character string on the screen, and is output as a character type, a font size, a font color, a graphic object shape, a graphic object size, and a graphic object background color corresponding to emotion information. The subtitle graphic object is described in detail in FIG. 10.
도 8은 본 발명의 실시예에 따른 그래픽 객체를 이용한 자막 생성 방법의 순서도이다.8 is a flowchart of a subtitle generation method using a graphic object according to an embodiment of the present invention.
도 8을 참조하면, 그래픽 객체를 이용한 자막 생성 방법은, 기본 자막 데이터 생성 단계, 음성 인식 처리 단계, 안면 인식 처리 단계, 화자 정보 생성 단계, 감정 정보 생성 단계 및 확장 자막 데이터 생성 단계를 포함한다.Referring to FIG. 8, a subtitle generation method using a graphic object includes a basic subtitle data generation step, a voice recognition processing step, a face recognition processing step, speaker information generation step, emotion information generation step, and extended subtitle data generation step.
단계 S5100에서, 콘텐츠 관리 서버로부터 멀티미디어 콘텐츠 중 오디오 데이터를 수신하고, 오디오 데이터를 이용하여 기본 자막 데이터를 생성한다.In step S5100, audio data among multimedia contents is received from the content management server, and basic subtitle data is generated using the audio data.
단계 S5200에서, 콘텐츠 관리 서버로부터 멀티미디어 콘텐츠 중 오디오 데이터를 수신하고, 오디오 데이터를 이용하여 음성 인식에 의한 화자 캐릭터 식별자 및 감정 분류 정보를 생성한다.In step S5200, audio data among multimedia contents is received from the content management server, and speaker character identifiers and emotion classification information by voice recognition are generated using the audio data.
단계 S5300에서, 콘텐츠 관리 서버로부터 멀티미디어 콘텐츠 중 비디오 데이터를 수신하고, 비디오 데이터를 이용하여 안면 인식에 의한 등장 캐릭터 정보 및 감정 분류 정보를 생성한다.In step S5300, video data among multimedia contents is received from the content management server, and character information and emotion classification information by facial recognition are generated using the video data.
단계 S5400에서, 화자 캐릭터 식별자 및 등장 캐릭터 정보를 수신하고, 화자 정보를 생성한다.In step S5400, the speaker character identifier and the character information are received, and the speaker information is generated.
단계 S5500에서, 음성 인식에 의한 감정 분류 정보, 안면 인식에 의한 감정 분류 정보 및 화자 정보를 수신하고, 감정 정보를 생성한다.In step S5500, emotion classification information by voice recognition, emotion classification information by face recognition, and speaker information are received, and emotion information is generated.
단계 S5600에서, 기본 자막 데이터, 화자 정보 및 감정 정보를 수신하고, 확장 자막 데이터를 생성한다.In step S5600, basic subtitle data, speaker information, and emotion information are received, and extended subtitle data is generated.
도 9는 본 발명의 실시예에 따른 자막 합성기(2000)의 입출력도이다.9 is an input / output diagram of the caption synthesizer 2000 according to an embodiment of the present invention.
도 9를 참조하면, 자막 합성기(2000)는 멀티미디어 콘텐츠 및 확장 자막 데이터를 수신하고, 확장 자막 데이터가 합성된 멀티미디어 콘텐츠를 생성한다.Referring to FIG. 9, the subtitle synthesizer 2000 receives multimedia content and extended subtitle data, and generates multimedia content synthesized with the extended subtitle data.
자막 합성기(2000)는 자막 생성기(1000)로부터 확장 자막 데이터를 수신하고, 멀티미디어 콘텐츠 및 확장 자막 데이터를 합성한다. 확장 자막 데이터가 합성된 멀티미디어 콘텐츠는 도 10에서 자세히 설명한다.The subtitle synthesizer 2000 receives the extended subtitle data from the subtitle generator 1000 and synthesizes the multimedia content and the extended subtitle data. The multimedia content in which the extended subtitle data is synthesized will be described in detail in FIG. 10.
자막 합성기(2000)는 멀티미디어 콘텐츠와 확장 자막 데이터가 서로 대응되는지를 판단하기 위해서 멀티미디어 콘텐츠의 식별자와 확장 자막 데이터의 식별자를 비교하여 서로 대응되는 경우에 멀티미디어 콘텐츠와 확장 자막 데이터를 합성한다.In order to determine whether the multimedia content and the extended subtitle data correspond to each other, the subtitle synthesizer 2000 compares the identifier of the multimedia content and the identifier of the extended subtitle data and synthesizes the multimedia content and the extended subtitle data when they correspond to each other.
도 10은 본 발명의 실시예에 따른 확장 자막 데이터가 합성된 멀티미디어 콘텐츠의 예시도이다.10 is an exemplary diagram of multimedia content synthesized with extended caption data according to an embodiment of the present invention.
도 10의 (a)를 참조하면, 화자가 영상에 없는 경우 확장 자막 데이터가 합성된 멀티미디어 콘텐츠의 예시도이다.Referring to (a) of FIG. 10, it is an exemplary view of multimedia content in which extended subtitle data is synthesized when the speaker is not present in the video.
화자가 영상에 없는 멀티미디어 콘텐츠에서 단순히 영상 하단에 자막만 나온다면 청각 장애인은 어떤 등장 캐릭터가 자막을 발언하고 있는지 판단하기 어렵다. 따라서, 본 발명은 화자 캐릭터 식별자를 영상에 출력시키고, 화자 캐릭터 식별자의 위치에 확장 자막 데이터를 출력시킨다. 확장 자막 데이터의 감정 정보에 상응하는 자막 그래픽 객체는 말풍선 모양으로 영상에 출력될 수 있고, 화자의 감정 정보에 상응하도록 글자 종류, 글자 크기, 글자 색, 글자 굵기, 그래픽 객체의 형태, 그래픽 객체의 크기 및 그래픽 객체의 바탕색이 출력될 수 있다. 예를 들어, 화자의 감정 정보가 분노인 경우, 글자 크기를 소정의 기준 이상으로 크게 할 수 있고, 글자 색을 빨간색으로 글자의 굵기를 두껍게로 할 수 있고, 자막 그래픽 객체의 형태를 뾰족한 모양으로 할 수 있다.It is difficult for the hearing impaired to determine which character is speaking in the subtitle if the speaker simply displays the subtitle at the bottom of the video in the multimedia content that the speaker does not have. Accordingly, the present invention outputs the speaker character identifier to the image, and outputs extended caption data at the location of the speaker character identifier. The subtitle graphic object corresponding to the emotion information of the extended subtitle data may be output on the image in the form of a speech bubble, and the text type, text size, text color, text thickness, shape of the graphic object, and graphic object correspond to the speaker's emotion information. The size and background color of the graphic object can be output. For example, when the speaker's emotion information is anger, the font size can be increased to a predetermined standard or more, the font color is red, the font thickness is thick, and the subtitle graphic object is in a sharp shape. can do.
화자의 감정 정보에 상응하는 글자 종류, 글자 크기, 글자 색, 글자 굵기, 그래픽 객체의 형태, 그래픽 객체의 크기 및 그래픽 객체의 바탕색은 자막 생성 시스템의 관리자에 의해 설정될 수 있고, 사용자인 청각 장애인의 취향에 따라 달리 설정될 수 있다.The text type, text size, text color, text thickness, graphic object shape, graphic object size, and graphic object background color corresponding to the speaker's emotion information can be set by the administrator of the subtitle generation system, and the user is a hearing impaired person. It can be set differently according to the taste of the.
도 10의 (b)를 참조하면, 복수의 화자가 영상에 있는 경우 확장 자막 데이터가 합성된 멀티미디어 콘텐츠의 예시도이다.Referring to (b) of FIG. 10, it is an exemplary view of multimedia content in which extended subtitle data is synthesized when a plurality of speakers are present in an image.
복수의 화자가 멀티미디어 콘텐츠에서 단순히 영상 하단에 자막만 나온다면 청각 장애인은 어떤 등장 캐릭터가 자막을 발언하고 있는지 판단하기 어렵다. 따라서, 본 발명은 확장 자막 데이터에 대응되는 등장 캐릭터를 판단하고, 해당 등장 캐릭터의 위치에 확장 자막 데이터를 출력할 수 있다.If a plurality of speakers simply subtitles at the bottom of the video in the multimedia content, it is difficult for the hearing impaired to determine which character is speaking. Accordingly, the present invention can determine the appearance character corresponding to the extended caption data, and output the extended caption data at the position of the corresponding character.
도 11은 본 발명의 실시예에 따른 자막 생성기(1000) 및 자막 합성기(2000)의 입출력도이다.11 is an input and output diagram of the caption generator 1000 and the caption synthesizer 2000 according to an embodiment of the present invention.
도 11을 참조하면, 자막 생성기(1000)는 멀티미디어 콘텐츠를 수신하고, 확장 자막 데이터를 생성하고, 자막 합성기(2000)는 멀티미디어 콘텐츠 및 확장 자막 데이터를 수신하고, 확장 자막 데이터가 합성된 멀티미디어 콘텐츠를 생성한다.Referring to FIG. 11, the subtitle generator 1000 receives multimedia content, generates extended subtitle data, and the subtitle synthesizer 2000 receives multimedia content and extended subtitle data, and displays multimedia content synthesized by extended subtitle data. To create.
자막 생성기(3000), 자막 합성기, 멀티미디어 콘텐츠, 확장 자막 데이터 및 확장 자막 데이터가 합성된 멀티미디어 콘텐츠에 대해서는 도면 1 내지 10에 기재되어 있으므로, 도 11의 설명에서는 생략한다.The subtitle generator 3000, the subtitle synthesizer, the multimedia content, the extended subtitle data, and the multimedia content in which the extended subtitle data is synthesized are described in FIGS. 1 to 10, and thus will be omitted in the description of FIG.
도 12 및 13의 자막 생성기(3000)는 콘텐츠 제작사에서 이미 생성한 기본 자막 데이터와 멀티미디어 콘텐츠를 수신하여 확장 자막 데이터를 생성하는 시스템으로써, 기본 자막 데이터를 콘텐츠 제작사로부터 수신한다는 점에서 도 1 내지 10의 자막 생성기(3000)와 다르고, 용어의 설명은 동일함으로 이하에서는 간략히 기재한다.The subtitle generator 3000 of FIGS. 12 and 13 is a system for generating extended subtitle data by receiving basic subtitle data and multimedia content already generated by a content production company. FIGS. 1 to 10 in that the basic subtitle data is received from a content producer It is different from the subtitle generator 3000 of, and the description of terms is the same, and thus will be briefly described below.
도 12는 본 발명의 실시예에 따른 자막 생성기(3000)의 입출력도이다.12 is an input / output diagram of the caption generator 3000 according to an embodiment of the present invention.
도 12를 참조하면, 자막 생성기(3000)는 멀티미디어 콘텐츠 및 기본 자막 데이터를 수신하고, 확장 자막 데이터를 생성한다.Referring to FIG. 12, the subtitle generator 3000 receives multimedia content and basic subtitle data, and generates extended subtitle data.
자막 생성기(3000)는 콘텐츠 관리 서버로부터 오디오 데이터와 비디오 데이터를 포함하는 멀티미디어 콘텐츠 및 기본 자막 데이터를 수신하고, 멀티미디어 콘텐츠 및 기본 자막 데이터를 이용하여 확장 자막 데이터를 생성한다.The subtitle generator 3000 receives multimedia content and basic subtitle data including audio data and video data from the content management server, and generates extended subtitle data using the multimedia content and the basic subtitle data.
기본 자막 데이터는 문자열, 시작 시점의 정보를 포함한다.The basic subtitle data includes a character string and information at a starting point.
자막 합성기는 자막 생성기(3000)로부터 확장 자막 데이터를 수신하고, 멀티미디어 콘텐츠 및 확장 자막 데이터를 합성한다.The subtitle synthesizer receives extended subtitle data from the subtitle generator 3000 and synthesizes multimedia content and extended subtitle data.
도 13은 본 발명의 실시예에 따른 자막 생성기(3000)의 구성도이다.13 is a block diagram of a caption generator 3000 according to an embodiment of the present invention.
도 13을 참조하면, 자막 생성기(3000)는 음성 인식 처리기(3100), 안면 인식 처리기(3200), 화자 정보 생성기(3300), 감정 정보 생성기(3400), 확장 자막 데이터 생성기(3500) 및 데이터베이스(3600)를 포함한다.Referring to FIG. 13, the subtitle generator 3000 includes a speech recognition processor 3100, a facial recognition processor 3200, a speaker information generator 3300, an emotion information generator 3400, an extended subtitle data generator 3500 and a database ( 3600).
음성 인식 처리기(3100)는 오디오 데이터를 수신하고, 오디오 데이터를 이용하여 음성 인식에 의한 화자 캐릭터 식별자 및 감정 분류 정보를 생성한다.The voice recognition processor 3100 receives audio data, and generates speaker character identifiers and emotion classification information by voice recognition using the audio data.
음성 인식 처리기(3100)는 데이터베이스(3600)와 연동하여 화자 캐릭터 식별자 및 감정 분류 정보를 생성한다.The speech recognition processor 3100 generates a speaker character identifier and emotion classification information in cooperation with the database 3600.
안면 인식 처리기(3200)는 비디오 데이터를 수신하고, 비디오 데이터를 이용하여 안면 인식에 의한 등장 캐릭터 정보 및 감정 분류 정보를 생성한다.The facial recognition processor 3200 receives video data, and generates character information and emotion classification information by facial recognition using the video data.
안면 인식 처리기(3200)는 데이터베이스(3600)와 연동하여 등장 캐릭터 정보 및 감정 분류 정보를 생성한다.The facial recognition processor 3200 generates appearance character information and emotion classification information in conjunction with the database 3600.
등장 캐릭터 정보는 등장 캐릭터 수, 등장 캐릭터 식별자, 위치를 포함한다.The character information includes the number of characters, the character identifier, and the location.
화자 정보 생성기(3300)는 화자 캐릭터 식별자 및 등장 캐릭터 정보를 수신하고, 화자 정보를 생성한다.The speaker information generator 3300 receives the speaker character identifier and the character information, and generates speaker information.
화자 정보는 등장 캐릭터에 화자가 포함되는 경우, 화자 캐릭터 식별자 및 위치이고, 화자가 장면에 등장하지 않는 경우, 화자 캐릭터 식별자이다.The speaker information is a speaker character identifier and location when a speaker is included in the character, and is a speaker character identifier when the speaker does not appear in the scene.
감정 정보 생성기(3400)는 음성 인식에 의한 감정 분류 정보, 안면 인식에 의한 감정 분류 정보 및 화자 정보를 수신하고, 감정 정보를 생성한다.The emotion information generator 3400 receives emotion classification information by voice recognition, emotion classification information by face recognition, and speaker information, and generates emotion information.
감정 정보는 등장 캐릭터에 화자가 포함되는 경우, 음성 인식 및 안면 인식 결과를 조합한 정보이고, 화자가 장면에 등장하지 않는 경우, 음성 인식 결과를 반영한 정보이다.The emotion information is information that combines the results of speech recognition and facial recognition when the character includes a speaker, and information that reflects the results of speech recognition when the speaker does not appear in the scene.
확장 자막 데이터 생성기(3500)는 기본 자막 데이터, 화자 정보 및 감정 정보를 수신하고, 확장 자막 데이터를 생성한다.The extended caption data generator 3500 receives basic caption data, speaker information, and emotion information, and generates extended caption data.
확장 자막 데이터는 문자열, 시작 시점, 화자 캐릭터 식별자, 위치 및 감정 정보에 상응하는 자막 그래픽 객체를 포함하고, 멀티미디어 콘텐츠와 결합된다.The extended subtitle data includes a subtitle graphic object corresponding to a character string, a starting point, a speaker character identifier, location and emotion information, and is combined with multimedia content.
자막 그래픽 객체는 감정 정보에 상응하는 글자 종류, 글자 크기, 글자 색, 그래픽 객체의 형태, 그래픽 객체의 크기 및 그래픽 객체의 바탕색으로 출력된다.The subtitle graphic object is output as text type, text size, text color, graphic object shape, graphic object size, and graphic object background color corresponding to emotion information.
데이터베이스(3600)는 화자 캐릭터의 음성 정보와 감정 정보 및 등장 캐릭터의 안면 정보와 감정 정보를 저장 및 관리한다.The database 3600 stores and manages voice information and emotion information of the speaker character, and facial information and emotion information of the character.
도 1 내지 11의 자막 생성기 및 자막 합성기와 도 12 내지 13의 자막 생성기 및 자막 합성기는 영상통화 환경에도 적용 가능하다.  The subtitle generator and subtitle synthesizer of FIGS. 1 to 11 and the subtitle generator and subtitle synthesizer of FIGS. 12 to 13 are applicable to a video call environment.
일부 실시예에서, 스마트폰 내의 애플리케이션은 영상통화 멀티미디어 콘텐츠를 영상통화 멀티미디어 콘텐츠 관리 서버로 전송하고, 영상통화 멀티미디어 콘텐츠 관리 서버의 자막 생성기 및 자막 합성기는 확장 자막 데이터가 합성된 멀티미디어 콘텐츠를 생성할 수 있다. In some embodiments, the application in the smartphone transmits the video call multimedia content to the video call multimedia content management server, and the subtitle generator and subtitle synthesizer of the video call multimedia content management server can generate multimedia content synthesized with extended subtitle data. have.
다른 일부 실시예에서, 스마트폰 내의 애플리케이션은 자막 생성기 및 자막 합성기에 상응하는 프로그램이 내장되어 있고, 자막 생성기 및 자막 합성기에 상응하는 프로그램이 확장 자막 데이터가 합성된 멀티미디어 콘텐츠를 생성할 수 있다.In some other embodiments, an application in a smartphone includes a program corresponding to a caption generator and a caption synthesizer, and a program corresponding to the caption generator and the caption synthesizer can generate multimedia content synthesized with extended caption data.
본 발명의 실시예와 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 하드웨어에 의해 실행되는 소프트웨어 모듈로 구현되거나, 또는 이들의 결합에 의해 구현될 수 있다. 소프트웨어 모듈은 RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리(Flash Memory), 하드 디스크, 착탈형 디스크, CD-ROM, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터 판독가능 기록매체에 상주할 수도 있다.The steps of a method or algorithm described in connection with an embodiment of the present invention may be implemented directly in hardware, a software module executed by hardware, or a combination thereof. The software modules may include random access memory (RAM), read only memory (ROM), erasable programmable ROM (EPROM), electrically erasable programmable ROM (EPMROM), flash memory, hard disk, removable disk, CD-ROM, or It may reside on any type of computer readable recording medium well known in the art.
이상, 첨부된 도면을 참조로 하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며, 제한적이 아닌 것으로 이해해야만 한다.The embodiments of the present invention have been described above with reference to the accompanying drawings, but a person skilled in the art to which the present invention pertains may implement the present invention in other specific forms without changing its technical spirit or essential features. You will understand. Therefore, it should be understood that the above-described embodiments are illustrative in all respects and not restrictive.

Claims (12)

  1. 콘텐츠 관리 서버로부터 오디오 데이터와 비디오 데이터를 포함하는 멀티미디어 콘텐츠를 수신하고, 상기 멀티미디어 콘텐츠를 이용하여 확장 자막 데이터를 생성하는 자막 생성기를 포함하고,And a subtitle generator that receives multimedia content including audio data and video data from a content management server, and generates extended subtitle data using the multimedia content,
    상기 자막 생성기는,The subtitle generator,
    상기 오디오 데이터를 수신하고, 상기 오디오 데이터를 이용하여 기본 자막 데이터를 생성하는 기본 자막 데이터 생성기;A basic caption data generator that receives the audio data and generates basic caption data using the audio data;
    상기 오디오 데이터를 수신하고, 상기 오디오 데이터를 이용하여 음성 인식에 의한 화자 캐릭터 식별자 및 감정 분류 정보를 생성하는 음성 인식 처리기;A voice recognition processor that receives the audio data and generates speaker character identifiers and emotion classification information by voice recognition using the audio data;
    상기 비디오 데이터를 수신하고, 상기 비디오 데이터를 이용하여 안면 인식에 의한 등장 캐릭터 정보 및 감정 분류 정보를 생성하는 안면 인식 처리기;A facial recognition processor that receives the video data and generates appearance character information and emotion classification information by facial recognition using the video data;
    상기 화자 캐릭터 식별자 및 상기 등장 캐릭터 정보를 수신하고, 화자 정보를 생성하는 화자 정보 생성기;A speaker information generator that receives the speaker character identifier and the character information and generates speaker information;
    상기 음성 인식에 의한 감정 분류 정보, 상기 안면 인식에 의한 감정 분류 정보 및 상기 화자 정보를 수신하고, 감정 정보를 생성하는 감정 정보 생성기;An emotion information generator that receives the emotion classification information by the speech recognition, the emotion classification information by the facial recognition, and the speaker information, and generates emotion information;
    상기 기본 자막 데이터, 상기 화자 정보 및 상기 감정 정보를 수신하고, 확장 자막 데이터를 생성하는 확장 자막 데이터 생성기 및 An extended caption data generator that receives the basic caption data, the speaker information, and the emotion information, and generates extended caption data;
    화자 캐릭터의 음성 정보와 감정 정보 및 등장 캐릭터의 안면 정보와 감정 정보를 저장 및 관리하는 데이터베이스를 포함하고,And a database for storing and managing voice information and emotion information of the speaker character and facial information and emotion information of the character of the character,
    상기 기본 자막 데이터는,The basic subtitle data,
    상기 오디오 데이터로부터 검출된 문자열, 시작 시점의 정보를 포함하고,A string detected from the audio data, and information on a start time point,
    상기 화자 정보는,The speaker information,
    상기 등장 캐릭터에 화자가 포함되는 경우, 상기 화자 캐릭터 식별자 및 위치이고, 상기 화자가 장면에 등장하지 않는 경우, 상기 화자 캐릭터 식별자이고,If the character includes a speaker, the speaker character identifier and location, and if the speaker does not appear in the scene, the speaker character identifier,
    상기 감정 정보는,The emotion information,
    상기 등장 캐릭터에 화자가 포함되는 경우, 상기 음성 인식 및 상기 안면 인식 결과를 조합한 정보이고, 상기 화자가 장면에 등장하지 않는 경우, 상기 음성 인식 결과를 반영한 정보이고,When the character includes a speaker, it is information combining the speech recognition and the facial recognition result, and when the speaker does not appear in the scene, it is information reflecting the speech recognition result,
    상기 확장 자막 데이터는,The extended subtitle data,
    상기 문자열, 상기 시작 시점, 상기 화자 캐릭터 식별자, 상기 위치 및 상기 감정 정보에 상응하는 자막 그래픽 객체를 포함하고, 상기 멀티미디어 콘텐츠와 결합되는,The subtitle graphic object corresponding to the character string, the start point, the speaker character identifier, the location and the emotion information, and is combined with the multimedia content,
    그래픽 객체를 이용한 자막 생성 시스템.Subtitle generation system using graphic objects.
  2. 제1 항에 있어서,According to claim 1,
    상기 자막 그래픽 객체는,The subtitle graphic object,
    상기 감정 정보에 상응하는 글자 종류, 글자 크기, 글자 색, 글자 굵기, 그래픽 객체의 형태, 그래픽 객체의 크기 및 그래픽 객체의 바탕색으로 출력되는,Character type, font size, font color, font size, graphic object size, graphic object size and graphic object color corresponding to the emotion information are output.
    그래픽 객체를 이용한 자막 생성 시스템.Subtitle generation system using graphic objects.
  3. 제1 항에 있어서,According to claim 1,
    상기 음성 인식 처리기는,The speech recognition processor,
    상기 데이터베이스와 연동하여 상기 화자 캐릭터 식별자 및 상기 감정 분류 정보를 생성하는,Generating the speaker character identifier and the emotion classification information in cooperation with the database,
    그래픽 객체를 이용한 자막 생성 시스템.Subtitle generation system using graphic objects.
  4. 제1 항에 있어서,According to claim 1,
    상기 안면 인식 처리기는,The facial recognition processor,
    상기 데이터베이스와 연동하여 상기 등장 캐릭터 정보 및 상기 감정 분류 정보를 생성하는,Generating the character information and the emotion classification information in cooperation with the database,
    그래픽 객체를 이용한 자막 생성 시스템.Subtitle generation system using graphic objects.
  5. 제1 항에 있어서,According to claim 1,
    상기 등장 캐릭터 정보는,The above character information,
    등장 캐릭터 수, 등장 캐릭터 식별자, 위치를 포함하는,Including the number of characters, character identifier, and location,
    그래픽 객체를 이용한 자막 생성 시스템.Subtitle generation system using graphic objects.
  6. 제1 항에 있어서,According to claim 1,
    자막 합성기를 더 포함하고,Further comprising a subtitle synthesizer,
    상기 자막 합성기는,The subtitle synthesizer,
    상기 자막 생성기로부터 상기 확장 자막 데이터를 수신하고, 상기 멀티미디어 콘텐츠 및 상기 확장 자막 데이터를 합성하는,Receiving the extended subtitle data from the subtitle generator, and synthesizing the multimedia content and the extended subtitle data,
    그래픽 객체를 이용한 자막 생성 시스템.Subtitle generation system using graphic objects.
  7. 콘텐츠 관리 서버로부터 오디오 데이터와 비디오 데이터를 포함하는 멀티미디어 콘텐츠 및 기본 자막 데이터를 수신하고, 상기 멀티미디어 콘텐츠 및 기본 자막 데이터를 이용하여 확장 자막 데이터를 생성하는 자막 생성기를 포함하고,And a subtitle generator that receives multimedia content and basic subtitle data including audio data and video data from a content management server, and generates extended subtitle data using the multimedia content and basic subtitle data,
    상기 자막 생성기는,The subtitle generator,
    상기 오디오 데이터를 수신하고, 상기 오디오 데이터를 이용하여 음성 인식에 의한 화자 캐릭터 식별자 및 감정 분류 정보를 생성하는 음성 인식 처리기;A voice recognition processor that receives the audio data and generates speaker character identifiers and emotion classification information by voice recognition using the audio data;
    상기 비디오 데이터를 수신하고, 상기 비디오 데이터를 이용하여 안면 인식에 의한 등장 캐릭터 정보 및 감정 분류 정보를 생성하는 안면 인식 처리기;A facial recognition processor that receives the video data and generates appearance character information and emotion classification information by facial recognition using the video data;
    상기 화자 캐릭터 식별자 및 상기 등장 캐릭터 정보를 수신하고, 화자 정보를 생성하는 화자 정보 생성기;A speaker information generator that receives the speaker character identifier and the character information and generates speaker information;
    상기 음성 인식에 의한 감정 분류 정보, 상기 안면 인식에 의한 감정 분류 정보 및 상기 화자 정보를 수신하고, 감정 정보를 생성하는 감정 정보 생성기;An emotion information generator that receives the emotion classification information by the speech recognition, the emotion classification information by the facial recognition, and the speaker information, and generates emotion information;
    상기 기본 자막 데이터, 상기 화자 정보 및 상기 감정 정보를 수신하고, 확장 자막 데이터를 생성하는 확장 자막 데이터 생성기 및An extended caption data generator that receives the basic caption data, the speaker information, and the emotion information, and generates extended caption data;
    화자 캐릭터의 음성 정보와 감정 정보 및 등장 캐릭터의 안면 정보와 감정 정보를 저장 및 관리하는 데이터베이스를 포함하고,And a database for storing and managing voice information and emotion information of the speaker character and facial information and emotion information of the character of the character,
    상기 기본 자막 데이터는,The basic subtitle data,
    문자열, 시작 시점의 정보를 포함하고,String, contains information at the beginning,
    상기 화자 정보는,The speaker information,
    상기 등장 캐릭터에 화자가 포함되는 경우, 상기 화자 캐릭터 식별자 및 위치이고, 상기 화자가 장면에 등장하지 않는 경우, 상기 화자 캐릭터 식별자이고,If the character includes a speaker, the speaker character identifier and location, and if the speaker does not appear in the scene, the speaker character identifier,
    상기 감정 정보는,The emotion information,
    상기 등장 캐릭터에 화자가 포함되는 경우, 상기 음성 인식 및 상기 안면 인식 결과를 조합한 정보이고, 상기 화자가 장면에 등장하지 않는 경우, 상기 음성 인식 결과를 반영한 정보이고,If the character includes a speaker, it is information combining the speech recognition and the facial recognition result, and if the speaker does not appear in the scene, it is information reflecting the speech recognition result,
    상기 확장 자막 데이터는,The extended subtitle data,
    상기 문자열, 상기 시작 시점, 상기 화자 캐릭터 식별자, 상기 위치 및 상기 감정 정보에 상응하는 자막 그래픽 객체를 포함하고, 상기 멀티미디어 콘텐츠와 결합되는,The subtitle graphic object corresponding to the character string, the start point, the speaker character identifier, the location and the emotion information, and is combined with the multimedia content,
    그래픽 객체를 이용한 자막 생성 시스템.Subtitle generation system using graphic objects.
  8. 제7 항에 있어서,The method of claim 7,
    상기 자막 그래픽 객체는,The subtitle graphic object,
    상기 감정 정보에 상응하는 글자 종류, 글자 크기, 글자 색, 글자 굵기, 그래픽 객체의 형태, 그래픽 객체의 크기 및 그래픽 객체의 바탕색으로 출력되는,Character type, font size, font color, font size, graphic object size, graphic object size and graphic object color corresponding to the emotion information are output.
    그래픽 객체를 이용한 자막 생성 시스템.Subtitle generation system using graphic objects.
  9. 제7 항에 있어서,The method of claim 7,
    상기 음성 인식 처리기는,The speech recognition processor,
    상기 데이터베이스와 연동하여 상기 화자 캐릭터 식별자 및 상기 감정 분류 정보를 생성하는,Generating the speaker character identifier and the emotion classification information in cooperation with the database,
    그래픽 객체를 이용한 자막 생성 시스템.Subtitle generation system using graphic objects.
  10. 제7 항에 있어서,The method of claim 7,
    상기 안면 인식 처리기는,The facial recognition processor,
    상기 데이터베이스와 연동하여 상기 등장 캐릭터 정보 및 상기 감정 분류 정보를 생성하는,Generating the character information and the emotion classification information in association with the database,
    그래픽 객체를 이용한 자막 생성 시스템.Subtitle generation system using graphic objects.
  11. 제7 항에 있어서,The method of claim 7,
    상기 등장 캐릭터 정보는,The above character information,
    등장 캐릭터 수, 등장 캐릭터 식별자, 위치를 포함하는,Including the number of characters, character identifier, and location,
    그래픽 객체를 이용한 자막 생성 시스템.Subtitle generation system using graphic objects.
  12. 제7 항에 있어서,The method of claim 7,
    자막 합성기를 더 포함하고,Further comprising a subtitle synthesizer,
    상기 자막 합성기는,The subtitle synthesizer,
    상기 자막 생성기로부터 상기 확장 자막 데이터를 수신하고, 상기 멀티미디어 콘텐츠 및 상기 확장 자막 데이터를 합성하는,Receiving the extended subtitle data from the subtitle generator, and synthesizing the multimedia content and the extended subtitle data,
    그래픽 객체를 이용한 자막 생성 시스템.Subtitle generation system using graphic objects.
PCT/KR2019/014501 2018-11-02 2019-10-30 Subtitle generation system using graphic object WO2020091431A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2018-0133664 2018-11-02
KR1020180133664A KR102136059B1 (en) 2018-11-02 2018-11-02 System for generating subtitle using graphic objects

Publications (1)

Publication Number Publication Date
WO2020091431A1 true WO2020091431A1 (en) 2020-05-07

Family

ID=70461908

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/014501 WO2020091431A1 (en) 2018-11-02 2019-10-30 Subtitle generation system using graphic object

Country Status (2)

Country Link
KR (1) KR102136059B1 (en)
WO (1) WO2020091431A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113794927A (en) * 2021-08-12 2021-12-14 维沃移动通信有限公司 Information display method and device and electronic equipment

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102523048B1 (en) * 2022-04-08 2023-04-18 조현석 Sound conversion system and method in virtual reality

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090222442A1 (en) * 2005-11-09 2009-09-03 Henry Houh User-directed navigation of multimedia search results
KR20100000256A (en) * 2008-06-24 2010-01-06 인하대학교 산학협력단 Method for displaying caption of moving picture
JP2016189158A (en) * 2015-03-30 2016-11-04 富士フイルム株式会社 Image processing apparatus, image processing method, program, and recording medium
KR20180038318A (en) * 2016-10-06 2018-04-16 주식회사 카카오 System and method for generating caption, and program of content generation
KR101900471B1 (en) * 2017-03-23 2018-09-19 주식회사 아이티엑스엠투엠 Broadcasting system inserted user reaction effect

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090009674A (en) 2007-07-20 2009-01-23 주식회사 씨엔 이지에스 Circuit structure of soc for fire-sensing

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090222442A1 (en) * 2005-11-09 2009-09-03 Henry Houh User-directed navigation of multimedia search results
KR20100000256A (en) * 2008-06-24 2010-01-06 인하대학교 산학협력단 Method for displaying caption of moving picture
JP2016189158A (en) * 2015-03-30 2016-11-04 富士フイルム株式会社 Image processing apparatus, image processing method, program, and recording medium
KR20180038318A (en) * 2016-10-06 2018-04-16 주식회사 카카오 System and method for generating caption, and program of content generation
KR101900471B1 (en) * 2017-03-23 2018-09-19 주식회사 아이티엑스엠투엠 Broadcasting system inserted user reaction effect

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113794927A (en) * 2021-08-12 2021-12-14 维沃移动通信有限公司 Information display method and device and electronic equipment

Also Published As

Publication number Publication date
KR20200050707A (en) 2020-05-12
KR102136059B1 (en) 2020-07-21

Similar Documents

Publication Publication Date Title
JP5564459B2 (en) Method and system for adding translation to a video conference
US10176366B1 (en) Video relay service, communication system, and related methods for performing artificial intelligence sign language translation services in a video relay service environment
CN110035326A (en) Subtitle generation, the video retrieval method based on subtitle, device and electronic equipment
WO2020091431A1 (en) Subtitle generation system using graphic object
EP1903453A2 (en) A method of parsing an electronic text file
WO2021132802A1 (en) Apparatus for video searching using multi-modal criteria and method thereof
US20140340467A1 (en) Method and System for Facial Recognition for a Videoconference
WO2021118179A1 (en) User terminal, video call device, video call system, and control method for same
CN110677614A (en) Information processing method, device and computer readable storage medium
EP2106121A1 (en) Subtitle generation methods for live programming
JP2017005442A (en) Content generation device and program
JP2004343488A (en) Method, system, and program for inserting caption
WO2018074658A1 (en) Terminal and method for implementing hybrid subtitle effect
WO2020235910A1 (en) Text reconstruction system and method thereof
KR20220009318A (en) Apparatus and method for video conferencing service
WO2022065537A1 (en) Video reproduction device for providing subtitle synchronization and method for operating same
JP2021090172A (en) Caption data generation device, content distribution system, video reproduction device, program, and caption data generation method
JP2001268078A (en) Communication controller, its method, providing medium and communication equipment
WO2022119119A1 (en) Multi-channel media transmission/reception method and system
WO2017051955A1 (en) Apparatus and method for applying video effect
WO2021085731A1 (en) News article-based social content service device and method
JP3254542B2 (en) News transmission device for the hearing impaired
WO2021149884A1 (en) Method for editing subtitles to which kinetic typography is applied, and electronic device therefor
CN111526431A (en) Equipment for adding captions to video and audio programs in real time
WO2022270669A1 (en) Method for providing utterance image and computing device for performing same

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19879309

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 19.08.2021)

122 Ep: pct application non-entry in european phase

Ref document number: 19879309

Country of ref document: EP

Kind code of ref document: A1