WO2021172633A1 - Method and device for recognizing moving image content, and image processing system including same - Google Patents

Method and device for recognizing moving image content, and image processing system including same Download PDF

Info

Publication number
WO2021172633A1
WO2021172633A1 PCT/KR2020/002884 KR2020002884W WO2021172633A1 WO 2021172633 A1 WO2021172633 A1 WO 2021172633A1 KR 2020002884 W KR2020002884 W KR 2020002884W WO 2021172633 A1 WO2021172633 A1 WO 2021172633A1
Authority
WO
WIPO (PCT)
Prior art keywords
video content
layer
recognition
recognition module
resolution
Prior art date
Application number
PCT/KR2020/002884
Other languages
French (fr)
Korean (ko)
Inventor
이상민
김형진
조청호
Original Assignee
(주)뉴빌리티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)뉴빌리티 filed Critical (주)뉴빌리티
Priority to PCT/KR2020/002884 priority Critical patent/WO2021172633A1/en
Publication of WO2021172633A1 publication Critical patent/WO2021172633A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition

Definitions

  • the present invention relates to image processing, and more particularly, to a method and apparatus for recognizing video content, and an image processing system including the same.
  • a moving picture such as a game, includes various information including letters, numbers, and images. If information is automatically extracted from these videos over time, or information about the section or location in which each information appears, it is convenient to provide additional information related to the information, and it can be effectively used to provide various application services. have.
  • Patent Document 1 Domestic Patent Application No. 10-2005-0044005
  • Patent Document 2 Domestic Registered Patent Publication No. 10-1104699
  • An object of the present invention is to provide a method and an apparatus, and an image processing system including the same.
  • Another object of the present specification is to provide a video content recognition method and apparatus capable of providing a simplified user environment such as an automated image recognition workflow, automatic creation of a screen data collection program, and automation of model data tuning through the web, and includes the same An image processing system is provided.
  • an image processing system includes: a web server for storing a plurality of recognition modules for recognizing information included in video content; and receiving at least one recognition module among the plurality of recognition modules from the web server, designating the video content for which the information is to be recognized, and layering at least one region of the video content and the at least one recognition module and a video content recognition device for recognizing information included in the video content through the at least one recognition module by being connected to the video content.
  • the apparatus further comprises a plurality of cross-validation devices for inputting various types of information included in the video content into a recognition module, and performing cross-validation on the result values of the recognition module to update the plurality of recognition modules. characterized in that
  • an apparatus for recognizing video content includes: a storage unit configured to store at least one recognition module for recognizing information included in video content; and designating video content for which information is to be recognized, and connecting at least one area of the video content and the at least one recognition module stored in the storage unit in a layer form to obtain the video content through the at least one recognition module It includes a control unit for recognizing the included information.
  • control unit indexes the video content in a time table, sets layers for each index, and inserts the recognition module into each layer to generate the screen data collection program.
  • control unit sets a mask for the video content, sets an image resolution and a change characteristic for each resolution of each region in the mask, and then selects a layer to be used for each index.
  • control unit selects any one of linear and non-linear as a characteristic of change for each resolution of each region.
  • control unit changes the resolution based on a coordinate value input from a user.
  • the controller changes the resolution through spline interpolation for a resolution to which a coordinate value is not input.
  • the layer to be used for each index is a base layer, a shake correction layer that cuts a part of an area, detects position values of internal feature points, and compares the detected position values with a default value to correct shake of the area, translucent It characterized in that it includes at least one of the layer, and an additional layer that designates a region having a different change characteristic for each position and resolution.
  • control unit designates an area to which the recognition module is input on the layer through a UI Location Filling Layer, and inserts the recognition module into the area location filling layer. .
  • the method for recognizing video content is a method for recognizing a video content of a video content recognizing apparatus for recognizing information included in video content, and recognizing information included in the video content receiving and storing at least one recognition module; designating the video content for which the information is to be recognized; and recognizing information included in the video content through the at least one recognition module by connecting at least one region of the video content and the at least one recognition module in a layered form.
  • the step of recognizing the information included in the video content includes: indexing the video content in a time table; setting a layer by index; and inserting the recognition module into each layer.
  • the step of setting the layer by index comprises: setting a mask on the video content; setting an image resolution and a change characteristic for each resolution of each region in the mask; and selecting a layer to be used by index.
  • the setting of the change characteristic for each resolution comprises: selecting one of linear and non-linear as the change characteristic for each resolution of each region; and changing the resolution based on a coordinate value input from a user when non-linearity is selected as a change characteristic for each resolution of each region.
  • the step of inserting the recognition module comprises: designating an area to which the recognition module is input on the layer through a UI Location Filling Layer; and inserting the recognition module into the region location filling layer.
  • a plurality of users can easily tune and produce a program for recognizing information included in video content through a graphical user interface environment, even if not a developer.
  • FIG. 1 is a block diagram showing a schematic configuration of an image processing system according to a first embodiment of the present invention
  • FIG. 2 is a block diagram showing a schematic configuration of the inside of the video content recognition apparatus according to the first embodiment of the present invention
  • FIG. 3 is a flowchart illustrating a video content recognition method according to a first embodiment of the present invention
  • FIG. 4 is a flowchart illustrating a method for generating a screen data collection program according to a first embodiment of the present invention
  • FIG. 5 is a flowchart illustrating a method of setting a layer for each index according to the first embodiment of the present invention
  • FIG. 6 is a view showing an example screen of a time table according to the first embodiment of the present invention.
  • FIG. 7 is a view showing an example screen of an image recognition program according to the first embodiment of the present invention.
  • FIG. 8 is a view for explaining a method of designating a region to be input to a recognition module using a region position filling layer
  • FIG. 9 is a diagram showing a schematic configuration of the inside of a non-verbal information delivery device according to a second embodiment of the present invention.
  • FIG. 10 is a view showing the configuration of a solenoid module according to a second embodiment of the present invention.
  • FIG. 11 is a flowchart illustrating a non-verbal information delivery method according to a second embodiment of the present invention.
  • first, second, etc. used herein may be used to describe various elements, but the elements should not be limited by the terms. The above terms are used only for the purpose of distinguishing one component from another. For example, without departing from the scope of the present invention, a first component may be referred to as a second component, and similarly, the second component may also be referred to as a first component.
  • FIG. 1 is a block diagram showing a schematic configuration of an image processing system according to a first embodiment of the present invention.
  • the image processing system may include a web server 110 , a video content recognition device 120 , and a plurality of cross-verification devices 130 .
  • the web server 110 stores a plurality of recognition modules for recognizing information included in an image recognition program and video content.
  • the web server 110 may include module data including attribute information of each recognition module inserted by the user through a layer, and learning data including non-post-processed data and post-processed data.
  • the non-post-processed data represents data in which information about the data is not indexed, that is, data that is not optimized with a recognition module.
  • the post-processing data represents data obtained by indexing each data and result values of a recognition module that a user or others manually want to optimize. That is, the post-processing data represents data optimized with the recognition module through cross-validation of a plurality of cross-validation devices 130 to be described later.
  • the web server 110 may provide open sources for the plurality of recognition modules to the plurality of cross-validation devices 130 .
  • the web server 110 may provide an updated authentication module based on the learning data cross-verified by the plurality of cross-validation devices 130 to the video content recognition device 120 .
  • the moving image content recognition apparatus 120 accesses the web server 110 and receives at least one recognition module for recognizing an image recognition program and information included in the moving image content from the web server 110 .
  • the video content recognizing apparatus 120 designates video content for which information is to be recognized on an Operating System (OA) through the received image recognition program, and includes at least one area and at least one area for recognizing information in the video content.
  • OA Operating System
  • a screen data collection program is created by connecting the recognition modules of A detailed structure and operation of the video content recognizing apparatus 120 will be described with reference to FIG. 2 .
  • the plurality of cross-verification devices 130 input various information included in the video content to the recognition module based on the open source for the plurality of recognition modules provided by the web server 110, A plurality of recognition modules are updated by performing cross-validation. Specifically, one or a small group of users initially creates some data and measures the accuracy of the recognition module to create a standard, and a plurality of verification personnel perform verification on each data to agree more than a preset number of people In this case, it is judged as valid data.
  • the plurality of cross-validation devices 130 may improve the accuracy of the recognition module through an automatic input prevention system such as a capcha.
  • the plurality of cross-validation authentication devices 130 may cause CAPTCHAs to appear frequently in the case of a recognition module requiring additional data acquisition in consideration of the number of users and satisfaction of the recognition module.
  • the moving image content recognition apparatus 110 and the plurality of cross-verification apparatuses 130 are separately described, but the moving image content recognition apparatus 110 may be each cross-verification apparatus 130 .
  • FIG. 2 is a block diagram showing a schematic configuration of the inside of the apparatus for recognizing video content according to the first embodiment of the present invention.
  • the moving image content recognition apparatus 110 may include a communication unit 210 , a screen data collection program generation unit 220 , a storage unit 230 , and a screen data collection unit 240 .
  • the screen data collection program generation unit 220 and the screen data collection unit 240 constitute the control unit.
  • the communication unit 210 transmits and receives data to and from the web server 110 through wired/wireless communication. That is, the communication unit 210 receives an image recognition program, at least one recognition module, and various data related to each recognition module from the web server 110 , and a video content recognition process or screen data collection process with the web server 110 . It is possible to transmit various data generated in the web server (110).
  • the screen data collection program generating unit 220 designates video content for which information is to be recognized on the operating system system through the image recognition program, and forms at least one region and at least one recognition module for recognizing information in the video content in a layered form. to create a screen data collection program.
  • the screen data collection program generation unit 220 first calls the video content, and uses an image editing tool from the beginning to the end of the video content to be recognized. cut Then, the screen data collection program generating unit 220 indexes the video content in the time table after editing the beginning and the end of the video content. For example, the screen data collection program generation unit 220 may index a main menu, a game start window, an in-game situation, and a game end situation.
  • the screen data collection program generating unit 220 sets a layer for each index after indexing of the video content is completed.
  • the process of setting the layer for each index by the screen data collection program generating unit 220 is as follows.
  • the screen data collection program generating unit 220 sets a mask on the moving picture content, and sets the image resolution and the change characteristics for each resolution of each region in the mask in order to automatically catch the change of the region according to the change in resolution.
  • the screen data collection program generation unit 220 may select any one of linear and non-linear as a characteristic of change for each resolution of each region.
  • the screen data collection program generating unit 220 may change the resolution through spline interpolation with respect to a resolution to which a coordinate value is not input.
  • the screen data collection program generation unit 220 selects a layer to be used for each index after setting the change characteristics for each resolution of each area. That is, the screen data collection program generating unit 220 selects a layer to be used by index in the layer selection window, and then drags it and moves it to the module creation tree.
  • the layer is basically a base layer applied just below the masking, cut a part of the region, detect the position values of the internal feature points, and compare the detected position values with the default value to mask the shaking of the region Image stabilization layer that compensates with data and image processing techniques, a translucent layer that exists to detect a translucent layer, and an area that operates independently of the previously used area, that is, an area with different change characteristics for each location and resolution. Additional layers may be included.
  • a portion having information to be recognized for each area is designated in a square or rectangular shape using a UI Location Filling Layer, and then The recognition module can be located by including it in a layer. As a result, the screen data collection program generation unit 220 can stably adjust the range to be recognized on the shake correction layer.
  • the screen data collection program generation unit 220 may set the type of information to be recognized through the recognition module after locating the region location filling layer.
  • the screen data collection program generating unit 220 inserts a recognition module into the area location filling layer.
  • the screen data collection program generation unit 220 may highlight and display a layer that can be used according to the type of previously input data, and may also automatically provide a recognition module corresponding to the area location filling layer.
  • the recognition range may be in a square, circular, or rectangular shape.
  • a recognition module can be automatically recommended and provided.
  • the screen data collection program generating unit 220 may provide help on the operation principle of each recognition module based on the characteristics of the layer.
  • the screen data collection program generation unit 220 may generate the screen data collection program through a series of procedures of indexing video content, setting layers for each index, and inserting a recognition module into each layer.
  • the storage unit 230 stores the image recognition program and at least one recognition module received from the web server 110 through the communication unit 210 , and the screen data collection program generated by the screen data collection program generation unit 220 . do.
  • the storage unit 230 may store an operating system necessary for driving a screen data collection program and an image recognition program, and data required for an image recognition process and a screen data collection program generation process.
  • the storage 230 may store the above-described non-post-processed data and post-processed data. To this end, the storage unit 230 may be divided into a plurality of storage areas.
  • the storage unit 230 may receive the updated recognition module from the web server 110 periodically or whenever the screen data collection program is executed.
  • the screen data collection unit 240 may recognize a large amount of data on a screen directly played by the user through the screen data collection program stored in the storage unit 230 .
  • the user can create a program for recognizing game data without complicated programming through the video content recognition device having the above configuration.
  • FIG. 3 is a flowchart illustrating a video content recognition method according to the first embodiment of the present invention.
  • the video content recognizing device 120 may place the recognition module in the area according to these three requirements.
  • a game video is used as an example of video content, but the present invention is not limited thereto, and the video content may include various videos such as movies, sports, dramas, entertainment, and current affairs.
  • the area of video content indicates a user interface (UI).
  • the apparatus 120 for recognizing video content accesses the web server 110 to recognize at least one recognition for recognizing information included in an image recognition program and video content from the web server 110 .
  • a module is received (S310).
  • the video content recognizing apparatus 120 designates the video content for which information is to be recognized on the operating system system through the received image recognition program (S320). In this case, the video content recognizing apparatus 120 cuts from the beginning of the video content to the end of which recognition is to be terminated by using an image editing tool.
  • the video content recognizing apparatus 120 generates a screen data collection program by connecting at least one area for recognizing information in video content and at least one recognition module in the form of a layer (S330).
  • the video content recognizing apparatus 120 recognizes information included in the video content through the generated screen data collection program (S340).
  • FIG. 4 is a flowchart illustrating a method of generating a screen data collection program according to the first embodiment of the present invention.
  • the video content recognizing apparatus 120 indexes video content in a time table ( S410 ).
  • the video content recognizing apparatus 120 may index a main menu, a game start window, an in-game situation, and a game end situation.
  • the video content recognizing apparatus 120 sets a layer for each index ( S420 ).
  • the video content recognizing apparatus 120 recognizes by designating a part having information to be recognized for each area by using a UI Location Filling Layer after completing the layer setting for each index, and including it in an upper layer Position the module (S430).
  • the video content recognizing apparatus 120 may designate a part having information to be recognized in a square or rectangular shape.
  • the video content recognition apparatus 120 sets the type of information to be recognized through the recognition module after locating the area location filling layer (S440).
  • in-game data may include simple status information such as skill on/off or status abnormality, time-related data such as cooldown time or preparation time or respawn time, and quantitative data such as HP or item count. have.
  • the video content recognizing apparatus 120 inserts a recognition module into the area location filling layer ( S450 ).
  • the video content recognizing apparatus 120 may highlight and display a layer that can be used according to the type of previously input data, and may also automatically provide a recognition module corresponding to the area location filling layer. For example, if the recognition range is determined through the area location filling layer, the recognition range may be in a square, circular, or rectangular shape. can be automatically recommended and provided.
  • FIG. 5 is a flowchart illustrating a method of setting a layer for each index according to the first embodiment of the present invention.
  • the moving image content recognizing apparatus 120 sets a mask on the moving image content ( S510 ).
  • the moving image content recognizing apparatus 120 sets the image resolution and the resolution characteristic of each region in the mask to automatically catch the change of the region according to the change in resolution (S520).
  • the moving image content recognizing apparatus 120 may select any one of linear and non-linear as a change characteristic for each resolution of each region.
  • the video content recognizing apparatus 120 may change the resolution through spline interpolation for a resolution to which a coordinate value is not input.
  • the moving image content recognizing apparatus 120 selects a layer to be used for each index after setting the change characteristics for each resolution of each area (S530). That is, the video content recognizing apparatus 120 selects a layer to be used for each index in the layer selection window, and then drags it and moves it to the module creation tree.
  • the layer is basically the base layer applied immediately below the masking, cut a part of the region, detect the position values of the internal feature points, compare the detected position values with the default value, and then calculate the shaking of the region with the mask data and the image
  • An additional layer that specifies an image stabilization layer that corrects with the processing technique, a translucent layer that exists for the detection of a translucent layer, and an area that operates independently of the previously used area, that is, an area with different change characteristics depending on location and resolution. may include
  • embodiments of the present invention may be implemented by hardware, firmware, software, or a combination thereof.
  • the method according to embodiments of the present invention may include one or more Application Specific Integrated Circuits (ASICs), Digital Signal Processors (DSPs), Digital Signal Processing Devices (DSPDs), and Programmable Logic Devices (PLDs). , FPGAs (Field Programmable Gate Arrays), processors, controllers, microcontrollers and microprocessors, and the like.
  • ASICs Application Specific Integrated Circuits
  • DSPs Digital Signal Processors
  • DSPDs Digital Signal Processing Devices
  • PLDs Programmable Logic Devices
  • FPGAs Field Programmable Gate Arrays
  • processors controllers
  • the method according to the embodiments of the present invention may be implemented in the form of a module, procedure, or function that performs the functions or operations described above.
  • the software code may be stored in the memory unit and driven by the processor.
  • the memory unit may be located inside or outside the processor, and may transmit and receive data to and from the processor by various known means.
  • FIG. 6 is a view showing an example screen of a time table according to the first embodiment of the present invention.
  • the user may index the main menu 610 , the game start window 620 , the in-game situation 630 , and the game end situation 630 in the time table.
  • the in-game situation 630 may include a survival situation and a death situation.
  • the setting of the time table varies in an area, and may be changed according to the overall setting of the recognition module, in-game play, game queue status, and the like.
  • FIG. 7 is a view showing an example screen of the image recognition program according to the first embodiment of the present invention.
  • the user may drag each button 700 and bring it to the tree window 800 of the time table. In other words, if a lower layer is dragged onto an upper layer, it is included in that layer.
  • each layer has a priority, and in this case, there may be layers without priority.
  • the base layer 720 , the shake correction layer 730 , and the additional layer 740 have no priority
  • the mask 710 , the base layer 720 , and the region location fill layer 750 have priority.
  • the base layer 720 serves to define regions including design elements (borders and boundaries, etc.) and information of the region, respectively, and classify each region according to the type of information that includes each region.
  • the additional layer 740 designates individual elements operating in a separate form in the video content.
  • the area location filling layer 750 serves to designate a pixel to be finally cropped in the capture area 810 of the upper layer, that is, an area to be input to the recognition module. That is, since the optimized pixel size for each open source is different in a square or rectangular shape, the user can designate an area that the recognition module can recognize through the area location filling layer 750 to fit each shape. Accordingly, the region location filling layer 750 may prevent different regions from encroaching on each other.
  • FIG. 9 is a diagram showing a schematic configuration of the inside of a non-verbal information delivery device according to a second embodiment of the present invention.
  • the non-verbal information delivery device is worn on the wrist in the form of a strap, receives information recognized from the video content from the video content recognition device according to the first embodiment of the present invention, and tightens the received information; It is transmitted to the user in the form of pressure, electrical stimulation, and vibration.
  • the non-verbal information delivery device includes at least two or more solenoid modules 910, a pressure module 920, an electrical stimulation module 930, a vibration module 940, and a frequency control module ( 950 , a skin resistance measurement module 960 , and a controller 970 .
  • Each solenoid module 910 uses a neodymium magnet as a solenoid core, pushes the magnet by the repulsive force of the solenoid, and returns the magnet to its original position by the magnet's own magnetic force. At least two or more solenoid modules 910 having such a configuration may transmit information in a form of applying pressure to a moving direction or a rotating direction.
  • the pressure module 920 may be implemented as a linear servomotor, and operates on the principle of tightening the wrist by pulling a wire through the linear servomotor. For example, the pressure module 920 may gradually strengthen the tightening as the speed increases, and may gradually weaken the tightening as the speed decreases.
  • the electrical stimulation module 930 may be implemented as a module that generates a current of 1 to 2 mA in a high frequency form of 10 MHz or more.
  • the frequency of the electrical stimulation module 930 may be adjusted through the resistance and capacitance values of the oscillation circuit.
  • the vibration module 940 like the solenoid module 910, is composed of a solenoid and a neodymium magnet, and operates by projecting a pulse to the solenoid to cause the neodymium magnet inside the solenoid to vibrate.
  • the vibration intensity of the vibration module 940 may be adjusted by changing the frequency or adjusting the mass of the neodymium magnet by hardware or software.
  • the controller 970 may be implemented as a low-voltage, low-power MCU (Micro Control Unit) based on an PC.
  • the control unit 970 supports 1 A battery charging, and the charging state can be checked through three LEDs.
  • the controller 970 may be equipped with a Bluetooth communication module and control at least 12 stimulation modules.
  • the control unit 970 determines whether the information of the moving image content received from the moving image content recognition apparatus is continuous information or single information, and if the recognized information is continuous information, the continuous information Information is transmitted in the form of pressure and tightening through the solenoid module 910 and the pressure module 920, respectively. In addition, when the recognized information is single information, the controller 970 transmits the single information in the form of vibration and electrical stimulation through each of the vibration module 940 and the electrical stimulation module 930 . To this end, the control unit 970 may allow the user to select a single piece of information through which module among the vibration module 940 and the electrical stimulation module 930 to transmit the single information.
  • a frequency control module 950 that can adjust this is further added. may include The frequency control module 950 adjusts the frequency by adjusting the capacitance value of the oscillation circuit in the electrical stimulation module 930 .
  • the non-verbal information delivery device may further include a skin resistance measurement module 960 for measuring the resistance of the skin in order to flow a constant current because the skin resistance is not always constant.
  • the control unit 970 may adjust the frequency of the electrical stimulation module 930 through the frequency adjustment module 950 according to the resistance value measured through the skin resistance measurement module 960 .
  • FIG. 10 is a view showing the configuration of a solenoid module according to a second embodiment of the present invention.
  • the solenoid module 910 includes a solenoid 912 and a magnet 914 .
  • the magnet 914 is a neodymium magnet and is used as a core of the solenoid 912 .
  • the solenoid module 910 pushes the magnet 914 by the repulsive force of the solenoid 912, and as shown in FIG.
  • the magnet 914 is returned to its original position by its own magnetic force.
  • At least two solenoid modules 910 having such a configuration may transmit information in the form of applying pressure to the moving direction or the rotating direction.
  • FIG. 11 is a flowchart illustrating a non-verbal information delivery method according to a second embodiment of the present invention.
  • the non-verbal information delivery device receives information recognized from video content from the video content recognizing device 120 ( S1110 ).
  • the non-verbal information delivery device determines whether the received information is continuous information or single information (S1120). For example, when the video content is a game video, a skill state including a stun may be single information, and a skill or a buff's cool time may be continuous information.
  • the non-verbal information transmitting apparatus transmits the continuous information in the form of pressure and tightening through the solenoid module 910 and the pressure module 920, respectively (S1130).
  • the non-verbal information delivery device transmits the single information in the form of vibration and electrical stimulation through the vibration module 940 and the electrical stimulation module 930, respectively (S1140).
  • the non-verbal information transmission method includes the steps of: the non-verbal information transmission device measuring the resistance of the skin through the skin resistance measurement module 960; , adjusting the frequency of the electrical stimulation module 930 through the frequency adjustment module 950 according to the resistance value measured through the skin resistance measurement module 960 may be further included.
  • embodiments of the present invention may be implemented by hardware, firmware, software, or a combination thereof.
  • the method according to embodiments of the present invention may include one or more Application Specific Integrated Circuits (ASICs), Digital Signal Processors (DSPs), Digital Signal Processing Devices (DSPDs), and Programmable Logic Devices (PLDs). , FPGAs (Field Programmable Gate Arrays), processors, controllers, microcontrollers and microprocessors, and the like.
  • ASICs Application Specific Integrated Circuits
  • DSPs Digital Signal Processors
  • DSPDs Digital Signal Processing Devices
  • PLDs Programmable Logic Devices
  • FPGAs Field Programmable Gate Arrays
  • processors controllers
  • the method according to the embodiments of the present invention may be implemented in the form of a module, procedure, or function that performs the functions or operations described above.
  • the software code may be stored in the memory unit and driven by the processor.
  • the memory unit may be located inside or outside the processor, and may transmit and receive data to and from the processor by various known means.
  • the present invention can be used to easily tune and produce a program for recognizing information included in video content by a plurality of users through a graphical user interface environment.

Abstract

The present invention relates to a method and device for recognizing moving image content, and an image processing system including same. The device comprises: a storage unit for storing at least one recognition module which recognizes information included in moving image content; and a control unit which designates moving image content in which information is to be recognized, and connects, in a layered formed, at least one area of the moving image content and the at least one recognition module stored in the storage unit, and thereby recognizes the information included in the moving image content through the at least one recognition module. [Representative drawing] Figure 1

Description

동영상 콘텐츠 인식 방법 및 장치, 그리고 이를 포함하는 영상 처리 시스템Video content recognition method and apparatus, and image processing system including the same
본 발명은 영상 처리에 관한 것으로, 더욱 상세하게는 동영상 콘텐츠 인식 방법 및 장치, 그리고 이를 포함하는 영상 처리 시스템에 관한 것이다.The present invention relates to image processing, and more particularly, to a method and apparatus for recognizing video content, and an image processing system including the same.
게임 등과 같은 동영상에는 문자, 숫자, 및 이미지를 포함한 다양한 정보가 포함된다. 이러한 동영상에서 시간에 따라 자동으로 정보를 추출하거나, 각각의 정보가 등장하는 구간 또는 위치에 관한 정보를 알게 되면, 해당 정보와 관련된 부가정보를 제공하기 편리할 뿐만 아니라 다양한 응용 서비스 제공에 효과적으로 활용할 수 있다.A moving picture, such as a game, includes various information including letters, numbers, and images. If information is automatically extracted from these videos over time, or information about the section or location in which each information appears, it is convenient to provide additional information related to the information, and it can be effectively used to provide various application services. have.
그러나, 기존의 영상 인식 프로그램이나 게임 데이터 인식 프로그램은 공개 소스 컴퓨터 비전(Open Source Computer Vision; Open CV)이나 머신 러닝과 같은 개발 여력을 요구하였다. 또한, 게임 데이터를 분석하기 위해서는 해석 모델 선정 튜닝 데이터 제작 프로그램 등과 같은 일회성 프로그램들을 다량으로 제작할 필요가 있었으며, 이에 반복적인 작업을 많이 요구하였다.However, existing image recognition programs or game data recognition programs require development capacity such as Open Source Computer Vision (Open CV) or machine learning. In addition, in order to analyze game data, it was necessary to produce a large amount of one-time programs such as analysis model selection, tuning data production program, etc., which required a lot of repetitive work.
[선행기술문헌][Prior art literature]
(특허문헌 1) 국내특허출원 제10-2005-0044005호(Patent Document 1) Domestic Patent Application No. 10-2005-0044005
(특허문헌 2) 국내등록특허공보 제10-1104699호(Patent Document 2) Domestic Registered Patent Publication No. 10-1104699
본 명세서는 상기한 바와 같은 문제점을 해결하기 위하여 안출된 것으로서, 개발자가 아니더라도 그래픽 유저 인터페이스 환경을 통해 다수의 사용자가 동영상 콘텐츠에 포함된 정보를 인식하기 위한 프로그램을 손쉽게 튜닝하고 제작할 수 있는 동영상 콘텐츠 인식 방법 및 장치, 그리고 이를 포함하는 영상 처리 시스템을 제공하는 데 그 목적이 있다.The present specification has been devised to solve the above problems, and even if not a developer, a plurality of users through a graphical user interface environment can easily tune and produce a program for recognizing information included in video content. An object of the present invention is to provide a method and an apparatus, and an image processing system including the same.
본 명세서의 다른 목적은 자동화된 영상 인식 워크 플로우, 화면데이터 수집 프로그램의 자동 생성, 및 웹을 통한 모델 데이터 튜닝 자동화 등의 간편화된 사용자 환경을 제공할 수 있는 동영상 콘텐츠 인식 방법 및 장치, 그리고 이를 포함하는 영상 처리 시스템를 제공한다.Another object of the present specification is to provide a video content recognition method and apparatus capable of providing a simplified user environment such as an automated image recognition workflow, automatic creation of a screen data collection program, and automation of model data tuning through the web, and includes the same An image processing system is provided.
이와 같은 목적을 달성하기 위한, 본 명세서의 실시예에 따르면, 본 명세서에 따른 영상 처리 시스템은, 동영상 콘텐츠에 포함된 정보를 인식하는 복수의 인식 모듈을 저장하는 웹 서버; 및 상기 웹 서버로부터 상기 복수의 인식 모듈 중에 적어도 하나의 인식 모듈을 수신하고, 상기 정보를 인식하고자 하는 상기 동영상 콘텐츠를 지정하며, 상기 동영상 콘텐츠의 적어도 하나의 영역과 상기 적어도 하나의 인식 모듈을 레이어 형태로 연결하여 상기 적어도 하나의 인식 모듈을 통해 상기 동영상 콘텐츠에 포함된 정보를 인식하는 동영상 콘텐츠 인식 장치를 포함한다.According to an embodiment of the present specification, an image processing system according to the present specification includes: a web server for storing a plurality of recognition modules for recognizing information included in video content; and receiving at least one recognition module among the plurality of recognition modules from the web server, designating the video content for which the information is to be recognized, and layering at least one region of the video content and the at least one recognition module and a video content recognition device for recognizing information included in the video content through the at least one recognition module by being connected to the video content.
바람직하게는, 상기 동영상 콘텐츠에 포함된 각종 정보를 인식 모듈에 입력하고, 상기 인식 모듈의 결과값들에 대한 교차 검증을 수행하여 상기 복수의 인식 모듈을 업데이트하는 복수의 교차 검증 장치를 더 포함하는 것을 특징으로 한다.Preferably, the apparatus further comprises a plurality of cross-validation devices for inputting various types of information included in the video content into a recognition module, and performing cross-validation on the result values of the recognition module to update the plurality of recognition modules. characterized in that
본 명세서의 다른 실시예에 따르면, 본 명세서에 따른 동영상 콘텐츠 인식 장치는, 동영상 콘텐츠에 포함된 정보를 인식하는 적어도 하나의 인식 모듈을 저장하는 저장부; 및 정보를 인식하고자 하는 동영상 콘텐츠를 지정하고, 상기 동영상 콘텐츠의 적어도 하나의 영역과 상기 저장부에 저장된 상기 적어도 하나의 인식 모듈을 레이어 형태로 연결하여 상기 적어도 하나의 인식 모듈을 통해 상기 동영상 콘텐츠에 포함된 정보를 인식하는 제어부를 포함한다.According to another embodiment of the present specification, an apparatus for recognizing video content according to the present specification includes: a storage unit configured to store at least one recognition module for recognizing information included in video content; and designating video content for which information is to be recognized, and connecting at least one area of the video content and the at least one recognition module stored in the storage unit in a layer form to obtain the video content through the at least one recognition module It includes a control unit for recognizing the included information.
바람직하게는, 상기 제어부는 타임 테이블에 상기 동영상 콘텐츠를 색인하고, 색인별 레이어를 설정하며, 각 레이어에 상기 인식 모듈을 삽입하여 상기 화면데이터 수집 프로그램을 생성하는 것을 특징으로 한다.Preferably, the control unit indexes the video content in a time table, sets layers for each index, and inserts the recognition module into each layer to generate the screen data collection program.
바람직하게는, 상기 제어부는 상기 동영상 콘텐츠에 마스크를 설정하고, 상기 마스크에 영상 해상도와 각 영역의 해상도별 변화 특성을 설정한 후, 색인별로 사용할 레이어를 선택하는 것을 특징으로 한다.Preferably, the control unit sets a mask for the video content, sets an image resolution and a change characteristic for each resolution of each region in the mask, and then selects a layer to be used for each index.
바람직하게는, 상기 제어부는 각 영역의 해상도별 변화 특성으로서 선형 및 비선형 중 어느 하나를 선택하는 것을 특징으로 한다.Preferably, the control unit selects any one of linear and non-linear as a characteristic of change for each resolution of each region.
바람직하게는, 상기 제어부는 각 영역의 해상도별 변화 특성으로서 비선형을 선택한 경우, 사용자로부터 입력받은 좌표값을 기준으로 해상도를 변화시키는 것을 특징으로 한다.Preferably, when non-linearity is selected as a change characteristic for each resolution of each region, the control unit changes the resolution based on a coordinate value input from a user.
바람직하게는, 상기 제어부는 좌표값이 입력되지 않은 해상도에 대해서는 스플라인 보간(Spline Interpolation)을 통해 해상도를 변화시키는 것을 특징으로 한다.Preferably, the controller changes the resolution through spline interpolation for a resolution to which a coordinate value is not input.
바람직하게는, 상기 색인별로 사용할 레이어는 기본 레이어, 영역의 일부분을 자른 뒤, 내부의 특징점들의 위치값을 검출하고, 검출된 위치값을 기본값과 비교하여 영역의 흔들림을 보정하는 흔들림 보정 레이어, 반투명 레이어, 및 위치, 해상도별로 변화 특성이 다른 영역을 지정하는 추가 레이어 중 적어도 하나를 포함하는 것을 특징으로 한다.Preferably, the layer to be used for each index is a base layer, a shake correction layer that cuts a part of an area, detects position values of internal feature points, and compares the detected position values with a default value to correct shake of the area, translucent It characterized in that it includes at least one of the layer, and an additional layer that designates a region having a different change characteristic for each position and resolution.
바람직하게는, 상기 제어부는 영역 위치 충진 레이어(UI Location Filling Layer)를 통해 상기 레이어 상에 상기 인식 모듈이 입력되는 영역을 지정하고, 상기 영역 위치 충진 레이어에 상기 인식 모듈을 삽입하는 것을 특징으로 한다.Preferably, the control unit designates an area to which the recognition module is input on the layer through a UI Location Filling Layer, and inserts the recognition module into the area location filling layer. .
본 명세서의 또 다른 실시예에 따르면, 본 명세서에 따른 동영상 콘텐츠 인식 방법은, 동영상 콘텐츠에 포함된 정보를 인식하는 동영상 콘텐츠 인식 장치의 동영상 콘텐츠 인식 방법에 있어서, 상기 동영상 콘텐츠에 포함된 정보를 인식하는 적어도 하나의 인식 모듈을 수신 및 저장하는 단계; 상기 정보를 인식하고자 하는 상기 동영상 콘텐츠를 지정하는 단계; 및 상기 동영상 콘텐츠의 적어도 하나의 영역과 상기 적어도 하나의 인식 모듈을 레이어 형태로 연결하여 상기 적어도 하나의 인식 모듈을 통해 상기 동영상 콘텐츠에 포함된 정보를 인식하는 단계를 포함한다.According to another embodiment of the present specification, the method for recognizing video content according to the present specification is a method for recognizing a video content of a video content recognizing apparatus for recognizing information included in video content, and recognizing information included in the video content receiving and storing at least one recognition module; designating the video content for which the information is to be recognized; and recognizing information included in the video content through the at least one recognition module by connecting at least one region of the video content and the at least one recognition module in a layered form.
바람직하게는, 상기 동영상 콘텐츠에 포함된 정보를 인식하는 단계는, 타임 테이블에 상기 동영상 콘텐츠를 색인하는 단계; 색인별 레이어를 설정하는 단계; 및 각 레이어에 상기 인식 모듈을 삽입하는 단계를 포함한다.Preferably, the step of recognizing the information included in the video content includes: indexing the video content in a time table; setting a layer by index; and inserting the recognition module into each layer.
바람직하게는, 상기 색인별 레이어를 설정하는 단계는, 상기 동영상 콘텐츠에 마스크를 설정하는 단계; 상기 마스크에 영상 해상도와 각 영역의 해상도별 변화 특성을 설정하는 단계; 및 색인별로 사용할 레이어를 선택하는 단계를 포함한다.Preferably, the step of setting the layer by index comprises: setting a mask on the video content; setting an image resolution and a change characteristic for each resolution of each region in the mask; and selecting a layer to be used by index.
바람직하게는, 상기 해상도별 변화 특성을 설정하는 단계는, 각 영역의 해상도별 변화 특성으로서 선형 및 비선형 중 어느 하나를 선택하는 단계; 및 각 영역의 해상도별 변화 특성으로서 비선형을 선택한 경우, 사용자로부터 입력받은 좌표값을 기준으로 해상도를 변화시키는 단계를 포함한다.Preferably, the setting of the change characteristic for each resolution comprises: selecting one of linear and non-linear as the change characteristic for each resolution of each region; and changing the resolution based on a coordinate value input from a user when non-linearity is selected as a change characteristic for each resolution of each region.
바람직하게는, 상기 인식 모듈을 삽입하는 단계는, 영역 위치 충진 레이어(UI Location Filling Layer)를 통해 상기 레이어 상에 상기 인식 모듈이 입력되는 영역을 지정하는 단계; 및 상기 영역 위치 충진 레이어에 상기 인식 모듈을 삽입하는 단계를 포함한다.Preferably, the step of inserting the recognition module comprises: designating an area to which the recognition module is input on the layer through a UI Location Filling Layer; and inserting the recognition module into the region location filling layer.
이상에서 설명한 바와 같이 본 명세서에 의하면, 개발자가 아니더라도 그래픽 유저 인터페이스 환경을 통해 다수의 사용자가 동영상 콘텐츠에 포함된 정보를 인식하기 위한 프로그램을 손쉽게 튜닝하고 제작할 수 있다.As described above, according to the present specification, a plurality of users can easily tune and produce a program for recognizing information included in video content through a graphical user interface environment, even if not a developer.
또한, 자동화된 영상 인식 워크 플로우, 화면데이터 수집 프로그램의 자동 생성, 및 웹을 통한 모델 데이터 튜닝 자동화 등의 간편화된 사용자 환경을 제공할 수 있다.In addition, it is possible to provide a simplified user environment such as an automated image recognition workflow, automatic creation of a screen data collection program, and automation of model data tuning through the web.
또한, 사용자별로 이루어졌던 프로그램의 제작 또한 캡차(Capcha)를 제공함으로써, 정확도 및 효율성을 향상시킬 수 있다.In addition, by providing a capcha in the production of a program performed for each user, accuracy and efficiency can be improved.
도 1은 본 발명의 제1 실시예에 따른 영상 처리 시스템의 개략적인 구성을 나타낸 블럭 구성도,1 is a block diagram showing a schematic configuration of an image processing system according to a first embodiment of the present invention;
도 2는 본 발명의 제1 실시예에 따른 동영상 콘텐츠 인식 장치 내부의 개략적인 구성을 나타낸 블럭 구성도,2 is a block diagram showing a schematic configuration of the inside of the video content recognition apparatus according to the first embodiment of the present invention;
도 3은 본 발명의 제1 실시예에 따른 동영상 콘텐츠 인식 방법을 나타낸 흐름도,3 is a flowchart illustrating a video content recognition method according to a first embodiment of the present invention;
도 4는 본 발명의 제1 실시예에 따른 화면데이터 수집 프로그램을 생성하는 방법을 나타낸 흐름도,4 is a flowchart illustrating a method for generating a screen data collection program according to a first embodiment of the present invention;
도 5는 본 발명의 제1 실시예에 따른 각 색인별 레이어를 설정하는 방법을 나타낸 흐름도,5 is a flowchart illustrating a method of setting a layer for each index according to the first embodiment of the present invention;
도 6은 본 발명의 제1 실시예에 따른 타임 테이블의 예시 화면을 나타낸 도면,6 is a view showing an example screen of a time table according to the first embodiment of the present invention;
도 7은 본 발명의 제1 실시예에 따른 영상인식 프로그램의 예시 화면을 나타낸 도면,7 is a view showing an example screen of an image recognition program according to the first embodiment of the present invention;
도 8은 영역 위치 충진 레이어를 이용하여 인식 모듈에 입력될 영역을 지정하는 방법을 설명하기 위한 도면,8 is a view for explaining a method of designating a region to be input to a recognition module using a region position filling layer;
도 9는 본 발명의 제2 실시예에 따른 비언어 기반의 정보 전달 장치 내부의 개략적인 구성을 나타낸 도면,9 is a diagram showing a schematic configuration of the inside of a non-verbal information delivery device according to a second embodiment of the present invention;
도 10은 본 발명의 제2 실시예에 따른 솔레노이드 모듈의 구성을 나타낸 도면, 및10 is a view showing the configuration of a solenoid module according to a second embodiment of the present invention, and
도 11은 본 발명의 제2 실시예에 따른 비언어 기반의 정보 전달 방법을 나타낸 흐름도이다.11 is a flowchart illustrating a non-verbal information delivery method according to a second embodiment of the present invention.
본 명세서에서 사용되는 기술적 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아님을 유의해야 한다. 또한, 본 명세서에서 사용되는 기술적 용어는 본 명세서에서 특별히 다른 의미로 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 의미로 해석되어야 하며, 과도하게 포괄적인 의미로 해석되거나, 과도하게 축소된 의미로 해석되지 않아야 한다. 또한, 본 명세서에서 사용되는 기술적인 용어가 본 발명의 사상을 정확하게 표현하지 못하는 잘못된 기술적 용어일 때에는, 당업자가 올바르게 이해할 수 있는 기술적 용어로 대체되어 이해되어야 할 것이다. 또한, 본 발명에서 사용되는 일반적인 용어는 사전에 정의되어 있는 바에 따라, 또는 전후 문맥상에 따라 해석되어야 하며, 과도하게 축소된 의미로 해석되지 않아야 한다.It should be noted that the technical terms used herein are used only to describe specific embodiments, and are not intended to limit the present invention. In addition, the technical terms used in this specification should be interpreted in the meaning generally understood by those of ordinary skill in the art to which the present invention belongs, unless otherwise defined in this specification, and excessively inclusive. It should not be construed in the meaning of a human being or in an excessively reduced meaning. In addition, when the technical terms used in the present specification are incorrect technical terms that do not accurately express the spirit of the present invention, they should be understood by being replaced with technical terms that those skilled in the art can correctly understand. In addition, general terms used in the present invention should be interpreted as defined in advance or according to the context before and after, and should not be interpreted in an excessively reduced meaning.
또한, 본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "구성된다" 또는 "포함한다" 등의 용어는 명세서 상에 기재된 여러 구성 요소들, 또는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.Also, as used herein, the singular expression includes the plural expression unless the context clearly dictates otherwise. In the present application, terms such as "consisting of" or "comprising" should not be construed as necessarily including all of the various components or various steps described in the specification, some of which components or some steps are It should be construed that it may not include, or may further include additional components or steps.
또한, 본 명세서에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다.In addition, the suffixes "module" and "part" for the components used in this specification are given or mixed in consideration of the ease of writing the specification, and do not have distinct meanings or roles by themselves.
또한, 본 명세서에서 사용되는 제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성 요소들을 설명하는 데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성 요소로 명명될 수 있고, 유사하게 제2 구성 요소도 제1 구성 요소로 명명될 수 있다.Also, terms including an ordinal number such as first, second, etc. used herein may be used to describe various elements, but the elements should not be limited by the terms. The above terms are used only for the purpose of distinguishing one component from another. For example, without departing from the scope of the present invention, a first component may be referred to as a second component, and similarly, the second component may also be referred to as a first component.
[부호의 설명][Explanation of code]
110: 웹 서버 120: 동영상 콘텐츠 인식 장치110: web server 120: video content recognition device
130: 복수의 교차 검증 장치 210: 통신부130: a plurality of cross-validation devices 210: communication unit
220: 화면데이터 수집 프로그램 생성부 230: 저장부220: screen data collection program generation unit 230: storage unit
240: 화면데이터 수집부240: screen data collection unit
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성 요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.Hereinafter, a preferred embodiment according to the present invention will be described in detail with reference to the accompanying drawings, but the same or similar components are assigned the same reference numerals regardless of reference numerals, and redundant description thereof will be omitted.
또한, 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 발명의 사상을 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 발명의 사상이 제한되는 것으로 해석되어서는 아니됨을 유의해야 한다.In addition, in the description of the present invention, if it is determined that a detailed description of a related known technology may obscure the gist of the present invention, the detailed description thereof will be omitted. In addition, it should be noted that the accompanying drawings are only for easy understanding of the spirit of the present invention, and should not be construed as limiting the spirit of the present invention by the accompanying drawings.
도 1은 본 발명의 제1 실시예에 따른 영상 처리 시스템의 개략적인 구성을 나타낸 블럭 구성도이다.1 is a block diagram showing a schematic configuration of an image processing system according to a first embodiment of the present invention.
도 1을 참조하면, 본 발명에 따른 영상 처리 시스템은 웹 서버(110), 동영상 콘텐츠 인식 장치(120), 및 복수의 교차 검증 장치(130)를 포함할 수 있다.Referring to FIG. 1 , the image processing system according to the present invention may include a web server 110 , a video content recognition device 120 , and a plurality of cross-verification devices 130 .
웹 서버(110)는 영상인식 프로그램 및 동영상 콘텐츠에 포함된 정보를 인식하는 복수의 인식 모듈을 저장한다.The web server 110 stores a plurality of recognition modules for recognizing information included in an image recognition program and video content.
또한, 웹 서버(110)는 사용자가 레이어를 통해 삽입한 각 인식 모듈의 속성 정보를 포함하는 모듈 데이터와, 비후처리 데이터 및 후처리 데이터를 포함하는 학습 데이터를 포함할 수 있다.In addition, the web server 110 may include module data including attribute information of each recognition module inserted by the user through a layer, and learning data including non-post-processed data and post-processed data.
여기서, 비후처리 데이터는 데이터에 관한 정보가 색인되지 않은 데이터, 즉, 인식 모듈과 최적화되지 않은 데이터를 나타낸다. 또한, 후처리 데이터는 사용자 또는 타인이 수작업을 통해 각 데이터와 최적화시키고 싶은 인식 모듈의 결과값들을 색인한 데이터들을 나타낸다. 즉, 후처리 데이터는 후술하는 복수의 교차 검증 장치(130)의 교차 검증을 통해 인식 모듈과 최적화된 데이터를 나타낸다. 이를 위해, 웹 서버(110)는 복수의 인식 모듈에 대한 오픈 소스를 복수의 교차 검증 장치(130)로 제공할 수 있다.Here, the non-post-processed data represents data in which information about the data is not indexed, that is, data that is not optimized with a recognition module. In addition, the post-processing data represents data obtained by indexing each data and result values of a recognition module that a user or others manually want to optimize. That is, the post-processing data represents data optimized with the recognition module through cross-validation of a plurality of cross-validation devices 130 to be described later. To this end, the web server 110 may provide open sources for the plurality of recognition modules to the plurality of cross-validation devices 130 .
이처럼, 웹 서버(110)는 복수의 교차 검증 장치(130)에 의해 교차 검증된 학습 데이터를 토대로 업데이트된 인증 모듈을 동영상 콘텐츠 인식 장치(120)로 제공할 수 있다.As such, the web server 110 may provide an updated authentication module based on the learning data cross-verified by the plurality of cross-validation devices 130 to the video content recognition device 120 .
동영상 콘텐츠 인식 장치(120)는 웹 서버(110)에 접속하여 웹 서버(110)로부터 영상인식 프로그램 및 동영상 콘텐츠에 포함된 정보를 인식하기 위한 적어도 하나의 인식 모듈을 수신한다.The moving image content recognition apparatus 120 accesses the web server 110 and receives at least one recognition module for recognizing an image recognition program and information included in the moving image content from the web server 110 .
동영상 콘텐츠 인식 장치(120)는 수신한 영상인식 프로그램을 통해 운영체제 시스템(Operating System; OA) 상에서 정보를 인식하고자 하는 동영상 콘텐츠를 지정하고, 동영상 콘텐츠에서 정보를 인식하고자 하는 적어도 하나의 영역과 적어도 하나의 인식 모듈을 레이어 형태로 연결하여 화면데이터 수집 프로그램을 생성하며, 생성된 화면데이터 수집 프로그램을 통해 동영상 콘텐츠에 포함된 정보를 인식할 수 있다. 동영상 콘텐츠 인식 장치(120)의 자세한 구조 및 동작에 대해서는 도 2에서 설명하기로 한다.The video content recognizing apparatus 120 designates video content for which information is to be recognized on an Operating System (OA) through the received image recognition program, and includes at least one area and at least one area for recognizing information in the video content. A screen data collection program is created by connecting the recognition modules of A detailed structure and operation of the video content recognizing apparatus 120 will be described with reference to FIG. 2 .
복수의 교차 검증 장치(130)는 웹 서버(110)에서 제공하는 복수의 인식 모듈에 대한 오픈 소스를 기반으로 동영상 콘텐츠에 포함된 각종 정보를 인식 모듈에 입력하고, 인식 모듈의 결과값들에 대한 교차 검증을 수행하여 복수의 인식 모듈을 업데이트한다. 구체적으로는, 초기에 한 명 또는 소규모 그룹의 사용자가 몇 개의 데이터를 만들어 인식 모듈의 정확도를 측정하여 기준을 만들고, 각각에 데이터에 대해 복수의 검증 인원이 검증을 수행하여 기설정된 사람 수 이상 동의한 경우, 유효한 데이터로 판정한다.The plurality of cross-verification devices 130 input various information included in the video content to the recognition module based on the open source for the plurality of recognition modules provided by the web server 110, A plurality of recognition modules are updated by performing cross-validation. Specifically, one or a small group of users initially creates some data and measures the accuracy of the recognition module to create a standard, and a plurality of verification personnel perform verification on each data to agree more than a preset number of people In this case, it is judged as valid data.
또한, 복수의 교차 검증 장치(130)는 캡차(Capcha) 등와 같은 자동 입력 방지 시스템을 통하여 인식 모듈의 정확도를 향상시킬 수 있다. 예를 들면, 복수의 교차 검증 인증 장치(130)는 인식 모듈의 이용자 수 및 만족도 등을 고려하여 데이터의 추가 확보가 필요한 인식 모듈의 경우, 캡차가 자주 등장하도록 할 수 있다.In addition, the plurality of cross-validation devices 130 may improve the accuracy of the recognition module through an automatic input prevention system such as a capcha. For example, the plurality of cross-validation authentication devices 130 may cause CAPTCHAs to appear frequently in the case of a recognition module requiring additional data acquisition in consideration of the number of users and satisfaction of the recognition module.
본 발명의 실시예에서는 동영상 콘텐츠 인식 장치(110)와 복수의 교차 검증 장치(130)를 구분하여 설명하고 있지만, 동영상 콘텐츠 인식 장치(110)가 각각의 교차 검증 장치(130)가 될 수 있다.In the embodiment of the present invention, the moving image content recognition apparatus 110 and the plurality of cross-verification apparatuses 130 are separately described, but the moving image content recognition apparatus 110 may be each cross-verification apparatus 130 .
도 2는 본 발명의 제1 실시예에 따른 동영상 콘텐츠 인식 장치 내부의 개략적인 구성을 나타낸 블럭 구성도이다.2 is a block diagram showing a schematic configuration of the inside of the apparatus for recognizing video content according to the first embodiment of the present invention.
도 2를 참조하면, 본 발명에 따른 동영상 콘텐츠 인식 장치(110)는 통신부(210), 화면데이터 수집 프로그램 생성부(220), 저장부(230), 및 화면데이터 수집부(240)를 포함할 수 있다. 여기서, 화면데이터 수집 프로그램 생성부(220) 및 화면데이터 수집부(240)가 제어부를 구성한다.Referring to FIG. 2 , the moving image content recognition apparatus 110 according to the present invention may include a communication unit 210 , a screen data collection program generation unit 220 , a storage unit 230 , and a screen data collection unit 240 . can Here, the screen data collection program generation unit 220 and the screen data collection unit 240 constitute the control unit.
통신부(210)는 유무선 통신을 통해 웹 서버(110)와 데이터를 송수신한다. 즉, 통신부(210)는 웹 서버(110)로부터 영상인식 프로그램, 적어도 하나의 인식 모듈, 및 각 인식 모듈과 관련된 각종 데이터를 수신하고, 웹 서버(110)로 동영상 콘텐츠 인식 과정이나 화면데이터 수집 과정에서 생성되는 각종 데이터를 웹 서버(110)로 전송할 수 있다.The communication unit 210 transmits and receives data to and from the web server 110 through wired/wireless communication. That is, the communication unit 210 receives an image recognition program, at least one recognition module, and various data related to each recognition module from the web server 110 , and a video content recognition process or screen data collection process with the web server 110 . It is possible to transmit various data generated in the web server (110).
화면데이터 수집 프로그램 생성부(220)는 영상인식 프로그램을 통해 운영체제 시스템 상에서 정보를 인식하고자 하는 동영상 콘텐츠를 지정하고, 동영상 콘텐츠에서 정보를 인식하고자 하는 적어도 하나의 영역과 적어도 하나의 인식 모듈을 레이어 형태로 연결하여 화면데이터 수집 프로그램을 생성한다.The screen data collection program generating unit 220 designates video content for which information is to be recognized on the operating system system through the image recognition program, and forms at least one region and at least one recognition module for recognizing information in the video content in a layered form. to create a screen data collection program.
구체적으로는, 화면데이터 수집 프로그램 생성부(220)는 화면데이터 수집 프로그램을 생성하기 위해서, 우선 동영상 콘텐츠를 불러오고, 영상 편집 툴을 이용하여 동영상 콘텐츠에서 시작 부분부터 인식이 종료되어야 하는 종료 부분까지 자른다. 그리고, 화면데이터 수집 프로그램 생성부(220)는 동영상 콘텐츠의 시작 부분과 끝 부분의 편집을 완료한 후에, 타임 테이블에 동영상 콘텐츠를 색인한다. 예를 들면, 화면데이터 수집 프로그램 생성부(220)는 메인 메뉴, 게임 시작창, 인게임 상황, 및 게임 종료 상황 등을 색인할 수 있다.Specifically, in order to generate the screen data collection program, the screen data collection program generation unit 220 first calls the video content, and uses an image editing tool from the beginning to the end of the video content to be recognized. cut Then, the screen data collection program generating unit 220 indexes the video content in the time table after editing the beginning and the end of the video content. For example, the screen data collection program generation unit 220 may index a main menu, a game start window, an in-game situation, and a game end situation.
화면데이터 수집 프로그램 생성부(220)는 동영상 콘텐츠의 색인이 완료된 후에, 각 색인별 레이어를 설정한다.The screen data collection program generating unit 220 sets a layer for each index after indexing of the video content is completed.
구체적으로는, 화면데이터 수집 프로그램 생성부(220)가 각 색인별 레이어를 설정하는 과정은 다음과 같다.Specifically, the process of setting the layer for each index by the screen data collection program generating unit 220 is as follows.
우선, 화면데이터 수집 프로그램 생성부(220)는 동영상 콘텐츠에 마스크를 설정하고, 해상도의 변화에 따라 영역의 변화를 자동으로 잡아주기 위해 마스크에 영상 해상도와 각 영역의 해상도별 변화 특성을 설정한다. 여기서, 화면데이터 수집 프로그램 생성부(220)는 각 영역의 해상도별 변화 특성으로서 선형 및 비선형 중에 어느 하나를 선택할 수 있는데, 비선형을 선택한 경우, 사용자로부터 입력받은 좌표값을 기준으로 해상도를 변화시킨다. 이때, 화면데이터 수집 프로그램 생성부(220)는 좌표값이 입력되지 않은 해상도에 대해서는 스플라인 보간(Spline Interpolation)을 통해 해상도를 변화시킬 수 있다.First, the screen data collection program generating unit 220 sets a mask on the moving picture content, and sets the image resolution and the change characteristics for each resolution of each region in the mask in order to automatically catch the change of the region according to the change in resolution. Here, the screen data collection program generation unit 220 may select any one of linear and non-linear as a characteristic of change for each resolution of each region. In this case, the screen data collection program generating unit 220 may change the resolution through spline interpolation with respect to a resolution to which a coordinate value is not input.
그리고, 화면데이터 수집 프로그램 생성부(220)는 각 영역의 해상도별 변화 특성을 설정한 후에, 색인별로 사용할 레이어를 선택한다. 즉, 화면데이터 수집 프로그램 생성부(220)는 레이어 선택창에서 색인별로 사용할 레이어를 선택한 후 드래그하여 모듈 생성용 트리에 옮겨놓는다. 여기서, 레이어는 기본적으로 마스킹의 바로 하단에 적용되는 기본 레이어, 영역의 일부분을 자른 뒤, 내부의 특징점들의 위치값을 검출하고, 검출된 위치값을 기본값(Default)과 비교하여 영역의 흔들림을 마스크 데이터와 영상 처리 기법으로 보정하는 흔들림 보정 레이어, 반투명 레이어의 감지를 위해 존재하는 반투명 레이어, 및 기존에 사용한 영역과 관계없이 별도로 동작하는 영역, 즉, 위치, 해상도별로 변화 특성이 다른 영역을 지정하는 추가 레이어를 포함할 수 있다.In addition, the screen data collection program generation unit 220 selects a layer to be used for each index after setting the change characteristics for each resolution of each area. That is, the screen data collection program generating unit 220 selects a layer to be used by index in the layer selection window, and then drags it and moves it to the module creation tree. Here, the layer is basically a base layer applied just below the masking, cut a part of the region, detect the position values of the internal feature points, and compare the detected position values with the default value to mask the shaking of the region Image stabilization layer that compensates with data and image processing techniques, a translucent layer that exists to detect a translucent layer, and an area that operates independently of the previously used area, that is, an area with different change characteristics for each location and resolution. Additional layers may be included.
화면데이터 수집 프로그램 생성부(220)는 색인별 레이어 설정이 완료된 후, 영역 위치 충진 레이어(UI Location Filling Layer)를 이용하여 각 영역별로 인식해야 하는 정보가 있는 부분을 정사각형 또는 직사각형 형태로 지정한 뒤 상위 레이어에 포함시킴으로써 인식 모듈을 위치시킬 수 있다. 결과적으로, 화면데이터 수집 프로그램 생성부(220)는 흔들림을 보정하는 레이어 상에서 인식해야 하는 범위를 안정적으로 조정할 수 있다.After the screen data collection program generation unit 220 completes the layer setting for each index, a portion having information to be recognized for each area is designated in a square or rectangular shape using a UI Location Filling Layer, and then The recognition module can be located by including it in a layer. As a result, the screen data collection program generation unit 220 can stably adjust the range to be recognized on the shake correction layer.
화면데이터 수집 프로그램 생성부(220)는 영역 위치 충진 레이어를 위치시킨 뒤에 인식 모듈을 통해 인식해야 하는 정보가 어떤 종류의 정보인지 설정할 수 있다.The screen data collection program generation unit 220 may set the type of information to be recognized through the recognition module after locating the region location filling layer.
화면데이터 수집 프로그램 생성부(220)는 인식해야 하는 정보의 종류를 선택한 후에, 영역 위치 충진 레이어에 인식 모듈을 삽입한다. 여기서, 화면데이터 수집 프로그램 생성부(220)는 이전에 입력한 데이터의 종류에 맞게 사용할 수 있는 레이어를 강조하여 표시할 수 있고, 또한 영역 위치 충진 레이어에 대응되는 인식 모듈을 자동으로 제공할 수 있다. 예를 들면, 영역 위치 충진 레이어를 통해 인식 범위를 정하면, 그 인식 범위는 정사각형, 원형, 또는 직사각형 형태 등이 될 수 있는데, 화면데이터 수집 프로그램 생성부(220)는 인식 범위의 각 형태별로 대응되는 인식 모듈을 자동으로 추천하여 제공할 수 있다.After selecting the type of information to be recognized, the screen data collection program generating unit 220 inserts a recognition module into the area location filling layer. Here, the screen data collection program generation unit 220 may highlight and display a layer that can be used according to the type of previously input data, and may also automatically provide a recognition module corresponding to the area location filling layer. . For example, if the recognition range is determined through the area location filling layer, the recognition range may be in a square, circular, or rectangular shape. A recognition module can be automatically recommended and provided.
이와 더불어, 화면데이터 수집 프로그램 생성부(220)는 레이어의 특성 위주로 각 인식 모듈별 작동 원리에 대한 도움말을 제공할 수도 있다.In addition, the screen data collection program generating unit 220 may provide help on the operation principle of each recognition module based on the characteristics of the layer.
이와 같이, 화면데이터 수집 프로그램 생성부(220)는 동영상 콘텐츠를 색인하고, 색인별 레이어를 설정하며, 각 레이어에 인식 모듈을 삽입하는 일련의 절차를 통해 화면데이터 수집 프로그램을 생성할 수 있다.In this way, the screen data collection program generation unit 220 may generate the screen data collection program through a series of procedures of indexing video content, setting layers for each index, and inserting a recognition module into each layer.
저장부(230)는 통신부(210)를 통해 웹 서버(110)로부터 수신한 영상인식 프로그램 및 적어도 하나의 인식 모듈과, 화면데이터 수집 프로그램 생성부(220)에 의해 생성된 화면데이터 수집 프로그램을 저장한다. 이외에도, 저장부(230)는 화면데이터 수집 프로그램 및 영상인식 프로그램의 구동에 필요한 운영체제 및 영상인식 과정 및 화면데이터 수집 프로그램 생성 과정에 필요한 데이터들을 저장할 수도 있다. 예를 들면, 저장부(230)는 전술한 비후처리 데이터 및 후처리 데이터를 저장할 수 있다. 이를 위해, 저장부(230)는 복수의 저장 영역으로 나누어질 수도 있다.The storage unit 230 stores the image recognition program and at least one recognition module received from the web server 110 through the communication unit 210 , and the screen data collection program generated by the screen data collection program generation unit 220 . do. In addition, the storage unit 230 may store an operating system necessary for driving a screen data collection program and an image recognition program, and data required for an image recognition process and a screen data collection program generation process. For example, the storage 230 may store the above-described non-post-processed data and post-processed data. To this end, the storage unit 230 may be divided into a plurality of storage areas.
또한, 저장부(230)는 주기적 또는 화면데이터 수집 프로그램의 실행시마다 웹 서버(110)로부터 업데이트된 인식 모듈을 수신할 수 있다.Also, the storage unit 230 may receive the updated recognition module from the web server 110 periodically or whenever the screen data collection program is executed.
화면데이터 수집부(240)는 저장부(230)에 저장된 화면데이터 수집 프로그램을 통해 사용자가 직접 플레이하는 화면에서 다량의 데이터를 인식할 수 있다.The screen data collection unit 240 may recognize a large amount of data on a screen directly played by the user through the screen data collection program stored in the storage unit 230 .
따라서, 본 발명의 제1 실시예에 따르면, 사용자는 전술한 구성의 동영상 콘텐츠 인식 장치를 통해 복잡한 프로그래밍 없이 게임 데이터를 인식하는 프로그램을 제작할 수 있다.Accordingly, according to the first embodiment of the present invention, the user can create a program for recognizing game data without complicated programming through the video content recognition device having the above configuration.
도 3은 본 발명의 제1 실시예에 따른 동영상 콘텐츠 인식 방법을 나타낸 흐름도이다.3 is a flowchart illustrating a video content recognition method according to the first embodiment of the present invention.
우선, 본 발명의 제1 실시예에서 동영상 콘텐츠를 인식하기 위해서는, 인식해야 하는 영역의 현재 상태와 위치, 그리고 인식하고자 하는 영역의 정보, 즉, 데이터의 데이터 타입을 포함하는 세 가지 요건이 필수적이며, 동영상 콘텐츠 인식 장치(120)는 이 세 가지 요건으로 영역에 인식 모듈을 위치시킬 수 있다.First, in order to recognize video content in the first embodiment of the present invention, three requirements including the current state and location of the region to be recognized, and information of the region to be recognized, that is, the data type of data, are essential. , the video content recognizing device 120 may place the recognition module in the area according to these three requirements.
본 발명의 실시예에서는 설명의 편의상, 동영상 콘텐츠로서 게임 동영상을 예로 들어 설명하고 있지만 이에 한정되는 것은 아니며, 동영상 콘텐츠는 영화, 스포츠, 드라마, 예능, 및 시사 등의 다양한 동영상을 포함할 수 있다. 특히, 본 발명의 실시예에서 동영상 콘텐츠의 영역이라 함은 유저 인터페이스(User Interface; UI)를 나타낸다.In the embodiment of the present invention, for convenience of description, a game video is used as an example of video content, but the present invention is not limited thereto, and the video content may include various videos such as movies, sports, dramas, entertainment, and current affairs. In particular, in the embodiment of the present invention, the area of video content indicates a user interface (UI).
도 3을 참조하면, 본 발명에 따른 동영상 콘텐츠 인식 장치(120)는 웹 서버(110)에 접속하여 웹 서버(110)로부터 영상인식 프로그램 및 동영상 콘텐츠에 포함된 정보를 인식하기 위한 적어도 하나의 인식 모듈을 수신한다(S310).Referring to FIG. 3 , the apparatus 120 for recognizing video content according to the present invention accesses the web server 110 to recognize at least one recognition for recognizing information included in an image recognition program and video content from the web server 110 . A module is received (S310).
이어서, 동영상 콘텐츠 인식 장치(120)는 수신한 영상인식 프로그램을 통해 운영체제 시스템 상에서 정보를 인식하고자 하는 동영상 콘텐츠를 지정한다(S320). 이때, 동영상 콘텐츠 인식 장치(120)는 영상 편집 툴을 이용하여 동영상 콘텐츠의 시작 부분부터 인식이 종료되어야 하는 종료 부분까지 자른다.Next, the video content recognizing apparatus 120 designates the video content for which information is to be recognized on the operating system system through the received image recognition program (S320). In this case, the video content recognizing apparatus 120 cuts from the beginning of the video content to the end of which recognition is to be terminated by using an image editing tool.
이어서, 동영상 콘텐츠 인식 장치(120)는 동영상 콘텐츠에서 정보를 인식하고자 하는 적어도 하나의 영역과 적어도 하나의 인식 모듈을 레이어 형태로 연결하여 화면데이터 수집 프로그램을 생성한다(S330).Next, the video content recognizing apparatus 120 generates a screen data collection program by connecting at least one area for recognizing information in video content and at least one recognition module in the form of a layer (S330).
끝으로, 동영상 콘텐츠 인식 장치(120)는 생성된 화면데이터 수집 프로그램을 통해 동영상 콘텐츠에 포함된 정보를 인식한다(S340).Finally, the video content recognizing apparatus 120 recognizes information included in the video content through the generated screen data collection program (S340).
도 4는 본 발명의 제1 실시예에 따른 화면데이터 수집 프로그램을 생성하는 방법을 나타낸 흐름도이다.4 is a flowchart illustrating a method of generating a screen data collection program according to the first embodiment of the present invention.
도 4를 참조하면, 동영상 콘텐츠 인식 장치(120)는 타임 테이블에 동영상 콘텐츠를 색인한다(S410). 예를 들면, 동영상 콘텐츠 인식 장치(120)는 메인 메뉴, 게임 시작창, 인게임 상황, 및 게임 종료 상황 등을 색인할 수 있다.Referring to FIG. 4 , the video content recognizing apparatus 120 indexes video content in a time table ( S410 ). For example, the video content recognizing apparatus 120 may index a main menu, a game start window, an in-game situation, and a game end situation.
동영상 콘텐츠 인식 장치(120)는 동영상 콘텐츠의 색인이 완료된 후에, 각 색인별 레이어를 설정한다(S420).After indexing of the video content is completed, the video content recognizing apparatus 120 sets a layer for each index ( S420 ).
이어서, 동영상 콘텐츠 인식 장치(120)는 색인별 레이어 설정이 완료된 후, 영역 위치 충진 레이어(UI Location Filling Layer)를 이용하여 각 영역별로 인식해야 하는 정보가 있는 부분을 지정한 뒤 상위 레이어에 포함시킴으로써 인식 모듈을 위치시킨다(S430). 여기서, 동영상 콘텐츠 인식 장치(120)는 인식해야 하는 정보가 있는 부분을 정사각형 또는 직사각형 형태로 지정할 수 있다.Next, the video content recognizing apparatus 120 recognizes by designating a part having information to be recognized for each area by using a UI Location Filling Layer after completing the layer setting for each index, and including it in an upper layer Position the module (S430). Here, the video content recognizing apparatus 120 may designate a part having information to be recognized in a square or rectangular shape.
동영상 콘텐츠 인식 장치(120)는 영역 위치 충진 레이어를 위치시킨 뒤에 인식 모듈을 통해 인식해야 하는 정보가 어떤 종류의 정보인지 설정한다(S440). 예를 들면, 인게임 데이터는 스킬의 온오프 또는 상태 이상과 같은 단순한 상태 정보와, 쿨타임 또는 준비시간 리스폰 타임과 같은 시간과 연관된 데이터와, HP나 아이템 개수와 같은 양적 측면의 데이터를 포함할 수 있다.The video content recognition apparatus 120 sets the type of information to be recognized through the recognition module after locating the area location filling layer (S440). For example, in-game data may include simple status information such as skill on/off or status abnormality, time-related data such as cooldown time or preparation time or respawn time, and quantitative data such as HP or item count. have.
끝으로, 동영상 콘텐츠 인식 장치(120)는 인식해야 하는 정보의 종류를 선택한 후에, 영역 위치 충진 레이어에 인식 모듈을 삽입한다(S450). 여기서, 동영상 콘텐츠 인식 장치(120)는 이전에 입력한 데이터의 종류에 맞게 사용할 수 있는 레이어를 강조하여 표시할 수 있고, 또한 영역 위치 충진 레이어에 대응되는 인식 모듈을 자동으로 제공할 수 있다. 예를 들면, 영역 위치 충진 레이어를 통해 인식 범위를 정하면, 그 인식 범위는 정사각형, 원형, 또는 직사각형 형태 등이 될 수 있는데, 동영상 콘텐츠 인식 장치(120)는 인식 범위의 각 형태별로 대응되는 인식 모듈을 자동으로 추천하여 제공할 수 있다.Finally, after selecting the type of information to be recognized, the video content recognizing apparatus 120 inserts a recognition module into the area location filling layer ( S450 ). Here, the video content recognizing apparatus 120 may highlight and display a layer that can be used according to the type of previously input data, and may also automatically provide a recognition module corresponding to the area location filling layer. For example, if the recognition range is determined through the area location filling layer, the recognition range may be in a square, circular, or rectangular shape. can be automatically recommended and provided.
도 5는 본 발명의 제1 실시예에 따른 각 색인별 레이어를 설정하는 방법을 나타낸 흐름도이다.5 is a flowchart illustrating a method of setting a layer for each index according to the first embodiment of the present invention.
도 5를 참조하면, 동영상 콘텐츠 인식 장치(120)는 동영상 콘텐츠에 마스크를 설정한다(S510).Referring to FIG. 5 , the moving image content recognizing apparatus 120 sets a mask on the moving image content ( S510 ).
동영상 콘텐츠 인식 장치(120)는 해상도의 변화에 따라 영역의 변화를 자동으로 잡아주기 위해 마스크에 영상 해상도와 각 영역의 해상도별 변화 특성을 설정한다(S520). 여기서, 동영상 콘텐츠 인식 장치(120)는 각 영역의 해상도별 변화 특성으로서 선형 및 비선형 중에 어느 하나를 선택할 수 있는데, 비선형을 선택한 경우, 사용자로부터 입력받은 좌표값을 기준으로 해상도를 변화시킨다. 이때, 동영상 콘텐츠 인식 장치(120)는 좌표값이 입력되지 않은 해상도에 대해서는 스플라인 보간을 통해 해상도를 변화시킬 수 있다.The moving image content recognizing apparatus 120 sets the image resolution and the resolution characteristic of each region in the mask to automatically catch the change of the region according to the change in resolution (S520). Here, the moving image content recognizing apparatus 120 may select any one of linear and non-linear as a change characteristic for each resolution of each region. In this case, the video content recognizing apparatus 120 may change the resolution through spline interpolation for a resolution to which a coordinate value is not input.
동영상 콘텐츠 인식 장치(120)는 각 영역의 해상도별 변화 특성을 설정한 후에, 색인별로 사용할 레이어를 선택한다(S530). 즉, 동영상 콘텐츠 인식 장치(120)는 레이어 선택창에서 색인별로 사용할 레이어를 선택한 후 드래그하여 모듈 생성용 트리에 옮겨놓는다. 여기서, 레이어는 기본적으로 마스킹의 바로 하단에 적용되는 기본 레이어, 영역의 일부분을 자른 뒤, 내부의 특징점들의 위치값을 검출하고, 검출된 위치값을 기본값과 비교하여 영역의 흔들림을 마스크 데이터와 영상 처리 기법으로 보정하는 흔들림 보정 레이어, 반투명 레이어의 감지를 위해 존재하는 반투명 레이어, 및 기존에 사용한 영역과 관계없이 별도로 동작하는 영역, 즉, 위치, 해상도별로 변화 특성이 다른 영역을 지정하는 추가 레이어를 포함할 수 있다.The moving image content recognizing apparatus 120 selects a layer to be used for each index after setting the change characteristics for each resolution of each area (S530). That is, the video content recognizing apparatus 120 selects a layer to be used for each index in the layer selection window, and then drags it and moves it to the module creation tree. Here, the layer is basically the base layer applied immediately below the masking, cut a part of the region, detect the position values of the internal feature points, compare the detected position values with the default value, and then calculate the shaking of the region with the mask data and the image An additional layer that specifies an image stabilization layer that corrects with the processing technique, a translucent layer that exists for the detection of a translucent layer, and an area that operates independently of the previously used area, that is, an area with different change characteristics depending on location and resolution. may include
전술한 방법은 다양한 수단을 통해 구현될 수 있다. 예를 들어, 본 발명의 실시예들은 하드웨어, 펌웨어(Firmware), 소프트웨어 또는 그것들의 결합 등에 의해 구현될 수 있다.The above-described method may be implemented through various means. For example, embodiments of the present invention may be implemented by hardware, firmware, software, or a combination thereof.
하드웨어에 의한 구현의 경우, 본 발명의 실시예들에 따른 방법은 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 프로세서, 컨트롤러, 마이크로컨트롤러 및 마이크로프로세서 등에 의해 구현될 수 있다.In case of implementation by hardware, the method according to embodiments of the present invention may include one or more Application Specific Integrated Circuits (ASICs), Digital Signal Processors (DSPs), Digital Signal Processing Devices (DSPDs), and Programmable Logic Devices (PLDs). , FPGAs (Field Programmable Gate Arrays), processors, controllers, microcontrollers and microprocessors, and the like.
펌웨어나 소프트웨어에 의한 구현의 경우, 본 발명의 실시예들에 따른 방법은 이상에서 설명된 기능 또는 동작들을 수행하는 모듈, 절차 또는 함수 등의 형태로 구현될 수 있다. 소프트웨어 코드는 메모리 유닛에 저장되어 프로세서에 의해 구동될 수 있다. 상기 메모리 유닛은 상기 프로세서 내부 또는 외부에 위치하여, 이미 공지된 다양한 수단에 의해 상기 프로세서와 데이터를 주고 받을 수 있다.In the case of implementation by firmware or software, the method according to the embodiments of the present invention may be implemented in the form of a module, procedure, or function that performs the functions or operations described above. The software code may be stored in the memory unit and driven by the processor. The memory unit may be located inside or outside the processor, and may transmit and receive data to and from the processor by various known means.
도 6은 본 발명의 제1 실시예에 따른 타임 테이블의 예시 화면을 나타낸 도면이다.6 is a view showing an example screen of a time table according to the first embodiment of the present invention.
도 6을 참조하면, 사용자는 타임 테이블에 메인 메뉴(610), 게임시작창(620), 인게임 상황(630), 및 게임 종료 상황(630) 등을 색인할 수 있다. 여기서, 인게임 상황(630)은 생존 상황 및 사망 상황을 포함할 수 있다.Referring to FIG. 6 , the user may index the main menu 610 , the game start window 620 , the in-game situation 630 , and the game end situation 630 in the time table. Here, the in-game situation 630 may include a survival situation and a death situation.
또한, 타임 테이블의 셋팅은 영역이 달라지고, 인식 모듈의 전체적인 셋팅이나 인게임 플레이나 게임 큐 상태 등에 따라 변경될 수 있다.In addition, the setting of the time table varies in an area, and may be changed according to the overall setting of the recognition module, in-game play, game queue status, and the like.
도 7은 본 발명의 제1 실시예에 따른 영상인식 프로그램의 예시 화면을 나타낸 도면이다.7 is a view showing an example screen of the image recognition program according to the first embodiment of the present invention.
도 7을 참조하면, 사용자는 각각의 버튼(700)을 드래그하여 타임 테이블의 트리창(800)에 가져올 수 있다. 즉, 하위 레이어를 상위 레이어에 드래그하면 그 레이어에 포함되는 방식이다.Referring to FIG. 7 , the user may drag each button 700 and bring it to the tree window 800 of the time table. In other words, if a lower layer is dragged onto an upper layer, it is included in that layer.
이를 위해, 각각의 레이어는 우선순위를 가지며, 이때 우선순위가 없는 레이어도 있을 수 있다. 예를 들면, 기본 레이어(720), 흔들림 보정 레이어(730), 및 추가 레이어(740)는 우선순위가 없으며, 마스크(710), 기본 레이어(720), 및 영역 위치 충진 레이어(750)는 우선순위가 있을 수 있다. 즉, 마스크(710)가 상위 레이어이고, 기본 레이어(720)가 중간 레이어이며, 영역 위치 충진 레이어(750)가 하위 레이어일 수 있다.To this end, each layer has a priority, and in this case, there may be layers without priority. For example, the base layer 720 , the shake correction layer 730 , and the additional layer 740 have no priority, and the mask 710 , the base layer 720 , and the region location fill layer 750 have priority. There may be rankings. That is, the mask 710 may be an upper layer, the base layer 720 may be an intermediate layer, and the region location filling layer 750 may be a lower layer.
기본 레이어(720)는 영역의 디자인적인 요소(테두리 및 경계 등)와 정보가 포함된 영역들을 각각 정하고, 각 영역을 내포하고 있는 정보의 형태에 따라 각 영역을 구분 지어주는 역할을 한다. The base layer 720 serves to define regions including design elements (borders and boundaries, etc.) and information of the region, respectively, and classify each region according to the type of information that includes each region.
게임 동영상의 경우에는, 타임 테이블 아래에 게임 상황을 구분지어 각 색인별 영역 셋팅이 가능하지만, 그럼에도 불구하고 각각의 다른 셋팅 아래 움직임이 변화하거나 색이나 그래픽적인 요소들이 변화하는 영역이 있을 수 있다. 예를 들면, 스킬창 영역과 미니맵 영역은 분리되어 있다. 이를, 추가 레이어(740)를 통해 별도의 레이어로 지정하면, 각각 다른 설정(예를 들면, 인터페이스 크기 조정 및 미니맵 크기 조정) 아래 변화하는 값을 각각 적용시켜 줄 수 있다. 즉, 추가 레이어(740)는 동영상 콘텐츠에서 별도의 형태로 동작하는 개별 요소들을 지정한다.In the case of a game video, it is possible to set the area for each index by dividing the game situation under the time table, but nevertheless, there may be areas in which movement or color or graphic elements change under each other setting. For example, the skill window area and the minimap area are separated. If this is designated as a separate layer through the additional layer 740, values that change under different settings (eg, interface size adjustment and minimap size adjustment) may be applied respectively. That is, the additional layer 740 designates individual elements operating in a separate form in the video content.
영역 위치 충진 레이어(750)는 도 8에 도시된 바와 같이, 최종적으로 상위 레이어의 캡쳐 영역(810)에서 크롭할 픽셀, 즉, 인식 모듈에 입력될 영역을 지정하는 역할을 수행한다. 즉, 각 오픈 소스별로 최적화된 픽셀 사이즈가 정사각형 또는 직사각형 형태 등으로 다르기 때문에, 사용자는 각 형태에 맞도록 영역 위치 충진 레이어(750)를 통해 인식 모듈이 인식할 수 있는 영역을 지정해줄 수 있다. 따라서, 영역 위치 충진 레이어(750)는 서로 다른 영역이 서로 침범하는 것을 방지할 수 있다.As shown in FIG. 8 , the area location filling layer 750 serves to designate a pixel to be finally cropped in the capture area 810 of the upper layer, that is, an area to be input to the recognition module. That is, since the optimized pixel size for each open source is different in a square or rectangular shape, the user can designate an area that the recognition module can recognize through the area location filling layer 750 to fit each shape. Accordingly, the region location filling layer 750 may prevent different regions from encroaching on each other.
도 9는 본 발명의 제2 실시예에 따른 비언어 기반의 정보 전달 장치 내부의 개략적인 구성을 나타낸 도면이다.9 is a diagram showing a schematic configuration of the inside of a non-verbal information delivery device according to a second embodiment of the present invention.
본 발명에 따른 비언어 기반의 정보 전달 장치는 스트랩 형태로 손목에 착용되어, 본 발명의 제1 실시예에 따른 동영상 콘텐츠 인식 장치로부터 동영상 콘텐츠에서 인식한 정보를 수신하고, 수신한 정보를 조임, 압력, 전기자극, 및 진동 등의 형태로 사용자에게 전달한다.The non-verbal information delivery device according to the present invention is worn on the wrist in the form of a strap, receives information recognized from the video content from the video content recognition device according to the first embodiment of the present invention, and tightens the received information; It is transmitted to the user in the form of pressure, electrical stimulation, and vibration.
도 9를 참조하면, 본 발명에 따른 비언어 기반의 정보 전달 장치는 적어도 둘 이상의 솔레노이드 모듈(910), 압력 모듈(920), 전기자극 모듈(930), 진동 모듈(940), 주파수 조절 모듈(950), 피부 저항 측정 모듈(960), 및 제어부(970)를 포함할 수 있다.9, the non-verbal information delivery device according to the present invention includes at least two or more solenoid modules 910, a pressure module 920, an electrical stimulation module 930, a vibration module 940, and a frequency control module ( 950 , a skin resistance measurement module 960 , and a controller 970 .
각각의 솔레노이드 모듈(910)은 네오디뮴 자석을 솔레노이드 코어로 사용하며, 솔레노이드의 척력으로 자석을 밀어내고, 자석의 자체 자력에 의해 자석을 원래 위치로 복귀시킨다. 이와 같은 구성을 갖는 적어도 둘 이상의 솔레노이드 모듈(910)은 이동 방향 또는 회전 방향에 대하여 압력을 가하는 형태로 정보를 전달할 수 있다.Each solenoid module 910 uses a neodymium magnet as a solenoid core, pushes the magnet by the repulsive force of the solenoid, and returns the magnet to its original position by the magnet's own magnetic force. At least two or more solenoid modules 910 having such a configuration may transmit information in a form of applying pressure to a moving direction or a rotating direction.
압력 모듈(920)은 리니어 서보모터로 구현될 수 있으며, 리니어 서보모터를 통해 와이어를 당겨 손목을 조이는 원리로 동작한다. 예를 들면, 압력 모듈(920)은 속력이 증가할수록 조임을 점점 강하게 하고, 속력이 감소할수록 조임을 점점 약하게 할 수 있다.The pressure module 920 may be implemented as a linear servomotor, and operates on the principle of tightening the wrist by pulling a wire through the linear servomotor. For example, the pressure module 920 may gradually strengthen the tightening as the speed increases, and may gradually weaken the tightening as the speed decreases.
전기자극 모듈(930)은 1~2 mA의 전류를 10 MHz 이상의 고주파 형태로 발생시키는 모듈로 구현될 수 있다. 전기자극 모듈(930)의 주파수는 발진회로의 저항과 커패시턴스 값을 통해 조절될 수 있다.The electrical stimulation module 930 may be implemented as a module that generates a current of 1 to 2 mA in a high frequency form of 10 MHz or more. The frequency of the electrical stimulation module 930 may be adjusted through the resistance and capacitance values of the oscillation circuit.
진동 모듈(940)은 솔레노이드 모듈(910)과 마찬가지로 솔레노이드와 네오디뮴 자석으로 구성되고, 솔레노이드에 펄스를 투사하여 솔레노이드 내부의 네오디뮴 자석이 진동하도록 함으로써 동작한다. 진동 모듈(940)의 진동 강도는 하드웨어, 소프트웨어적으로 주파수를 변경하거나 네오디뮴 자석의 질량을 조절함으로써 조절될 수 있다.The vibration module 940, like the solenoid module 910, is composed of a solenoid and a neodymium magnet, and operates by projecting a pulse to the solenoid to cause the neodymium magnet inside the solenoid to vibrate. The vibration intensity of the vibration module 940 may be adjusted by changing the frequency or adjusting the mass of the neodymium magnet by hardware or software.
제어부(970)는 아두이노(Arduino)를 기반으로 하는 저전압, 저전력의 MCU(Micro Control Unit)로 구현될 수 있다. 제어부(970)는 1 A의 배터리 충전을 지원하며, 3개의 LED를 통해 충전 상태를 확인할 수 있다. 또한, 제어부(970)는 블루투스 통신 모듈을 탑재하고, 적어도 12개 이상의 자극 모듈을 제어할 수 있다.The controller 970 may be implemented as a low-voltage, low-power MCU (Micro Control Unit) based on an Arduino. The control unit 970 supports 1 A battery charging, and the charging state can be checked through three LEDs. Also, the controller 970 may be equipped with a Bluetooth communication module and control at least 12 stimulation modules.
전술한 구성을 갖는 본 발명에 따른 제어부(970)는 동영상 콘텐츠 인식 장치로부터 수신한 동영상 콘텐츠의 정보가 연속된 정보 또는 단일 정보인지 여부를 판단하고, 인식된 정보가 연속된 정보인 경우, 연속된 정보를 솔레노이드 모듈(910) 및 압력 모듈(920) 각각을 통해 압력 및 조임 형태로 전달한다. 또한, 제어부(970)는 인식된 정보가 단일 정보인 경우, 단일 정보를 진동 모듈(940) 및 전기자극 모듈(930) 각각을 통해 진동 및 전기자극 형태로 전달한다. 이를 위해, 제어부(970)는 사용자로 하여금 진동 모듈(940) 및 전기자극 모듈(930) 중에 어느 모듈을 통해 단일 정보를 전달하도록 할 것인지 단일 정보를 선택하도록 할 수 있다.The control unit 970 according to the present invention having the above configuration determines whether the information of the moving image content received from the moving image content recognition apparatus is continuous information or single information, and if the recognized information is continuous information, the continuous information Information is transmitted in the form of pressure and tightening through the solenoid module 910 and the pressure module 920, respectively. In addition, when the recognized information is single information, the controller 970 transmits the single information in the form of vibration and electrical stimulation through each of the vibration module 940 and the electrical stimulation module 930 . To this end, the control unit 970 may allow the user to select a single piece of information through which module among the vibration module 940 and the electrical stimulation module 930 to transmit the single information.
한편, 본 발명에 따른 비언어 기반의 정보 전달 장치는, 주파수에 따라 동일한 양의 전류가 흘러도 경피, 진피 자극과 근육자극의 정도가 달라지기 때문에, 이를 조절할 수 있는 주파수 조절 모듈(950)을 더 포함할 수 있다. 주파수 조절 모듈(950)은 전기자극 모듈(930) 내 발진회로의 커패시턴스 값을 조절하여 주파수를 조절한다.On the other hand, in the non-verbal information delivery device according to the present invention, even if the same amount of current flows according to the frequency, the degree of percutaneous, dermal stimulation and muscle stimulation varies, so a frequency control module 950 that can adjust this is further added. may include The frequency control module 950 adjusts the frequency by adjusting the capacitance value of the oscillation circuit in the electrical stimulation module 930 .
또한, 본 발명에 따른 비언어 기반의 정보 전달 장치는, 피부 저항이 항상 일정하지 않기 때문에 일정한 전류를 흐르게 하기 위해, 피부의 저항을 측정하는 피부 저항 측정 모듈(960)을 추가로 포함할 수 있다. 이에, 제어부(970)는 피부 저항 측정 모듈(960)을 통해 측정된 저항값에 따라 주파수 조절 모듈(950)을 통해 전기자극 모듈(930)의 주파수를 조절할 수 있다.In addition, the non-verbal information delivery device according to the present invention may further include a skin resistance measurement module 960 for measuring the resistance of the skin in order to flow a constant current because the skin resistance is not always constant. . Accordingly, the control unit 970 may adjust the frequency of the electrical stimulation module 930 through the frequency adjustment module 950 according to the resistance value measured through the skin resistance measurement module 960 .
도 10은 본 발명의 제2 실시예에 따른 솔레노이드 모듈의 구성을 나타낸 도면이다.10 is a view showing the configuration of a solenoid module according to a second embodiment of the present invention.
도 10을 참조하면, 본 발명에 따른 솔레노이드 모듈(910)은 솔레노이드(912) 및 자석(914)을 포함한다. 자석(914)은 네오디뮴 자석이며, 솔레노이드(912)의 코어로 사용된다.Referring to FIG. 10 , the solenoid module 910 according to the present invention includes a solenoid 912 and a magnet 914 . The magnet 914 is a neodymium magnet and is used as a core of the solenoid 912 .
도 10의 (b)에 도시된 바와 같이, 솔레노이드 모듈(910)은 솔레노이드(912)의 척력으로 자석(914)을 밀어내고, 도 10의 (b)에 도시된 바와 같이, 자석(914)의 자체 자력에 의해 자석(914)을 원래 위치로 복귀시킨다. 이와 같은 구성을 갖는 적어도 둘 이상의 솔레노이드 모듈(910)은 이동 방향 또는 회전 방향에 대하여 압력을 가하는 형태로 정보를 전달할 수 있다.As shown in (b) of FIG. 10, the solenoid module 910 pushes the magnet 914 by the repulsive force of the solenoid 912, and as shown in FIG. The magnet 914 is returned to its original position by its own magnetic force. At least two solenoid modules 910 having such a configuration may transmit information in the form of applying pressure to the moving direction or the rotating direction.
도 11은 본 발명의 제2 실시예에 따른 비언어 기반의 정보 전달 방법을 나타낸 흐름도이다.11 is a flowchart illustrating a non-verbal information delivery method according to a second embodiment of the present invention.
도 11을 참조하면, 본 발명에 따른 비언어 기반의 정보 전달 장치는 동영상 콘텐츠 인식 장치(120)로부터 동영상 콘텐츠에서 인식한 정보를 수신한다(S1110).Referring to FIG. 11 , the non-verbal information delivery device according to the present invention receives information recognized from video content from the video content recognizing device 120 ( S1110 ).
비언어 기반의 정보 전달 장치는 수신한 정보가 연속된 정보 또는 단일 정보인지 여부를 판단한다(S1120). 예를 들면, 동영상 콘텐츠가 게임 동영상인 경우, 스턴 등을 포함하는 스킬 상태가 단일 정보이고, 스킬이나 버프의 쿨타임이 연속된 정보가 될 수 있다.The non-verbal information delivery device determines whether the received information is continuous information or single information (S1120). For example, when the video content is a game video, a skill state including a stun may be single information, and a skill or a buff's cool time may be continuous information.
비언어 기반의 정보 전달 장치는 수신한 정보가 연속된 정보인 경우, 연속된 정보를 솔레노이드 모듈(910) 및 압력 모듈(920) 각각을 통해 압력 및 조임 형태로 전달한다(S1130).When the received information is continuous information, the non-verbal information transmitting apparatus transmits the continuous information in the form of pressure and tightening through the solenoid module 910 and the pressure module 920, respectively (S1130).
비언어 기반의 정보 전달 장치는 수신한 정보가 단일 정보인 경우, 단일 정보를 진동 모듈(940) 및 전기자극 모듈(930) 각각을 통해 진동 및 전기자극 형태로 전달한다(S1140).When the received information is single information, the non-verbal information delivery device transmits the single information in the form of vibration and electrical stimulation through the vibration module 940 and the electrical stimulation module 930, respectively (S1140).
한편, 본 발명의 도 11에는 도시되지 않았지만, 본 발명에 따른 비언어 기반의 정보 전달 방법은, 비언어 기반의 정보 전달 장치가 피부 저항 측정 모듈(960)을 통해 피부의 저항을 측정하는 단계와, 피부 저항 측정 모듈(960)을 통해 측정된 저항값에 따라 주파수 조절 모듈(950)을 통해 전기자극 모듈(930)의 주파수를 조절하는 단계를 더 포함할 수 있다.On the other hand, although not shown in FIG. 11 of the present invention, the non-verbal information transmission method according to the present invention includes the steps of: the non-verbal information transmission device measuring the resistance of the skin through the skin resistance measurement module 960; , adjusting the frequency of the electrical stimulation module 930 through the frequency adjustment module 950 according to the resistance value measured through the skin resistance measurement module 960 may be further included.
전술한 방법은 다양한 수단을 통해 구현될 수 있다. 예를 들어, 본 발명의 실시예들은 하드웨어, 펌웨어(Firmware), 소프트웨어 또는 그것들의 결합 등에 의해 구현될 수 있다.The above-described method may be implemented through various means. For example, embodiments of the present invention may be implemented by hardware, firmware, software, or a combination thereof.
하드웨어에 의한 구현의 경우, 본 발명의 실시예들에 따른 방법은 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 프로세서, 컨트롤러, 마이크로컨트롤러 및 마이크로프로세서 등에 의해 구현될 수 있다.In case of implementation by hardware, the method according to embodiments of the present invention may include one or more Application Specific Integrated Circuits (ASICs), Digital Signal Processors (DSPs), Digital Signal Processing Devices (DSPDs), and Programmable Logic Devices (PLDs). , FPGAs (Field Programmable Gate Arrays), processors, controllers, microcontrollers and microprocessors, and the like.
펌웨어나 소프트웨어에 의한 구현의 경우, 본 발명의 실시예들에 따른 방법은 이상에서 설명된 기능 또는 동작들을 수행하는 모듈, 절차 또는 함수 등의 형태로 구현될 수 있다. 소프트웨어 코드는 메모리 유닛에 저장되어 프로세서에 의해 구동될 수 있다. 상기 메모리 유닛은 상기 프로세서 내부 또는 외부에 위치하여, 이미 공지된 다양한 수단에 의해 상기 프로세서와 데이터를 주고 받을 수 있다.In the case of implementation by firmware or software, the method according to the embodiments of the present invention may be implemented in the form of a module, procedure, or function that performs the functions or operations described above. The software code may be stored in the memory unit and driven by the processor. The memory unit may be located inside or outside the processor, and may transmit and receive data to and from the processor by various known means.
이상에서 본 명세서에 개시된 실시예들을 첨부된 도면들을 참조로 설명하였다. 이와 같이 각 도면에 도시된 실시예들은 한정적으로 해석되면 아니되며, 본 명세서의 내용을 숙지한 당업자에 의해 서로 조합될 수 있고, 조합될 경우 일부 구성 요소들은 생략될 수도 있는 것으로 해석될 수 있다.The embodiments disclosed herein have been described above with reference to the accompanying drawings. As such, the embodiments shown in each drawing should not be construed as being limited, and may be combined with each other by those skilled in the art having read the contents of the present specification, and when combined, it may be construed that some components may be omitted.
여기서, 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 본 명세서에 개시된 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다.Here, the terms or words used in the present specification and claims should not be construed as being limited to conventional or dictionary meanings, but should be interpreted as meanings and concepts consistent with the technical ideas disclosed in the present specification.
따라서 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 명세서에 개시된 실시예에 불과할 뿐이고, 본 명세서에 개시된 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.Therefore, the embodiments described in the present specification and the configurations shown in the drawings are only the embodiments disclosed in the present specification, and do not represent all the technical ideas disclosed in the present specification, so various equivalents that can replace them at the time of the present application It should be understood that there may be water and variations.
본 발명은 그래픽 유저 인터페이스 환경을 통해 다수의 사용자가 동영상 콘텐츠에 포함된 정보를 인식하기 위한 프로그램을 손쉽게 튜닝하고 제작하는 것 등에 이용가능하다.The present invention can be used to easily tune and produce a program for recognizing information included in video content by a plurality of users through a graphical user interface environment.

Claims (15)

  1. 동영상 콘텐츠에 포함된 정보를 인식하는 복수의 인식 모듈을 저장하는 웹 서버; 및a web server for storing a plurality of recognition modules for recognizing information included in video content; and
    상기 웹 서버로부터 상기 복수의 인식 모듈 중에 적어도 하나의 인식 모듈을 수신하고, 상기 정보를 인식하고자 하는 상기 동영상 콘텐츠를 지정하며, 상기 동영상 콘텐츠의 적어도 하나의 영역과 상기 적어도 하나의 인식 모듈을 레이어 형태로 연결하여 상기 적어도 하나의 인식 모듈을 통해 상기 동영상 콘텐츠에 포함된 정보를 인식하는 동영상 콘텐츠 인식 장치;Receive at least one recognition module from among the plurality of recognition modules from the web server, designate the video content for which the information is to be recognized, and form at least one region of the video content and the at least one recognition module in the form of a layer a video content recognition device for recognizing information included in the video content through the at least one recognition module connected to
    를 포함하는 영상 처리 시스템.An image processing system comprising a.
  2. 제1항에 있어서,According to claim 1,
    상기 동영상 콘텐츠에 포함된 각종 정보를 인식 모듈에 입력하고, 상기 인식 모듈의 결과값들에 대한 교차 검증을 수행하여 상기 복수의 인식 모듈을 업데이트하는 복수의 교차 검증 장치;a plurality of cross-validation devices for inputting various types of information included in the video content into a recognition module and performing cross-validation on the result values of the recognition module to update the plurality of recognition modules;
    를 더 포함하는 것을 특징으로 하는 영상 처리 시스템.Image processing system, characterized in that it further comprises.
  3. 동영상 콘텐츠에 포함된 정보를 인식하는 적어도 하나의 인식 모듈을 저장하는 저장부; 및a storage unit for storing at least one recognition module for recognizing information included in video content; and
    정보를 인식하고자 하는 동영상 콘텐츠를 지정하고, 상기 동영상 콘텐츠의 적어도 하나의 영역과 상기 저장부에 저장된 상기 적어도 하나의 인식 모듈을 레이어 형태로 연결하여 상기 적어도 하나의 인식 모듈을 통해 상기 동영상 콘텐츠에 포함된 정보를 인식하는 제어부;Designate video content for which information is to be recognized, connect at least one region of the video content and the at least one recognition module stored in the storage in a layer form, and include in the video content through the at least one recognition module a control unit for recognizing the specified information;
    를 포함하는 동영상 콘텐츠 인식 장치.A video content recognition device comprising a.
  4. 제3항에 있어서,4. The method of claim 3,
    상기 제어부는 타임 테이블에 상기 동영상 콘텐츠를 색인하고, 색인별 레이어를 설정하며, 각 레이어에 상기 인식 모듈을 삽입하여 상기 화면데이터 수집 프로그램을 생성하는 것을 특징으로 하는 동영상 콘텐츠 인식 장치.The control unit indexes the video content in a time table, sets layers for each index, and inserts the recognition module into each layer to generate the screen data collection program.
  5. 제4항에 있어서,5. The method of claim 4,
    상기 제어부는 상기 동영상 콘텐츠에 마스크를 설정하고, 상기 마스크에 영상 해상도와 각 영역의 해상도별 변화 특성을 설정한 후, 색인별로 사용할 레이어를 선택하는 것을 특징으로 하는 동영상 콘텐츠 인식 장치.and the control unit sets a mask on the video content, sets an image resolution and a change characteristic for each resolution of each region in the mask, and then selects a layer to be used for each index.
  6. 제5항에 있어서,6. The method of claim 5,
    상기 제어부는 각 영역의 해상도별 변화 특성으로서 선형 및 비선형 중 어느 하나를 선택하는 것을 특징으로 하는 동영상 콘텐츠 인식 장치.The control unit selects any one of linear and non-linear as a change characteristic for each resolution of each region.
  7. 제6항에 있어서,7. The method of claim 6,
    상기 제어부는 각 영역의 해상도별 변화 특성으로서 비선형을 선택한 경우, 사용자로부터 입력받은 좌표값을 기준으로 해상도를 변화시키는 것을 특징으로 하는 동영상 콘텐츠 인식 장치.Wherein the control unit changes the resolution based on the coordinate value input from the user when non-linear is selected as the change characteristic for each resolution of each region.
  8. 제7항에 있어서,8. The method of claim 7,
    상기 제어부는 좌표값이 입력되지 않은 해상도에 대해서는 스플라인 보간(Spline Interpolation)을 통해 해상도를 변화시키는 것을 특징으로 하는 동영상 콘텐츠 인식 장치.The controller changes the resolution through spline interpolation with respect to a resolution to which a coordinate value is not input.
  9. 제5항에 있어서,6. The method of claim 5,
    상기 색인별로 사용할 레이어는 기본 레이어, 영역의 일부분을 자른 뒤, 내부의 특징점들의 위치값을 검출하고, 검출된 위치값을 기본값과 비교하여 영역의 흔들림을 보정하는 흔들림 보정 레이어, 반투명 레이어, 및 위치, 해상도별로 변화 특성이 다른 영역을 지정하는 추가 레이어 중 적어도 하나를 포함하는 것을 특징으로 하는 동영상 콘텐츠 인식 장치.The layers to be used for each index include a base layer, a shake correction layer that cuts off a part of an area, detects the position values of internal feature points, and compares the detected position values with the default value to correct the shake of the area, a translucent layer, and a position , a moving image content recognition apparatus comprising at least one of additional layers for designating regions having different change characteristics for each resolution.
  10. 제5항에 있어서,6. The method of claim 5,
    상기 제어부는 영역 위치 충진 레이어(UI Location Filling Layer)를 통해 상기 레이어 상에 상기 인식 모듈이 입력되는 영역을 지정하고, 상기 영역 위치 충진 레이어에 상기 인식 모듈을 삽입하는 것을 특징으로 하는 동영상 콘텐츠 인식 장치.The controller designates an area to which the recognition module is input on the layer through a UI Location Filling Layer, and inserts the recognition module into the area location filling layer. .
  11. 동영상 콘텐츠에 포함된 정보를 인식하는 동영상 콘텐츠 인식 장치의 동영상 콘텐츠 인식 방법에 있어서,In the video content recognition method of a video content recognition device for recognizing information included in video content,
    상기 동영상 콘텐츠에 포함된 정보를 인식하는 적어도 하나의 인식 모듈을 수신 및 저장하는 단계; receiving and storing at least one recognition module for recognizing information included in the video content;
    상기 정보를 인식하고자 하는 상기 동영상 콘텐츠를 지정하는 단계; 및designating the video content for which the information is to be recognized; and
    상기 동영상 콘텐츠의 적어도 하나의 영역과 상기 적어도 하나의 인식 모듈을 레이어 형태로 연결하여 상기 적어도 하나의 인식 모듈을 통해 상기 동영상 콘텐츠에 포함된 정보를 인식하는 단계;recognizing information included in the video content through the at least one recognition module by connecting at least one region of the video content and the at least one recognition module in a layered form;
    를 포함하는 동영상 콘텐츠 인식 방법.A method for recognizing video content, including
  12. 제11항에 있어서, 상기 동영상 콘텐츠에 포함된 정보를 인식하는 단계는,The method of claim 11, wherein recognizing the information included in the video content comprises:
    타임 테이블에 상기 동영상 콘텐츠를 색인하는 단계;indexing the video content in a time table;
    색인별 레이어를 설정하는 단계; 및setting a layer by index; and
    각 레이어에 상기 인식 모듈을 삽입하는 단계;inserting the recognition module into each layer;
    를 포함하는 것을 특징으로 하는 동영상 콘텐츠 인식 방법.Video content recognition method comprising a.
  13. 제12항에 있어서, 상기 색인별 레이어를 설정하는 단계는,The method of claim 12, wherein the setting of the layer by index comprises:
    상기 동영상 콘텐츠에 마스크를 설정하는 단계;setting a mask on the video content;
    상기 마스크에 영상 해상도와 각 영역의 해상도별 변화 특성을 설정하는 단계; 및setting an image resolution and a change characteristic for each resolution of each region in the mask; and
    색인별로 사용할 레이어를 선택하는 단계;selecting a layer to use by index;
    를 포함하는 것을 특징으로 하는 동영상 콘텐츠 인식 방법.Video content recognition method comprising a.
  14. 제13항에 있어서, 상기 해상도별 변화 특성을 설정하는 단계는,The method of claim 13, wherein the setting of the change characteristics for each resolution comprises:
    각 영역의 해상도별 변화 특성으로서 선형 및 비선형 중 어느 하나를 선택하는 단계; 및selecting any one of linear and non-linear as a change characteristic for each resolution of each region; and
    각 영역의 해상도별 변화 특성으로서 비선형을 선택한 경우, 사용자로부터 입력받은 좌표값을 기준으로 해상도를 변화시키는 단계;changing a resolution based on a coordinate value input from a user when non-linearity is selected as a change characteristic for each resolution of each region;
    를 포함하는 것을 특징으로 하는 동영상 콘텐츠 인식 방법.Video content recognition method comprising a.
  15. 제12항에 있어서, 상기 인식 모듈을 삽입하는 단계는,The method of claim 12, wherein the inserting of the recognition module comprises:
    영역 위치 충진 레이어(UI Location Filling Layer)를 통해 상기 레이어 상에 상기 인식 모듈이 입력되는 영역을 지정하는 단계; 및designating an area into which the recognition module is input on the layer through a UI Location Filling Layer; and
    상기 영역 위치 충진 레이어에 상기 인식 모듈을 삽입하는 단계;inserting the recognition module into the region location filling layer;
    를 포함하는 것을 특징으로 하는 동영상 콘텐츠 인식 방법.Video content recognition method comprising a.
PCT/KR2020/002884 2020-02-28 2020-02-28 Method and device for recognizing moving image content, and image processing system including same WO2021172633A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/KR2020/002884 WO2021172633A1 (en) 2020-02-28 2020-02-28 Method and device for recognizing moving image content, and image processing system including same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2020/002884 WO2021172633A1 (en) 2020-02-28 2020-02-28 Method and device for recognizing moving image content, and image processing system including same

Publications (1)

Publication Number Publication Date
WO2021172633A1 true WO2021172633A1 (en) 2021-09-02

Family

ID=77491070

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/002884 WO2021172633A1 (en) 2020-02-28 2020-02-28 Method and device for recognizing moving image content, and image processing system including same

Country Status (1)

Country Link
WO (1) WO2021172633A1 (en)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110021195A (en) * 2009-08-25 2011-03-04 삼성전자주식회사 Method and apparatus for detecting an important information from a moving picture
US20110234823A1 (en) * 2010-03-29 2011-09-29 Canon Kabushiki Kaisha Image processing apparatus and method of controlling the same
KR20130004620A (en) * 2011-07-04 2013-01-14 주식회사 인프라웨어 Method for enhancing feature points of images for supporting robust detection and tracking, and computer readable recording medium for the same
KR101720635B1 (en) * 2015-12-29 2017-03-28 주식회사 콘츠 Method for web-based producing 3d video contents and server implementing the same
US20180089537A1 (en) * 2016-09-26 2018-03-29 Canon Kabushiki Kaisha Learning apparatus, image identification apparatus, learning method, image identification method, and storage medium
KR20200025810A (en) * 2018-08-31 2020-03-10 (주)뉴빌리티 Method and apparatus for recognizing video content, and image processing system including the same

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110021195A (en) * 2009-08-25 2011-03-04 삼성전자주식회사 Method and apparatus for detecting an important information from a moving picture
US20110234823A1 (en) * 2010-03-29 2011-09-29 Canon Kabushiki Kaisha Image processing apparatus and method of controlling the same
KR20130004620A (en) * 2011-07-04 2013-01-14 주식회사 인프라웨어 Method for enhancing feature points of images for supporting robust detection and tracking, and computer readable recording medium for the same
KR101720635B1 (en) * 2015-12-29 2017-03-28 주식회사 콘츠 Method for web-based producing 3d video contents and server implementing the same
US20180089537A1 (en) * 2016-09-26 2018-03-29 Canon Kabushiki Kaisha Learning apparatus, image identification apparatus, learning method, image identification method, and storage medium
KR20200025810A (en) * 2018-08-31 2020-03-10 (주)뉴빌리티 Method and apparatus for recognizing video content, and image processing system including the same

Similar Documents

Publication Publication Date Title
WO2019132168A1 (en) System for learning surgical image data
WO2013103275A1 (en) Method and apparatus for implementing multi-vision system by using multiple portable terminals
WO2018054056A1 (en) Interactive exercise method and smart head-mounted device
WO2014104472A1 (en) Method and apparatus for dual display
CN106792071A (en) Method for processing caption and device
WO2015199288A1 (en) Glass-type terminal and method of controling the same
WO2015122566A1 (en) Head mounted display device for displaying augmented reality image capture guide and control method for the same
WO2019108028A1 (en) Portable device for measuring skin condition and skin condition diagnosis and management system
EP3649612A1 (en) Image processing apparatus, method for processing image and computer-readable recording medium
US7124053B2 (en) Image processing method and apparatus therefor
WO2012091326A2 (en) Three-dimensional real-time street view system using distinct identification information
CN105915728A (en) Smart phone
WO2019233190A1 (en) Display terminal-based text-to-speech conversion method, display terminal, and storage medium
CN105979152A (en) Smart shooting system
WO2014189315A1 (en) Golf practice system for providing golf swing, server, and method for processing information about golf swing using same
WO2021172633A1 (en) Method and device for recognizing moving image content, and image processing system including same
CN109670507A (en) Image processing method, device and mobile terminal
WO2014073939A1 (en) Method and apparatus for capturing and displaying an image
WO2019240515A1 (en) Oil-gas well monitoring device and method
KR102089000B1 (en) Method and apparatus for recognizing video content, and image processing system including the same
WO2019054698A1 (en) Image processing apparatus, method for processing image and computer-readable recording medium
CN106060416A (en) Intelligent photographing method
WO2016036049A1 (en) Search service providing apparatus, system, method, and computer program
WO2013162159A1 (en) Device and method for inputting information
WO2020050432A1 (en) Mobile terminal

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20922200

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20922200

Country of ref document: EP

Kind code of ref document: A1