JP7343378B2 - editing system - Google Patents

editing system Download PDF

Info

Publication number
JP7343378B2
JP7343378B2 JP2019223031A JP2019223031A JP7343378B2 JP 7343378 B2 JP7343378 B2 JP 7343378B2 JP 2019223031 A JP2019223031 A JP 2019223031A JP 2019223031 A JP2019223031 A JP 2019223031A JP 7343378 B2 JP7343378 B2 JP 7343378B2
Authority
JP
Japan
Prior art keywords
video
original
video data
data
broadcast
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019223031A
Other languages
Japanese (ja)
Other versions
JP2021093627A (en
Inventor
宏幸 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Kokusai Electric Inc
Original Assignee
Hitachi Kokusai Electric Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Kokusai Electric Inc filed Critical Hitachi Kokusai Electric Inc
Priority to JP2019223031A priority Critical patent/JP7343378B2/en
Publication of JP2021093627A publication Critical patent/JP2021093627A/en
Application granted granted Critical
Publication of JP7343378B2 publication Critical patent/JP7343378B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

本発明は、主に放送局等で使用される放送映像に編集を行って再送出可能な編集システムに関する。 TECHNICAL FIELD The present invention relates to an editing system that is capable of editing and retransmitting broadcast video mainly used in broadcast stations and the like.

近年、放送局等において、映像データを編集用の素材として、素材用のビデオサーバー等に格納し、これをノンリニア編集し、放送用に送出するような編集システムが実用化されている。 2. Description of the Related Art In recent years, editing systems have been put into practical use at broadcasting stations and the like, in which video data is stored as editing material in a video server for the material, non-linear editing is performed, and the data is sent out for broadcasting.

従来の編集システムとして、例えば、特許文献1を参照すると、映像内の物体を特定するために、処理対象となる映像部分や音声部分をそれぞれ認識する処理対象認識部を備える技術が記載されている。 As a conventional editing system, for example, referring to Patent Document 1, a technology is described that includes a processing target recognition unit that recognizes each video part and audio part to be processed in order to identify an object in a video. .

一方、従来の編集システムでは、放送時の送出映像を同時録画した放送同録映像(以下、単に「放送映像」という。)も格納している。このような放送映像を時差配信や再放送等により再送出する場合、放送時に付加された不要領域をマスクして、元映像に近い映像素材データ(加工映像データ)を生成する必要がある。この不要領域としては、例えば、「L字」、時刻表示、天気予報、緊急報道、津波警戒情報、災害情報等を示した画像や字幕等の付加表示が存在する(以下、これらの付加表示を「L字等」という。)。なお、「L字」とは、「L字型画面」等と呼称される、例えば、本来の番組放送画面を多少右下端に縮小し、余剰した画面の左側及び上側をL字型のスペースと見なして、災害等の情報を表示するような映像加工のことを指す。また、L字型画面以外にも、U字型、側面を全て取り囲んで縮小表示するような付加表示も、付加表示に含む。
この場合、手作業による編集で、L字等の不要領域のマスク加工やトリミング加工等を行う必要があった。
On the other hand, conventional editing systems also store broadcast simultaneously recorded video (hereinafter simply referred to as "broadcast video"), which is a simultaneous recording of the broadcast video. When retransmitting such broadcast video through staggered distribution, rebroadcasting, etc., it is necessary to mask unnecessary areas added during broadcasting and generate video material data (processed video data) that is close to the original video. Examples of this unnecessary area include additional displays such as "L-shaped", time display, images and subtitles showing weather forecasts, emergency reports, tsunami warning information, disaster information, etc. (Hereinafter, these additional displays will be referred to as (referred to as "L-shape, etc."). In addition, "L-shaped" is called "L-shaped screen", for example, the original program broadcast screen is reduced somewhat to the lower right corner, and the left and upper sides of the excess screen are used as L-shaped space. This refers to video processing that displays information about disasters, etc. In addition to the L-shaped screen, the additional display also includes a U-shaped additional display that surrounds all the sides and displays in a reduced size.
In this case, it was necessary to perform masking, trimming, etc. of unnecessary areas such as the L-shape by manual editing.

特開2019-62381号公報JP2019-62381A

しかしながら、従来の編集システムにおいて、L字等の不要領域を手作業により編集すると、トリミングのミス、同録時のエンコードやマスク加工、トリミングによる部分拡大等により画質劣化が避けられなかった。 However, in conventional editing systems, when unnecessary areas such as the L-shape are manually edited, image quality deterioration is unavoidable due to trimming errors, encoding and mask processing during simultaneous recording, partial enlargement due to trimming, etc.

本発明は、このような状況に鑑みてなされたものであり、上述の問題を解消することを課題とする。 The present invention has been made in view of this situation, and an object of the present invention is to solve the above-mentioned problems.

本発明の編集システムは、放送映像を再送出する編集システムであって、前記放送映像の特定箇所に連続して表示される不要領域を特定する不要領域特定手段と、前記不要領域特定手段により特定された不要領域を前記放送映像から削除又は目立たなくする加工を行った加工映像を作成する不要領域加工手段と、前記不要領域加工手段により加工された前記加工映像及び/又は前記放送映像から、格納された元映像を特定する元映像特定手段と、前記元映像特定手段により特定された前記元映像を基に、前記加工映像を高画質化する高画質化手段とを備えることを特徴とする。
本発明の編集システムは、前記不要領域特定手段は、削除する対象の領域の特徴を学習させたモデルにより前記不要領域を特定することを特徴とする。
本発明の編集システムは、前記高画質化手段は、前記加工映像について、前記元映像に基づくエッジ情報並びに/若しくは色情報を利用したエッジ強調若しくは合成、及び/又は、前記元映像の切り出しによる合成を行うことで高画質化することを特徴とする。
本発明の編集システムは、前記元映像特定手段は、前記加工映像と前記元映像との画像中の共通点を抽出し、抽出した前記共通点に基づいて前記元映像を特定することを特徴とする。
本発明の編集システムは、前記放送映像に対応した音声を解析して、削除箇所を特定する削除箇所特定手段と、前記元映像に対応する元音声を特定する元音声特定手段と、前記元音声特定手段により特定された前記元音声を基に、前記削除箇所特定手段により特定された前記音声の前記削除箇所を高音質化する高音質化処理手段とを更に備えることを特徴とする。
本発明の編集システムは、前記削除箇所特定手段は、特定のモデルを用いて音声解析を行い、前記音声中の警報音の箇所を特定することを特徴とする。
The editing system of the present invention is an editing system that retransmits a broadcast video, and includes an unnecessary area specifying means for specifying an unnecessary area that is continuously displayed at a specific location of the broadcast video, and an unnecessary area specifying means that identifies the unnecessary area by the unnecessary area specifying means. an unnecessary area processing means for creating a processed video in which the unnecessary area has been processed to delete or make it less conspicuous from the broadcast video; and storage from the processed video and/or the broadcast video processed by the unnecessary area processing means. The image processing apparatus is characterized by comprising an original video specifying means for specifying the original image that has been processed, and an image quality improving means for increasing the image quality of the processed image based on the original image specified by the original image specifying means.
The editing system of the present invention is characterized in that the unnecessary area identifying means identifies the unnecessary area using a model that has learned the characteristics of the area to be deleted.
In the editing system of the present invention, the image quality improving means performs edge enhancement or synthesis on the processed video using edge information and/or color information based on the original video, and/or synthesis by cutting out the original video. The feature is that the image quality is improved by doing this.
The editing system of the present invention is characterized in that the original video identifying means extracts common points in the images of the processed video and the original video, and identifies the original video based on the extracted common points. do.
The editing system of the present invention includes: a deletion part specifying means for analyzing the audio corresponding to the broadcast video and specifying a deletion part; an original audio specifying means for identifying the original audio corresponding to the original video; and the original audio The apparatus is characterized by further comprising a sound quality enhancement processing means for enhancing the sound quality of the deletion portion of the voice specified by the deletion portion specifying means based on the original voice specified by the specifying means.
The editing system of the present invention is characterized in that the deletion location identifying means performs audio analysis using a specific model and identifies the location of the alarm sound in the audio.

本発明によれば、放送映像の特定箇所に連続して表示される不要領域を特定し、削除又は目立たなくする加工を行った加工映像を作成し、この加工映像及び/又は放送映像から、元映像データを特定して、この元映像データを基に、加工映像を高画質化することで、再送出時の画質劣化を抑えることが可能な編集システムを提供することができる。 According to the present invention, a processed video is created in which an unnecessary area that is continuously displayed in a specific part of a broadcast video is deleted or made inconspicuous, and the original video is extracted from the processed video and/or the broadcast video. By specifying video data and increasing the quality of processed video based on this original video data, it is possible to provide an editing system that can suppress image quality deterioration during retransmission.

本発明の実施の形態に係る編集システムXの概略構成を示すシステム構成図である。1 is a system configuration diagram showing a schematic configuration of an editing system X according to an embodiment of the present invention. 本発明の実施の形態に係る再送出処理の流れを示すフローチャートである。3 is a flowchart showing the flow of retransmission processing according to an embodiment of the present invention. 図2に示す再送出処理における高画質化処理を示す概念図である。FIG. 3 is a conceptual diagram showing image quality improvement processing in the retransmission processing shown in FIG. 2; 図2に示す再送出処理における高音質化処理を示す概念図である。FIG. 3 is a conceptual diagram showing high-quality sound processing in the retransmission processing shown in FIG. 2; 従来のビデオサーバーシステムによる再送出の概念図である。FIG. 2 is a conceptual diagram of retransmission by a conventional video server system.

<実施の形態>
〔編集システムXの制御構成〕
以下で、本発明の実施の形態について、図面を参照して説明する。
編集システムXは、放送局等で使用される編集システム(ビデオサーバーシステム)である。編集システムXは、放送映像データ200に含まれる放送映像を、時差配信や再放送等で再送出することが可能である。この際、編集システムXは、前回放送した映像の不要部分を削除することが可能である。
図1によると、編集システムXは、解析装置1と、蓄積サーバー2と、収録装置3と、編集装置4とが、ネットワーク5で接続されて構成されている。
<Embodiment>
[Control configuration of editing system X]
Embodiments of the present invention will be described below with reference to the drawings.
Editing system X is an editing system (video server system) used at broadcasting stations and the like. The editing system X can retransmit the broadcast video included in the broadcast video data 200 by staggered distribution, rebroadcasting, or the like. At this time, the editing system X can delete unnecessary parts of the previously broadcast video.
According to FIG. 1, the editing system X includes an analysis device 1, a storage server 2, a recording device 3, and an editing device 4 connected through a network 5.

解析装置1は、蓄積サーバー2に格納された放送映像データ200等の内容を解析するための装置である。解析装置1は、例えば、映像データに含まれる映像(画像)について、各種フィルター処理やOCR(Optical Character Recognition、光学文字認識)を含む画像成分分析、畳み込みニューラルネット、GAN(Generative Adversarial Network)、RNN(Recurrent Neural Network)、LSTM(Long short term memory network)、その他の多層ニューラルネット、カーネルマシン、決定木、ベイジアンネットワーク、HMM(Hidden Markov Model)、その他の統計的手法等を含む、いわゆるAI(Artificial Intelligence)等の演算を行う装置である。さらに、解析装置1は、音声成分分析やAIにより、音声データ300の解析も行うことが可能である。
解析装置1の詳細な構成については後述する。
The analysis device 1 is a device for analyzing the contents of broadcast video data 200 etc. stored in the storage server 2. For example, the analysis device 1 performs image component analysis including various filter processing and OCR (Optical Character Recognition), a convolutional neural network, a GAN (Generative Adversarial Network), and an RNN on a video (image) included in video data. (Recurrent Neural Network), LSTM (Long short term memory network), other multilayer neural networks, kernel machines, decision trees, Bayesian networks, HMM (Hidden Markov Model), and other statistical methods, etc. It is a device that performs calculations such as intelligence. Furthermore, the analysis device 1 can also analyze the audio data 300 using audio component analysis or AI.
The detailed configuration of the analysis device 1 will be described later.

収録装置3は、画像データや音声データ300等を収録して、これらを画像や音声のエンコーダーを用いて、撮像された各種コーデックに符号化(変換)する装置である。
本実施形態において、収録装置3は、例えば、後述する撮像部30で撮像された非圧縮の画像データを収録して符号化する。また、収録装置3は、専用回線やネットワーク5を介して、他局等にあるサーバー、VTR、その他の機器から画像データを収録してもよいし、MXF(Media eXchange Format)等のファイルで取り込むことで収録してもよい。エンコーダーでの符号化に用いる映像符号化方式(コーデック)は、例えば、MPEG2、H.264、H.265等を用いることが可能であるが、これに限られない。符号化されたデータについて、収録装置3は、蓄積サーバー2や再生用の送出設備へ送信することが可能である。
The recording device 3 is a device that records image data, audio data 300, etc., and encodes (converts) these data into various codecs captured by the image using an image and audio encoder.
In this embodiment, the recording device 3 records and encodes uncompressed image data captured by an imaging unit 30, which will be described later, for example. The recording device 3 may also record image data from a server, VTR, or other device located at another station via a dedicated line or network 5, or may import image data in a file such as MXF (Media eXchange Format). You can also record it by doing so. The video encoding method (codec) used for encoding by the encoder is, for example, MPEG2, H. 264, H. Although it is possible to use H.265 or the like, it is not limited to this. The recording device 3 can transmit the encoded data to the storage server 2 or the transmission equipment for reproduction.

蓄積サーバー2は、放送映像データ200を蓄積し、他装置へ送信するサーバー等の装置である。本実施形態において、蓄積サーバー2は、収録装置3で収録された収録素材(素材映像、素材ファイル)の放送映像データ200、元映像データ220等を格納する素材映像サーバーとして機能する。これに加えて、蓄積サーバー2は、マルチプレクサ(Multiplexer、MUX)による多重化の機能を含んでいてもよい。
蓄積サーバー2に格納されるデータの詳細については後述する。
The storage server 2 is a device such as a server that stores broadcast video data 200 and transmits it to other devices. In this embodiment, the storage server 2 functions as a material video server that stores broadcast video data 200, original video data 220, etc. of recorded materials (material video, material files) recorded by the recording device 3. In addition, the storage server 2 may include a multiplexing function using a multiplexer (MUX).
Details of the data stored in the storage server 2 will be described later.

編集装置4は、いわゆる汎用のノンリニア編集機(装置)である。編集装置4は、レンダリング編集、カット編集等の編集処理を行う。このうち、レンダリング編集は、蓄積サーバー2に格納された放送映像データ200を、実際にレンダリングしつつ編集する処理である。カット編集は、レンダリングを行わないでクリップ化する処理である。 The editing device 4 is a so-called general-purpose nonlinear editing machine (device). The editing device 4 performs editing processing such as rendering editing and cut editing. Among these, rendering editing is a process of editing the broadcast video data 200 stored in the storage server 2 while actually rendering it. Cut editing is a process of clipping without rendering.

本実施形態において、編集装置4は、図示しない表示部、キーボード、ポインティングデバイス、操作器等を備えている。さらに、編集装置4は、実際にこの編集作業を行うコンピュータである編集制御手段(編集手段)と、放送映像データ200や編集のタイムライン等を表示させる表示部(ディスプレイ)と、編集の指示を入力するための操作パネル(操作手段)等を備えている。 In this embodiment, the editing device 4 includes a display section, a keyboard, a pointing device, an operating device, etc. (not shown). Furthermore, the editing device 4 includes an editing control means (editing means) that is a computer that actually performs this editing work, a display unit (display) that displays broadcast video data 200, an editing timeline, etc., and a display that displays editing instructions. It is equipped with an operation panel (operation means) for inputting information.

編集装置4は、蓄積サーバー2に対して放送映像データ200や元映像データ220等を参照し、編集可能な装置である。編集装置4は、ユーザに操作パネルを操作させ、編集処理の対象となる部分を指定させて、カット編集やレンダリング編集等を実行することが可能である。そして、編集装置4は、編集後の放送映像データ200や元映像データ220等の編集情報を、蓄積サーバー2に送信して格納させる。 The editing device 4 is a device that can edit broadcast video data 200, original video data 220, etc. by referring to the storage server 2. The editing device 4 can perform cut editing, rendering editing, etc. by having the user operate the operation panel and specify a portion to be edited. Then, the editing device 4 transmits the edited information such as the edited broadcast video data 200 and the original video data 220 to the storage server 2 for storage.

これらの編集処理において用いる編集情報は、例えば、処理対象となる部分の映像フレーム位置、映像上の座標、音声サンプルの位置の範囲、処理の内容等を含む。上述の編集処理の種類は、処理対象が映像の場合には、各種画像効果、クリップ間の接続とその効果、輝度や色の調整処理、フェードイン、フェードアウト、音量調整等を含む。 The editing information used in these editing processes includes, for example, the video frame position of the portion to be processed, the coordinates on the video, the position range of the audio sample, the content of the processing, and the like. When the processing target is video, the types of editing processing described above include various image effects, connections between clips and their effects, brightness and color adjustment processing, fade-in, fade-out, volume adjustment, and the like.

ネットワーク5は、各装置を結ぶLAN(Local Area Network)、光ファイバー網、c.link、無線LAN(WiFi)、携帯電話網等の各装置を相互に接続して通信を行う通信手段である。ネットワーク5は、専用線、イントラネット、インターネット等を用いてもよく、これらが混在しても、VPN(Virtual Private Network)を構成していてもよい。さらに、ネットワーク5は、TCP/IPやUDP等のIPネットワークを用いて、各種プロトコルで接続されてもよい。 The network 5 includes a LAN (Local Area Network) connecting each device, an optical fiber network, and c. It is a communication means that interconnects devices such as a link, wireless LAN (WiFi), and mobile phone network to perform communication. The network 5 may be a dedicated line, an intranet, the Internet, etc., or a mixture of these may constitute a VPN (Virtual Private Network). Furthermore, the network 5 may be connected using various protocols using an IP network such as TCP/IP or UDP.

なお、この他にも、編集システムXは、汎用の放送局用の送出サーバー等を含む送出設備(装置)等を含んでいる。これらの装置は、蓄積サーバー2に記録されている素材映像や蓄積サーバー2に記録された放送映像を放送出力(オンエア)する。加えて、放送映像を、試写のために再生することも可能である。 In addition to this, the editing system X also includes transmission equipment (devices) including a transmission server for a general-purpose broadcasting station. These devices output (on-air) the material video recorded in the storage server 2 and the broadcast video recorded in the storage server 2. In addition, it is also possible to play back broadcast video for preview purposes.

より具体的に説明すると、解析装置1は、ハードウェア資源の一部として、制御部10を備えている。 To explain more specifically, the analysis device 1 includes a control unit 10 as a part of hardware resources.

制御部10は、後述する機能部を実現し、本実施形態の再送出処理の各処理を実行する情報処理手段である。制御部10は、例えば、CPU(Central Processing Unit、中央処理装置)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)、TPU(Tensor Processing Unit)、DSP(Digital Signal Processor)、ASIC(Application Specific Processor、特定用途向けプロセッサー)等で構成される。これにより、制御部10は、画像成分分析、音声成分分析、及び映像や音声用のAI等の処理を、バッチ処理等を用いて、高速に実行することが可能である。 The control unit 10 is an information processing unit that realizes a functional unit to be described later and executes each process of the retransmission process of this embodiment. The control unit 10 includes, for example, a CPU (Central Processing Unit), an MPU (Micro Processing Unit), a GPU (Graphics Processing Unit), a TPU (Tensor Processing Unit), a DSP (Digital Signal Processor), and an ASIC (Application Specific It consists of processors, processors for specific applications), etc. Thereby, the control unit 10 can perform image component analysis, audio component analysis, and AI processing for video and audio at high speed using batch processing or the like.

蓄積サーバー2は、ハードウェア資源の一部として、記憶部11を備えている。 The storage server 2 includes a storage unit 11 as part of its hardware resources.

記憶部11は、一時的でない記録媒体である。記憶部11は、例えば、SSD(Solid State Disk)、HDD(Hard Disk Drive)、磁気カートリッジ、テープドライブ、光ディスクアレイ等のビデオストレージとして構成される。
このビデオストレージには、例えば、素材映像のデータ(素材データ)、完成した番組等の放送映像の映像データ、放送映像である放送映像データ200等が格納される。蓄積サーバー2に格納されたファイルは、番組の放送スケジュールに沿って再生装置に転送されたり、編集装置4による番組編集処理に用いられたりする。これらのデータの詳細については後述する。
加えて、記憶部11は、一般的なROM(Read Only Memory)、RAM(Random Access Memory)等も含んでいる。これらには、蓄積サーバー2及び解析装置1の制御部10が実行する処理のプログラム、データベース、一時データ、その他の各種ファイル等が格納される。
The storage unit 11 is a non-temporary recording medium. The storage unit 11 is configured as a video storage such as, for example, an SSD (Solid State Disk), an HDD (Hard Disk Drive), a magnetic cartridge, a tape drive, an optical disk array, or the like.
This video storage stores, for example, material video data (material data), video data of a broadcast video such as a completed program, broadcast video data 200 that is a broadcast video, and the like. The files stored in the storage server 2 are transferred to a playback device according to the broadcast schedule of the program, or are used in program editing processing by the editing device 4. Details of these data will be described later.
In addition, the storage unit 11 also includes general ROM (Read Only Memory), RAM (Random Access Memory), and the like. These stores include programs for processing executed by the storage server 2 and the control unit 10 of the analysis device 1, databases, temporary data, and other various files.

収録装置3は、撮像部30(撮像手段)を備えている。 The recording device 3 includes an imaging section 30 (imaging means).

撮像部30は、CCD(Charge Coupled Device)やCMOS(Complementary Metal Oxide Semiconductor)素子等を用いたカメラ等の撮像装置である。撮像部30は、収録装置3に内蔵しても、接続された外付けのカメラであってもよい。
撮像部30は、撮像された画像をデジタル変換し、例えば、HD-SDI規格の画像データとして、収録装置3へ送信する。この際、撮像部30に装着され、又は、外設されたマイクロフォン等からの音声データも、ほぼ同時に収録装置3へ送信してもよい。または、これらの画像データや音声データは、ミキサーや各種機材を介して、収録装置3へ送信することも可能である。
The imaging unit 30 is an imaging device such as a camera using a CCD (Charge Coupled Device) or a CMOS (Complementary Metal Oxide Semiconductor) element. The imaging unit 30 may be built into the recording device 3 or may be a connected external camera.
The imaging unit 30 digitally converts the captured image and transmits it to the recording device 3 as, for example, HD-SDI standard image data. At this time, audio data from a microphone attached to the imaging unit 30 or provided externally may also be transmitted to the recording device 3 almost at the same time. Alternatively, these image data and audio data can also be transmitted to the recording device 3 via a mixer or various equipment.

次に、解析装置1の機能構成、及び蓄積サーバー2に格納されるデータの詳細について説明する。
制御部10は、不要領域特定手段100、不要領域加工手段110、元映像特定手段120、高画質化手段130、削除箇所特定手段140、元音声特定手段150、及び高音質化処理手段160を備える。
記憶部11は、放送映像データ200、加工映像データ210、元映像データ220、音声データ300、加工音声データ310、及び元音声データ320を格納する。
Next, the functional configuration of the analysis device 1 and the details of the data stored in the storage server 2 will be explained.
The control unit 10 includes an unnecessary area specifying means 100, an unnecessary area processing means 110, an original video specifying means 120, a high image quality improving means 130, a deletion part specifying means 140, an original audio specifying means 150, and a high sound quality processing means 160. .
The storage unit 11 stores broadcast video data 200, processed video data 210, original video data 220, audio data 300, processed audio data 310, and original audio data 320.

不要領域特定手段100は、収録装置3から、放送映像データ200を取得して、放送映像データ200に含まれる放送映像の特定箇所に連続して表示される不要領域を特定する。この際、不要領域特定手段100は、例えば、映像の内容を解析し、L字等を不要領域として、映像上の位置を特定する。
具体的には、不要領域特定手段100は、削除する対象の領域の特徴を学習させたモデルにより不要領域を特定することが可能である。このモデルは、例えば、画像成分分析やAIを用いてもよい。
The unnecessary area specifying means 100 acquires the broadcast video data 200 from the recording device 3 and specifies an unnecessary area that is continuously displayed at a specific part of the broadcast video included in the broadcast video data 200. At this time, the unnecessary area specifying means 100 analyzes the content of the video, for example, and specifies the position on the video as an L-shape or the like as an unnecessary area.
Specifically, the unnecessary area identifying means 100 can identify unnecessary areas using a model that has learned the characteristics of the area to be deleted. This model may use image component analysis or AI, for example.

不要領域特定手段100により特定された不要領域を放送映像データ200から削除又は目立たなくする加工を行った加工映像データ210を作成する。
不要領域加工手段110は、例えば、特定した不要領域について、自動でトリミング、拡大操作、マスク編集等のいずれか又は任意の組み合わせ(以下、単に「マスク処理」という。)により目立たないように加工する。
不要領域加工手段110は、作成された加工映像データ210を蓄積サーバー2へ格納する。
Processed video data 210 is created in which the unnecessary area identified by unnecessary area identifying means 100 is deleted from broadcast video data 200 or processed to make it less noticeable.
The unnecessary area processing means 110 processes the identified unnecessary area, for example, by automatically trimming, enlarging, mask editing, etc., or any combination thereof (hereinafter simply referred to as "mask processing") to make it less noticeable. .
The unnecessary area processing means 110 stores the created processed video data 210 in the storage server 2.

元映像特定手段120は、不要領域加工手段により加工された加工映像データ210及び/又は放送映像データ200から、蓄積サーバー2に格納された元映像データ220を特定する。元映像特定手段120は、例えば、加工映像データ210及び/又は放送映像データ200の映像内容を解析して、蓄積サーバー2の記憶部11に格納された、放送映像の素材となる映像データ(素材データ)の映像と照合し、放送に使用された元映像データ220を特定する。
より具体的には、元映像特定手段120は、加工映像と元映像データ220に含まれる元映像との画像中の共通点を抽出し、抽出した共通点に基づいて元映像データ220に含まれる元映像を特定することが可能である。
The original video identifying means 120 identifies the original video data 220 stored in the storage server 2 from the processed video data 210 and/or the broadcast video data 200 processed by the unnecessary area processing means. For example, the original video identifying means 120 analyzes the video content of the processed video data 210 and/or the broadcast video data 200, and stores the video data (material) that is the material of the broadcast video stored in the storage unit 11 of the storage server 2. data) to identify the original video data 220 used for broadcasting.
More specifically, the original video identifying means 120 extracts common points in the image between the processed video and the original video included in the original video data 220, and based on the extracted common points, the original video data 220 contains the processed video. It is possible to identify the original video.

高画質化手段130は、元映像特定手段120により特定された元映像データ220を基に、加工映像データ210を高画質化する。
具体的には、高画質化手段130は、加工映像データ210の各加工映像について、元映像データ220に含まれる元映像に基づくエッジ情報並びに/若しくは色情報を利用したエッジ強調若しくは合成、及び/又は、元映像データ220に含まれる元映像の切り出しによる合成を行うことで高画質化することが可能である。
The image quality improving means 130 improves the image quality of the processed video data 210 based on the original video data 220 specified by the original video specifying means 120.
Specifically, the image quality improvement unit 130 performs edge enhancement or synthesis using edge information and/or color information based on the original video included in the original video data 220, and/or for each processed video of the processed video data 210. Alternatively, high image quality can be achieved by cutting out and synthesizing the original video included in the original video data 220.

削除箇所特定手段140は、放送映像に対応した音声データ300を解析して、削除箇所を特定する。
具体的には、削除箇所特定手段140は、特定のモデルを用いて音声解析を行い、音声中の警報音の箇所を特定する。
Deletion location specifying means 140 analyzes audio data 300 corresponding to broadcast video and identifies a deletion location.
Specifically, the deletion location specifying means 140 performs audio analysis using a specific model and identifies the location of the alarm sound in the audio.

元音声特定手段150は、元映像データ220に対応する元音声データ320を特定する。
元音声特定手段150は、例えば、蓄積サーバー2に格納された音声の素材データと照合し、放送に使用された元映像データ220と対応する元音声データ320を特定する。
Original audio identifying means 150 identifies original audio data 320 corresponding to original video data 220.
The original audio specifying means 150 identifies the original audio data 320 that corresponds to the original video data 220 used for broadcasting, for example, by comparing it with the audio material data stored in the storage server 2.

高音質化処理手段160は、元音声特定手段150により特定された元音声データ320を基に、削除箇所特定手段140により特定された音声の削除箇所を高音質化する。
高音質化処理手段160は、例えば、警報音の逆位相を合成、及び/又は元音声データ320の切り出しによる合成を行うことで高音質化することが可能である。
Based on the original audio data 320 specified by the original audio specifying means 150, the high-quality sound processing means 160 enhances the sound quality of the deletion portion of the audio specified by the deletion portion specifying means 140.
The high-quality sound processing unit 160 can improve the sound quality by, for example, synthesizing the opposite phase of the alarm sound and/or synthesizing by cutting out the original audio data 320.

放送映像データ200は、放送映像のデータである。本実施形態では、放送映像データ200は、放送時の送出映像を同時録画した放送同録映像等の放送映像を含んでいる。本実施形態では、放送映像データ200は、例えば、MXF形式のファイルを用いる。MXFは、いわゆる業務用映像ファイルを格納するコンテナフォーマットのファイルの一種である。具体的には、MXFは、カムコーダ、録画再生機、ノンリニア編集機、送出設備等の放送用装置機材に利用されており、映像や音声等の様々なフォーマットのデータを、メタデータとともにラッピングすることができる。このメタデータは、本実施形態においては、例えば、特定された不要領域のデータ、映像中の特徴データ、元映像との画像中の共通点のデータ等を含ませることが可能である。さらに、メタデータは、例えば、フレームレート、フレームサイズ、作成日、撮像部30の撮影者、素材映像の各種情報を含めることができる。この各種情報としては、例えば、タイトルや内容、再生時間、シーンの情報、映像中の人物、撮影場所、撮影日時等を含む物体の情報等を用いることが可能である。 Broadcast video data 200 is data of broadcast video. In this embodiment, the broadcast video data 200 includes broadcast video such as a broadcast simultaneous recording video that is a simultaneous recording of a video sent out during broadcasting. In this embodiment, the broadcast video data 200 uses, for example, an MXF format file. MXF is a type of container format file that stores so-called business video files. Specifically, MXF is used in broadcasting equipment such as camcorders, recording/playback machines, nonlinear editing machines, and playout equipment, and is used to wrap data in various formats such as video and audio together with metadata. I can do it. In this embodiment, this metadata can include, for example, data on identified unnecessary areas, feature data in the video, data on common points in the image with the original video, and the like. Further, the metadata can include, for example, frame rate, frame size, creation date, photographer of the imaging unit 30, and various information about the material video. As this various information, it is possible to use, for example, title, content, playback time, scene information, object information including people in the video, shooting location, shooting date and time, and the like.

加工映像データ210は、放送映像データ200から不要領域を削除又は目立たなくする加工を行った映像のデータである。この加工映像データ210も、MXF形式のデータ、又は、最終的に送出設備で送出用のデータに加工される前の、編集用の中間的な形式のデータ等であってもよい。または、加工映像データ210は、元映像データ220のような素材データと同じ形式のデータであってもよい。さらに、加工映像データ210は、上述のように元映像データ220により高画質化されて、送出されてもよい。 Processed video data 210 is video data that has been processed from broadcast video data 200 by deleting unnecessary areas or making them less noticeable. This processed video data 210 may also be data in MXF format, or data in an intermediate format for editing before being finally processed into data for transmission at a transmission facility. Alternatively, the processed video data 210 may be data in the same format as the material data, such as the original video data 220. Furthermore, the processed video data 210 may be sent out after being enhanced in image quality with the original video data 220 as described above.

元映像データ220は、蓄積サーバー2に格納された素材データである。元映像データ220は、実際の放送映像データ200で使用された番組のデータ、その素材のデータ等を含む。元映像データ220と、放送映像データ200とは、映像のフォーマットが異なってもよく、画質が放送映像データ200より低圧縮や非圧縮等で高画質であってもよい。すなわち、元映像データ220のフォーマット(形式)は、MXF形式以外の形式であっても、独自形式であってもよい。さらに、元映像データ220は、収録装置3から、素材データとして収録され、多重化された映像ストリームであってもよい。
加えて、本実施形態において、元映像データ220は、映像中の特徴データ、放送映像との画像中の共通点のデータ等を含んでいてもよい。
The original video data 220 is material data stored in the storage server 2. The original video data 220 includes program data used in the actual broadcast video data 200, data of its materials, and the like. The original video data 220 and the broadcast video data 200 may have different video formats, and may have higher image quality than the broadcast video data 200, such as with lower compression or non-compression. That is, the format of the original video data 220 may be a format other than the MXF format or may be an original format. Furthermore, the original video data 220 may be a video stream recorded as material data from the recording device 3 and multiplexed.
Additionally, in this embodiment, the original video data 220 may include feature data in the video, data on common points in the image with the broadcast video, and the like.

音声データ300は、放送映像データ200に対応した音声のデータである。音声データ300は、放送時の送出音声を同時録音した放送同録録音等の放送音声を含んでいる。この放送音声は、例えば、L字等の箇所に注目を促すためのチャイムやブザーや短い音声等の警報音を含んでいてもよい。具体的には、音声データ300は、例えば、MXF形式のコンテナフォーマットに含まれるストリームとして、まとめられていてもよい。または、この放送音声は、例えば、各種量子化ビット数や周波数のWAV形式のファイル、各種圧縮形式や音声ストリーム形式のファイルであってもよい。音声データ300は、後述するように、警報音の箇所が逆位相の警報音により加工されても、元音声データ320により置き換えられてもよい。 Audio data 300 is audio data corresponding to broadcast video data 200. The audio data 300 includes broadcast audio such as broadcast simultaneous recording, which is a simultaneous recording of broadcast audio. This broadcast sound may include, for example, a warning sound such as a chime, a buzzer, or a short sound to draw attention to a location such as an L-shape. Specifically, the audio data 300 may be collected as a stream included in a container format such as MXF format, for example. Alternatively, this broadcast audio may be, for example, a WAV format file with various quantization bit numbers and frequencies, a file in various compression formats, or an audio stream format file. As described later, the audio data 300 may be processed with an alarm sound having an opposite phase, or may be replaced with the original audio data 320.

加工音声データ310は、加工映像データ210に含まれる音声のデータである。
本実施形態において、加工音声データ310は、音声データ300と同じデータであってもよい。加工音声データ310は、上述のように音声データ300により高音質化されて、加工映像データ210と共に送出されてもよい。
加工音声データ310も、WAV形式のファイル、各種圧縮形式や音声ストリーム形式のファイル、編集用の中間的な形式のデータ等であってもよい。
Processed audio data 310 is audio data included in processed video data 210.
In this embodiment, the processed audio data 310 may be the same data as the audio data 300. The processed audio data 310 may be enhanced in quality with the audio data 300 as described above, and may be sent together with the processed video data 210.
The processed audio data 310 may also be a WAV format file, a file in various compression formats or an audio stream format, data in an intermediate format for editing, or the like.

元音声データ320は、元映像データ220に対応する音声のデータである。元音声データ320も、WAV形式のファイル、各種圧縮形式や音声ストリーム形式のファイル、編集用の中間的な形式のデータ等であってもよい。 The original audio data 320 is audio data corresponding to the original video data 220. The original audio data 320 may also be a WAV format file, a file in various compression formats or an audio stream format, data in an intermediate format for editing, or the like.

ここで、上述の各機能部は、記憶部11に記憶された制御プログラム等が制御部10で実行されることにより実現される。
なお、これらの各機能部は、FPGA(Field Programmable Gate Array)やASIC(Application Specific Integrated Circuit)等により、回路的に構成されてもよい。
Here, each of the above-mentioned functional units is realized by the control program and the like stored in the storage unit 11 being executed by the control unit 10.
Note that each of these functional units may be configured as a circuit using an FPGA (Field Programmable Gate Array), an ASIC (Application Specific Integrated Circuit), or the like.

〔編集システムXの再送出処理〕
次に、図2~図4を参照して、本発明の実施の形態に係る編集システムXを用いた再送出処理についてより詳しく説明する。
本実施形態の再送出処理においては、放送同録映像等の放送映像データ200を高画質化する高画質化処理と、放送同録録音等の音声データ300を高音質化する高音質化処理とを実行する。これらの処理は、スレッドやプロセス等で同時並行的に実行されてもよい。
以下で、この編集システムXによる再送出処理について、図2の各フローチャートを用いて説明する。
[Resend processing of editing system X]
Next, the retransmission process using the editing system X according to the embodiment of the present invention will be described in more detail with reference to FIGS. 2 to 4.
In the retransmission process of this embodiment, a high image quality process is performed to improve the image quality of broadcast video data 200 such as a broadcast simultaneous recorded video, and a high sound quality process is performed to improve the sound quality of audio data 300 such as a broadcast simultaneous recorded video. Execute. These processes may be executed concurrently using threads, processes, or the like.
The retransmission process by the editing system X will be explained below using the flowcharts in FIG.

まず、再送出処理における高画質化処理について、図2(a)のフローチャートと、図3とを用いて、ステップ毎に詳しく説明する。 First, the image quality improvement process in the retransmission process will be explained in detail step by step using the flowchart of FIG. 2(a) and FIG. 3.

ステップS100において、不要領域特定手段100が、初期処理を行う。
図3(a)によると、不要領域特定手段100は、放送局等毎に、L字等の削除する対象の領域の特徴をモデルに学習させる。このため、例えば、不要領域特定手段100は、L字等に含まれる文字の形状、時刻表示の形状、字幕の表示位置やフォント等の加工が特定のパターンに限られることを利用し、これをモデルとして用いる。すなわち、ビデオサーバーシステムは単一の放送局が保有、運用することが一般的であることから、L字の形状、時刻表示の形状、字幕の表示位置やフォント等の加工方法は、ある程度特定のパターンに限られることを利用することができる。これは、ビデオサーバーシステムは放送局ごとに稼働しており、そこで扱われるL字等の挿入フォーマットは、ある程度の規則性があるからである。
In step S100, the unnecessary area specifying means 100 performs initial processing.
According to FIG. 3A, the unnecessary area specifying means 100 causes the model to learn the characteristics of the area to be deleted, such as an L-shape, for each broadcasting station or the like. For this reason, for example, the unnecessary area identifying means 100 takes advantage of the fact that the shape of characters included in the L character, the shape of the time display, the display position of subtitles, the font, etc. can only be modified to a specific pattern. Use as a model. In other words, since video server systems are generally owned and operated by a single broadcasting station, processing methods such as the L-shape, time display shape, subtitle display position, font, etc. are limited to a certain extent. You can take advantage of being limited to patterns. This is because the video server system is operated for each broadcasting station, and the format used for inserting L characters and the like has a certain degree of regularity.

具体的には、不要領域特定手段100は、画像成分分析を行う場合、例えば、L字等に含まれる特定の画像成分を検出する。これは、例えば、画像の成分分析において、L字等に含まれる、特定の画像成分を検出することを示す。
または、不要領域特定手段100は、AIを用いる場合、放送局等毎に、L字等の特定の図柄、時刻表示等を不要領域として、予め学習させることが可能である。これは、例えば、特定の図柄を示したL字等を、AIに削除する対象の領域と認識させることを示す。
Specifically, when performing image component analysis, the unnecessary area specifying means 100 detects, for example, a specific image component included in an L-shape or the like. This indicates that, for example, in image component analysis, a specific image component included in an L-shape or the like is detected.
Alternatively, when using AI, the unnecessary area specifying means 100 can learn in advance that a specific pattern such as an L character, a time display, etc. are unnecessary areas for each broadcasting station or the like. This indicates, for example, that the AI recognizes an L-shape or the like indicating a specific pattern as an area to be deleted.

一方、不要領域特定手段100は、放送映像データ200を取得する。具体的には、送出設備から送出された、放送時の送出映像を同時録画し、この放送同録映像を放送映像データ200として、記憶部11へ格納する。 On the other hand, unnecessary area specifying means 100 acquires broadcast video data 200. Specifically, the transmission video transmitted from the transmission equipment at the time of broadcasting is simultaneously recorded, and the broadcast simultaneously recorded video is stored in the storage unit 11 as broadcast video data 200.

次に、ステップS101において、不要領域特定手段100が不要領域特定処理を行う。
図3(a)によると、不要領域特定手段100は、放送映像データ200に含まれる放送映像の特定箇所に連続して表示される不要領域を特定する。
L字等を削除する方法としては、まず映像解析が必要である。本実施形態においては、不要領域特定手段100は、削除する対象の領域の特徴を学習させたモデルにより、不要領域を特定する。具体的には、不要領域特定手段100は、例えば、放送映像データ200の全編に対して解析を行って、番組の一部で生じた偶発的な類似画像の発生と、意図的に挿入されたL字等とを判別する。すなわち、不要領域特定手段100は、放送映像データ200の内容により、不要なL字等の位置を特定することが可能である。
不要領域特定手段100は、このモデルとして、上述の画像成分分析又はAIを用いてもよい。これらにより、映像に含まれるL字等の有無、及びその不要領域の範囲の特定が可能である。
Next, in step S101, the unnecessary area specifying means 100 performs unnecessary area specifying processing.
According to FIG. 3A, the unnecessary area specifying means 100 specifies an unnecessary area that is continuously displayed at a specific part of the broadcast video included in the broadcast video data 200.
As a method for deleting L-characters etc., video analysis is first required. In the present embodiment, the unnecessary area identifying means 100 identifies unnecessary areas using a model that has learned the characteristics of the area to be deleted. Specifically, the unnecessary area identification means 100 analyzes the entire broadcast video data 200, and identifies accidental occurrences of similar images that occur in a part of the program and images that have been intentionally inserted. Distinguish between L-shape, etc. That is, the unnecessary area specifying means 100 can specify the position of an unnecessary L-shape or the like based on the contents of the broadcast video data 200.
The unnecessary area identifying means 100 may use the above-mentioned image component analysis or AI as this model. With these, it is possible to identify the presence or absence of an L-shape, etc. included in the video, and the range of its unnecessary area.

ここで、不要領域特定手段100は、放送映像データ200について、映像の各フレームを全て解析する必要はなく、フレームを間引いて解析してもよい。この間引きの間隔は、解析のモデル等の特性等により設定可能である。
具体的に説明すると、L字等の特徴として、基本的に放送全編において、長期間連続して表示されていることが挙げられる。すなわち、不要領域特定手段100は、放送映像データ200の全編にL字等がある場合、任意の1フレームの映像を解析すれば、不要領域を特定可能である。
Here, the unnecessary area specifying means 100 does not need to analyze every frame of the broadcast video data 200, and may thin out frames for analysis. This thinning interval can be set depending on the characteristics of the analysis model, etc.
To be more specific, a characteristic of the L-shape etc. is that it is basically displayed continuously for a long period of time throughout the broadcast. That is, when the entire broadcast video data 200 includes an L-shape or the like, the unnecessary area identifying means 100 can identify the unnecessary area by analyzing one arbitrary frame of video.

しかしながら、L字等が全編ではない場合もある。さらに、CMを放映している最中はL字等の表示を解除している可能性もある。このため、不要領域特定手段100は、5秒程度あたり1フレーム毎の解析によって、不要領域を特定することも可能である。この場合、不要領域特定手段100は、L字等の有無が放送映像データ200中で変化する場合、不要領域があった箇所の前後の各フレームを解析していき、変化点を算出することが可能である。さらに、不要領域特定手段100は、変化点においてL字等の大きさが変動する場合、L字等の領域範囲の特定を、各フレームに対して実行することが可能である。 However, the L-shape etc. may not be the entire story. Furthermore, there is a possibility that the display of the letter L or the like may be canceled while a commercial is being aired. For this reason, the unnecessary area specifying means 100 can also specify unnecessary areas by analyzing every frame every about 5 seconds. In this case, if the presence or absence of an L-shape or the like changes in the broadcast video data 200, the unnecessary area specifying means 100 can calculate the point of change by analyzing each frame before and after the location where the unnecessary area exists. It is possible. Further, if the size of the L-shape or the like changes at a change point, the unnecessary area specifying means 100 can specify the area range of the L-shape or the like for each frame.

さらに、不要領域特定手段100は、放送映像データ200のメタデータやOCRによる解析を行って、L字等に含まれる文字列の文脈(コンテキスト)を解析し、含まれる情報の内容により、削除するべき内容なのか、映像コンテンツに元から存在した情報なのかを判別することも可能である。
不要領域特定手段100は、これらの不要領域と特定された箇所について、放送映像データ200のメタデータに格納することが可能である。
Further, the unnecessary area specifying means 100 analyzes the broadcast video data 200 using metadata and OCR, analyzes the context of character strings included in L characters, etc., and deletes them depending on the content of the information included. It is also possible to determine whether the information is the original content or information that originally existed in the video content.
The unnecessary area specifying means 100 can store the locations identified as unnecessary areas in the metadata of the broadcast video data 200.

図3(a)では、L字の領域である不要領域A1と、時刻表示の領域である不要領域A2と、地図の領域である不要領域A3とが特定された例を示している。 FIG. 3A shows an example in which an unnecessary area A1 that is an L-shaped area, an unnecessary area A2 that is a time display area, and an unnecessary area A3 that is a map area are identified.

次に、ステップS102において、不要領域加工手段110が、不要領域があったか否かを判断する。不要領域加工手段110は、例えば、不要領域特定手段100により特定された不要領域が放送映像データ200のメタデータに設定されていた場合、Yesと判断する。
Yesの場合、不要領域加工手段110は、処理をステップS103へ進める。
Noの場合、不要領域加工手段110は、再送出処理における高画質化処理を終了する。
Next, in step S102, the unnecessary area processing means 110 determines whether there is an unnecessary area. For example, if the unnecessary area specified by the unnecessary area specifying means 100 is set in the metadata of the broadcast video data 200, the unnecessary area processing means 110 determines Yes.
If Yes, the unnecessary area processing means 110 advances the process to step S103.
In the case of No, the unnecessary area processing means 110 ends the image quality improvement process in the retransmission process.

不要領域があった場合、ステップS103において、不要領域加工手段110が、不要領域加工処理を行う。
不要領域加工手段110は、不要領域を放送映像データ200から削除又は目立たなくする加工を行った加工映像データ210を作成する。この不要領域を削除又は目立たなくする加工として、不要領域加工手段110は、例えば、特定されたL字の不要領域については、直接、画面表示されないような編集を行い、加工映像データ210を作成する。具体的には、不要領域加工手段110は、例えば、L字を自動でトリミングし、L字以外の領域を拡大し、全画面表示となるような編集を行う。これによって、加工映像データ210から、L字の表示を削除することが可能である。
If there is an unnecessary area, the unnecessary area processing means 110 performs unnecessary area processing processing in step S103.
Unnecessary area processing means 110 creates processed video data 210 in which unnecessary areas are deleted from broadcast video data 200 or processed to make them less noticeable. As a process for deleting or making the unnecessary area less noticeable, the unnecessary area processing means 110, for example, edits the identified L-shaped unnecessary area so that it is not directly displayed on the screen, and creates processed video data 210. . Specifically, the unnecessary area processing unit 110 performs editing such as automatically trimming the L-shape, enlarging areas other than the L-shape, and displaying the entire screen. With this, it is possible to delete the L-shaped display from the processed video data 210.

一方、不要領域加工手段110は、例えば、特定された時刻や字幕等の不要領域に対しては、自動的にマスク処理を実行する。この場合、不要領域加工手段110は、例えば、不要領域にガウスブラー等のボカシ処理をするような編集を行う。これにより、加工映像データ210において、時刻や字幕や地図等の表示が、目立たなくなるか、視認できないようになる。
すなわち、不要領域加工手段110は。自動的にマスク処理を行った加工映像データ210を作成可能である。
On the other hand, the unnecessary area processing means 110 automatically performs mask processing on unnecessary areas such as the specified time and subtitles, for example. In this case, the unnecessary region processing means 110 performs editing such as blurring processing such as Gaussian blur on the unnecessary region. As a result, in the processed video data 210, displays such as the time, subtitles, and maps become inconspicuous or invisible.
That is, the unnecessary area processing means 110. It is possible to create processed video data 210 that has been automatically masked.

図3(b)は、不要領域を削除又は目立たなくした加工映像データ210の例を示す。 FIG. 3(b) shows an example of processed video data 210 in which unnecessary areas have been deleted or made less noticeable.

次に、ステップS104において、元映像特定手段120が、元映像特定処理を行う。
ビデオサーバーシステムを用いて放送された番組は、ビデオサーバーシステム内に格納されている映像を用いている可能性が十分に考えられる。このため、ビデオサーバーシステム内に保管されている映像を検索し、特定する。
具体的には、元映像特定手段120は、不要領域加工手段により加工された加工映像データ210及び/又は放送映像データ200から、蓄積サーバー2に格納された元映像データ220を特定する。より具体的には、元映像特定手段120は、加工映像データ210に含まれる映像と、元映像データ220に含まれる元映像との画像中の共通点を抽出することが可能である。
Next, in step S104, the original video identifying means 120 performs original video identifying processing.
It is highly possible that programs broadcast using a video server system use video stored within the video server system. For this purpose, the video stored in the video server system is searched and identified.
Specifically, the original video identifying means 120 identifies the original video data 220 stored in the storage server 2 from the processed video data 210 and/or the broadcast video data 200 processed by the unnecessary area processing means. More specifically, the original video identifying means 120 is capable of extracting common points between the video included in the processed video data 210 and the original video included in the original video data 220.

ここで、元映像特定手段120は、例えば、加工映像データ210と元素材映像データとの映像中の特徴データを、成分分析して、メタデータ等として、それぞれに格納する。元映像特定手段120は、この加工映像データ210及び元素材映像データの特徴データを、時系列に沿って比較することで、共通点として抽出可能である。この映像中の特徴データは、例えば、文字情報、画面の色情報、描画されたオブジェクトの情報、サムネイル画像の情報等を設定可能である。または、元映像特定手段120は、加工映像データ210と元素材映像データとを、直接、AIに学習させ、抽出した共通点に基づいて照合するといった処理を行うことも可能である。 Here, the original video specifying means 120, for example, performs component analysis on characteristic data in the processed video data 210 and the original material video data, and stores the analyzed data as metadata or the like in each of them. The original video identifying means 120 can extract common points by comparing the feature data of the processed video data 210 and the original material video data in chronological order. The feature data in the video can include, for example, text information, screen color information, drawn object information, thumbnail image information, and the like. Alternatively, the original video specifying means 120 can also directly cause the AI to learn the processed video data 210 and the original material video data, and perform a process of comparing them based on the extracted common points.

すなわち、元映像特定手段120は、加工映像データ210及び/又は放送映像データ200において、抽出した共通点に基づいて元映像データ220に含まれる元映像を特定する。
この検索により、放送に用いられた元映像の特定が可能となる。
That is, the original video identifying means 120 identifies the original video included in the original video data 220 based on the extracted common points in the processed video data 210 and/or the broadcast video data 200.
This search makes it possible to identify the original video used for broadcasting.

図3(c)は、加工映像データ210及び放送映像データ200に対応して特定された元映像データ220の例を示す。 FIG. 3C shows an example of original video data 220 specified in correspondence to processed video data 210 and broadcast video data 200.

次に、ステップS105において、高画質化手段130が、元映像データ220が特定できたか否かを判断する。高画質化手段130は、元映像特定手段120により放送映像データ200から元映像データ220が特定できた場合、Yesと判定する。
Yesの場合、高画質化手段130は、処理をステップS106へ進める。
Noの場合、高画質化手段130は、再送出処理における高画質化処理を終了する。
Next, in step S105, the image quality improvement unit 130 determines whether or not the original video data 220 has been identified. The image quality improving means 130 determines Yes when the original video identifying means 120 is able to identify the original video data 220 from the broadcast video data 200.
If Yes, the image quality improvement unit 130 advances the process to step S106.
In the case of No, the image quality improvement unit 130 ends the image quality improvement process in the retransmission process.

元映像データ220が特定できた場合、ステップS106において、高画質化手段130が、高画質処理を行う。
高音質化処理手段160は、元映像特定手段120により特定された元映像データ220を基に、加工映像を高画質化する。
高画質化手段130は、加工映像データ210について、超解像処理や高画質化処理を行う。具体的には、高画質化手段130は、元映像データ220に含まれる元映像の切り出しによる合成を行うことで高画質化することが可能である。
If the original video data 220 can be identified, the image quality improving means 130 performs high image quality processing in step S106.
The high quality sound processing means 160 improves the quality of the processed video based on the original video data 220 specified by the original video specifying means 120.
The image quality improvement unit 130 performs super resolution processing and image quality improvement processing on the processed video data 210. Specifically, the image quality improvement unit 130 can improve the image quality by cutting out and combining original videos included in the original video data 220.

図3(c)及び図3(e)は、この元映像データ220から元映像の一部又は全画面を切り出して、加工映像データ210に上書き等で合成した例を示す。 3(c) and 3(e) show examples in which a part or the entire screen of the original video is cut out from the original video data 220 and combined with the processed video data 210 by overwriting or the like.

さらに、高画質化手段130は、加工映像データ210について、元映像データ220に含まれる元映像に基づくエッジ情報及び/又は色情報を利用したエッジ強調又は合成を行うことも可能である。 Further, the image quality improvement unit 130 can perform edge enhancement or synthesis on the processed video data 210 using edge information and/or color information based on the original video included in the original video data 220.

図3(d)及び図3(e)は、この元映像データ220からエッジ情報や色情報を抽出し、加工映像データ210に合成した例を示す。 FIGS. 3(d) and 3(e) show examples in which edge information and color information are extracted from this original video data 220 and combined with processed video data 210.

さらに加えて、高画質化手段130は、GAN等のAIにより加工映像データ210を高画質化することも可能である。 In addition, the image quality improving means 130 can also improve the image quality of the processed video data 210 using AI such as GAN.

その後、この高画質化された加工映像データ210は、送出設備により再送出される。この際、下記の高音質化処理が行われた音声データ300を、MXF形式等のコンテナフォーマットのファイルとして再送出してもよい。なお、不要領域が特定されず、加工映像データ210が生成されなかった場合、放送映像データ200をそのまま再送出することも可能である。
以上により、再送出処理における高画質化処理を終了する。
Thereafter, this high-quality processed video data 210 is retransmitted by the transmission equipment. At this time, the audio data 300 that has been subjected to the high-quality sound processing described below may be retransmitted as a file in a container format such as MXF format. Note that if an unnecessary area is not identified and the processed video data 210 is not generated, it is also possible to retransmit the broadcast video data 200 as is.
With the above steps, the image quality improvement process in the retransmission process is completed.

次に、再送出処理における高音質化処理について、図2(b)のフローチャートと、図4とを用いて、ステップ毎に詳しく説明する。 Next, the high-quality sound processing in the retransmission processing will be explained step by step in detail using the flowchart of FIG. 2(b) and FIG. 4.

まず、ステップS110において、削除箇所特定手段140が、初期処理を行う。
削除箇所特定手段140は、上述の映像の高画質化処理と同様に、特定のモデルとして、例えば、音声データ300から検索するモデルを設定する。ここで、上述のように、ビデオサーバーシステムは、単一の放送局が保有、運用することが一般的であることから、重畳される音声は、ある程度、特定のパターンに限られることを利用することが可能である。これは、例えば、特定のメロディ、音声パターン、音声の周波数変化等の特徴を、削除する対象と認識させることを示す。
本実施形態では、警報音についてのモデルを設定する例について説明する。このモデルは、例えば、HMM等の統計モデル、RNNやLSTM等の時系列モデルを用いたAIにより学習、設定されてもよい。
First, in step S110, the deletion location specifying means 140 performs initial processing.
The deletion portion specifying means 140 sets, for example, a model to be searched from the audio data 300 as a specific model, similarly to the above-described video quality enhancement process. Here, as mentioned above, video server systems are generally owned and operated by a single broadcasting station, so the superimposed audio is limited to a certain specific pattern. Is possible. This indicates, for example, that characteristics such as a specific melody, voice pattern, voice frequency change, etc. are recognized as objects to be deleted.
In this embodiment, an example of setting a model for an alarm sound will be described. This model may be learned and set by AI using, for example, a statistical model such as HMM, or a time series model such as RNN or LSTM.

次に、ステップS111において、削除箇所特定手段140が、削除箇所特定処理を行う。
削除箇所特定手段140は、放送映像データ200に対応した音声データ300を解析して、削除箇所を特定する。削除箇所特定手段140は、例えば、放送映像データ200のコンテナフォーマットの映像ストリームに対応づけられた音声データ300を蓄積サーバー2から取得して、解析する。
Next, in step S111, the deletion location identifying means 140 performs deletion location identification processing.
Deletion location specifying means 140 analyzes audio data 300 corresponding to broadcast video data 200 and identifies a deletion location. For example, the deletion location specifying means 140 acquires the audio data 300 associated with the container format video stream of the broadcast video data 200 from the storage server 2 and analyzes it.

図4(a)によれば、削除箇所特定手段140は、特定のモデルを用いて音声データ300の解析を行い、音声中の警報音の箇所を特定する。音声データ300の解析方法としては、機械的に音声の成分分析を行っても、AIを用いてもよい。加えて、警報音の箇所は、単に警報音のみが音声データ300に録音されているのではなく、他の音声に警報音が重畳された箇所であってもよい。この際、削除箇所特定手段140は、例えば、音声データ300を数ミリ秒~数百ミリ秒程度のウィンドウに分けてFFT(Fast Fourier Transform)を行い、警報音のパターンの位置を検索する。具体的には、削除箇所特定手段140は、例えば、HMM等の統計モデル、RNNやLSTM等のAI等により、音声中の警報音の箇所を特定することが可能である。この警報音の特定も、音声データ全編に対して行っても、特定間隔で行っても、元映像データ220のL字等と対応する箇所のみに絞って行ってもよい。 According to FIG. 4A, the deletion location specifying means 140 analyzes the audio data 300 using a specific model and identifies the location of the alarm sound in the audio. As a method for analyzing the audio data 300, a mechanical audio component analysis may be performed or AI may be used. In addition, the location of the alarm sound is not simply a location where only the alarm sound is recorded in the audio data 300, but may be a location where the alarm sound is superimposed on other sounds. At this time, the deletion point specifying means 140, for example, divides the audio data 300 into windows of several milliseconds to several hundred milliseconds and performs FFT (Fast Fourier Transform) to search for the position of the alarm sound pattern. Specifically, the deletion location specifying means 140 can specify the location of the alarm sound in the audio using, for example, a statistical model such as HMM, AI such as RNN or LSTM, or the like. This alarm sound may be specified for the entire audio data, at specific intervals, or limited to a portion of the original video data 220 that corresponds to an L-shape or the like.

次に、ステップS112において、元音声特定手段150が、削除箇所があったか否かを判断する。
Yesの場合、は、処理をステップS113へ進める。
Noの場合、は、再送出処理の高音質化処理を終了する。
Next, in step S112, the original audio specifying means 150 determines whether there is a deleted portion.
If Yes, the process advances to step S113.
In the case of No, the high-quality sound processing of the retransmission processing ends.

削除箇所があった場合、ステップS113において、元音声特定手段150が、元音声特定処理を行う。
映像と同様、ビデオサーバーシステムを用いて放送された番組は、ビデオサーバーシステム内に保管されている音声を用いている可能性が十分に考えられる。このため、音声解析時に、ビデオサーバーシステム内に格納されている元音声データ320の検索を行うことが可能である。
If there is a deleted portion, the original audio specifying means 150 performs original audio specifying processing in step S113.
As with video, programs broadcast using a video server system are highly likely to use audio stored within the video server system. Therefore, during audio analysis, it is possible to search the original audio data 320 stored within the video server system.

図4(b)によれば、元音声特定手段150は、例えば、元映像データ220に対応する元音声データ320を特定する。この検索により、放送に用いられた元音声の特定が可能である。 According to FIG. 4(b), the original audio identifying means 150 identifies, for example, original audio data 320 corresponding to the original video data 220. Through this search, it is possible to specify the original audio used in the broadcast.

次に、ステップS114において、高音質化処理手段160が、元音声データ320を特定できたか否かを判断する。
Yesの場合、高音質化処理手段160は、処理をステップS115へ進める。
Noの場合、高音質化処理手段160は、処理をステップS116へ進める。
Next, in step S114, the high-quality sound processing means 160 determines whether or not the original audio data 320 has been identified.
If Yes, the high-quality sound processing means 160 advances the process to step S115.
In the case of No, the high-quality sound processing means 160 advances the process to step S116.

警報音の重畳が検出され、元音声データ320が特定できた場合、ステップS115において、高音質化処理手段160が、コピー高音質処理を行う。
高音質化処理手段160は、元音声特定手段150により特定された元音声データ320を基に、削除箇所特定手段140により特定された音声の削除箇所を高音質化する。高音質化処理手段160は、例えば、音声データ300の警報音が含まれる範囲を元音声データ320の当該範囲で置き換える。
If the superimposition of the alarm sound is detected and the original audio data 320 can be identified, the high-quality sound processing unit 160 performs copy high-quality processing in step S115.
Based on the original audio data 320 specified by the original audio specifying means 150, the high-quality sound processing means 160 enhances the sound quality of the deletion portion of the audio specified by the deletion portion specifying means 140. For example, the high-quality sound processing unit 160 replaces the range in which the alarm sound is included in the audio data 300 with the corresponding range in the original audio data 320.

図4(b)及び図4(c)によれば、高音質化処理手段160は、音声データ300の音声の削除を指定し、削除箇所を対応する元音声データ320の箇所で置換して、警報音を消去するような編集内容を設定し、実行する。この処理は、制御部10に含まれるDSP等の専用プロセッサーで実行することも可能である。さらに、この際、高音質化処理手段160は、コンプレッサー等のエフェクトにより、音声の出力レベルを調整してもよい。
その後、高音質化処理手段160は、再送出処理の高音質化処理を終了する。
According to FIGS. 4(b) and 4(c), the high-quality sound processing means 160 specifies the deletion of the audio of the audio data 300, replaces the deleted portion with the corresponding portion of the original audio data 320, and Set and execute editing contents such as erasing the alarm sound. This processing can also be executed by a dedicated processor such as a DSP included in the control unit 10. Furthermore, at this time, the high-quality sound processing means 160 may adjust the output level of the audio using an effect such as a compressor.
Thereafter, the high-quality sound processing unit 160 ends the high-quality sound processing of the retransmission process.

警報音の重畳が検出されたものの、元音声データ320が特定できなかった場合、ステップS116において、高音質化処理手段160が、反転高音質処理を行う。 If the superimposition of the alarm sound is detected but the original audio data 320 cannot be identified, the high-quality sound processing unit 160 performs inverted high-quality sound processing in step S116.

図4(d)によると、高音質化処理手段160は、警報音を位相反転した逆位相の波形データを、適切な出力レベルで音声データ300と合成して、警報音を削除する。または、高音質化処理手段160は、警報音の周波数成分を削除する等の特殊なフィルター処理により、警報音を削除することも可能である。または、高音質化処理手段160は、警報音を消すように学習させたAIを利用して、警報音を削除することも可能である。さらに、削除後、高音質化処理手段160は、音声の出力レベルを調整してもよい。 According to FIG. 4(d), the high-quality sound processing unit 160 deletes the alarm sound by synthesizing the waveform data of the opposite phase obtained by inverting the phase of the alarm sound with the audio data 300 at an appropriate output level. Alternatively, the high-quality sound processing means 160 can also delete the alarm sound by performing special filter processing such as removing frequency components of the alarm sound. Alternatively, the high-quality sound processing unit 160 can also delete the alarm sound by using AI that has been trained to mute the alarm sound. Furthermore, after deletion, the high-quality sound processing means 160 may adjust the output level of the audio.

これらの処理が終了した後、加工された音声データ300は、加工映像データ210に対応づけられて、送出設備により再送出される。ここで、削除箇所がなかった場合、加工されない状態の音声データ300が再送出される。なお、放送映像データ200に、加工された又は加工されていない音声データ300が対応づけられて再送出されてもよい。
以上により、再送出処理の高音質化処理を終了する。
After these processes are completed, the processed audio data 300 is associated with the processed video data 210 and retransmitted by the transmission equipment. Here, if there is no deleted portion, the unprocessed audio data 300 is retransmitted. Note that the broadcast video data 200 may be retransmitted in association with the processed or unprocessed audio data 300.
With the above steps, the high quality sound processing of the retransmission processing is completed.

以上のように構成することで、以下のような効果を得ることができる。
図5によると、従来、放送同録の放送映像を元に、再放送や再配信等で再送出を行う場合、L字等の不要な要素を削除するような映像加工を行っていた。このような映像の削除加工は、編集作業が都度手動で行われており、運用者の業務負荷が発生するうえ、再配信の迅速性にも欠ける。また、編集は手動であるため、L字部分を削除する範囲の設定不備により、必要以上の領域を削除した場合は不自然な画角となったり、その逆に削除範囲が狭かった場合はL字部分の背景色がハミ出し残存したりして、放送に適さない映像となる可能性があった。加えて、L字により縮小した領域には、再エンコードによる圧縮ノイズ等が発生することがあった。さらに、このL字により縮小した領域を再度拡大すると、映像の解像感が元の放送映像と比較すると、損なわれる(ボケが生じる)ことがあった。一方、時刻等をマスク(ボカシ)加工した領域は、周囲の映像との境界が生じ、極めて不自然な映像となっていた。そもそも、放送同録映像は放送映像を保存するために再圧縮したものが多いと想定されることから、本来と比較すると画質が劣っていた。
これらにより、映像上の違和感が生じて、放送に相応しくない映像となる可能性があった。
By configuring as described above, the following effects can be obtained.
According to FIG. 5, conventionally, when retransmitting for rebroadcasting or redistribution based on broadcast video recorded simultaneously, video processing was performed to delete unnecessary elements such as L characters. Such video deletion processing requires manual editing each time, which creates a workload for the operator and also lacks the speed of redistribution. In addition, since editing is done manually, if the area to be deleted is incorrectly set, if more than necessary area is deleted, the angle of view may become unnatural, or conversely, if the deletion area is narrow, the L-shaped part may be deleted. There was a possibility that the background color of the text would bleed through and remain, making the video unsuitable for broadcast. In addition, compression noise and the like may occur due to re-encoding in the area reduced by the L-shape. Furthermore, when the area reduced by this L-shape is enlarged again, the resolution of the video may be impaired (blurring may occur) when compared with the original broadcast video. On the other hand, areas where the time and other information have been masked (blurred) create boundaries with surrounding images, resulting in extremely unnatural images. In the first place, it is assumed that many of the broadcast simulcast videos are recompressed in order to preserve the broadcast video, so the image quality was inferior compared to the original.
These may create a sense of discomfort in the video, resulting in a video that is not suitable for broadcasting.

これに対して、本発明の実施の形態に係る編集システムXは、放送映像データ200に含まれる放送映像を再送出する編集システムであって、放送映像データ200に含まれる放送映像の特定箇所に連続して表示される不要領域を特定する不要領域特定手段100と、不要領域特定手段100により特定された不要領域を放送映像データ200から削除又は目立たなくする加工を行った加工映像データ210を作成する不要領域加工手段110と、不要領域加工手段により加工された加工映像データ210及び/又は放送映像データ200から、格納された元映像データ220を特定する元映像特定手段120と、元映像特定手段120により特定された元映像データ220を基に、加工映像を高画質化する高画質化手段130とを備えることを特徴とする。 On the other hand, the editing system X according to the embodiment of the present invention is an editing system that retransmits the broadcast video included in the broadcast video data 200. An unnecessary area identifying means 100 identifies unnecessary areas that are continuously displayed, and processed video data 210 is created in which the unnecessary area identified by the unnecessary area identifying means 100 is deleted from the broadcast video data 200 or processed to make it less noticeable. an unnecessary area processing means 110 for processing, an original video specifying means 120 for specifying stored original video data 220 from the processed video data 210 and/or broadcast video data 200 processed by the unnecessary area processing means, and an original video specifying means. The video processing apparatus is characterized by comprising an image quality enhancing means 130 for enhancing the image quality of the processed image based on the original image data 220 specified by 120.

このように構成し、放送映像を再放送する際に、前回放送した映像の不要部分を削除する。すなわち、映像の内容を解析し、L時等の不要領域の位置を特定し、特定した不要領域を自動でマスク処理して目立たなく加工する。そして、映像内容を解析して、元映像データ220と照合し、放送に使用された元映像を特定する。この上で、蓄積サーバー2に格納された元映像データ220に基づいて、元の放送映像に近い映像を復元する。
このように、放送に用いられた元映像データ220を特定できた場合、元映像データ220を参照することで、従来よりも低負荷で、なおかつ高い精度の高画質化を行うことができる。これにより、放送映像の再送出時の画質劣化を抑えて、画質を改善できる。さらに、放送時の送出映像の同時録画から再送出までのワークフローを、自動編集により省力化することもできる。加えて、自動編集可能な編集システムとして、運用者の業務負荷を減らし、コストも改善できる。
With this configuration, when rebroadcasting broadcast video, unnecessary parts of the previously broadcast video are deleted. That is, the content of the video is analyzed, the position of unnecessary areas such as at L time is specified, and the identified unnecessary areas are automatically masked to make them less noticeable. Then, the video content is analyzed and compared with the original video data 220 to identify the original video used for broadcasting. Then, based on the original video data 220 stored in the storage server 2, a video close to the original broadcast video is restored.
In this way, when the original video data 220 used for broadcasting can be identified, by referring to the original video data 220, image quality can be improved with lower load and higher accuracy than in the past. This makes it possible to suppress image quality deterioration during retransmission of broadcast video and improve image quality. Furthermore, automatic editing can save labor in the workflow from simultaneous recording of broadcast video to retransmission. In addition, as an editing system that can automatically edit, it can reduce the workload of the operator and improve costs.

本発明の実施の形態に係る編集システムXは、不要領域特定手段100は、削除する対象の領域の特徴を学習させたモデルにより不要領域を特定することを特徴とする。
このように構成することで、不要領域を確実に特定することが可能となる。すなわち、ビデオサーバーシステムは、放送局ごとに稼働しており、扱われる放送同録映像のL字等における文字の形状、時刻表示の形状、字幕の表示位置、フォント等の加工、挿入フォーマットは、ある程度の規則性がある。このような、特定のパターンを示すL字等を削除する対象の領域のモデルとして学習させ、L字等に含まれる特定の成分を検出して、不要領域を削除することで、高精度で不要領域を特定することが可能となる。これにより、自動編集による高画質化を確実に実行可能となる。
The editing system X according to the embodiment of the present invention is characterized in that the unnecessary area identifying means 100 identifies unnecessary areas using a model that has learned the characteristics of the area to be deleted.
With this configuration, it is possible to reliably identify unnecessary areas. In other words, the video server system operates for each broadcast station, and the shape of characters such as L letters of the broadcast recorded video, the shape of the time display, the display position of subtitles, the processing of fonts, etc., and the insertion format are There is some regularity. This kind of L-shape, etc. that shows a specific pattern can be trained as a model of the target area to be deleted, detect specific components contained in the L-shape, etc., and delete unnecessary areas with high precision. It becomes possible to specify the area. This makes it possible to reliably achieve high image quality through automatic editing.

放送同録映像の放送品位を高めるために、超解像技術等の適用により、高画質化を行うことも考えられる。ここで、特にボカシを行った領域は、意図的に解像感を極めて低く加工している。さらに、たとえボカシの範囲を、時刻や字幕等の形状に精密に合わせたとしても、時刻や字幕等の上書きによって失われた元映像の画素情報は復元することが困難である。これらに対しては、AI等による高度な画像予測を行ったとしても、本来存在した画素情報や解像感を得ることは極めて難しかった。 In order to improve the broadcast quality of broadcast-recorded video, it is also possible to improve the image quality by applying super-resolution technology or the like. Here, especially in the blurred area, the resolution is intentionally processed to be extremely low. Furthermore, even if the blur range is precisely matched to the shape of the time, subtitles, etc., it is difficult to restore pixel information of the original video that is lost due to overwriting of the time, subtitles, etc. Even if advanced image prediction using AI or the like is performed for these images, it is extremely difficult to obtain the originally existing pixel information and resolution.

これに対して、本発明の実施の形態に係る編集システムXは、高画質化手段130は、加工映像データ210について、元映像データ220に含まれる元映像に基づくエッジ情報並びに/若しくは色情報を利用したエッジ強調若しくは合成、及び/又は、元映像データ220に含まれる元映像の切り出しによる合成を行うことで高画質化することを特徴とする。
このように構成し、元映像データ220に基づくエッジ情報や色情報を利用したエッジ強調や合成、元映像データ220に含まれる元映像の切り出しを行うことで、放送映像に本来存在した画素情報や解像感を再現することが可能である。すなわち、元の映像に近い映像を復元することができる。さらに、元映像データ220を用いてエッジや色を強調、合成することで、放送時よりも高画質化できる可能性も生じる。
On the other hand, in the editing system The feature is that the image quality is improved by performing edge enhancement or synthesis using the original video data 220, and/or synthesis by cutting out the original video included in the original video data 220.
With this configuration, by performing edge enhancement and compositing using edge information and color information based on the original video data 220, and cutting out the original video included in the original video data 220, the pixel information that originally existed in the broadcast video It is possible to reproduce the sense of resolution. In other words, it is possible to restore a video that is close to the original video. Furthermore, by emphasizing and compositing edges and colors using the original video data 220, there is a possibility that the image quality can be made higher than that at the time of broadcast.

本発明の実施の形態に係る編集システムXは、元映像特定手段120は、加工映像データ210に含まれる加工映像と元映像データ220に含まれる元映像との画像中の共通点を抽出し、抽出した共通点に基づいて元映像データ220に含まれる元映像を特定することを特徴とする。
このように構成し、加工映像データ210と元映像データ220の画像中の共通点を予め抽出しておき、抽出した共通点に基づいて学習させて照合し、加工映像データ210から元映像データ220を特定することが可能である。このように、映像内容を解析しておき、保管された映像と照合し、放送に使用された元映像を特定することで、元映像データ220の検索を高速化し、更に、画質復元精度を向上させることができる。
In the editing system X according to the embodiment of the present invention, the original video specifying means 120 extracts common points between the processed video included in the processed video data 210 and the original video included in the original video data 220, The feature is that the original video included in the original video data 220 is specified based on the extracted common points.
With this configuration, the common points in the images of the processed video data 210 and the original video data 220 are extracted in advance, the learning is performed based on the extracted common points, the comparison is made, and the original video data 220 is converted from the processed video data 210. It is possible to identify In this way, by analyzing the video content, comparing it with the stored video, and identifying the original video used for broadcasting, the search for the original video data 220 can be speeded up, and the accuracy of image quality restoration can be improved. can be done.

従来、手動編集作業による逆位相合成やフィルター処理等だけでは警報音を完全に削除しきれず、警報音の成分がノイズとして残ってしまうことがあった。
これに対して、本発明の実施の形態に係る編集システムXは、放送映像データ200に対応した音声データ300を解析して、削除箇所を特定する削除箇所特定手段140と、元映像データ220に対応する元音声データ320を特定する元音声特定手段150と、元音声特定手段150により特定された元音声データ320を基に、削除箇所特定手段140により特定された音声の削除箇所を高音質化する高音質化処理手段160とを更に備えることを特徴とする。
In the past, the alarm sound could not be completely deleted by manual editing such as reverse phase synthesis or filter processing, and components of the alarm sound remained as noise.
On the other hand, the editing system The original audio identifying means 150 identifies the corresponding original audio data 320, and based on the original audio data 320 identified by the original audio identifying means 150, the deletion location of the audio identified by the deletion location identifying means 140 is improved in sound quality. The present invention is characterized in that it further includes a high-quality sound processing means 160.

このように構成し、音声内容を解析して、格納された音声データ300と照合し、放送に使用された元映像データ220に対応した元音声データ320を特定する。これにより、放送に用いられた元音声データ320が特定できた場合、これを参照することで、通常よりも高い精度で放送時に付加された警報音の削除を行うことができる。これにより、警報音に由来するノイズを緩和することができ、確実に高音質化させることができる。 With this configuration, the audio content is analyzed and compared with the stored audio data 300 to identify the original audio data 320 that corresponds to the original video data 220 used for broadcasting. As a result, if the original audio data 320 used in the broadcast can be identified, by referring to this, the alarm sound added during the broadcast can be deleted with higher precision than usual. Thereby, noise originating from the alarm sound can be alleviated, and high quality sound can be reliably achieved.

本発明の実施の形態に係る編集システムXは、削除箇所特定手段140は、特定のモデルを用いて音声解析を行い、音声中の警報音の箇所を特定することを特徴とする。
このように構成し、音声内容に、AI等を含む特定のモデルを用いて、格納された音声と照合し、放送に使用された元映像の音声を特定することで、警報音除去精度を向上させることが可能となる。
The editing system X according to the embodiment of the present invention is characterized in that the deletion location specifying means 140 performs audio analysis using a specific model and identifies the location of the alarm sound in the audio.
With this configuration, the audio content is compared with the stored audio using a specific model that includes AI, and the audio of the original video used for broadcasting is identified, improving the accuracy of alarm sound removal. It becomes possible to do so.

なお、上述の実施の形態では、蓄積サーバー2に既に格納されている放送映像データ200について、高画質化処理を実行し、音声データ300について高音質化処理をする例について説明した。
しかしながら、収録中、又は収録せずに、リアルタイムに処理を行うことも可能である。また、警報音の削除を行う高音質化処理についても、収録中、又は収録せずに、リアルタイムに処理を行うことも可能である。
In the above-described embodiment, an example has been described in which the broadcast video data 200 already stored in the storage server 2 is subjected to image quality enhancement processing, and the audio data 300 is subjected to audio quality enhancement processing.
However, it is also possible to perform processing in real time during or without recording. Furthermore, the high-quality sound processing for deleting the alarm sound can also be performed in real time during recording or without recording.

上述の実施の形態では、放送映像データ200を解析し、不要領域の有無を検索してから特定するように記載した。
しかしながら、運用者の操作によって、放送映像データ200に、L字等が含まれることや、L字等の映像上の位置や表示開始時間や終了時間等を指定してもよい。このように構成することで、放送映像データ200の解析を省くことができる。
In the above-described embodiment, the broadcast video data 200 is analyzed, and the presence or absence of an unnecessary area is searched for and then identified.
However, the operator may specify that the broadcast video data 200 includes an L-shape or the like, or specify the position of the L-shape or the like on the video, the display start time, the display end time, and the like. With this configuration, analysis of the broadcast video data 200 can be omitted.

上述の実施の形態では、放送映像データ200から加工映像データ210を作成し、その加工映像データ210について元映像データ220からの置き換え、エッジや色の強調、合成等を行うように記載した。
しかしながら、放送映像データ200について加工映像データ210を作成せず、直接、放送映像データ200を加工することも可能である。または、マスク処理を行わず、例えば、放送映像データ200のコピーを加工映像データ210として作成することも可能である。この場合、不要領域のあるフレームを元映像データ220のフレームで直接、置き換えたり、時刻や字幕等の表示位置を元映像データ220で置き換え、マスク処理は行わないようにしたりすることが可能である。
このように構成することで、マスク処理の手間を減らし、速く高画質化することが可能となる。
In the embodiment described above, the processed video data 210 is created from the broadcast video data 200, and the processed video data 210 is replaced with the original video data 220, edges and colors are emphasized, synthesized, etc.
However, it is also possible to directly process the broadcast video data 200 without creating the processed video data 210 for the broadcast video data 200. Alternatively, for example, it is also possible to create a copy of the broadcast video data 200 as the processed video data 210 without performing mask processing. In this case, it is possible to directly replace a frame with an unnecessary area with a frame of the original video data 220, or to replace the display position of the time, subtitles, etc. with the original video data 220 without performing mask processing. .
With this configuration, it is possible to reduce the effort required for mask processing and quickly improve image quality.

上述の実施の形態では、元映像データ220として、放送映像データ200で使用された番組のデータを用いる例について説明した。
しかしながら、放送に用いられた映像そのものの特定が困難であっても、例えば、類似地点を映した類似の映像の素材データを、元映像データ220として用いることも可能である。このように構成することで、従来より高い精度の高画質化が可能となる。
なお、この類似の映像は、上述のAIにより検索することも可能である。さらに、GAN等のAIを用いて、この類似の映像を、実際の放送に用いられた映像に近い映像に加工することも可能である。
In the above-described embodiment, an example has been described in which the program data used in the broadcast video data 200 is used as the original video data 220.
However, even if it is difficult to identify the video itself used for broadcasting, it is also possible to use material data of a similar video showing a similar point as the original video data 220, for example. With this configuration, it is possible to achieve higher image quality with higher precision than in the past.
Note that this similar video can also be searched using the above-mentioned AI. Furthermore, using AI such as GAN, it is also possible to process this similar video into a video that is close to the video used in the actual broadcast.

一方、上述の実施の形態では、元音声データ320が特定できなかった場合のみ、警報音の逆位相合成やフィルター処理を行うように記載した。
しかしながら、加工音声データ310について、逆位相合成やフィルター処理をしてから、元音声データ320による置き換えを行ってもよい。
このように構成することで、元音声データ320の特定の可否によって処理を分ける必要がなくなり、高音質化の効率を向上させることができる。
On the other hand, in the above-described embodiment, it is described that anti-phase synthesis and filter processing of the alarm sound are performed only when the original audio data 320 cannot be specified.
However, the processed audio data 310 may be replaced with the original audio data 320 after performing anti-phase synthesis or filter processing.
With this configuration, there is no need to separate processing depending on whether or not the original audio data 320 can be specified, and the efficiency of improving sound quality can be improved.

加えて、上述の実施の形態では、音声データ300を直接、逆位相合成やフィルター処理、又は、元音声データ320に置き換えるように記載した。
しかしながら、音声データ300には加工せず、加工音声データ310を加工して、加工映像データ210と供に出力するように構成することも可能である。
In addition, in the embodiments described above, the audio data 300 is directly subjected to anti-phase synthesis, filter processing, or replaced with the original audio data 320.
However, it is also possible to configure the processed audio data 310 to be processed and output together with the processed video data 210 without processing the audio data 300.

上述の実施の形態では、蓄積サーバー2に格納された放送映像データ200に対する各機能部の処理を、専用の解析装置1が実行する例について説明した。
しかしながら、上述の各機能部の処理は、解析装置1で行わなくてもよく、編集装置4や蓄積サーバー2等で実行してもよい。
In the embodiment described above, an example has been described in which the dedicated analysis device 1 executes the processing of each functional unit on the broadcast video data 200 stored in the storage server 2.
However, the processing of each of the above-mentioned functional units does not have to be performed by the analysis device 1, and may be performed by the editing device 4, the storage server 2, or the like.

上述の実施の形態では、コンテナフォーマットのファイルとして、MXFを用いる例について記載した。
しかしながら、MXF以外のコンテナフォーマット、例えば、MKV等を用いることも可能である。さらに、放送映像データ200の記録形式や記録フォーマットは、システム要件に応じて、MP4、AVI、その他のプログラムストリーム(PS)形式、その他のトランスポートストリーム形式(TS)等でもよい。さらに、放送映像データ200は、各種コーデックで圧縮されていてもよい。
In the embodiment described above, an example is described in which MXF is used as the container format file.
However, it is also possible to use container formats other than MXF, such as MKV. Furthermore, the recording format and recording format of the broadcast video data 200 may be MP4, AVI, other program stream (PS) formats, other transport stream formats (TS), etc., depending on system requirements. Furthermore, the broadcast video data 200 may be compressed using various codecs.

また、高画質化手段130及び高音質化処理手段160は、元映像データ220からの置き換えの際、映像についてはディゾルブ効果、音声はクロスフェード効果等を用いて、徐々に元映像データ220や元音声データ320と置き換えるようにしてもよい。
このように構成することで、不連続性に伴う違和感を緩和することが可能となる。
In addition, when replacing the original video data 220, the high image quality improvement means 130 and the high sound quality processing means 160 gradually change the original video data 220 and the original data by using a dissolve effect for video, a cross fade effect for audio, etc. It may be replaced with the audio data 320.
With this configuration, it is possible to alleviate the discomfort caused by discontinuity.

また、本発明の実施の形態に係る編集システムは、映像データを使用する各種装置に適用できる。たとえば、映像データを使用する装置として、エンコーダー、デコーダー、編集機、素材サーバー、送出サーバー等にも適用可能である。 Further, the editing system according to the embodiment of the present invention can be applied to various devices that use video data. For example, the invention can be applied to encoders, decoders, editing machines, material servers, transmission servers, etc. as devices that use video data.

なお、上記実施の形態の構成及び動作は例であって、本発明の趣旨を逸脱しない範囲で適宜変更して実行することができることは言うまでもない。 Note that the configuration and operation of the embodiment described above are merely examples, and it goes without saying that the configuration and operation of the embodiment can be modified and executed as appropriate without departing from the spirit of the present invention.

1 解析装置
2 蓄積サーバー
3 収録装置
4 編集装置
5 ネットワーク
10 制御部
11 記憶部
30 撮像部
100 不要領域特定手段
110 不要領域加工手段
120 元映像特定手段
130 高画質化手段
140 削除箇所特定手段
150 元音声特定手段
160 高音質化処理手段
200 放送映像データ
210 加工映像データ
220 元映像データ
300 音声データ
310 加工音声データ
320 元音声データ
A1、A2、A3 不要領域
X 編集システム
1 Analyzing device 2 Storage server 3 Recording device 4 Editing device 5 Network 10 Control section 11 Storage section 30 Imaging section 100 Unnecessary area specifying means 110 Unnecessary area processing means 120 Original video specifying means 130 High image quality means 140 Deletion part specifying means 150 Yuan Audio identification means 160 High quality sound processing means 200 Broadcast video data 210 Processed video data 220 Original video data 300 Audio data 310 Processed audio data 320 Original audio data A1, A2, A3 Unnecessary area X Editing system

Claims (6)

放送映像を再送出する編集システムであって、
前記放送映像の特定箇所に連続して表示される不要領域を特定する不要領域特定手段と、
前記不要領域特定手段により特定された不要領域を前記放送映像から削除又は目立たなくする加工を行った加工映像を作成する不要領域加工手段と、
前記不要領域加工手段により加工された前記加工映像及び/又は前記放送映像から、格納された元映像を特定する元映像特定手段と、
前記元映像特定手段により特定された前記元映像を基に、前記加工映像を高画質化する高画質化手段とを備える
ことを特徴とする編集システム。
An editing system that retransmits broadcast video,
unnecessary area identifying means for identifying an unnecessary area that is continuously displayed at a specific location of the broadcast video;
unnecessary area processing means for creating a processed video in which the unnecessary area identified by the unnecessary area identification means is processed to delete or make it less noticeable from the broadcast video;
Original video identifying means for identifying a stored original video from the processed video and/or the broadcast video processed by the unnecessary area processing means;
An editing system comprising: an image quality improvement unit that increases the image quality of the processed video based on the original video specified by the original video identification unit.
前記不要領域特定手段は、
削除する対象の領域の特徴を学習させたモデルにより前記不要領域を特定する
ことを特徴とする請求項1に記載の編集システム。
The unnecessary area identifying means includes:
The editing system according to claim 1, wherein the unnecessary area is identified by a model that has learned the characteristics of the area to be deleted.
前記高画質化手段は、
前記加工映像について、前記元映像に基づくエッジ情報並びに/若しくは色情報を利用したエッジ強調若しくは合成、及び/又は、前記元映像の切り出しによる合成を行うことで高画質化する
ことを特徴とする請求項1又は2に記載の編集システム。
The image quality improvement means includes:
A claim characterized in that the image quality of the processed video is enhanced by performing edge enhancement or composition using edge information and/or color information based on the original video, and/or composition by cutting out the original video. The editing system according to item 1 or 2.
前記元映像特定手段は、
前記加工映像と前記元映像との画像中の共通点を抽出し、抽出した前記共通点に基づいて前記元映像を特定する
ことを特徴とする請求項1乃至3のいずれか1項に記載の編集システム。
The source video identifying means includes:
4. The method according to claim 1, wherein common points between the processed video and the original video are extracted, and the original video is identified based on the extracted common points. Editing system.
前記放送映像に対応した音声を解析して、削除箇所を特定する削除箇所特定手段と、
前記元映像に対応する元音声を特定する元音声特定手段と、
前記元音声特定手段により特定された前記元音声を基に、前記削除箇所特定手段により特定された前記音声の前記削除箇所を高音質化する高音質化処理手段とを更に備える
ことを特徴とする請求項1乃至4のいずれか1項に記載の編集システム。
Deletion location identifying means for analyzing audio corresponding to the broadcast video to identify deletion locations;
Original audio identifying means for identifying the original audio corresponding to the original video;
The method further comprises a high-quality sound processing means for enhancing the sound quality of the deletion portion of the voice specified by the deletion portion specifying means based on the original voice specified by the original voice specifying means. An editing system according to any one of claims 1 to 4.
前記削除箇所特定手段は、
特定のモデルを用いて音声解析を行い、前記音声中の警報音の箇所を特定する
ことを特徴とする請求項5に記載の編集システム。
The deletion point specifying means includes:
6. The editing system according to claim 5, wherein a voice analysis is performed using a specific model to identify a location of an alarm sound in the voice.
JP2019223031A 2019-12-10 2019-12-10 editing system Active JP7343378B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019223031A JP7343378B2 (en) 2019-12-10 2019-12-10 editing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019223031A JP7343378B2 (en) 2019-12-10 2019-12-10 editing system

Publications (2)

Publication Number Publication Date
JP2021093627A JP2021093627A (en) 2021-06-17
JP7343378B2 true JP7343378B2 (en) 2023-09-12

Family

ID=76312855

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019223031A Active JP7343378B2 (en) 2019-12-10 2019-12-10 editing system

Country Status (1)

Country Link
JP (1) JP7343378B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2617352A (en) * 2022-04-05 2023-10-11 Canon Kk Method, device, and computer program for encapsulating region annotations in media tracks

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010081181A (en) 2008-09-25 2010-04-08 Sanyo Electric Co Ltd Image processing apparatus and electronic apparatus
JP2012147288A (en) 2011-01-13 2012-08-02 Hitachi Kokusai Electric Inc Broadcasting system
JP2019062381A (en) 2017-09-26 2019-04-18 株式会社日立国際電気 Video edition system
JP2019169851A (en) 2018-03-23 2019-10-03 株式会社日立国際電気 Broadcasting system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010081181A (en) 2008-09-25 2010-04-08 Sanyo Electric Co Ltd Image processing apparatus and electronic apparatus
JP2012147288A (en) 2011-01-13 2012-08-02 Hitachi Kokusai Electric Inc Broadcasting system
JP2019062381A (en) 2017-09-26 2019-04-18 株式会社日立国際電気 Video edition system
JP2019169851A (en) 2018-03-23 2019-10-03 株式会社日立国際電気 Broadcasting system

Also Published As

Publication number Publication date
JP2021093627A (en) 2021-06-17

Similar Documents

Publication Publication Date Title
US20230121540A1 (en) Matching mouth shape and movement in digital video to alternative audio
US9576202B1 (en) Systems and methods for identifying a scene-change/non-scene-change transition between frames
US7072512B2 (en) Segmentation of digital video and images into continuous tone and palettized regions
CN107241646B (en) Multimedia video editing method and device
EP1111612A1 (en) Method and device for managing multimedia file
US7706663B2 (en) Apparatus and method for embedding content information in a video bit stream
CN108683826A (en) Video data handling procedure, device, computer equipment and storage medium
JP2006115457A (en) System and its method for embedding multimedia editing information into multimedia bit stream
US20090110366A1 (en) Image processing apparatus and image processing method, program, and recording medium
US20080320046A1 (en) Video data management apparatus
CN113225618A (en) Video editing method and device
US20150067721A1 (en) Method and system for transmitting videos to mobile phones
JP7343378B2 (en) editing system
JP2007336263A (en) Image processing method, apparatus, and program
JP2011523821A (en) Apparatus and method for adjusting audiovisual system to viewer&#39;s attention level
CN112262570A (en) Method and system for automatic real-time frame segmentation of high-resolution video streams into constituent features and modification of features in individual frames to create multiple different linear views from the same video source simultaneously
US8538244B2 (en) Recording/reproduction apparatus and recording/reproduction method
KR20170053714A (en) Systems and methods for subject-oriented compression
US9113150B2 (en) System and method for recording collaborative information
JPH10276388A (en) Device, method for processing and reproducing image and recording medium
CN109218849A (en) A kind of processing method of live data, device, equipment and storage medium
EP3331245B1 (en) Opportunistic frame caching transcoder and pre-viewer.
CN111918146B (en) Video synthesis method and system
KR101695209B1 (en) A system and method for composing real-time image and chroma-key Image of subject
CN114756835A (en) Cinema film piracy tracing method and system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220912

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230814

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230829

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230831

R150 Certificate of patent or registration of utility model

Ref document number: 7343378

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150