JP7343378B2 - editing system - Google Patents
editing system Download PDFInfo
- Publication number
- JP7343378B2 JP7343378B2 JP2019223031A JP2019223031A JP7343378B2 JP 7343378 B2 JP7343378 B2 JP 7343378B2 JP 2019223031 A JP2019223031 A JP 2019223031A JP 2019223031 A JP2019223031 A JP 2019223031A JP 7343378 B2 JP7343378 B2 JP 7343378B2
- Authority
- JP
- Japan
- Prior art keywords
- video
- original
- video data
- data
- broadcast
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Television Signal Processing For Recording (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Description
本発明は、主に放送局等で使用される放送映像に編集を行って再送出可能な編集システムに関する。 TECHNICAL FIELD The present invention relates to an editing system that is capable of editing and retransmitting broadcast video mainly used in broadcast stations and the like.
近年、放送局等において、映像データを編集用の素材として、素材用のビデオサーバー等に格納し、これをノンリニア編集し、放送用に送出するような編集システムが実用化されている。 2. Description of the Related Art In recent years, editing systems have been put into practical use at broadcasting stations and the like, in which video data is stored as editing material in a video server for the material, non-linear editing is performed, and the data is sent out for broadcasting.
従来の編集システムとして、例えば、特許文献1を参照すると、映像内の物体を特定するために、処理対象となる映像部分や音声部分をそれぞれ認識する処理対象認識部を備える技術が記載されている。
As a conventional editing system, for example, referring to
一方、従来の編集システムでは、放送時の送出映像を同時録画した放送同録映像(以下、単に「放送映像」という。)も格納している。このような放送映像を時差配信や再放送等により再送出する場合、放送時に付加された不要領域をマスクして、元映像に近い映像素材データ(加工映像データ)を生成する必要がある。この不要領域としては、例えば、「L字」、時刻表示、天気予報、緊急報道、津波警戒情報、災害情報等を示した画像や字幕等の付加表示が存在する(以下、これらの付加表示を「L字等」という。)。なお、「L字」とは、「L字型画面」等と呼称される、例えば、本来の番組放送画面を多少右下端に縮小し、余剰した画面の左側及び上側をL字型のスペースと見なして、災害等の情報を表示するような映像加工のことを指す。また、L字型画面以外にも、U字型、側面を全て取り囲んで縮小表示するような付加表示も、付加表示に含む。
この場合、手作業による編集で、L字等の不要領域のマスク加工やトリミング加工等を行う必要があった。
On the other hand, conventional editing systems also store broadcast simultaneously recorded video (hereinafter simply referred to as "broadcast video"), which is a simultaneous recording of the broadcast video. When retransmitting such broadcast video through staggered distribution, rebroadcasting, etc., it is necessary to mask unnecessary areas added during broadcasting and generate video material data (processed video data) that is close to the original video. Examples of this unnecessary area include additional displays such as "L-shaped", time display, images and subtitles showing weather forecasts, emergency reports, tsunami warning information, disaster information, etc. (Hereinafter, these additional displays will be referred to as (referred to as "L-shape, etc."). In addition, "L-shaped" is called "L-shaped screen", for example, the original program broadcast screen is reduced somewhat to the lower right corner, and the left and upper sides of the excess screen are used as L-shaped space. This refers to video processing that displays information about disasters, etc. In addition to the L-shaped screen, the additional display also includes a U-shaped additional display that surrounds all the sides and displays in a reduced size.
In this case, it was necessary to perform masking, trimming, etc. of unnecessary areas such as the L-shape by manual editing.
しかしながら、従来の編集システムにおいて、L字等の不要領域を手作業により編集すると、トリミングのミス、同録時のエンコードやマスク加工、トリミングによる部分拡大等により画質劣化が避けられなかった。 However, in conventional editing systems, when unnecessary areas such as the L-shape are manually edited, image quality deterioration is unavoidable due to trimming errors, encoding and mask processing during simultaneous recording, partial enlargement due to trimming, etc.
本発明は、このような状況に鑑みてなされたものであり、上述の問題を解消することを課題とする。 The present invention has been made in view of this situation, and an object of the present invention is to solve the above-mentioned problems.
本発明の編集システムは、放送映像を再送出する編集システムであって、前記放送映像の特定箇所に連続して表示される不要領域を特定する不要領域特定手段と、前記不要領域特定手段により特定された不要領域を前記放送映像から削除又は目立たなくする加工を行った加工映像を作成する不要領域加工手段と、前記不要領域加工手段により加工された前記加工映像及び/又は前記放送映像から、格納された元映像を特定する元映像特定手段と、前記元映像特定手段により特定された前記元映像を基に、前記加工映像を高画質化する高画質化手段とを備えることを特徴とする。
本発明の編集システムは、前記不要領域特定手段は、削除する対象の領域の特徴を学習させたモデルにより前記不要領域を特定することを特徴とする。
本発明の編集システムは、前記高画質化手段は、前記加工映像について、前記元映像に基づくエッジ情報並びに/若しくは色情報を利用したエッジ強調若しくは合成、及び/又は、前記元映像の切り出しによる合成を行うことで高画質化することを特徴とする。
本発明の編集システムは、前記元映像特定手段は、前記加工映像と前記元映像との画像中の共通点を抽出し、抽出した前記共通点に基づいて前記元映像を特定することを特徴とする。
本発明の編集システムは、前記放送映像に対応した音声を解析して、削除箇所を特定する削除箇所特定手段と、前記元映像に対応する元音声を特定する元音声特定手段と、前記元音声特定手段により特定された前記元音声を基に、前記削除箇所特定手段により特定された前記音声の前記削除箇所を高音質化する高音質化処理手段とを更に備えることを特徴とする。
本発明の編集システムは、前記削除箇所特定手段は、特定のモデルを用いて音声解析を行い、前記音声中の警報音の箇所を特定することを特徴とする。
The editing system of the present invention is an editing system that retransmits a broadcast video, and includes an unnecessary area specifying means for specifying an unnecessary area that is continuously displayed at a specific location of the broadcast video, and an unnecessary area specifying means that identifies the unnecessary area by the unnecessary area specifying means. an unnecessary area processing means for creating a processed video in which the unnecessary area has been processed to delete or make it less conspicuous from the broadcast video; and storage from the processed video and/or the broadcast video processed by the unnecessary area processing means. The image processing apparatus is characterized by comprising an original video specifying means for specifying the original image that has been processed, and an image quality improving means for increasing the image quality of the processed image based on the original image specified by the original image specifying means.
The editing system of the present invention is characterized in that the unnecessary area identifying means identifies the unnecessary area using a model that has learned the characteristics of the area to be deleted.
In the editing system of the present invention, the image quality improving means performs edge enhancement or synthesis on the processed video using edge information and/or color information based on the original video, and/or synthesis by cutting out the original video. The feature is that the image quality is improved by doing this.
The editing system of the present invention is characterized in that the original video identifying means extracts common points in the images of the processed video and the original video, and identifies the original video based on the extracted common points. do.
The editing system of the present invention includes: a deletion part specifying means for analyzing the audio corresponding to the broadcast video and specifying a deletion part; an original audio specifying means for identifying the original audio corresponding to the original video; and the original audio The apparatus is characterized by further comprising a sound quality enhancement processing means for enhancing the sound quality of the deletion portion of the voice specified by the deletion portion specifying means based on the original voice specified by the specifying means.
The editing system of the present invention is characterized in that the deletion location identifying means performs audio analysis using a specific model and identifies the location of the alarm sound in the audio.
本発明によれば、放送映像の特定箇所に連続して表示される不要領域を特定し、削除又は目立たなくする加工を行った加工映像を作成し、この加工映像及び/又は放送映像から、元映像データを特定して、この元映像データを基に、加工映像を高画質化することで、再送出時の画質劣化を抑えることが可能な編集システムを提供することができる。 According to the present invention, a processed video is created in which an unnecessary area that is continuously displayed in a specific part of a broadcast video is deleted or made inconspicuous, and the original video is extracted from the processed video and/or the broadcast video. By specifying video data and increasing the quality of processed video based on this original video data, it is possible to provide an editing system that can suppress image quality deterioration during retransmission.
<実施の形態>
〔編集システムXの制御構成〕
以下で、本発明の実施の形態について、図面を参照して説明する。
編集システムXは、放送局等で使用される編集システム(ビデオサーバーシステム)である。編集システムXは、放送映像データ200に含まれる放送映像を、時差配信や再放送等で再送出することが可能である。この際、編集システムXは、前回放送した映像の不要部分を削除することが可能である。
図1によると、編集システムXは、解析装置1と、蓄積サーバー2と、収録装置3と、編集装置4とが、ネットワーク5で接続されて構成されている。
<Embodiment>
[Control configuration of editing system X]
Embodiments of the present invention will be described below with reference to the drawings.
Editing system X is an editing system (video server system) used at broadcasting stations and the like. The editing system X can retransmit the broadcast video included in the
According to FIG. 1, the editing system X includes an
解析装置1は、蓄積サーバー2に格納された放送映像データ200等の内容を解析するための装置である。解析装置1は、例えば、映像データに含まれる映像(画像)について、各種フィルター処理やOCR(Optical Character Recognition、光学文字認識)を含む画像成分分析、畳み込みニューラルネット、GAN(Generative Adversarial Network)、RNN(Recurrent Neural Network)、LSTM(Long short term memory network)、その他の多層ニューラルネット、カーネルマシン、決定木、ベイジアンネットワーク、HMM(Hidden Markov Model)、その他の統計的手法等を含む、いわゆるAI(Artificial Intelligence)等の演算を行う装置である。さらに、解析装置1は、音声成分分析やAIにより、音声データ300の解析も行うことが可能である。
解析装置1の詳細な構成については後述する。
The
The detailed configuration of the
収録装置3は、画像データや音声データ300等を収録して、これらを画像や音声のエンコーダーを用いて、撮像された各種コーデックに符号化(変換)する装置である。
本実施形態において、収録装置3は、例えば、後述する撮像部30で撮像された非圧縮の画像データを収録して符号化する。また、収録装置3は、専用回線やネットワーク5を介して、他局等にあるサーバー、VTR、その他の機器から画像データを収録してもよいし、MXF(Media eXchange Format)等のファイルで取り込むことで収録してもよい。エンコーダーでの符号化に用いる映像符号化方式(コーデック)は、例えば、MPEG2、H.264、H.265等を用いることが可能であるが、これに限られない。符号化されたデータについて、収録装置3は、蓄積サーバー2や再生用の送出設備へ送信することが可能である。
The
In this embodiment, the
蓄積サーバー2は、放送映像データ200を蓄積し、他装置へ送信するサーバー等の装置である。本実施形態において、蓄積サーバー2は、収録装置3で収録された収録素材(素材映像、素材ファイル)の放送映像データ200、元映像データ220等を格納する素材映像サーバーとして機能する。これに加えて、蓄積サーバー2は、マルチプレクサ(Multiplexer、MUX)による多重化の機能を含んでいてもよい。
蓄積サーバー2に格納されるデータの詳細については後述する。
The
Details of the data stored in the
編集装置4は、いわゆる汎用のノンリニア編集機(装置)である。編集装置4は、レンダリング編集、カット編集等の編集処理を行う。このうち、レンダリング編集は、蓄積サーバー2に格納された放送映像データ200を、実際にレンダリングしつつ編集する処理である。カット編集は、レンダリングを行わないでクリップ化する処理である。
The
本実施形態において、編集装置4は、図示しない表示部、キーボード、ポインティングデバイス、操作器等を備えている。さらに、編集装置4は、実際にこの編集作業を行うコンピュータである編集制御手段(編集手段)と、放送映像データ200や編集のタイムライン等を表示させる表示部(ディスプレイ)と、編集の指示を入力するための操作パネル(操作手段)等を備えている。
In this embodiment, the
編集装置4は、蓄積サーバー2に対して放送映像データ200や元映像データ220等を参照し、編集可能な装置である。編集装置4は、ユーザに操作パネルを操作させ、編集処理の対象となる部分を指定させて、カット編集やレンダリング編集等を実行することが可能である。そして、編集装置4は、編集後の放送映像データ200や元映像データ220等の編集情報を、蓄積サーバー2に送信して格納させる。
The
これらの編集処理において用いる編集情報は、例えば、処理対象となる部分の映像フレーム位置、映像上の座標、音声サンプルの位置の範囲、処理の内容等を含む。上述の編集処理の種類は、処理対象が映像の場合には、各種画像効果、クリップ間の接続とその効果、輝度や色の調整処理、フェードイン、フェードアウト、音量調整等を含む。 The editing information used in these editing processes includes, for example, the video frame position of the portion to be processed, the coordinates on the video, the position range of the audio sample, the content of the processing, and the like. When the processing target is video, the types of editing processing described above include various image effects, connections between clips and their effects, brightness and color adjustment processing, fade-in, fade-out, volume adjustment, and the like.
ネットワーク5は、各装置を結ぶLAN(Local Area Network)、光ファイバー網、c.link、無線LAN(WiFi)、携帯電話網等の各装置を相互に接続して通信を行う通信手段である。ネットワーク5は、専用線、イントラネット、インターネット等を用いてもよく、これらが混在しても、VPN(Virtual Private Network)を構成していてもよい。さらに、ネットワーク5は、TCP/IPやUDP等のIPネットワークを用いて、各種プロトコルで接続されてもよい。
The
なお、この他にも、編集システムXは、汎用の放送局用の送出サーバー等を含む送出設備(装置)等を含んでいる。これらの装置は、蓄積サーバー2に記録されている素材映像や蓄積サーバー2に記録された放送映像を放送出力(オンエア)する。加えて、放送映像を、試写のために再生することも可能である。
In addition to this, the editing system X also includes transmission equipment (devices) including a transmission server for a general-purpose broadcasting station. These devices output (on-air) the material video recorded in the
より具体的に説明すると、解析装置1は、ハードウェア資源の一部として、制御部10を備えている。
To explain more specifically, the
制御部10は、後述する機能部を実現し、本実施形態の再送出処理の各処理を実行する情報処理手段である。制御部10は、例えば、CPU(Central Processing Unit、中央処理装置)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)、TPU(Tensor Processing Unit)、DSP(Digital Signal Processor)、ASIC(Application Specific Processor、特定用途向けプロセッサー)等で構成される。これにより、制御部10は、画像成分分析、音声成分分析、及び映像や音声用のAI等の処理を、バッチ処理等を用いて、高速に実行することが可能である。
The
蓄積サーバー2は、ハードウェア資源の一部として、記憶部11を備えている。
The
記憶部11は、一時的でない記録媒体である。記憶部11は、例えば、SSD(Solid State Disk)、HDD(Hard Disk Drive)、磁気カートリッジ、テープドライブ、光ディスクアレイ等のビデオストレージとして構成される。
このビデオストレージには、例えば、素材映像のデータ(素材データ)、完成した番組等の放送映像の映像データ、放送映像である放送映像データ200等が格納される。蓄積サーバー2に格納されたファイルは、番組の放送スケジュールに沿って再生装置に転送されたり、編集装置4による番組編集処理に用いられたりする。これらのデータの詳細については後述する。
加えて、記憶部11は、一般的なROM(Read Only Memory)、RAM(Random Access Memory)等も含んでいる。これらには、蓄積サーバー2及び解析装置1の制御部10が実行する処理のプログラム、データベース、一時データ、その他の各種ファイル等が格納される。
The
This video storage stores, for example, material video data (material data), video data of a broadcast video such as a completed program, broadcast
In addition, the
収録装置3は、撮像部30(撮像手段)を備えている。
The
撮像部30は、CCD(Charge Coupled Device)やCMOS(Complementary Metal Oxide Semiconductor)素子等を用いたカメラ等の撮像装置である。撮像部30は、収録装置3に内蔵しても、接続された外付けのカメラであってもよい。
撮像部30は、撮像された画像をデジタル変換し、例えば、HD-SDI規格の画像データとして、収録装置3へ送信する。この際、撮像部30に装着され、又は、外設されたマイクロフォン等からの音声データも、ほぼ同時に収録装置3へ送信してもよい。または、これらの画像データや音声データは、ミキサーや各種機材を介して、収録装置3へ送信することも可能である。
The
The
次に、解析装置1の機能構成、及び蓄積サーバー2に格納されるデータの詳細について説明する。
制御部10は、不要領域特定手段100、不要領域加工手段110、元映像特定手段120、高画質化手段130、削除箇所特定手段140、元音声特定手段150、及び高音質化処理手段160を備える。
記憶部11は、放送映像データ200、加工映像データ210、元映像データ220、音声データ300、加工音声データ310、及び元音声データ320を格納する。
Next, the functional configuration of the
The
The
不要領域特定手段100は、収録装置3から、放送映像データ200を取得して、放送映像データ200に含まれる放送映像の特定箇所に連続して表示される不要領域を特定する。この際、不要領域特定手段100は、例えば、映像の内容を解析し、L字等を不要領域として、映像上の位置を特定する。
具体的には、不要領域特定手段100は、削除する対象の領域の特徴を学習させたモデルにより不要領域を特定することが可能である。このモデルは、例えば、画像成分分析やAIを用いてもよい。
The unnecessary area specifying means 100 acquires the
Specifically, the unnecessary area identifying means 100 can identify unnecessary areas using a model that has learned the characteristics of the area to be deleted. This model may use image component analysis or AI, for example.
不要領域特定手段100により特定された不要領域を放送映像データ200から削除又は目立たなくする加工を行った加工映像データ210を作成する。
不要領域加工手段110は、例えば、特定した不要領域について、自動でトリミング、拡大操作、マスク編集等のいずれか又は任意の組み合わせ(以下、単に「マスク処理」という。)により目立たないように加工する。
不要領域加工手段110は、作成された加工映像データ210を蓄積サーバー2へ格納する。
The unnecessary area processing means 110 processes the identified unnecessary area, for example, by automatically trimming, enlarging, mask editing, etc., or any combination thereof (hereinafter simply referred to as "mask processing") to make it less noticeable. .
The unnecessary area processing means 110 stores the created processed
元映像特定手段120は、不要領域加工手段により加工された加工映像データ210及び/又は放送映像データ200から、蓄積サーバー2に格納された元映像データ220を特定する。元映像特定手段120は、例えば、加工映像データ210及び/又は放送映像データ200の映像内容を解析して、蓄積サーバー2の記憶部11に格納された、放送映像の素材となる映像データ(素材データ)の映像と照合し、放送に使用された元映像データ220を特定する。
より具体的には、元映像特定手段120は、加工映像と元映像データ220に含まれる元映像との画像中の共通点を抽出し、抽出した共通点に基づいて元映像データ220に含まれる元映像を特定することが可能である。
The original
More specifically, the original
高画質化手段130は、元映像特定手段120により特定された元映像データ220を基に、加工映像データ210を高画質化する。
具体的には、高画質化手段130は、加工映像データ210の各加工映像について、元映像データ220に含まれる元映像に基づくエッジ情報並びに/若しくは色情報を利用したエッジ強調若しくは合成、及び/又は、元映像データ220に含まれる元映像の切り出しによる合成を行うことで高画質化することが可能である。
The image quality improving means 130 improves the image quality of the processed
Specifically, the image
削除箇所特定手段140は、放送映像に対応した音声データ300を解析して、削除箇所を特定する。
具体的には、削除箇所特定手段140は、特定のモデルを用いて音声解析を行い、音声中の警報音の箇所を特定する。
Deletion location specifying means 140 analyzes
Specifically, the deletion location specifying means 140 performs audio analysis using a specific model and identifies the location of the alarm sound in the audio.
元音声特定手段150は、元映像データ220に対応する元音声データ320を特定する。
元音声特定手段150は、例えば、蓄積サーバー2に格納された音声の素材データと照合し、放送に使用された元映像データ220と対応する元音声データ320を特定する。
Original audio identifying means 150 identifies
The original audio specifying means 150 identifies the
高音質化処理手段160は、元音声特定手段150により特定された元音声データ320を基に、削除箇所特定手段140により特定された音声の削除箇所を高音質化する。
高音質化処理手段160は、例えば、警報音の逆位相を合成、及び/又は元音声データ320の切り出しによる合成を行うことで高音質化することが可能である。
Based on the
The high-quality
放送映像データ200は、放送映像のデータである。本実施形態では、放送映像データ200は、放送時の送出映像を同時録画した放送同録映像等の放送映像を含んでいる。本実施形態では、放送映像データ200は、例えば、MXF形式のファイルを用いる。MXFは、いわゆる業務用映像ファイルを格納するコンテナフォーマットのファイルの一種である。具体的には、MXFは、カムコーダ、録画再生機、ノンリニア編集機、送出設備等の放送用装置機材に利用されており、映像や音声等の様々なフォーマットのデータを、メタデータとともにラッピングすることができる。このメタデータは、本実施形態においては、例えば、特定された不要領域のデータ、映像中の特徴データ、元映像との画像中の共通点のデータ等を含ませることが可能である。さらに、メタデータは、例えば、フレームレート、フレームサイズ、作成日、撮像部30の撮影者、素材映像の各種情報を含めることができる。この各種情報としては、例えば、タイトルや内容、再生時間、シーンの情報、映像中の人物、撮影場所、撮影日時等を含む物体の情報等を用いることが可能である。
加工映像データ210は、放送映像データ200から不要領域を削除又は目立たなくする加工を行った映像のデータである。この加工映像データ210も、MXF形式のデータ、又は、最終的に送出設備で送出用のデータに加工される前の、編集用の中間的な形式のデータ等であってもよい。または、加工映像データ210は、元映像データ220のような素材データと同じ形式のデータであってもよい。さらに、加工映像データ210は、上述のように元映像データ220により高画質化されて、送出されてもよい。
元映像データ220は、蓄積サーバー2に格納された素材データである。元映像データ220は、実際の放送映像データ200で使用された番組のデータ、その素材のデータ等を含む。元映像データ220と、放送映像データ200とは、映像のフォーマットが異なってもよく、画質が放送映像データ200より低圧縮や非圧縮等で高画質であってもよい。すなわち、元映像データ220のフォーマット(形式)は、MXF形式以外の形式であっても、独自形式であってもよい。さらに、元映像データ220は、収録装置3から、素材データとして収録され、多重化された映像ストリームであってもよい。
加えて、本実施形態において、元映像データ220は、映像中の特徴データ、放送映像との画像中の共通点のデータ等を含んでいてもよい。
The
Additionally, in this embodiment, the
音声データ300は、放送映像データ200に対応した音声のデータである。音声データ300は、放送時の送出音声を同時録音した放送同録録音等の放送音声を含んでいる。この放送音声は、例えば、L字等の箇所に注目を促すためのチャイムやブザーや短い音声等の警報音を含んでいてもよい。具体的には、音声データ300は、例えば、MXF形式のコンテナフォーマットに含まれるストリームとして、まとめられていてもよい。または、この放送音声は、例えば、各種量子化ビット数や周波数のWAV形式のファイル、各種圧縮形式や音声ストリーム形式のファイルであってもよい。音声データ300は、後述するように、警報音の箇所が逆位相の警報音により加工されても、元音声データ320により置き換えられてもよい。
加工音声データ310は、加工映像データ210に含まれる音声のデータである。
本実施形態において、加工音声データ310は、音声データ300と同じデータであってもよい。加工音声データ310は、上述のように音声データ300により高音質化されて、加工映像データ210と共に送出されてもよい。
加工音声データ310も、WAV形式のファイル、各種圧縮形式や音声ストリーム形式のファイル、編集用の中間的な形式のデータ等であってもよい。
In this embodiment, the processed
The processed
元音声データ320は、元映像データ220に対応する音声のデータである。元音声データ320も、WAV形式のファイル、各種圧縮形式や音声ストリーム形式のファイル、編集用の中間的な形式のデータ等であってもよい。
The
ここで、上述の各機能部は、記憶部11に記憶された制御プログラム等が制御部10で実行されることにより実現される。
なお、これらの各機能部は、FPGA(Field Programmable Gate Array)やASIC(Application Specific Integrated Circuit)等により、回路的に構成されてもよい。
Here, each of the above-mentioned functional units is realized by the control program and the like stored in the
Note that each of these functional units may be configured as a circuit using an FPGA (Field Programmable Gate Array), an ASIC (Application Specific Integrated Circuit), or the like.
〔編集システムXの再送出処理〕
次に、図2~図4を参照して、本発明の実施の形態に係る編集システムXを用いた再送出処理についてより詳しく説明する。
本実施形態の再送出処理においては、放送同録映像等の放送映像データ200を高画質化する高画質化処理と、放送同録録音等の音声データ300を高音質化する高音質化処理とを実行する。これらの処理は、スレッドやプロセス等で同時並行的に実行されてもよい。
以下で、この編集システムXによる再送出処理について、図2の各フローチャートを用いて説明する。
[Resend processing of editing system X]
Next, the retransmission process using the editing system X according to the embodiment of the present invention will be described in more detail with reference to FIGS. 2 to 4.
In the retransmission process of this embodiment, a high image quality process is performed to improve the image quality of
The retransmission process by the editing system X will be explained below using the flowcharts in FIG.
まず、再送出処理における高画質化処理について、図2(a)のフローチャートと、図3とを用いて、ステップ毎に詳しく説明する。 First, the image quality improvement process in the retransmission process will be explained in detail step by step using the flowchart of FIG. 2(a) and FIG. 3.
ステップS100において、不要領域特定手段100が、初期処理を行う。
図3(a)によると、不要領域特定手段100は、放送局等毎に、L字等の削除する対象の領域の特徴をモデルに学習させる。このため、例えば、不要領域特定手段100は、L字等に含まれる文字の形状、時刻表示の形状、字幕の表示位置やフォント等の加工が特定のパターンに限られることを利用し、これをモデルとして用いる。すなわち、ビデオサーバーシステムは単一の放送局が保有、運用することが一般的であることから、L字の形状、時刻表示の形状、字幕の表示位置やフォント等の加工方法は、ある程度特定のパターンに限られることを利用することができる。これは、ビデオサーバーシステムは放送局ごとに稼働しており、そこで扱われるL字等の挿入フォーマットは、ある程度の規則性があるからである。
In step S100, the unnecessary area specifying means 100 performs initial processing.
According to FIG. 3A, the unnecessary area specifying means 100 causes the model to learn the characteristics of the area to be deleted, such as an L-shape, for each broadcasting station or the like. For this reason, for example, the unnecessary area identifying means 100 takes advantage of the fact that the shape of characters included in the L character, the shape of the time display, the display position of subtitles, the font, etc. can only be modified to a specific pattern. Use as a model. In other words, since video server systems are generally owned and operated by a single broadcasting station, processing methods such as the L-shape, time display shape, subtitle display position, font, etc. are limited to a certain extent. You can take advantage of being limited to patterns. This is because the video server system is operated for each broadcasting station, and the format used for inserting L characters and the like has a certain degree of regularity.
具体的には、不要領域特定手段100は、画像成分分析を行う場合、例えば、L字等に含まれる特定の画像成分を検出する。これは、例えば、画像の成分分析において、L字等に含まれる、特定の画像成分を検出することを示す。
または、不要領域特定手段100は、AIを用いる場合、放送局等毎に、L字等の特定の図柄、時刻表示等を不要領域として、予め学習させることが可能である。これは、例えば、特定の図柄を示したL字等を、AIに削除する対象の領域と認識させることを示す。
Specifically, when performing image component analysis, the unnecessary area specifying means 100 detects, for example, a specific image component included in an L-shape or the like. This indicates that, for example, in image component analysis, a specific image component included in an L-shape or the like is detected.
Alternatively, when using AI, the unnecessary area specifying means 100 can learn in advance that a specific pattern such as an L character, a time display, etc. are unnecessary areas for each broadcasting station or the like. This indicates, for example, that the AI recognizes an L-shape or the like indicating a specific pattern as an area to be deleted.
一方、不要領域特定手段100は、放送映像データ200を取得する。具体的には、送出設備から送出された、放送時の送出映像を同時録画し、この放送同録映像を放送映像データ200として、記憶部11へ格納する。
On the other hand, unnecessary area specifying means 100 acquires broadcast
次に、ステップS101において、不要領域特定手段100が不要領域特定処理を行う。
図3(a)によると、不要領域特定手段100は、放送映像データ200に含まれる放送映像の特定箇所に連続して表示される不要領域を特定する。
L字等を削除する方法としては、まず映像解析が必要である。本実施形態においては、不要領域特定手段100は、削除する対象の領域の特徴を学習させたモデルにより、不要領域を特定する。具体的には、不要領域特定手段100は、例えば、放送映像データ200の全編に対して解析を行って、番組の一部で生じた偶発的な類似画像の発生と、意図的に挿入されたL字等とを判別する。すなわち、不要領域特定手段100は、放送映像データ200の内容により、不要なL字等の位置を特定することが可能である。
不要領域特定手段100は、このモデルとして、上述の画像成分分析又はAIを用いてもよい。これらにより、映像に含まれるL字等の有無、及びその不要領域の範囲の特定が可能である。
Next, in step S101, the unnecessary area specifying means 100 performs unnecessary area specifying processing.
According to FIG. 3A, the unnecessary area specifying means 100 specifies an unnecessary area that is continuously displayed at a specific part of the broadcast video included in the
As a method for deleting L-characters etc., video analysis is first required. In the present embodiment, the unnecessary area identifying means 100 identifies unnecessary areas using a model that has learned the characteristics of the area to be deleted. Specifically, the unnecessary area identification means 100 analyzes the entire
The unnecessary area identifying means 100 may use the above-mentioned image component analysis or AI as this model. With these, it is possible to identify the presence or absence of an L-shape, etc. included in the video, and the range of its unnecessary area.
ここで、不要領域特定手段100は、放送映像データ200について、映像の各フレームを全て解析する必要はなく、フレームを間引いて解析してもよい。この間引きの間隔は、解析のモデル等の特性等により設定可能である。
具体的に説明すると、L字等の特徴として、基本的に放送全編において、長期間連続して表示されていることが挙げられる。すなわち、不要領域特定手段100は、放送映像データ200の全編にL字等がある場合、任意の1フレームの映像を解析すれば、不要領域を特定可能である。
Here, the unnecessary area specifying means 100 does not need to analyze every frame of the
To be more specific, a characteristic of the L-shape etc. is that it is basically displayed continuously for a long period of time throughout the broadcast. That is, when the entire
しかしながら、L字等が全編ではない場合もある。さらに、CMを放映している最中はL字等の表示を解除している可能性もある。このため、不要領域特定手段100は、5秒程度あたり1フレーム毎の解析によって、不要領域を特定することも可能である。この場合、不要領域特定手段100は、L字等の有無が放送映像データ200中で変化する場合、不要領域があった箇所の前後の各フレームを解析していき、変化点を算出することが可能である。さらに、不要領域特定手段100は、変化点においてL字等の大きさが変動する場合、L字等の領域範囲の特定を、各フレームに対して実行することが可能である。
However, the L-shape etc. may not be the entire story. Furthermore, there is a possibility that the display of the letter L or the like may be canceled while a commercial is being aired. For this reason, the unnecessary area specifying means 100 can also specify unnecessary areas by analyzing every frame every about 5 seconds. In this case, if the presence or absence of an L-shape or the like changes in the
さらに、不要領域特定手段100は、放送映像データ200のメタデータやOCRによる解析を行って、L字等に含まれる文字列の文脈(コンテキスト)を解析し、含まれる情報の内容により、削除するべき内容なのか、映像コンテンツに元から存在した情報なのかを判別することも可能である。
不要領域特定手段100は、これらの不要領域と特定された箇所について、放送映像データ200のメタデータに格納することが可能である。
Further, the unnecessary area specifying means 100 analyzes the
The unnecessary area specifying means 100 can store the locations identified as unnecessary areas in the metadata of the
図3(a)では、L字の領域である不要領域A1と、時刻表示の領域である不要領域A2と、地図の領域である不要領域A3とが特定された例を示している。 FIG. 3A shows an example in which an unnecessary area A1 that is an L-shaped area, an unnecessary area A2 that is a time display area, and an unnecessary area A3 that is a map area are identified.
次に、ステップS102において、不要領域加工手段110が、不要領域があったか否かを判断する。不要領域加工手段110は、例えば、不要領域特定手段100により特定された不要領域が放送映像データ200のメタデータに設定されていた場合、Yesと判断する。
Yesの場合、不要領域加工手段110は、処理をステップS103へ進める。
Noの場合、不要領域加工手段110は、再送出処理における高画質化処理を終了する。
Next, in step S102, the unnecessary area processing means 110 determines whether there is an unnecessary area. For example, if the unnecessary area specified by the unnecessary area specifying means 100 is set in the metadata of the
If Yes, the unnecessary area processing means 110 advances the process to step S103.
In the case of No, the unnecessary area processing means 110 ends the image quality improvement process in the retransmission process.
不要領域があった場合、ステップS103において、不要領域加工手段110が、不要領域加工処理を行う。
不要領域加工手段110は、不要領域を放送映像データ200から削除又は目立たなくする加工を行った加工映像データ210を作成する。この不要領域を削除又は目立たなくする加工として、不要領域加工手段110は、例えば、特定されたL字の不要領域については、直接、画面表示されないような編集を行い、加工映像データ210を作成する。具体的には、不要領域加工手段110は、例えば、L字を自動でトリミングし、L字以外の領域を拡大し、全画面表示となるような編集を行う。これによって、加工映像データ210から、L字の表示を削除することが可能である。
If there is an unnecessary area, the unnecessary area processing means 110 performs unnecessary area processing processing in step S103.
Unnecessary area processing means 110 creates processed
一方、不要領域加工手段110は、例えば、特定された時刻や字幕等の不要領域に対しては、自動的にマスク処理を実行する。この場合、不要領域加工手段110は、例えば、不要領域にガウスブラー等のボカシ処理をするような編集を行う。これにより、加工映像データ210において、時刻や字幕や地図等の表示が、目立たなくなるか、視認できないようになる。
すなわち、不要領域加工手段110は。自動的にマスク処理を行った加工映像データ210を作成可能である。
On the other hand, the unnecessary area processing means 110 automatically performs mask processing on unnecessary areas such as the specified time and subtitles, for example. In this case, the unnecessary region processing means 110 performs editing such as blurring processing such as Gaussian blur on the unnecessary region. As a result, in the processed
That is, the unnecessary area processing means 110. It is possible to create processed
図3(b)は、不要領域を削除又は目立たなくした加工映像データ210の例を示す。
FIG. 3(b) shows an example of processed
次に、ステップS104において、元映像特定手段120が、元映像特定処理を行う。
ビデオサーバーシステムを用いて放送された番組は、ビデオサーバーシステム内に格納されている映像を用いている可能性が十分に考えられる。このため、ビデオサーバーシステム内に保管されている映像を検索し、特定する。
具体的には、元映像特定手段120は、不要領域加工手段により加工された加工映像データ210及び/又は放送映像データ200から、蓄積サーバー2に格納された元映像データ220を特定する。より具体的には、元映像特定手段120は、加工映像データ210に含まれる映像と、元映像データ220に含まれる元映像との画像中の共通点を抽出することが可能である。
Next, in step S104, the original
It is highly possible that programs broadcast using a video server system use video stored within the video server system. For this purpose, the video stored in the video server system is searched and identified.
Specifically, the original
ここで、元映像特定手段120は、例えば、加工映像データ210と元素材映像データとの映像中の特徴データを、成分分析して、メタデータ等として、それぞれに格納する。元映像特定手段120は、この加工映像データ210及び元素材映像データの特徴データを、時系列に沿って比較することで、共通点として抽出可能である。この映像中の特徴データは、例えば、文字情報、画面の色情報、描画されたオブジェクトの情報、サムネイル画像の情報等を設定可能である。または、元映像特定手段120は、加工映像データ210と元素材映像データとを、直接、AIに学習させ、抽出した共通点に基づいて照合するといった処理を行うことも可能である。
Here, the original
すなわち、元映像特定手段120は、加工映像データ210及び/又は放送映像データ200において、抽出した共通点に基づいて元映像データ220に含まれる元映像を特定する。
この検索により、放送に用いられた元映像の特定が可能となる。
That is, the original
This search makes it possible to identify the original video used for broadcasting.
図3(c)は、加工映像データ210及び放送映像データ200に対応して特定された元映像データ220の例を示す。
FIG. 3C shows an example of
次に、ステップS105において、高画質化手段130が、元映像データ220が特定できたか否かを判断する。高画質化手段130は、元映像特定手段120により放送映像データ200から元映像データ220が特定できた場合、Yesと判定する。
Yesの場合、高画質化手段130は、処理をステップS106へ進める。
Noの場合、高画質化手段130は、再送出処理における高画質化処理を終了する。
Next, in step S105, the image
If Yes, the image
In the case of No, the image
元映像データ220が特定できた場合、ステップS106において、高画質化手段130が、高画質処理を行う。
高音質化処理手段160は、元映像特定手段120により特定された元映像データ220を基に、加工映像を高画質化する。
高画質化手段130は、加工映像データ210について、超解像処理や高画質化処理を行う。具体的には、高画質化手段130は、元映像データ220に含まれる元映像の切り出しによる合成を行うことで高画質化することが可能である。
If the
The high quality sound processing means 160 improves the quality of the processed video based on the
The image
図3(c)及び図3(e)は、この元映像データ220から元映像の一部又は全画面を切り出して、加工映像データ210に上書き等で合成した例を示す。
3(c) and 3(e) show examples in which a part or the entire screen of the original video is cut out from the
さらに、高画質化手段130は、加工映像データ210について、元映像データ220に含まれる元映像に基づくエッジ情報及び/又は色情報を利用したエッジ強調又は合成を行うことも可能である。
Further, the image
図3(d)及び図3(e)は、この元映像データ220からエッジ情報や色情報を抽出し、加工映像データ210に合成した例を示す。
FIGS. 3(d) and 3(e) show examples in which edge information and color information are extracted from this
さらに加えて、高画質化手段130は、GAN等のAIにより加工映像データ210を高画質化することも可能である。
In addition, the image quality improving means 130 can also improve the image quality of the processed
その後、この高画質化された加工映像データ210は、送出設備により再送出される。この際、下記の高音質化処理が行われた音声データ300を、MXF形式等のコンテナフォーマットのファイルとして再送出してもよい。なお、不要領域が特定されず、加工映像データ210が生成されなかった場合、放送映像データ200をそのまま再送出することも可能である。
以上により、再送出処理における高画質化処理を終了する。
Thereafter, this high-quality processed
With the above steps, the image quality improvement process in the retransmission process is completed.
次に、再送出処理における高音質化処理について、図2(b)のフローチャートと、図4とを用いて、ステップ毎に詳しく説明する。 Next, the high-quality sound processing in the retransmission processing will be explained step by step in detail using the flowchart of FIG. 2(b) and FIG. 4.
まず、ステップS110において、削除箇所特定手段140が、初期処理を行う。
削除箇所特定手段140は、上述の映像の高画質化処理と同様に、特定のモデルとして、例えば、音声データ300から検索するモデルを設定する。ここで、上述のように、ビデオサーバーシステムは、単一の放送局が保有、運用することが一般的であることから、重畳される音声は、ある程度、特定のパターンに限られることを利用することが可能である。これは、例えば、特定のメロディ、音声パターン、音声の周波数変化等の特徴を、削除する対象と認識させることを示す。
本実施形態では、警報音についてのモデルを設定する例について説明する。このモデルは、例えば、HMM等の統計モデル、RNNやLSTM等の時系列モデルを用いたAIにより学習、設定されてもよい。
First, in step S110, the deletion location specifying means 140 performs initial processing.
The deletion portion specifying means 140 sets, for example, a model to be searched from the
In this embodiment, an example of setting a model for an alarm sound will be described. This model may be learned and set by AI using, for example, a statistical model such as HMM, or a time series model such as RNN or LSTM.
次に、ステップS111において、削除箇所特定手段140が、削除箇所特定処理を行う。
削除箇所特定手段140は、放送映像データ200に対応した音声データ300を解析して、削除箇所を特定する。削除箇所特定手段140は、例えば、放送映像データ200のコンテナフォーマットの映像ストリームに対応づけられた音声データ300を蓄積サーバー2から取得して、解析する。
Next, in step S111, the deletion location identifying means 140 performs deletion location identification processing.
Deletion location specifying means 140 analyzes
図4(a)によれば、削除箇所特定手段140は、特定のモデルを用いて音声データ300の解析を行い、音声中の警報音の箇所を特定する。音声データ300の解析方法としては、機械的に音声の成分分析を行っても、AIを用いてもよい。加えて、警報音の箇所は、単に警報音のみが音声データ300に録音されているのではなく、他の音声に警報音が重畳された箇所であってもよい。この際、削除箇所特定手段140は、例えば、音声データ300を数ミリ秒~数百ミリ秒程度のウィンドウに分けてFFT(Fast Fourier Transform)を行い、警報音のパターンの位置を検索する。具体的には、削除箇所特定手段140は、例えば、HMM等の統計モデル、RNNやLSTM等のAI等により、音声中の警報音の箇所を特定することが可能である。この警報音の特定も、音声データ全編に対して行っても、特定間隔で行っても、元映像データ220のL字等と対応する箇所のみに絞って行ってもよい。
According to FIG. 4A, the deletion location specifying means 140 analyzes the
次に、ステップS112において、元音声特定手段150が、削除箇所があったか否かを判断する。
Yesの場合、は、処理をステップS113へ進める。
Noの場合、は、再送出処理の高音質化処理を終了する。
Next, in step S112, the original audio specifying means 150 determines whether there is a deleted portion.
If Yes, the process advances to step S113.
In the case of No, the high-quality sound processing of the retransmission processing ends.
削除箇所があった場合、ステップS113において、元音声特定手段150が、元音声特定処理を行う。
映像と同様、ビデオサーバーシステムを用いて放送された番組は、ビデオサーバーシステム内に保管されている音声を用いている可能性が十分に考えられる。このため、音声解析時に、ビデオサーバーシステム内に格納されている元音声データ320の検索を行うことが可能である。
If there is a deleted portion, the original audio specifying means 150 performs original audio specifying processing in step S113.
As with video, programs broadcast using a video server system are highly likely to use audio stored within the video server system. Therefore, during audio analysis, it is possible to search the
図4(b)によれば、元音声特定手段150は、例えば、元映像データ220に対応する元音声データ320を特定する。この検索により、放送に用いられた元音声の特定が可能である。
According to FIG. 4(b), the original audio identifying means 150 identifies, for example,
次に、ステップS114において、高音質化処理手段160が、元音声データ320を特定できたか否かを判断する。
Yesの場合、高音質化処理手段160は、処理をステップS115へ進める。
Noの場合、高音質化処理手段160は、処理をステップS116へ進める。
Next, in step S114, the high-quality sound processing means 160 determines whether or not the
If Yes, the high-quality sound processing means 160 advances the process to step S115.
In the case of No, the high-quality sound processing means 160 advances the process to step S116.
警報音の重畳が検出され、元音声データ320が特定できた場合、ステップS115において、高音質化処理手段160が、コピー高音質処理を行う。
高音質化処理手段160は、元音声特定手段150により特定された元音声データ320を基に、削除箇所特定手段140により特定された音声の削除箇所を高音質化する。高音質化処理手段160は、例えば、音声データ300の警報音が含まれる範囲を元音声データ320の当該範囲で置き換える。
If the superimposition of the alarm sound is detected and the
Based on the
図4(b)及び図4(c)によれば、高音質化処理手段160は、音声データ300の音声の削除を指定し、削除箇所を対応する元音声データ320の箇所で置換して、警報音を消去するような編集内容を設定し、実行する。この処理は、制御部10に含まれるDSP等の専用プロセッサーで実行することも可能である。さらに、この際、高音質化処理手段160は、コンプレッサー等のエフェクトにより、音声の出力レベルを調整してもよい。
その後、高音質化処理手段160は、再送出処理の高音質化処理を終了する。
According to FIGS. 4(b) and 4(c), the high-quality sound processing means 160 specifies the deletion of the audio of the
Thereafter, the high-quality
警報音の重畳が検出されたものの、元音声データ320が特定できなかった場合、ステップS116において、高音質化処理手段160が、反転高音質処理を行う。
If the superimposition of the alarm sound is detected but the
図4(d)によると、高音質化処理手段160は、警報音を位相反転した逆位相の波形データを、適切な出力レベルで音声データ300と合成して、警報音を削除する。または、高音質化処理手段160は、警報音の周波数成分を削除する等の特殊なフィルター処理により、警報音を削除することも可能である。または、高音質化処理手段160は、警報音を消すように学習させたAIを利用して、警報音を削除することも可能である。さらに、削除後、高音質化処理手段160は、音声の出力レベルを調整してもよい。
According to FIG. 4(d), the high-quality
これらの処理が終了した後、加工された音声データ300は、加工映像データ210に対応づけられて、送出設備により再送出される。ここで、削除箇所がなかった場合、加工されない状態の音声データ300が再送出される。なお、放送映像データ200に、加工された又は加工されていない音声データ300が対応づけられて再送出されてもよい。
以上により、再送出処理の高音質化処理を終了する。
After these processes are completed, the processed
With the above steps, the high quality sound processing of the retransmission processing is completed.
以上のように構成することで、以下のような効果を得ることができる。
図5によると、従来、放送同録の放送映像を元に、再放送や再配信等で再送出を行う場合、L字等の不要な要素を削除するような映像加工を行っていた。このような映像の削除加工は、編集作業が都度手動で行われており、運用者の業務負荷が発生するうえ、再配信の迅速性にも欠ける。また、編集は手動であるため、L字部分を削除する範囲の設定不備により、必要以上の領域を削除した場合は不自然な画角となったり、その逆に削除範囲が狭かった場合はL字部分の背景色がハミ出し残存したりして、放送に適さない映像となる可能性があった。加えて、L字により縮小した領域には、再エンコードによる圧縮ノイズ等が発生することがあった。さらに、このL字により縮小した領域を再度拡大すると、映像の解像感が元の放送映像と比較すると、損なわれる(ボケが生じる)ことがあった。一方、時刻等をマスク(ボカシ)加工した領域は、周囲の映像との境界が生じ、極めて不自然な映像となっていた。そもそも、放送同録映像は放送映像を保存するために再圧縮したものが多いと想定されることから、本来と比較すると画質が劣っていた。
これらにより、映像上の違和感が生じて、放送に相応しくない映像となる可能性があった。
By configuring as described above, the following effects can be obtained.
According to FIG. 5, conventionally, when retransmitting for rebroadcasting or redistribution based on broadcast video recorded simultaneously, video processing was performed to delete unnecessary elements such as L characters. Such video deletion processing requires manual editing each time, which creates a workload for the operator and also lacks the speed of redistribution. In addition, since editing is done manually, if the area to be deleted is incorrectly set, if more than necessary area is deleted, the angle of view may become unnatural, or conversely, if the deletion area is narrow, the L-shaped part may be deleted. There was a possibility that the background color of the text would bleed through and remain, making the video unsuitable for broadcast. In addition, compression noise and the like may occur due to re-encoding in the area reduced by the L-shape. Furthermore, when the area reduced by this L-shape is enlarged again, the resolution of the video may be impaired (blurring may occur) when compared with the original broadcast video. On the other hand, areas where the time and other information have been masked (blurred) create boundaries with surrounding images, resulting in extremely unnatural images. In the first place, it is assumed that many of the broadcast simulcast videos are recompressed in order to preserve the broadcast video, so the image quality was inferior compared to the original.
These may create a sense of discomfort in the video, resulting in a video that is not suitable for broadcasting.
これに対して、本発明の実施の形態に係る編集システムXは、放送映像データ200に含まれる放送映像を再送出する編集システムであって、放送映像データ200に含まれる放送映像の特定箇所に連続して表示される不要領域を特定する不要領域特定手段100と、不要領域特定手段100により特定された不要領域を放送映像データ200から削除又は目立たなくする加工を行った加工映像データ210を作成する不要領域加工手段110と、不要領域加工手段により加工された加工映像データ210及び/又は放送映像データ200から、格納された元映像データ220を特定する元映像特定手段120と、元映像特定手段120により特定された元映像データ220を基に、加工映像を高画質化する高画質化手段130とを備えることを特徴とする。
On the other hand, the editing system X according to the embodiment of the present invention is an editing system that retransmits the broadcast video included in the
このように構成し、放送映像を再放送する際に、前回放送した映像の不要部分を削除する。すなわち、映像の内容を解析し、L時等の不要領域の位置を特定し、特定した不要領域を自動でマスク処理して目立たなく加工する。そして、映像内容を解析して、元映像データ220と照合し、放送に使用された元映像を特定する。この上で、蓄積サーバー2に格納された元映像データ220に基づいて、元の放送映像に近い映像を復元する。
このように、放送に用いられた元映像データ220を特定できた場合、元映像データ220を参照することで、従来よりも低負荷で、なおかつ高い精度の高画質化を行うことができる。これにより、放送映像の再送出時の画質劣化を抑えて、画質を改善できる。さらに、放送時の送出映像の同時録画から再送出までのワークフローを、自動編集により省力化することもできる。加えて、自動編集可能な編集システムとして、運用者の業務負荷を減らし、コストも改善できる。
With this configuration, when rebroadcasting broadcast video, unnecessary parts of the previously broadcast video are deleted. That is, the content of the video is analyzed, the position of unnecessary areas such as at L time is specified, and the identified unnecessary areas are automatically masked to make them less noticeable. Then, the video content is analyzed and compared with the
In this way, when the
本発明の実施の形態に係る編集システムXは、不要領域特定手段100は、削除する対象の領域の特徴を学習させたモデルにより不要領域を特定することを特徴とする。
このように構成することで、不要領域を確実に特定することが可能となる。すなわち、ビデオサーバーシステムは、放送局ごとに稼働しており、扱われる放送同録映像のL字等における文字の形状、時刻表示の形状、字幕の表示位置、フォント等の加工、挿入フォーマットは、ある程度の規則性がある。このような、特定のパターンを示すL字等を削除する対象の領域のモデルとして学習させ、L字等に含まれる特定の成分を検出して、不要領域を削除することで、高精度で不要領域を特定することが可能となる。これにより、自動編集による高画質化を確実に実行可能となる。
The editing system X according to the embodiment of the present invention is characterized in that the unnecessary area identifying means 100 identifies unnecessary areas using a model that has learned the characteristics of the area to be deleted.
With this configuration, it is possible to reliably identify unnecessary areas. In other words, the video server system operates for each broadcast station, and the shape of characters such as L letters of the broadcast recorded video, the shape of the time display, the display position of subtitles, the processing of fonts, etc., and the insertion format are There is some regularity. This kind of L-shape, etc. that shows a specific pattern can be trained as a model of the target area to be deleted, detect specific components contained in the L-shape, etc., and delete unnecessary areas with high precision. It becomes possible to specify the area. This makes it possible to reliably achieve high image quality through automatic editing.
放送同録映像の放送品位を高めるために、超解像技術等の適用により、高画質化を行うことも考えられる。ここで、特にボカシを行った領域は、意図的に解像感を極めて低く加工している。さらに、たとえボカシの範囲を、時刻や字幕等の形状に精密に合わせたとしても、時刻や字幕等の上書きによって失われた元映像の画素情報は復元することが困難である。これらに対しては、AI等による高度な画像予測を行ったとしても、本来存在した画素情報や解像感を得ることは極めて難しかった。 In order to improve the broadcast quality of broadcast-recorded video, it is also possible to improve the image quality by applying super-resolution technology or the like. Here, especially in the blurred area, the resolution is intentionally processed to be extremely low. Furthermore, even if the blur range is precisely matched to the shape of the time, subtitles, etc., it is difficult to restore pixel information of the original video that is lost due to overwriting of the time, subtitles, etc. Even if advanced image prediction using AI or the like is performed for these images, it is extremely difficult to obtain the originally existing pixel information and resolution.
これに対して、本発明の実施の形態に係る編集システムXは、高画質化手段130は、加工映像データ210について、元映像データ220に含まれる元映像に基づくエッジ情報並びに/若しくは色情報を利用したエッジ強調若しくは合成、及び/又は、元映像データ220に含まれる元映像の切り出しによる合成を行うことで高画質化することを特徴とする。
このように構成し、元映像データ220に基づくエッジ情報や色情報を利用したエッジ強調や合成、元映像データ220に含まれる元映像の切り出しを行うことで、放送映像に本来存在した画素情報や解像感を再現することが可能である。すなわち、元の映像に近い映像を復元することができる。さらに、元映像データ220を用いてエッジや色を強調、合成することで、放送時よりも高画質化できる可能性も生じる。
On the other hand, in the editing system The feature is that the image quality is improved by performing edge enhancement or synthesis using the
With this configuration, by performing edge enhancement and compositing using edge information and color information based on the
本発明の実施の形態に係る編集システムXは、元映像特定手段120は、加工映像データ210に含まれる加工映像と元映像データ220に含まれる元映像との画像中の共通点を抽出し、抽出した共通点に基づいて元映像データ220に含まれる元映像を特定することを特徴とする。
このように構成し、加工映像データ210と元映像データ220の画像中の共通点を予め抽出しておき、抽出した共通点に基づいて学習させて照合し、加工映像データ210から元映像データ220を特定することが可能である。このように、映像内容を解析しておき、保管された映像と照合し、放送に使用された元映像を特定することで、元映像データ220の検索を高速化し、更に、画質復元精度を向上させることができる。
In the editing system X according to the embodiment of the present invention, the original
With this configuration, the common points in the images of the processed
従来、手動編集作業による逆位相合成やフィルター処理等だけでは警報音を完全に削除しきれず、警報音の成分がノイズとして残ってしまうことがあった。
これに対して、本発明の実施の形態に係る編集システムXは、放送映像データ200に対応した音声データ300を解析して、削除箇所を特定する削除箇所特定手段140と、元映像データ220に対応する元音声データ320を特定する元音声特定手段150と、元音声特定手段150により特定された元音声データ320を基に、削除箇所特定手段140により特定された音声の削除箇所を高音質化する高音質化処理手段160とを更に備えることを特徴とする。
In the past, the alarm sound could not be completely deleted by manual editing such as reverse phase synthesis or filter processing, and components of the alarm sound remained as noise.
On the other hand, the editing system The original audio identifying means 150 identifies the corresponding
このように構成し、音声内容を解析して、格納された音声データ300と照合し、放送に使用された元映像データ220に対応した元音声データ320を特定する。これにより、放送に用いられた元音声データ320が特定できた場合、これを参照することで、通常よりも高い精度で放送時に付加された警報音の削除を行うことができる。これにより、警報音に由来するノイズを緩和することができ、確実に高音質化させることができる。
With this configuration, the audio content is analyzed and compared with the stored
本発明の実施の形態に係る編集システムXは、削除箇所特定手段140は、特定のモデルを用いて音声解析を行い、音声中の警報音の箇所を特定することを特徴とする。
このように構成し、音声内容に、AI等を含む特定のモデルを用いて、格納された音声と照合し、放送に使用された元映像の音声を特定することで、警報音除去精度を向上させることが可能となる。
The editing system X according to the embodiment of the present invention is characterized in that the deletion location specifying means 140 performs audio analysis using a specific model and identifies the location of the alarm sound in the audio.
With this configuration, the audio content is compared with the stored audio using a specific model that includes AI, and the audio of the original video used for broadcasting is identified, improving the accuracy of alarm sound removal. It becomes possible to do so.
なお、上述の実施の形態では、蓄積サーバー2に既に格納されている放送映像データ200について、高画質化処理を実行し、音声データ300について高音質化処理をする例について説明した。
しかしながら、収録中、又は収録せずに、リアルタイムに処理を行うことも可能である。また、警報音の削除を行う高音質化処理についても、収録中、又は収録せずに、リアルタイムに処理を行うことも可能である。
In the above-described embodiment, an example has been described in which the
However, it is also possible to perform processing in real time during or without recording. Furthermore, the high-quality sound processing for deleting the alarm sound can also be performed in real time during recording or without recording.
上述の実施の形態では、放送映像データ200を解析し、不要領域の有無を検索してから特定するように記載した。
しかしながら、運用者の操作によって、放送映像データ200に、L字等が含まれることや、L字等の映像上の位置や表示開始時間や終了時間等を指定してもよい。このように構成することで、放送映像データ200の解析を省くことができる。
In the above-described embodiment, the
However, the operator may specify that the
上述の実施の形態では、放送映像データ200から加工映像データ210を作成し、その加工映像データ210について元映像データ220からの置き換え、エッジや色の強調、合成等を行うように記載した。
しかしながら、放送映像データ200について加工映像データ210を作成せず、直接、放送映像データ200を加工することも可能である。または、マスク処理を行わず、例えば、放送映像データ200のコピーを加工映像データ210として作成することも可能である。この場合、不要領域のあるフレームを元映像データ220のフレームで直接、置き換えたり、時刻や字幕等の表示位置を元映像データ220で置き換え、マスク処理は行わないようにしたりすることが可能である。
このように構成することで、マスク処理の手間を減らし、速く高画質化することが可能となる。
In the embodiment described above, the processed
However, it is also possible to directly process the
With this configuration, it is possible to reduce the effort required for mask processing and quickly improve image quality.
上述の実施の形態では、元映像データ220として、放送映像データ200で使用された番組のデータを用いる例について説明した。
しかしながら、放送に用いられた映像そのものの特定が困難であっても、例えば、類似地点を映した類似の映像の素材データを、元映像データ220として用いることも可能である。このように構成することで、従来より高い精度の高画質化が可能となる。
なお、この類似の映像は、上述のAIにより検索することも可能である。さらに、GAN等のAIを用いて、この類似の映像を、実際の放送に用いられた映像に近い映像に加工することも可能である。
In the above-described embodiment, an example has been described in which the program data used in the
However, even if it is difficult to identify the video itself used for broadcasting, it is also possible to use material data of a similar video showing a similar point as the
Note that this similar video can also be searched using the above-mentioned AI. Furthermore, using AI such as GAN, it is also possible to process this similar video into a video that is close to the video used in the actual broadcast.
一方、上述の実施の形態では、元音声データ320が特定できなかった場合のみ、警報音の逆位相合成やフィルター処理を行うように記載した。
しかしながら、加工音声データ310について、逆位相合成やフィルター処理をしてから、元音声データ320による置き換えを行ってもよい。
このように構成することで、元音声データ320の特定の可否によって処理を分ける必要がなくなり、高音質化の効率を向上させることができる。
On the other hand, in the above-described embodiment, it is described that anti-phase synthesis and filter processing of the alarm sound are performed only when the
However, the processed
With this configuration, there is no need to separate processing depending on whether or not the
加えて、上述の実施の形態では、音声データ300を直接、逆位相合成やフィルター処理、又は、元音声データ320に置き換えるように記載した。
しかしながら、音声データ300には加工せず、加工音声データ310を加工して、加工映像データ210と供に出力するように構成することも可能である。
In addition, in the embodiments described above, the
However, it is also possible to configure the processed
上述の実施の形態では、蓄積サーバー2に格納された放送映像データ200に対する各機能部の処理を、専用の解析装置1が実行する例について説明した。
しかしながら、上述の各機能部の処理は、解析装置1で行わなくてもよく、編集装置4や蓄積サーバー2等で実行してもよい。
In the embodiment described above, an example has been described in which the
However, the processing of each of the above-mentioned functional units does not have to be performed by the
上述の実施の形態では、コンテナフォーマットのファイルとして、MXFを用いる例について記載した。
しかしながら、MXF以外のコンテナフォーマット、例えば、MKV等を用いることも可能である。さらに、放送映像データ200の記録形式や記録フォーマットは、システム要件に応じて、MP4、AVI、その他のプログラムストリーム(PS)形式、その他のトランスポートストリーム形式(TS)等でもよい。さらに、放送映像データ200は、各種コーデックで圧縮されていてもよい。
In the embodiment described above, an example is described in which MXF is used as the container format file.
However, it is also possible to use container formats other than MXF, such as MKV. Furthermore, the recording format and recording format of the
また、高画質化手段130及び高音質化処理手段160は、元映像データ220からの置き換えの際、映像についてはディゾルブ効果、音声はクロスフェード効果等を用いて、徐々に元映像データ220や元音声データ320と置き換えるようにしてもよい。
このように構成することで、不連続性に伴う違和感を緩和することが可能となる。
In addition, when replacing the
With this configuration, it is possible to alleviate the discomfort caused by discontinuity.
また、本発明の実施の形態に係る編集システムは、映像データを使用する各種装置に適用できる。たとえば、映像データを使用する装置として、エンコーダー、デコーダー、編集機、素材サーバー、送出サーバー等にも適用可能である。 Further, the editing system according to the embodiment of the present invention can be applied to various devices that use video data. For example, the invention can be applied to encoders, decoders, editing machines, material servers, transmission servers, etc. as devices that use video data.
なお、上記実施の形態の構成及び動作は例であって、本発明の趣旨を逸脱しない範囲で適宜変更して実行することができることは言うまでもない。 Note that the configuration and operation of the embodiment described above are merely examples, and it goes without saying that the configuration and operation of the embodiment can be modified and executed as appropriate without departing from the spirit of the present invention.
1 解析装置
2 蓄積サーバー
3 収録装置
4 編集装置
5 ネットワーク
10 制御部
11 記憶部
30 撮像部
100 不要領域特定手段
110 不要領域加工手段
120 元映像特定手段
130 高画質化手段
140 削除箇所特定手段
150 元音声特定手段
160 高音質化処理手段
200 放送映像データ
210 加工映像データ
220 元映像データ
300 音声データ
310 加工音声データ
320 元音声データ
A1、A2、A3 不要領域
X 編集システム
1 Analyzing
Claims (6)
前記放送映像の特定箇所に連続して表示される不要領域を特定する不要領域特定手段と、
前記不要領域特定手段により特定された不要領域を前記放送映像から削除又は目立たなくする加工を行った加工映像を作成する不要領域加工手段と、
前記不要領域加工手段により加工された前記加工映像及び/又は前記放送映像から、格納された元映像を特定する元映像特定手段と、
前記元映像特定手段により特定された前記元映像を基に、前記加工映像を高画質化する高画質化手段とを備える
ことを特徴とする編集システム。 An editing system that retransmits broadcast video,
unnecessary area identifying means for identifying an unnecessary area that is continuously displayed at a specific location of the broadcast video;
unnecessary area processing means for creating a processed video in which the unnecessary area identified by the unnecessary area identification means is processed to delete or make it less noticeable from the broadcast video;
Original video identifying means for identifying a stored original video from the processed video and/or the broadcast video processed by the unnecessary area processing means;
An editing system comprising: an image quality improvement unit that increases the image quality of the processed video based on the original video specified by the original video identification unit.
削除する対象の領域の特徴を学習させたモデルにより前記不要領域を特定する
ことを特徴とする請求項1に記載の編集システム。 The unnecessary area identifying means includes:
The editing system according to claim 1, wherein the unnecessary area is identified by a model that has learned the characteristics of the area to be deleted.
前記加工映像について、前記元映像に基づくエッジ情報並びに/若しくは色情報を利用したエッジ強調若しくは合成、及び/又は、前記元映像の切り出しによる合成を行うことで高画質化する
ことを特徴とする請求項1又は2に記載の編集システム。 The image quality improvement means includes:
A claim characterized in that the image quality of the processed video is enhanced by performing edge enhancement or composition using edge information and/or color information based on the original video, and/or composition by cutting out the original video. The editing system according to item 1 or 2.
前記加工映像と前記元映像との画像中の共通点を抽出し、抽出した前記共通点に基づいて前記元映像を特定する
ことを特徴とする請求項1乃至3のいずれか1項に記載の編集システム。 The source video identifying means includes:
4. The method according to claim 1, wherein common points between the processed video and the original video are extracted, and the original video is identified based on the extracted common points. Editing system.
前記元映像に対応する元音声を特定する元音声特定手段と、
前記元音声特定手段により特定された前記元音声を基に、前記削除箇所特定手段により特定された前記音声の前記削除箇所を高音質化する高音質化処理手段とを更に備える
ことを特徴とする請求項1乃至4のいずれか1項に記載の編集システム。 Deletion location identifying means for analyzing audio corresponding to the broadcast video to identify deletion locations;
Original audio identifying means for identifying the original audio corresponding to the original video;
The method further comprises a high-quality sound processing means for enhancing the sound quality of the deletion portion of the voice specified by the deletion portion specifying means based on the original voice specified by the original voice specifying means. An editing system according to any one of claims 1 to 4.
特定のモデルを用いて音声解析を行い、前記音声中の警報音の箇所を特定する
ことを特徴とする請求項5に記載の編集システム。 The deletion point specifying means includes:
6. The editing system according to claim 5, wherein a voice analysis is performed using a specific model to identify a location of an alarm sound in the voice.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019223031A JP7343378B2 (en) | 2019-12-10 | 2019-12-10 | editing system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019223031A JP7343378B2 (en) | 2019-12-10 | 2019-12-10 | editing system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021093627A JP2021093627A (en) | 2021-06-17 |
JP7343378B2 true JP7343378B2 (en) | 2023-09-12 |
Family
ID=76312855
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019223031A Active JP7343378B2 (en) | 2019-12-10 | 2019-12-10 | editing system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7343378B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2617352A (en) * | 2022-04-05 | 2023-10-11 | Canon Kk | Method, device, and computer program for encapsulating region annotations in media tracks |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010081181A (en) | 2008-09-25 | 2010-04-08 | Sanyo Electric Co Ltd | Image processing apparatus and electronic apparatus |
JP2012147288A (en) | 2011-01-13 | 2012-08-02 | Hitachi Kokusai Electric Inc | Broadcasting system |
JP2019062381A (en) | 2017-09-26 | 2019-04-18 | 株式会社日立国際電気 | Video edition system |
JP2019169851A (en) | 2018-03-23 | 2019-10-03 | 株式会社日立国際電気 | Broadcasting system |
-
2019
- 2019-12-10 JP JP2019223031A patent/JP7343378B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010081181A (en) | 2008-09-25 | 2010-04-08 | Sanyo Electric Co Ltd | Image processing apparatus and electronic apparatus |
JP2012147288A (en) | 2011-01-13 | 2012-08-02 | Hitachi Kokusai Electric Inc | Broadcasting system |
JP2019062381A (en) | 2017-09-26 | 2019-04-18 | 株式会社日立国際電気 | Video edition system |
JP2019169851A (en) | 2018-03-23 | 2019-10-03 | 株式会社日立国際電気 | Broadcasting system |
Also Published As
Publication number | Publication date |
---|---|
JP2021093627A (en) | 2021-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230121540A1 (en) | Matching mouth shape and movement in digital video to alternative audio | |
US9576202B1 (en) | Systems and methods for identifying a scene-change/non-scene-change transition between frames | |
US7072512B2 (en) | Segmentation of digital video and images into continuous tone and palettized regions | |
CN107241646B (en) | Multimedia video editing method and device | |
EP1111612A1 (en) | Method and device for managing multimedia file | |
US7706663B2 (en) | Apparatus and method for embedding content information in a video bit stream | |
CN108683826A (en) | Video data handling procedure, device, computer equipment and storage medium | |
JP2006115457A (en) | System and its method for embedding multimedia editing information into multimedia bit stream | |
US20090110366A1 (en) | Image processing apparatus and image processing method, program, and recording medium | |
US20080320046A1 (en) | Video data management apparatus | |
CN113225618A (en) | Video editing method and device | |
US20150067721A1 (en) | Method and system for transmitting videos to mobile phones | |
JP7343378B2 (en) | editing system | |
JP2007336263A (en) | Image processing method, apparatus, and program | |
JP2011523821A (en) | Apparatus and method for adjusting audiovisual system to viewer's attention level | |
CN112262570A (en) | Method and system for automatic real-time frame segmentation of high-resolution video streams into constituent features and modification of features in individual frames to create multiple different linear views from the same video source simultaneously | |
US8538244B2 (en) | Recording/reproduction apparatus and recording/reproduction method | |
KR20170053714A (en) | Systems and methods for subject-oriented compression | |
US9113150B2 (en) | System and method for recording collaborative information | |
JPH10276388A (en) | Device, method for processing and reproducing image and recording medium | |
CN109218849A (en) | A kind of processing method of live data, device, equipment and storage medium | |
EP3331245B1 (en) | Opportunistic frame caching transcoder and pre-viewer. | |
CN111918146B (en) | Video synthesis method and system | |
KR101695209B1 (en) | A system and method for composing real-time image and chroma-key Image of subject | |
CN114756835A (en) | Cinema film piracy tracing method and system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220912 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230814 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230829 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230831 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7343378 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |