JP2020004248A

JP2020004248A - 映像審査装置、情報処理装置、コンピュータプログラム及び映像審査方法

Info

Publication number: JP2020004248A
Application number: JP2018125144A
Authority: JP
Inventors: 充男久保田; Mitsuo Kubota
Original assignee: NKB Inc
Current assignee: NKB Inc
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2020-01-09
Anticipated expiration: 2038-06-29
Also published as: JP7100513B2

Abstract

【課題】広告用の映像の審査時間を短縮化することができる映像審査装置、情報処理装置、コンピュータプログラム及び映像審査方法を提供する。【解決手段】映像審査装置は、広告用の映像を取得する映像取得部と、映像取得部で取得した映像に含まれる画像、文字又は音声の少なくとも一つが所定の審査条件に合格するか否かの合否情報を取得する合否情報取得部と、映像及び合否情報を教師データとして学習モデルを学習させる学習処理部とを備える。【選択図】図１３

Description

本発明は、映像審査装置、情報処理装置、コンピュータプログラム及び映像審査方法に関する。

駅構内や駅ホーム、電車やバス、ビルなどの建物、店舗や映画館などの商業施設、空港など様々な公共施設では、ネットワークに接続された表示装置に広告などの情報を発信する広告配信システムが使用されている（特許文献１参照）。

このような広告配信システムを用いた広告配信サービスでは、例えば、広告代理店が空枠の確認、広告の申込、広告主からの映像などの広告素材の入稿などの業務を行う。また、広告配信の管理を行う媒体社（管理業者）は、広告の申込の管理、広告素材に不適切な表現が含まれていないかの審査、広告配信のスケジュール管理などの業務を行う。

特開２００１−３３８２１６号公報

しかし、広告素材の中に不適切な表現が含まれていないか否をチェックする審査業務は、審査担当者が手作業で行っているため、審査担当者の負担が大きく、審査に長時間要するという問題がある。

本発明は、斯かる事情に鑑みてなされたものであり、広告用の映像の審査時間を短縮化することができる映像審査装置、情報処理装置、コンピュータプログラム及び映像審査方法を提供することを目的とする。

本発明の実施の形態に係る映像審査装置は、広告用の映像を審査する映像審査装置であって、広告用の映像を取得する映像取得部と、前記映像取得部で取得した映像に含まれる画像、文字又は音声の少なくとも一つが所定の審査条件に合格するか否かの合否情報を取得する合否情報取得部と、前記映像及び合否情報を教師データとして学習モデルを学習させる学習処理部とを備える。

本発明の実施の形態に係る映像審査装置は、広告用の映像を審査する映像審査装置であって、広告用の映像を取得する映像取得部と、映像に含まれる画像、文字又は音声の少なくとも一つが所定の審査条件に合格するか否かの合否情報に基づいて学習した学習モデルとを備え、前記学習モデルは、前記映像取得部で取得した映像が前記審査条件に合格するか否かの合否情報を出力する。

本発明の実施の形態に係る情報処理装置は、表示画面を備える情報処理装置であって、複数の広告代理店毎に入稿された映像が所定の審査条件に合格するか否かの合否情報の一覧を表示する表示処理部を備える。

本発明の実施の形態に係るコンピュータプログラムは、コンピュータに、広告用の映像を取得する処理と、取得した映像に含まれる画像、文字又は音声の少なくとも一つが所定の審査条件に合格するか否かの合否情報を取得する処理と、前記映像及び合否情報を教師データとして学習モデルを学習させる処理とを実行させる。

本発明の実施の形態に係るコンピュータプログラムは、コンピュータに、広告用の映像を取得する処理と、映像に含まれる画像、文字又は音声の少なくとも一つが所定の審査条件に合格するか否かの合否情報に基づいて学習した学習モデルを用いて、取得した映像が前記審査条件に合格するか否かの合否情報を出力する処理とを実行させる。

本発明の実施の形態に係る映像審査方法は、広告用の映像を審査する映像審査方法であって、広告用の映像を取得し、取得された映像に含まれる画像、文字又は音声の少なくとも一つが所定の審査条件に合格するか否かの合否情報を取得し、前記映像及び合否情報を教師データとして学習モデルを学習させる。

本発明の実施の形態に係る映像審査方法は、広告用の映像を審査する映像審査方法であって、広告用の映像を取得し、映像に含まれる画像、文字又は音声の少なくとも一つが所定の審査条件に合格するか否かの合否情報に基づいて学習した学習モデルを用いて、取得された映像が前記審査条件に合格するか否かの合否情報を出力する。

本発明によれば、広告用の映像の審査時間を短縮化することができる。

本実施の形態の映像審査システムの構成の一例を示す模式図である。媒体社端末装置の構成の一例を示すブロック図である。映像審査装置の構成の一例を示すブロック図である。学習モデルの構成の第１例を示す模式図である。畳み込み層で行う処理を示す模式図である。プーリング層で行う処理を示す模式図である。学習モデルの構成の第２例を示す模式図である。媒体社端末装置の表示パネルに表示されるアップロード画面の一例を示す模式図である。媒体社端末装置の表示パネルに表示される審査結果一覧画面の一例を示す模式図である。媒体社端末装置の表示パネルに表示される審査結果詳細画面の一例を示す模式図である。媒体社端末装置の表示パネルに表示される審査結果一覧画面の他の例を示す模式図である。映像のフォーマットの一例を示す説明図である。学習モードでの処理部の処理手順の一例を示すフローチャートである。審査モードでの処理部の処理手順の一例を示すフローチャートである。媒体社端末装置の制御部の処理手順の一例を示すフローチャートである。

以下、本発明の実施の形態を図面に基づいて説明する。図１は本実施の形態の映像審査システムの構成の一例を示す模式図である。映像審査システムは、広告代理店に設けられたクライアント端末装置１０、…、１０、媒体社に設けられた情報処理装置としての媒体社端末装置２０、２０、及び広告用の映像を審査する映像審査装置５０が、インターネットなどのネットワーク１を介して接続されている。映像審査装置５０は、例えば、媒体社端末装置２０に対して、広告用の映像の自動審査をクラウドサービスとして提供することができる。

広告代理店のクライアント端末装置１０では、例えば、広告の空枠の確認、広告の申込、広告主からの映像などの広告素材の入稿などの業務が行われる。また、媒体社は、広告配信の管理を行う管理業者であり、媒体社の媒体社端末装置２０では、広告の申込の管理、広告素材に不適切な表現が含まれていないかの審査、広告配信のスケジュール管理などの業務が行われる。

審査に合格した広告用の映像は、媒体社の配信担当者によって、媒体社端末装置２０を通じて、広告代理店に対して審査合格の通知が行われるとともに、例えば、駅構内や駅ホーム、電車やバス、ビルなどの建物、店舗や映画館などの商業施設、空港など様々な公共施設において、ネットワークに接続された表示装置に配信される。

図２は媒体社端末装置２０の構成の一例を示すブロック図である。媒体社端末装置２０は、装置全体を制御する制御部２１、通信部２２、記憶部２３、表示パネル２４、表示処理部２５、及び操作部２６を備える。媒体社端末装置２０は、例えば、デスクトップ型コンピュータ、ノート型パーソナルコンピュータ、タブレットなどで構成することができる。制御部２１は、ＣＰＵ、ＲＯＭ及びＲＡＭなどで構成することができる。

通信部２２は、ネットワーク１を介して、クライアント端末装置１０及び映像審査装置５０との間で通信を行う機能を有し、所要の情報の送受信を行うことができる。

記憶部２３は、ハードディスク又はフラッシュメモリなどで構成され、広告主を含む広告代理店に関する情報、広告代理店から入稿された映像データ、媒体社端末装置２０で行う処理に関連するデータ（例えば、処理結果のデータ）、映像審査装置５０から受信したデータなどを記憶することができる。

表示パネル２４は、液晶パネル又は有機ＥＬ（Electro Luminescence）ディスプレイ等で構成することができる。

表示処理部２５は、表示パネル２４に所要の情報を表示するための制御を行う。表示処理部２５は、例えば、広告代理店毎に入稿された映像が所定の審査条件に合格するか否かの合否情報を表示することができる。この場合、映像審査装置５０が所定の審査条件に合格するか否かの判定処理を自動で行う。なお、表示処理部２５の表示処理の詳細は後述する。

操作部２６は、例えば、ハードウェアキーボード、マウスなどで構成され、表示パネル２４に表示されたアイコンなどの操作、文字等の入力などを行うことができる。なお、操作部２６は、タッチパネルで構成してもよい。

図３は映像審査装置５０の構成の一例を示すブロック図である。映像審査装置５０は、装置全体を制御する制御部５１、通信部５２、メモリ５３、フォーマット判定部５４、審査ＤＢ５５、フォーマット変換部５６、及び処理部５７を備える。処理部５７は、学習モデル５８、学習処理部５９、教師データ生成部６０、審査結果出力部６１、及び言語処理部６２を備える。映像審査装置５０は、１又は複数のサーバで構成することができる。制御部５１は、ＣＰＵ、ＲＯＭ及びＲＡＭなどで構成することができる。

通信部５２は、ネットワーク１を介して、クライアント端末装置１０及び媒体社端末装置２０との間で通信を行う機能を有し、所要の情報の送受信を行うことができる。具体的には、通信部５２は、媒体社端末装置２０が送信した、広告用の映像（映像データ）を受信することができる。また、通信部５２は、広告用の映像の審査の合否情報を媒体社端末装置２０へ送信することができる。

メモリ５３は、通信部５２で受信した映像をフレーム単位で記憶することができる。映像には、画像、文字、音声などが含まれている。フレームレートが、例えば、３０ｆｐｓの場合、映像には、１秒間に３０枚のフレーム（画像）が含まれる。

フォーマット判定部５４は、通信部５２で受信した映像のフォーマットが、所定のフォーマットに一致するか否かを判定し、判定結果を出力する。所定のフォーマットは、映像を配信するために予め定められたフォーマットである。フォーマットの詳細は後述する。

フォーマット変換部５６は、通信部５２で受信した映像のフォーマットが、所定のフォーマットに一致しない場合、所定のフォーマットに変換することができる。なお、フォーマット判定部５４及びフォーマット変換部５６は、映像審査装置５０とは別の動画変換サーバ（不図示）などに設けることもできる。

審査ＤＢ５５は、審査に必要な情報を記憶することができ、例えば、媒体社毎の映像審査基準などの情報を処理部５７がアクセスできる形式でデータベース化したものである。また、審査ＤＢ５５は、自然言語処理に必要な辞書データを記憶している。

次に、処理部５７について説明する。なお、処理部５７は、例えば、ＣＰＵ（例えば、複数のプロセッサコアを実装したマルチ・プロセッサなど）、ＧＰＵ（Graphics Processing Units）、ＤＳＰ（Digital Signal Processors）、ＦＰＧＡ（Field-Programmable Gate Arrays）などのハードウェアを組み合わせることによって構成することができる。また、量子プロセッサを組み合わせることもできる。

言語処理部６２は、音声認識処理機能を備え、映像に含まれる音声をテキストデータ（文字列）に変換することができる。また、言語処理部６２は、ＯＣＲ（Optical Character Recognition/Reader）機能を備え、映像に含まれる文字をテキストデータに変換することができる。なお、通常、音声又は文字は複数のフレームに亘って出力又は表示されるので、言語処理部６２によるテキストデータの変換処理は、フレーム単位ではなく、複数のフレームに跨って行われる。なお、言語処理部６２は、原稿などの文書を読み込むこともできる。

言語処理部６２は、形態素解析機能を備え、辞書データを用いて、変換したテキストデータから意味を持つ最小単位である単語を抽出する。また、言語処理部６２は、単語埋め込み処理機能を備え、抽出した単語を所定の次元数のベクトル（所定数のベクトル成分で構成されるベクトル）に変換することができる。

学習モデル５８は、多層のニューラルネットワーク（深層学習）を用いることができ、例えば、畳み込みニューラルネットワーク（Convolutional Neural Network）を用いることができるが、他の機械学習を用いてもよい。学習モデル５８は、学習処理部５９によって学習することにより、広告用の映像が所定の審査条件に合格するのか否かを自動的に判定し、合否情報を出力することができる。本明細書では、学習モデル５８は、学習前のもの、学習中のもの、学習済のものを含むものとする。学習モデル５８は、例えば、映像に含まれる画像を審査する学習モデル、及び映像から抽出されたテキストを審査する学習モデルを含む。以下、学習モデル５８の詳細について説明する。

図４は学習モデル５８の構成の第１例を示す模式図である。図４に示す学習モデル５８は、画像用の畳み込みニューラルネットワークであり、入力層５８１、畳み込み層５８２、プーリング層５８３、畳み込み層５８４、プーリング層５８５、全結合層５８６、及び出力層５８７が、この順に接続されている。なお、畳み込み層、プーリング層及び全結合層の数は便宜上のものであり、図４に示す数に限定されない。また、便宜上、活性化関数の層は省略している。入力層５８１には、映像の画像がフレーム単位で入力される。学習モデル５８は、フレーム単位又は複数のフレーム単位で画像が所定の審査条件に合格するか否かを判定することができる。すなわち、出力層５８７は、フレーム単位で画像の合否情報を出力する。

出力層５８７を２つの出力ノードで構成し、所定の審査条件に合格する確率、及び不合格となる確率（信頼度）を出力してもよく、あるいは、合格又は不合格の少なくとも一方の信頼度を複数の区分（例えば、信頼度＝１００％、９５％、９０％、８５％、８０％、…、０％の如く）に分けて、区分の数だけ出力ノードを設け、各区分の確率を出力してもよい。

また、出力層５８７を複数の出力ノードで構成し、それぞれのノードを、画像が所定の審査条件に合格しない理由を定め、各理由の確率を出力してもよい。理由は、例えば、「肌の露出」、「性に関する表現」、「暴力的な表現」などとすることができるが、これらに限定されない。

図５は畳み込み層で行う処理を示す模式図である。畳み込み層の入出力データは、特徴マップとも称され、畳み込み層の入力データを入力特徴マップ、畳み込み層の出力データを出力特徴マップともいう。初段の畳み込み層の入力特徴マップは、入力されたフレーム単位の画像である。畳み込み層で行う処理（「畳み込み演算」ともいう）は、畳み込みフィルタ（「フィルタ」ともいう）によるフィルタ演算である。

図５に示すように、入力特徴マップを、８×８ピクセルとする。また、フィルタの大きさを３×３ピクセルとする。畳み込み演算では、入力特徴マップに対して、フィルタのウィンドウを一定の間隔でスライドさせながら、フィルタの要素と入力特徴マップの対応する要素を乗算し、その和を求め、求めた和を出力特徴マップの対応するピクセルに格納する。図５の例では、入力特徴マップのフィルタＦ１に対応する領域Ｓの演算結果が出力特徴マップのピクセルＳ１に格納される。また、入力特徴マップのフィルタＦ２に対応する領域Ｓの演算結果が出力特徴マップのピクセルＳ２に格納される。同様に、入力特徴マップのフィルタＦ３に対応する領域Ｓの演算結果が出力特徴マップのピクセルＳ３に格納される。フィルタを１ピクセルずつ移動させて同様の演算を行うことにより、出力特徴マップは、６×６ピクセルの大きさとなる。ここで、３つのフィルタＦ１、Ｆ２、Ｆ３を用いることにより、３つの出力特徴マップが得られる。

学習モデル５８の学習では、フィルタに関するパラメータとして、例えば、フィルタの要素の値、フィルタの数（図５の例では、３）、フィルタの大きさ（図５の例では、３×３）、フィルタの移動幅（「スライド」ともいう、図５の例では、１ピクセル）、入力特徴マップの周囲（端の領域）を０で埋めるパディングなどを最適化する。畳み込み層により、画像の空間的な特徴を抽出することができる。

図６はプーリング層で行う処理を示す模式図である。プーリング層は、畳み込み層から出力された二次元特徴マップの大きさを縮小する処理を行う。具体的には、画像の局所領域を一つの要素に集約する処理を行う。例えば、図６に示すように、６×６ピクセルの特徴マップ（出力特徴マップ）において、２×２の局所領域（ウィンドウＷ）を、各要素のうちの最大値である「４」に集約している。なお、ウィンドウＷのスライドは、ウィンドウＷの大きさに等しく、図６の例では、２ピクセルずつスライドするので、６×６ピクセルの特徴マップは、３×３ピクセルに縮小される。プーリング層により、画像内で、例えば、特徴部分が多少変形又は変位していても、その変形又は変位による差異を吸収して特徴部分を抽出することができる。

図７は学習モデル５８の構成の第２例を示す模式図である。学習モデル５８は、図４に示す構成と図７に示す構成の両方の構成を備えることができる。図７に示す学習モデル５８は、テキスト用の畳み込みニューラルネットワークであり、入力層１５８１、畳み込み層１５８２、プーリング層１５８３、全結合層１５８４、及び出力層１５８５が、この順に接続されている。なお、畳み込み層、プーリング層及び全結合層の数は便宜上のものであり、図７に示す数に限定されない。入力層１５８１には、言語処理部６２によって、テキストデータから抽出された単語の列が入力される。図７の例では、一連の音声又は文字列から、６つの単語（単語１〜６）が抽出されて入力層１５８１に入力されている様子を示す。各単語１〜６は、埋め込み表現され、所定数（例えば、ｋとする）の次元のベクトルで表されている。なお、単語数は６に限定されない。

畳み込み層１５８２では、例えば、６つのフィルタＦ１１〜Ｆ１６を用いて、畳み込み演算が行われる。フィルタＦ１１、Ｆ１２は、４×ｋのサイズを有し、入力された特徴マップ上で、１ずつスライドすることによって、３つの要素（３×１のサイズ）で構成される特徴マップを出力する。また、フィルタＦ１３、Ｆ１４は、３×ｋのサイズを有し、入力された特徴マップ上で、１ずつスライドすることによって、４つの要素（４×１のサイズ）で構成される特徴マップを出力する。同様に、フィルタＦ１５、Ｆ１６は、２×ｋのサイズを有し、入力された特徴マップ上で、１ずつスライドすることによって、５つの要素（４×１のサイズ）で構成される特徴マップを出力する。

プーリング層１５８３では、出力された特徴マップの各要素のうち、最大値の要素を抽出する。

出力層１５８５を２つの出力ノードで構成し、所定の審査条件に合格する確率、及び不合格となる確率（信頼度）を出力してもよく、あるいは、合格又は不合格の少なくとも一方の信頼度を複数の区分（例えば、信頼度＝１００％、９５％、９０％、８５％、８０％、…、０％の如く）に分けて、区分の数だけ出力ノードを設け、各区分の確率を出力してもよい。なお、テキスト用の学習モデル５８は、図７の構成に限定されない。

また、出力層１５８５を複数の出力ノードで構成し、それぞれのノードを、音声又は文字が所定の審査条件に合格しない理由を定め、各理由の確率を出力してもよい。理由は、例えば、「世界一の」、「業界初の」、「万能」などの表現を意味する文章又は音声の存在とすることができるが、これらに限定されない。

図７に示すような学習モデル５８とともに、予め「世界一の」、「業界初の」、「万能」などのキーワードを保存した辞書データベースを準備しておき、入力されたテキストデータの中に辞書データベース内のキーワードに一致する言葉が含まれているかを判定することにより、所定の審査条件に合格するか否かを判定することもできる。すなわち、キーワードを保存した辞書データベースと学習モデル５８とを組み合わせてもよい。

また、図７に示すような学習モデル５８に代えて、テキスト用の学習モデル５８として、例えば、リカレントニューラルネットワーク（ＲＮＮ）を用いることができる。リカレントニューラルネットワークでは、前の時刻の中間層を次の時刻の入力層と合わせて学習に用いることで複数の単語の時系列情報を考慮することができる。

教師データ生成部６０は、合否情報取得部としての機能を有し、取得した映像に含まれる画像、文字又は音声の少なくとも一つが所定の審査条件に合格するか否かの合否情報を取得して、教師データを生成する。所定の審査条件は、例えば、映像に含まれる画像、文字又は音声が広告表現上、適切な表現であるか否かの条件とすることができる。例えば、不適切な表現が含まれる場合には審査条件に合格しない（不合格となる）。合否情報は、合格及び不合格の判定結果を含む。また、合否情報は、出力層の出力ノードそれぞれに対尾するデータを含む。

学習処理部５９は、教師データ（取得した映像及び当該映像に対する合否情報）を用いて学習モデル５８を学習させる。これにより、フィルタの要素の値、フィルタの数、フィルタの大きさ、フィルタの移動幅などを最適化することができる。

教師データを用いて学習させた学習モデル５８によって広告用の映像を審査させた場合、当該映像が所定の審査条件に合格するのか否かの合否判定を確率で得ることができる。例えば、合格判定の確率が所定の閾値以上であれば、広告用の映像に不適切な表現が含まれていないとして手作業による審査業務を省略することができ、広告用の映像の審査時間を短縮化することができる。また、不合格判定の確率が所定の閾値以上であれば、広告用の映像に不適切な表現が含まれているとして、当該映像に集中して確認作業を行うことができ、広告用の映像の審査時間を短縮化することができる。

学習処理部５９は、媒体社毎の教師データ（媒体社毎に取得した映像及び当該映像に対する合否情報）を用いて、媒体社毎に学習モデル５８を学習させることができる。

媒体社は、広告配信の管理を行う管理業者であり、様々な広告代理店（広告主）から入稿された広告用の映像を審査する必要がある。一方で、広告用の映像に含まれる画像、音声又は文字が、適切な表現であるか否かの審査基準は、媒体社毎に異なる場合があり、例えば、ある媒体社の審査基準は厳しいが、別のある媒体社の審査基準は比較的緩いという場合がある。

学習処理部５９は、媒体社毎の教師データを用いて学習モデル５８を学習させるので、学習モデル５８に含まれるアルゴリズム及びパラメータ（例えば、フィルタに関するパラメータなど）が、媒体社毎に特化した形で最適化された学習モデル５８を得ることができる。これにより、媒体社での審査基準にばらつきや違いがある場合でも、媒体社毎に適した学習モデル５８を用いることができ、広告用の映像の審査の精度を高めることが可能になる。特に、交通局などの移動体を含むすべての公共場所に広告を配信するような媒体社には、最適な学習モデル５８を提供することが可能となる。

また、学習処理部５９は、学習モデル５８が、取得した映像が審査条件に合格しないと判定した場合、判定結果の信頼度を出力するように、学習モデル５８を学習させることができる。

これにより、学習モデル５８を用いて、広告用の映像を審査する場合、不合格判定の信頼度（確率）が低いときには、広告用の映像に不適切な表現が含まれている可能性は低いとして手作業による審査業務を省略することができ、広告用の映像の審査時間を短縮化することができる。また、不合格判定の信頼度が高いときには、広告用の映像に不適切な表現が含まれている可能性が高いとして、当該映像に集中して確認作業を行うことができ、広告用の映像の審査時間を短縮化することができる。

また、学習処理部５９は、学習モデル５８が、取得した映像を構成する複数のフレームのうち審査条件に合格しないフレームを識別する識別情報を出力するように、学習モデル５８を学習させることができる。

映像の長さ、フレームレートが予め設定されている場合、審査条件に合格しないフレーム（連続する複数のフレームでもよい）が分かれば、例えば、映像の開始から何秒後のフレームに不適切な表現があるか容易に把握することができる。

また、学習処理部５９は、学習モデル５８が、取得した映像を構成する複数のフレームのうち審査条件に合格しないフレーム内の画像情報又は文字情報を出力するように、学習モデル５８を学習させることができる。

例えば、映像内の画像に不適切な表現が描かれている場合、当該画像のサムネイル（画像情報）を出力することができる。また、映像内の音声又は文字に不適切な表現が含まれている場合、当該音声又は文字のテキスト（文字情報）を出力することができる。これにより、映像内の不適切な表現を把握することができる。

次に、学習処理部５９で学習した学習モデル５８を用いて、広告用の映像を自動審査する場合について説明する。

図８は媒体社端末装置２０の表示パネル２４に表示されるアップロード画面２０１の一例を示す模式図である。媒体社端末装置２０は、複数の広告代理店から入稿された映像を映像審査装置５０にアップロード（送信）することができる。アップロード画面２０１には、ＩＤ、代理店名、広告主名、広告内容、入稿素材（映像）、アップロードを実行するアイコン２０２が表示される。媒体社の審査担当者は、広告代理店から入稿された入稿素材の一覧の中から、映像審査装置５０による自動審査を行う入稿素材を選択して、映像審査装置５０に送信することができる。

映像審査装置５０の処理部５７（具体的には、学習モデル５８）は、取得した映像が審査条件に合格するか否かの合否情報を出力する。具体的には、学習モデル５８は、取得した映像が所定の審査条件に合格するのか否かの合否判定の確率を出力することができる。映像審査装置５０は、通信部５２を介して、合否情報を媒体社端末装置２０へ送信する。

これにより、媒体社の審査担当者は、合格判定の確率が所定の閾値以上であれば、映像に不適切な表現が含まれていないとして手作業による審査業務を省略することができ、映像の審査時間を短縮化することができる。また、不合格判定の確率が所定の閾値以上であれば、映像に不適切な表現が含まれているとして、当該映像に集中して確認作業を行うことができ、映像の審査時間を短縮化することができる。

また、処理部５７は、複数の広告代理店毎に映像を取得した場合、複数の広告代理店毎に取得した映像が審査条件に合格するか否かの合否情報の一覧を出力する。映像審査装置５０は、通信部５２を介して、合否情報の一覧を媒体社端末装置２０へ送信する。

これにより、複数の広告代理店毎に取得した複数の映像のうち、手作業による確認作業を必要とする映像と必要でない映像とを区別することができ、広告用の映像の審査時間を短縮化することができる。

また、処理部５７は、取得した映像が審査条件に合格しないと判定した場合、判定結果の信頼度を出力することができる。

図９は媒体社端末装置２０の表示パネル２４に表示される審査結果一覧画面２１０の一例を示す模式図である。例えば、審査結果一覧画面２１０には、ＩＤ、代理店名、入稿素材（映像）、審査結果、信頼度、審査結果の詳細画面を表示するためのアイコン２１１、審査完了通知を、広告代理店のクライアント端末装置１０に送信するためのアイコン２１２などが表示される。

すなわち、表示処理部２５は、複数の広告代理店毎に入稿された映像が所定の審査条件に合格するか否かの合否情報（図９の例では、審査結果がＯＫとその信頼度、及び審査結果がＮＧとその信頼度）の一覧を表示することができる。これにより、複数の広告代理店毎に取得した複数の映像のうち、手作業による確認作業を必要とする映像と必要でない映像とを区別することができ、広告用の映像の審査時間を短縮化することができる。

また、表示処理部２５は、映像が審査条件に合格しないと判定された場合、複数の広告代理店毎に判定結果の信頼度を表示してもよい。これにより、媒体社の審査担当者は、不合格判定の信頼度（確率）が低い場合には、映像に不適切な表現が含まれている可能性は低いとして手作業による審査業務を省略することができ、映像の審査時間を短縮化することができる。また、不合格判定の信頼度が高い場合には、映像に不適切な表現が含まれている可能性が高いとして、当該映像に集中して確認作業を行うことができ、映像の審査時間を短縮化することができる。

図９の例で、審査担当者が、ＩＤがＭ１の入稿素材（Ｄ０００１）の審査結果がＯＫであり、審査結果の信頼度が９０％であるから、信頼できると判断した場合、審査完了通知のアイコン２１２を操作することにより、広告代理店ＡＡＡのクライアント端末装置１０に審査完了通知が送信される。

すなわち、アイコン２１２は通知部としての機能を有し、媒体社端末装置２０は、取得した映像が審査条件に合格すると判定された場合、当該映像を入稿した広告代理店に対して審査完了（審査合格でもよい）を通知することができる。ここで、審査結果ＯＫの信頼度が、どの程度であれば広告代理店に対して審査完了を通知するかは、審査担当者が適宜決めることができる。

また、予め所定の閾値（例えば、９０％）を設定しておき、学習モデル５８が、合格判定の確率が所定の閾値以上の審査合格を出力した場合、審査完了（審査合格）通知を自動的にクライアント端末装置１０に送信してもよい。

上述の構成により、映像の内容を手作業で確認することなく、広告代理店に審査合格を通知することがでるので、審査担当者の作業効率を向上することができる。

次に、審査結果の詳細情報について説明する。

図１０は媒体社端末装置２０の表示パネル２４に表示される審査結果詳細画面２２０の一例を示す模式図である。図１０の例では、入稿素材がＤ０００５、審査結果がＮＧ、審査結果の信頼度が９０％の場合について図示されている。すなわち、図１０の審査結果詳細画面２２０は、図９の例において、ＩＤがＭ４、広告代理店がＥＥＥの入稿素材Ｄ０００５の審査結果について詳細画面を表示するためのアイコン２１１が操作されることによって、表示される。

映像審査装置５０の処理部５７によって、入稿された映像（入稿素材：Ｄ０００５）が審査条件に不合格であると判定された場合、映像のどの箇所に不適切な広告表現があるかを、画像領域２２１と音声・文字領域２２２で表示することができる。画像領域２２１では、映像の最初から最後までのフレームが順番に表示され、不適切な描画があるフレーム（複数フレームでもよい）２２３、２２４が識別可能に表示される。フレーム２２３とフレーム２２４とでは、審査結果がＮＧの信頼度に応じて表示態様が異なる（便宜上、図では、模様を異ならせている）。例えば、審査結果がＮＧの信頼度が高いフレームを濃く表示すること、あるいは際立って目立つ色（例えば、赤色）とし、審査結果がＮＧの信頼度が低いフレームを薄く表示すること、あるいは多少目立つ色（例えば、黄色）とすることができる。

審査結果出力部６１は、第２出力部としての機能を有し、取得した映像が審査条件に合格しないと判定された場合、判定結果の信頼度に応じて、識別情報、画像情報又は文字情報を異なる表示態様で出力することができる。例えば、信頼度が高いほど、識別しやすい表示態様で識別情報、画像情報又は文字情報を出力することができる。これにより、手作業による確認作業の優先順位が分かり、作業効率を向上することができる。

また、審査担当者が、フレーム２２３に対して、所定の操作（例えば、クリック、ダブルクリックなど）を行うと、フレーム２２３のサムネイル（画像情報）を表示することができる。また、サムネイルの表示態様は、審査結果の信頼度に応じて、異なるようにしてもよい。例えば、信頼度の高いサムネイルは、枠を付けて強調表示し、あるいは目立つ色を付与してもよい。これにより、審査担当者は、実際に画像で不適切な描画を確認することができる。サムネイルの表示は、図示していないが、フレームの近くにポップアップ画面で表示してもよく、審査結果詳細画面２２０内の所定領域にサムネイル用の領域を予め設けていてもよい。

審査担当者が、スライド２２７をフレーム２２３の位置に移動させると、理由説明画面２２９に、フレーム２２３の位置（例えば、映像の開始時点からの経過時間：図の例では、２分４０秒）、フレーム２２３に関する審査結果ＮＧの信頼度（図の例では、９０％）、審査結果がＮＧとなる理由（図の例では、肌の露出）などが表示される。審査担当者がスライド２２７をフレーム２２４の位置に移動させると、理由説明画面２２９には、フレーム２２４についての同様の情報が表示される。

音声・文字領域２２２では、映像の最初から最後までのフレームが順番に表示され、不適切な音声又は文字があるフレーム（複数フレームでもよい）２２５、２２６が識別可能に表示される。フレーム２２５とフレーム２２６とでは、審査結果がＮＧの信頼度に応じて表示態様が異なる（便宜上、図では、模様を異ならせている）。例えば、審査結果がＮＧの信頼度が高いフレームを濃く表示すること、あるいは際立って目立つ色（例えば、赤色）とし、審査結果がＮＧの信頼度が低いフレームを薄く表示すること、あるいは多少目立つ色（例えば、黄色）とすることができる。

審査担当者が、スライド２２８をフレーム２２６の位置に移動させると、理由説明画面２３０に、フレーム２２６の位置（例えば、映像の開始時点からの経過時間：図の例では、３分２０秒）、フレーム２２６に関する審査結果ＮＧの信頼度（図の例では、９０％）、審査結果がＮＧとなる理由（図の例では、「世界一の」の表現）などが表示される。審査担当者がスライド２２８をフレーム２２５の位置に移動させると、理由説明画面２３０には、フレーム２２５についての同様の情報が表示される。また、「世界一の」などの文字情報の表示態様は、審査結果の信頼度に応じて、異なるようにしてもよい。例えば、信頼度の高い文字情報は、枠を付けて強調表示し、あるいは目立つ色を付与してもよい。

なお、フレーム毎の審査結果ＮＧの信頼度が異なる場合、各フレームについての信頼度の平均を入稿素材全体の審査結果ＮＧの信頼度としてもよく、各フレームについての信頼度のうち、最も信頼度の低いものを入稿素材全体の審査結果ＮＧの信頼度としてもよい。

上述のように、処理部５７は、取得した映像を構成する複数のフレームのうち審査条件に合格しないフレームを識別する識別情報を出力することができる。識別情報は、図１０に示すように、フレームに色、模様を付してもよく、フレームの枠を強調表示してもよく、フレームの上部又は下部にマークを付してもよい。映像の長さ、フレームレートは予め設定されているので、審査条件に合格しないフレーム（連続する複数のフレームでもよい）が分かれば、例えば、映像の開始から何秒後のフレームに不適切な表現があるか容易に把握することができる。

媒体社端末装置２０の操作部２６は、受付部としての機能を有し、操作部２６は、所定の操作を受け付ける。所定の操作は、例えば、入稿された映像が所定の審査条件に合格するか否かの合否情報の一覧が表示された場合、当該一覧のうち、さらに詳細に合否の内容を確認するための操作とすることができ、図９に例示したように、詳細画面を表示するためのアイコン２１１に対する操作とすることができる。

表示処理部２５は、所定の操作を受け付けた場合、映像を構成する複数のフレームのうち審査条件に合格しないフレームを識別する識別情報を表示することができる。映像の長さ、フレームレートは予め設定されているので、審査条件に合格しないフレーム（連続する複数のフレームでもよい）が分かれば、例えば、映像の開始から何秒後のフレームに不適切な表現があるか容易に把握することができる。これにより、審査に合格しない不適切な表現が含まれるフレームを容易に確認することができる。

また、処理部５７は、審査条件に合格しないフレーム内の画像情報を出力することができる。例えば、映像内の画像に不適切な表現が描かれている場合、当該画像のサムネイルを出力することができる。これにより、映像内の不適切な表現を把握することができる。

また、処理部５７は、審査条件に合格しないフレーム内の文字情報を出力することができる。例えば、映像内の音声又は文字に不適切な表現が含まれている場合、当該音声又は文字のテキストを出力することができる。これにより、映像内の不適切な表現を把握することができる。

また、処理部５７は、審査条件に合格しないと判定したフレームが、審査条件に合格しない理由を示す情報を出力することができる。審査条件に合格しない理由は、例えば、画像の中に広告表現上、不適切な描画が含まれている場合、どのような描画であるかを示す文言とすることができ、音声又は文字の中に不適切な言葉が含まれている場合、当該言葉とすることができる。

表示処理部２５は、審査条件に合格しないフレーム内の画像情報（サムネイル）を表示することができる。また、表示処理部２５は、審査条件に合格しないフレーム内の文字情報を表示することができる。また、表示処理部２５は、フレームが審査条件に合格しない理由を示す情報を表示することができる。これにより、審査担当者は、審査条件に合格しない理由が直ちに分かるので、例えば、媒体社毎に異なる審査基準を調べる必要がなく、審査業務を簡素化し、審査時間を短縮することができる。

図１１は媒体社端末装置２０の表示パネル２４に表示される審査結果一覧画面２４０の他の例を示す模式図である。図９に例示した審査結果一覧画面２１０の違いは、フォーマット判定及びフォーマット変換の欄が表示される点である。フォーマット判定部５４は、広告用の映像が所定のフォーマットであるか否かを判定する。

図１２は映像のフォーマット判定のためのチェック対象の一例を示す説明図である。映像の形式チェック対象（フォーマットのチェック項目）は、動画用パラメータ、音声用パラメータ及び静止画用パラメータに分けることができる。動画用パラメータとしては、例えば、ファイルサイズ、動画の横幅及び縦幅、動画の長さ、ビットレート、フレームレート、及びＶＢＲ（Variable Bit Rate）からＣＢＲ（Constant Bit Rate）への変換の要否などをチェックし、これらのパラメータが所定の形式でない場合には、所定の形式に変換する。音声用パラメータとしては、例えば、サンプリング周波数、ステレオからモノラルへの変換の要否、ビットレート及び音の良さを決定する量子化ビットなどをチェックし、これらのパラメータが所定の形式でない場合には、所定の形式に変換する。また、静止画用パラメータとしては、例えば、ファイルサイズ、静止画の横幅及び縦幅、及びＣＭＹＫからＲＧＢへの変換の要否などをチェックし、これらのパラメータが所定の形式でない場合には、所定の形式に変換する。映像を配信する場合のフォーマットは、所定のフォーマットに定められているが、広告主が制作する映像のフォーマットは、必ずしも配信用のフォーマットと一致しない場合がある。

フォーマット変換部５６は、取得した映像のフォーマットが所定のフォーマットと一致しないと判定された場合、取得した映像のフォーマットを所定のフォーマットに変換する。具体的は、フォーマット判定がＮＧの入稿素材（図１１の例では、Ｄ０００２）のフォーマット変換アイコンを操作することにより、フォーマット変換を行うことができる。

処理部５７は、第１出力部としての機能を有し、複数の広告代理店毎に取得した映像が所定のフォーマットであるか否かの判定結果の一覧を出力する。これにより、複数の広告代理店毎に取得した複数の映像のうち、フォーマットの修正を必要とする映像と必要でない映像とを区別することができ、作業効率を向上することができる。

図９又は図１１の例において、ＩＤがＭ２の入稿素材Ｄ０００２に対して、映像審査装置５０の学習モデル５８が、審査結果ＮＧの信頼度が８０％であると出力しているにも関わらず、審査担当者が、入稿素材Ｄ０００２の詳細を確認した場合に、媒体社の審査基準に照らすと、不適切な広告表現が含まれていないと判断できることがあり得る。同様に、ＩＤがＭ４の入稿素材Ｄ０００４に対して、映像審査装置５０の学習モデル５８が、審査結果ＯＫの信頼度が８０％であると出力しているにも関わらず、審査担当者が、入稿素材Ｄ０００４の詳細を確認した場合に、媒体社の審査基準に照らすと、不適切な広告表現が含まれていると判断できることがあり得る。このような場合には、学習モデル５８を再学習させることができる。

すなわち、学習処理部５９は、取得した映像及び学習モデル５８が出力した合否情報を修正した修正合否情報を教師データとして学習モデル５８を再学習させることができる。例えば、学習モデル５８が審査合格と判定した映像に不適切な表現が含まれていた場合、あるいは学習モデル５８が審査不合格と判定した映像に不適切な表現が含まれていない場合、学習モデル５８が出力した合否情報を修正して学習モデル５８を再度学習させることができる。これにより、学習モデル５８の判定精度を更に高めることができる。

図１３は学習モードでの処理部５７の処理手順の一例を示すフローチャートである。学習モードは、学習処理部５９により学習モデル５８を学習させるモードである。以下では、処理の主体を便宜上、処理部５７として説明する。処理部５７は、媒体社用の学習モデル５８を設定する（Ｓ１１）。処理部５７は、訓練用の映像データを取得し（Ｓ１２）、訓練用の映像データの合否情報を取得し（Ｓ１３）、教師データを生成する（Ｓ１４）。

処理部５７は、学習モデルの学習及び更新を行い（Ｓ１５）、他の媒体社のデータ（訓練データ）の有無を判定する（Ｓ１６）。他の媒体社のデータがある場合（Ｓ１６でＹＥＳ）、処理部５７は、ステップＳ１１以降の処理を続け、他の媒体社のデータがない場合（Ｓ１６でＮＯ）、処理を終了する。

上述の構成により、媒体社毎に最適化された学習モデルを記憶しておくことができ、媒体社毎に審査基準が異なる場合でも、媒体社に適した学習モデルを用いて審査条件の合否の判定を行うことができる。

なお、図示していないが、訓練データ（教師データ）とは別に、テストデータ（映像データ）を準備し、学習させた学習モデル５８に対してテストデータを入力し、学習モデル５８の評価を行うことができる。

図１４は審査モードでの処理部５７の処理手順の一例を示すフローチャートである。審査モードは、広告用の映像が所定の審査条件に合格するか否かを判定するモードである。処理部５７は、広告代理店毎の映像データを取得し（Ｓ２１）、映像データのフォーマットを判定する（Ｓ２２）。

処理部５７は、映像データを学習済の学習モデル５８に入力し（Ｓ２３）、映像データの合否情報を記憶する（Ｓ２４）。映像データが審査条件に合格しない場合、合否情報には、不合格になったフレーム、当該フレーム内の画像情報、文字情報などが含まれる。処理部５７は、広告代理店毎の映像データの審査結果を出力し（Ｓ２５）、審査結果及びフォーマット判定結果を媒体社端末装置２０へ送信する（Ｓ２６）。

処理部５７は、学習モデル５８の再学習を行うか否かを判定し（Ｓ２７）、再学習を行う場合（Ｓ２７でＹＥＳ）、映像データ及び合否情報を教師データとして学習モデル５８を再学習し（Ｓ２８）、処理を終了する。再学習を行わない場合（Ｓ２７でＮＯ）、処理部５７は、処理を終了する。

図１５は媒体社端末装置２０の制御部２１の処理手順の一例を示すフローチャートである。制御部２１は、複数の広告代理店毎の映像データの合否情報を映像審査装置５０から受信し（Ｓ３１）、審査結果一覧画面を表示する（Ｓ３２）。制御部２１は、審査完了通知アイコンの操作の有無を判定し（Ｓ３３）、審査完了通知アイコンの操作があった場合（Ｓ３３でＹＥＳ）、審査完了通知をクライアント端末装置１０へ送信し（Ｓ３４）、後述のステップＳ３５の処理を行う。

審査完了通知アイコンの操作がない場合（Ｓ３３でＮＯ）、制御部２１は、詳細画面アイコンの操作の有無を判定し（Ｓ３５）、詳細画面アイコンの操作があった場合（Ｓ３５でＹＥＳ）、審査結果詳細画面を表示する（Ｓ３６）。制御部２１は、審査結果ＮＧのフレームの選択操作の有無を判定する（Ｓ３７）。

審査結果ＮＧのフレームの選択操作があった場合（Ｓ３７でＹＥＳ）、制御部２１は、理由説明画面を表示し（Ｓ３８）、後述のステップＳ３９の処理を行う。詳細画面アイコンの操作がない場合（Ｓ３５でＮＯ）、あるいは、審査結果ＮＧのフレームの選択操作がない場合（Ｓ３７でＮＯ）、制御部２１は、処理を終了するか否かを判定する（Ｓ３９）。

処理を終了しない場合（Ｓ３９でＮＯ）、制御部２１は、ステップＳ３３以降の処理を続け、処理を終了する場合（Ｓ３９でＹＥＳ）、処理を終了する。

本実施の形態の制御部５１、処理部５７、フォーマット判定部５４及びフォーマット変換部５６は、ＣＰＵ（プロセッサ）、ＧＰＵ、ＲＡＭ（メモリ）などを備えた汎用コンピュータを用いて実現することもできる。すなわち、図１３及び図１４に示すような、各処理の手順を定めたコンピュータプログラムをコンピュータに備えられたＲＡＭ（メモリ）にロードし、コンピュータプログラムをＣＰＵ（プロセッサ）で実行することにより、コンピュータ上で制御部５１、処理部５７、フォーマット判定部５４及びフォーマット変換部５６を実現することができる。コンピュータプログラムは記録媒体に記録され流通されてもよい。映像審査装置５０で学習させた学習モデル５８及びそれに基づくコンピュータプログラムを、ネットワーク１を介して、媒体社端末装置２０に配信されインストールされてもよい。

上述の実施の形態において、映像審査装置５０が、映像の審査だけを行い、学習モデル５８の学習を行わない場合には、学習処理部５９及び教師データ生成部６０は具備しなくてもよい。また、フォーマット判定部５４及びフォーマット変換部５６は必須の構成ではなく、具備しなくてもよい。

本実施の形態に係る映像審査装置は、広告用の映像を審査する映像審査装置であって、広告用の映像を取得する映像取得部と、前記映像取得部で取得した映像に含まれる画像、文字又は音声の少なくとも一つが所定の審査条件に合格するか否かの合否情報を取得する合否情報取得部と、前記映像及び合否情報を教師データとして学習モデルを学習させる学習処理部とを備える。

本実施の形態に係るコンピュータプログラムは、コンピュータに、広告用の映像を取得する処理と、取得した映像に含まれる画像、文字又は音声の少なくとも一つが所定の審査条件に合格するか否かの合否情報を取得する処理と、前記映像及び合否情報を教師データとして学習モデルを学習させる処理とを実行させる。

本実施の形態に係る映像審査方法は、広告用の映像を審査する映像審査方法であって、広告用の映像を取得し、取得された映像に含まれる画像、文字又は音声の少なくとも一つが所定の審査条件に合格するか否かの合否情報を取得し、前記映像及び合否情報を教師データとして学習モデルを学習させる。

映像取得部は、広告用の映像を取得する。映像は、例えば、動画であり、複数のフレーム（フレーム画像とも称する）で構成される。

合否情報取得部は、取得した映像に含まれる画像、文字又は音声の少なくとも一つが所定の審査条件に合格するか否かの合否情報を取得する。所定の審査条件は、例えば、映像に含まれる画像、文字又は音声が広告表現上、適切な表現であるか否かの条件とすることができる。例えば、不適切な表現が含まれる場合には審査条件に合格しない（不合格となる）。合否情報は、合格及び不合格を含む。

学習処理部は、取得した映像及び合否情報を教師データとして学習モデルを学習させる。学習モデルは、多層のニューラルネットワーク（深層学習）を用いることができ、例えば、畳み込みニューラルネットワークを用いることができるが、他の機械学習を用いてもよい。

教師データを用いて学習させた学習済の学習モデルによって広告用の映像を審査させた場合、当該映像が所定の審査条件に合格するのか否かの合否判定を確率で得ることができる。例えば、合格判定の確率が所定の閾値以上であれば、広告用の映像に不適切な表現が含まれていないとして手作業による審査業務を省略することができ、広告用の映像の審査時間を短縮化することができる。また、不合格判定の確率が所定の閾値以上であれば、広告用の映像に不適切な表現が含まれているとして、当該映像に集中して確認作業を行うことができ、広告用の映像の審査時間を短縮化することができる。

本実施の形態に係る映像審査装置において、前記映像取得部は、媒体社毎に広告用の映像を取得し、前記合否情報取得部は、前記媒体社毎に前記合否情報を取得し、前記学習処理部は、前記媒体社毎に学習モデルを学習させる。

映像取得部は、媒体社毎に広告用の映像を取得する。媒体社は、広告配信の管理を行う管理業者であり、様々な広告代理店（広告主）から入稿された広告用の映像を審査する。

合否情報取得部は、媒体社毎に合否情報を取得する。すなわち、合否情報取得部は、媒体社毎取得した広告用の映像それぞれについて、当該映像に含まれる画像、文字又は音声の少なくとも一つが所定の審査条件に合格するか否かの合否情報を取得する。不適切な表現であるか否かの審査基準は、媒体社毎に異なる場合があり、例えば、ある媒体社の審査基準は厳しいが、別のある媒体社の審査基準は比較的緩いという場合がある。

学習処理部は、媒体社毎の教師データを用いて学習モデルを学習させる。学習モデルに含まれるアルゴリズム及びパラメータが、媒体社毎に特化した形で最適化された学習モデルを得ることができる。これにより、媒体社での審査基準にばらつきや違いがある場合でも、媒体社毎に適した学習モデルを用いることができ、広告用の映像の審査の精度を高めることが可能になる。

本実施の形態に係る映像審査装置において、前記学習モデルは、取得した映像が前記審査条件に合格しないと判定した場合、判定結果の信頼度を出力する。

学習モデルは、取得した映像が審査条件に合格しないと判定した場合、判定結果の信頼度を出力する。例えば、不合格判定の信頼度（確率）が低い場合には、広告用の映像に不適切な表現が含まれている可能性は低いとして手作業による審査業務を省略することができ、広告用の映像の審査時間を短縮化することができる。また、不合格判定の信頼度が高い場合には、広告用の映像に不適切な表現が含まれている可能性が高いとして、当該映像に集中して確認作業を行うことができ、広告用の映像の審査時間を短縮化することができる。

本実施の形態に係る映像審査装置において、前記学習モデルは、取得した映像を構成する複数のフレームのうち前記審査条件に合格しないフレームを識別する識別情報を出力する。

学習モデルは、取得した映像を構成する複数のフレームのうち審査条件に合格しないフレームを識別する識別情報を出力する。映像の長さ、フレームレートが予め設定されている場合、審査条件に合格しないフレーム（連続する複数のフレームでもよい）が分かれば、例えば、映像の開始から何秒後のフレームに不適切な表現があるか容易に把握することができる。

本実施の形態に係る映像審査装置において、前記学習モデルは、取得した映像を構成する複数のフレームのうち前記審査条件に合格しないフレーム内の画像情報又は文字情報を出力する。

学習モデルは、取得した映像を構成する複数のフレームのうち審査条件に合格しないフレーム内の画像情報又は文字情報を出力する。例えば、映像内の画像に不適切な表現が描かれている場合、当該画像のサムネイルを出力することができる。また、映像内の音声又は文字に不適切な表現が含まれている場合、当該音声又は文字のテキストを出力することができる。これにより、映像内の不適切な表現を把握することができる。

本実施の形態に係る映像審査装置は、広告用の映像を審査する映像審査装置であって、広告用の映像を取得する映像取得部と、映像に含まれる画像、文字又は音声の少なくとも一つが所定の審査条件に合格するか否かの合否情報に基づいて学習した学習モデルとを備え、前記学習モデルは、前記映像取得部で取得した映像が前記審査条件に合格するか否かの合否情報を出力する。

本実施の形態に係るコンピュータプログラムは、コンピュータに、広告用の映像を取得する処理と、映像に含まれる画像、文字又は音声の少なくとも一つが所定の審査条件に合格するか否かの合否情報に基づいて学習した学習モデルを用いて、取得した映像が前記審査条件に合格するか否かの合否情報を出力する処理とを実行させる。

本実施の形態に係る映像審査方法は、広告用の映像を審査する映像審査方法であって、広告用の映像を取得し、映像に含まれる画像、文字又は音声の少なくとも一つが所定の審査条件に合格するか否かの合否情報に基づいて学習した学習モデルを用いて、取得された映像が前記審査条件に合格するか否かの合否情報を出力する。

学習モデルは、映像に含まれる画像、文字又は音声の少なくとも一つが所定の審査条件に合格するか否かの合否情報に基づいて学習されている。所定の審査条件は、例えば、映像に含まれる画像、文字又は音声が広告表現上、適切な表現であるか否かの条件とすることができる。例えば、不適切な表現が含まれる場合には審査条件に合格しない（不合格となる）。合否情報は、合格及び不合格を含む。

学習モデルは、映像取得部で取得した映像が審査条件に合格するか否かの合否情報を出力する。学習モデルは、当該映像が所定の審査条件に合格するのか否かの合否判定を確率で得ることができる。例えば、合格判定の確率が所定の閾値以上であれば、広告用の映像に不適切な表現が含まれていないとして手作業による審査業務を省略することができ、広告用の映像の審査時間を短縮化することができる。また、不合格判定の確率が所定の閾値以上であれば、広告用の映像に不適切な表現が含まれているとして、当該映像に集中して確認作業を行うことができ、広告用の映像の審査時間を短縮化することができる。

本実施の形態に係る映像審査装置において、前記映像取得部は、複数の広告代理店毎の広告用の映像を取得し、前記学習モデルは、前記複数の広告代理店毎に取得した映像が前記審査条件に合格するか否かの合否情報の一覧を出力する。

映像取得部は、複数の広告代理店毎の広告用の映像を取得する。

学習モデルは、複数の広告代理店毎に取得した映像が審査条件に合格するか否かの合否情報の一覧を出力する。これにより、複数の広告代理店毎に取得した複数の映像のうち、手作業による確認作業を必要とする映像と必要でない映像とを区別することができ、広告用の映像の審査時間を短縮化することができる。

本実施の形態に係る映像審査装置は、広告用の映像が所定のフォーマットであるか否かを判定する判定部と、複数の広告代理店毎に取得した映像が前記所定のフォーマットであるか否かの判定結果の一覧を出力する第１出力部とを備える。

判定部は、広告用の映像が所定のフォーマットであるか否かを判定する。フォーマットは、映像（動画及び静止画）を構成するためのファイルの情報であり、例えば、ファイル名（ファイル形式）、圧縮方式、動画ビットレート、フレームレート、解像度、音声、音声ビットレート、周波数、チャンネル、動画の長さなどの情報を含む。映像を配信する場合のフォーマットは、所定のフォーマットに定められているが、広告主が制作する映像のフォーマットは、必ずしも配信用のフォーマットと一致しない場合がある。

第１出力部は、複数の広告代理店毎に取得した映像が所定のフォーマットであるか否かの判定結果の一覧を出力する。これにより、複数の広告代理店毎に取得した複数の映像のうち、フォーマットの修正を必要とする映像と必要でない映像とを区別することができ、作業効率を向上することができる。

本実施の形態に係る映像審査装置において、前記学習モデルは、取得した映像が前記審査条件に合格しないと判定された場合、判定結果の信頼度を出力する。

学習モデルは、取得した映像が審査条件に合格しないと判定された場合、判定結果の信頼度を出力する。例えば、不合格判定の信頼度（確率）が低い場合には、広告用の映像に不適切な表現が含まれている可能性は低いとして手作業による審査業務を省略することができ、広告用の映像の審査時間を短縮化することができる。また、不合格判定の信頼度が高い場合には、広告用の映像に不適切な表現が含まれている可能性が高いとして、当該映像に集中して確認作業を行うことができ、広告用の映像の審査時間を短縮化することができる。

学習モデルは、取得した映像を構成する複数のフレームのうち審査条件に合格しないフレームを識別する識別情報を出力する。映像の長さ、フレームレートは予め設定されているので、審査条件に合格しないフレーム（連続する複数のフレームでもよい）が分かれば、例えば、映像の開始から何秒後のフレームに不適切な表現があるか容易に把握することができる。

本実施の形態に係る映像審査装置において、前記学習モデルは、前記審査条件に合格しないフレーム内の画像情報を出力する。

学習モデルは、審査条件に合格しないフレーム内の画像情報を出力する。例えば、映像内の画像に不適切な表現が描かれている場合、当該画像のサムネイルを出力することができる。これにより、映像内の不適切な表現を把握することができる。

本実施の形態に係る映像審査装置において、前記学習モデルは、前記審査条件に合格しないフレーム内の文字情報を出力する。

学習モデルは、審査条件に合格しないフレーム内の文字情報を出力する。例えば、映像内の音声又は文字に不適切な表現が含まれている場合、当該音声又は文字のテキストを出力することができる。これにより、映像内の不適切な表現を把握することができる。

本実施の形態に係る映像審査装置は、取得した映像が前記審査条件に合格しないと判定された場合、判定結果の信頼度に応じて、前記識別情報、画像情報又は文字情報を異なる表示態様で出力する第２出力部を備える。

第２出力部は、取得した映像が審査条件に合格しないと判定した場合、判定結果の信頼度に応じて、識別情報、画像情報又は文字情報を異なる表示態様で出力する。例えば、信頼度が高いほど、識別しやすい表示態様で識別情報、画像情報又は文字情報を出力することができる。これにより、手作業による確認作業の優先順位が分かり、作業効率を向上することができる。

本実施の形態に係る映像審査装置は、前記映像取得部で取得した映像及び前記学習モデルが出力した合否情報を修正した修正合否情報を教師データとして前記学習モデルを再学習させる学習処理部を備える。

学習処理部は、映像取得部で取得した映像及び学習モデルが出力した合否情報を修正した修正合否情報を教師データとして学習モデルを再学習させる。例えば、学習モデルが審査合格と判定した映像に不適切な表現が含まれていた場合、あるいは学習モデルが審査不合格と判定した映像に不適切な表現が含まれていない場合、学習モデルが出力した合否情報を修正して学習モデルを再度学習させることができる。これにより、学習モデルの判定精度を更に高めることができる。

本実施の形態に係る情報処理装置は、表示画面を備える情報処理装置であって、複数の広告代理店毎に入稿された映像が所定の審査条件に合格するか否かの合否情報の一覧を表示する表示処理部を備える。

表示処理部は、複数の広告代理店毎に入稿された映像が所定の審査条件に合格するか否かの合否情報の一覧を表示する。これにより、複数の広告代理店毎に取得した複数の映像のうち、手作業による確認作業を必要とする映像と必要でない映像とを区別することができ、広告用の映像の審査時間を短縮化することができる。

本実施の形態に係る情報処理装置において、前記表示処理部は、前記映像が前記審査条件に合格しないと判定された場合、前記複数の広告代理店毎に判定結果の信頼度を表示する。

表示処理部は、映像が審査条件に合格しないと判定された場合、複数の広告代理店毎に判定結果の信頼度を表示する。例えば、不合格判定の信頼度（確率）が低い場合には、広告用の映像に不適切な表現が含まれている可能性は低いとして手作業による審査業務を省略することができ、広告用の映像の審査時間を短縮化することができる。また、不合格判定の信頼度が高い場合には、広告用の映像に不適切な表現が含まれている可能性が高いとして、当該映像に集中して確認作業を行うことができ、広告用の映像の審査時間を短縮化することができる。

本実施の形態に係る情報処理装置は、所定の操作を受け付ける受付部を備え、前記表示処理部は、前記操作を受け付けた場合、前記映像を構成する複数のフレームのうち前記審査条件に合格しないフレームを識別する識別情報を表示する。

受付部は、所定の操作を受け付ける。所定の操作は、例えば、入稿された映像が所定の審査条件に合格するか否かの合否情報の一覧が表示された場合、当該一覧のうち、さらに詳細に合否の内容を確認するための操作とすることができる。

表示処理部は、当該操作を受け付けた場合、映像を構成する複数のフレームのうち審査条件に合格しないフレームを識別する識別情報を表示する。映像の長さ、フレームレートは予め設定されているので、審査条件に合格しないフレーム（連続する複数のフレームでもよい）が分かれば、例えば、映像の開始から何秒後のフレームに不適切な表現があるか容易に把握することができる。これにより、審査に合格しない不適切な表現が含まれるフレームを容易に確認することができる。

本実施の形態に係る情報処理装置において、前記表示処理部は、前記識別情報で識別されたフレームが前記審査条件に合格しない理由を示す情報を表示する。

表示処理部は、識別情報で識別されたフレームが審査条件に合格しない理由を示す情報を表示する。理由は、例えば、画像の中に広告表現上、不適切な描画が含まれている場合、どのような描画であるかを示す文言とすることができ、音声又は文字の中に不適切な言葉が含まれている場合、当該言葉とすることができる。

本実施の形態に係る情報処理装置は、取得した映像が前記審査条件に合格すると判定された場合、前記映像を入稿した広告代理店に対して審査合格を通知する通知部を備える。

通知部は、取得した映像が審査条件に合格すると判定された場合、当該映像を入稿した広告代理店に対して審査合格を通知する。例えば、学習モデルが、合格判定の確率が所定の閾値以上の審査合格を出力した場合、映像の内容を手作業で確認することなく、広告代理店に審査合格を通知することがでるので、作業効率を向上することができる。

１ネットワーク
１０クライアント端末装置
２０媒体社端末装置
２１制御部
２２通信部
２３記憶部
２４表示パネル
２５表示処理部
２６操作部
５０映像審査装置
５１制御部
５２通信部
５３メモリ
５４フォーマット判定部
５５審査ＤＢ
５６フォーマット変換部
５７処理部
５８学習モデル
５９学習処理部
６０教師データ生成部
６１審査結果出力部
６２言語処理部

Claims

広告用の映像を審査する映像審査装置であって、
広告用の映像を取得する映像取得部と、
前記映像取得部で取得した映像に含まれる画像、文字又は音声の少なくとも一つが所定の審査条件に合格するか否かの合否情報を取得する合否情報取得部と、
前記映像及び合否情報を教師データとして学習モデルを学習させる学習処理部と
を備える映像審査装置。
前記映像取得部は、
媒体社毎に広告用の映像を取得し、
前記合否情報取得部は、
前記媒体社毎に前記合否情報を取得し、
前記学習処理部は、
前記媒体社毎に学習モデルを学習させる請求項１に記載の映像審査装置。
前記学習モデルは、
取得した映像が前記審査条件に合格しないと判定した場合、判定結果の信頼度を出力する請求項１又は請求項２に記載の映像審査装置。
前記学習モデルは、
取得した映像を構成する複数のフレームのうち前記審査条件に合格しないフレームを識別する識別情報を出力する請求項１から請求項３のいずれか一項に記載の映像審査装置。
前記学習モデルは、
取得した映像を構成する複数のフレームのうち前記審査条件に合格しないフレーム内の画像情報又は文字情報を出力する請求項１から請求項４のいずれか一項に記載の映像審査装置。
広告用の映像を審査する映像審査装置であって、
広告用の映像を取得する映像取得部と、
映像に含まれる画像、文字又は音声の少なくとも一つが所定の審査条件に合格するか否かの合否情報に基づいて学習した学習モデルと
を備え、
前記学習モデルは、
前記映像取得部で取得した映像が前記審査条件に合格するか否かの合否情報を出力する映像審査装置。
前記映像取得部は、
複数の広告代理店毎の広告用の映像を取得し、
前記学習モデルは、
前記複数の広告代理店毎に取得した映像が前記審査条件に合格するか否かの合否情報の一覧を出力する請求項６に記載の映像審査装置。
広告用の映像が所定のフォーマットであるか否かを判定する判定部と、
複数の広告代理店毎に取得した映像が前記所定のフォーマットであるか否かの判定結果の一覧を出力する第１出力部と
を備える請求項６又は請求項７に記載の映像審査装置。
前記学習モデルは、
取得した映像が前記審査条件に合格しないと判定された場合、判定結果の信頼度を出力する請求項６から請求項８のいずれか一項に記載の映像審査装置。
前記学習モデルは、
取得した映像を構成する複数のフレームのうち前記審査条件に合格しないフレームを識別する識別情報を出力する請求項６から請求項９のいずれか一項に記載の映像審査装置。
前記学習モデルは、
前記審査条件に合格しないフレーム内の画像情報を出力する請求項１０に記載の映像審査装置。
前記学習モデルは、
前記審査条件に合格しないフレーム内の文字情報を出力する請求項１０又は請求項１１に記載の映像審査装置。
取得した映像が前記審査条件に合格しないと判定された場合、判定結果の信頼度に応じて、前記識別情報、画像情報又は文字情報を異なる表示態様で出力する第２出力部を備える請求項１０から請求項１２のいずれか一項に記載の映像審査装置。
前記映像取得部で取得した映像及び前記学習モデルが出力した合否情報を修正した修正合否情報を教師データとして前記学習モデルを再学習させる学習処理部を備える請求項６から請求項１３のいずれか一項に記載の映像審査装置。
表示画面を備える情報処理装置であって、
複数の広告代理店毎に入稿された映像が所定の審査条件に合格するか否かの合否情報の一覧を表示する表示処理部を備える情報処理装置。
前記表示処理部は、
前記映像が前記審査条件に合格しないと判定された場合、前記複数の広告代理店毎に判定結果の信頼度を表示する請求項１５に記載の情報処理装置。
所定の操作を受け付ける受付部を備え、
前記表示処理部は、
前記操作を受け付けた場合、前記映像を構成する複数のフレームのうち前記審査条件に合格しないフレームを識別する識別情報を表示する請求項１５又は請求項１６に記載の情報処理装置。
前記表示処理部は、
前記識別情報で識別されたフレームが前記審査条件に合格しない理由を示す情報を表示する請求項１７に記載の情報処理装置。
取得した映像が前記審査条件に合格すると判定された場合、前記映像を入稿した広告代理店に対して審査合格を通知する通知部を備える請求項１５から請求項１８のいずれか一項に記載の情報処理装置。
コンピュータに、
広告用の映像を取得する処理と、
取得した映像に含まれる画像、文字又は音声の少なくとも一つが所定の審査条件に合格するか否かの合否情報を取得する処理と、
前記映像及び合否情報を教師データとして学習モデルを学習させる処理と
を実行させるコンピュータプログラム。
コンピュータに、
広告用の映像を取得する処理と、
映像に含まれる画像、文字又は音声の少なくとも一つが所定の審査条件に合格するか否かの合否情報に基づいて学習した学習モデルを用いて、取得した映像が前記審査条件に合格するか否かの合否情報を出力する処理と
を実行させるコンピュータプログラム。
広告用の映像を審査する映像審査方法であって、
広告用の映像を取得し、
取得された映像に含まれる画像、文字又は音声の少なくとも一つが所定の審査条件に合格するか否かの合否情報を取得し、
前記映像及び合否情報を教師データとして学習モデルを学習させる映像審査方法。
広告用の映像を審査する映像審査方法であって、
広告用の映像を取得し、
映像に含まれる画像、文字又は音声の少なくとも一つが所定の審査条件に合格するか否かの合否情報に基づいて学習した学習モデルを用いて、取得された映像が前記審査条件に合格するか否かの合否情報を出力する映像審査方法。