本発明を実施するための形態に係るデータ解析システムを図面に基づいて説明する。
図1は本発明の実施形態に係るデータ解析システムの概略構成を示すブロック図、図2は同データ解析システムの処理を示すフローチャートである。
本実施形態に係るデータ解析システム50は、図1に示すように、情報解析部10、設定入力部20、過去データ蓄積部30、及びデータ入力部40を備える。
情報解析部10は、映像情報取得部11、画像音声分離部12、画像抽出部13、画像認識部14、音声抽出部15、音声認識部16、蓄積部17、及び解析部18を備える。
映像情報取得部11は、テレビチューナ機能、ラジオチューナ機能、ウエブ配信画像取得機能を含む。映像情報取得部11は、放送されたテレビ番組等から動画情報と、音声情報とを取得する。
また、映像情報取得部11は、編集前の映像、編集後の映像を録画機、編集装置等から取得する。さらに、再生装置から操作者が操作しつつ再生する映像の再生映像を取得する。
画像音声分離部12は、映像情報取得部11で取得した映像情報を画像情報と音声情報とに分離する。映像情報には動画情報と静止画情報とを含む。
画像抽出部13は、画像情報から、背景、人物、テロップの文字、ロゴマーク、ロゴマークの文字、フリップの文字等を抽出する。抽出は画像における画素濃度、色彩の変化点であるエッジを検出することにより行う。
画像認識部14は、抽出した背景、人物、テロップの文字、ロゴマーク、ロゴマークの文字、フリップを解析対象情報として公知の手法で認識してデジタル情報、例えばテキスト情報とする。また、類似画像をグループ化してまとめ、テキストによるタグを付けする。さらに、対象物例えば人物の動きについての情報、背景や場面の変換のタイミング等、映像の編集情報を取得する。
音声抽出部15は、音声情報からナレーション、台詞、その他の人の声、音楽、背景音、動物の声、車両等の走行音を抽出する。
音声認識部16は、ナレーション、台詞、その他の人の声を解析対象情報として解析してテキストとして出力する他、背景音等の属性を解析してデジタル情報、例えばテキスト情報として出力する。また、音楽の識別情報を付与することができる。
蓄積部17は画像認識部14及び音声抽出部15の出力結果を蓄積する。蓄積部17は、情報解析部10が抽出し認識した結果を長期間にわたり保存する。これにより、蓄積部17には、映像情報取得部11で得られた内外の映像情報から認識した膨大な情報が蓄積されていることになる。
解析部18は、蓄積部17に蓄積されたテキストデータ、又は画像認識部14及び音声認識部16からのテキストを解析する。解析は情報解析部10の使用目的により適切な手法によって行うことができる。例えば、取得したテキストから将来の動向を予測することができる。また、取得したテキストから装置等の制御を適正に行うための制御情報を生成する。
解析部18における解析には人工知能を使用する。予め準備した所定範囲の解析情報と、この所定範囲における過去の実績を学習することで解析精度が高くなる。人工知能としては、様々な手法のものを適用できる。人工知能は、強化学習、ディープラーニング、及び深層強化学習、機械学習、パターンマッチング、ルールベースAIやその他の学習手法から選択した少なくとも一つの手法を使用することができる。
このとき、解析対象とする情報の時間的範囲、地理的範囲、分野的な範囲を指定することができる。これにより、効率的な解析を行うことができる。
これらの処理により、解析部18は解析結果を出力する。即ち、解析部18は、例えば、所望される今後のニーズ、新しい作品、等を出力する。
設定入力部20は、映像情報取得部11、画像音声分離部12、画像抽出部13、画像認識部14、音声抽出部15、音声認識部16の処理のための各種設定を各部に入力する。例えば、取得した時期、解析する地域、分野、対象分野を指定する。また、解析の対象となるデータを入力することができる。例えば、データ解析システム50が映像の編集を行うときには、編集対象となる映像データを入力する。
過去データ蓄積部30は、機械学習のための過去データが蓄積されている。解析対象とされた生のデータと、この解析対象の実際の状態、予測された状態が格納されている。
データ入力部40には、解析の対象となるデータを入力する。例えば、データ解析システム50が映像の編集を行うときには、編集対象となる映像データを入力する。また、予め取得されている解析結果を入力することができる。
データ解析システム50は、処理装置としてのCPU(Central Processing Unit)、記憶装置としてRAM(Random Access Memory)、ROM(Read Only Memory)、HDD(Hard Disc Drive)、SSD(Solid State Drive)等を備えたコンピュータシステムでアプリケーションションソフトウエアを実行して実現できる。また、各部は同一箇所に配置される必要はなく、一部をクラウド上に配置してネットワークで接続して実現することができる。また、これらの処理は、多量のデータを対象とするためGPU(Graphics Processing Unit)を使用して処理することが望ましい。
次に情報解析部10の処理について説明する。図2に示すように、情報解析部10は、映像情報取得部11により、テレビ放送、ネット配信、その他の映像情報を取得する(ステップS1)。
そして、情報解析部10は、画像音声分離部12により、取得した映像情報の画像情報と、音声情報とを分離する(ステップS2)。
さらに、情報解析部10は、画像抽出部13により画像情報から認識対象とする画像、即ち画像情報から人物、ロゴマーク、テキスト/テロップ、景観を抽出する(ステップS3)。そして、画像認識部14により抽出した画像情報から人物、ロゴマーク、テキスト/テロップ、景観を抽出する認識してテキスト化する他、グループ化された画像データ及びタグ、対象物例えば人物の動きについての情報、背景や場面変換のタイミング等、映像の編集情報を取得して蓄積部17に蓄積する(ステップS4)。
また、情報解析部10は、音声抽出部15により音声情報から認識対象とする音声、即ち人の声の他、背景音、音楽その他の音を抽出する(ステップS5)。そして、音声認識部16により抽出した人の声の発話内容、背景音、その他の音や音楽の属性や特定情報を認識して蓄積部17に蓄積する(ステップS6)。
さらに、情報解析部10は、解析部18により、解析対象とする分野の認識情報を取得し(ステップS7)、必要によって設定入力部20、過去データ蓄積部30、データ入力部40から処理対象の他の情報、指定すべきパラメータ等を入力する(ステップS8)。
そして、解析部18は、各分野結果から分析結果、例えば今後のトレンド、今後の動向、今後のニーズ、新しい作品、等を生成して(ステップS9)出力する。
これにより、データ解析システム50の一連の処理は終了する。
次に情報解析部10の具体的な構成の例について説明する。図3は同データ解析システムの情報解析部の構成及び処理の手順を示す図である。
図3は同録画再生システムにおけるメタデータ作成部の要約作成システムを示すブロック図である。図3に示すように、情報解析部10を構成するデータ解析システム50は、ビデオ信号分離部700、発話テキスト化部100、テロップテキスト化部200、背景画像テキスト化部300、ロゴマークテキスト化部400、テキスト統合手段であるテキスト統合部500、及び要約作成手段である要約作成部600を備える。
本実施形態ではデータ解析システム50は映像情報をテレビ放送局T、ラジオ放送局からの放送番組やインターネットIで配信される動画から取得する。また、独自に配置したビデオ再生装置Sや映像編集装置から映像情報を取得することができる。なお、ラジオ放送局からは音声情報を取得する。
データ解析システム50は、テロップテキスト化部200、背景画像テキスト化部300、ロゴマークテキスト化部400、及びテキスト統合部500を備えるものである。また、データ解析システム50は、顔認識部、音楽認識部、その他の画像認識部、音認識部を備えることができる。
映像情報を構成する画像情報と映像信号を含まれるビデオ信号Vは、ビデオ信号分離部700で画像情報Aと映像信号Bとに分離される。画像情報Aは発話テキスト化部100に入力され、映像信号Bはテロップテキスト化部200、背景画像テキスト化部300、及びロゴマークテキスト化部400に入力される。ラジオ局からの画像情報は、直接発話テキスト化部100に入力される。
発話テキスト化部100は画像情報Aを受けてコンテンツ中における人の発話内容を記述したテキストである発話テキストを出力する。発話テキスト化部100は、発話情報抽出部110、発話内容認識部120、発話内容テキスト化部130を備える。
発話情報抽出部110は、音声情報から発話情報を抽出する。即ち、音声情報中の雑音や背景音を取り除き、人の発話音声の情報を抽出する。この発話情報として効果音や特徴的な音楽を含むことができる。
発話内容認識部120は、発話情報から発話内容を認識する。即ち、発話情報を音響的、文法的に解析して発話内容を言語として認識する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去の音声テキストの生成データから機械学習により生成できる。
発話内容テキスト化部130は発話内容をテキスト化して出力する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去の音声テキストの入力データ及び生成データから機械学習により生成できる。
テロップテキスト化部200は映像信号Bを受けてコンテンツ中におけるテロップ内容を記述したテキストであるテロップテキストを出力する。テロップテキスト化部200は、テロップ情報抽出部210、テロップ内容認識部220、テロップ内容テキスト化部230を備える。
テロップ情報抽出部210は、ビデオ信号Vの映像信号Bからテロップ情報を抽出する。即ち、映像信号B中の背景を取り除き、テロップ画像だけの情報を抽出する。
発話内容認識部120は、テロップ画像情報からテロップ内容を認識する。即ち、テロップ情報を言語的、文法的に解析してテロップ表示内容を言語として認識する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去のテロップテキストの入力データ及び生成データから機械学習により生成できる。
テロップ内容テキスト化部230はテロップ内容をテキスト化して出力する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去のテロップテキストの入力データ及び生成データから機械学習により生成できる。
背景画像テキスト化部300は映像信号Bを受けてコンテンツ中における背景画像内容を記述したテキストである背景画像テキストを出力する。背景画像としては、場面、状況、物品、及び事象のうち少なくとも一つ、例えば、人物、人物の持ち物、人物の表情、風景、建築物の状況、室内の状況、動物、乗り物、その他の物品を挙げることができる。背景画像テキスト化部300は、背景画像情報抽出部310、背景画像内容認識部320、背景画像内容テキスト化部330を備える。
背景画像情報抽出部310は、ビデオ信号Vの映像信号Bから背景画像情報を抽出する。即ち、映像信号B中のテロップや不鮮明な画像を取り除き、認識可能な背景画像だけの情報を抽出する。
背景画像内容認識部320は、背景画像情報から背景画像の内容を認識する。即ち、背景画像情報を解析して表されている人物、人物の持ち物、人物の表情、風景、建築物の状況、室内の状況、動物、乗り物、その他の物品を認識する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去の背景画像テキストの入力データ及び生成データから機械学習により生成できる。
背景画像内容テキスト化部330は背景画像内容をテキスト化して出力する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去の背景画像テキストの入力データ及び生成データから機械学習により生成できる。
ロゴマークテキスト化部400は映像信号Bを受けてコンテンツ中におけるロゴマーク内容を記述したテキストであるロゴマークテキストを出力する。ロゴマークとしては、商品の出所を表示する商標、記号、符号を含むマーク、その他の標章を挙げることができる。ロゴマークテキスト化部400は、ロゴマーク画像情報抽出部410、ロゴマーク内容認識部420、ロゴマーク内容テキスト化部430を備える。
ロゴマーク画像情報抽出部410は、ビデオ信号Vの映像信号Bからロゴマーク画像情報を抽出する。即ち、映像信号B中のテロップや背景画像を取り除き、認識可能なロゴマーク画像だけの情報を抽出する。
ロゴマーク内容認識部420は、ロゴマーク画像情報からロゴマークの内容を認識する。即ち、ロゴマーク画像情報を解析して表されている商品、サービス、店舗、施設等を認識する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去のロゴマークテキストの入力データ及び生成データから機械学習により生成できる。
ロゴマーク内容テキスト化部430はロゴマーク画像内容をテキスト化して出力する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去のロゴマークテキストの入力データ及び生成データから機械学習により生成できる。
なお、発話テキスト化部100には、上記各部の他に、景観を認識してテキスト化する手段や、映像の特徴、例えば画像がCGであること、画像がコマーシャルであること等、映像のカット割りの特徴、明暗の特徴等を認識する手段を設けることができる。
これら認識され抽出された各種のテキスト情報は、解析部18に送出される。解析部18には、設定入力部20、過去データ蓄積部30、データ入力部40からのデータが入力され、解析すべき分野、分析のための機械学習に使用する過去データ、新たに入力されるデータが指定、入力される。
そして、解析部18は解析結果、例えば取得した情報に基づく結果、即ち、時間的に変化する状態の将来の傾向予測、効果的な画像等の編集方法、各種装置の最適な設定状態を出力する。
この結果は、企業の意思決定、商品やサービスの新規開発に有用な情報になる。また、この結果に基づいて、各種装置の制御を行うことができる。例えば、映像編集装置の制御、画像表示や音声出力装置の制御に使用できる。
次に、発話テキスト化部100、テロップテキスト化部200、背景画像テキスト化部300、ロゴマークテキスト化部400の機械学習処理の概要について説明する。処理の例として発話テキスト化部100の処理について説明する。
図4は同要約作成システムの発話テキスト化部を示すものであり、(a)はブロック図、(b)は処理の流れを示す図である。同図(a)に示すように、発話テキスト化部100は、発話情報抽出部110、発話内容認識部120、発話内容テキスト化部130の他、テキスト化学習手段である機械学習部140、内容認識テキスト作成設定部150、比較評価部160を備える。また発話テキスト化部100には、既存データ格納部800が接続されている。
発話テキスト化部100は既存データ格納部800が格納する既存のビデオデータと既存の発話テキストに基づいて機械学習を行い、発話内容認識部120及び発話内容テキスト化部130を最適化する。既存データ格納部800には、過去に人が発話テキストを作成したときに使用した多数のビデオデータを格納した既存ビデオデータ格納部810と、このビデオデータの発話内容から作成した発話テキストを格納した既存発話テキスト格納部820を備える。これらのビデオデータ及び発話テキストは機械学習の教材となる。
また、発話テキスト化部100には、機械学習を行うときと、新規のビデオデータから発話内容テキストを作成するときにデータ出力の切り換えを行う切換部170、180を備える。
内容認識テキスト作成設定部150は、発話情報抽出部110の発話情報における抽出処理の設定と、発話内容認識部120の発話内容認識処理の設定と、発話内容テキスト化部130のテキスト化処理の設定とが格納されている。発話情報抽出部110、発話内容認識部120及び発話内容テキスト化部130は内容認識テキスト作成設定部150の設定した条件、パラメータに従って発話情報抽出と、発話内容の認識、テキスト化とを行う。
比較評価部160は、比較部161と評価部162とを備える。比較部161は、既存ビデオデータ格納部910からの既存ビデオデータを受けて発話内容テキスト化部130が作成した発話テキストと、既存発話テキスト格納部820からの既存発話テキストとを比較する。評価部162は比較部161の比較結果に基づいて評価を行い、よく一致した場合は高い点数を与える。
機械学習部140は、評価部162からの評価を受け、内容認識テキスト作成設定部150の設定状態を変更する。この処理を同一のビデオデータについて繰り返し行い、評価部162の評価値をできるだけ高いものとする。この処理は複数のビデオデータについて繰り返し行うことができる。
このような機械学習を行うことにより、発話内容認識部120及び発話内容テキスト化部130の能力が向上する。所定の機械学習を終了した後、発話テキスト化部100は新規ビデオデータを処理して、最適な発話テキストを出力できる状態となる。
図4(b)に示すように、まず内容認識テキスト作成設定部150に音声認識及びテキスト化の特徴量を設定する(ステップSA1)。この設定は機械学習部140の学習結果により行う。
次いで、発話情報抽出部110が、設定された特徴に基づいて音声を大量の画像情報の中から抽出する(ステップSA2)。
さらに、発話内容認識部120が、設定された特徴に基づいて抽出した音声を解析する(ステップSA3)。
そして、発話内容テキスト化部130が、設定された特徴に基づいて音声をテキスト化して発話テキストを出力する(ステップSA4)。
次にテロップテキスト化部200の機械学習について説明する。図5は同要約作成システムのテロップテキスト化部を示すものであり、(a)はブロック図、(b)は処理の流れを示す図である。同図(a)に示すように、テロップテキスト化部200は、テロップ情報抽出部210、テロップ内容認識部220、テロップ内容テキスト化部230の他、機械学習部240、内容認識テキスト作成設定部250、比較評価部260を備える。またテロップテキスト化部200には、既存データ格納部900が接続されている。
テロップテキスト化部200は既存データ格納部900が格納する既存のビデオデータと既存のテロップテキストに基づいて機械学習を行い、テロップ内容認識部220及びテロップ内容テキスト化部230を最適化する。既存データ格納部900には、過去に人がテロップテキストを作成したときに使用した多数のビデオデータを格納した既存ビデオデータ格納部910と、このビデオデータの発話内容から作成したテロップテキストを格納した既存テロップテキスト格納部920を備える。これらのビデオデータ及び発話テキストは機械学習の教材となる。
また、テロップテキスト化部200には、機械学習を行うときと、新規のビデオデータから発話内容テキストを作成するときにデータ出力の切り換えを行う切換部270、280を備える。
内容認識テキスト作成設定部250は、テロップ情報抽出部210のテロップ情報抽出の設定と、テロップ内容認識部220のテキスト内容認識処理の設定と、テロップ内容テキスト化部230のテキスト化処理の設定とが格納されている。テロップ情報抽出部210、テロップ内容認識部220及びテロップ内容テキスト化部230は内容認識テキスト作成設定部250の設定した条件、パラメータに従ってテロップの抽出、内容認識、及びテキスト化を行う。
比較評価部260は、比較部261と評価部262とを備える。比較部261は、既存ビデオデータ格納部910からの既存ビデオデータを受けてテロップ内容テキスト化部230が作成したテロップテキストと、既存テロップテキスト格納部920からの既存テロップテキストとを比較する。評価部262は比較部261の比較結果に基づいて評価を行い、よく一致した場合は高い点数を与える。
機械学習部240は、評価部262からの評価を受け、内容認識テキスト作成設定部250の設定状態を変更する。この処理を同一のビデオデータについて繰り返し行い、評価部262の評価値をできるだけ高いものとする。この処理は複数のビデオデータについて繰り返し行うことができる。
このような機械学習を行うことにより、テロップ内容認識部220及びテロップ内容テキスト化部230の能力が向上する。所定の機械学習を終了した後、テロップテキスト化部200は新規ビデオデータを処理して、最適なテロップテキストを出力できる状態となる。
図5(b)に示すように、まず内容認識テキスト作成設定部250にテロップ情報抽出、内容抽出、及びテキスト化の特徴量を設定する(ステップSB1)。この設定は機械学習部240の学習結果により行う(ステップSB2)。
次いで、テロップ情報抽出部210が、設定された特徴に基づいてテロップを大量の映像信号の中から抽出する(ステップSB2)。
さらに、テロップ内容認識部220が、設定された特徴に基づいて抽出したテロップを解析する(ステップSB3)。
そして、テロップ内容テキスト化部230が、設定された特徴に基づいてテロップの内容をテキスト化してテロップテキストとして出力する(ステップSB4)。
なお、機械学習の手法は上述したものに限定されず、他の手法によるものであってよい。また、背景画像テキスト化部300、ロゴマークテキスト化部400も同様の手法により機械学習を行う。背景や顔認識についても、同様に機械学習を行う。
なお、この発話テキスト化部100、テロップテキスト化部200、背景画像テキスト化部300、ロゴマークテキスト化部400における学習は、上記手順に限られない。他の手法による機械学習によっても行うことができる。
次に情報解析部10の適用例について説明する。図6は同データ解析システムの各種解析の態様を示す図である。
図6に示す例では、情報解析部10は、上述したように取得した映像情報から、認識技術60として、音声認識61、ロゴマーク認識62、人物認識63、景観認識64、文字/テロップ認識65、画像の特徴認識66、コマーシャル認識67、編集過程画像認識68を行う。なお、必要に応じて認識対象を変更、増加することができる。
音声認識61では、発声内容を認識してテキスト情報を作成する他、背景音がどのような種類の音声かのラベル付け等を行う。
ロゴマーク認識62では、画像中のロゴマークのテキスト抽出、ロゴマークが表示する会社、団体、商品、サービスを認識し識別情報を生成する。
人物認識63では、人物の顔、体型、動作の特性から個人を識別し、識別情報を作成する。
景観認識64では、画像の景観、背景から、撮影場所、状況、背景に現れる物体の識別情報を生成する。例えば撮影個所の地名の特定、災害の特定、登場した車や物品の特定を行う。
テロップ認識65では、映像に表示されるテロップの内容、色彩、大きさ、画面上の位置、表示時間、回数等を認識して識別情報を生成する。
特徴認識66では、画像の特徴を認識する。例えば、映像が自然の風景についてである、ドラマである、映画である等である。また、映像のブレや場面転換の数等から、プロやハイアマチュアの撮影であるか、あるいはアマチュアの撮影であるかを認識する。
コマーシャル認識67では、コマーシャルの商品、商品の表示状態、表示回数、ナレーションの内容を認識する。
編集過程画像認識68では、編集前の元映像と編集後の映像とから、元映像のどの部分を編集に使用したか、切り取った映像をどのように並べているか、テロップ、効果音をどのように選択して挿入したかを識別する。また、複数の元映像から場面を選択、組み合わせて再生した場合、複数の元映像から選択した特定の場面をどの程度の時間再生したか、どのように組み合わせて再生したかを認識する。
さらに、編集過程画像認識68では、視聴者自ら再生装置やテレビ等のリモートコントローラーを使用して、自分が希望する映像部分のみをコピーする作業の状態を認識し、視聴者の要望又は視聴者の一連の映像情報中における、視聴者の要望又は特定の部分的映像の視聴回数データ等を認識する。
そして、これらの認識に基づいて以下の解析処理70を行う。この解析処理は様々な分野、目的で行うことができる。
この解析処理70には以下のものを含むことができる。
例えば、メタデータの自動作成する(71A)。ナレーション、台詞、背景音から取得した情報、画像の人物、テロップ、フリップ、ロゴマーク、背景から取得した情報をテレビ番組のメタデータとして出力し蓄積する。これにより過去番組の検索や統計的処理をしてテレビ等の分析を行う(71B)。
また、速報性のあるニュース等の公開情報の通知内容を収集する(72A)。この公開情報の内容から社会への影響を分析することができる(72B)。
人物/文言/フレーズ/ロゴ等の出現回数を計数する(73A)。これらの回数と経済効果分析、株価、売り上げ等との比較及び分析を行う(73B)。
世の中の傾向・流行等についての情報を収集する(74A)。この情報を分析して新商品の開発を行う(74B)。
映像作品のレビューについての情報を収集する(75A)。これに基づいて新作品の製作分析を行う(75B)。
映像作りについてチェックを行って映像作成の手法についての情報を収集する(76A)。この情報に基づいて新しい映像コンテンツの開発分析を行うことができる(76B)。
商品・サービスのレビューについての情報を収集する(77A)。これらの情報を分析して新製品、サービスのコンセプト開発分析を行うことができる(77B)。
映像作品の制作情報を収集する(78A)。これらの情報から自動映像作品の制作を行うことができる(78B)。
映像編集情報を収集する(79A)。これらの情報から映像自動編集を行う(79B)。
また、上述した処理の他、必要に応じて他の処理、例えば音楽解析、顔認証解析等を行うことができる。
本実施形態に係るデータ解析システム50では、これらの解析処理を行い、例えば、以下の適用装置・サービス80を提供することができる。
<自動映像編集>
本実施形態に係るデータ解析システム50は、自動映像編集装置81を提供することができる。自動映像編集装置81は、入力した映像を自動的に編集する。
映像制作においては、映像の撮影よりも撮影した映像の編集作業が非常に負担となっている。現場においては、現状はもっぱら複数のAD(アシスタントディレクター)が編集作業に追われている状況である。
しかしながら、本実施の形態に係るデータ解析システムによれば、過去から現在までにわたり蓄積された映像の特徴を人工知能により分析して、編集の傾向や手法を取得し、入力された素材となる各映像の特徴を基づいて、素材映像を自動的に編集することが可能になる。
その結果、現状最も負担となっている、撮影した多量の映像情報を自動的に編集することが可能となり、各種編集作業が容易かつ迅速に行うことが可能となる。
特に、今後普及する4K/8K映像に関しては、記録された映像情報は現状において、少なく、ユーザー自ら撮影する必要がある場合もあるが、このような自ら撮影した映像に関してはその後の編集が非常に煩雑となる。例えば、視聴者が見やすい映像をいかに編集するか、また、どのようなテロップを、どのような映像に、いかにインサートするか、音声をどのように使用するか、等の課題を解決する必要があり、専門知識のないユーザーにとっては非常に煩雑である。
このような場合に本実施の形態に係るデータ解析システムによれば、過去の編集情報に基づいて自動的に所望の8K映像を編集することが可能となる。この自動編集は、過去の映像作品の解析、元映像と編集後の映像の解析、実際の再生操作状態の解析に基づいて行うことができる。
また、従来TVにより提供される様々な所定の長さの映像情報の中で、視聴者の希望する映像のみをつなぎ合わせて再編集して視聴したい、という要請がある。現状、このような映像の再編集作業を行う場合には、視聴者自らTVのリモートコントローラーを使用して、自分が希望する映像部分のみをコピーする作業を行っている。しかし、この作業は非常に煩雑であった。
そこで、データ解析システム50は、このような要請に応え、人工知能により、視聴者の要望又は視聴者の一連の映像情報中における、視聴者の要望又は特定の部分的映像の視聴回数データを参照して視聴者の希望する特定の部分的映像を特定し、当該部分的映像が複数ある場合には、編集することにより新たな映像を作成する。
例えば、元映像のどのような種類の映像部分が数多く再生、コピーされたかを認識して、新たな映像の編集時には、編集元映像から当該種類の映像部分を抽出してこの映像部分を多く含む新たな映像を生成することができる。
その結果、4K/8Kの美麗な映像ソースを、容易かつ迅速にユーザー側で増大させることが可能となる。また、家庭においても、撮影した映像を簡単に編集することや、また、動画投稿サイトへの投稿動画の編集を容易かつ短期間に行うことができる。
<選別的自動全録画装置>
本実施形態に係るデータ解析システム50は、選別的自動全録画装置82を提供できる。選別的自動全録画装置82は、聴者の好みにあわせたテレビ番組を選択して録画する。
従来、いわゆる家庭用の「全自動録画装置」は、地上波、衛星放送から選択した全放送局から放送されて提供されるテレビ映像情報をすべて自動的に録画している。この録画情報は、膨大な情報量を持つ。しかし、記憶媒体の記録容量もあり記録媒体への記録、保存は所定の期間、例えば、数か月等に限られるという制限があった。また、視聴者にとって自己が視聴する番組を選択する手間も煩雑であった。
しかしながら、本実施の形態に係るデータ解析システムにあっては、過去蓄積された映像情報においてユーザーがその後使用(視聴)した映像を認識選別しておき、その選別情報に基づいて、ユーザー側の志向、嗜好、趣味、必要性を人工知能により、例えば、深層学習手法を用いることにより理解する。これにより、視聴者の志向、嗜好、趣味、必要性に基づいて、自動的に録画する映像情報を選別、選択して録画することが可能となる。
よって、従来は放送されてくる映像情報全体を記録していた場合に比して、記録録画する映像情報量を大幅に低減すること可能となり、結果的に、記録媒体へより長期間にわたって全自動録画を行うことが可能となり、視聴者も視聴選別の手間が省ける。
<自動(明暗・濃淡)調整映像投射・表示装置>
本実施形態に係るデータ解析システム50は、映像投射・表示装置83を提供することができる。映像投射・表示装置83は、画像投影表示時において映像コンテンツにあわせて自動的に最適な設定(明暗・濃淡設定)を行う。
従来、映像の明暗・濃淡の調整は手動あるいは画像の種類により自動的に行われている。しかしながら、この調整は煩雑である他、必ずしも適正なものではない。
本実施の形態に係るデータ解析システムによれば、個別の映像に基づき人工知能の判断によって、様々な映像を調整して投射、表示させることが可能となる。例えば、個別の映像の対象物(例えば、花、美術品、絵画等)により細密な表示が必要な場合には、映像の特徴を人工知能が認識することにより、自動的にズームアップして表示させ、また、風景の映像である場合には、人工知能の判断により、引いた映像を表示させる、等の映像表示の自動調性を、人手によることなく行うことが可能となる。
<再生時間自動設定装置>
本実施形態に係るデータ解析システム50は、再生時間自動設定装置84を提供することができる。再生時間自動設定装置84は、複数の映像を表示するに際し過去の再生を学習して各映像の最適な再生時間を設定する。
従来複数の映像コンテンツを順次再生して、視聴する場合、特にプレゼンテーション等で複数の画像を再生する場合がある。このような場合、各映像コンテンツの再生時間は操作者が自己の判断で決定していた。しかし、この方法では必ずしも最適な再生時間の設定ができない。
本実施の形態に係るデータ解析システムによれば、蓄積された過去の映像においてユーザーが再生した使用した映像情報を基に、人工知能を利用することによりユーザーの志向、嗜好、趣味、必要性が把握できることから、ユーザーの志向、嗜好、趣味、必要性に応じて再生に必要な時間を把握し、自動的に再生時間を設定することもでき、ユーザーの映像情報の再生に要する煩雑さを解消することができる。
<自動音量調整装置>
本実施形態に係るデータ解析システム50は、自動音量調整装置85を提供することができる。自動音量調整装置85は、映像コンテンツの種類、場面に最適な音響機器の各スピーカーへの音量、音質等を自動的に調整する。
複数の映像コンテンツを再生する場合、各コンテンツの再生における音量や音質を調整する必要がある。また、同一のコンテンツにおいても、場面により音量、音質を変更することにより最良の効果が得られる場合がある。このような場合、各映像コンテンツの再生音量、音質は操作者が自己の判断で決定していた。しかし、この方法では必ずしも最適な再生音量音質の設定ができない。
本実施の形態に係るデータ解析システムによれば、個別の映像に基づき人工知能の判断によって、様々な映像に対応する音声、音量、音質等を調整、制御ことが可能となる。例えば、個別の映像の対象物(例えば、花、美術品、絵画等)により細密な表示が必要な場合には、映像の特徴を人工知能が認識することにより、自動的に音量を大きく、又は音量を小さく、音質を変化させる、又は効果音を挿入する等の制御を人工知能の判断により人手を介することなく行うことが可能となる。その結果、ユーザーによる映像鑑賞の際の、音声聴取に関する利便性を向上させることが可能となる。
<過去データ基づく音量自動調整装置>
本実施形態に係るデータ解析システム50は、過去データ基づく音量自動調整装置86を提供することができる。過去データ基づく音量自動調整装置86は過去の再生音量の記録に基づいて再生音量を自動的に設定する。
複数の映像コンテンツを再生する場合、各コンテンツの再生における音量や音質を調整する必要がある。また、同一のコンテンツにおいても、場面により音量、音質を変更することにより最良の効果が得られる場合がある。このような場合、各映像コンテンツの再生音量、音質は操作者が自己の判断で決定していた。しかし、この方法では必ずしも最適な再生音量音質の設定ができない。
本実施の形態に係るデータ解析システムによれば、過去に再生した映像に基づき人工知能の判断によって、様々な映像に対応する音声、音量、音質等を調整、制御ことが可能となる。
<対策・方向転換・見通し分析装置>
本実施形態に係るデータ解析システム50は、対策・方向転換・見通し分析装置87を提供することができる。対策・方向転換・見通し分析装置87は、取得し蓄積した過去の情報から将来の対策・方向転換・見通しを分析することができる。
従来、対策・方向転換・見通しは過去の情報を分析者が分析をすることにより得ていた。しかし、的確な分析や対策・方向転換・見通しの立案には豊富な知識と経験とを有する専門家でなければできない。
本実施の形態に係るデータ解析システムにあっては、現在放送されている映像情報、又は過去蓄積された映像情報を音声、ロゴマーク、人物、景観、文字テロップ、特徴、CM等の観点から認識、分析することが可能であることから、そのような分析に基づき、人工知能の深層学習手法を用いて様々な経済分野、政治分野、教育分野、産業分野等における課題、問題に関する解決の方策、対策、解決の方向性等に関するソリューションを提供することが可能となる。
<映像作品制作装置>
本実施形態に係るデータ解析システム50は、自動映像作品制作装置88を提供できる。自動映像作品制作装置88は、過去の映像作品を踏まえて新たな映像作品を制作することができる。
従来、新規映像作品の制作は、企画者、制作者、原作者等により過去現在の流行や予測に基づいてコンセプトや内容が策定されている。
しかし、このような手法では、作品の内容は個人的資質に異存する他、決定に時間がかかる場合がある。
本実施の形態に係るデータ解析システム50にあっては、現在放送されている映像情報、又は過去蓄積された映像情報を音声、ロゴマーク、人物、景観、文字テロップ、特徴、CM等の観点から認識、分析することが可能であることから、そのような分析に基づき、新たな映像作品を制作する際に、どのような種類の映像作品がヒットするか、どのような映像がトレンドに合致するか、配役の選択、映像手法の選択等に関する分析、回答を人工知能の深層学習を用いて行い、新たな映像作品の制作に利用することができる。
その結果、ヒットする可能性の高い映像作品、文化的レベルの高い映像作品を自動的に提供することが可能となる。
<新市場へのアプローチサービス>
本実施形態に係るデータ解析システム50は、新市場へのアプローチサービス89を提供できる。新市場へのアプローチサービス89により、開拓すべき新たな市場についての予測を取得することができる。
従来、新市場へのアプローチについては過去の商品や市場についての情報を専門の分析者が分析をすることにより得ていた。しかし、的確な分析やアプローチについての結果を得るには、豊富な知識と経験とを有する専門家に依頼する必要があり、費用、時間とも負担が大きい。
本実施の形態に係るデータ解析システムにあっては、現在放送されている映像情報、又は過去蓄積された映像情報を音声、ロゴマーク、人物、景観、文字テロップ、特徴、CM等の観点から認識、分析することが可能であることから、そのような分析に基づき、人工知能の深層学習手法を用いて商品や市場、購買者の動向、流行等の他、様々な経済分野、政治分野、教育分野、産業分野等についての情報に基づいて新商品のアプローチに関するソリューションを提供することが可能となる。
<新製品・新サービスの創造サービス>
本実施形態に係るデータ解析システム50は、新製品・新サービスの創造サービス90を提供できる。新製品・新サービスの創造サービス90により、新製品・新サービスを創造することができる。
従来、新製品・新サービスの創造については過去の商品や市場についての情報を専門の分析者が分析をすることにより得ていた。しかし、的確な分析やアプローチについての結果を得るには、豊富な知識と経験とを有する専門家に依頼する必要があり、費用、時間とも負担が大きい。
本実施の形態に係る新製品・新サービスの創造にあたっては、現在放送されている映像情報、又は過去蓄積された映像情報を音声、ロゴマーク、人物、景観、文字テロップ、特徴、CM等の観点から認識、分析することが可能であることから、そのような分析に基づき、人工知能の深層学習手法を用いて商品や市場、購買者の動向、流行等の他、様々な経済分野、政治分野、教育分野、産業分野等についての情報に基づいて新商品・新サービスの創造に関するソリューションを提供することが可能となる。
<新社会への提言サービス>
本実施形態に係るデータ解析システム50は、新社会への提言サービス91を提供することができる。新社会への提言サービス91により、将来の社会のあり方、方策についての提言を得ることができる。
従来、新社会への提言は、過去の社会状況や動向、将来の目標等のついての情報を専門のシンクタンクや分析者が分析をすることにより得ていた。しかし、的確な分析やアプローチについての結果を得るには、豊富な知識と経験とを有するシンクタンクや専門家に依頼する必要があり、費用、時間とも負担が大きい。
本実施の形態に係るデータ解析システムにあっては、現在放送されている映像情報、又は過去蓄積された映像情報を音声、ロゴマーク、人物、景観、文字テロップ、特徴、CM等の観点から認識、分析することが可能であることから、そのような分析に基づき、人工知能の深層学習手法を用いて過去の国内外の様々な社会分野、経済分野、政治分野、教育分野、産業分野等についての情報に基づいて新社会の提言に関するソリューションを提供することが可能となる。
<新経済指標サービス>
本実施形態に係るデータ解析システム50は、新経済指標サービス92を提供できる。新経済指標サービス92により、正確な経済指標を得ることができる。
従来、新経済指標については過去の経済状態及び将来の予測についての情報を専門の分析者やシンクタンクが分析をすることにより得ていた。しかし、的確な分析やアプローチについての結果を得るには、豊富な知識と経験とを有する専門家やシンクタンクが行う必要があり、費用、時間とも負担が大きい。
本実施の形態に係るデータ解析システムにあっては、現在放送されている映像情報、又は過去蓄積された映像情報を音声、ロゴマーク、人物、景観、文字テロップ、特徴、CM等の観点から認識、分析することが可能であることから、そのような分析に基づき、人工知能の深層学習手法を用いて商品や市場、購買者の動向、流行等の他、様々な経済分野、政治分野、教育分野、産業分野等についての情報に基づいて新経済指標を得るソリューションを提供することが可能となる。
<社会分析サービス>
本実施形態に係るデータ解析システム50は、社会分析サービス93を提供することができる。社会分析サービス93により、現在の社会の状態を把握でき、将来の経済、政治、教育等の方策を得ることができる。
従来、社会分析については過去の社会情勢についての情報を専門の分析者が分析をすることにより得ていた。しかし、的確な分析やアプローチについての結果を得るには、豊富な知識と経験とを有する専門家に依頼する必要があり、費用、時間とも負担が大きい。
本実施の形態に係るデータ解析システムにあっては、現在放送されている映像情報、又は過去蓄積された映像情報を音声、ロゴマーク、人物、景観、文字テロップ、特徴、CM等の観点から社会情勢を認識、分析することが可能であることから、そのような分析に基づき、人工知能の深層学習手法を用いて経済分野、政治分野、教育分野、産業分野等についての情報に基づいて社会分析を行いその結果を提供することが可能となる。
なお、データ解析システム50が適用できる製品・サービスは上記の例に限らない。蓄積された過去の映像情報や音声情報から認識された情報に基づいて制作処理や予測処理ができるあらゆる分野のサービスや装置に適用可能である。