JP2020123228A

JP2020123228A - データ解析システム

Info

Publication number: JP2020123228A
Application number: JP2019015779A
Authority: JP
Inventors: 孝利石井; Takatoshi Ishii
Original assignee: JCC KK
Current assignee: JCC KK
Priority date: 2019-01-31
Filing date: 2019-01-31
Publication date: 2020-08-13

Abstract

【課題】映像情報を解析して、解析結果として様々な分野の傾向分析、将来の予想、新たな創作、自動的処理に必要な解析結果を出力する。【解決手段】取得した映像情報及び音声情報のうち少なくとも一方である対象情報を解析して、指定した分野における解析結果を出力するシステムであって、人工知能が対象情報から解析対象情報を抽出する手段と、抽出した解析対象情報を蓄積する手段と、人工知能が前記解析対象情報を解析して当該指定した分野における解析結果を出力する手段と、を備える。【選択図】図１

Description

本発明は、映像情報から取得した様々な情報を解析して、解析結果を出力するデータ解析システムに関する。

人工知能（ＡＩ）を様々な分野に適用する技術が提案されている。

例えば、特許文献１には、予め用意されたコンテンツ素材とテンプレートを利用して映像コンテンツの編集を可能とする映像コンテンツ自動生成システムが記載されている。

また、特許文献２には、施設レイアウト情報から算出した進行予測方程式を用いて新たな施設レイアウトの動線を予測するものが記載されている。

さらに、特許文献３には、健康管理対象者の食事や健康状態から適切なアドバイスメッセージを生成して、健康管理のカリキュラム実行のモチベーションを向上させることができる健康管理サーバが提案されている。

特開2017-63339号公報特開2014-182713号公報特開2017-091586号公報

従来の技術は個別の技術分野において、取得した情報から予測を行い有用な結果を提示するものであった。

今日、テレビ放送やインターネットで配信されている映像には様々な情報が含まれている。テレビ放送は、多数の放送局からなされ、放送される映像にはニュース、ワイドショー、ドラマ、映画、ＣＭ、スポーツ、通信販売等が含まれ、世界中の情報が提示されている。また、インターネットで配信される映像には配信者の意図に沿った情報が提示されている。映像としては、その他、プライベートな映像も多数ある。

発明者は、テレビ放送の全放送映像を録画して、各番組のメタデータを生成し、生成したメタデータを利用して様々なサービスを行っている。このような背景から、発明者は、テレビ放送やインターネット配信映像等から映像等には世界中のほとんどすべての分野についての情報がリアルタイムに送出され、さらに音声で情報を伝達するラジオからの情報も同様にリアルタイムで様々な情報が送出されていることを知得した。

そして、発明者は、このような多量の情報を取得し、様々な分野において、人工知能、機械学習、ＡＩ技術により必要なデータを抽出して解析し、所望の分野における、有用な解析結果を取得することができることを思い至った。

そこで、本発明の課題は、テレビ放送やインターネット配信映像、ラジオ音声等の情報を解析して、解析結果として様々な分野の傾向分析、将来の予想、新たな創作、自動的処理に必要な解析結果を出力することができるデータ解析システムを提供することを目的とする。

前記課題を解決する請求項１に記載の発明は取得した映像情報及び音声情報のうち少なくとも一方である対象情報を解析して、指定した分野における解析結果を出力するシステムであって、人工知能が対象情報から解析対象情報を抽出する手段と、人工知能が前記解析対象情報を解析して当該指定した分野における解析結果を出力する手段と、を備えることを特徴とするデータ解析システムである。

また、請求項２に記載の発明は、請求項１に記載の発明において、前記人工知能が、強化学習、ディープラーニング、深層強化学習、機械学習、パターンマッチング、及びルールベースＡＩの少なくとも一つの手法を使用することを特徴とする。

また、請求項３に記載の発明は、請求項１に記載の発明において、前記解析対象情報は、テキスト情報、画像情報、音声情報を含むデジタル情報であることを特徴とする。

また、請求項４に記載の発明は、請求項１に記載の発明において、前記対象情報は、類似とされる画像群とそのラベルを含むデジタル情報であることを特徴とする。

また、請求項５に記載の発明は、請求項１に記載の発明において、前記映像情報から音声情報と画像情報とを分離する手段と、前記音声情報から解析対象とする音声情報を抽出する手段と、前記抽出した音声情報を解析して発話内容及び属性の少なくとも一方の意味を認識する手段と、前記画像情報から人物、ロゴマーク、文字、テロップ、景観をそれぞれ抽出し、前記抽出した画像情報の意味を認識する手段と、を備えることを特徴とする。

また、請求項６に記載の発明は、請求項１に記載の発明において、前記音声情報から人の声の画像情報を抽出する手段と、前記画像情報から発声内容を認識し、発声情報を出力する手段と、前記認識した発声情報をテキスト化して音声テキストを出力する手段と、前記画像情報からテロップを示すテロップ信号を抽出する手段と、前記テロップ信号からテロップ内容を認識し、テロップ情報を出力する手段と、前記テロップ情報をテキスト化してテロップテキストを出力する手段と、前記画像情報から背景画像情報を抽出する手段と、前記背景画像情報から背景画像の内容を認識し、背景情報を出力する手段と、前記背景情報をテキスト化して背景テキストを出力する手段と、前記画像情報からロゴ画像情報を抽出する手段と、前記背景情報から表示されたロゴ画像内容を認識し、ロゴ情報を出力する手段と、前記ロゴ情報をテキスト化してロゴテキストを出力する手段と、を備えることを特徴とする。

また、請求項７に記載の発明は、請求項６に記載のデータ解析システムにおいて、テキスト化に際しては、蓄積された過去のテキスト化処理における入力データと出力データから最適なテキスト作成設定を学習するテキスト化学習手段を備えることを特徴とする。

また、請求項８に記載の発明は、請求項１に記載の発明において、前記解析結果に基づいて、映像情報のメタデータの生成、社会状況の傾向分析の生成、経済状態の傾向分析の生成、流行傾向の分析情報の生成、映像の編集、映像コンテンツの生成、商品・サービスの開発情報の生成の少なくとも一つを行う手段を備えることを特徴とする。

さらに、請求項９に記載の発明は、請求項１に記載のデータ解析システムにおいて、前記人工知能により、編集前の元映像と編集後の映像、又は再生された映像を解析し、この解析結果に基づいて、新たに入力された映像を編集することを特徴とする。

そして、請求項１０に記載の発明は、請求項１記載のデータ解析システムにおいて、前記人工知能により、視聴者の要望又は視聴者の視聴回数データに基づき、一連の映像情報中の部分的映像情報を、前記部分的映像情報の始点と終点を特定して抽出することにより前記部分的映像を抽出して編集して新たな映像を作成することを特徴とする。

本発明によれば、テレビ放送やインターネット配信映像、ラジオ等の情報を解析して、様々な分野の傾向分析、将来の予想、新たな創作、自動的処理に必要な解析結果を出力することができる。

即ち、請求項１に記載のデータ解析システムによれば、人工知能が対象情報から解析対象情報を抽出し、人工知能が前記解析対象情報を解析して当該指定した分野における解析結果を出力する。

このため、テレビ放送やインターネット配信映像、ラジオ放送等の広範は映像情報、音声情報を解析して、様々な分野の傾向分析、将来の予想、新たな創作、自動的処理に必要な解析結果を出力することができる。

また、請求項２に記載のデータ解析システムによれば、人工知能が、強化学習、ディープラーニング、深層強化学習、機械学習、パターンマッチング、及びルールベースＡＩの少なくとも一つの手法を使用する。このため、極めて多量の情報を迅速かつ人手を介することなく処理でき、さらに処理を行う手法を進歩させることができる。

また、請求項３に記載のデータ解析システムによれば、前記解析対象情報は、テキスト情報、画像情報、音声情報を含むデジタル情報である。このため、コンピュータを用いて処理を迅速かつ正確に行うことができる。

請求項４に記載のデータ解析システムによれば、前記解析対象情報は、類似とされる画像群とそのラベルを含むデジタル情報である。このため、処理対象に画像を含むことができ、画像の処理を、コンピュータの処理で迅速かつ正確に行うことができる。

また、請求項５に記載のデータ解析システムによれば、前記映像情報から音声情報と画像情報とを分離し、前記音声情報から解析対象とする音声情報を抽出し、前記抽出した音声情報を解析して発話内容及び属性の少なくとも一方の意味を認識し、前記画像情報から人物、ロゴマーク、文字、テロップ、景観をそれぞれ抽出し、前記抽出した画像情報の意味を認識する。このため、映像情報から解析に使用できる多くの情報を取得でき、解析を正確なものとできる。

また、請求項６に記載のデータ解析システムによれば、前記音声情報から人の声の画像情報を抽出し、前記画像情報から発声内容を認識して発声情報を出力し、前記認識した発声情報をテキスト化して音声テキストを出力し、前記画像情報からテロップを示すテロップ信号を抽出し、前記テロップ信号からテロップ内容を認識してテロップ情報を出力し、前記テロップ情報をテキスト化してテロップテキストを出力し、前記画像情報から背景画像情報を抽出し、前記背景画像情報から背景画像の内容を認識して背景情報を出力して前記背景情報をテキスト化して背景テキストとし、前記画像情報からロゴ画像情報を抽出し、前記背景情報から表示されたロゴ画像内容を認識し、ロゴ情報を出力して前記ロゴ情報をテキスト化してロゴテキストを出力する。

このため、映像情報の画像情報から、人物、ロゴマーク、文字、テロップ、景観を抽出し、認識してテキスト化でき、映像情報に含まれる多くの有用な情報をテキスト化することができる。よって、映像情報から解析に使用できる多くの情報を取得でき、解析を正確なものとできる。

また、請求項７に記載のデータ解析システムによれば、テキスト化に際しては、蓄積された過去のテキスト化処理における入力データと出力データから最適なテキスト作成設定を学習するテキスト化学習手段により学習を行う。

このため、過去のデータに基づいて最適なテキスト化を行うことができ、このテキスト化の処理は、テキスト化を繰り返すことにより、適正化される。よって、最適なテキスト化が可能であり、解析を正確なものとできる。

また、請求項８に記載のデータ解析システムによれば、前記解析結果に基づいて、映像情報のメタデータの生成、社会状況の傾向分析の生成、経済状態の傾向分析の生成、流行傾向の分析情報の生成、映像の編集、映像コンテンツの生成、商品・サービスの開発情報の生成少なくとも一つを行うことができる。

このため、様々な分野での適用が可能であり、分野において有用に処理を行うことができる。

さらに、請求項９に記載のデータ解析システムによれば、人工知能により、編集前の元映像と編集後の映像、又は再生された映像を人工知能が解析し、この解析結果に基づいて新たに入力された映像を編集する。

このため、煩雑で長時間を費やす必要がある映像の編集を、元映像の編集状態にならって簡単かつ自動的に行うことができる。

そして、請求項１０に記載のデータ解析システムによれば、前記人工知能により、視聴者の要望又は視聴者の視聴回数データに基づき、一連の映像情報中の部分的映像情報を、前記部分的映像情報の始点と終点を特定して抽出することにより前記部分的映像を抽出して編集して新たな映像を作成する。

このため、煩雑で長時間を費やす必要がある映像の編集を、視聴者の希望するものとして簡単かつ自動的に行うことができる。

本発明の実施形態に係るデータ解析システムの概略構成を示すブロック図である。同データ解析システムの処理を示すフローチャートである。同データ解析システムの情報解析部の構成及び処理の手順を示す図ある。同データ解析システムにおける発話テキスト化部の構成及び処理の流れを示す図である。同データ解析システムにおけるテロップテキスト化部の構成及び処理の流れを示す図である。同データ解析システムの各種解析の態様を示す図である。

本発明を実施するための形態に係るデータ解析システムを図面に基づいて説明する。

図１は本発明の実施形態に係るデータ解析システムの概略構成を示すブロック図、図２は同データ解析システムの処理を示すフローチャートである。

本実施形態に係るデータ解析システム５０は、図１に示すように、情報解析部１０、設定入力部２０、過去データ蓄積部３０、及びデータ入力部４０を備える。

情報解析部１０は、映像情報取得部１１、画像音声分離部１２、画像抽出部１３、画像認識部１４、音声抽出部１５、音声認識部１６、蓄積部１７、及び解析部１８を備える。

映像情報取得部１１は、テレビチューナ機能、ラジオチューナ機能、ウエブ配信画像取得機能を含む。映像情報取得部１１は、放送されたテレビ番組等から動画情報と、音声情報とを取得する。

また、映像情報取得部１１は、編集前の映像、編集後の映像を録画機、編集装置等から取得する。さらに、再生装置から操作者が操作しつつ再生する映像の再生映像を取得する。

画像音声分離部１２は、映像情報取得部１１で取得した映像情報を画像情報と音声情報とに分離する。映像情報には動画情報と静止画情報とを含む。

画像抽出部１３は、画像情報から、背景、人物、テロップの文字、ロゴマーク、ロゴマークの文字、フリップの文字等を抽出する。抽出は画像における画素濃度、色彩の変化点であるエッジを検出することにより行う。

画像認識部１４は、抽出した背景、人物、テロップの文字、ロゴマーク、ロゴマークの文字、フリップを解析対象情報として公知の手法で認識してデジタル情報、例えばテキスト情報とする。また、類似画像をグループ化してまとめ、テキストによるタグを付けする。さらに、対象物例えば人物の動きについての情報、背景や場面の変換のタイミング等、映像の編集情報を取得する。

音声抽出部１５は、音声情報からナレーション、台詞、その他の人の声、音楽、背景音、動物の声、車両等の走行音を抽出する。

音声認識部１６は、ナレーション、台詞、その他の人の声を解析対象情報として解析してテキストとして出力する他、背景音等の属性を解析してデジタル情報、例えばテキスト情報として出力する。また、音楽の識別情報を付与することができる。

蓄積部１７は画像認識部１４及び音声抽出部１５の出力結果を蓄積する。蓄積部１７は、情報解析部１０が抽出し認識した結果を長期間にわたり保存する。これにより、蓄積部１７には、映像情報取得部１１で得られた内外の映像情報から認識した膨大な情報が蓄積されていることになる。

解析部１８は、蓄積部１７に蓄積されたテキストデータ、又は画像認識部１４及び音声認識部１６からのテキストを解析する。解析は情報解析部１０の使用目的により適切な手法によって行うことができる。例えば、取得したテキストから将来の動向を予測することができる。また、取得したテキストから装置等の制御を適正に行うための制御情報を生成する。

解析部１８における解析には人工知能を使用する。予め準備した所定範囲の解析情報と、この所定範囲における過去の実績を学習することで解析精度が高くなる。人工知能としては、様々な手法のものを適用できる。人工知能は、強化学習、ディープラーニング、及び深層強化学習、機械学習、パターンマッチング、ルールベースＡＩやその他の学習手法から選択した少なくとも一つの手法を使用することができる。

このとき、解析対象とする情報の時間的範囲、地理的範囲、分野的な範囲を指定することができる。これにより、効率的な解析を行うことができる。

これらの処理により、解析部１８は解析結果を出力する。即ち、解析部１８は、例えば、所望される今後のニーズ、新しい作品、等を出力する。

設定入力部２０は、映像情報取得部１１、画像音声分離部１２、画像抽出部１３、画像認識部１４、音声抽出部１５、音声認識部１６の処理のための各種設定を各部に入力する。例えば、取得した時期、解析する地域、分野、対象分野を指定する。また、解析の対象となるデータを入力することができる。例えば、データ解析システム５０が映像の編集を行うときには、編集対象となる映像データを入力する。

過去データ蓄積部３０は、機械学習のための過去データが蓄積されている。解析対象とされた生のデータと、この解析対象の実際の状態、予測された状態が格納されている。

データ入力部４０には、解析の対象となるデータを入力する。例えば、データ解析システム５０が映像の編集を行うときには、編集対象となる映像データを入力する。また、予め取得されている解析結果を入力することができる。

データ解析システム５０は、処理装置としてのＣＰＵ(Central Processing Unit)、記憶装置としてＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、ＨＤＤ（Hard Disc Drive）、ＳＳＤ（Solid State Drive）等を備えたコンピュータシステムでアプリケーションションソフトウエアを実行して実現できる。また、各部は同一箇所に配置される必要はなく、一部をクラウド上に配置してネットワークで接続して実現することができる。また、これらの処理は、多量のデータを対象とするためＧＰＵ（Graphics Processing Unit）を使用して処理することが望ましい。

次に情報解析部１０の処理について説明する。図２に示すように、情報解析部１０は、映像情報取得部１１により、テレビ放送、ネット配信、その他の映像情報を取得する（ステップＳ１）。

そして、情報解析部１０は、画像音声分離部１２により、取得した映像情報の画像情報と、音声情報とを分離する（ステップＳ２）。

さらに、情報解析部１０は、画像抽出部１３により画像情報から認識対象とする画像、即ち画像情報から人物、ロゴマーク、テキスト/テロップ、景観を抽出する（ステップＳ３）。そして、画像認識部１４により抽出した画像情報から人物、ロゴマーク、テキスト/テロップ、景観を抽出する認識してテキスト化する他、グループ化された画像データ及びタグ、対象物例えば人物の動きについての情報、背景や場面変換のタイミング等、映像の編集情報を取得して蓄積部１７に蓄積する（ステップＳ４）。

また、情報解析部１０は、音声抽出部１５により音声情報から認識対象とする音声、即ち人の声の他、背景音、音楽その他の音を抽出する（ステップＳ５）。そして、音声認識部１６により抽出した人の声の発話内容、背景音、その他の音や音楽の属性や特定情報を認識して蓄積部１７に蓄積する（ステップＳ６）。

さらに、情報解析部１０は、解析部１８により、解析対象とする分野の認識情報を取得し（ステップＳ７）、必要によって設定入力部２０、過去データ蓄積部３０、データ入力部４０から処理対象の他の情報、指定すべきパラメータ等を入力する（ステップＳ８）。

そして、解析部１８は、各分野結果から分析結果、例えば今後のトレンド、今後の動向、今後のニーズ、新しい作品、等を生成して（ステップＳ９）出力する。
これにより、データ解析システム５０の一連の処理は終了する。

次に情報解析部１０の具体的な構成の例について説明する。図３は同データ解析システムの情報解析部の構成及び処理の手順を示す図である。

図３は同録画再生システムにおけるメタデータ作成部の要約作成システムを示すブロック図である。図３に示すように、情報解析部１０を構成するデータ解析システム５０は、ビデオ信号分離部７００、発話テキスト化部１００、テロップテキスト化部２００、背景画像テキスト化部３００、ロゴマークテキスト化部４００、テキスト統合手段であるテキスト統合部５００、及び要約作成手段である要約作成部６００を備える。

本実施形態ではデータ解析システム５０は映像情報をテレビ放送局Ｔ、ラジオ放送局からの放送番組やインターネットＩで配信される動画から取得する。また、独自に配置したビデオ再生装置Ｓや映像編集装置から映像情報を取得することができる。なお、ラジオ放送局からは音声情報を取得する。

データ解析システム５０は、テロップテキスト化部２００、背景画像テキスト化部３００、ロゴマークテキスト化部４００、及びテキスト統合部５００を備えるものである。また、データ解析システム５０は、顔認識部、音楽認識部、その他の画像認識部、音認識部を備えることができる。

映像情報を構成する画像情報と映像信号を含まれるビデオ信号Ｖは、ビデオ信号分離部７００で画像情報Ａと映像信号Ｂとに分離される。画像情報Ａは発話テキスト化部１００に入力され、映像信号Ｂはテロップテキスト化部２００、背景画像テキスト化部３００、及びロゴマークテキスト化部４００に入力される。ラジオ局からの画像情報は、直接発話テキスト化部１００に入力される。

発話テキスト化部１００は画像情報Ａを受けてコンテンツ中における人の発話内容を記述したテキストである発話テキストを出力する。発話テキスト化部１００は、発話情報抽出部１１０、発話内容認識部１２０、発話内容テキスト化部１３０を備える。

発話情報抽出部１１０は、音声情報から発話情報を抽出する。即ち、音声情報中の雑音や背景音を取り除き、人の発話音声の情報を抽出する。この発話情報として効果音や特徴的な音楽を含むことができる。

発話内容認識部１２０は、発話情報から発話内容を認識する。即ち、発話情報を音響的、文法的に解析して発話内容を言語として認識する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去の音声テキストの生成データから機械学習により生成できる。

発話内容テキスト化部１３０は発話内容をテキスト化して出力する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去の音声テキストの入力データ及び生成データから機械学習により生成できる。

テロップテキスト化部２００は映像信号Ｂを受けてコンテンツ中におけるテロップ内容を記述したテキストであるテロップテキストを出力する。テロップテキスト化部２００は、テロップ情報抽出部２１０、テロップ内容認識部２２０、テロップ内容テキスト化部２３０を備える。

テロップ情報抽出部２１０は、ビデオ信号Ｖの映像信号Ｂからテロップ情報を抽出する。即ち、映像信号Ｂ中の背景を取り除き、テロップ画像だけの情報を抽出する。

発話内容認識部１２０は、テロップ画像情報からテロップ内容を認識する。即ち、テロップ情報を言語的、文法的に解析してテロップ表示内容を言語として認識する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去のテロップテキストの入力データ及び生成データから機械学習により生成できる。

テロップ内容テキスト化部２３０はテロップ内容をテキスト化して出力する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去のテロップテキストの入力データ及び生成データから機械学習により生成できる。

背景画像テキスト化部３００は映像信号Ｂを受けてコンテンツ中における背景画像内容を記述したテキストである背景画像テキストを出力する。背景画像としては、場面、状況、物品、及び事象のうち少なくとも一つ、例えば、人物、人物の持ち物、人物の表情、風景、建築物の状況、室内の状況、動物、乗り物、その他の物品を挙げることができる。背景画像テキスト化部３００は、背景画像情報抽出部３１０、背景画像内容認識部３２０、背景画像内容テキスト化部３３０を備える。

背景画像情報抽出部３１０は、ビデオ信号Ｖの映像信号Ｂから背景画像情報を抽出する。即ち、映像信号Ｂ中のテロップや不鮮明な画像を取り除き、認識可能な背景画像だけの情報を抽出する。

背景画像内容認識部３２０は、背景画像情報から背景画像の内容を認識する。即ち、背景画像情報を解析して表されている人物、人物の持ち物、人物の表情、風景、建築物の状況、室内の状況、動物、乗り物、その他の物品を認識する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去の背景画像テキストの入力データ及び生成データから機械学習により生成できる。

背景画像内容テキスト化部３３０は背景画像内容をテキスト化して出力する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去の背景画像テキストの入力データ及び生成データから機械学習により生成できる。

ロゴマークテキスト化部４００は映像信号Ｂを受けてコンテンツ中におけるロゴマーク内容を記述したテキストであるロゴマークテキストを出力する。ロゴマークとしては、商品の出所を表示する商標、記号、符号を含むマーク、その他の標章を挙げることができる。ロゴマークテキスト化部４００は、ロゴマーク画像情報抽出部４１０、ロゴマーク内容認識部４２０、ロゴマーク内容テキスト化部４３０を備える。

ロゴマーク画像情報抽出部４１０は、ビデオ信号Ｖの映像信号Ｂからロゴマーク画像情報を抽出する。即ち、映像信号Ｂ中のテロップや背景画像を取り除き、認識可能なロゴマーク画像だけの情報を抽出する。

ロゴマーク内容認識部４２０は、ロゴマーク画像情報からロゴマークの内容を認識する。即ち、ロゴマーク画像情報を解析して表されている商品、サービス、店舗、施設等を認識する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去のロゴマークテキストの入力データ及び生成データから機械学習により生成できる。

ロゴマーク内容テキスト化部４３０はロゴマーク画像内容をテキスト化して出力する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去のロゴマークテキストの入力データ及び生成データから機械学習により生成できる。

なお、発話テキスト化部１００には、上記各部の他に、景観を認識してテキスト化する手段や、映像の特徴、例えば画像がＣＧであること、画像がコマーシャルであること等、映像のカット割りの特徴、明暗の特徴等を認識する手段を設けることができる。

これら認識され抽出された各種のテキスト情報は、解析部１８に送出される。解析部１８には、設定入力部２０、過去データ蓄積部３０、データ入力部４０からのデータが入力され、解析すべき分野、分析のための機械学習に使用する過去データ、新たに入力されるデータが指定、入力される。

そして、解析部１８は解析結果、例えば取得した情報に基づく結果、即ち、時間的に変化する状態の将来の傾向予測、効果的な画像等の編集方法、各種装置の最適な設定状態を出力する。

この結果は、企業の意思決定、商品やサービスの新規開発に有用な情報になる。また、この結果に基づいて、各種装置の制御を行うことができる。例えば、映像編集装置の制御、画像表示や音声出力装置の制御に使用できる。

次に、発話テキスト化部１００、テロップテキスト化部２００、背景画像テキスト化部３００、ロゴマークテキスト化部４００の機械学習処理の概要について説明する。処理の例として発話テキスト化部１００の処理について説明する。

図４は同要約作成システムの発話テキスト化部を示すものであり、（ａ）はブロック図、（ｂ）は処理の流れを示す図である。同図（ａ）に示すように、発話テキスト化部１００は、発話情報抽出部１１０、発話内容認識部１２０、発話内容テキスト化部１３０の他、テキスト化学習手段である機械学習部１４０、内容認識テキスト作成設定部１５０、比較評価部１６０を備える。また発話テキスト化部１００には、既存データ格納部８００が接続されている。

発話テキスト化部１００は既存データ格納部８００が格納する既存のビデオデータと既存の発話テキストに基づいて機械学習を行い、発話内容認識部１２０及び発話内容テキスト化部１３０を最適化する。既存データ格納部８００には、過去に人が発話テキストを作成したときに使用した多数のビデオデータを格納した既存ビデオデータ格納部８１０と、このビデオデータの発話内容から作成した発話テキストを格納した既存発話テキスト格納部８２０を備える。これらのビデオデータ及び発話テキストは機械学習の教材となる。

また、発話テキスト化部１００には、機械学習を行うときと、新規のビデオデータから発話内容テキストを作成するときにデータ出力の切り換えを行う切換部１７０、１８０を備える。

内容認識テキスト作成設定部１５０は、発話情報抽出部１１０の発話情報における抽出処理の設定と、発話内容認識部１２０の発話内容認識処理の設定と、発話内容テキスト化部１３０のテキスト化処理の設定とが格納されている。発話情報抽出部１１０、発話内容認識部１２０及び発話内容テキスト化部１３０は内容認識テキスト作成設定部１５０の設定した条件、パラメータに従って発話情報抽出と、発話内容の認識、テキスト化とを行う。

比較評価部１６０は、比較部１６１と評価部１６２とを備える。比較部１６１は、既存ビデオデータ格納部９１０からの既存ビデオデータを受けて発話内容テキスト化部１３０が作成した発話テキストと、既存発話テキスト格納部８２０からの既存発話テキストとを比較する。評価部１６２は比較部１６１の比較結果に基づいて評価を行い、よく一致した場合は高い点数を与える。

機械学習部１４０は、評価部１６２からの評価を受け、内容認識テキスト作成設定部１５０の設定状態を変更する。この処理を同一のビデオデータについて繰り返し行い、評価部１６２の評価値をできるだけ高いものとする。この処理は複数のビデオデータについて繰り返し行うことができる。

このような機械学習を行うことにより、発話内容認識部１２０及び発話内容テキスト化部１３０の能力が向上する。所定の機械学習を終了した後、発話テキスト化部１００は新規ビデオデータを処理して、最適な発話テキストを出力できる状態となる。

図４（ｂ）に示すように、まず内容認識テキスト作成設定部１５０に音声認識及びテキスト化の特徴量を設定する（ステップＳＡ１）。この設定は機械学習部１４０の学習結果により行う。

次いで、発話情報抽出部１１０が、設定された特徴に基づいて音声を大量の画像情報の中から抽出する（ステップＳＡ２）。

さらに、発話内容認識部１２０が、設定された特徴に基づいて抽出した音声を解析する（ステップＳＡ３）。

そして、発話内容テキスト化部１３０が、設定された特徴に基づいて音声をテキスト化して発話テキストを出力する（ステップＳＡ４）。

次にテロップテキスト化部２００の機械学習について説明する。図５は同要約作成システムのテロップテキスト化部を示すものであり、（ａ）はブロック図、（ｂ）は処理の流れを示す図である。同図（ａ）に示すように、テロップテキスト化部２００は、テロップ情報抽出部２１０、テロップ内容認識部２２０、テロップ内容テキスト化部２３０の他、機械学習部２４０、内容認識テキスト作成設定部２５０、比較評価部２６０を備える。またテロップテキスト化部２００には、既存データ格納部９００が接続されている。

テロップテキスト化部２００は既存データ格納部９００が格納する既存のビデオデータと既存のテロップテキストに基づいて機械学習を行い、テロップ内容認識部２２０及びテロップ内容テキスト化部２３０を最適化する。既存データ格納部９００には、過去に人がテロップテキストを作成したときに使用した多数のビデオデータを格納した既存ビデオデータ格納部９１０と、このビデオデータの発話内容から作成したテロップテキストを格納した既存テロップテキスト格納部９２０を備える。これらのビデオデータ及び発話テキストは機械学習の教材となる。

また、テロップテキスト化部２００には、機械学習を行うときと、新規のビデオデータから発話内容テキストを作成するときにデータ出力の切り換えを行う切換部２７０、２８０を備える。

内容認識テキスト作成設定部２５０は、テロップ情報抽出部２１０のテロップ情報抽出の設定と、テロップ内容認識部２２０のテキスト内容認識処理の設定と、テロップ内容テキスト化部２３０のテキスト化処理の設定とが格納されている。テロップ情報抽出部２１０、テロップ内容認識部２２０及びテロップ内容テキスト化部２３０は内容認識テキスト作成設定部２５０の設定した条件、パラメータに従ってテロップの抽出、内容認識、及びテキスト化を行う。

比較評価部２６０は、比較部２６１と評価部２６２とを備える。比較部２６１は、既存ビデオデータ格納部９１０からの既存ビデオデータを受けてテロップ内容テキスト化部２３０が作成したテロップテキストと、既存テロップテキスト格納部９２０からの既存テロップテキストとを比較する。評価部２６２は比較部２６１の比較結果に基づいて評価を行い、よく一致した場合は高い点数を与える。

機械学習部２４０は、評価部２６２からの評価を受け、内容認識テキスト作成設定部２５０の設定状態を変更する。この処理を同一のビデオデータについて繰り返し行い、評価部２６２の評価値をできるだけ高いものとする。この処理は複数のビデオデータについて繰り返し行うことができる。

このような機械学習を行うことにより、テロップ内容認識部２２０及びテロップ内容テキスト化部２３０の能力が向上する。所定の機械学習を終了した後、テロップテキスト化部２００は新規ビデオデータを処理して、最適なテロップテキストを出力できる状態となる。

図５（ｂ）に示すように、まず内容認識テキスト作成設定部２５０にテロップ情報抽出、内容抽出、及びテキスト化の特徴量を設定する（ステップＳＢ１）。この設定は機械学習部２４０の学習結果により行う（ステップＳＢ２）。

次いで、テロップ情報抽出部２１０が、設定された特徴に基づいてテロップを大量の映像信号の中から抽出する（ステップＳＢ２）。

さらに、テロップ内容認識部２２０が、設定された特徴に基づいて抽出したテロップを解析する（ステップＳＢ３）。

そして、テロップ内容テキスト化部２３０が、設定された特徴に基づいてテロップの内容をテキスト化してテロップテキストとして出力する（ステップＳＢ４）。

なお、機械学習の手法は上述したものに限定されず、他の手法によるものであってよい。また、背景画像テキスト化部３００、ロゴマークテキスト化部４００も同様の手法により機械学習を行う。背景や顔認識についても、同様に機械学習を行う。

なお、この発話テキスト化部１００、テロップテキスト化部２００、背景画像テキスト化部３００、ロゴマークテキスト化部４００における学習は、上記手順に限られない。他の手法による機械学習によっても行うことができる。

次に情報解析部１０の適用例について説明する。図６は同データ解析システムの各種解析の態様を示す図である。

図６に示す例では、情報解析部１０は、上述したように取得した映像情報から、認識技術６０として、音声認識６１、ロゴマーク認識６２、人物認識６３、景観認識６４、文字／テロップ認識６５、画像の特徴認識６６、コマーシャル認識６７、編集過程画像認識６８を行う。なお、必要に応じて認識対象を変更、増加することができる。

音声認識６１では、発声内容を認識してテキスト情報を作成する他、背景音がどのような種類の音声かのラベル付け等を行う。

ロゴマーク認識６２では、画像中のロゴマークのテキスト抽出、ロゴマークが表示する会社、団体、商品、サービスを認識し識別情報を生成する。

人物認識６３では、人物の顔、体型、動作の特性から個人を識別し、識別情報を作成する。

景観認識６４では、画像の景観、背景から、撮影場所、状況、背景に現れる物体の識別情報を生成する。例えば撮影個所の地名の特定、災害の特定、登場した車や物品の特定を行う。

テロップ認識６５では、映像に表示されるテロップの内容、色彩、大きさ、画面上の位置、表示時間、回数等を認識して識別情報を生成する。

特徴認識６６では、画像の特徴を認識する。例えば、映像が自然の風景についてである、ドラマである、映画である等である。また、映像のブレや場面転換の数等から、プロやハイアマチュアの撮影であるか、あるいはアマチュアの撮影であるかを認識する。

コマーシャル認識６７では、コマーシャルの商品、商品の表示状態、表示回数、ナレーションの内容を認識する。

編集過程画像認識６８では、編集前の元映像と編集後の映像とから、元映像のどの部分を編集に使用したか、切り取った映像をどのように並べているか、テロップ、効果音をどのように選択して挿入したかを識別する。また、複数の元映像から場面を選択、組み合わせて再生した場合、複数の元映像から選択した特定の場面をどの程度の時間再生したか、どのように組み合わせて再生したかを認識する。

さらに、編集過程画像認識６８では、視聴者自ら再生装置やテレビ等のリモートコントローラーを使用して、自分が希望する映像部分のみをコピーする作業の状態を認識し、視聴者の要望又は視聴者の一連の映像情報中における、視聴者の要望又は特定の部分的映像の視聴回数データ等を認識する。

そして、これらの認識に基づいて以下の解析処理７０を行う。この解析処理は様々な分野、目的で行うことができる。

この解析処理７０には以下のものを含むことができる。

例えば、メタデータの自動作成する（７１Ａ）。ナレーション、台詞、背景音から取得した情報、画像の人物、テロップ、フリップ、ロゴマーク、背景から取得した情報をテレビ番組のメタデータとして出力し蓄積する。これにより過去番組の検索や統計的処理をしてテレビ等の分析を行う（７１Ｂ）。

また、速報性のあるニュース等の公開情報の通知内容を収集する（７２Ａ）。この公開情報の内容から社会への影響を分析することができる（７２Ｂ）。

人物／文言／フレーズ／ロゴ等の出現回数を計数する（７３Ａ）。これらの回数と経済効果分析、株価、売り上げ等との比較及び分析を行う（７３Ｂ）。

世の中の傾向・流行等についての情報を収集する（７４Ａ）。この情報を分析して新商品の開発を行う（７４Ｂ）。

映像作品のレビューについての情報を収集する（７５Ａ）。これに基づいて新作品の製作分析を行う（７５Ｂ）。

映像作りについてチェックを行って映像作成の手法についての情報を収集する（７６Ａ）。この情報に基づいて新しい映像コンテンツの開発分析を行うことができる（７６Ｂ）。

商品・サービスのレビューについての情報を収集する（７７Ａ）。これらの情報を分析して新製品、サービスのコンセプト開発分析を行うことができる（７７Ｂ）。

映像作品の制作情報を収集する（７８Ａ）。これらの情報から自動映像作品の制作を行うことができる（７８Ｂ）。

映像編集情報を収集する（７９Ａ）。これらの情報から映像自動編集を行う（７９Ｂ）。

また、上述した処理の他、必要に応じて他の処理、例えば音楽解析、顔認証解析等を行うことができる。

本実施形態に係るデータ解析システム５０では、これらの解析処理を行い、例えば、以下の適用装置・サービス８０を提供することができる。

＜自動映像編集＞
本実施形態に係るデータ解析システム５０は、自動映像編集装置８１を提供することができる。自動映像編集装置８１は、入力した映像を自動的に編集する。

映像制作においては、映像の撮影よりも撮影した映像の編集作業が非常に負担となっている。現場においては、現状はもっぱら複数のＡＤ（アシスタントディレクター）が編集作業に追われている状況である。

しかしながら、本実施の形態に係るデータ解析システムによれば、過去から現在までにわたり蓄積された映像の特徴を人工知能により分析して、編集の傾向や手法を取得し、入力された素材となる各映像の特徴を基づいて、素材映像を自動的に編集することが可能になる。

その結果、現状最も負担となっている、撮影した多量の映像情報を自動的に編集することが可能となり、各種編集作業が容易かつ迅速に行うことが可能となる。

特に、今後普及する４Ｋ／８Ｋ映像に関しては、記録された映像情報は現状において、少なく、ユーザー自ら撮影する必要がある場合もあるが、このような自ら撮影した映像に関してはその後の編集が非常に煩雑となる。例えば、視聴者が見やすい映像をいかに編集するか、また、どのようなテロップを、どのような映像に、いかにインサートするか、音声をどのように使用するか、等の課題を解決する必要があり、専門知識のないユーザーにとっては非常に煩雑である。

このような場合に本実施の形態に係るデータ解析システムによれば、過去の編集情報に基づいて自動的に所望の８Ｋ映像を編集することが可能となる。この自動編集は、過去の映像作品の解析、元映像と編集後の映像の解析、実際の再生操作状態の解析に基づいて行うことができる。

また、従来ＴＶにより提供される様々な所定の長さの映像情報の中で、視聴者の希望する映像のみをつなぎ合わせて再編集して視聴したい、という要請がある。現状、このような映像の再編集作業を行う場合には、視聴者自らＴＶのリモートコントローラーを使用して、自分が希望する映像部分のみをコピーする作業を行っている。しかし、この作業は非常に煩雑であった。

そこで、データ解析システム５０は、このような要請に応え、人工知能により、視聴者の要望又は視聴者の一連の映像情報中における、視聴者の要望又は特定の部分的映像の視聴回数データを参照して視聴者の希望する特定の部分的映像を特定し、当該部分的映像が複数ある場合には、編集することにより新たな映像を作成する。

例えば、元映像のどのような種類の映像部分が数多く再生、コピーされたかを認識して、新たな映像の編集時には、編集元映像から当該種類の映像部分を抽出してこの映像部分を多く含む新たな映像を生成することができる。

その結果、４Ｋ／８Ｋの美麗な映像ソースを、容易かつ迅速にユーザー側で増大させることが可能となる。また、家庭においても、撮影した映像を簡単に編集することや、また、動画投稿サイトへの投稿動画の編集を容易かつ短期間に行うことができる。

＜選別的自動全録画装置＞
本実施形態に係るデータ解析システム５０は、選別的自動全録画装置８２を提供できる。選別的自動全録画装置８２は、聴者の好みにあわせたテレビ番組を選択して録画する。

従来、いわゆる家庭用の「全自動録画装置」は、地上波、衛星放送から選択した全放送局から放送されて提供されるテレビ映像情報をすべて自動的に録画している。この録画情報は、膨大な情報量を持つ。しかし、記憶媒体の記録容量もあり記録媒体への記録、保存は所定の期間、例えば、数か月等に限られるという制限があった。また、視聴者にとって自己が視聴する番組を選択する手間も煩雑であった。

しかしながら、本実施の形態に係るデータ解析システムにあっては、過去蓄積された映像情報においてユーザーがその後使用（視聴）した映像を認識選別しておき、その選別情報に基づいて、ユーザー側の志向、嗜好、趣味、必要性を人工知能により、例えば、深層学習手法を用いることにより理解する。これにより、視聴者の志向、嗜好、趣味、必要性に基づいて、自動的に録画する映像情報を選別、選択して録画することが可能となる。

よって、従来は放送されてくる映像情報全体を記録していた場合に比して、記録録画する映像情報量を大幅に低減すること可能となり、結果的に、記録媒体へより長期間にわたって全自動録画を行うことが可能となり、視聴者も視聴選別の手間が省ける。

＜自動（明暗・濃淡）調整映像投射・表示装置＞
本実施形態に係るデータ解析システム５０は、映像投射・表示装置８３を提供することができる。映像投射・表示装置８３は、画像投影表示時において映像コンテンツにあわせて自動的に最適な設定（明暗・濃淡設定）を行う。

従来、映像の明暗・濃淡の調整は手動あるいは画像の種類により自動的に行われている。しかしながら、この調整は煩雑である他、必ずしも適正なものではない。

本実施の形態に係るデータ解析システムによれば、個別の映像に基づき人工知能の判断によって、様々な映像を調整して投射、表示させることが可能となる。例えば、個別の映像の対象物（例えば、花、美術品、絵画等）により細密な表示が必要な場合には、映像の特徴を人工知能が認識することにより、自動的にズームアップして表示させ、また、風景の映像である場合には、人工知能の判断により、引いた映像を表示させる、等の映像表示の自動調性を、人手によることなく行うことが可能となる。

＜再生時間自動設定装置＞
本実施形態に係るデータ解析システム５０は、再生時間自動設定装置８４を提供することができる。再生時間自動設定装置８４は、複数の映像を表示するに際し過去の再生を学習して各映像の最適な再生時間を設定する。

従来複数の映像コンテンツを順次再生して、視聴する場合、特にプレゼンテーション等で複数の画像を再生する場合がある。このような場合、各映像コンテンツの再生時間は操作者が自己の判断で決定していた。しかし、この方法では必ずしも最適な再生時間の設定ができない。

本実施の形態に係るデータ解析システムによれば、蓄積された過去の映像においてユーザーが再生した使用した映像情報を基に、人工知能を利用することによりユーザーの志向、嗜好、趣味、必要性が把握できることから、ユーザーの志向、嗜好、趣味、必要性に応じて再生に必要な時間を把握し、自動的に再生時間を設定することもでき、ユーザーの映像情報の再生に要する煩雑さを解消することができる。

<自動音量調整装置＞
本実施形態に係るデータ解析システム５０は、自動音量調整装置８５を提供することができる。自動音量調整装置８５は、映像コンテンツの種類、場面に最適な音響機器の各スピーカーへの音量、音質等を自動的に調整する。

複数の映像コンテンツを再生する場合、各コンテンツの再生における音量や音質を調整する必要がある。また、同一のコンテンツにおいても、場面により音量、音質を変更することにより最良の効果が得られる場合がある。このような場合、各映像コンテンツの再生音量、音質は操作者が自己の判断で決定していた。しかし、この方法では必ずしも最適な再生音量音質の設定ができない。

本実施の形態に係るデータ解析システムによれば、個別の映像に基づき人工知能の判断によって、様々な映像に対応する音声、音量、音質等を調整、制御ことが可能となる。例えば、個別の映像の対象物（例えば、花、美術品、絵画等）により細密な表示が必要な場合には、映像の特徴を人工知能が認識することにより、自動的に音量を大きく、又は音量を小さく、音質を変化させる、又は効果音を挿入する等の制御を人工知能の判断により人手を介することなく行うことが可能となる。その結果、ユーザーによる映像鑑賞の際の、音声聴取に関する利便性を向上させることが可能となる。

＜過去データ基づく音量自動調整装置＞
本実施形態に係るデータ解析システム５０は、過去データ基づく音量自動調整装置８６を提供することができる。過去データ基づく音量自動調整装置８６は過去の再生音量の記録に基づいて再生音量を自動的に設定する。

本実施の形態に係るデータ解析システムによれば、過去に再生した映像に基づき人工知能の判断によって、様々な映像に対応する音声、音量、音質等を調整、制御ことが可能となる。

＜対策・方向転換・見通し分析装置＞
本実施形態に係るデータ解析システム５０は、対策・方向転換・見通し分析装置８７を提供することができる。対策・方向転換・見通し分析装置８７は、取得し蓄積した過去の情報から将来の対策・方向転換・見通しを分析することができる。

従来、対策・方向転換・見通しは過去の情報を分析者が分析をすることにより得ていた。しかし、的確な分析や対策・方向転換・見通しの立案には豊富な知識と経験とを有する専門家でなければできない。

本実施の形態に係るデータ解析システムにあっては、現在放送されている映像情報、又は過去蓄積された映像情報を音声、ロゴマーク、人物、景観、文字テロップ、特徴、ＣＭ等の観点から認識、分析することが可能であることから、そのような分析に基づき、人工知能の深層学習手法を用いて様々な経済分野、政治分野、教育分野、産業分野等における課題、問題に関する解決の方策、対策、解決の方向性等に関するソリューションを提供することが可能となる。

＜映像作品制作装置＞
本実施形態に係るデータ解析システム５０は、自動映像作品制作装置８８を提供できる。自動映像作品制作装置８８は、過去の映像作品を踏まえて新たな映像作品を制作することができる。

従来、新規映像作品の制作は、企画者、制作者、原作者等により過去現在の流行や予測に基づいてコンセプトや内容が策定されている。

しかし、このような手法では、作品の内容は個人的資質に異存する他、決定に時間がかかる場合がある。

本実施の形態に係るデータ解析システム５０にあっては、現在放送されている映像情報、又は過去蓄積された映像情報を音声、ロゴマーク、人物、景観、文字テロップ、特徴、ＣＭ等の観点から認識、分析することが可能であることから、そのような分析に基づき、新たな映像作品を制作する際に、どのような種類の映像作品がヒットするか、どのような映像がトレンドに合致するか、配役の選択、映像手法の選択等に関する分析、回答を人工知能の深層学習を用いて行い、新たな映像作品の制作に利用することができる。

その結果、ヒットする可能性の高い映像作品、文化的レベルの高い映像作品を自動的に提供することが可能となる。

＜新市場へのアプローチサービス＞
本実施形態に係るデータ解析システム５０は、新市場へのアプローチサービス８９を提供できる。新市場へのアプローチサービス８９により、開拓すべき新たな市場についての予測を取得することができる。

従来、新市場へのアプローチについては過去の商品や市場についての情報を専門の分析者が分析をすることにより得ていた。しかし、的確な分析やアプローチについての結果を得るには、豊富な知識と経験とを有する専門家に依頼する必要があり、費用、時間とも負担が大きい。

本実施の形態に係るデータ解析システムにあっては、現在放送されている映像情報、又は過去蓄積された映像情報を音声、ロゴマーク、人物、景観、文字テロップ、特徴、ＣＭ等の観点から認識、分析することが可能であることから、そのような分析に基づき、人工知能の深層学習手法を用いて商品や市場、購買者の動向、流行等の他、様々な経済分野、政治分野、教育分野、産業分野等についての情報に基づいて新商品のアプローチに関するソリューションを提供することが可能となる。

＜新製品・新サービスの創造サービス＞
本実施形態に係るデータ解析システム５０は、新製品・新サービスの創造サービス９０を提供できる。新製品・新サービスの創造サービス９０により、新製品・新サービスを創造することができる。

従来、新製品・新サービスの創造については過去の商品や市場についての情報を専門の分析者が分析をすることにより得ていた。しかし、的確な分析やアプローチについての結果を得るには、豊富な知識と経験とを有する専門家に依頼する必要があり、費用、時間とも負担が大きい。

本実施の形態に係る新製品・新サービスの創造にあたっては、現在放送されている映像情報、又は過去蓄積された映像情報を音声、ロゴマーク、人物、景観、文字テロップ、特徴、ＣＭ等の観点から認識、分析することが可能であることから、そのような分析に基づき、人工知能の深層学習手法を用いて商品や市場、購買者の動向、流行等の他、様々な経済分野、政治分野、教育分野、産業分野等についての情報に基づいて新商品・新サービスの創造に関するソリューションを提供することが可能となる。

＜新社会への提言サービス＞
本実施形態に係るデータ解析システム５０は、新社会への提言サービス９１を提供することができる。新社会への提言サービス９１により、将来の社会のあり方、方策についての提言を得ることができる。

従来、新社会への提言は、過去の社会状況や動向、将来の目標等のついての情報を専門のシンクタンクや分析者が分析をすることにより得ていた。しかし、的確な分析やアプローチについての結果を得るには、豊富な知識と経験とを有するシンクタンクや専門家に依頼する必要があり、費用、時間とも負担が大きい。

本実施の形態に係るデータ解析システムにあっては、現在放送されている映像情報、又は過去蓄積された映像情報を音声、ロゴマーク、人物、景観、文字テロップ、特徴、ＣＭ等の観点から認識、分析することが可能であることから、そのような分析に基づき、人工知能の深層学習手法を用いて過去の国内外の様々な社会分野、経済分野、政治分野、教育分野、産業分野等についての情報に基づいて新社会の提言に関するソリューションを提供することが可能となる。

＜新経済指標サービス＞
本実施形態に係るデータ解析システム５０は、新経済指標サービス９２を提供できる。新経済指標サービス９２により、正確な経済指標を得ることができる。
従来、新経済指標については過去の経済状態及び将来の予測についての情報を専門の分析者やシンクタンクが分析をすることにより得ていた。しかし、的確な分析やアプローチについての結果を得るには、豊富な知識と経験とを有する専門家やシンクタンクが行う必要があり、費用、時間とも負担が大きい。

本実施の形態に係るデータ解析システムにあっては、現在放送されている映像情報、又は過去蓄積された映像情報を音声、ロゴマーク、人物、景観、文字テロップ、特徴、ＣＭ等の観点から認識、分析することが可能であることから、そのような分析に基づき、人工知能の深層学習手法を用いて商品や市場、購買者の動向、流行等の他、様々な経済分野、政治分野、教育分野、産業分野等についての情報に基づいて新経済指標を得るソリューションを提供することが可能となる。

＜社会分析サービス＞
本実施形態に係るデータ解析システム５０は、社会分析サービス９３を提供することができる。社会分析サービス９３により、現在の社会の状態を把握でき、将来の経済、政治、教育等の方策を得ることができる。
従来、社会分析については過去の社会情勢についての情報を専門の分析者が分析をすることにより得ていた。しかし、的確な分析やアプローチについての結果を得るには、豊富な知識と経験とを有する専門家に依頼する必要があり、費用、時間とも負担が大きい。

本実施の形態に係るデータ解析システムにあっては、現在放送されている映像情報、又は過去蓄積された映像情報を音声、ロゴマーク、人物、景観、文字テロップ、特徴、ＣＭ等の観点から社会情勢を認識、分析することが可能であることから、そのような分析に基づき、人工知能の深層学習手法を用いて経済分野、政治分野、教育分野、産業分野等についての情報に基づいて社会分析を行いその結果を提供することが可能となる。

なお、データ解析システム５０が適用できる製品・サービスは上記の例に限らない。蓄積された過去の映像情報や音声情報から認識された情報に基づいて制作処理や予測処理ができるあらゆる分野のサービスや装置に適用可能である。

本発明に係るデータ解析システムは、テレビ放送やインターネット配信映像、ラジオ音声等の情報を解析して、解析結果として様々な分野の傾向分析、将来の予想、新たな創作、自動的処理に必要な解析結果を出力することができ、その結果を産業上の様々な分野に利用できる。

１０：情報解析部
１１：映像情報取得部
１２：画像音声分離部
１３：画像抽出部
１４：画像テキスト化部
１５：音声抽出部
１６：音声テキスト化部
１７：蓄積部
１８：解析部
２０：設定入力部
３０：過去データ蓄積部
４０：データ入力部
５０：データ解析システム
６０：認識部
６１：音声認識
６２：ロゴマーク認識
６３：人物認識
６４：景観認識
６５：テロップ認識
６６：特徴認識
６７：コマーシャル認識
６８：編集過程画像認識
７０：分析部
８０：装置・サービス
８１：自動映像編集
８２：選別的自動全録画装置
８３：表示装置
８４：再生時間自動設定装置
８５：音量等自動調整
８６：自動調整
８７：見通し分析
８８：自動映像作品の制作
１００：発話テキスト化部
１１０：発話情報抽出部
１２０：発話内容認識部
１３０：発話内容テキスト化部
１４０：機械学習部
１５０：内容認識テキスト作成設定部
１６０：比較評価部
１６１：比較部
１６２：評価部
１７０：切換部
１８０：切換部
２００：テロップテキスト化部
２１０：テロップ情報抽出部
２２０：テロップ内容認識部
２３０：テロップ内容テキスト化部
２４０：機械学習部
２５０：内容認識テキスト作成設定部
２６０：比較評価部
２６１：比較部
２６２：評価部
２７０：切換部
２８０：切換部
３００：背景画像テキスト化部
３１０：背景画像情報抽出部
３２０：背景画像内容認識部
３３０：背景画像内容テキスト化部
４００：ロゴマークテキスト化部
４１０：ロゴマーク画像情報抽出部
４２０：ロゴマーク内容認識部
４３０：ロゴマーク内容テキスト化部
５００：テキスト統合部
６００：要約作成部
７００：ビデオ信号分離部
８００：既存データ格納部
８１０：既存ビデオデータ格納部
８２０：既存発話テキスト格納部
９００：既存データ格納部
９１０：既存ビデオデータ格納部
９２０：既存テロップテキスト格納部
Ａ：画像情報
Ｂ：映像信号
Ｉ：インターネット
Ｓ：ビデオ装置
Ｖ：ビデオ信号

Claims

取得した映像情報及び音声情報のうち少なくとも一方である対象情報を解析して、指定した分野における解析結果を出力するシステムであって、
人工知能が対象情報から解析対象情報を抽出する手段と、
人工知能が前記解析対象情報を解析して当該指定した分野における解析結果を出力する手段と、
を備えることを特徴とするデータ解析システム。
前記人工知能が、強化学習、ディープラーニング、深層強化学習、機械学習パターンマッチング、及びルールベースＡＩの少なくとも一つの手法を使用することを特徴とする請求項１に記載のデータ解析システム。
前記解析対象情報は、テキスト情報、画像情報、音声情報を含むデジタル情報であることを特徴とする請求項１に記載のデータ解析システム。
前記解析対象情報は、類似とされる画像群とそのラベルを含むデジタル情報であることを特徴とする請求項１に記載のデータ解析システム。
前記映像情報から音声情報と画像情報とを分離する手段と、
前記音声情報から解析対象とする音声情報を抽出する手段と、
前記抽出した音声情報を解析して発話内容及び属性の少なくとも一方の意味を認識する手段と、
前記画像情報から人物、ロゴマーク、文字、テロップ、景観をそれぞれ抽出し、前記抽出した画像情報の意味を認識する手段と、
を備えることを特徴とする請求項１に記載のデータ解析システム。
前記音声情報から人の声の画像情報を抽出する手段と、
前記画像情報から発声内容を認識し、発声情報を出力する手段と、
前記認識した発声情報をテキスト化して音声テキストを出力する手段と、
前記画像情報からテロップを示すテロップ信号を抽出する手段と、
前記テロップ信号からテロップ内容を認識し、テロップ情報を出力する手段と、
前記テロップ情報をテキスト化してテロップテキストを出力する手段と、
前記画像情報から背景画像情報を抽出する手段と、
前記背景画像情報から背景画像の内容を認識し、背景情報を出力する手段と、
前記背景情報をテキスト化して背景テキストを出力する手段と、
前記画像情報からロゴ画像情報を抽出する手段と、
前記背景情報から表示されたロゴ画像内容を認識し、ロゴ情報を出力する手段と、
前記ロゴ情報をテキスト化してロゴテキストを出力する手段と、
を備えることを特徴とする請求項１に記載のデータ解析システム。
テキスト化に際しては、蓄積された過去のテキスト化処理における入力データと出力データから最適なテキスト作成設定を学習するテキスト化学習手段を備えることを特徴とする請求項６に記載のデータ解析システム。
前記解析結果に基づいて、映像情報のメタデータの生成、社会状況の傾向分析の生成、経済状態の傾向分析の生成、流行傾向の分析情報の生成、映像の編集、映像コンテンツの生成、商品・サービスの開発情報の生成の少なくとも一つを行う手段を備えることを特徴とする請求項１に記載のデータ解析システム。
前記人工知能により、編集前の元映像と編集後の映像、又は再生された映像を解析し、この解析結果に基づいて、新たに入力された映像を編集することを特徴とする請求項１に記載のデータ解析システム。
前記人工知能により、視聴者の要望又は視聴者の視聴回数データに基づき、一連の映像情報中の部分的映像情報を、前記部分的映像情報の始点と終点を特定して抽出することにより前記部分的映像を抽出して編集して、新たな映像を作成することを特徴とする請求項１記載のデータ解析システム。