JP2020123228A - データ解析システム - Google Patents

データ解析システム Download PDF

Info

Publication number
JP2020123228A
JP2020123228A JP2019015779A JP2019015779A JP2020123228A JP 2020123228 A JP2020123228 A JP 2020123228A JP 2019015779 A JP2019015779 A JP 2019015779A JP 2019015779 A JP2019015779 A JP 2019015779A JP 2020123228 A JP2020123228 A JP 2020123228A
Authority
JP
Japan
Prior art keywords
information
video
text
unit
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019015779A
Other languages
English (en)
Inventor
孝利 石井
Takatoshi Ishii
孝利 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JCC KK
Original Assignee
JCC KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JCC KK filed Critical JCC KK
Priority to JP2019015779A priority Critical patent/JP2020123228A/ja
Publication of JP2020123228A publication Critical patent/JP2020123228A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】映像情報を解析して、解析結果として様々な分野の傾向分析、将来の予想、新たな創作、自動的処理に必要な解析結果を出力する。【解決手段】取得した映像情報及び音声情報のうち少なくとも一方である対象情報を解析して、指定した分野における解析結果を出力するシステムであって、人工知能が対象情報から解析対象情報を抽出する手段と、抽出した解析対象情報を蓄積する手段と、人工知能が前記解析対象情報を解析して当該指定した分野における解析結果を出力する手段と、を備える。【選択図】図1

Description

本発明は、映像情報から取得した様々な情報を解析して、解析結果を出力するデータ解析システムに関する。
人工知能(AI)を様々な分野に適用する技術が提案されている。
例えば、特許文献1には、予め用意されたコンテンツ素材とテンプレートを利用して映像コンテンツの編集を可能とする映像コンテンツ自動生成システムが記載されている。
また、特許文献2には、施設レイアウト情報から算出した進行予測方程式を用いて新たな施設レイアウトの動線を予測するものが記載されている。
さらに、特許文献3には、健康管理対象者の食事や健康状態から適切なアドバイスメッセージを生成して、健康管理のカリキュラム実行のモチベーションを向上させることができる健康管理サーバが提案されている。
特開2017-63339号公報 特開2014-182713号公報 特開2017-091586号公報
従来の技術は個別の技術分野において、取得した情報から予測を行い有用な結果を提示するものであった。
今日、テレビ放送やインターネットで配信されている映像には様々な情報が含まれている。テレビ放送は、多数の放送局からなされ、放送される映像にはニュース、ワイドショー、ドラマ、映画、CM、スポーツ、通信販売等が含まれ、世界中の情報が提示されている。また、インターネットで配信される映像には配信者の意図に沿った情報が提示されている。映像としては、その他、プライベートな映像も多数ある。
発明者は、テレビ放送の全放送映像を録画して、各番組のメタデータを生成し、生成したメタデータを利用して様々なサービスを行っている。このような背景から、発明者は、テレビ放送やインターネット配信映像等から映像等には世界中のほとんどすべての分野についての情報がリアルタイムに送出され、さらに音声で情報を伝達するラジオからの情報も同様にリアルタイムで様々な情報が送出されていることを知得した。
そして、発明者は、このような多量の情報を取得し、様々な分野において、人工知能、機械学習、AI技術により必要なデータを抽出して解析し、所望の分野における、有用な解析結果を取得することができることを思い至った。
そこで、本発明の課題は、テレビ放送やインターネット配信映像、ラジオ音声等の情報を解析して、解析結果として様々な分野の傾向分析、将来の予想、新たな創作、自動的処理に必要な解析結果を出力することができるデータ解析システムを提供することを目的とする。
前記課題を解決する請求項1に記載の発明は取得した映像情報及び音声情報のうち少なくとも一方である対象情報を解析して、指定した分野における解析結果を出力するシステムであって、人工知能が対象情報から解析対象情報を抽出する手段と、人工知能が前記解析対象情報を解析して当該指定した分野における解析結果を出力する手段と、を備えることを特徴とするデータ解析システムである。
また、請求項2に記載の発明は、請求項1に記載の発明において、前記人工知能が、強化学習、ディープラーニング、深層強化学習、機械学習、パターンマッチング、及びルールベースAIの少なくとも一つの手法を使用することを特徴とする。
また、請求項3に記載の発明は、請求項1に記載の発明において、前記解析対象情報は、テキスト情報、画像情報、音声情報を含むデジタル情報であることを特徴とする。
また、請求項4に記載の発明は、請求項1に記載の発明において、前記対象情報は、類似とされる画像群とそのラベルを含むデジタル情報であることを特徴とする。
また、請求項5に記載の発明は、請求項1に記載の発明において、前記映像情報から音声情報と画像情報とを分離する手段と、前記音声情報から解析対象とする音声情報を抽出する手段と、前記抽出した音声情報を解析して発話内容及び属性の少なくとも一方の意味を認識する手段と、前記画像情報から人物、ロゴマーク、文字、テロップ、景観をそれぞれ抽出し、前記抽出した画像情報の意味を認識する手段と、を備えることを特徴とする。
また、請求項6に記載の発明は、請求項1に記載の発明において、前記音声情報から人の声の画像情報を抽出する手段と、前記画像情報から発声内容を認識し、発声情報を出力する手段と、前記認識した発声情報をテキスト化して音声テキストを出力する手段と、前記画像情報からテロップを示すテロップ信号を抽出する手段と、前記テロップ信号からテロップ内容を認識し、テロップ情報を出力する手段と、前記テロップ情報をテキスト化してテロップテキストを出力する手段と、前記画像情報から背景画像情報を抽出する手段と、前記背景画像情報から背景画像の内容を認識し、背景情報を出力する手段と、前記背景情報をテキスト化して背景テキストを出力する手段と、前記画像情報からロゴ画像情報を抽出する手段と、前記背景情報から表示されたロゴ画像内容を認識し、ロゴ情報を出力する手段と、前記ロゴ情報をテキスト化してロゴテキストを出力する手段と、を備えることを特徴とする。
また、請求項7に記載の発明は、請求項6に記載のデータ解析システムにおいて、テキスト化に際しては、蓄積された過去のテキスト化処理における入力データと出力データから最適なテキスト作成設定を学習するテキスト化学習手段を備えることを特徴とする。
また、請求項8に記載の発明は、請求項1に記載の発明において、前記解析結果に基づいて、映像情報のメタデータの生成、社会状況の傾向分析の生成、経済状態の傾向分析の生成、流行傾向の分析情報の生成、映像の編集、映像コンテンツの生成、商品・サービスの開発情報の生成の少なくとも一つを行う手段を備えることを特徴とする。
さらに、請求項9に記載の発明は、請求項1に記載のデータ解析システムにおいて、前記人工知能により、編集前の元映像と編集後の映像、又は再生された映像を解析し、この解析結果に基づいて、新たに入力された映像を編集することを特徴とする。
そして、請求項10に記載の発明は、請求項1記載のデータ解析システムにおいて、前記人工知能により、視聴者の要望又は視聴者の視聴回数データに基づき、一連の映像情報中の部分的映像情報を、前記部分的映像情報の始点と終点を特定して抽出することにより前記部分的映像を抽出して編集して新たな映像を作成することを特徴とする。
本発明によれば、テレビ放送やインターネット配信映像、ラジオ等の情報を解析して、様々な分野の傾向分析、将来の予想、新たな創作、自動的処理に必要な解析結果を出力することができる。
即ち、請求項1に記載のデータ解析システムによれば、人工知能が対象情報から解析対象情報を抽出し、人工知能が前記解析対象情報を解析して当該指定した分野における解析結果を出力する。
このため、テレビ放送やインターネット配信映像、ラジオ放送等の広範は映像情報、音声情報を解析して、様々な分野の傾向分析、将来の予想、新たな創作、自動的処理に必要な解析結果を出力することができる。
また、請求項2に記載のデータ解析システムによれば、人工知能が、強化学習、ディープラーニング、深層強化学習、機械学習、パターンマッチング、及びルールベースAIの少なくとも一つの手法を使用する。このため、極めて多量の情報を迅速かつ人手を介することなく処理でき、さらに処理を行う手法を進歩させることができる。
また、請求項3に記載のデータ解析システムによれば、前記解析対象情報は、テキスト情報、画像情報、音声情報を含むデジタル情報である。このため、コンピュータを用いて処理を迅速かつ正確に行うことができる。
請求項4に記載のデータ解析システムによれば、前記解析対象情報は、類似とされる画像群とそのラベルを含むデジタル情報である。このため、処理対象に画像を含むことができ、画像の処理を、コンピュータの処理で迅速かつ正確に行うことができる。
また、請求項5に記載のデータ解析システムによれば、前記映像情報から音声情報と画像情報とを分離し、前記音声情報から解析対象とする音声情報を抽出し、前記抽出した音声情報を解析して発話内容及び属性の少なくとも一方の意味を認識し、前記画像情報から人物、ロゴマーク、文字、テロップ、景観をそれぞれ抽出し、前記抽出した画像情報の意味を認識する。このため、映像情報から解析に使用できる多くの情報を取得でき、解析を正確なものとできる。
また、請求項6に記載のデータ解析システムによれば、前記音声情報から人の声の画像情報を抽出し、前記画像情報から発声内容を認識して発声情報を出力し、前記認識した発声情報をテキスト化して音声テキストを出力し、前記画像情報からテロップを示すテロップ信号を抽出し、前記テロップ信号からテロップ内容を認識してテロップ情報を出力し、前記テロップ情報をテキスト化してテロップテキストを出力し、前記画像情報から背景画像情報を抽出し、前記背景画像情報から背景画像の内容を認識して背景情報を出力して前記背景情報をテキスト化して背景テキストとし、前記画像情報からロゴ画像情報を抽出し、前記背景情報から表示されたロゴ画像内容を認識し、ロゴ情報を出力して前記ロゴ情報をテキスト化してロゴテキストを出力する。
このため、映像情報の画像情報から、人物、ロゴマーク、文字、テロップ、景観を抽出し、認識してテキスト化でき、映像情報に含まれる多くの有用な情報をテキスト化することができる。よって、映像情報から解析に使用できる多くの情報を取得でき、解析を正確なものとできる。
また、請求項7に記載のデータ解析システムによれば、テキスト化に際しては、蓄積された過去のテキスト化処理における入力データと出力データから最適なテキスト作成設定を学習するテキスト化学習手段により学習を行う。
このため、過去のデータに基づいて最適なテキスト化を行うことができ、このテキスト化の処理は、テキスト化を繰り返すことにより、適正化される。よって、最適なテキスト化が可能であり、解析を正確なものとできる。
また、請求項8に記載のデータ解析システムによれば、前記解析結果に基づいて、映像情報のメタデータの生成、社会状況の傾向分析の生成、経済状態の傾向分析の生成、流行傾向の分析情報の生成、映像の編集、映像コンテンツの生成、商品・サービスの開発情報の生成少なくとも一つを行うことができる。
このため、様々な分野での適用が可能であり、分野において有用に処理を行うことができる。
さらに、請求項9に記載のデータ解析システムによれば、人工知能により、編集前の元映像と編集後の映像、又は再生された映像を人工知能が解析し、この解析結果に基づいて新たに入力された映像を編集する。
このため、煩雑で長時間を費やす必要がある映像の編集を、元映像の編集状態にならって簡単かつ自動的に行うことができる。
そして、請求項10に記載のデータ解析システムによれば、前記人工知能により、視聴者の要望又は視聴者の視聴回数データに基づき、一連の映像情報中の部分的映像情報を、前記部分的映像情報の始点と終点を特定して抽出することにより前記部分的映像を抽出して編集して新たな映像を作成する。
このため、煩雑で長時間を費やす必要がある映像の編集を、視聴者の希望するものとして簡単かつ自動的に行うことができる。
本発明の実施形態に係るデータ解析システムの概略構成を示すブロック図である。 同データ解析システムの処理を示すフローチャートである。 同データ解析システムの情報解析部の構成及び処理の手順を示す図ある。 同データ解析システムにおける発話テキスト化部の構成及び処理の流れを示す図である。 同データ解析システムにおけるテロップテキスト化部の構成及び処理の流れを示す図である。 同データ解析システムの各種解析の態様を示す図である。
本発明を実施するための形態に係るデータ解析システムを図面に基づいて説明する。
図1は本発明の実施形態に係るデータ解析システムの概略構成を示すブロック図、図2は同データ解析システムの処理を示すフローチャートである。
本実施形態に係るデータ解析システム50は、図1に示すように、情報解析部10、設定入力部20、過去データ蓄積部30、及びデータ入力部40を備える。
情報解析部10は、映像情報取得部11、画像音声分離部12、画像抽出部13、画像認識部14、音声抽出部15、音声認識部16、蓄積部17、及び解析部18を備える。
映像情報取得部11は、テレビチューナ機能、ラジオチューナ機能、ウエブ配信画像取得機能を含む。映像情報取得部11は、放送されたテレビ番組等から動画情報と、音声情報とを取得する。
また、映像情報取得部11は、編集前の映像、編集後の映像を録画機、編集装置等から取得する。さらに、再生装置から操作者が操作しつつ再生する映像の再生映像を取得する。
画像音声分離部12は、映像情報取得部11で取得した映像情報を画像情報と音声情報とに分離する。映像情報には動画情報と静止画情報とを含む。
画像抽出部13は、画像情報から、背景、人物、テロップの文字、ロゴマーク、ロゴマークの文字、フリップの文字等を抽出する。抽出は画像における画素濃度、色彩の変化点であるエッジを検出することにより行う。
画像認識部14は、抽出した背景、人物、テロップの文字、ロゴマーク、ロゴマークの文字、フリップを解析対象情報として公知の手法で認識してデジタル情報、例えばテキスト情報とする。また、類似画像をグループ化してまとめ、テキストによるタグを付けする。さらに、対象物例えば人物の動きについての情報、背景や場面の変換のタイミング等、映像の編集情報を取得する。
音声抽出部15は、音声情報からナレーション、台詞、その他の人の声、音楽、背景音、動物の声、車両等の走行音を抽出する。
音声認識部16は、ナレーション、台詞、その他の人の声を解析対象情報として解析してテキストとして出力する他、背景音等の属性を解析してデジタル情報、例えばテキスト情報として出力する。また、音楽の識別情報を付与することができる。
蓄積部17は画像認識部14及び音声抽出部15の出力結果を蓄積する。蓄積部17は、情報解析部10が抽出し認識した結果を長期間にわたり保存する。これにより、蓄積部17には、映像情報取得部11で得られた内外の映像情報から認識した膨大な情報が蓄積されていることになる。
解析部18は、蓄積部17に蓄積されたテキストデータ、又は画像認識部14及び音声認識部16からのテキストを解析する。解析は情報解析部10の使用目的により適切な手法によって行うことができる。例えば、取得したテキストから将来の動向を予測することができる。また、取得したテキストから装置等の制御を適正に行うための制御情報を生成する。
解析部18における解析には人工知能を使用する。予め準備した所定範囲の解析情報と、この所定範囲における過去の実績を学習することで解析精度が高くなる。人工知能としては、様々な手法のものを適用できる。人工知能は、強化学習、ディープラーニング、及び深層強化学習、機械学習、パターンマッチング、ルールベースAIやその他の学習手法から選択した少なくとも一つの手法を使用することができる。
このとき、解析対象とする情報の時間的範囲、地理的範囲、分野的な範囲を指定することができる。これにより、効率的な解析を行うことができる。
これらの処理により、解析部18は解析結果を出力する。即ち、解析部18は、例えば、所望される今後のニーズ、新しい作品、等を出力する。
設定入力部20は、映像情報取得部11、画像音声分離部12、画像抽出部13、画像認識部14、音声抽出部15、音声認識部16の処理のための各種設定を各部に入力する。例えば、取得した時期、解析する地域、分野、対象分野を指定する。また、解析の対象となるデータを入力することができる。例えば、データ解析システム50が映像の編集を行うときには、編集対象となる映像データを入力する。
過去データ蓄積部30は、機械学習のための過去データが蓄積されている。解析対象とされた生のデータと、この解析対象の実際の状態、予測された状態が格納されている。
データ入力部40には、解析の対象となるデータを入力する。例えば、データ解析システム50が映像の編集を行うときには、編集対象となる映像データを入力する。また、予め取得されている解析結果を入力することができる。
データ解析システム50は、処理装置としてのCPU(Central Processing Unit)、記憶装置としてRAM(Random Access Memory)、ROM(Read Only Memory)、HDD(Hard Disc Drive)、SSD(Solid State Drive)等を備えたコンピュータシステムでアプリケーションションソフトウエアを実行して実現できる。また、各部は同一箇所に配置される必要はなく、一部をクラウド上に配置してネットワークで接続して実現することができる。また、これらの処理は、多量のデータを対象とするためGPU(Graphics Processing Unit)を使用して処理することが望ましい。
次に情報解析部10の処理について説明する。図2に示すように、情報解析部10は、映像情報取得部11により、テレビ放送、ネット配信、その他の映像情報を取得する(ステップS1)。
そして、情報解析部10は、画像音声分離部12により、取得した映像情報の画像情報と、音声情報とを分離する(ステップS2)。
さらに、情報解析部10は、画像抽出部13により画像情報から認識対象とする画像、即ち画像情報から人物、ロゴマーク、テキスト/テロップ、景観を抽出する(ステップS3)。そして、画像認識部14により抽出した画像情報から人物、ロゴマーク、テキスト/テロップ、景観を抽出する認識してテキスト化する他、グループ化された画像データ及びタグ、対象物例えば人物の動きについての情報、背景や場面変換のタイミング等、映像の編集情報を取得して蓄積部17に蓄積する(ステップS4)。
また、情報解析部10は、音声抽出部15により音声情報から認識対象とする音声、即ち人の声の他、背景音、音楽その他の音を抽出する(ステップS5)。そして、音声認識部16により抽出した人の声の発話内容、背景音、その他の音や音楽の属性や特定情報を認識して蓄積部17に蓄積する(ステップS6)。
さらに、情報解析部10は、解析部18により、解析対象とする分野の認識情報を取得し(ステップS7)、必要によって設定入力部20、過去データ蓄積部30、データ入力部40から処理対象の他の情報、指定すべきパラメータ等を入力する(ステップS8)。
そして、解析部18は、各分野結果から分析結果、例えば今後のトレンド、今後の動向、今後のニーズ、新しい作品、等を生成して(ステップS9)出力する。
これにより、データ解析システム50の一連の処理は終了する。
次に情報解析部10の具体的な構成の例について説明する。図3は同データ解析システムの情報解析部の構成及び処理の手順を示す図である。
図3は同録画再生システムにおけるメタデータ作成部の要約作成システムを示すブロック図である。図3に示すように、情報解析部10を構成するデータ解析システム50は、ビデオ信号分離部700、発話テキスト化部100、テロップテキスト化部200、背景画像テキスト化部300、ロゴマークテキスト化部400、テキスト統合手段であるテキスト統合部500、及び要約作成手段である要約作成部600を備える。
本実施形態ではデータ解析システム50は映像情報をテレビ放送局T、ラジオ放送局からの放送番組やインターネットIで配信される動画から取得する。また、独自に配置したビデオ再生装置Sや映像編集装置から映像情報を取得することができる。なお、ラジオ放送局からは音声情報を取得する。
データ解析システム50は、テロップテキスト化部200、背景画像テキスト化部300、ロゴマークテキスト化部400、及びテキスト統合部500を備えるものである。また、データ解析システム50は、顔認識部、音楽認識部、その他の画像認識部、音認識部を備えることができる。
映像情報を構成する画像情報と映像信号を含まれるビデオ信号Vは、ビデオ信号分離部700で画像情報Aと映像信号Bとに分離される。画像情報Aは発話テキスト化部100に入力され、映像信号Bはテロップテキスト化部200、背景画像テキスト化部300、及びロゴマークテキスト化部400に入力される。ラジオ局からの画像情報は、直接発話テキスト化部100に入力される。
発話テキスト化部100は画像情報Aを受けてコンテンツ中における人の発話内容を記述したテキストである発話テキストを出力する。発話テキスト化部100は、発話情報抽出部110、発話内容認識部120、発話内容テキスト化部130を備える。
発話情報抽出部110は、音声情報から発話情報を抽出する。即ち、音声情報中の雑音や背景音を取り除き、人の発話音声の情報を抽出する。この発話情報として効果音や特徴的な音楽を含むことができる。
発話内容認識部120は、発話情報から発話内容を認識する。即ち、発話情報を音響的、文法的に解析して発話内容を言語として認識する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去の音声テキストの生成データから機械学習により生成できる。
発話内容テキスト化部130は発話内容をテキスト化して出力する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去の音声テキストの入力データ及び生成データから機械学習により生成できる。
テロップテキスト化部200は映像信号Bを受けてコンテンツ中におけるテロップ内容を記述したテキストであるテロップテキストを出力する。テロップテキスト化部200は、テロップ情報抽出部210、テロップ内容認識部220、テロップ内容テキスト化部230を備える。
テロップ情報抽出部210は、ビデオ信号Vの映像信号Bからテロップ情報を抽出する。即ち、映像信号B中の背景を取り除き、テロップ画像だけの情報を抽出する。
発話内容認識部120は、テロップ画像情報からテロップ内容を認識する。即ち、テロップ情報を言語的、文法的に解析してテロップ表示内容を言語として認識する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去のテロップテキストの入力データ及び生成データから機械学習により生成できる。
テロップ内容テキスト化部230はテロップ内容をテキスト化して出力する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去のテロップテキストの入力データ及び生成データから機械学習により生成できる。
背景画像テキスト化部300は映像信号Bを受けてコンテンツ中における背景画像内容を記述したテキストである背景画像テキストを出力する。背景画像としては、場面、状況、物品、及び事象のうち少なくとも一つ、例えば、人物、人物の持ち物、人物の表情、風景、建築物の状況、室内の状況、動物、乗り物、その他の物品を挙げることができる。背景画像テキスト化部300は、背景画像情報抽出部310、背景画像内容認識部320、背景画像内容テキスト化部330を備える。
背景画像情報抽出部310は、ビデオ信号Vの映像信号Bから背景画像情報を抽出する。即ち、映像信号B中のテロップや不鮮明な画像を取り除き、認識可能な背景画像だけの情報を抽出する。
背景画像内容認識部320は、背景画像情報から背景画像の内容を認識する。即ち、背景画像情報を解析して表されている人物、人物の持ち物、人物の表情、風景、建築物の状況、室内の状況、動物、乗り物、その他の物品を認識する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去の背景画像テキストの入力データ及び生成データから機械学習により生成できる。
背景画像内容テキスト化部330は背景画像内容をテキスト化して出力する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去の背景画像テキストの入力データ及び生成データから機械学習により生成できる。
ロゴマークテキスト化部400は映像信号Bを受けてコンテンツ中におけるロゴマーク内容を記述したテキストであるロゴマークテキストを出力する。ロゴマークとしては、商品の出所を表示する商標、記号、符号を含むマーク、その他の標章を挙げることができる。ロゴマークテキスト化部400は、ロゴマーク画像情報抽出部410、ロゴマーク内容認識部420、ロゴマーク内容テキスト化部430を備える。
ロゴマーク画像情報抽出部410は、ビデオ信号Vの映像信号Bからロゴマーク画像情報を抽出する。即ち、映像信号B中のテロップや背景画像を取り除き、認識可能なロゴマーク画像だけの情報を抽出する。
ロゴマーク内容認識部420は、ロゴマーク画像情報からロゴマークの内容を認識する。即ち、ロゴマーク画像情報を解析して表されている商品、サービス、店舗、施設等を認識する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去のロゴマークテキストの入力データ及び生成データから機械学習により生成できる。
ロゴマーク内容テキスト化部430はロゴマーク画像内容をテキスト化して出力する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去のロゴマークテキストの入力データ及び生成データから機械学習により生成できる。
なお、発話テキスト化部100には、上記各部の他に、景観を認識してテキスト化する手段や、映像の特徴、例えば画像がCGであること、画像がコマーシャルであること等、映像のカット割りの特徴、明暗の特徴等を認識する手段を設けることができる。
これら認識され抽出された各種のテキスト情報は、解析部18に送出される。解析部18には、設定入力部20、過去データ蓄積部30、データ入力部40からのデータが入力され、解析すべき分野、分析のための機械学習に使用する過去データ、新たに入力されるデータが指定、入力される。
そして、解析部18は解析結果、例えば取得した情報に基づく結果、即ち、時間的に変化する状態の将来の傾向予測、効果的な画像等の編集方法、各種装置の最適な設定状態を出力する。
この結果は、企業の意思決定、商品やサービスの新規開発に有用な情報になる。また、この結果に基づいて、各種装置の制御を行うことができる。例えば、映像編集装置の制御、画像表示や音声出力装置の制御に使用できる。
次に、発話テキスト化部100、テロップテキスト化部200、背景画像テキスト化部300、ロゴマークテキスト化部400の機械学習処理の概要について説明する。処理の例として発話テキスト化部100の処理について説明する。
図4は同要約作成システムの発話テキスト化部を示すものであり、(a)はブロック図、(b)は処理の流れを示す図である。同図(a)に示すように、発話テキスト化部100は、発話情報抽出部110、発話内容認識部120、発話内容テキスト化部130の他、テキスト化学習手段である機械学習部140、内容認識テキスト作成設定部150、比較評価部160を備える。また発話テキスト化部100には、既存データ格納部800が接続されている。
発話テキスト化部100は既存データ格納部800が格納する既存のビデオデータと既存の発話テキストに基づいて機械学習を行い、発話内容認識部120及び発話内容テキスト化部130を最適化する。既存データ格納部800には、過去に人が発話テキストを作成したときに使用した多数のビデオデータを格納した既存ビデオデータ格納部810と、このビデオデータの発話内容から作成した発話テキストを格納した既存発話テキスト格納部820を備える。これらのビデオデータ及び発話テキストは機械学習の教材となる。
また、発話テキスト化部100には、機械学習を行うときと、新規のビデオデータから発話内容テキストを作成するときにデータ出力の切り換えを行う切換部170、180を備える。
内容認識テキスト作成設定部150は、発話情報抽出部110の発話情報における抽出処理の設定と、発話内容認識部120の発話内容認識処理の設定と、発話内容テキスト化部130のテキスト化処理の設定とが格納されている。発話情報抽出部110、発話内容認識部120及び発話内容テキスト化部130は内容認識テキスト作成設定部150の設定した条件、パラメータに従って発話情報抽出と、発話内容の認識、テキスト化とを行う。
比較評価部160は、比較部161と評価部162とを備える。比較部161は、既存ビデオデータ格納部910からの既存ビデオデータを受けて発話内容テキスト化部130が作成した発話テキストと、既存発話テキスト格納部820からの既存発話テキストとを比較する。評価部162は比較部161の比較結果に基づいて評価を行い、よく一致した場合は高い点数を与える。
機械学習部140は、評価部162からの評価を受け、内容認識テキスト作成設定部150の設定状態を変更する。この処理を同一のビデオデータについて繰り返し行い、評価部162の評価値をできるだけ高いものとする。この処理は複数のビデオデータについて繰り返し行うことができる。
このような機械学習を行うことにより、発話内容認識部120及び発話内容テキスト化部130の能力が向上する。所定の機械学習を終了した後、発話テキスト化部100は新規ビデオデータを処理して、最適な発話テキストを出力できる状態となる。
図4(b)に示すように、まず内容認識テキスト作成設定部150に音声認識及びテキスト化の特徴量を設定する(ステップSA1)。この設定は機械学習部140の学習結果により行う。
次いで、発話情報抽出部110が、設定された特徴に基づいて音声を大量の画像情報の中から抽出する(ステップSA2)。
さらに、発話内容認識部120が、設定された特徴に基づいて抽出した音声を解析する(ステップSA3)。
そして、発話内容テキスト化部130が、設定された特徴に基づいて音声をテキスト化して発話テキストを出力する(ステップSA4)。
次にテロップテキスト化部200の機械学習について説明する。図5は同要約作成システムのテロップテキスト化部を示すものであり、(a)はブロック図、(b)は処理の流れを示す図である。同図(a)に示すように、テロップテキスト化部200は、テロップ情報抽出部210、テロップ内容認識部220、テロップ内容テキスト化部230の他、機械学習部240、内容認識テキスト作成設定部250、比較評価部260を備える。またテロップテキスト化部200には、既存データ格納部900が接続されている。
テロップテキスト化部200は既存データ格納部900が格納する既存のビデオデータと既存のテロップテキストに基づいて機械学習を行い、テロップ内容認識部220及びテロップ内容テキスト化部230を最適化する。既存データ格納部900には、過去に人がテロップテキストを作成したときに使用した多数のビデオデータを格納した既存ビデオデータ格納部910と、このビデオデータの発話内容から作成したテロップテキストを格納した既存テロップテキスト格納部920を備える。これらのビデオデータ及び発話テキストは機械学習の教材となる。
また、テロップテキスト化部200には、機械学習を行うときと、新規のビデオデータから発話内容テキストを作成するときにデータ出力の切り換えを行う切換部270、280を備える。
内容認識テキスト作成設定部250は、テロップ情報抽出部210のテロップ情報抽出の設定と、テロップ内容認識部220のテキスト内容認識処理の設定と、テロップ内容テキスト化部230のテキスト化処理の設定とが格納されている。テロップ情報抽出部210、テロップ内容認識部220及びテロップ内容テキスト化部230は内容認識テキスト作成設定部250の設定した条件、パラメータに従ってテロップの抽出、内容認識、及びテキスト化を行う。
比較評価部260は、比較部261と評価部262とを備える。比較部261は、既存ビデオデータ格納部910からの既存ビデオデータを受けてテロップ内容テキスト化部230が作成したテロップテキストと、既存テロップテキスト格納部920からの既存テロップテキストとを比較する。評価部262は比較部261の比較結果に基づいて評価を行い、よく一致した場合は高い点数を与える。
機械学習部240は、評価部262からの評価を受け、内容認識テキスト作成設定部250の設定状態を変更する。この処理を同一のビデオデータについて繰り返し行い、評価部262の評価値をできるだけ高いものとする。この処理は複数のビデオデータについて繰り返し行うことができる。
このような機械学習を行うことにより、テロップ内容認識部220及びテロップ内容テキスト化部230の能力が向上する。所定の機械学習を終了した後、テロップテキスト化部200は新規ビデオデータを処理して、最適なテロップテキストを出力できる状態となる。
図5(b)に示すように、まず内容認識テキスト作成設定部250にテロップ情報抽出、内容抽出、及びテキスト化の特徴量を設定する(ステップSB1)。この設定は機械学習部240の学習結果により行う(ステップSB2)。
次いで、テロップ情報抽出部210が、設定された特徴に基づいてテロップを大量の映像信号の中から抽出する(ステップSB2)。
さらに、テロップ内容認識部220が、設定された特徴に基づいて抽出したテロップを解析する(ステップSB3)。
そして、テロップ内容テキスト化部230が、設定された特徴に基づいてテロップの内容をテキスト化してテロップテキストとして出力する(ステップSB4)。
なお、機械学習の手法は上述したものに限定されず、他の手法によるものであってよい。また、背景画像テキスト化部300、ロゴマークテキスト化部400も同様の手法により機械学習を行う。背景や顔認識についても、同様に機械学習を行う。
なお、この発話テキスト化部100、テロップテキスト化部200、背景画像テキスト化部300、ロゴマークテキスト化部400における学習は、上記手順に限られない。他の手法による機械学習によっても行うことができる。
次に情報解析部10の適用例について説明する。図6は同データ解析システムの各種解析の態様を示す図である。
図6に示す例では、情報解析部10は、上述したように取得した映像情報から、認識技術60として、音声認識61、ロゴマーク認識62、人物認識63、景観認識64、文字/テロップ認識65、画像の特徴認識66、コマーシャル認識67、編集過程画像認識68を行う。なお、必要に応じて認識対象を変更、増加することができる。
音声認識61では、発声内容を認識してテキスト情報を作成する他、背景音がどのような種類の音声かのラベル付け等を行う。
ロゴマーク認識62では、画像中のロゴマークのテキスト抽出、ロゴマークが表示する会社、団体、商品、サービスを認識し識別情報を生成する。
人物認識63では、人物の顔、体型、動作の特性から個人を識別し、識別情報を作成する。
景観認識64では、画像の景観、背景から、撮影場所、状況、背景に現れる物体の識別情報を生成する。例えば撮影個所の地名の特定、災害の特定、登場した車や物品の特定を行う。
テロップ認識65では、映像に表示されるテロップの内容、色彩、大きさ、画面上の位置、表示時間、回数等を認識して識別情報を生成する。
特徴認識66では、画像の特徴を認識する。例えば、映像が自然の風景についてである、ドラマである、映画である等である。また、映像のブレや場面転換の数等から、プロやハイアマチュアの撮影であるか、あるいはアマチュアの撮影であるかを認識する。
コマーシャル認識67では、コマーシャルの商品、商品の表示状態、表示回数、ナレーションの内容を認識する。
編集過程画像認識68では、編集前の元映像と編集後の映像とから、元映像のどの部分を編集に使用したか、切り取った映像をどのように並べているか、テロップ、効果音をどのように選択して挿入したかを識別する。また、複数の元映像から場面を選択、組み合わせて再生した場合、複数の元映像から選択した特定の場面をどの程度の時間再生したか、どのように組み合わせて再生したかを認識する。
さらに、編集過程画像認識68では、視聴者自ら再生装置やテレビ等のリモートコントローラーを使用して、自分が希望する映像部分のみをコピーする作業の状態を認識し、視聴者の要望又は視聴者の一連の映像情報中における、視聴者の要望又は特定の部分的映像の視聴回数データ等を認識する。
そして、これらの認識に基づいて以下の解析処理70を行う。この解析処理は様々な分野、目的で行うことができる。
この解析処理70には以下のものを含むことができる。
例えば、メタデータの自動作成する(71A)。ナレーション、台詞、背景音から取得した情報、画像の人物、テロップ、フリップ、ロゴマーク、背景から取得した情報をテレビ番組のメタデータとして出力し蓄積する。これにより過去番組の検索や統計的処理をしてテレビ等の分析を行う(71B)。
また、速報性のあるニュース等の公開情報の通知内容を収集する(72A)。この公開情報の内容から社会への影響を分析することができる(72B)。
人物/文言/フレーズ/ロゴ等の出現回数を計数する(73A)。これらの回数と経済効果分析、株価、売り上げ等との比較及び分析を行う(73B)。
世の中の傾向・流行等についての情報を収集する(74A)。この情報を分析して新商品の開発を行う(74B)。
映像作品のレビューについての情報を収集する(75A)。これに基づいて新作品の製作分析を行う(75B)。
映像作りについてチェックを行って映像作成の手法についての情報を収集する(76A)。この情報に基づいて新しい映像コンテンツの開発分析を行うことができる(76B)。
商品・サービスのレビューについての情報を収集する(77A)。これらの情報を分析して新製品、サービスのコンセプト開発分析を行うことができる(77B)。
映像作品の制作情報を収集する(78A)。これらの情報から自動映像作品の制作を行うことができる(78B)。
映像編集情報を収集する(79A)。これらの情報から映像自動編集を行う(79B)。
また、上述した処理の他、必要に応じて他の処理、例えば音楽解析、顔認証解析等を行うことができる。
本実施形態に係るデータ解析システム50では、これらの解析処理を行い、例えば、以下の適用装置・サービス80を提供することができる。
<自動映像編集>
本実施形態に係るデータ解析システム50は、自動映像編集装置81を提供することができる。自動映像編集装置81は、入力した映像を自動的に編集する。
映像制作においては、映像の撮影よりも撮影した映像の編集作業が非常に負担となっている。現場においては、現状はもっぱら複数のAD(アシスタントディレクター)が編集作業に追われている状況である。
しかしながら、本実施の形態に係るデータ解析システムによれば、過去から現在までにわたり蓄積された映像の特徴を人工知能により分析して、編集の傾向や手法を取得し、入力された素材となる各映像の特徴を基づいて、素材映像を自動的に編集することが可能になる。
その結果、現状最も負担となっている、撮影した多量の映像情報を自動的に編集することが可能となり、各種編集作業が容易かつ迅速に行うことが可能となる。
特に、今後普及する4K/8K映像に関しては、記録された映像情報は現状において、少なく、ユーザー自ら撮影する必要がある場合もあるが、このような自ら撮影した映像に関してはその後の編集が非常に煩雑となる。例えば、視聴者が見やすい映像をいかに編集するか、また、どのようなテロップを、どのような映像に、いかにインサートするか、音声をどのように使用するか、等の課題を解決する必要があり、専門知識のないユーザーにとっては非常に煩雑である。
このような場合に本実施の形態に係るデータ解析システムによれば、過去の編集情報に基づいて自動的に所望の8K映像を編集することが可能となる。この自動編集は、過去の映像作品の解析、元映像と編集後の映像の解析、実際の再生操作状態の解析に基づいて行うことができる。
また、従来TVにより提供される様々な所定の長さの映像情報の中で、視聴者の希望する映像のみをつなぎ合わせて再編集して視聴したい、という要請がある。現状、このような映像の再編集作業を行う場合には、視聴者自らTVのリモートコントローラーを使用して、自分が希望する映像部分のみをコピーする作業を行っている。しかし、この作業は非常に煩雑であった。
そこで、データ解析システム50は、このような要請に応え、人工知能により、視聴者の要望又は視聴者の一連の映像情報中における、視聴者の要望又は特定の部分的映像の視聴回数データを参照して視聴者の希望する特定の部分的映像を特定し、当該部分的映像が複数ある場合には、編集することにより新たな映像を作成する。
例えば、元映像のどのような種類の映像部分が数多く再生、コピーされたかを認識して、新たな映像の編集時には、編集元映像から当該種類の映像部分を抽出してこの映像部分を多く含む新たな映像を生成することができる。
その結果、4K/8Kの美麗な映像ソースを、容易かつ迅速にユーザー側で増大させることが可能となる。また、家庭においても、撮影した映像を簡単に編集することや、また、動画投稿サイトへの投稿動画の編集を容易かつ短期間に行うことができる。
<選別的自動全録画装置>
本実施形態に係るデータ解析システム50は、選別的自動全録画装置82を提供できる。選別的自動全録画装置82は、聴者の好みにあわせたテレビ番組を選択して録画する。
従来、いわゆる家庭用の「全自動録画装置」は、地上波、衛星放送から選択した全放送局から放送されて提供されるテレビ映像情報をすべて自動的に録画している。この録画情報は、膨大な情報量を持つ。しかし、記憶媒体の記録容量もあり記録媒体への記録、保存は所定の期間、例えば、数か月等に限られるという制限があった。また、視聴者にとって自己が視聴する番組を選択する手間も煩雑であった。
しかしながら、本実施の形態に係るデータ解析システムにあっては、過去蓄積された映像情報においてユーザーがその後使用(視聴)した映像を認識選別しておき、その選別情報に基づいて、ユーザー側の志向、嗜好、趣味、必要性を人工知能により、例えば、深層学習手法を用いることにより理解する。これにより、視聴者の志向、嗜好、趣味、必要性に基づいて、自動的に録画する映像情報を選別、選択して録画することが可能となる。
よって、従来は放送されてくる映像情報全体を記録していた場合に比して、記録録画する映像情報量を大幅に低減すること可能となり、結果的に、記録媒体へより長期間にわたって全自動録画を行うことが可能となり、視聴者も視聴選別の手間が省ける。
<自動(明暗・濃淡)調整映像投射・表示装置>
本実施形態に係るデータ解析システム50は、映像投射・表示装置83を提供することができる。映像投射・表示装置83は、画像投影表示時において映像コンテンツにあわせて自動的に最適な設定(明暗・濃淡設定)を行う。
従来、映像の明暗・濃淡の調整は手動あるいは画像の種類により自動的に行われている。しかしながら、この調整は煩雑である他、必ずしも適正なものではない。
本実施の形態に係るデータ解析システムによれば、個別の映像に基づき人工知能の判断によって、様々な映像を調整して投射、表示させることが可能となる。例えば、個別の映像の対象物(例えば、花、美術品、絵画等)により細密な表示が必要な場合には、映像の特徴を人工知能が認識することにより、自動的にズームアップして表示させ、また、風景の映像である場合には、人工知能の判断により、引いた映像を表示させる、等の映像表示の自動調性を、人手によることなく行うことが可能となる。
<再生時間自動設定装置>
本実施形態に係るデータ解析システム50は、再生時間自動設定装置84を提供することができる。再生時間自動設定装置84は、複数の映像を表示するに際し過去の再生を学習して各映像の最適な再生時間を設定する。
従来複数の映像コンテンツを順次再生して、視聴する場合、特にプレゼンテーション等で複数の画像を再生する場合がある。このような場合、各映像コンテンツの再生時間は操作者が自己の判断で決定していた。しかし、この方法では必ずしも最適な再生時間の設定ができない。
本実施の形態に係るデータ解析システムによれば、蓄積された過去の映像においてユーザーが再生した使用した映像情報を基に、人工知能を利用することによりユーザーの志向、嗜好、趣味、必要性が把握できることから、ユーザーの志向、嗜好、趣味、必要性に応じて再生に必要な時間を把握し、自動的に再生時間を設定することもでき、ユーザーの映像情報の再生に要する煩雑さを解消することができる。
<自動音量調整装置>
本実施形態に係るデータ解析システム50は、自動音量調整装置85を提供することができる。自動音量調整装置85は、映像コンテンツの種類、場面に最適な音響機器の各スピーカーへの音量、音質等を自動的に調整する。
複数の映像コンテンツを再生する場合、各コンテンツの再生における音量や音質を調整する必要がある。また、同一のコンテンツにおいても、場面により音量、音質を変更することにより最良の効果が得られる場合がある。このような場合、各映像コンテンツの再生音量、音質は操作者が自己の判断で決定していた。しかし、この方法では必ずしも最適な再生音量音質の設定ができない。
本実施の形態に係るデータ解析システムによれば、個別の映像に基づき人工知能の判断によって、様々な映像に対応する音声、音量、音質等を調整、制御ことが可能となる。例えば、個別の映像の対象物(例えば、花、美術品、絵画等)により細密な表示が必要な場合には、映像の特徴を人工知能が認識することにより、自動的に音量を大きく、又は音量を小さく、音質を変化させる、又は効果音を挿入する等の制御を人工知能の判断により人手を介することなく行うことが可能となる。その結果、ユーザーによる映像鑑賞の際の、音声聴取に関する利便性を向上させることが可能となる。
<過去データ基づく音量自動調整装置>
本実施形態に係るデータ解析システム50は、過去データ基づく音量自動調整装置86を提供することができる。過去データ基づく音量自動調整装置86は過去の再生音量の記録に基づいて再生音量を自動的に設定する。
複数の映像コンテンツを再生する場合、各コンテンツの再生における音量や音質を調整する必要がある。また、同一のコンテンツにおいても、場面により音量、音質を変更することにより最良の効果が得られる場合がある。このような場合、各映像コンテンツの再生音量、音質は操作者が自己の判断で決定していた。しかし、この方法では必ずしも最適な再生音量音質の設定ができない。
本実施の形態に係るデータ解析システムによれば、過去に再生した映像に基づき人工知能の判断によって、様々な映像に対応する音声、音量、音質等を調整、制御ことが可能となる。
<対策・方向転換・見通し分析装置>
本実施形態に係るデータ解析システム50は、対策・方向転換・見通し分析装置87を提供することができる。対策・方向転換・見通し分析装置87は、取得し蓄積した過去の情報から将来の対策・方向転換・見通しを分析することができる。
従来、対策・方向転換・見通しは過去の情報を分析者が分析をすることにより得ていた。しかし、的確な分析や対策・方向転換・見通しの立案には豊富な知識と経験とを有する専門家でなければできない。
本実施の形態に係るデータ解析システムにあっては、現在放送されている映像情報、又は過去蓄積された映像情報を音声、ロゴマーク、人物、景観、文字テロップ、特徴、CM等の観点から認識、分析することが可能であることから、そのような分析に基づき、人工知能の深層学習手法を用いて様々な経済分野、政治分野、教育分野、産業分野等における課題、問題に関する解決の方策、対策、解決の方向性等に関するソリューションを提供することが可能となる。
<映像作品制作装置>
本実施形態に係るデータ解析システム50は、自動映像作品制作装置88を提供できる。自動映像作品制作装置88は、過去の映像作品を踏まえて新たな映像作品を制作することができる。
従来、新規映像作品の制作は、企画者、制作者、原作者等により過去現在の流行や予測に基づいてコンセプトや内容が策定されている。
しかし、このような手法では、作品の内容は個人的資質に異存する他、決定に時間がかかる場合がある。
本実施の形態に係るデータ解析システム50にあっては、現在放送されている映像情報、又は過去蓄積された映像情報を音声、ロゴマーク、人物、景観、文字テロップ、特徴、CM等の観点から認識、分析することが可能であることから、そのような分析に基づき、新たな映像作品を制作する際に、どのような種類の映像作品がヒットするか、どのような映像がトレンドに合致するか、配役の選択、映像手法の選択等に関する分析、回答を人工知能の深層学習を用いて行い、新たな映像作品の制作に利用することができる。
その結果、ヒットする可能性の高い映像作品、文化的レベルの高い映像作品を自動的に提供することが可能となる。
<新市場へのアプローチサービス>
本実施形態に係るデータ解析システム50は、新市場へのアプローチサービス89を提供できる。新市場へのアプローチサービス89により、開拓すべき新たな市場についての予測を取得することができる。
従来、新市場へのアプローチについては過去の商品や市場についての情報を専門の分析者が分析をすることにより得ていた。しかし、的確な分析やアプローチについての結果を得るには、豊富な知識と経験とを有する専門家に依頼する必要があり、費用、時間とも負担が大きい。
本実施の形態に係るデータ解析システムにあっては、現在放送されている映像情報、又は過去蓄積された映像情報を音声、ロゴマーク、人物、景観、文字テロップ、特徴、CM等の観点から認識、分析することが可能であることから、そのような分析に基づき、人工知能の深層学習手法を用いて商品や市場、購買者の動向、流行等の他、様々な経済分野、政治分野、教育分野、産業分野等についての情報に基づいて新商品のアプローチに関するソリューションを提供することが可能となる。
<新製品・新サービスの創造サービス>
本実施形態に係るデータ解析システム50は、新製品・新サービスの創造サービス90を提供できる。新製品・新サービスの創造サービス90により、新製品・新サービスを創造することができる。
従来、新製品・新サービスの創造については過去の商品や市場についての情報を専門の分析者が分析をすることにより得ていた。しかし、的確な分析やアプローチについての結果を得るには、豊富な知識と経験とを有する専門家に依頼する必要があり、費用、時間とも負担が大きい。
本実施の形態に係る新製品・新サービスの創造にあたっては、現在放送されている映像情報、又は過去蓄積された映像情報を音声、ロゴマーク、人物、景観、文字テロップ、特徴、CM等の観点から認識、分析することが可能であることから、そのような分析に基づき、人工知能の深層学習手法を用いて商品や市場、購買者の動向、流行等の他、様々な経済分野、政治分野、教育分野、産業分野等についての情報に基づいて新商品・新サービスの創造に関するソリューションを提供することが可能となる。
<新社会への提言サービス>
本実施形態に係るデータ解析システム50は、新社会への提言サービス91を提供することができる。新社会への提言サービス91により、将来の社会のあり方、方策についての提言を得ることができる。
従来、新社会への提言は、過去の社会状況や動向、将来の目標等のついての情報を専門のシンクタンクや分析者が分析をすることにより得ていた。しかし、的確な分析やアプローチについての結果を得るには、豊富な知識と経験とを有するシンクタンクや専門家に依頼する必要があり、費用、時間とも負担が大きい。
本実施の形態に係るデータ解析システムにあっては、現在放送されている映像情報、又は過去蓄積された映像情報を音声、ロゴマーク、人物、景観、文字テロップ、特徴、CM等の観点から認識、分析することが可能であることから、そのような分析に基づき、人工知能の深層学習手法を用いて過去の国内外の様々な社会分野、経済分野、政治分野、教育分野、産業分野等についての情報に基づいて新社会の提言に関するソリューションを提供することが可能となる。
<新経済指標サービス>
本実施形態に係るデータ解析システム50は、新経済指標サービス92を提供できる。新経済指標サービス92により、正確な経済指標を得ることができる。
従来、新経済指標については過去の経済状態及び将来の予測についての情報を専門の分析者やシンクタンクが分析をすることにより得ていた。しかし、的確な分析やアプローチについての結果を得るには、豊富な知識と経験とを有する専門家やシンクタンクが行う必要があり、費用、時間とも負担が大きい。
本実施の形態に係るデータ解析システムにあっては、現在放送されている映像情報、又は過去蓄積された映像情報を音声、ロゴマーク、人物、景観、文字テロップ、特徴、CM等の観点から認識、分析することが可能であることから、そのような分析に基づき、人工知能の深層学習手法を用いて商品や市場、購買者の動向、流行等の他、様々な経済分野、政治分野、教育分野、産業分野等についての情報に基づいて新経済指標を得るソリューションを提供することが可能となる。
<社会分析サービス>
本実施形態に係るデータ解析システム50は、社会分析サービス93を提供することができる。社会分析サービス93により、現在の社会の状態を把握でき、将来の経済、政治、教育等の方策を得ることができる。
従来、社会分析については過去の社会情勢についての情報を専門の分析者が分析をすることにより得ていた。しかし、的確な分析やアプローチについての結果を得るには、豊富な知識と経験とを有する専門家に依頼する必要があり、費用、時間とも負担が大きい。
本実施の形態に係るデータ解析システムにあっては、現在放送されている映像情報、又は過去蓄積された映像情報を音声、ロゴマーク、人物、景観、文字テロップ、特徴、CM等の観点から社会情勢を認識、分析することが可能であることから、そのような分析に基づき、人工知能の深層学習手法を用いて経済分野、政治分野、教育分野、産業分野等についての情報に基づいて社会分析を行いその結果を提供することが可能となる。
なお、データ解析システム50が適用できる製品・サービスは上記の例に限らない。蓄積された過去の映像情報や音声情報から認識された情報に基づいて制作処理や予測処理ができるあらゆる分野のサービスや装置に適用可能である。
本発明に係るデータ解析システムは、テレビ放送やインターネット配信映像、ラジオ音声等の情報を解析して、解析結果として様々な分野の傾向分析、将来の予想、新たな創作、自動的処理に必要な解析結果を出力することができ、その結果を産業上の様々な分野に利用できる。
10:情報解析部
11:映像情報取得部
12:画像音声分離部
13:画像抽出部
14:画像テキスト化部
15:音声抽出部
16:音声テキスト化部
17:蓄積部
18:解析部
20:設定入力部
30:過去データ蓄積部
40:データ入力部
50:データ解析システム
60:認識部
61:音声認識
62:ロゴマーク認識
63:人物認識
64:景観認識
65:テロップ認識
66:特徴認識
67:コマーシャル認識
68:編集過程画像認識
70:分析部
80:装置・サービス
81:自動映像編集
82:選別的自動全録画装置
83:表示装置
84:再生時間自動設定装置
85:音量等自動調整
86:自動調整
87:見通し分析
88:自動映像作品の制作
100:発話テキスト化部
110:発話情報抽出部
120:発話内容認識部
130:発話内容テキスト化部
140:機械学習部
150:内容認識テキスト作成設定部
160:比較評価部
161:比較部
162:評価部
170:切換部
180:切換部
200:テロップテキスト化部
210:テロップ情報抽出部
220:テロップ内容認識部
230:テロップ内容テキスト化部
240:機械学習部
250:内容認識テキスト作成設定部
260:比較評価部
261:比較部
262:評価部
270:切換部
280:切換部
300:背景画像テキスト化部
310:背景画像情報抽出部
320:背景画像内容認識部
330:背景画像内容テキスト化部
400:ロゴマークテキスト化部
410:ロゴマーク画像情報抽出部
420:ロゴマーク内容認識部
430:ロゴマーク内容テキスト化部
500:テキスト統合部
600:要約作成部
700:ビデオ信号分離部
800:既存データ格納部
810:既存ビデオデータ格納部
820:既存発話テキスト格納部
900:既存データ格納部
910:既存ビデオデータ格納部
920:既存テロップテキスト格納部
A:画像情報
B:映像信号
I:インターネット
S:ビデオ装置
V:ビデオ信号

Claims (10)

  1. 取得した映像情報及び音声情報のうち少なくとも一方である対象情報を解析して、指定した分野における解析結果を出力するシステムであって、
    人工知能が対象情報から解析対象情報を抽出する手段と、
    人工知能が前記解析対象情報を解析して当該指定した分野における解析結果を出力する手段と、
    を備えることを特徴とするデータ解析システム。
  2. 前記人工知能が、強化学習、ディープラーニング、深層強化学習、機械学習パターンマッチング、及びルールベースAIの少なくとも一つの手法を使用することを特徴とする請求項1に記載のデータ解析システム。
  3. 前記解析対象情報は、テキスト情報、画像情報、音声情報を含むデジタル情報であることを特徴とする請求項1に記載のデータ解析システム。
  4. 前記解析対象情報は、類似とされる画像群とそのラベルを含むデジタル情報であることを特徴とする請求項1に記載のデータ解析システム。
  5. 前記映像情報から音声情報と画像情報とを分離する手段と、
    前記音声情報から解析対象とする音声情報を抽出する手段と、
    前記抽出した音声情報を解析して発話内容及び属性の少なくとも一方の意味を認識する手段と、
    前記画像情報から人物、ロゴマーク、文字、テロップ、景観をそれぞれ抽出し、前記抽出した画像情報の意味を認識する手段と、
    を備えることを特徴とする請求項1に記載のデータ解析システム。
  6. 前記音声情報から人の声の画像情報を抽出する手段と、
    前記画像情報から発声内容を認識し、発声情報を出力する手段と、
    前記認識した発声情報をテキスト化して音声テキストを出力する手段と、
    前記画像情報からテロップを示すテロップ信号を抽出する手段と、
    前記テロップ信号からテロップ内容を認識し、テロップ情報を出力する手段と、
    前記テロップ情報をテキスト化してテロップテキストを出力する手段と、
    前記画像情報から背景画像情報を抽出する手段と、
    前記背景画像情報から背景画像の内容を認識し、背景情報を出力する手段と、
    前記背景情報をテキスト化して背景テキストを出力する手段と、
    前記画像情報からロゴ画像情報を抽出する手段と、
    前記背景情報から表示されたロゴ画像内容を認識し、ロゴ情報を出力する手段と、
    前記ロゴ情報をテキスト化してロゴテキストを出力する手段と、
    を備えることを特徴とする請求項1に記載のデータ解析システム。
  7. テキスト化に際しては、蓄積された過去のテキスト化処理における入力データと出力データから最適なテキスト作成設定を学習するテキスト化学習手段を備えることを特徴とする請求項6に記載のデータ解析システム。
  8. 前記解析結果に基づいて、映像情報のメタデータの生成、社会状況の傾向分析の生成、経済状態の傾向分析の生成、流行傾向の分析情報の生成、映像の編集、映像コンテンツの生成、商品・サービスの開発情報の生成の少なくとも一つを行う手段を備えることを特徴とする請求項1に記載のデータ解析システム。
  9. 前記人工知能により、編集前の元映像と編集後の映像、又は再生された映像を解析し、この解析結果に基づいて、新たに入力された映像を編集することを特徴とする請求項1に記載のデータ解析システム。
  10. 前記人工知能により、視聴者の要望又は視聴者の視聴回数データに基づき、一連の映像情報中の部分的映像情報を、前記部分的映像情報の始点と終点を特定して抽出することにより前記部分的映像を抽出して編集して、新たな映像を作成することを特徴とする請求項1記載のデータ解析システム。
JP2019015779A 2019-01-31 2019-01-31 データ解析システム Pending JP2020123228A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019015779A JP2020123228A (ja) 2019-01-31 2019-01-31 データ解析システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019015779A JP2020123228A (ja) 2019-01-31 2019-01-31 データ解析システム

Publications (1)

Publication Number Publication Date
JP2020123228A true JP2020123228A (ja) 2020-08-13

Family

ID=71992770

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019015779A Pending JP2020123228A (ja) 2019-01-31 2019-01-31 データ解析システム

Country Status (1)

Country Link
JP (1) JP2020123228A (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017059082A (ja) * 2015-09-18 2017-03-23 ヤフー株式会社 情報提供装置、情報提供方法および情報提供プログラム
JP2018033048A (ja) * 2016-08-25 2018-03-01 Jcc株式会社 メタデータ生成システム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017059082A (ja) * 2015-09-18 2017-03-23 ヤフー株式会社 情報提供装置、情報提供方法および情報提供プログラム
JP2018033048A (ja) * 2016-08-25 2018-03-01 Jcc株式会社 メタデータ生成システム

Similar Documents

Publication Publication Date Title
JP5691289B2 (ja) 情報処理装置、情報処理方法、及び、プログラム
US20190294668A1 (en) Methods and systems for generating contextual data elements for effective consumption of multimedia
CN102696223B (zh) 多功能多媒体装置
JP2012038239A (ja) 情報処理装置、情報処理方法、及び、プログラム
DE69937001T2 (de) Bereitstellung von nach benutzer-interesse gefilterten werken
US8126763B2 (en) Automatic generation of trailers containing product placements
CN103914530B (zh) 广播电视节目中违规广告的监测方法和系统
US20080120646A1 (en) Automatically associating relevant advertising with video content
US20210082472A1 (en) Video-log production system
CN104486649B (zh) 视频内容评级方法及装置
JP2011528879A (ja) テレビジョンシーケンスを提供するための装置および方法
CN110505498A (zh) 视频的处理、播放方法、装置及计算机可读介质
KR102340963B1 (ko) Ai 기반의 영상 제작 방법 및 장치
US20220351236A1 (en) System and methods to predict winning tv ads, online videos, and other audiovisual content before production
CN111128103A (zh) 一种沉浸式ktv智能点唱系统
CN110781346A (zh) 基于虚拟形象的新闻生产方法、系统、装置和存储介质
CN110418148B (zh) 视频生成方法、视频生成设备及可读存储介质
KR20210066206A (ko) 딥러닝을 이용한 맞춤형 광고 제작 장치
KR101867950B1 (ko) 생방송 및 영상서비스용 실시간 부가정보 표시 시스템
CN116935170B (zh) 视频处理模型的处理方法、装置、计算机设备和存储介质
CN113992973A (zh) 视频摘要生成方法、装置、电子设备和存储介质
CN116737936B (zh) 一种基于人工智能的ai虚拟人物语言库分类管理系统
CN116980665A (zh) 一种视频处理方法、装置、计算机设备、介质及产品
JP2020123228A (ja) データ解析システム
JP2019213038A (ja) 映像情報提供システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211022

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220328

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220810

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220930

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20221128

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230320