JP2018033048A

JP2018033048A - メタデータ生成システム

Info

Publication number: JP2018033048A
Application number: JP2016165100A
Authority: JP
Inventors: 孝利石井; Takatoshi Ishii
Original assignee: JCC KK
Current assignee: JCC KK
Priority date: 2016-08-25
Filing date: 2016-08-25
Publication date: 2018-03-01
Anticipated expiration: 2036-08-25
Also published as: JP6857983B2

Abstract

【課題】テレビ放送番組又はインターネット配信動画に関するメタデータを精度良く自動生成することが出来るシステムを提供する。【解決手段】映像Ｖを録画する録画ファイル１１を有する録画手段１２と、録画ファイル１１に録画された映像Ｖから文字情報Ｃを取得する文字情報取得手段１３と、文字情報取得手段１３によって取得された文字情報Ｃを集約して文章化する文字情報文章化手段１４と、文字情報文章化手段１４によって文章化された文字情報を録画ファイル１１に録画された映像ＶのメタデータＭとしてメタデータ格納ファイル１５に格納するメタデータ格納手段１６とを備えている。【選択図】図１

Description

本発明は、メタデータを生成するシステムに関し、特にテレビ放送番組又はインターネット配信動画に関するメタデータを生成するシステムに関するものである。

従来より、テレビ放送番組又はインターネット配信動画に関するメタデータの重要性が高まってきている。メタデータとは、あるデータそのものではなく、そのデータに関連する情報のことである。データの作成日時や作成者、データ形式、タイトル、注釈などが考えられる。データを効率的に管理したり検索したりするために重要な情報である。
例えば、本件特許出願人は、過去において、テレビ放送局が放送するテレビ放送番組を録画する録画手段と、前記録画手段により録画された映像に対応させ番組内容を要約したメタデータを格納するメタデータ格納手段と、画面上に前記メタデータを表示させることができるディスプレイ手段とを備え、ユーザーが画面上に表示されたメタデータを視認して適宜選択することにより、当該メタデータに対応する映像を画面上に表示させて視認できるように構成された映像システムに関する発明を出願して特許を取得している（特許文献１）。

しかしながら、テレビ放送番組に関するメタデータは、人間の手によって作成されることが一般的であり、時間とコストとがかかっていた。また、一度作成されたメタデータは、当該番組に限って利用されることが一般的であるため、同じような情報を繰り返し利用することも難しく、効率も良くないという不具合があった。
前記事情は、テレビ放送番組に限らず、急速に実用化が進んだインターネット配信動画に関しても存在するため、インターネット配信動画に関するメタデータについても同様の不具合があった。

特許第４２２７８６６号

本発明は、以上のような従来の不具合を解決するためのものであって、その課題は、テレビ放送番組又はインターネット配信動画に関するメタデータを短時間で作成し、人的コストを削減することができるシステムを提供することにある。

前記課題を解決するために、請求項１に記載の発明にあっては、映像を録画する録画ファイルを有する録画手段と、前記録画ファイルに録画された映像に表示された文字情報を取得する文字情報取得手段と、前記文字情報取得手段によって取得された前記文字情報を集約して文章化する文字情報文章化手段と、前記文字情報文章化手段によって文章化された前記文字情報を前記録画ファイルに録画された映像のメタデータとしてメタデータ格納ファイルに格納するメタデータ格納手段とを備えることを特徴とする。

ここで、文字情報とは、映像に表示され、映像に関連する単語、文章の情報であって、例えば、映像に表示されたテロップの文字列を含む概念である。
従って、前記録画手段によって、前記録画ファイルに映像が録画された場合には、前記文字情報取得手段によって、前記録画ファイルに録画された前記映像に表示された文字情報が取得され、前記文字情報文章化手段によって、取得された前記文字情報が文章化され、前記メタデータ格納手段によって、文章化された前記文字情報が前記映像のメタデータとして前記メタデータ格納ファイルに格納される。

請求項２に記載の発明にあっては、前記文字情報取得手段は、前記録画ファイルに録画された映像に対して画像解析を行い、前記映像から文字情報を抽出する文字情報抽出手段と、前記文字情報抽出手段によって抽出された前記文字情報を辞書ファイルと照合する辞書照合手段とを有することを特徴とする。
ここで、辞書ファイルには、各国の言語に関する文字、熟語を有する辞書データが照合可能に含まれている。
従って、前記文字情報抽出手段によって、前記録画ファイルに録画された前記映像が画像解析されることにより前記映像から文字情報が抽出され、前記辞書照合手段によって、抽出された前記文字情報が前記辞書ファイルと照合される。

請求項３に記載に発明にあっては、前記文字情報抽出手段は、画像解析済みの映像と、前記画像解析済みの映像から抽出された文字情報とを有する画像解析蓄積ファイルと照合して画像解析する画像解析手段を有することを特徴とする。
ここで、画像解析済みの映像とは、これまでに画像解析された映像を意味し、前記画像解析済みの映像から抽出された文字情報とは、画像解析された結果、正しく前記映像から抽出された文字情報を意味する。
従って、前記画像解析手段によって、前記録画ファイルに録画された前記映像が、画像解析済みの映像と、前記画像解析済みの映像から抽出された文字情報とを有する画像解析蓄積ファイルと照合されることにより、画像解析される。

請求項４に記載の発明にあっては、前記文字情報抽出手段は、前記画像解析手段によって画像解析された映像と、前記映像から抽出された文字情報とに基づいて、前記画像解析蓄積ファイルを修正する画像解析学習手段をさらに有することを特徴とする。
ここで、修正は追加、削除を含む概念である。
従って、前記画像解析学習手段によって、前記画像解析蓄積ファイルが前記画像解析手段によって画像解析された映像と、前記映像から抽出された文字情報とに基づいて修正される。

請求項５に記載の発明にあっては、前記文字情報取得手段は、前記録画ファイルに録画された映像に対して画像解析を行い、前記映像から文字情報を抽出する文字情報抽出手段と、前記文字情報抽出手段によって抽出された前記文字情報をインターネットにより検索し取得された情報と照合するインターネット照合手段とを有することを特徴とする。
ここで、インターネットにより検索し取得された情報とは、大手新聞社、地方新聞社、ニュース配信会社、テレビ会社等のサイト、ニュース専門サイト、ニュースまとめサイト、その他一般のウェブサイトから取得される情報や、オンライン辞書等から取得される用語解説に関する情報を含む概念である。
従って、前記文字情報抽出手段によって、前記録画ファイルに録画された前記映像が画像解析されることにより前記映像から文字情報が抽出され、前記インターネット照合手段によって、抽出された前記文字情報がインターネットにより検索され取得された情報と照合される。

請求項６に記載の発明にあっては、前記文字情報取得手段は、前記文字情報抽出手段によって抽出された文字情報に基づいて、前記辞書ファイルを修正する辞書更新手段をさらに有することを特徴とする。
ここで、修正は追加、削除を含む概念である。
従って、前記辞書更新手段によって、前記辞書ファイルが前記文字情報抽出手段によって抽出された前記文字情報に基づいて修正される。

請求項７に記載の発明にあっては、前記辞書ファイルは、辞書データと、前記辞書データの頻度パラメータとを有し、前記辞書照合手段は、前記頻度パラメータの大きい辞書データを照合対象として優先的に選択することを特徴とする。
ここで、頻度パラメータとは、辞書データに含まれる単語、熟語等が映像にどのような頻度で表示されているかを表すパラメータである。具体的には、前記辞書照合手段が、前記文字情報抽出手段によって映像から抽出された文字情報を辞書ファイルと照合する毎に前記頻度パラメータを更新する。
従って、前記辞書照合手段によって、前記頻度パラメータの大きい前記辞書データが照合対象として優先的に選択され、選択された前記辞書データと、前記文字情報抽出手段によって抽出された前記文字情報とが照合される。

請求項８に記載の発明にあっては、前記文字情報文章化手段は、前記メタデータ格納ファイルを参照し、前記文字情報取得手段によって取得された前記文字情報に関連するメタデータを前記文字情報の文章化に利用することを特徴とする。
従って、前記文字情報文章化手段は、前記文字情報取得手段によって取得された前記文字情報を集約して文章化する際に、前記メタデータ格納ファイルを参照して、前記文字情報に関連する作成済のメタデータを前記文字情報の文章化に利用することができる。

請求項９に記載の発明にあっては、前記文字情報文章化手段は、前記録画ファイルに録画された映像の電子番組表データを取得し、前記文字情報の文章化に利用することを特徴とする。
ここで、電子番組表データとは、テレビ放送局が放送する放送番組映像やインターネットによって配信される動画映像の放送日時、配信日時、ジャンル、タイトル、出演者等の情報が含まれたデータである。
従って、前記文字情報文章化手段は、前記文字情報取得手段によって取得された前記文字情報を集約して文章化する際に、前記映像の電子番組表データを取得して、前記文字情報の文章化に利用することができる。

請求項１０に記載の発明にあっては、前記文字情報取得手段は、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情と、人物情報、ロゴ情報、物情報又は表情情報とを照合し、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情を文字情報として抽出する映像認識情報抽出手段を有することを特徴とする。
従って、前記映像認識情報抽出手段によって、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情と、人物情報、ロゴ情報、物情報又は表情情報とが照合され、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情が文字情報として抽出される。

請求項１１に記載に発明にあっては、前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報は、画像解析済みの映像と、前記画像解析済みの映像から抽出された文字情報とにより構成されていることを特徴とする。
ここで、画像解析済みの映像とは、これまでに画像解析された映像を意味し、前記画像解析済みの映像から抽出された文字情報とは、画像解析された結果、正しく前記映像から抽出された文字情報を意味する。
従って、前記映像認識情報抽出手段によって、前記録画ファイルに録画された前記映像が、画像解析済みの映像と、前記画像解析済みの映像から抽出された文字情報とを有する前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報と照合されることにより、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情が文字情報として抽出される。

請求項１２に記載の発明にあっては、前記文字情報取得手段は、前記映像認識情報抽出手段によって画像解析された映像と、前記映像から抽出された文字情報とに基づいて、前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報を修正する映像認識学習手段をさらに有することを特徴とする。
ここで、修正は追加、削除を含む概念である。
従って、前記映像認識学習手段によって、前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報が、前記映像認識情報抽出手段によって画像解析された映像と、前記映像から抽出された文字情報とに基づいて修正される。

請求項１３に記載の発明にあっては、前記文字情報取得手段は、前記録画ファイルに録画された映像と共に録音された音声に対して音声解析を行い、前記音声から文字情報を抽出する音声情報抽出手段と、前記音声情報抽出手段によって抽出された前記文字情報を辞書ファイルと照合する辞書照合手段とを有することを特徴とする。
従って、前記音声情報抽出手段によって、前記録画ファイルに録画された前記映像と共に録音された前記音声が音声解析されることにより前記音声から文字情報が抽出され、前記辞書照合手段によって、抽出された前記文字情報が前記辞書ファイルと照合される。

請求項１４に記載に発明にあっては、前記音声情報抽出手段は、音声解析済みの音声と、前記音声解析済みの音声から抽出された文字情報とを有する音声解析蓄積ファイルと照合して音声解析する音声解析手段を有することを特徴とする。
ここで、音声解析済みの音声とは、これまでに音声解析された音声を意味し、前記音声解析済みの音声から抽出された文字情報とは、音声解析された結果、正しく前記音声から抽出された文字情報を意味する。
従って、前記音声解析手段によって、前記録画ファイルに録画された前記映像と共に録音された前記音声が、音声解析済みの音声と、前記音声解析済みの音声から抽出された文字情報とを有する音声解析蓄積ファイルと照合されることにより、音声解析される。

請求項１５に記載の発明にあっては、前記文字情報取得手段は、前記音声解析手段によって音声解析された音声と、前記音声から抽出された文字情報とに基づいて、前記音声解析蓄積ファイルを修正する音声解析学習手段をさらに有することを特徴とする。
ここで、修正は追加、削除を含む概念である。
従って、前記音声解析学習手段によって、前記音声解析蓄積ファイルが前記音声解析手段によって音声解析された音声と、前記音声から抽出された文字情報とに基づいて修正される。

請求項１６に記載の発明にあっては、前記文字情報取得手段は、前記録画ファイルに録画された映像に対して画像解析を行い、前記映像から文字情報を抽出する文字情報抽出手段と、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情と、人物情報、ロゴ情報、物情報又は表情情報とを照合し、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情を文字情報として抽出する映像認識情報抽出手段と、前記録画ファイルに録画された映像と共に録音された音声に対して音声解析を行い、前記音声から文字情報を抽出する音声情報抽出手段と、前記文字情報抽出手段、前記映像認識情報抽出手段、及び、前記音声情報抽出手段によって、夫々、抽出された文字情報を互いに照合する複合情報照合手段とを有することを特徴とする。
従って、前記録画手段によって、前記録画ファイルに映像が録画された場合には、前記文字情報抽出手段によって、前記録画ファイルに録画された前記映像が画像解析されることにより前記映像から文字情報が抽出され、前記映像認識情報抽出手段によって、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情と、人物情報、ロゴ情報、物情報又は表情情報とが照合され、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情が文字情報として抽出され、前記音声情報抽出手段によって、前記録画ファイルに録画された前記映像と共に録音された前記音声が音声解析されることにより前記音声から文字情報が抽出され、前記複合情報照合手段によって、前記文字情報抽出手段、前記映像認識情報抽出手段、及び、前記音声情報抽出手段によって、夫々、抽出された文字情報が互いに照合される。

請求項１７に記載の発明にあっては、前記映像は、テレビ放送局が放送する放送番組映像であることを特徴とする。

請求項１８に記載の発明にあっては、前記映像は、インターネットによって配信される動画映像であることを特徴とする。

請求項１〜１８に記載のメタデータ生成システムにあっては、前記録画手段によって、前記録画ファイルに映像が録画された場合には、前記文字情報取得手段によって、前記録画ファイルに録画された前記映像に表示された文字情報が取得され、前記文字情報文章化手段によって、取得された前記文字情報が文章化され、前記メタデータ格納手段によって、文章化された前記文字情報が前記映像のメタデータとして前記メタデータ格納ファイルに格納されるので、前記映像に表示され、前記映像に関連する単語、文章の情報である前記文字情報から前記映像のメタデータを精度良く自動作成することができる。
その結果、テレビ放送番組又はインターネット配信動画に関するメタデータを短時間で作成し、人的コストを削減することができるシステムを提供することができる。

請求項２に記載のメタデータ生成システムにあっては、前記文字情報抽出手段によって、前記録画ファイルに録画された前記映像が画像解析されることにより前記映像から文字情報が抽出され、前記辞書照合手段によって、抽出された前記文字情報が前記辞書ファイルと照合される。
従って、画像解析によって効率よく前記映像から前記文字情報を抽出できると共に、前記文字情報が前記辞書ファイルと照合されることにより、例えば、画像解析によって誤認識したり、完全に認識することが出来なかったりした文字や単語を前記辞書ファイルに基づいて修正し、前記文字情報の精度を高めることができる。

請求項３に記載のメタデータ生成システムにあっては、前記画像解析手段によって、前記録画ファイルに録画された前記映像が、画像解析済みの映像と、前記画像解析済みの映像から抽出された文字情報とを有する画像解析蓄積ファイルと照合されることにより、画像解析される。
従って、過去から蓄積された画像解析結果を用いて効果的に画像解析を行うことができ、その結果、前記映像のメタデータを精度良く短時間で作成することができる。

請求項４に記載のメタデータ生成システムにあっては、前記画像解析学習手段によって、前記画像解析蓄積ファイルが前記画像解析手段によって画像解析された映像と、前記映像から抽出された文字情報とに基づいて修正される。
従って、今回行った画像解析結果を前記画像解析蓄積ファイルに追加したり、前記画像解析蓄積ファイルに含まれる誤った情報を今回行った画像解析結果に基づいて削除したりすることができ、その結果、前記画像解析蓄積ファイルを更新して常に最新の状態で使用することができる。

また、請求項５に記載のメタデータ生成システムにあっては、前記文字情報抽出手段によって、前記録画ファイルに録画された前記映像が画像解析されることにより前記映像から文字情報が抽出され、前記インターネット照合手段によって、抽出された前記文字情報がインターネットにより検索され取得された情報と照合される。
従って、画像解析によって効率よく前記映像から前記文字情報を抽出できると共に、前記文字情報がインターネットにより検索され取得された情報と照合されることにより、例えば、画像解析によって誤認識したり、完全に認識することが出来なかったりした文字や単語をインターネットにより検索され取得された前記情報に基づいて修正し、前記文字情報の精度を高めることができる。

請求項６に記載のメタデータ生成システムにあっては、前記辞書更新手段によって、前記辞書ファイルが前記文字情報抽出手段によって抽出された前記文字情報に基づいて修正されるので、前記文字情報から得られる新たな単語、文章等の情報を前記辞書ファイルに追加したり、前記辞書ファイルに含まれる誤った情報を前記文字情報に基づいて削除したりすることができ、その結果、前記辞書ファイルを更新して常に最新の状態で使用することができる。

請求項７に記載のメタデータ生成システムにあっては、前記辞書照合手段によって、前記頻度パラメータの大きい前記辞書データが照合対象として優先的に選択され、選択された前記辞書データと、前記文字情報抽出手段によって抽出された前記文字情報とが照合されるので、例えば、前記辞書ファイルに互いに類似した複数の文字や単語が存在する場合に、前記頻度パラメータの大きい前記辞書データが優先的に選択され、照合対象となる。
その結果、前記頻度パラメータの大きい前記辞書データに基づいて修正することができ、前記文字情報の精度をより効率的に高めることができる。

請求項８に記載のメタデータ生成システムにあっては、前記文字情報文章化手段は、前記文字情報取得手段によって取得された前記文字情報を集約して文章化する際に、前記メタデータ格納ファイルを参照して、前記文字情報に関連する作成済のメタデータを前記文字情報の文章化に利用することができ、その結果、テレビ放送番組又はインターネット配信動画に関するメタデータを精度良く、より効率的に自動生成することができる。

請求項９に記載のメタデータ生成システムにあっては、前記文字情報文章化手段は、前記文字情報取得手段によって取得された前記文字情報を集約して文章化する際に、前記映像の電子番組表データを取得して、放送日時、配信日時、ジャンル、タイトル、出演者等の情報が含まれた前記電子番組表データを前記文字情報の文章化に利用することができる。その結果、テレビ放送番組又はインターネット配信動画に関するメタデータを精度良く、より効率的に自動生成することができる。

請求項１０に記載のメタデータ生成システムにあっては、前記映像認識情報抽出手段によって、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情と、人物情報、ロゴ情報、物情報又は表情情報とが照合され、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情が文字情報として抽出されるので、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情から前記映像のメタデータを作成することができる。

請求項１１に記載のメタデータ生成システムにあっては、前記映像認識情報抽出手段によって、前記録画ファイルに録画された前記映像が、画像解析済みの映像と、前記画像解析済みの映像から抽出された文字情報とを有する前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報と照合されることにより、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情が文字情報として抽出される。
従って、過去から蓄積された画像解析結果を用いて効果的に画像解析を行うことができ、その結果、前記映像のメタデータを精度良く短時間で作成することができる。

請求項１２に記載のメタデータ生成システムにあっては、前記映像認識学習手段によって、前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報が、前記映像認識情報抽出手段によって画像解析された映像と、前記映像から抽出された文字情報とに基づいて修正される。
従って、今回行った画像解析結果を前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報に追加したり、前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報に含まれる誤った情報を今回行った画像解析結果に基づいて削除したりすることができ、その結果、前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報を更新して常に最新の状態で使用することができる。

請求項１３に記載のメタデータ生成システムにあっては、前記音声情報抽出手段によって、前記録画ファイルに録画された前記映像と共に録音された前記音声が音声解析されることにより前記音声から文字情報が抽出され、前記辞書照合手段によって、抽出された前記文字情報が前記辞書ファイルと照合される。
従って、音声解析によって効率よく前記映像と共に録音された前記音声から前記文字情報を抽出できると共に、前記文字情報が前記辞書ファイルと照合されることから、例えば、音声解析によって誤認識したり、完全に認識することが出来なかったりした文字や単語を前記辞書ファイルに基づいて修正し、前記文字情報の精度を高めることができる。

請求項１４に記載に発明にあっては、前記音声解析手段によって、前記録画ファイルに録画された前記映像と共に録音された前記音声が、音声解析済みの音声と、前記音声解析済みの音声から抽出された文字情報とを有する音声解析蓄積ファイルと照合されることにより、音声解析される。
従って、過去から蓄積された音声解析結果を用いて効果的に音声解析を行うことができ、その結果、前記映像のメタデータを精度良く短時間で作成することができる。

請求項１５に記載の発明にあっては、前記音声解析学習手段によって、前記音声解析蓄積ファイルが前記音声解析手段によって音声解析された音声と、前記音声から抽出された文字情報とに基づいて修正される。
従って、今回行った音声解析結果を前記音声解析蓄積ファイルに追加したり、前記音声解析蓄積ファイルに含まれる誤った情報を今回行った音声解析結果に基づいて削除したりすることができ、その結果、前記音声解析蓄積ファイルを更新して常に最新の状態で使用することができる。

請求項１６に記載のメタデータ生成システムにあっては、前記録画手段によって、前記録画ファイルに映像が録画された場合には、前記文字情報抽出手段によって、前記録画ファイルに録画された前記映像が画像解析されることにより前記映像から文字情報が抽出され、前記映像認識情報抽出手段によって、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情と、人物情報、ロゴ情報、物情報又は表情情報とが照合され、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情が文字情報として抽出され、前記音声情報抽出手段によって、前記録画ファイルに録画された前記映像と共に録音された前記音声が音声解析されることにより前記音声から文字情報が抽出され、前記複合情報照合手段によって、前記文字情報抽出手段、前記映像認識情報抽出手段、及び、前記音声情報抽出手段によって、夫々、抽出された文字情報が互いに照合される。
従って、画像解析、音声解析、及び、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情から効率よく前記文字情報を抽出できる。
また、前記複合情報照合手段によって、前記文字情報抽出手段、前記映像認識情報抽出手段、及び、前記音声情報抽出手段によって、夫々、抽出された文字情報が互いに照合されるので、例えば、前記文字情報抽出手段によって誤認識したり、完全に認識することが出来なかったりした文字や単語を、前記音声情報抽出手段によって抽出された文字情報に基づいて修正することができる。
その結果、テレビ放送番組又はインターネット配信動画に関するメタデータをより精度良く効率的に自動生成することが出来るシステムを提供することができる。

図１は、本発明に係るメタデータ生成システムの一実施の形態を示すブロック図である。図２は、本発明に係るメタデータ生成システムの一実施の形態において、メタデータ生成システムにおける処理の流れを示すフローチャートである。図３は、本発明に係るメタデータ生成システムの一実施の形態において、（ａ）は放送番組映像を表す模式図、（ｂ）は（ａ）の放送番組映像から生成されたメタデータである。

以下、添付図面に示す実施の形態に基づき、本発明を詳細に説明する。
（１）本実施の形態に係るメタデータ生成システム１０の構成
図１及び図３に示すように、本発明の一実施の形態に係るメタデータ生成システム１０は、テレビ放送局３０が放送する放送番組映像Ｖを録画する録画ファイル１１を有する録画手段１２と、録画ファイル１１に録画された映像Ｖから文字情報Ｃを取得する文字情報取得手段１３と、文字情報取得手段１３によって取得された文字情報Ｃを集約して文章化する文字情報文章化手段１４と、文字情報文章化手段１４によって文章化された文字情報を録画ファイル１１に録画された映像ＶのメタデータＭとしてメタデータ格納ファイル１５に格納するメタデータ格納手段１６とを備えている。

また、図１及び図３に示すように、本実施の形態に係る文字情報取得手段１３は、録画ファイル１１に録画された映像Ｖに対して画像解析を行い、映像Ｖから文字情報Ｃを抽出する文字情報抽出手段１７と、文字情報抽出手段１７によって抽出された文字情報Ｃを辞書ファイル１８と照合する辞書照合手段１９とを有している。
本実施の形態にかかる文字情報抽出手段１７は、録画ファイル１１に録画された映像Ｖに対して画像解析を行うことによって文字列を抽出する画像解析手段３１と、抽出した前記文字列に対して形態素解析を行うことによって前記文字列に含まれる単語を抽出する単語解析手段３２とを有している。
ここで、形態素解析とは、文法的な情報の注記の無い自然言語のテキストデータ（文）から、対象言語の文法や、辞書と呼ばれる単語の品詞等の情報にもとづき、形態素（おおまかにいえば、言語で意味を持つ最小単位）の列に分割し、それぞれの形態素の品詞等を判別する作業である。具体的には、「○×オープン決勝進出」という文字列から「○×」（大会名）、「○×オープン」、「決勝」、「進出」、「決勝進出」といった単語を抽出することができる。

図１に示すように、本実施の形態に係る画像解析手段３１は、画像解析済みの映像と、前記画像解析済みの映像から抽出された文字情報とを有する画像解析蓄積ファイル３５と照合して画像解析するように構成されている。
ここで、画像解析済みの映像とは、これまでに画像解析された映像を意味し、前記画像解析済みの映像から抽出された文字情報とは、画像解析された結果、正しく前記映像から抽出された文字情報を意味する。

また、図１及び図３に示すように、本実施の形態に係る文字情報抽出手段１７は、画像解析手段３１によって画像解析された映像Ｖと、映像Ｖから抽出された文字情報Ｃとに基づいて、画像解析蓄積ファイル３５を修正する画像解析学習手段３６をさらに有している。

また、図１及び図３に示すように、本実施の形態に係る文字情報取得手段１３は、文字情報抽出手段１７によって抽出された文字情報Ｃをインターネット２０により検索し取得された情報と照合するインターネット照合手段２１を有している。

また、図１及び図３に示すように、本実施の形態に係る文字情報取得手段１３は、文字情報抽出手段１７によって抽出された文字情報Ｃに基づいて、辞書ファイル１８を修正する辞書更新手段３３をさらに有している。

また、図１及び図３に示すように、本実施の形態に係る辞書ファイル１８は、各国の言語に関する文字、熟語を有する辞書データが照合可能に含まれている辞書データＤと、辞書データＤの頻度パラメータ３４とを有し、辞書照合手段１９は、頻度パラメータ３４の大きい辞書データＤを照合対象として優先的に選択するように構成されている。

また、図１及び図３に示すように、本実施の形態に係る文字情報文章化手段１４は、メタデータ格納ファイル１５を参照し、文字情報取得手段１３によって取得された文字情報Ｃに関連するメタデータＭを文字情報Ｃの文章化に利用するように構成されている。

また、図１及び図３に示すように、本実施の形態に係る文字情報文章化手段１４は、録画ファイル１１に録画された映像Ｖの電子番組表データＥを取得し、文字情報Ｃの文章化に利用するように構成されている。本実施の形態に係る電子番組表データＥには、テレビ放送局３０が放送する放送番組映像Ｖの放送日時、配信日時、ジャンル、タイトル、出演者等の情報が含まれている。

また、図１及び図３に示すように、本実施の形態に係る文字情報取得手段１３は、映像Ｖに含まれる人物Ｐ、ロゴＬ、人物Ｐの持ち物Ｂ又は人物Ｐの表情Ｆと、人物情報、ロゴ情報、物情報又は表情情報とを照合し、映像Ｖに含まれる人物Ｐ、ロゴＬ、人物Ｐの持ち物Ｂ又は人物Ｐの表情Ｆを文字情報Ｃとして抽出する映像認識情報抽出手段２２を有している。

本実施の形態に係る人物情報、ロゴ情報、物情報又は表情情報は、画像解析済みの映像と、前記画像解析済みの映像から抽出された文字情報とにより構成されている。
ここで、画像解析済みの映像とは、これまでに画像解析された映像を意味し、前記画像解析済みの映像から抽出された文字情報とは、画像解析された結果、正しく前記映像から抽出された文字情報を意味する。

また、図１及び図３に示すように、本実施の形態に係る文字情報取得手段１３は、映像認識情報抽出手段２２によって画像解析された映像Ｖと、映像Ｖから抽出された文字情報Ｃとに基づいて、人物情報、ロゴ情報、物情報又は表情情報を修正する映像認識学習手段３７をさらに有することを特徴とする。

また、図１及び図３に示すように、本実施の形態に係る文字情報取得手段１３は、録画ファイル１１に録画された映像Ｖと共に録音された音声に対して音声解析を行い、前記音声から文字情報Ｃを抽出する音声情報抽出手段２３を有している。

図１に示すように、本実施の形態に係る音声情報抽出手段２３は、音声解析済みの音声と、前記音声解析済みの音声から抽出された文字情報とを有する音声解析蓄積ファイル３８と照合して音声解析する音声解析手段３９を有することを特徴とする。
ここで、音声解析済みの音声とは、これまでに音声解析された音声を意味し、前記音声解析済みの音声から抽出された文字情報とは、音声解析された結果、正しく前記音声から抽出された文字情報を意味する。

また、図１及び図３に示すように、本実施の形態に係る音声情報抽出手段２３は、音声解析手段３９によって音声解析された音声と、前記音声から抽出された文字情報とに基づいて、音声解析蓄積ファイル３８を修正する音声解析学習手段４０をさらに有することを特徴とする。

図１及び図３に示すように、本実施の形態に係る文字情報取得手段１３にあっては、文字情報抽出手段１７、映像認識情報抽出手段２２、及び、音声情報抽出手段２３によって、夫々、抽出された文字情報Ｃを互いに照合する複合情報照合手段２４を備えている。

図１及び図３に示すように、本実施の形態に係る録画手段１２は、全ての放送局、例えば、我が国における全ての地上局及び衛星放送の放送局から放送された全ての放送番組の映像を、所定期間、例えば１ヶ月に亘って録画しうるように所定の容量のハードディスク型の記憶装置を有する大型の録画装置である。
本実施の形態において、録画手段１２内に装備されたハードディスク内の録画ファイル１１は、テレビ放送局３０により放送された映像Ｖからなる番組コンテンツ２５と、番組コンテンツ２５が放送されたチャンネル名２６と、番組コンテンツ２５のタイムコード２７に関する情報を有している。
この場合、番組コンテンツ２５は、放送番組単位、当該放送番組を構成するコーナー単位、又は当該放送番組を構成する記事単位からなる。

また、図１及び図３に示すように、本実施の形態において、メタデータ格納手段１６のメタデータ格納ファイル１５には、番組コンテンツ要約テキストデータ２８と、番組コンテンツ２５が放送されたチャンネル名２９と、番組コンテンツ２５のタイムコード２７とが記録されており、いずれも本実施の形態におけるメタデータＭを構成するデータである。
番組コンテンツ要約テキストデータ２８とは、テレビ放送局３０により放送されたテレビ番組の内容を文字化して要約したものである。番組コンテンツ要約テキストデータ２８は、番組コンテンツ２５と同様に、放送番組単位、当該放送番組を構成するコーナー単位、又は当該放送番組を構成する記事単位からなる。
また、番組コンテンツ要約テキストデータ２８には、ニュアンスパラメータを含めることができる。ここで、「ニュアンスパラメータ」とは、前記検索キーワードに対応する語句が出現する前記サイト情報のニュアンス（印象）を人工知能等のような自動システムや人間の判断により、数値化したものである。
例えば、番組コンテンツが良い内容（ｇｏｏｄ）であれば高く（プラス評価）、悪い内容（ｂａｄ）であれば低く（マイナス評価）、事実を述べただけの中立的な内容（ｎｅｕｔｒａｌ）であれば０（ゼロ評価）とすることができる。

（２）本実施の形態に係るメタデータ生成システム１０の処理の流れ
図２に示すように、本実施の形態に係るメタデータ生成システム１０は以下の工程に従って処理を行う。まず、録画手段１２が、テレビ放送局３０が放送する放送番組映像Ｖを録画ファイル１１に録画する（Ｓ１）。
この際、録画手段１２は、全ての放送局、例えば、我が国における全ての地上局及び衛星放送の放送局から放送された全ての放送番組の映像を、所定期間、例えば１ヶ月に亘って録画することもできる。

次いで、図２に示すように、文字情報取得手段１３が、録画ファイル１１に録画された映像Ｖに表示された文字情報Ｃを取得する。
この際、文字情報抽出手段１７が、録画ファイル１１に録画された映像Ｖに対して画像解析を行い、映像Ｖから文字情報Ｃを抽出する（Ｓ２ａ）。
特に、図１及び図３に示すように、本実施の形態にかかる文字情報抽出手段１７にあっては、画像解析手段３１が録画ファイル１１に録画された映像Ｖに対して画像解析を行うことによって文字列を抽出し、単語解析手段３２が抽出した前記文字列に対して形態素解析を行うことによって前記文字列に含まれる単語を抽出する。
具体的には、図３（ａ）に示すように、画像解析手段３１が番組コンテンツ２５の映像Ｖに対して画像解析を行うことによって、「××ニュース」、「速報○△選手○×オープン決勝進出」という文字列を抽出することができる。
続いて、単語解析手段３２が抽出したこれらの文字列に対して形態素解析を行うことによって、「××」（番組名、チャンネル名）、「ニュース」、「××ニュース」、「速報」、「○△」（選手名）、「選手」、「○△選手」、「○×」（地域名、大会名）、「オープン」、「○×オープン」、「決勝」、「進出」といった単語を抽出することができる。
なお、図１及び図３に示すように、本実施の形態に係る文字情報抽出手段１７にあっては、画像解析手段３１が、録画ファイル１１に録画された映像Ｖと、画像解析済みの映像及び前記画像解析済みの映像から抽出された文字情報を有する画像解析蓄積ファイル３５とを照合することにより、画像解析する。

また、図２に示すように、映像認識情報抽出手段２２が、映像Ｖに含まれる人物Ｐ、ロゴＬ、人物Ｐの持ち物Ｂ又は人物Ｐの表情Ｆと、人物情報、ロゴ情報、物情報又は表情情報とを照合し、映像Ｖに含まれる人物Ｐ、ロゴＬ、人物Ｐの持ち物Ｂ又は人物Ｐの表情Ｆを文字情報Ｃとして抽出する（Ｓ２ｂ）。
具体的には、図３（ａ）に示すように、映像認識情報抽出手段２２が番組コンテンツ２５の映像Ｖに含まれる人物Ｐ、ロゴＬ、人物Ｐの持ち物Ｂ、人物Ｐの表情Ｆに対して、人物情報、ロゴ情報、物情報、表情情報を照合することによって、人物Ｐが「○△選手」、ロゴＬが「○×オープン」、人物Ｐの持ち物Ｂが「テニス（ラケット）」、人物Ｐの表情Ｆが「精一杯な表情」であることが照合され、夫々を文字情報Ｃとして抽出することができる。
なお、図１及び図３に示すように、本実施の形態にあっては、映像認識情報抽出手段２２が、録画ファイル１１に録画された映像Ｖと、画像解析済みの映像及び前記画像解析済みの映像から抽出された文字情報を有する人物情報、ロゴ情報、物情報又は表情情報とを照合することにより、映像Ｖに含まれる人物Ｐ、ロゴＬ、人物Ｐの持ち物Ｂ又は人物Ｐの表情Ｆを文字情報Ｃとして抽出する。

また、図２に示すように、音声情報抽出手段２３が、録画ファイル１１に録画された映像Ｖと共に録音された音声に対して音声解析を行い、前記音声から文字情報Ｃを抽出する（Ｓ２ｃ）。
なお、図１及び図３に示すように、本実施の形態に係る音声情報抽出手段２３にあっては、音声解析手段３９が、録画ファイル１１に録画された映像Ｖと、画像解析済みの映像及び前記画像解析済みの映像から抽出された文字情報を有する音声解析蓄積ファイル３８とを照合することにより、音声解析する。

続いて、図２に示すように、複合情報照合手段２４が、文字情報抽出手段１７、映像認識情報抽出手段２２、及び、音声情報抽出手段２３によって、夫々、抽出された文字情報を互いに照合する（Ｓ３）。
具体的には、図１及び図３に示すように、文字情報抽出手段１７によって抽出された「○△選手」及び「○×オープン」が、映像認識情報抽出手段２２によって抽出された「○△選手」（人物Ｐより抽出）及び「○×オープン」（ロゴＬより抽出）と照合され、文字情報Ｃが正しく抽出されたことを確認し、文字情報Ｃの精度を高めることができる。
なお、処理速度を優先する場合には、複合情報照合手段２４による照合工程Ｓ３を省略してもよい。

ここで、図１及び図３に示すように、画像解析学習手段３６が、画像解析手段３１によって画像解析された映像Ｖと、映像Ｖから抽出された文字情報Ｃとに基づいて、画像解析蓄積ファイル３５を修正することができる。

また、ここで、図１及び図３に示すように、映像認識学習手段３７が、映像認識情報抽出手段２２によって画像解析された映像Ｖと、映像Ｖから抽出された文字情報Ｃとに基づいて、人物情報、ロゴ情報、物情報又は表情情報を修正することができる。

また、さらに、図１に示すように、音声解析学習手段４０が、音声解析手段３９によって音声解析された音声と、前記音声から抽出された文字情報とに基づいて、音声解析蓄積ファイル３８を修正することができる。

続いて、図２に示すように、辞書照合手段１９が、文字情報抽出手段１７、映像認識情報抽出手段２２、又は、音声情報抽出手段２３によって抽出された文字情報Ｃを辞書ファイル１８と照合する（Ｓ４ａ）。照合した結果、文字情報Ｃが辞書ファイル１８と一致しなかった場合は、文字情報Ｃを辞書ファイル１８に基づいて修正する。一方、文字情報Ｃが辞書ファイル１８と一致した場合には、そのまま照合処理を終了する。
ここで、図１に示すように、辞書照合手段１９は、頻度パラメータ３４の大きい辞書データＤを照合対象として優先的に選択することができる。例えば、文字情報抽出手段１７によって文字情報Ｃが「速報」ではなく誤って「連報」と抽出された場合において、辞書ファイル１８と照合し、仮に「連報」という単語が登録されていたとしても、「速報」という単語の使用頻度が高く、当該単語の頻度パラメータが大きいことから、文字情報Ｃは「速報」であると判断して、文字情報Ｃを修正することができる。

また、図１及び図３に示すように、辞書更新手段２２が、文字情報抽出手段１７によって抽出された文字情報Ｃに基づいて、辞書ファイル１８を修正することができる。
例えば、文字情報抽出手段１７によって「独壇場（どくだんじょう）」が抽出された場合に、辞書ファイル１８に存在する「独擅場（どくせんじょう）」という正しい表現の他に、「独壇場（どくだんじょう）」という元々は誤りだが慣用的に使用されるようになった表現を辞書ファイル１８に追加することができる。

また、図２に示すように、インターネット照合手段２１が、文字情報抽出手段１７、映像認識情報抽出手段２２、又は、音声情報抽出手段２３によって抽出された文字情報Ｃをインターネット２０により検索し取得された情報Ｉと照合することもできる（Ｓ４ｂ）。
照合した結果、文字情報Ｃが情報Ｉと一致しなかった場合は、文字情報Ｃを情報Ｉに基づいて修正する。一方、文字情報Ｃが情報Ｉと一致した場合には、そのまま照合処理を終了する。
処理速度を優先する場合には、辞書照合手段１９による照合工程Ｓ４ａ、インターネット照合手段２１による照合工程Ｓ４ｂのいずれか一方のみを実行すればよく、一方、文字情報Ｃの精度（正確さ）を優先する場合には、両方の工程を順序問わず実行することもできる。

次いで、図２に示すように、文字情報文章化手段１４が、取得された文字情報Ｃを集約して文章化する（Ｓ５）。
具体的には、図３に示すように、取得された文字情報Ｃである「××ニュース」、「速報」、「○△選手」、「○×オープン」、「決勝」、「進出」、「テニス（ラケット）」を集約して、「［××ニュース］○×オープンに出場している日本のトップテニスプレーヤー○△選手が決勝に進出した」という文字情報へと文章化することができる。
この際、文字情報文章化手段１４は、メタデータ格納ファイル１５を参照し、文字情報取得手段１３によって取得された文字情報Ｃに関連するメタデータＭを文字情報Ｃの文章化に利用することができる。
例えば、前日に放送された映像に係るメタデータが「（０２／２８１２：００）［××ニュース］○×オープンに出場している日本のトップテニスプレーヤー○△選手が準決勝に進出した」というものであった場合に、「○×オープンに出場している」、「日本のトップテニスプレーヤー○△選手」、「準決勝に進出した」という文章を利用して、文字情報Ｃの文章化を迅速に処理し、精度を高めることができる。

また、図１及び図３に示すように、文字情報文章化手段１４は、録画ファイル１１に録画された映像Ｖの電子番組表データＥを取得し、文字情報Ｃの文章化に利用することもできる。例えば、電子番組表データＥに「３月１日１２時 ××ニュース」という情報が含まれていれば、メタデータＭに「（０３／０１１２：００）［××ニュース］」という情報を追加し、文字情報Ｃの文章化を迅速に処理し、精度を高めることができる。

次いで、図２に示すように、メタデータ格納手段１６が、文字情報文章化手段１４によって文章化された文字情報を録画ファイル１１に録画された映像ＶのメタデータＭとしてメタデータ格納ファイル１５に格納する（Ｓ６）。
具体的には、図３（ｂ）に示すように、メタデータ格納手段１６が、番組コンテンツ２５の映像ＶのメタデータＭとして「（０３／０１１２：００）［××ニュース］○×オープンに出場している日本のトップテニスプレーヤー○△選手が決勝に進出した」というメタデータをメタデータ格納ファイル１５に格納することができる。
以上より、映像Ｖに表示され、映像Ｖに関連する単語、文章の情報である文字情報Ｃから映像ＶのメタデータＭを作成することができる。

（３）本実施の形態に係るメタデータ生成システム１０の効果
図１及び図３に示すように、本実施の形態に係るメタデータ生成システム１０にあっては、録画手段１２によって、録画ファイル１１に映像が録画された場合には、文字情報取得手段１３によって、録画ファイル１１に録画された映像Ｖに表示された文字情報Ｃが取得され、文字情報文章化手段１４によって、取得された文字情報Ｃが文章化され、メタデータ格納手段１６によって、文章化された文字情報が映像ＶのメタデータＭとしてメタデータ格納ファイル１５に格納されるので、映像Ｖに表示され、映像Ｖに関連する単語、文章の情報である文字情報Ｃから映像ＶのメタデータＭを精度良く自動作成することができる。
その結果、テレビ放送番組に関するメタデータを短時間で作成し、人的コストを削減することができるシステムを提供することができる。

図１及び図３に示すように、本実施の形態に係るメタデータ生成システム１０にあっては、文字情報抽出手段１７によって、録画ファイル１１に録画された映像Ｖが画像解析されることにより映像Ｖから文字情報Ｃが抽出され、辞書照合手段１９によって、抽出された文字情報Ｃが辞書ファイル１８と照合される。
従って、画像解析によって効率よく映像Ｖから文字情報Ｃを抽出できると共に、文字情報Ｃが辞書ファイル１８と照合されることにより、例えば、画像解析によって誤認識したり、完全に認識することが出来なかったりした文字や単語を辞書ファイル１８に基づいて修正し、文字情報Ｃの精度を高めることができる。

図１及び図３に示すように、本実施の形態に係るメタデータ生成システム１０にあっては、画像解析手段３１によって、録画ファイル１１に録画された映像Ｖが、画像解析済みの映像と、前記画像解析済みの映像から抽出された文字情報とを有する画像解析蓄積ファイル３５と照合されることにより、画像解析される。
従って、過去から蓄積された画像解析結果を用いて効果的に画像解析を行うことができ、その結果、映像ＶのメタデータＭを精度良く短時間で作成することができる。

図１及び図３に示すように、本実施の形態に係るメタデータ生成システム１０にあっては、画像解析学習手段３６によって、画像解析蓄積ファイル３５が画像解析手段３１によって画像解析された映像Ｖと、映像Ｖから抽出された文字情報Ｃとに基づいて修正される。
従って、今回行った画像解析結果を画像解析蓄積ファイル３５に追加したり、画像解析蓄積ファイル３５に含まれる誤った情報を今回行った画像解析結果に基づいて削除したりすることができ、その結果、画像解析蓄積ファイル３５を更新して常に最新の状態で使用することができる。

また、図１及び図３に示すように、本実施の形態に係るメタデータ生成システム１０にあっては、文字情報抽出手段１７によって、録画ファイル１１に録画された映像Ｖが画像解析されることにより映像Ｖから文字情報Ｃが抽出され、インターネット照合手段２１によって、抽出された文字情報Ｃがインターネットにより検索され取得された情報Ｉと照合される。
従って、画像解析によって効率よく映像Ｖから文字情報Ｃを抽出できると共に、文字情報Ｃがインターネットにより検索され取得された情報Ｉと照合されることにより、例えば、画像解析によって誤認識したり、完全に認識することが出来なかったりした文字や単語をインターネットにより検索され取得された情報Ｉに基づいて修正し、文字情報Ｃの精度を高めることができる。

図１及び図３に示すように、本実施の形態に係るメタデータ生成システム１０にあっては、辞書更新手段３３によって、辞書ファイル１８が文字情報抽出手段１７によって抽出された文字情報Ｃに基づいて修正されるので、文字情報Ｃから得られる新たな単語、文章等の情報を辞書ファイル１８に追加したり、辞書ファイル１８に含まれる誤った情報を文字情報Ｃに基づいて削除したりすることができ、その結果、辞書ファイル１８を更新して常に最新の状態で使用することができる。

図１及び図３に示すように、本実施の形態に係るメタデータ生成システム１０にあっては、辞書照合手段１９によって、頻度パラメータ３４の大きい辞書データＤが照合対象として優先的に選択され、選択された辞書データＤと、文字情報抽出手段１７によって抽出された文字情報Ｃとが照合されるので、例えば、辞書ファイル１８に互いに類似した複数の文字や単語が存在する場合に、頻度パラメータ３４の大きい辞書データＤが優先的に選択され、照合対象となる。
その結果、頻度パラメータ３４の大きい辞書データに基づいて修正することができ、文字情報Ｃの精度をより効率的に高めることができる。

図１及び図３に示すように、本実施の形態に係るメタデータ生成システム１０にあっては、文字情報文章化手段１４は、文字情報取得手段１３によって取得された文字情報Ｃを集約して文章化する際に、メタデータ格納ファイル１５を参照して、文字情報Ｃに関連する作成済のメタデータＭを文字情報Ｃの文章化に利用することができ、その結果、テレビ放送番組又はインターネット配信動画に関するメタデータを精度良く、より効率的に自動生成することができる。

図１及び図３に示すように、本実施の形態に係るメタデータ生成システム１０にあっては、文字情報文章化手段１４は、文字情報取得手段１３によって取得された文字情報Ｃを集約して文章化する際に、映像Ｖの電子番組表データＥを取得して、放送日時、配信日時、ジャンル、タイトル、出演者等の情報が含まれた電子番組表データＥを文字情報Ｃの文章化に利用することができる。その結果、テレビ放送番組又はインターネット配信動画に関するメタデータを精度良く、より効率的に自動生成することができる。

また、図１及び図３に示すように、本実施の形態に係るメタデータ生成システム１０にあっては、映像認識情報抽出手段２２によって、映像Ｖに含まれる人物Ｐ、ロゴＬ、人物Ｐの持ち物Ｂ又は人物Ｐの表情Ｆと、人物情報、ロゴ情報、物情報又は表情情報とが照合され、映像Ｖに含まれる人物Ｐ、ロゴＬ、人物Ｐの持ち物Ｂ又は人物Ｐの表情Ｆが文字情報Ｃとして抽出されるので、映像Ｖに含まれる人物Ｐ、ロゴＬ、人物Ｐの持ち物Ｂ又は人物Ｐの表情Ｆから映像ＶのメタデータＭを作成することができる。

また、本実施の形態に係るメタデータ生成システム１０にあっては、映像認識情報抽出手段２２によって、録画ファイル１１に録画された映像Ｖが、画像解析済みの映像と、前記画像解析済みの映像から抽出された文字情報とを有する前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報と照合されることにより、映像Ｖに含まれる人物Ｐ、ロゴＬ、人物Ｐの持ち物Ｂ又は人物Ｐの表情Ｆが文字情報Ｃとして抽出される。
従って、過去から蓄積された画像解析結果を用いて効果的に画像解析を行うことができ、その結果、映像ＶのメタデータＭを精度良く短時間で作成することができる。

また、本実施の形態に係るメタデータ生成システム１０にあっては、映像認識学習手段３７によって、前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報が、映像認識情報抽出手段２２によって画像解析された映像Ｖと、映像Ｖから抽出された文字情報Ｃとに基づいて修正される。
従って、今回行った画像解析結果を前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報に追加したり、前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報に含まれる誤った情報を今回行った画像解析結果に基づいて削除したりすることができ、その結果、前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報を更新して常に最新の状態で使用することができる。

また、図１及び図３に示すように、本実施の形態に係るメタデータ生成システム１０にあっては、音声情報抽出手段２３によって、録画ファイル１１に録画された映像Ｖと共に録音された音声が音声解析されることにより前記音声から文字情報Ｃが抽出され、辞書照合手段１９によって、抽出された文字情報Ｃが辞書ファイル１８と照合される。
従って、音声解析によって効率よく映像Ｖと共に録音された音声から文字情報Ｃを抽出できると共に、文字情報Ｃが辞書ファイル１８と照合されることから、例えば、音声解析によって誤認識したり、完全に認識することが出来なかったりした文字や単語を辞書ファイル１８に基づいて修正し、文字情報Ｃの精度を高めることができる。

本実施の形態に係るメタデータ生成システム１０にあっては、音声解析手段３９によって、録画ファイル１１に録画された映像Ｖと共に録音された前記音声が、音声解析済みの音声と、前記音声解析済みの音声から抽出された文字情報とを有する音声解析蓄積ファイル３８と照合されることにより、音声解析される。
従って、過去から蓄積された音声解析結果を用いて効果的に音声解析を行うことができ、その結果、映像ＶのメタデータＭを精度良く短時間で作成することができる。

また、本実施の形態に係るメタデータ生成システム１０にあっては、音声解析学習手段４０によって、音声解析蓄積ファイル３８が音声解析手段３９によって音声解析された音声と、前記音声から抽出された文字情報Ｃとに基づいて修正される。
従って、今回行った音声解析結果を音声解析蓄積ファイル３８に追加したり、音声解析蓄積ファイル３８に含まれる誤った情報を今回行った音声解析結果に基づいて削除したりすることができ、その結果、音声解析蓄積ファイル３８を更新して常に最新の状態で使用することができる。

また、図１及び図３に示すように、本実施の形態に係るメタデータ生成システム１０にあっては、録画手段１２によって、録画ファイル１１に映像Ｖが録画された場合には、文字情報抽出手段１７によって、録画ファイル１１に録画された映像Ｖが画像解析されることにより映像Ｖから文字情報Ｃが抽出され、映像認識情報抽出手段２２によって、映像Ｖに含まれる人物Ｐ、ロゴＬ、人物Ｐの持ち物Ｂ又は人物Ｐの表情Ｆと、人物情報、ロゴ情報、物情報又は表情情報とが照合され、映像Ｖに含まれる人物Ｐ、ロゴＬ、人物Ｐの持ち物Ｂ又は人物Ｐの表情Ｆが文字情報Ｃとして抽出され、音声情報抽出手段２３によって、録画ファイル１１に録画された映像Ｖと共に録音された音声が音声解析されることにより前記音声から文字情報Ｃが抽出され、複合情報照合手段２４によって、文字情報抽出手段１７、映像認識情報抽出手段２２、及び、音声情報抽出手段２３によって、夫々、抽出された文字情報Ｃが互いに照合される。
従って、画像解析、音声解析、及び、映像Ｖに含まれる人物Ｐ、ロゴＬ、人物Ｐの持ち物Ｂ又は人物Ｐの表情Ｆから効率よく文字情報Ｃを抽出できる。
また、複合情報照合手段２４によって、文字情報抽出手段１７、映像認識情報抽出手段２２、及び、音声情報抽出手段２３によって、夫々、抽出された文字情報Ｃが互いに照合されるので、例えば、文字情報抽出手段１７によって誤認識したり、完全に認識することが出来なかったりした文字や単語を、音声情報抽出手段２３によって抽出された文字情報Ｃに基づいて修正することができる。
その結果、テレビ放送番組又はインターネット配信動画に関するメタデータをより精度良く効率的に自動生成することが出来るシステムを提供することができる。

本実施の形態にあっては、映像Ｖは、テレビ放送局３０が放送する放送番組映像である場合を例に説明したが、前記構成に限定されず、映像Ｖは、インターネットによって配信される動画映像であってもよい。

本考案は、メタデータを生成するシステムに広く適用可能であり、産業上利用可能性を有している。

１０：メタデータ生成システム
１１：録画ファイル
１２：録画手段
１３：文字情報取得手段
１４：文字情報文章化手段
１５：メタデータ格納ファイル
１６：メタデータ格納手段
１７：文字情報抽出手段
１８：辞書ファイル
１９：辞書照合手段
２０：インターネット
２１：インターネット照合手段
２２：映像認識情報抽出手段
２３：音声情報抽出手段
２４：複合情報照合手段
２５：番組コンテンツ
２６：チャンネル名
２７：タイムコード
２８：番組コンテンツ要約テキストデータ
２９：チャンネル名
３０：テレビ放送局
３１：画像解析手段
３２：単語解析手段
３３：辞書更新手段
３４：頻度パラメータ
３５：画像解析蓄積ファイル
３６：画像解析学習手段
３７：映像認識学習手段
３８：音声解析蓄積ファイル
３９：音声解析手段
４０：音声解析学習手段
Ｂ：人物の持ち物
Ｃ：文字情報
Ｄ：辞書データ
Ｅ：電子番組表データ
Ｆ：人物の表情
Ｌ：ロゴ
Ｍ：メタデータ
Ｐ：人物
Ｖ：映像

Claims

映像を録画する録画ファイルを有する録画手段と、前記録画ファイルに録画された映像から文字情報を取得する文字情報取得手段と、前記文字情報取得手段によって取得された前記文字情報を集約して文章化する文字情報文章化手段と、前記文字情報文章化手段によって文章化された前記文字情報を前記録画ファイルに録画された映像のメタデータとしてメタデータ格納ファイルに格納するメタデータ格納手段とを備えることを特徴とするメタデータ生成システム。
前記文字情報取得手段は、前記録画ファイルに録画された映像に対して画像解析を行い、前記映像から文字情報を抽出する文字情報抽出手段と、前記文字情報抽出手段によって抽出された前記文字情報を辞書ファイルと照合する辞書照合手段とを有することを特徴とする請求項１記載のメタデータ生成システム。
前記文字情報抽出手段は、画像解析済みの映像と、前記画像解析済みの映像から抽出された文字情報とを有する画像解析蓄積ファイルと照合して画像解析する画像解析手段を有することを特徴とする請求項２記載のメタデータ生成システム。
前記文字情報抽出手段は、前記画像解析手段によって画像解析された映像と、前記映像から抽出された文字情報とに基づいて、前記画像解析蓄積ファイルを修正する画像解析学習手段をさらに有することを特徴とする請求項３記載のメタデータ生成システム。
前記文字情報取得手段は、前記録画ファイルに録画された映像に対して画像解析を行い、前記映像から文字情報を抽出する文字情報抽出手段と、前記文字情報抽出手段によって抽出された前記文字情報をインターネットにより検索し取得された情報と照合するインターネット照合手段とを有することを特徴とする請求項１記載のメタデータ生成システム。
前記文字情報取得手段は、前記文字情報抽出手段によって抽出された文字情報に基づいて、前記辞書ファイルを修正する辞書更新手段をさらに有することを特徴とする請求項２記載のメタデータ生成システム。
前記辞書ファイルは、辞書データと、前記辞書データの頻度パラメータとを有し、前記辞書照合手段は、前記頻度パラメータの大きい辞書データを照合対象として優先的に選択することを特徴とする請求項２記載のメタデータ生成システム。
前記文字情報文章化手段は、前記メタデータ格納ファイルを参照し、前記文字情報取得手段によって取得された前記文字情報に関連するメタデータを前記文字情報の文章化に利用することを特徴とする請求項１記載のメタデータ生成システム。
前記文字情報文章化手段は、前記録画ファイルに録画された映像の電子番組表データを取得し、前記文字情報の文章化に利用することを特徴とする請求項１記載のメタデータ生成システム。
前記文字情報取得手段は、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情と、人物情報、ロゴ情報、物情報又は表情情報とを照合し、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情を文字情報として抽出する映像認識情報抽出手段を有することを特徴とする請求項１に記載のメタデータ生成システム。
前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報は、画像解析済みの映像と、前記画像解析済みの映像から抽出された文字情報とにより構成されていることを特徴とする請求項１０記載のメタデータ生成システム。
前記文字情報取得手段は、前記映像認識情報抽出手段によって画像解析された映像と、前記映像から抽出された文字情報とに基づいて、前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報を修正する映像認識学習手段をさらに有することを特徴とする請求項１１記載のメタデータ生成システム。
前記文字情報取得手段は、前記録画ファイルに録画された映像と共に録音された音声に対して音声解析を行い、前記音声から文字情報を抽出する音声情報抽出手段を有することを特徴とする請求項１に記載のメタデータ生成システム。
前記音声情報抽出手段は、音声解析済みの音声と、前記音声解析済みの音声から抽出された文字情報とを有する音声解析蓄積ファイルと照合して音声解析する音声解析手段を有することを特徴とする請求項１３記載のメタデータ生成システム。
前記文字情報取得手段は、前記音声解析手段によって音声解析された音声と、前記音声から抽出された文字情報とに基づいて、前記音声解析蓄積ファイルを修正する音声解析学習手段をさらに有することを特徴とする請求項１４記載のメタデータ生成システム。
前記文字情報取得手段は、前記録画ファイルに録画された映像に対して画像解析を行い、前記映像から文字情報を抽出する文字情報抽出手段と、
前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情と、人物情報、ロゴ情報、物情報又は表情情報とを照合し、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情を文字情報として抽出する映像認識情報抽出手段と、
前記録画ファイルに録画された映像と共に録音された音声に対して音声解析を行い、前記音声から文字情報を抽出する音声情報抽出手段と、
前記文字情報抽出手段、前記映像認識情報抽出手段、及び、前記音声情報抽出手段によって、夫々、抽出された文字情報を互いに照合する複合情報照合手段とを有することを特徴とする請求項１記載のメタデータ生成システム。
前記映像は、テレビ放送局が放送する放送番組映像であることを特徴とする請求項１〜１６のいずれか１項に記載のメタデータ生成システム。
前記映像は、インターネットによって配信される動画映像であることを特徴とする請求項１〜１６のいずれか１項に記載のメタデータ生成システム。