JP2018033048A - メタデータ生成システム - Google Patents

メタデータ生成システム Download PDF

Info

Publication number
JP2018033048A
JP2018033048A JP2016165100A JP2016165100A JP2018033048A JP 2018033048 A JP2018033048 A JP 2018033048A JP 2016165100 A JP2016165100 A JP 2016165100A JP 2016165100 A JP2016165100 A JP 2016165100A JP 2018033048 A JP2018033048 A JP 2018033048A
Authority
JP
Japan
Prior art keywords
character information
information
video
voice
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016165100A
Other languages
English (en)
Other versions
JP6857983B2 (ja
Inventor
孝利 石井
Takatoshi Ishii
孝利 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JCC KK
Original Assignee
JCC KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JCC KK filed Critical JCC KK
Priority to JP2016165100A priority Critical patent/JP6857983B2/ja
Publication of JP2018033048A publication Critical patent/JP2018033048A/ja
Application granted granted Critical
Publication of JP6857983B2 publication Critical patent/JP6857983B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】テレビ放送番組又はインターネット配信動画に関するメタデータを精度良く自動生成することが出来るシステムを提供する。【解決手段】映像Vを録画する録画ファイル11を有する録画手段12と、録画ファイル11に録画された映像Vから文字情報Cを取得する文字情報取得手段13と、文字情報取得手段13によって取得された文字情報Cを集約して文章化する文字情報文章化手段14と、文字情報文章化手段14によって文章化された文字情報を録画ファイル11に録画された映像VのメタデータMとしてメタデータ格納ファイル15に格納するメタデータ格納手段16とを備えている。【選択図】 図1

Description

本発明は、メタデータを生成するシステムに関し、特にテレビ放送番組又はインターネット配信動画に関するメタデータを生成するシステムに関するものである。
従来より、テレビ放送番組又はインターネット配信動画に関するメタデータの重要性が高まってきている。メタデータとは、あるデータそのものではなく、そのデータに関連する情報のことである。データの作成日時や作成者、データ形式、タイトル、注釈などが考えられる。データを効率的に管理したり検索したりするために重要な情報である。
例えば、本件特許出願人は、過去において、テレビ放送局が放送するテレビ放送番組を録画する録画手段と、前記録画手段により録画された映像に対応させ番組内容を要約したメタデータを格納するメタデータ格納手段と、画面上に前記メタデータを表示させることができるディスプレイ手段とを備え、ユーザーが画面上に表示されたメタデータを視認して適宜選択することにより、当該メタデータに対応する映像を画面上に表示させて視認できるように構成された映像システムに関する発明を出願して特許を取得している(特許文献1)。
しかしながら、テレビ放送番組に関するメタデータは、人間の手によって作成されることが一般的であり、時間とコストとがかかっていた。また、一度作成されたメタデータは、当該番組に限って利用されることが一般的であるため、同じような情報を繰り返し利用することも難しく、効率も良くないという不具合があった。
前記事情は、テレビ放送番組に限らず、急速に実用化が進んだインターネット配信動画に関しても存在するため、インターネット配信動画に関するメタデータについても同様の不具合があった。
特許第4227866号
本発明は、以上のような従来の不具合を解決するためのものであって、その課題は、テレビ放送番組又はインターネット配信動画に関するメタデータを短時間で作成し、人的コストを削減することができるシステムを提供することにある。
前記課題を解決するために、請求項1に記載の発明にあっては、映像を録画する録画ファイルを有する録画手段と、前記録画ファイルに録画された映像に表示された文字情報を取得する文字情報取得手段と、前記文字情報取得手段によって取得された前記文字情報を集約して文章化する文字情報文章化手段と、前記文字情報文章化手段によって文章化された前記文字情報を前記録画ファイルに録画された映像のメタデータとしてメタデータ格納ファイルに格納するメタデータ格納手段とを備えることを特徴とする。
ここで、文字情報とは、映像に表示され、映像に関連する単語、文章の情報であって、例えば、映像に表示されたテロップの文字列を含む概念である。
従って、前記録画手段によって、前記録画ファイルに映像が録画された場合には、前記文字情報取得手段によって、前記録画ファイルに録画された前記映像に表示された文字情報が取得され、前記文字情報文章化手段によって、取得された前記文字情報が文章化され、前記メタデータ格納手段によって、文章化された前記文字情報が前記映像のメタデータとして前記メタデータ格納ファイルに格納される。
請求項2に記載の発明にあっては、前記文字情報取得手段は、前記録画ファイルに録画された映像に対して画像解析を行い、前記映像から文字情報を抽出する文字情報抽出手段と、前記文字情報抽出手段によって抽出された前記文字情報を辞書ファイルと照合する辞書照合手段とを有することを特徴とする。
ここで、辞書ファイルには、各国の言語に関する文字、熟語を有する辞書データが照合可能に含まれている。
従って、前記文字情報抽出手段によって、前記録画ファイルに録画された前記映像が画像解析されることにより前記映像から文字情報が抽出され、前記辞書照合手段によって、抽出された前記文字情報が前記辞書ファイルと照合される。
請求項3に記載に発明にあっては、前記文字情報抽出手段は、画像解析済みの映像と、前記画像解析済みの映像から抽出された文字情報とを有する画像解析蓄積ファイルと照合して画像解析する画像解析手段を有することを特徴とする。
ここで、画像解析済みの映像とは、これまでに画像解析された映像を意味し、前記画像解析済みの映像から抽出された文字情報とは、画像解析された結果、正しく前記映像から抽出された文字情報を意味する。
従って、前記画像解析手段によって、前記録画ファイルに録画された前記映像が、画像解析済みの映像と、前記画像解析済みの映像から抽出された文字情報とを有する画像解析蓄積ファイルと照合されることにより、画像解析される。
請求項4に記載の発明にあっては、前記文字情報抽出手段は、前記画像解析手段によって画像解析された映像と、前記映像から抽出された文字情報とに基づいて、前記画像解析蓄積ファイルを修正する画像解析学習手段をさらに有することを特徴とする。
ここで、修正は追加、削除を含む概念である。
従って、前記画像解析学習手段によって、前記画像解析蓄積ファイルが前記画像解析手段によって画像解析された映像と、前記映像から抽出された文字情報とに基づいて修正される。
請求項5に記載の発明にあっては、前記文字情報取得手段は、前記録画ファイルに録画された映像に対して画像解析を行い、前記映像から文字情報を抽出する文字情報抽出手段と、前記文字情報抽出手段によって抽出された前記文字情報をインターネットにより検索し取得された情報と照合するインターネット照合手段とを有することを特徴とする。
ここで、インターネットにより検索し取得された情報とは、大手新聞社、地方新聞社、ニュース配信会社、テレビ会社等のサイト、ニュース専門サイト、ニュースまとめサイト、その他一般のウェブサイトから取得される情報や、オンライン辞書等から取得される用語解説に関する情報を含む概念である。
従って、前記文字情報抽出手段によって、前記録画ファイルに録画された前記映像が画像解析されることにより前記映像から文字情報が抽出され、前記インターネット照合手段によって、抽出された前記文字情報がインターネットにより検索され取得された情報と照合される。
請求項6に記載の発明にあっては、前記文字情報取得手段は、前記文字情報抽出手段によって抽出された文字情報に基づいて、前記辞書ファイルを修正する辞書更新手段をさらに有することを特徴とする。
ここで、修正は追加、削除を含む概念である。
従って、前記辞書更新手段によって、前記辞書ファイルが前記文字情報抽出手段によって抽出された前記文字情報に基づいて修正される。
請求項7に記載の発明にあっては、前記辞書ファイルは、辞書データと、前記辞書データの頻度パラメータとを有し、前記辞書照合手段は、前記頻度パラメータの大きい辞書データを照合対象として優先的に選択することを特徴とする。
ここで、頻度パラメータとは、辞書データに含まれる単語、熟語等が映像にどのような頻度で表示されているかを表すパラメータである。具体的には、前記辞書照合手段が、前記文字情報抽出手段によって映像から抽出された文字情報を辞書ファイルと照合する毎に前記頻度パラメータを更新する。
従って、前記辞書照合手段によって、前記頻度パラメータの大きい前記辞書データが照合対象として優先的に選択され、選択された前記辞書データと、前記文字情報抽出手段によって抽出された前記文字情報とが照合される。
請求項8に記載の発明にあっては、前記文字情報文章化手段は、前記メタデータ格納ファイルを参照し、前記文字情報取得手段によって取得された前記文字情報に関連するメタデータを前記文字情報の文章化に利用することを特徴とする。
従って、前記文字情報文章化手段は、前記文字情報取得手段によって取得された前記文字情報を集約して文章化する際に、前記メタデータ格納ファイルを参照して、前記文字情報に関連する作成済のメタデータを前記文字情報の文章化に利用することができる。
請求項9に記載の発明にあっては、前記文字情報文章化手段は、前記録画ファイルに録画された映像の電子番組表データを取得し、前記文字情報の文章化に利用することを特徴とする。
ここで、電子番組表データとは、テレビ放送局が放送する放送番組映像やインターネットによって配信される動画映像の放送日時、配信日時、ジャンル、タイトル、出演者等の情報が含まれたデータである。
従って、前記文字情報文章化手段は、前記文字情報取得手段によって取得された前記文字情報を集約して文章化する際に、前記映像の電子番組表データを取得して、前記文字情報の文章化に利用することができる。
請求項10に記載の発明にあっては、前記文字情報取得手段は、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情と、人物情報、ロゴ情報、物情報又は表情情報とを照合し、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情を文字情報として抽出する映像認識情報抽出手段を有することを特徴とする。
従って、前記映像認識情報抽出手段によって、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情と、人物情報、ロゴ情報、物情報又は表情情報とが照合され、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情が文字情報として抽出される。
請求項11に記載に発明にあっては、前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報は、画像解析済みの映像と、前記画像解析済みの映像から抽出された文字情報とにより構成されていることを特徴とする。
ここで、画像解析済みの映像とは、これまでに画像解析された映像を意味し、前記画像解析済みの映像から抽出された文字情報とは、画像解析された結果、正しく前記映像から抽出された文字情報を意味する。
従って、前記映像認識情報抽出手段によって、前記録画ファイルに録画された前記映像が、画像解析済みの映像と、前記画像解析済みの映像から抽出された文字情報とを有する前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報と照合されることにより、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情が文字情報として抽出される。
請求項12に記載の発明にあっては、前記文字情報取得手段は、前記映像認識情報抽出手段によって画像解析された映像と、前記映像から抽出された文字情報とに基づいて、前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報を修正する映像認識学習手段をさらに有することを特徴とする。
ここで、修正は追加、削除を含む概念である。
従って、前記映像認識学習手段によって、前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報が、前記映像認識情報抽出手段によって画像解析された映像と、前記映像から抽出された文字情報とに基づいて修正される。
請求項13に記載の発明にあっては、前記文字情報取得手段は、前記録画ファイルに録画された映像と共に録音された音声に対して音声解析を行い、前記音声から文字情報を抽出する音声情報抽出手段と、前記音声情報抽出手段によって抽出された前記文字情報を辞書ファイルと照合する辞書照合手段とを有することを特徴とする。
従って、前記音声情報抽出手段によって、前記録画ファイルに録画された前記映像と共に録音された前記音声が音声解析されることにより前記音声から文字情報が抽出され、前記辞書照合手段によって、抽出された前記文字情報が前記辞書ファイルと照合される。
請求項14に記載に発明にあっては、前記音声情報抽出手段は、音声解析済みの音声と、前記音声解析済みの音声から抽出された文字情報とを有する音声解析蓄積ファイルと照合して音声解析する音声解析手段を有することを特徴とする。
ここで、音声解析済みの音声とは、これまでに音声解析された音声を意味し、前記音声解析済みの音声から抽出された文字情報とは、音声解析された結果、正しく前記音声から抽出された文字情報を意味する。
従って、前記音声解析手段によって、前記録画ファイルに録画された前記映像と共に録音された前記音声が、音声解析済みの音声と、前記音声解析済みの音声から抽出された文字情報とを有する音声解析蓄積ファイルと照合されることにより、音声解析される。
請求項15に記載の発明にあっては、前記文字情報取得手段は、前記音声解析手段によって音声解析された音声と、前記音声から抽出された文字情報とに基づいて、前記音声解析蓄積ファイルを修正する音声解析学習手段をさらに有することを特徴とする。
ここで、修正は追加、削除を含む概念である。
従って、前記音声解析学習手段によって、前記音声解析蓄積ファイルが前記音声解析手段によって音声解析された音声と、前記音声から抽出された文字情報とに基づいて修正される。
請求項16に記載の発明にあっては、前記文字情報取得手段は、前記録画ファイルに録画された映像に対して画像解析を行い、前記映像から文字情報を抽出する文字情報抽出手段と、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情と、人物情報、ロゴ情報、物情報又は表情情報とを照合し、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情を文字情報として抽出する映像認識情報抽出手段と、前記録画ファイルに録画された映像と共に録音された音声に対して音声解析を行い、前記音声から文字情報を抽出する音声情報抽出手段と、前記文字情報抽出手段、前記映像認識情報抽出手段、及び、前記音声情報抽出手段によって、夫々、抽出された文字情報を互いに照合する複合情報照合手段とを有することを特徴とする。
従って、前記録画手段によって、前記録画ファイルに映像が録画された場合には、前記文字情報抽出手段によって、前記録画ファイルに録画された前記映像が画像解析されることにより前記映像から文字情報が抽出され、前記映像認識情報抽出手段によって、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情と、人物情報、ロゴ情報、物情報又は表情情報とが照合され、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情が文字情報として抽出され、前記音声情報抽出手段によって、前記録画ファイルに録画された前記映像と共に録音された前記音声が音声解析されることにより前記音声から文字情報が抽出され、前記複合情報照合手段によって、前記文字情報抽出手段、前記映像認識情報抽出手段、及び、前記音声情報抽出手段によって、夫々、抽出された文字情報が互いに照合される。
請求項17に記載の発明にあっては、前記映像は、テレビ放送局が放送する放送番組映像であることを特徴とする。
請求項18に記載の発明にあっては、前記映像は、インターネットによって配信される動画映像であることを特徴とする。
請求項1〜18に記載のメタデータ生成システムにあっては、前記録画手段によって、前記録画ファイルに映像が録画された場合には、前記文字情報取得手段によって、前記録画ファイルに録画された前記映像に表示された文字情報が取得され、前記文字情報文章化手段によって、取得された前記文字情報が文章化され、前記メタデータ格納手段によって、文章化された前記文字情報が前記映像のメタデータとして前記メタデータ格納ファイルに格納されるので、前記映像に表示され、前記映像に関連する単語、文章の情報である前記文字情報から前記映像のメタデータを精度良く自動作成することができる。
その結果、テレビ放送番組又はインターネット配信動画に関するメタデータを短時間で作成し、人的コストを削減することができるシステムを提供することができる。
請求項2に記載のメタデータ生成システムにあっては、前記文字情報抽出手段によって、前記録画ファイルに録画された前記映像が画像解析されることにより前記映像から文字情報が抽出され、前記辞書照合手段によって、抽出された前記文字情報が前記辞書ファイルと照合される。
従って、画像解析によって効率よく前記映像から前記文字情報を抽出できると共に、前記文字情報が前記辞書ファイルと照合されることにより、例えば、画像解析によって誤認識したり、完全に認識することが出来なかったりした文字や単語を前記辞書ファイルに基づいて修正し、前記文字情報の精度を高めることができる。
請求項3に記載のメタデータ生成システムにあっては、前記画像解析手段によって、前記録画ファイルに録画された前記映像が、画像解析済みの映像と、前記画像解析済みの映像から抽出された文字情報とを有する画像解析蓄積ファイルと照合されることにより、画像解析される。
従って、過去から蓄積された画像解析結果を用いて効果的に画像解析を行うことができ、その結果、前記映像のメタデータを精度良く短時間で作成することができる。
請求項4に記載のメタデータ生成システムにあっては、前記画像解析学習手段によって、前記画像解析蓄積ファイルが前記画像解析手段によって画像解析された映像と、前記映像から抽出された文字情報とに基づいて修正される。
従って、今回行った画像解析結果を前記画像解析蓄積ファイルに追加したり、前記画像解析蓄積ファイルに含まれる誤った情報を今回行った画像解析結果に基づいて削除したりすることができ、その結果、前記画像解析蓄積ファイルを更新して常に最新の状態で使用することができる。
また、請求項5に記載のメタデータ生成システムにあっては、前記文字情報抽出手段によって、前記録画ファイルに録画された前記映像が画像解析されることにより前記映像から文字情報が抽出され、前記インターネット照合手段によって、抽出された前記文字情報がインターネットにより検索され取得された情報と照合される。
従って、画像解析によって効率よく前記映像から前記文字情報を抽出できると共に、前記文字情報がインターネットにより検索され取得された情報と照合されることにより、例えば、画像解析によって誤認識したり、完全に認識することが出来なかったりした文字や単語をインターネットにより検索され取得された前記情報に基づいて修正し、前記文字情報の精度を高めることができる。
請求項6に記載のメタデータ生成システムにあっては、前記辞書更新手段によって、前記辞書ファイルが前記文字情報抽出手段によって抽出された前記文字情報に基づいて修正されるので、前記文字情報から得られる新たな単語、文章等の情報を前記辞書ファイルに追加したり、前記辞書ファイルに含まれる誤った情報を前記文字情報に基づいて削除したりすることができ、その結果、前記辞書ファイルを更新して常に最新の状態で使用することができる。
請求項7に記載のメタデータ生成システムにあっては、前記辞書照合手段によって、前記頻度パラメータの大きい前記辞書データが照合対象として優先的に選択され、選択された前記辞書データと、前記文字情報抽出手段によって抽出された前記文字情報とが照合されるので、例えば、前記辞書ファイルに互いに類似した複数の文字や単語が存在する場合に、前記頻度パラメータの大きい前記辞書データが優先的に選択され、照合対象となる。
その結果、前記頻度パラメータの大きい前記辞書データに基づいて修正することができ、前記文字情報の精度をより効率的に高めることができる。
請求項8に記載のメタデータ生成システムにあっては、前記文字情報文章化手段は、前記文字情報取得手段によって取得された前記文字情報を集約して文章化する際に、前記メタデータ格納ファイルを参照して、前記文字情報に関連する作成済のメタデータを前記文字情報の文章化に利用することができ、その結果、テレビ放送番組又はインターネット配信動画に関するメタデータを精度良く、より効率的に自動生成することができる。
請求項9に記載のメタデータ生成システムにあっては、前記文字情報文章化手段は、前記文字情報取得手段によって取得された前記文字情報を集約して文章化する際に、前記映像の電子番組表データを取得して、放送日時、配信日時、ジャンル、タイトル、出演者等の情報が含まれた前記電子番組表データを前記文字情報の文章化に利用することができる。その結果、テレビ放送番組又はインターネット配信動画に関するメタデータを精度良く、より効率的に自動生成することができる。
請求項10に記載のメタデータ生成システムにあっては、前記映像認識情報抽出手段によって、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情と、人物情報、ロゴ情報、物情報又は表情情報とが照合され、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情が文字情報として抽出されるので、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情から前記映像のメタデータを作成することができる。
請求項11に記載のメタデータ生成システムにあっては、前記映像認識情報抽出手段によって、前記録画ファイルに録画された前記映像が、画像解析済みの映像と、前記画像解析済みの映像から抽出された文字情報とを有する前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報と照合されることにより、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情が文字情報として抽出される。
従って、過去から蓄積された画像解析結果を用いて効果的に画像解析を行うことができ、その結果、前記映像のメタデータを精度良く短時間で作成することができる。
請求項12に記載のメタデータ生成システムにあっては、前記映像認識学習手段によって、前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報が、前記映像認識情報抽出手段によって画像解析された映像と、前記映像から抽出された文字情報とに基づいて修正される。
従って、今回行った画像解析結果を前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報に追加したり、前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報に含まれる誤った情報を今回行った画像解析結果に基づいて削除したりすることができ、その結果、前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報を更新して常に最新の状態で使用することができる。
請求項13に記載のメタデータ生成システムにあっては、前記音声情報抽出手段によって、前記録画ファイルに録画された前記映像と共に録音された前記音声が音声解析されることにより前記音声から文字情報が抽出され、前記辞書照合手段によって、抽出された前記文字情報が前記辞書ファイルと照合される。
従って、音声解析によって効率よく前記映像と共に録音された前記音声から前記文字情報を抽出できると共に、前記文字情報が前記辞書ファイルと照合されることから、例えば、音声解析によって誤認識したり、完全に認識することが出来なかったりした文字や単語を前記辞書ファイルに基づいて修正し、前記文字情報の精度を高めることができる。
請求項14に記載に発明にあっては、前記音声解析手段によって、前記録画ファイルに録画された前記映像と共に録音された前記音声が、音声解析済みの音声と、前記音声解析済みの音声から抽出された文字情報とを有する音声解析蓄積ファイルと照合されることにより、音声解析される。
従って、過去から蓄積された音声解析結果を用いて効果的に音声解析を行うことができ、その結果、前記映像のメタデータを精度良く短時間で作成することができる。
請求項15に記載の発明にあっては、前記音声解析学習手段によって、前記音声解析蓄積ファイルが前記音声解析手段によって音声解析された音声と、前記音声から抽出された文字情報とに基づいて修正される。
従って、今回行った音声解析結果を前記音声解析蓄積ファイルに追加したり、前記音声解析蓄積ファイルに含まれる誤った情報を今回行った音声解析結果に基づいて削除したりすることができ、その結果、前記音声解析蓄積ファイルを更新して常に最新の状態で使用することができる。
請求項16に記載のメタデータ生成システムにあっては、前記録画手段によって、前記録画ファイルに映像が録画された場合には、前記文字情報抽出手段によって、前記録画ファイルに録画された前記映像が画像解析されることにより前記映像から文字情報が抽出され、前記映像認識情報抽出手段によって、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情と、人物情報、ロゴ情報、物情報又は表情情報とが照合され、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情が文字情報として抽出され、前記音声情報抽出手段によって、前記録画ファイルに録画された前記映像と共に録音された前記音声が音声解析されることにより前記音声から文字情報が抽出され、前記複合情報照合手段によって、前記文字情報抽出手段、前記映像認識情報抽出手段、及び、前記音声情報抽出手段によって、夫々、抽出された文字情報が互いに照合される。
従って、画像解析、音声解析、及び、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情から効率よく前記文字情報を抽出できる。
また、前記複合情報照合手段によって、前記文字情報抽出手段、前記映像認識情報抽出手段、及び、前記音声情報抽出手段によって、夫々、抽出された文字情報が互いに照合されるので、例えば、前記文字情報抽出手段によって誤認識したり、完全に認識することが出来なかったりした文字や単語を、前記音声情報抽出手段によって抽出された文字情報に基づいて修正することができる。
その結果、テレビ放送番組又はインターネット配信動画に関するメタデータをより精度良く効率的に自動生成することが出来るシステムを提供することができる。
図1は、本発明に係るメタデータ生成システムの一実施の形態を示すブロック図である。 図2は、本発明に係るメタデータ生成システムの一実施の形態において、メタデータ生成システムにおける処理の流れを示すフローチャートである。 図3は、本発明に係るメタデータ生成システムの一実施の形態において、(a)は放送番組映像を表す模式図、(b)は(a)の放送番組映像から生成されたメタデータである。
以下、添付図面に示す実施の形態に基づき、本発明を詳細に説明する。
(1)本実施の形態に係るメタデータ生成システム10の構成
図1及び図3に示すように、本発明の一実施の形態に係るメタデータ生成システム10は、テレビ放送局30が放送する放送番組映像Vを録画する録画ファイル11を有する録画手段12と、録画ファイル11に録画された映像Vから文字情報Cを取得する文字情報取得手段13と、文字情報取得手段13によって取得された文字情報Cを集約して文章化する文字情報文章化手段14と、文字情報文章化手段14によって文章化された文字情報を録画ファイル11に録画された映像VのメタデータMとしてメタデータ格納ファイル15に格納するメタデータ格納手段16とを備えている。
また、図1及び図3に示すように、本実施の形態に係る文字情報取得手段13は、録画ファイル11に録画された映像Vに対して画像解析を行い、映像Vから文字情報Cを抽出する文字情報抽出手段17と、文字情報抽出手段17によって抽出された文字情報Cを辞書ファイル18と照合する辞書照合手段19とを有している。
本実施の形態にかかる文字情報抽出手段17は、録画ファイル11に録画された映像Vに対して画像解析を行うことによって文字列を抽出する画像解析手段31と、抽出した前記文字列に対して形態素解析を行うことによって前記文字列に含まれる単語を抽出する単語解析手段32とを有している。
ここで、形態素解析とは、文法的な情報の注記の無い自然言語のテキストデータ(文)から、対象言語の文法や、辞書と呼ばれる単語の品詞等の情報にもとづき、形態素(おおまかにいえば、言語で意味を持つ最小単位)の列に分割し、それぞれの形態素の品詞等を判別する作業である。具体的には、「○×オープン決勝進出」という文字列から「○×」(大会名)、「○×オープン」、「決勝」、「進出」、「決勝進出」といった単語を抽出することができる。
図1に示すように、本実施の形態に係る画像解析手段31は、画像解析済みの映像と、前記画像解析済みの映像から抽出された文字情報とを有する画像解析蓄積ファイル35と照合して画像解析するように構成されている。
ここで、画像解析済みの映像とは、これまでに画像解析された映像を意味し、前記画像解析済みの映像から抽出された文字情報とは、画像解析された結果、正しく前記映像から抽出された文字情報を意味する。
また、図1及び図3に示すように、本実施の形態に係る文字情報抽出手段17は、画像解析手段31によって画像解析された映像Vと、映像Vから抽出された文字情報Cとに基づいて、画像解析蓄積ファイル35を修正する画像解析学習手段36をさらに有している。
また、図1及び図3に示すように、本実施の形態に係る文字情報取得手段13は、文字情報抽出手段17によって抽出された文字情報Cをインターネット20により検索し取得された情報と照合するインターネット照合手段21を有している。
また、図1及び図3に示すように、本実施の形態に係る文字情報取得手段13は、文字情報抽出手段17によって抽出された文字情報Cに基づいて、辞書ファイル18を修正する辞書更新手段33をさらに有している。
また、図1及び図3に示すように、本実施の形態に係る辞書ファイル18は、各国の言語に関する文字、熟語を有する辞書データが照合可能に含まれている辞書データDと、辞書データDの頻度パラメータ34とを有し、辞書照合手段19は、頻度パラメータ34の大きい辞書データDを照合対象として優先的に選択するように構成されている。
また、図1及び図3に示すように、本実施の形態に係る文字情報文章化手段14は、メタデータ格納ファイル15を参照し、文字情報取得手段13によって取得された文字情報Cに関連するメタデータMを文字情報Cの文章化に利用するように構成されている。
また、図1及び図3に示すように、本実施の形態に係る文字情報文章化手段14は、録画ファイル11に録画された映像Vの電子番組表データEを取得し、文字情報Cの文章化に利用するように構成されている。本実施の形態に係る電子番組表データEには、テレビ放送局30が放送する放送番組映像Vの放送日時、配信日時、ジャンル、タイトル、出演者等の情報が含まれている。
また、図1及び図3に示すように、本実施の形態に係る文字情報取得手段13は、映像Vに含まれる人物P、ロゴL、人物Pの持ち物B又は人物Pの表情Fと、人物情報、ロゴ情報、物情報又は表情情報とを照合し、映像Vに含まれる人物P、ロゴL、人物Pの持ち物B又は人物Pの表情Fを文字情報Cとして抽出する映像認識情報抽出手段22を有している。
本実施の形態に係る人物情報、ロゴ情報、物情報又は表情情報は、画像解析済みの映像と、前記画像解析済みの映像から抽出された文字情報とにより構成されている。
ここで、画像解析済みの映像とは、これまでに画像解析された映像を意味し、前記画像解析済みの映像から抽出された文字情報とは、画像解析された結果、正しく前記映像から抽出された文字情報を意味する。
また、図1及び図3に示すように、本実施の形態に係る文字情報取得手段13は、映像認識情報抽出手段22によって画像解析された映像Vと、映像Vから抽出された文字情報Cとに基づいて、人物情報、ロゴ情報、物情報又は表情情報を修正する映像認識学習手段37をさらに有することを特徴とする。
また、図1及び図3に示すように、本実施の形態に係る文字情報取得手段13は、録画ファイル11に録画された映像Vと共に録音された音声に対して音声解析を行い、前記音声から文字情報Cを抽出する音声情報抽出手段23を有している。
図1に示すように、本実施の形態に係る音声情報抽出手段23は、音声解析済みの音声と、前記音声解析済みの音声から抽出された文字情報とを有する音声解析蓄積ファイル38と照合して音声解析する音声解析手段39を有することを特徴とする。
ここで、音声解析済みの音声とは、これまでに音声解析された音声を意味し、前記音声解析済みの音声から抽出された文字情報とは、音声解析された結果、正しく前記音声から抽出された文字情報を意味する。
また、図1及び図3に示すように、本実施の形態に係る音声情報抽出手段23は、音声解析手段39によって音声解析された音声と、前記音声から抽出された文字情報とに基づいて、音声解析蓄積ファイル38を修正する音声解析学習手段40をさらに有することを特徴とする。
図1及び図3に示すように、本実施の形態に係る文字情報取得手段13にあっては、文字情報抽出手段17、映像認識情報抽出手段22、及び、音声情報抽出手段23によって、夫々、抽出された文字情報Cを互いに照合する複合情報照合手段24を備えている。
図1及び図3に示すように、本実施の形態に係る録画手段12は、全ての放送局、例えば、我が国における全ての地上局及び衛星放送の放送局から放送された全ての放送番組の映像を、所定期間、例えば1ヶ月に亘って録画しうるように所定の容量のハードディスク型の記憶装置を有する大型の録画装置である。
本実施の形態において、録画手段12内に装備されたハードディスク内の録画ファイル11は、テレビ放送局30により放送された映像Vからなる番組コンテンツ25と、番組コンテンツ25が放送されたチャンネル名26と、番組コンテンツ25のタイムコード27に関する情報を有している。
この場合、番組コンテンツ25は、放送番組単位、当該放送番組を構成するコーナー単位、又は当該放送番組を構成する記事単位からなる。
また、図1及び図3に示すように、本実施の形態において、メタデータ格納手段16のメタデータ格納ファイル15には、番組コンテンツ要約テキストデータ28と、番組コンテンツ25が放送されたチャンネル名29と、番組コンテンツ25のタイムコード27とが記録されており、いずれも本実施の形態におけるメタデータMを構成するデータである。
番組コンテンツ要約テキストデータ28とは、テレビ放送局30により放送されたテレビ番組の内容を文字化して要約したものである。番組コンテンツ要約テキストデータ28は、番組コンテンツ25と同様に、放送番組単位、当該放送番組を構成するコーナー単位、又は当該放送番組を構成する記事単位からなる。
また、番組コンテンツ要約テキストデータ28には、ニュアンスパラメータを含めることができる。ここで、「ニュアンスパラメータ」とは、前記検索キーワードに対応する語句が出現する前記サイト情報のニュアンス(印象)を人工知能等のような自動システムや人間の判断により、数値化したものである。
例えば、番組コンテンツが良い内容(good)であれば高く(プラス評価)、悪い内容(bad)であれば低く(マイナス評価)、事実を述べただけの中立的な内容(neutral)であれば0(ゼロ評価)とすることができる。
(2)本実施の形態に係るメタデータ生成システム10の処理の流れ
図2に示すように、本実施の形態に係るメタデータ生成システム10は以下の工程に従って処理を行う。まず、録画手段12が、テレビ放送局30が放送する放送番組映像Vを録画ファイル11に録画する(S1)。
この際、録画手段12は、全ての放送局、例えば、我が国における全ての地上局及び衛星放送の放送局から放送された全ての放送番組の映像を、所定期間、例えば1ヶ月に亘って録画することもできる。
次いで、図2に示すように、文字情報取得手段13が、録画ファイル11に録画された映像Vに表示された文字情報Cを取得する。
この際、文字情報抽出手段17が、録画ファイル11に録画された映像Vに対して画像解析を行い、映像Vから文字情報Cを抽出する(S2a)。
特に、図1及び図3に示すように、本実施の形態にかかる文字情報抽出手段17にあっては、画像解析手段31が録画ファイル11に録画された映像Vに対して画像解析を行うことによって文字列を抽出し、単語解析手段32が抽出した前記文字列に対して形態素解析を行うことによって前記文字列に含まれる単語を抽出する。
具体的には、図3(a)に示すように、画像解析手段31が番組コンテンツ25の映像Vに対して画像解析を行うことによって、「××ニュース」、「速報○△選手○×オープン決勝進出」という文字列を抽出することができる。
続いて、単語解析手段32が抽出したこれらの文字列に対して形態素解析を行うことによって、「××」(番組名、チャンネル名)、「ニュース」、「××ニュース」、「速報」、「○△」(選手名)、「選手」、「○△選手」、「○×」(地域名、大会名)、「オープン」、「○×オープン」、「決勝」、「進出」といった単語を抽出することができる。
なお、図1及び図3に示すように、本実施の形態に係る文字情報抽出手段17にあっては、画像解析手段31が、録画ファイル11に録画された映像Vと、画像解析済みの映像及び前記画像解析済みの映像から抽出された文字情報を有する画像解析蓄積ファイル35とを照合することにより、画像解析する。
また、図2に示すように、映像認識情報抽出手段22が、映像Vに含まれる人物P、ロゴL、人物Pの持ち物B又は人物Pの表情Fと、人物情報、ロゴ情報、物情報又は表情情報とを照合し、映像Vに含まれる人物P、ロゴL、人物Pの持ち物B又は人物Pの表情Fを文字情報Cとして抽出する(S2b)。
具体的には、図3(a)に示すように、映像認識情報抽出手段22が番組コンテンツ25の映像Vに含まれる人物P、ロゴL、人物Pの持ち物B、人物Pの表情Fに対して、人物情報、ロゴ情報、物情報、表情情報を照合することによって、人物Pが「○△選手」、ロゴLが「○×オープン」、人物Pの持ち物Bが「テニス(ラケット)」、人物Pの表情Fが「精一杯な表情」であることが照合され、夫々を文字情報Cとして抽出することができる。
なお、図1及び図3に示すように、本実施の形態にあっては、映像認識情報抽出手段22が、録画ファイル11に録画された映像Vと、画像解析済みの映像及び前記画像解析済みの映像から抽出された文字情報を有する人物情報、ロゴ情報、物情報又は表情情報とを照合することにより、映像Vに含まれる人物P、ロゴL、人物Pの持ち物B又は人物Pの表情Fを文字情報Cとして抽出する。
また、図2に示すように、音声情報抽出手段23が、録画ファイル11に録画された映像Vと共に録音された音声に対して音声解析を行い、前記音声から文字情報Cを抽出する(S2c)。
なお、図1及び図3に示すように、本実施の形態に係る音声情報抽出手段23にあっては、音声解析手段39が、録画ファイル11に録画された映像Vと、画像解析済みの映像及び前記画像解析済みの映像から抽出された文字情報を有する音声解析蓄積ファイル38とを照合することにより、音声解析する。
続いて、図2に示すように、複合情報照合手段24が、文字情報抽出手段17、映像認識情報抽出手段22、及び、音声情報抽出手段23によって、夫々、抽出された文字情報を互いに照合する(S3)。
具体的には、図1及び図3に示すように、文字情報抽出手段17によって抽出された「○△選手」及び「○×オープン」が、映像認識情報抽出手段22によって抽出された「○△選手」(人物Pより抽出)及び「○×オープン」(ロゴLより抽出)と照合され、文字情報Cが正しく抽出されたことを確認し、文字情報Cの精度を高めることができる。
なお、処理速度を優先する場合には、複合情報照合手段24による照合工程S3を省略してもよい。
ここで、図1及び図3に示すように、画像解析学習手段36が、画像解析手段31によって画像解析された映像Vと、映像Vから抽出された文字情報Cとに基づいて、画像解析蓄積ファイル35を修正することができる。
また、ここで、図1及び図3に示すように、映像認識学習手段37が、映像認識情報抽出手段22によって画像解析された映像Vと、映像Vから抽出された文字情報Cとに基づいて、人物情報、ロゴ情報、物情報又は表情情報を修正することができる。
また、さらに、図1に示すように、音声解析学習手段40が、音声解析手段39によって音声解析された音声と、前記音声から抽出された文字情報とに基づいて、音声解析蓄積ファイル38を修正することができる。
続いて、図2に示すように、辞書照合手段19が、文字情報抽出手段17、映像認識情報抽出手段22、又は、音声情報抽出手段23によって抽出された文字情報Cを辞書ファイル18と照合する(S4a)。照合した結果、文字情報Cが辞書ファイル18と一致しなかった場合は、文字情報Cを辞書ファイル18に基づいて修正する。一方、文字情報Cが辞書ファイル18と一致した場合には、そのまま照合処理を終了する。
ここで、図1に示すように、辞書照合手段19は、頻度パラメータ34の大きい辞書データDを照合対象として優先的に選択することができる。例えば、文字情報抽出手段17によって文字情報Cが「速報」ではなく誤って「連報」と抽出された場合において、辞書ファイル18と照合し、仮に「連報」という単語が登録されていたとしても、「速報」という単語の使用頻度が高く、当該単語の頻度パラメータが大きいことから、文字情報Cは「速報」であると判断して、文字情報Cを修正することができる。
また、図1及び図3に示すように、辞書更新手段22が、文字情報抽出手段17によって抽出された文字情報Cに基づいて、辞書ファイル18を修正することができる。
例えば、文字情報抽出手段17によって「独壇場(どくだんじょう)」が抽出された場合に、辞書ファイル18に存在する「独擅場(どくせんじょう)」という正しい表現の他に、「独壇場(どくだんじょう)」という元々は誤りだが慣用的に使用されるようになった表現を辞書ファイル18に追加することができる。
また、図2に示すように、インターネット照合手段21が、文字情報抽出手段17、映像認識情報抽出手段22、又は、音声情報抽出手段23によって抽出された文字情報Cをインターネット20により検索し取得された情報Iと照合することもできる(S4b)。
照合した結果、文字情報Cが情報Iと一致しなかった場合は、文字情報Cを情報Iに基づいて修正する。一方、文字情報Cが情報Iと一致した場合には、そのまま照合処理を終了する。
処理速度を優先する場合には、辞書照合手段19による照合工程S4a、インターネット照合手段21による照合工程S4bのいずれか一方のみを実行すればよく、一方、文字情報Cの精度(正確さ)を優先する場合には、両方の工程を順序問わず実行することもできる。
次いで、図2に示すように、文字情報文章化手段14が、取得された文字情報Cを集約して文章化する(S5)。
具体的には、図3に示すように、取得された文字情報Cである「××ニュース」、「速報」、「○△選手」、「○×オープン」、「決勝」、「進出」、「テニス(ラケット)」を集約して、「[××ニュース]○×オープンに出場している日本のトップテニスプレーヤー○△選手が決勝に進出した」という文字情報へと文章化することができる。
この際、文字情報文章化手段14は、メタデータ格納ファイル15を参照し、文字情報取得手段13によって取得された文字情報Cに関連するメタデータMを文字情報Cの文章化に利用することができる。
例えば、前日に放送された映像に係るメタデータが「(02/28 12:00)[××ニュース]○×オープンに出場している日本のトップテニスプレーヤー○△選手が準決勝に進出した」というものであった場合に、「○×オープンに出場している」、「日本のトップテニスプレーヤー○△選手」、「準決勝に進出した」という文章を利用して、文字情報Cの文章化を迅速に処理し、精度を高めることができる。
また、図1及び図3に示すように、文字情報文章化手段14は、録画ファイル11に録画された映像Vの電子番組表データEを取得し、文字情報Cの文章化に利用することもできる。例えば、電子番組表データEに「3月1日12時 ××ニュース」という情報が含まれていれば、メタデータMに「(03/01 12:00)[××ニュース]」という情報を追加し、文字情報Cの文章化を迅速に処理し、精度を高めることができる。
次いで、図2に示すように、メタデータ格納手段16が、文字情報文章化手段14によって文章化された文字情報を録画ファイル11に録画された映像VのメタデータMとしてメタデータ格納ファイル15に格納する(S6)。
具体的には、図3(b)に示すように、メタデータ格納手段16が、番組コンテンツ25の映像VのメタデータMとして「(03/01 12:00)[××ニュース]○×オープンに出場している日本のトップテニスプレーヤー○△選手が決勝に進出した」というメタデータをメタデータ格納ファイル15に格納することができる。
以上より、映像Vに表示され、映像Vに関連する単語、文章の情報である文字情報Cから映像VのメタデータMを作成することができる。
(3)本実施の形態に係るメタデータ生成システム10の効果
図1及び図3に示すように、本実施の形態に係るメタデータ生成システム10にあっては、録画手段12によって、録画ファイル11に映像が録画された場合には、文字情報取得手段13によって、録画ファイル11に録画された映像Vに表示された文字情報Cが取得され、文字情報文章化手段14によって、取得された文字情報Cが文章化され、メタデータ格納手段16によって、文章化された文字情報が映像VのメタデータMとしてメタデータ格納ファイル15に格納されるので、映像Vに表示され、映像Vに関連する単語、文章の情報である文字情報Cから映像VのメタデータMを精度良く自動作成することができる。
その結果、テレビ放送番組に関するメタデータを短時間で作成し、人的コストを削減することができるシステムを提供することができる。
図1及び図3に示すように、本実施の形態に係るメタデータ生成システム10にあっては、文字情報抽出手段17によって、録画ファイル11に録画された映像Vが画像解析されることにより映像Vから文字情報Cが抽出され、辞書照合手段19によって、抽出された文字情報Cが辞書ファイル18と照合される。
従って、画像解析によって効率よく映像Vから文字情報Cを抽出できると共に、文字情報Cが辞書ファイル18と照合されることにより、例えば、画像解析によって誤認識したり、完全に認識することが出来なかったりした文字や単語を辞書ファイル18に基づいて修正し、文字情報Cの精度を高めることができる。
図1及び図3に示すように、本実施の形態に係るメタデータ生成システム10にあっては、画像解析手段31によって、録画ファイル11に録画された映像Vが、画像解析済みの映像と、前記画像解析済みの映像から抽出された文字情報とを有する画像解析蓄積ファイル35と照合されることにより、画像解析される。
従って、過去から蓄積された画像解析結果を用いて効果的に画像解析を行うことができ、その結果、映像VのメタデータMを精度良く短時間で作成することができる。
図1及び図3に示すように、本実施の形態に係るメタデータ生成システム10にあっては、画像解析学習手段36によって、画像解析蓄積ファイル35が画像解析手段31によって画像解析された映像Vと、映像Vから抽出された文字情報Cとに基づいて修正される。
従って、今回行った画像解析結果を画像解析蓄積ファイル35に追加したり、画像解析蓄積ファイル35に含まれる誤った情報を今回行った画像解析結果に基づいて削除したりすることができ、その結果、画像解析蓄積ファイル35を更新して常に最新の状態で使用することができる。
また、図1及び図3に示すように、本実施の形態に係るメタデータ生成システム10にあっては、文字情報抽出手段17によって、録画ファイル11に録画された映像Vが画像解析されることにより映像Vから文字情報Cが抽出され、インターネット照合手段21によって、抽出された文字情報Cがインターネットにより検索され取得された情報Iと照合される。
従って、画像解析によって効率よく映像Vから文字情報Cを抽出できると共に、文字情報Cがインターネットにより検索され取得された情報Iと照合されることにより、例えば、画像解析によって誤認識したり、完全に認識することが出来なかったりした文字や単語をインターネットにより検索され取得された情報Iに基づいて修正し、文字情報Cの精度を高めることができる。
図1及び図3に示すように、本実施の形態に係るメタデータ生成システム10にあっては、辞書更新手段33によって、辞書ファイル18が文字情報抽出手段17によって抽出された文字情報Cに基づいて修正されるので、文字情報Cから得られる新たな単語、文章等の情報を辞書ファイル18に追加したり、辞書ファイル18に含まれる誤った情報を文字情報Cに基づいて削除したりすることができ、その結果、辞書ファイル18を更新して常に最新の状態で使用することができる。
図1及び図3に示すように、本実施の形態に係るメタデータ生成システム10にあっては、辞書照合手段19によって、頻度パラメータ34の大きい辞書データDが照合対象として優先的に選択され、選択された辞書データDと、文字情報抽出手段17によって抽出された文字情報Cとが照合されるので、例えば、辞書ファイル18に互いに類似した複数の文字や単語が存在する場合に、頻度パラメータ34の大きい辞書データDが優先的に選択され、照合対象となる。
その結果、頻度パラメータ34の大きい辞書データに基づいて修正することができ、文字情報Cの精度をより効率的に高めることができる。
図1及び図3に示すように、本実施の形態に係るメタデータ生成システム10にあっては、文字情報文章化手段14は、文字情報取得手段13によって取得された文字情報Cを集約して文章化する際に、メタデータ格納ファイル15を参照して、文字情報Cに関連する作成済のメタデータMを文字情報Cの文章化に利用することができ、その結果、テレビ放送番組又はインターネット配信動画に関するメタデータを精度良く、より効率的に自動生成することができる。
図1及び図3に示すように、本実施の形態に係るメタデータ生成システム10にあっては、文字情報文章化手段14は、文字情報取得手段13によって取得された文字情報Cを集約して文章化する際に、映像Vの電子番組表データEを取得して、放送日時、配信日時、ジャンル、タイトル、出演者等の情報が含まれた電子番組表データEを文字情報Cの文章化に利用することができる。その結果、テレビ放送番組又はインターネット配信動画に関するメタデータを精度良く、より効率的に自動生成することができる。
また、図1及び図3に示すように、本実施の形態に係るメタデータ生成システム10にあっては、映像認識情報抽出手段22によって、映像Vに含まれる人物P、ロゴL、人物Pの持ち物B又は人物Pの表情Fと、人物情報、ロゴ情報、物情報又は表情情報とが照合され、映像Vに含まれる人物P、ロゴL、人物Pの持ち物B又は人物Pの表情Fが文字情報Cとして抽出されるので、映像Vに含まれる人物P、ロゴL、人物Pの持ち物B又は人物Pの表情Fから映像VのメタデータMを作成することができる。
また、本実施の形態に係るメタデータ生成システム10にあっては、映像認識情報抽出手段22によって、録画ファイル11に録画された映像Vが、画像解析済みの映像と、前記画像解析済みの映像から抽出された文字情報とを有する前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報と照合されることにより、映像Vに含まれる人物P、ロゴL、人物Pの持ち物B又は人物Pの表情Fが文字情報Cとして抽出される。
従って、過去から蓄積された画像解析結果を用いて効果的に画像解析を行うことができ、その結果、映像VのメタデータMを精度良く短時間で作成することができる。
また、本実施の形態に係るメタデータ生成システム10にあっては、映像認識学習手段37によって、前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報が、映像認識情報抽出手段22によって画像解析された映像Vと、映像Vから抽出された文字情報Cとに基づいて修正される。
従って、今回行った画像解析結果を前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報に追加したり、前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報に含まれる誤った情報を今回行った画像解析結果に基づいて削除したりすることができ、その結果、前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報を更新して常に最新の状態で使用することができる。
また、図1及び図3に示すように、本実施の形態に係るメタデータ生成システム10にあっては、音声情報抽出手段23によって、録画ファイル11に録画された映像Vと共に録音された音声が音声解析されることにより前記音声から文字情報Cが抽出され、辞書照合手段19によって、抽出された文字情報Cが辞書ファイル18と照合される。
従って、音声解析によって効率よく映像Vと共に録音された音声から文字情報Cを抽出できると共に、文字情報Cが辞書ファイル18と照合されることから、例えば、音声解析によって誤認識したり、完全に認識することが出来なかったりした文字や単語を辞書ファイル18に基づいて修正し、文字情報Cの精度を高めることができる。
本実施の形態に係るメタデータ生成システム10にあっては、音声解析手段39によって、録画ファイル11に録画された映像Vと共に録音された前記音声が、音声解析済みの音声と、前記音声解析済みの音声から抽出された文字情報とを有する音声解析蓄積ファイル38と照合されることにより、音声解析される。
従って、過去から蓄積された音声解析結果を用いて効果的に音声解析を行うことができ、その結果、映像VのメタデータMを精度良く短時間で作成することができる。
また、本実施の形態に係るメタデータ生成システム10にあっては、音声解析学習手段40によって、音声解析蓄積ファイル38が音声解析手段39によって音声解析された音声と、前記音声から抽出された文字情報Cとに基づいて修正される。
従って、今回行った音声解析結果を音声解析蓄積ファイル38に追加したり、音声解析蓄積ファイル38に含まれる誤った情報を今回行った音声解析結果に基づいて削除したりすることができ、その結果、音声解析蓄積ファイル38を更新して常に最新の状態で使用することができる。
また、図1及び図3に示すように、本実施の形態に係るメタデータ生成システム10にあっては、録画手段12によって、録画ファイル11に映像Vが録画された場合には、文字情報抽出手段17によって、録画ファイル11に録画された映像Vが画像解析されることにより映像Vから文字情報Cが抽出され、映像認識情報抽出手段22によって、映像Vに含まれる人物P、ロゴL、人物Pの持ち物B又は人物Pの表情Fと、人物情報、ロゴ情報、物情報又は表情情報とが照合され、映像Vに含まれる人物P、ロゴL、人物Pの持ち物B又は人物Pの表情Fが文字情報Cとして抽出され、音声情報抽出手段23によって、録画ファイル11に録画された映像Vと共に録音された音声が音声解析されることにより前記音声から文字情報Cが抽出され、複合情報照合手段24によって、文字情報抽出手段17、映像認識情報抽出手段22、及び、音声情報抽出手段23によって、夫々、抽出された文字情報Cが互いに照合される。
従って、画像解析、音声解析、及び、映像Vに含まれる人物P、ロゴL、人物Pの持ち物B又は人物Pの表情Fから効率よく文字情報Cを抽出できる。
また、複合情報照合手段24によって、文字情報抽出手段17、映像認識情報抽出手段22、及び、音声情報抽出手段23によって、夫々、抽出された文字情報Cが互いに照合されるので、例えば、文字情報抽出手段17によって誤認識したり、完全に認識することが出来なかったりした文字や単語を、音声情報抽出手段23によって抽出された文字情報Cに基づいて修正することができる。
その結果、テレビ放送番組又はインターネット配信動画に関するメタデータをより精度良く効率的に自動生成することが出来るシステムを提供することができる。
本実施の形態にあっては、映像Vは、テレビ放送局30が放送する放送番組映像である場合を例に説明したが、前記構成に限定されず、映像Vは、インターネットによって配信される動画映像であってもよい。
本考案は、メタデータを生成するシステムに広く適用可能であり、産業上利用可能性を有している。
10:メタデータ生成システム
11:録画ファイル
12:録画手段
13:文字情報取得手段
14:文字情報文章化手段
15:メタデータ格納ファイル
16:メタデータ格納手段
17:文字情報抽出手段
18:辞書ファイル
19:辞書照合手段
20:インターネット
21:インターネット照合手段
22:映像認識情報抽出手段
23:音声情報抽出手段
24:複合情報照合手段
25:番組コンテンツ
26:チャンネル名
27:タイムコード
28:番組コンテンツ要約テキストデータ
29:チャンネル名
30:テレビ放送局
31:画像解析手段
32:単語解析手段
33:辞書更新手段
34:頻度パラメータ
35:画像解析蓄積ファイル
36:画像解析学習手段
37:映像認識学習手段
38:音声解析蓄積ファイル
39:音声解析手段
40:音声解析学習手段
B:人物の持ち物
C:文字情報
D:辞書データ
E:電子番組表データ
F:人物の表情
L:ロゴ
M:メタデータ
P:人物
V:映像

Claims (18)

  1. 映像を録画する録画ファイルを有する録画手段と、前記録画ファイルに録画された映像から文字情報を取得する文字情報取得手段と、前記文字情報取得手段によって取得された前記文字情報を集約して文章化する文字情報文章化手段と、前記文字情報文章化手段によって文章化された前記文字情報を前記録画ファイルに録画された映像のメタデータとしてメタデータ格納ファイルに格納するメタデータ格納手段とを備えることを特徴とするメタデータ生成システム。
  2. 前記文字情報取得手段は、前記録画ファイルに録画された映像に対して画像解析を行い、前記映像から文字情報を抽出する文字情報抽出手段と、前記文字情報抽出手段によって抽出された前記文字情報を辞書ファイルと照合する辞書照合手段とを有することを特徴とする請求項1記載のメタデータ生成システム。
  3. 前記文字情報抽出手段は、画像解析済みの映像と、前記画像解析済みの映像から抽出された文字情報とを有する画像解析蓄積ファイルと照合して画像解析する画像解析手段を有することを特徴とする請求項2記載のメタデータ生成システム。
  4. 前記文字情報抽出手段は、前記画像解析手段によって画像解析された映像と、前記映像から抽出された文字情報とに基づいて、前記画像解析蓄積ファイルを修正する画像解析学習手段をさらに有することを特徴とする請求項3記載のメタデータ生成システム。
  5. 前記文字情報取得手段は、前記録画ファイルに録画された映像に対して画像解析を行い、前記映像から文字情報を抽出する文字情報抽出手段と、前記文字情報抽出手段によって抽出された前記文字情報をインターネットにより検索し取得された情報と照合するインターネット照合手段とを有することを特徴とする請求項1記載のメタデータ生成システム。
  6. 前記文字情報取得手段は、前記文字情報抽出手段によって抽出された文字情報に基づいて、前記辞書ファイルを修正する辞書更新手段をさらに有することを特徴とする請求項2記載のメタデータ生成システム。
  7. 前記辞書ファイルは、辞書データと、前記辞書データの頻度パラメータとを有し、前記辞書照合手段は、前記頻度パラメータの大きい辞書データを照合対象として優先的に選択することを特徴とする請求項2記載のメタデータ生成システム。
  8. 前記文字情報文章化手段は、前記メタデータ格納ファイルを参照し、前記文字情報取得手段によって取得された前記文字情報に関連するメタデータを前記文字情報の文章化に利用することを特徴とする請求項1記載のメタデータ生成システム。
  9. 前記文字情報文章化手段は、前記録画ファイルに録画された映像の電子番組表データを取得し、前記文字情報の文章化に利用することを特徴とする請求項1記載のメタデータ生成システム。
  10. 前記文字情報取得手段は、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情と、人物情報、ロゴ情報、物情報又は表情情報とを照合し、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情を文字情報として抽出する映像認識情報抽出手段を有することを特徴とする請求項1に記載のメタデータ生成システム。
  11. 前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報は、画像解析済みの映像と、前記画像解析済みの映像から抽出された文字情報とにより構成されていることを特徴とする請求項10記載のメタデータ生成システム。
  12. 前記文字情報取得手段は、前記映像認識情報抽出手段によって画像解析された映像と、前記映像から抽出された文字情報とに基づいて、前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報を修正する映像認識学習手段をさらに有することを特徴とする請求項11記載のメタデータ生成システム。
  13. 前記文字情報取得手段は、前記録画ファイルに録画された映像と共に録音された音声に対して音声解析を行い、前記音声から文字情報を抽出する音声情報抽出手段を有することを特徴とする請求項1に記載のメタデータ生成システム。
  14. 前記音声情報抽出手段は、音声解析済みの音声と、前記音声解析済みの音声から抽出された文字情報とを有する音声解析蓄積ファイルと照合して音声解析する音声解析手段を有することを特徴とする請求項13記載のメタデータ生成システム。
  15. 前記文字情報取得手段は、前記音声解析手段によって音声解析された音声と、前記音声から抽出された文字情報とに基づいて、前記音声解析蓄積ファイルを修正する音声解析学習手段をさらに有することを特徴とする請求項14記載のメタデータ生成システム。
  16. 前記文字情報取得手段は、前記録画ファイルに録画された映像に対して画像解析を行い、前記映像から文字情報を抽出する文字情報抽出手段と、
    前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情と、人物情報、ロゴ情報、物情報又は表情情報とを照合し、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情を文字情報として抽出する映像認識情報抽出手段と、
    前記録画ファイルに録画された映像と共に録音された音声に対して音声解析を行い、前記音声から文字情報を抽出する音声情報抽出手段と、
    前記文字情報抽出手段、前記映像認識情報抽出手段、及び、前記音声情報抽出手段によって、夫々、抽出された文字情報を互いに照合する複合情報照合手段とを有することを特徴とする請求項1記載のメタデータ生成システム。
  17. 前記映像は、テレビ放送局が放送する放送番組映像であることを特徴とする請求項1〜16のいずれか1項に記載のメタデータ生成システム。
  18. 前記映像は、インターネットによって配信される動画映像であることを特徴とする請求項1〜16のいずれか1項に記載のメタデータ生成システム。
JP2016165100A 2016-08-25 2016-08-25 メタデータ生成システム Active JP6857983B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016165100A JP6857983B2 (ja) 2016-08-25 2016-08-25 メタデータ生成システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016165100A JP6857983B2 (ja) 2016-08-25 2016-08-25 メタデータ生成システム

Publications (2)

Publication Number Publication Date
JP2018033048A true JP2018033048A (ja) 2018-03-01
JP6857983B2 JP6857983B2 (ja) 2021-04-14

Family

ID=61305137

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016165100A Active JP6857983B2 (ja) 2016-08-25 2016-08-25 メタデータ生成システム

Country Status (1)

Country Link
JP (1) JP6857983B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019160071A (ja) * 2018-03-15 2019-09-19 Jcc株式会社 要約作成システム、及び要約作成方法
JP2019191712A (ja) * 2018-04-19 2019-10-31 Jcc株式会社 録画再生システム
JP2019213038A (ja) * 2018-06-04 2019-12-12 Jcc株式会社 映像情報提供システム
JP2020123228A (ja) * 2019-01-31 2020-08-13 Jcc株式会社 データ解析システム
JP2021012466A (ja) * 2019-07-04 2021-02-04 Jcc株式会社 メタデータ生成システム、映像コンテンツ管理システム及びプログラム
JP2021524686A (ja) * 2018-05-18 2021-09-13 スーズ,インコーポレイテッド 埋め込まれた情報カードコンテンツを認識および解釈するための機械学習
JP2023043374A (ja) * 2021-09-16 2023-03-29 Jcc株式会社 映像コンテンツ管理システム

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06250687A (ja) * 1993-02-25 1994-09-09 Nippondenso Co Ltd 不特定話者用音声認識装置
JP2001275058A (ja) * 2000-01-21 2001-10-05 Jisedai Joho Hoso System Kenkyusho:Kk 映像内容の説明文生成方法、映像内容説明文生成装置、ダイジェスト映像の番組化方法、ダイジェスト映像の番組化装置およびその方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2005078287A (ja) * 2003-08-29 2005-03-24 Toshiba Corp 文字認識装置、文字認識プログラム
JP2005215922A (ja) * 2004-01-29 2005-08-11 Zeta Bridge Corp 情報検索システム、情報検索方法、情報検索装置、情報検索プログラム、画像認識装置、画像認識方法および画像認識プログラム、ならびに、販売システム
JP2006163285A (ja) * 2004-12-10 2006-06-22 Matsushita Electric Ind Co Ltd 音声認識装置、音声認識方法、音声認識プログラム、および記録媒体
JP2007004281A (ja) * 2005-06-21 2007-01-11 Mitsubishi Electric Corp 音声メール入力装置
WO2007069372A1 (ja) * 2005-12-14 2007-06-21 Mitsubishi Electric Corporation 音声認識装置
JP2008176748A (ja) * 2007-01-22 2008-07-31 Fujitsu Ltd 情報付与プログラム、情報付与装置、および情報付与方法
JP2008226110A (ja) * 2007-03-15 2008-09-25 Seiko Epson Corp 情報処理装置、情報処理方法および制御プログラム
JP2008269628A (ja) * 1999-09-27 2008-11-06 Mitsubishi Electric Corp 画像検索システムおよび画像検索方法
JP2008294563A (ja) * 2007-05-22 2008-12-04 Toshiba Corp 番組予約管理装置とその制御方法
JP2009194665A (ja) * 2008-02-15 2009-08-27 Nippon Hoso Kyokai <Nhk> 検索用情報作成装置、検索用情報作成方法、検索用情報作成プログラム
JP2010108296A (ja) * 2008-10-30 2010-05-13 Canon Inc 情報処理装置、情報処理方法
JP2010239507A (ja) * 2009-03-31 2010-10-21 Toshiba Corp 動画処理装置
JP2011103525A (ja) * 2009-11-10 2011-05-26 Sharp Corp Av装置、およびavシステム
JP2011239141A (ja) * 2010-05-10 2011-11-24 Sony Corp 情報処理方法、情報処理装置、情景メタデータ抽出装置、欠損補完情報生成装置及びプログラム
JP2015102805A (ja) * 2013-11-27 2015-06-04 アルパイン株式会社 音声認識システム、電子装置、サーバー、音声認識方法および音声認識プログラム

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06250687A (ja) * 1993-02-25 1994-09-09 Nippondenso Co Ltd 不特定話者用音声認識装置
JP2008269628A (ja) * 1999-09-27 2008-11-06 Mitsubishi Electric Corp 画像検索システムおよび画像検索方法
JP2001275058A (ja) * 2000-01-21 2001-10-05 Jisedai Joho Hoso System Kenkyusho:Kk 映像内容の説明文生成方法、映像内容説明文生成装置、ダイジェスト映像の番組化方法、ダイジェスト映像の番組化装置およびその方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2005078287A (ja) * 2003-08-29 2005-03-24 Toshiba Corp 文字認識装置、文字認識プログラム
JP2005215922A (ja) * 2004-01-29 2005-08-11 Zeta Bridge Corp 情報検索システム、情報検索方法、情報検索装置、情報検索プログラム、画像認識装置、画像認識方法および画像認識プログラム、ならびに、販売システム
JP2006163285A (ja) * 2004-12-10 2006-06-22 Matsushita Electric Ind Co Ltd 音声認識装置、音声認識方法、音声認識プログラム、および記録媒体
JP2007004281A (ja) * 2005-06-21 2007-01-11 Mitsubishi Electric Corp 音声メール入力装置
WO2007069372A1 (ja) * 2005-12-14 2007-06-21 Mitsubishi Electric Corporation 音声認識装置
JP2008176748A (ja) * 2007-01-22 2008-07-31 Fujitsu Ltd 情報付与プログラム、情報付与装置、および情報付与方法
JP2008226110A (ja) * 2007-03-15 2008-09-25 Seiko Epson Corp 情報処理装置、情報処理方法および制御プログラム
JP2008294563A (ja) * 2007-05-22 2008-12-04 Toshiba Corp 番組予約管理装置とその制御方法
JP2009194665A (ja) * 2008-02-15 2009-08-27 Nippon Hoso Kyokai <Nhk> 検索用情報作成装置、検索用情報作成方法、検索用情報作成プログラム
JP2010108296A (ja) * 2008-10-30 2010-05-13 Canon Inc 情報処理装置、情報処理方法
JP2010239507A (ja) * 2009-03-31 2010-10-21 Toshiba Corp 動画処理装置
JP2011103525A (ja) * 2009-11-10 2011-05-26 Sharp Corp Av装置、およびavシステム
JP2011239141A (ja) * 2010-05-10 2011-11-24 Sony Corp 情報処理方法、情報処理装置、情景メタデータ抽出装置、欠損補完情報生成装置及びプログラム
JP2015102805A (ja) * 2013-11-27 2015-06-04 アルパイン株式会社 音声認識システム、電子装置、サーバー、音声認識方法および音声認識プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
桑野秀豪(外2名): "映像・音声認識,言語処理の適用による経済化 メタデータ生成技術", NTT技術ジャーナル, vol. 第16巻, 第5号, JPN6020032467, 1 May 2004 (2004-05-01), JP, pages 22 - 25, ISSN: 0004337063 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019160071A (ja) * 2018-03-15 2019-09-19 Jcc株式会社 要約作成システム、及び要約作成方法
JP2019191712A (ja) * 2018-04-19 2019-10-31 Jcc株式会社 録画再生システム
JP7137815B2 (ja) 2018-04-19 2022-09-15 Jcc株式会社 録画再生システム
JP2021524686A (ja) * 2018-05-18 2021-09-13 スーズ,インコーポレイテッド 埋め込まれた情報カードコンテンツを認識および解釈するための機械学習
JP7485866B2 (ja) 2018-05-18 2024-05-17 スタッツ エルエルシー 埋め込まれた情報カードコンテンツを認識および解釈するための機械学習
JP2019213038A (ja) * 2018-06-04 2019-12-12 Jcc株式会社 映像情報提供システム
JP7137825B2 (ja) 2018-06-04 2022-09-15 Jcc株式会社 映像情報提供システム
JP2020123228A (ja) * 2019-01-31 2020-08-13 Jcc株式会社 データ解析システム
JP2021012466A (ja) * 2019-07-04 2021-02-04 Jcc株式会社 メタデータ生成システム、映像コンテンツ管理システム及びプログラム
JP2023043374A (ja) * 2021-09-16 2023-03-29 Jcc株式会社 映像コンテンツ管理システム
JP7274235B2 (ja) 2021-09-16 2023-05-16 Jcc株式会社 映像コンテンツ管理システム

Also Published As

Publication number Publication date
JP6857983B2 (ja) 2021-04-14

Similar Documents

Publication Publication Date Title
JP6857983B2 (ja) メタデータ生成システム
CN111968649B (zh) 一种字幕纠正方法、字幕显示方法、装置、设备及介质
CN107305541B (zh) 语音识别文本分段方法及装置
Albanie et al. Bbc-oxford british sign language dataset
CN106534548B (zh) 语音纠错方法和装置
US8155969B2 (en) Subtitle generation and retrieval combining document processing with voice processing
JP4580885B2 (ja) シーン情報抽出方法、シーン抽出方法および抽出装置
CN111986656B (zh) 教学视频自动字幕处理方法与系统
CN107967250B (zh) 一种信息处理方法及装置
US10089898B2 (en) Information processing device, control method therefor, and computer program
CN112382295B (zh) 语音识别方法、装置、设备及可读存储介质
CN112541095B (zh) 视频标题生成方法、装置、电子设备及存储介质
Che et al. Automatic lecture subtitle generation and how it helps
CN110740275A (zh) 一种非线性编辑系统
CN116361510A (zh) 一种利用影视类作品和剧本建立剧本场景片段视频自动提取和检索的方法和装置
Yang et al. An automated analysis and indexing framework for lecture video portal
CN111046172A (zh) 一种舆情分析方法、装置、设备和存储介质
CN112399269A (zh) 视频分割方法、装置、设备及存储介质
US10595098B2 (en) Derivative media content systems and methods
JP2007102264A (ja) 文字認識装置および文字認識方法
CN111259645A (zh) 一种裁判文书结构化方法及装置
Lebourdais et al. Overlaps and gender analysis in the context of broadcast media
KR102170844B1 (ko) 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템
US11606629B2 (en) Information processing apparatus and non-transitory computer readable medium storing program
CN114281979A (zh) 生成文本摘要的文本处理方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190823

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200710

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200901

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20201030

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210323

R150 Certificate of patent or registration of utility model

Ref document number: 6857983

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250