JP2021132281A

JP2021132281A - メタデータ生成システムおよびメタデータ生成方法

Info

Publication number: JP2021132281A
Application number: JP2020026201A
Authority: JP
Inventors: 孝利石井; Takatoshi Ishii
Original assignee: JCC KK
Current assignee: JCC KK
Priority date: 2020-02-19
Filing date: 2020-02-19
Publication date: 2021-09-09

Abstract

【課題】放送コンテンツ内のパート単位でのメタデータを自動生成し得るメタデータ生成システムを提供する。【解決手段】放送コンテンツのメタデータを自動生成するシステムであって、放送コンテンツに含まれるコンテンツ映像から、当該コンテンツ映像を構成するコンテンツ画面内の画像要素を認識する画像認識部と、画像認識部により認識された画像要素の時間的変化を判別する画像要素変化判別部と、放送コンテンツに含まれるコンテンツ音声を認識する音声認識部と、音声認識部により認識されたコンテンツ音声の変化を判別する音声変化判別部と、画像要素変化判別部による画像要素変化判別結果と音声変化判別部による音声変化判別結果とに基づいて、一つの放送コンテンツを構成している時系列的に互いに隣接するパートとパートとの間の区切りを判別するパート間区切り判別部と、パート毎のメタデータを自動生成するメタデータ生成部と、を有する。【選択図】図１

Description

本発明は、放送コンテンツのメタデータを自動生成し得るシステムおよび方法に関する。

テレビ番組など放送コンテンツから抽出される特徴量に対するラベル付与を自動で行い、ラベルが付与された特徴量を用いて放送コンテンツのメタデータを自動生成するシステムは公知である（特許文献１）。この種のシステムでは、放送コンテンツから抽出される特徴量が、たとえば動画の各フレームから抽出された顔特徴ベクトルである場合、顔特徴ベクトルにラベルを付与するとともに、その顔特徴ベクトルが抽出されたフレーム番号にラベルを付与する。この場合、フレーム番号に付与されたラベルは、放送された多くの番組の中から特定の人物が登場する番組を検索するためのメタデータとなる。

特開２０２０−９３００号公報

ところで、テレビ番組は複数のパートで構成される。たとえば、ニュース等の情報番組は、番組の開始段階で放送されるオープニングパート、社会問題や事件、事故などを放送する報道パート、芸能情報や趣味の情報、お店の情報などを放送する各種情報パート、天気予報などを放送する天気予報パート、番組の終了段階で放送されるエンディングパート、等で構成される。また、報道パート、各種情報パート、気象情報パート、等は、それぞれ複数のサブパートで構成される。

しかし、特許文献１のシステムでは、一つの番組を構成している時系列的に互いに隣接するパートとパートとの間の区切りを判別することなく、メタデータを自動生成しているため、番組単位でのメタデータを自動生成することはできても、番組内のパート単位でのメタデータを自動生成することはできなかった。

本発明は、放送コンテンツ内のパート単位でのメタデータを自動生成することができるメタデータ生成システムおよびメタデータ生成方法を提供する。

上記課題を解決するために、請求項１のメタデータ生成システムは、映像と音声とからなる放送コンテンツのメタデータを自動生成するシステムであって、放送コンテンツに含まれるコンテンツ映像から、当該コンテンツ映像を構成するコンテンツ画面内の画像要素を認識する画像認識部と、前記画像認識部により認識された画像要素の時間的変化を判別する画像要素変化判別部と、放送コンテンツに含まれるコンテンツ音声を認識する音声認識部と、前記音声認識部により認識されたコンテンツ音声の変化を判別する音声変化判別部と、前記画像要素変化判別部による画像要素変化判別結果と前記音声変化判別部による音声変化判別結果とに基づいて、一つの放送コンテンツを構成している時系列的に互いに隣接するパートとパートとの間の区切り（以下、単に「パート間の区切り」とも称す）を判別するパート間区切り判別部と、前記パート毎のメタデータを自動生成するメタデータ生成部と、を有することを特徴とする。

上記のように構成された請求項１のメタデータ生成システムは、放送コンテンツに含まれるコンテンツ映像から、当該コンテンツ映像を構成するコンテンツ画面内の画像要素を画像認識部により認識し、画像要素の時間的変化を画像要素変化判別部により判別するとともに、放送コンテンツに含まれるコンテンツ音声を音声認識部により認識し、コンテンツ音声の変化を音声変化判別部により判別する。そして、画像要素変化判別部による画像要素変化判別結果と音声変化判別部による音声変化判別結果とに基づいて、パート間区切り判別部により、パート間の区切りを判別し、メタデータ生成部によりパート毎のメタデータを自動生成する。

このように、請求項１のメタデータ生成システムによれば、パート間の区切りを判別することができるので、放送コンテンツ内のパート単位でのメタデータを自動生成することが可能となる。

また、請求項２のメタデータ生成システムは、請求項１のメタデータ生成システムにおいて、前記コンテンツ画面は、フレーム画面であり、前記画像要素変化判別部は、フレーム画面が所定回数切り替わる毎に、切り替わりの前後のフレーム画面における画像要素が別の画像要素に変化したか否かを判別するものである。

上記のように構成された請求項２のメタデータ生成システムによれば、フレーム画面が所定回数切り替わる毎に、切り替わりの前後のフレーム画面における画像要素が別の画像要素に変化したか否かを判別することにより、パート間の区切りの判別を正確に行って、放送コンテンツ内のパート単位でのメタデータを自動生成することが可能となる。

また、請求項３のメタデータ生成システムは、請求項１又は２に記載のメタデータ自動生成システムにおいて、前記画像要素は、文字、登場分物の顔、番組セット、背景の少なくともいずれかであることを特徴とする。

上記のように構成された請求項３のメタデータ生成システムによれば、コンテンツ映像を構成するコンテンツ画面内の画像要素として、文字、登場分物の顔、番組セット、背景の少なくともいずれかを認識し、その画像要素の時間的変化を判別することにより、パート間の区切りの判別を正確に行って、放送コンテンツ内のパート単位でのメタデータを自動生成することが可能となる。

また、請求項４のメタデータ生成システムは、請求項１から３のいずれか一項に記載のメタデータ自動生成システムにおいて、前記音声認識部は、前記コンテンツ音声に含まれる人物の声、楽音、効果音、環境音又はベル音のうちのいずれか一の音声を認識することを特徴とする。
ここで「ベル音」とは、当該番組の中の各コーナ、テーマ等の改変の際に発せられる報知音をいう。

上記のように構成された請求項４のメタデータ生成システムによれば、コンテンツ音声に含まれる人物の声、楽音、効果音、環境音又はベル音のうちのいずれか一の音声を認識し、その音声の変化を音声判別することにより、パート間の区切りの判別を正確に行って、放送コンテンツ内のパート単位でのメタデータを自動生成することが可能となる。

また、請求項５のメタデータ生成システムは、請求項１から４のいずれか一項に記載のメタデータ自動生成システムにおいて、前記音声変化判別部は、前記コンテンツ音声が所定時間以上完全に無音になったか否かを判別することを特徴とする。

上記のように構成された請求項５のメタデータ生成システムによれば、コンテンツ音声が所定時間以上完全に無音になった場合に、その無音の時間帯をパート間の区切りであると判別することにより、パート間の区切りの判別を正確に行って、放送コンテンツ内のパート単位でのメタデータを自動生成することが可能となる。

また、請求項６のメタデータ生成システムは、請求項１から５のいずれか一項に記載のメタデータ自動生成システムにおいて、前記パート間区切り判別部は、機械学習の結果得られた学習済みモデルを用いて前記区切りを判別する第一判別機能と、予め設定された知識情報に基づいてパート間区切りを判別する第二判別機能と、前記知識情報によらず所定のアルゴリズムによりパート間区切りを判別する第三判別機能と、を有し、前記第一判別機能、前記第二判別機能及び前記第三判別機能による判別結果を総合評価して、パート間区切りを判別することを特徴とする。

上記のように構成された請求項６のメタデータ生成システムによれば、パート間の区切りを三種類の異なる手法により判別し、それら三種類の判別結果の総合評価を総合評価して、パート間の区切りを判別することにより、一つの手法で判別する場合と比較して、パート間の区切りの判別を正確に行って、放送コンテンツ内のパート単位でのメタデータを自動生成することが可能となる。

また、上記課題を解決するために、請求項７のメタデータ自動生成方法は、映像と音声とからなる放送コンテンツのメタデータを自動生成する方法であって、放送コンテンツに含まれるコンテンツ映像から、当該コンテンツ映像を構成するコンテンツ画面内の画像要素を認識する画像認識ステップと、前記画像認識ステップにより認識された画像要素の時間的変化を判別する画像要素変化判別ステップと、放送コンテンツに含まれるコンテンツ音声を認識する音声認識ステップと、前記音声認識ステップにより認識されたコンテンツ音声の変化を判別する音声変化判別ステップと、前記画像要素変化判別ステップによる画像要素変化判別結果と前記音声変化判別ステップによる音声変化判別結果とに基づいて、一つの放送コンテンツを構成している時系列的に互いに隣接するパートとパートとの間の区切りを判別するパート間区切り判別ステップと、前記パート毎のメタデータを自動生成するメタデータ生成ステップと、を有することを特徴とする。

上記のように構成された請求項７のメタデータ生成方法は、放送コンテンツに含まれるコンテンツ映像から、当該コンテンツ映像を構成するコンテンツ画面内の画像要素を画像認識ステップにより認識し、画像要素の時間的変化を画像要素変化判別ステップにより判別するとともに、放送コンテンツに含まれるコンテンツ音声を音声認識ステップにより認識し、コンテンツ音声の変化を音声変化判別ステップにより判別する。その後、画像要素変化判別ステップによる画像要素変化判別結果と音声変化判別ステップによる音声変化判別結果とに基づいて、パート間区切り判別ステップにより、パート間の区切りを判別し、メタデータ生成ステップによりパート毎のメタデータを自動生成する。

このように、請求項７のメタデータ生成方法によれば、パート間の区切りを判別することができるので、放送コンテンツ内のパート単位でのメタデータを自動生成することが可能となる。

また、請求項８のメタデータ自動生成方法は、請求項７に記載のメタデータ自動生成方法において、前記コンテンツ画面は、フレーム画面であり、前記画像要素変化判別ステップは、フレーム画面が所定回数切り替わる毎に、切り替わりの前後のフレーム画面における画像要素が別の画像要素に変化したか否かを判別するステップである、ことを特徴とする。

上記のように構成された請求項８のメタデータ生成方法によれば、フレーム画面が所定回数切り替わる毎に、切り替わりの前後のフレーム画面における画像要素が別の画像要素に変化したか否かを判別することにより、パート間の区切りの判別を正確に行って、放送コンテンツ内のパート単位でのメタデータを自動生成することが可能となる。

また、請求項９のメタデータ自動生成方法は、請求項７又は８に記載のメタデータ自動生成方法において、前記画像要素は、文字、登場分物の顔、番組セット、背景の少なくともいずれかである。

上記のように構成された請求項９のメタデータ生成方法によれば、コンテンツ映像を構成するコンテンツ画面内の画像要素として、文字、登場分物の顔、番組セット、背景の少なくともいずれかを認識し、その画像要素の時間的変化を判別することにより、パート間の区切りの判別を正確に行って、放送コンテンツ内のパート単位でのメタデータを自動生成することが可能となる。

また、請求項１０のメタデータ自動生成方法は、請求項７から９のいずれか一項に記載のメタデータ自動生成方法において、前記音声認識ステップは、前記コンテンツ音声に含まれる人物の声、楽音、効果音、環境音又はベル音のうちのいずれか一の音声を認識することを特徴とする。

上記のように構成された請求項１０のメタデータ生成方法によれば、コンテンツ音声に含まれる人物の声、楽音、効果音、環境音又はベル音のうちのいずれか一の音声を認識し、その音声の変化を音声判別することにより、パート間の区切りの判別を正確に行って、放送コンテンツ内のパート単位でのメタデータを自動生成することが可能となる。

また、請求項１１のメタデータ自動生成方法は、請求項７から１０のいずれか一項に記載のメタデータ自動生成方法において、前記音声変化判別ステップは、前記コンテンツ音声が所定時間以上完全に無音になったか否かを判別することを特徴とする。

上記のように構成された請求項１１のメタデータ生成方法によれば、コンテンツ音声が所定時間以上完全に無音になった場合に、その無音の時間帯をパート間の区切りであると判別することにより、パート間の区切りの判別を正確に行って、放送コンテンツ内のパート単位でのメタデータを自動生成することが可能となる。

また、請求項１２のメタデータ自動生成方法は、請求項７から１１のいずれか一項に記載のメタデータ自動生成方法において、前記パート間区切り判別ステップは、機械学習の結果得られた学習済みモデルを用いて前記一つの放送コンテンツを構成している時系列的に互いに隣接するパートとパートとの間の区切りを判別する第一判別機能ステップと、予め設定された知識情報に基づいて前記一つの放送コンテンツを構成している時系列的に互いに隣接するパートとパートとの間の区切りを判別する第二判別機能ステップと、前記知識情報によらず所定のアルゴリズムにより前記一つの放送コンテンツを構成している時系列的に互いに隣接するパートとパートとの間の区切りを判別する第三判別機能ステップと、を有し、前記第一判別機能ステップ、前記第二判別機能ステップ及び前記第三判別機能ステップによる判別結果を総合評価して、前記区切りを判別することを特徴とする。

上記のように構成された請求項１２のメタデータ生成方法によれば、パート間の区切りを三種類の異なる手法により判別し、それら三種類の判別結果の総合評価を総合評価して、パート間の区切りを判別することにより、一つの手法で判別する場合と比較して、パート間の区切りの判別を正確に行って、放送コンテンツ内のパート単位でのメタデータを自動生成することが可能となる。

請求項１のメタデータ生成システムによれば、パート間の区切りを判別することができるので、番組内のパート単位でのメタデータを自動生成することが可能となる。

また、請求項２から請求項６のメタデータ生成システムによれば、パート間の区切りをより正確に判別して、番組内のパート単位でのメタデータを自動生成することが可能となる。

請求項７のメタデータ生成方法によれば、パート間の区切りを判別することができるので、番組内のパート単位でのメタデータを自動生成することが可能となる。

また、請求項８から請求項１２のメタデータ生成方法によれば、パート間の区切りの判別をより正確に判別して、番組内のパート単位でのメタデータを自動生成することが可能となる。

本発明のメタデータ生成システムの一実施形態を示す機能ブロック図である。図1に示すメタデータ生成システムの動作内容を例示するフローチャートである。図1に示すメタデータ生成システムの動作説明図である。図1に示すメタデータ生成システムの別の動作説明図である。

以下、添付図面を参照して、一実施形態のメタデータ生成システムについて説明する。このメタデータ生成システムは、映像と音声とからなる放送コンテンツのメタデータを自動生成するシステムである。放送コンテンツの代表例としてテレビ番組を挙げることができる。なお、本明細書において、放送コンテンツには、インターネットに代表される情報通信網を介して配信される所謂動画コンテンツが含まれるものとする。

［構成］
図1に示すように一実施形態のメタデータ生成システム１００は、画像認識部１１０と、画像要素変化判別部１２０と、音声認識部１３０と、音声変化判別部１４０と、パート間区切り判別部１５０と、メタデータ生成部１６０と、を有する。このメタデータ生成システム１００は、コンピュータに、本発明に係るシステム及び方法を実現するためのプログラムをインストールし実行することにより実現される。メタデータ生成システム１００には、大容量記憶装置１０及びコンテンツ提供装置２０が接続されている。

大容量記憶装置１０は、図示しない受信装置により受信した放送コンテンツのデータを格納する。大容量記憶装置１０は、メタデータ生成システム１００により生成されたメタデータに基づいて、放送コンテンツ単位及び放送コンテンツ内のパーツ単位でコンテンツを検索可能に、大量のコンテンツを蓄積している。

コンテンツ提供装置２０は、ユーザからメタデータを手がかりにしたコンテンツ検索を受け付ける機能、受け付けた条件に該当するコンテンツを大容量記憶装置１０から検索する機能、該当したコンテンツをユーザの端末装置に送信する機能、等を有している。メタデータは、放送局、放送時間、タイトル、内容の抄録、登場人物の氏名、ロゴ、等のテキスト情報で構成される。

画像認識部１１０は、放送コンテンツに含まれるコンテンツ映像から、当該コンテンツ映像を構成するコンテンツ画面内の画像要素を認識する機能ブロックである。ここで、コンテンツ画面は、フレーム画面すなわち、動画の１コマ分の静止画像が表示される画面を意味するものとする。画像要素は、文字、登場分物の顔、番組セット、背景の少なくともいずれかである。

画像要素変化判別部１２０は、画像認識部１１０により認識された画像要素の時間的変化を判別する機能ブロックである。画像要素変化判別部１２０は、フレーム画面が所定回数切り替わる毎に、切り替わりの前後のフレーム画面における画像要素が別の画像要素に変化したか否かを判別する機能を有する。画像要素変化判別部１２０による判別周期は、１秒以内の範囲で、コンテンツ映像のフレームレート（ｆｐｓ）に基づいて設定される。
例えば、フレームレートが６０ｆｐｓであれば、フレーム画面が６０回以下の所定回数切り替わる周期に設定される。

音声認識部１３０は、放送コンテンツに含まれるコンテンツ音声を認識する機能ブロックである。音声認識部１３０は、コンテンツ音声に含まれる人物の声、楽音、効果音、環境音又はベル音のうちのいずれか一の音声を認識する機能を有する。

音声変化判別部１４０は、音声認識部１３０により認識されたコンテンツ音声の変化を判別する機能ブロックである。音声変化判別部１４０は、コンテンツ音声が所定時間以上完全に無音になったか否かを判別する機能を有する。

パート間区切り判別部１５０は、画像要素変化判別部１２０による画像要素変化判別結果と音声変化判別部１４０による音声変化判別結果とに基づいて、パート間の区切りを判別する機能ブロックである。

パート間区切り判別部１５０は、第一判別機能部１５１と、第二判別機能部１５２と、第三判別機能部１５３と、総合評価部１５４と、を有する。

第一判別機能部１５１は、機械学習の結果得られた学習済みモデルを用いて前記区切りを判別する機能ブロックである。第一判別機能部１５１において用いられる判別手法は、所謂人工知能の第三世代と呼ばれる段階で開発された手法である。

第二判別機能部１５２は、予め設定された知識情報に基づいてパート間区切りを判別する機能ブロックである。第二判別機能部１５２において用いられる判別手法は、所謂人工知能の第二世代と呼ばれる段階で開発された手法である。

第三判別機能部１５３は、知識情報によらず所定のアルゴリズムによりパート間区切りを判別する機能ブロックである。第三判別機能部１５３において用いられる判別手法は、所謂人工知能の第一世代と呼ばれる段階で開発された手法である。

総合評価部１５４は、第一判別機能部１５１、第二判別機能部１５２及び第三判別機能部１５３による判別結果を総合評価して、パート間の区切りを判別する機能ブロックである。総合評価部１５４は、一例として、第一判別機能部１５１による判別の成功率或いは失敗率、第二判別機能部１５２による判別の成功率或いは失敗率、及び、第二判別機能部１５２による判別の成功率或いは失敗率を考慮して、パート間の区切りを判別する。

メタデータ生成部１６０は、パート毎のメタデータを自動生成する機能ブロックである。「パート毎」とは、パート間区切り判別部１５０により判別された互いに隣接する二つの区切りの間にあるパート毎を意味する。メタデータ生成部１６０は、一例として、各パートから抽出される特徴量に対するラベル付与を自動で行い、ラベルが付与された特徴量を用いて各パートのメタデータを自動生成する。メタデータ生成部１６０により生成されたパート毎のメタデータは、大容量記憶装置１０において、大量の放送コンテンツとともに管理される。

［動作］
図２に示すようにメタデータ生成システム１００は、画像認識ステップＳ１と、画像要素変化判別ステップＳ２と、音声認識ステップＳ３と、音声変化判別ステップＳ４と、パート間区切り判別ステップＳ５と、メタデータ生成ステップＳ６と、を実行する。

画像認識ステップＳ１は、放送コンテンツに含まれるコンテンツ映像から、当該コンテンツ映像を構成するコンテンツ画面内の画像要素を認識するステップである。

画像要素変化判別ステップＳ２は、画像認識ステップＳ１により認識された画像要素の時間的変化を判別するステップである。画像要素変化判別ステップＳ２では、図３に示すように、フレーム画面ＦＧが所定回数切り替わる毎（図３ではＭ回毎）に、切り替わりの前後のフレーム画面ＦＧａ、ＦＧｂにおける画像要素ＧＥが異なるか否かを判別する処理が実行される。図３の例では、所定回数毎のフレーム画面ＦＧａ、ＦＧｂの切り替わりの前後で、画像要素ＧＥが画像要素ＧＥ（Ａ）から別の画像要素ＧＥ（Ｂ）に変化しているため、画像要素ＧＥの時間的変化があったと判別される。この場合、フレーム画面ＦＧａ、ＦＧｂとの間にパート間の区切りが存在する可能性が高いといえる。

音声認識ステップＳ３は、放送コンテンツに含まれるコンテンツ音声を認識するステップである。音声認識ステップＳ３では、コンテンツ音声に含まれる人物の声、楽音、効果音、環境音又はベル音のうちのいずれか一の音声を認識する処理が実行される。

音声変化判別ステップＳ４は、音声認識ステップＳ３により認識されたコンテンツ音声の変化を判別するステップである。音声変化判別ステップＳ４では、コンテンツ音声の変化を判別する処理の一つとして、コンテンツ音声が所定時間（閾値Ｔｓ）以上完全に無音になった否かを判別する処理が実行される。図４の例では、フレームＦ_ｎからフレームＦ_ｎ＋９の間が無音の時間帯ＴＳ0であり、その時間帯ＴＳ0が閾値Ｔｓ以上（ＴＳ0≧Ｔｓ）であるため、音声変化判別ステップＳ４により、コンテンツ音声が所定時間以上完全に無音になったと判別される。この場合、フレームＦ_ｎからフレームＦ_ｎ＋９の間にパート間の区切りが存在する可能性が高いといえる。

パート間区切り判別ステップＳ５は、画像要素変化判別部１２０による画像要素変化判別結果と音声変化判別部１４０による音声変化判別結果とに基づいて、パート間の区切りを判別する機能ブロックである。

パート間区切り判別ステップＳ５では、例えば、図３のように、フレーム画面ＦＧａ、ＦＧｂの切り替わりの前後で、画像要素ＧＥの変化があった場合には、フレーム画面ＦＧａとフレーム画面ＦＧｂとの間がパート間の区切りである可能性が高いと判断される。フレーム画面ＦＧａ、ＦＧｂの切り替わりの前後で、画像要素ＧＥとは別の画像要素についても変化があった場合には、フレーム画面ＦＧａとフレーム画面ＦＧｂとの間がパート間の区切りである可能性がより高いと判断される。例えば、ある画像要素がある登場人物の顔であり、別の画像要素が背景画像である場合、両方の画像要素がフレーム画面の切り替わりの前後で登場人物の顔が変化した場合、パート間の区切りである可能性が相当高いと判断される。

また、パート間区切り判別ステップＳ５では、音声変化判別ステップＳ４によりコンテンツ音声が変化したと判別された場合には、コンテンツ音声が変化する前後のフレーム間がパート間の区切りである可能性が高いと判断される。例えば、特定の登場人物の声が主に発せられる状態から別の特定の登場人物の声が主に発せられる状態に変化した場合、その状態変化の前後のフレーム間がパート間の区切りである可能性が高いと判断される。

また、パート間区切り判別ステップＳ５では、例えば、図４のように、所定時間以上完全に無音の時間帯ＴＳ0があった場合には、無音の時間帯ＴＳ0にパート間の区切りが存在する可能性が高いと判断される。無音の時間帯ＴＳ0が、コマーシャルの前後に生じることが多いという傾向がある場合、無音の時間帯ＴＳ0を判別することにより、放送コンテンツとコマーシャルとの区切りである可能性が高いと判断することができる。

そして、パート間区切り判別ステップＳ５では、フレーム画面の切り替わりの前後での画像要素の変化の有無とコンテンツ音声の変化の有無とに基づいて、パート間の区切りを判別する。

パート間区切り判別ステップＳ５は、第一判別機能ステップＳ５１と、第二判別機能ステップＳ５２と、第三判別機能ステップＳ５３と、総合評価ステップＳ５４と、を有する。

第一判別機能ステップＳ５１は、機械学習の結果得られた学習済みモデルを用いて前記区切りを判別するステップである。

第二判別機能ステップＳ５２は、予め設定された知識情報に基づいてパート間区切りを判別するステップである。

第三判別機能ステップＳ５３は、知識情報によらず所定のアルゴリズムによりパート間区切りを判別するステップである。

総合評価ステップＳ５４は、第一判別機能ステップＳ５１、第二判別機能ステップＳ５２及び第三判別機能ステップＳ５３による判別結果を総合評価して、パート間の区切りを判別するステップである。総合評価ステップＳ５４では、一例として、第一判別機能ステップＳ５１による判別の成功率或いは失敗率、第二判別機能ステップＳ５２による判別の成功率或いは失敗率、及び、第二判別機能ステップＳ５２による判別の成功率或いは失敗率を考慮して、パート間の区切りを判別する。

メタデータ生成ステップＳ６は、パート毎のメタデータを自動生成するステップである。メタデータ生成ステップＳ６では、一例として、各パートから抽出される特徴量に対するラベル付与を自動で行い、ラベルが付与された特徴量を用いて各パートのメタデータを自動生成する。各パートから抽出される特徴量が、たとえば動画の各フレームから抽出された顔特徴ベクトルである場合、顔特徴ベクトルにラベルを付与するとともに、その顔特徴ベクトルが抽出されたフレーム番号にラベルを付与する。この場合、フレーム番号に付与されたラベルは、放送コンテンツの中から特定の人物が登場するパートを検索するためのメタデータとなる。メタデータ生成ステップＳ６により生成されたパート毎のメタデータは、大容量記憶装置１０において、大量の放送コンテンツとともに管理される。

メタデータ生成システム１００は、以上の一連のステップＳ１〜Ｓ６を実行することにより、パート毎のメタデータを自動生成する。

［作用効果］
上記のように、一実施形態のメタデータ生成システム１００によれば、放送コンテンツに含まれるコンテンツ映像から、当該コンテンツ映像を構成するコンテンツ画面内の画像要素を画像認識部１１０により認識し、画像要素の時間的変化を画像要素変化判別部１２０により判別するとともに、放送コンテンツに含まれるコンテンツ音声を音声認識部１３０により認識し、コンテンツ音声の変化を音声変化判別部１４０により判別する。そして、画像要素変化判別部１２０による画像要素変化判別結果と音声変化判別部１４０による音声変化判別結果とに基づいて、パート間区切り判別部１５０により、パート間の区切りを判別し、メタデータ生成部１６０によりパート毎のメタデータを自動生成する。

このように、一実施形態のメタデータ生成システム１００によれば、パート間の区切りを判別することができるので、放送コンテンツ内のパート単位でのメタデータを自動生成することが可能となる。

また、一実施形態のメタデータ生成システム１００によれば、フレーム画面が所定回数切り替わる毎に、切り替わりの前後のフレーム画面における画像要素が別の画像要素に変化したか否かを判別することにより、パート間の区切りの判別を正確に行って、放送コンテンツ内のパート単位でのメタデータを自動生成することが可能となる。

また、一実施形態のメタデータ生成システム１００によれば、コンテンツ映像を構成するコンテンツ画面内の画像要素として、文字、登場分物の顔、番組セット、背景の少なくともいずれかを認識し、その画像要素の時間的変化を判別することにより、パート間の区切りの判別を正確に行って、放送コンテンツ内のパート単位でのメタデータを自動生成することが可能となる。

また、一実施形態のメタデータ生成システム１００によれば、コンテンツ音声に含まれる人物の声、楽音、効果音、環境音又はベル音のうちのいずれか一の音声を認識し、その音声の変化を音声判別することにより、パート間の区切りの判別を正確に行って、放送コンテンツ内のパート単位でのメタデータを自動生成することが可能となる。

また、一実施形態のメタデータ生成システム１００によれば、コンテンツ音声が所定時間以上完全に無音になった場合に、その無音の時間帯をパート間の区切りであると判別することにより、パート間の区切りの判別を正確に行って、放送コンテンツ内のパート単位でのメタデータを自動生成することが可能となる。

また、一実施形態のメタデータ生成システム１００によれば、パート間の区切りを三種類の異なる手法により判別し、それら三種類の判別結果を総合評価して、パート間の区切りを判別することにより、一つの手法で判別する場合と比較して、パート間の区切りの判別を正確に行って、放送コンテンツ内のパート単位でのメタデータを自動生成することが可能となる。

なお、上記実施形態では、フレーム画面が複数回（Ｍ回）切り替わる毎に、切り替わりの前後のフレーム画面における画像要素が異なるか否かを判別する処理が実行されることとしたが、フレーム画面が１回切り替わる毎に、当該処理を実行するようにしてもよい。

１００メタデータ生成システム
１１０画像認識部
１２０画像要素変化判別部
１３０音声認識部
１４０音声変化判別部
１５０パート間区切り判別部
１６０メタデータ生成部
１５１第一判別機能部
１５２第二判別機能部
１５３第三判別機能部
１５４総合評価部
Ｓ１画像認識ステップ
Ｓ２画像要素変化判別ステップ
Ｓ３音声認識ステップ
Ｓ４音声変化判別ステップ
Ｓ５パート間区切り判別ステップ
Ｓ６メタデータ生成ステップ
Ｓ５１第一判別機能ステップ
Ｓ５２第二判別機能ステップ
Ｓ５３第三判別機能ステップ
Ｓ５４総合評価ステップ

Claims

映像と音声とからなる放送コンテンツのメタデータを自動生成するシステムであって、
放送コンテンツに含まれるコンテンツ映像から、当該コンテンツ映像を構成するコンテンツ画面内の画像要素を認識する画像認識部と、
前記画像認識部により認識された画像要素の時間的変化を判別する画像要素変化判別部と、
放送コンテンツに含まれるコンテンツ音声を認識する音声認識部と、
前記音声認識部により認識されたコンテンツ音声の変化を判別する音声変化判別部と、
前記画像要素変化判別部による画像要素変化判別結果と前記音声変化判別部による音声変化判別結果とに基づいて、一つの放送コンテンツを構成している時系列的に互いに隣接するパートとパートとの間の区切りを判別するパート間区切り判別部と、
前記パート毎のメタデータを自動生成するメタデータ生成部と、を有することを特徴とするメタデータ自動生成システム。
前記コンテンツ画面は、フレーム画面であり、
前記画像要素変化判別部は、フレーム画面が所定回数切り替わる毎に、切り替わりの前後のフレーム画面における画像要素が別の画像要素に変化したか否かを判別する、請求項１に記載のメタデータ自動生成システム。
前記画像要素は、文字、登場分物の顔、番組セット、背景の少なくともいずれかである、請求項１又は２に記載のメタデータ自動生成システム。
前記音声認識部は、前記コンテンツ音声に含まれる人物の声、楽音、効果音、環境音又はベル音のうちのいずれか一の音声を認識する、請求項１から３のいずれか一項に記載のメタデータ自動生成システム。
前記音声変化判別部は、前記コンテンツ音声が所定時間以上完全に無音になった否かを判別する、請求項１から４のいずれか一項に記載のメタデータ自動生成システム。
前記パート間区切り判別部は、
機械学習の結果得られた学習済みモデルを用いて前記一つの放送コンテンツを構成している時系列的に互いに隣接するパートとパートとの間の区切りを判別する第一判別機能と、
予め設定された知識情報に基づいて前記一つの放送コンテンツを構成している時系列的に互いに隣接するパートとパートとの間の区切りを判別する第二判別機能と、
前記知識情報によらず所定のアルゴリズムにより前記一つの放送コンテンツを構成している時系列的に互いに隣接するパートとパートとの間の区切りを判別する第三判別機能と、を有し、
前記第一判別機能、前記第二判別機能及び前記第三判別機能による判別結果の総合評価に基づいて、前記区切りを判別する、請求項１から５のいずれか一項に記載のメタデータ自動生成システム。
映像と音声とからなる放送コンテンツのメタデータを自動生成する方法であって、
放送コンテンツに含まれるコンテンツ映像から、当該コンテンツ映像を構成するコンテンツ画面内の画像要素を認識する画像認識ステップと、
前記画像認識ステップにより認識された画像要素の時間的変化を判別する画像要素変化判別ステップと、
放送コンテンツに含まれるコンテンツ音声を認識する音声認識ステップと、
前記音声認識ステップにより認識されたコンテンツ音声の変化を判別する音声変化判別ステップと、
前記画像要素変化判別ステップによる画像要素変化判別結果と前記音声変化判別ステップによる音声変化判別結果とに基づいて、一つの放送コンテンツを構成している時系列的に互いに隣接するパートとパートとの間の区切りを判別するパート間区切り判別ステップと、
前記パート毎のメタデータを自動生成するメタデータ生成ステップと、を有することを特徴とするメタデータ自動生成方法。
前記コンテンツ画面は、フレーム画面であり、
前記画像要素変化判別ステップは、フレーム画面が所定回数切り替わる毎に、切り替わりの前後のフレーム画面における画像要素が別の画像要素に変化したか否かを判別するステップである、請求項７に記載のメタデータ自動生成方法。
前記画像要素は、文字、登場分物の顔、番組セット、背景の少なくともいずれかである、請求項７又は８に記載のメタデータ自動生成方法。
前記音声認識ステップは、前記コンテンツ音声に含まれる人物の声、楽音、効果音、環境音又はベル音のうちのいずれか一の音声を認識する、請求項７から９のいずれか一項に記載のメタデータ自動生成方法。
前記音声変化判別ステップは、前記コンテンツ音声が所定時間以上完全に無音になったか否かを判別する、請求項７から１０のいずれか一項に記載のメタデータ自動生成方法。
前記パート間区切り判別ステップは、
機械学習の結果得られた学習済みモデルを用いて前記一つの放送コンテンツを構成している時系列的に互いに隣接するパートとパートとの間の区切りを判別する第一判別機能ステップと、
予め設定された知識情報に基づいて前記一つの放送コンテンツを構成している時系列的に互いに隣接するパートとパートとの間の区切りを判別する第二判別機能ステップと、
前記知識情報によらず所定のアルゴリズムにより前記一つの放送コンテンツを構成している時系列的に互いに隣接するパートとパートとの間の区切りを判別する第三判別機能ステップと、を有し、
前記第一判別機能ステップ、前記第二判別機能ステップ及び前記第三判別機能ステップによる判別結果を総合評価して、前記区切りを判別する、請求項７から１１のいずれか一項に記載のメタデータ自動生成方法。