JP2021132281A - メタデータ生成システムおよびメタデータ生成方法 - Google Patents

メタデータ生成システムおよびメタデータ生成方法 Download PDF

Info

Publication number
JP2021132281A
JP2021132281A JP2020026201A JP2020026201A JP2021132281A JP 2021132281 A JP2021132281 A JP 2021132281A JP 2020026201 A JP2020026201 A JP 2020026201A JP 2020026201 A JP2020026201 A JP 2020026201A JP 2021132281 A JP2021132281 A JP 2021132281A
Authority
JP
Japan
Prior art keywords
voice
content
metadata
image element
change determination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020026201A
Other languages
English (en)
Inventor
孝利 石井
Takatoshi Ishii
孝利 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JCC KK
Original Assignee
JCC KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JCC KK filed Critical JCC KK
Priority to JP2020026201A priority Critical patent/JP2021132281A/ja
Publication of JP2021132281A publication Critical patent/JP2021132281A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】放送コンテンツ内のパート単位でのメタデータを自動生成し得るメタデータ生成システムを提供する。【解決手段】放送コンテンツのメタデータを自動生成するシステムであって、放送コンテンツに含まれるコンテンツ映像から、当該コンテンツ映像を構成するコンテンツ画面内の画像要素を認識する画像認識部と、画像認識部により認識された画像要素の時間的変化を判別する画像要素変化判別部と、放送コンテンツに含まれるコンテンツ音声を認識する音声認識部と、音声認識部により認識されたコンテンツ音声の変化を判別する音声変化判別部と、画像要素変化判別部による画像要素変化判別結果と音声変化判別部による音声変化判別結果とに基づいて、一つの放送コンテンツを構成している時系列的に互いに隣接するパートとパートとの間の区切りを判別するパート間区切り判別部と、パート毎のメタデータを自動生成するメタデータ生成部と、を有する。【選択図】図1

Description

本発明は、放送コンテンツのメタデータを自動生成し得るシステムおよび方法に関する。
テレビ番組など放送コンテンツから抽出される特徴量に対するラベル付与を自動で行い、ラベルが付与された特徴量を用いて放送コンテンツのメタデータを自動生成するシステムは公知である(特許文献1)。この種のシステムでは、放送コンテンツから抽出される特徴量が、たとえば動画の各フレームから抽出された顔特徴ベクトルである場合、顔特徴ベクトルにラベルを付与するとともに、その顔特徴ベクトルが抽出されたフレーム番号にラベルを付与する。この場合、フレーム番号に付与されたラベルは、放送された多くの番組の中から特定の人物が登場する番組を検索するためのメタデータとなる。
特開2020−9300号公報
ところで、テレビ番組は複数のパートで構成される。たとえば、ニュース等の情報番組は、番組の開始段階で放送されるオープニングパート、社会問題や事件、事故などを放送する報道パート、芸能情報や趣味の情報、お店の情報などを放送する各種情報パート、天気予報などを放送する天気予報パート、番組の終了段階で放送されるエンディングパート、等で構成される。また、報道パート、各種情報パート、気象情報パート、等は、それぞれ複数のサブパートで構成される。
しかし、特許文献1のシステムでは、一つの番組を構成している時系列的に互いに隣接するパートとパートとの間の区切りを判別することなく、メタデータを自動生成しているため、番組単位でのメタデータを自動生成することはできても、番組内のパート単位でのメタデータを自動生成することはできなかった。
本発明は、放送コンテンツ内のパート単位でのメタデータを自動生成することができるメタデータ生成システムおよびメタデータ生成方法を提供する。
上記課題を解決するために、請求項1のメタデータ生成システムは、映像と音声とからなる放送コンテンツのメタデータを自動生成するシステムであって、放送コンテンツに含まれるコンテンツ映像から、当該コンテンツ映像を構成するコンテンツ画面内の画像要素を認識する画像認識部と、前記画像認識部により認識された画像要素の時間的変化を判別する画像要素変化判別部と、放送コンテンツに含まれるコンテンツ音声を認識する音声認識部と、前記音声認識部により認識されたコンテンツ音声の変化を判別する音声変化判別部と、前記画像要素変化判別部による画像要素変化判別結果と前記音声変化判別部による音声変化判別結果とに基づいて、一つの放送コンテンツを構成している時系列的に互いに隣接するパートとパートとの間の区切り(以下、単に「パート間の区切り」とも称す)を判別するパート間区切り判別部と、前記パート毎のメタデータを自動生成するメタデータ生成部と、を有することを特徴とする。
上記のように構成された請求項1のメタデータ生成システムは、放送コンテンツに含まれるコンテンツ映像から、当該コンテンツ映像を構成するコンテンツ画面内の画像要素を画像認識部により認識し、画像要素の時間的変化を画像要素変化判別部により判別するとともに、放送コンテンツに含まれるコンテンツ音声を音声認識部により認識し、コンテンツ音声の変化を音声変化判別部により判別する。そして、画像要素変化判別部による画像要素変化判別結果と音声変化判別部による音声変化判別結果とに基づいて、パート間区切り判別部により、パート間の区切りを判別し、メタデータ生成部によりパート毎のメタデータを自動生成する。
このように、請求項1のメタデータ生成システムによれば、パート間の区切りを判別することができるので、放送コンテンツ内のパート単位でのメタデータを自動生成することが可能となる。
また、請求項2のメタデータ生成システムは、請求項1のメタデータ生成システムにおいて、前記コンテンツ画面は、フレーム画面であり、前記画像要素変化判別部は、フレーム画面が所定回数切り替わる毎に、切り替わりの前後のフレーム画面における画像要素が別の画像要素に変化したか否かを判別するものである。
上記のように構成された請求項2のメタデータ生成システムによれば、フレーム画面が所定回数切り替わる毎に、切り替わりの前後のフレーム画面における画像要素が別の画像要素に変化したか否かを判別することにより、パート間の区切りの判別を正確に行って、放送コンテンツ内のパート単位でのメタデータを自動生成することが可能となる。
また、請求項3のメタデータ生成システムは、請求項1又は2に記載のメタデータ自動生成システムにおいて、前記画像要素は、文字、登場分物の顔、番組セット、背景の少なくともいずれかであることを特徴とする。
上記のように構成された請求項3のメタデータ生成システムによれば、コンテンツ映像を構成するコンテンツ画面内の画像要素として、文字、登場分物の顔、番組セット、背景の少なくともいずれかを認識し、その画像要素の時間的変化を判別することにより、パート間の区切りの判別を正確に行って、放送コンテンツ内のパート単位でのメタデータを自動生成することが可能となる。
また、請求項4のメタデータ生成システムは、請求項1から3のいずれか一項に記載のメタデータ自動生成システムにおいて、前記音声認識部は、前記コンテンツ音声に含まれる人物の声、楽音、効果音、環境音又はベル音のうちのいずれか一の音声を認識することを特徴とする。
ここで「ベル音」とは、当該番組の中の各コーナ、テーマ等の改変の際に発せられる報知音をいう。
上記のように構成された請求項4のメタデータ生成システムによれば、コンテンツ音声に含まれる人物の声、楽音、効果音、環境音又はベル音のうちのいずれか一の音声を認識し、その音声の変化を音声判別することにより、パート間の区切りの判別を正確に行って、放送コンテンツ内のパート単位でのメタデータを自動生成することが可能となる。
また、請求項5のメタデータ生成システムは、請求項1から4のいずれか一項に記載のメタデータ自動生成システムにおいて、前記音声変化判別部は、前記コンテンツ音声が所定時間以上完全に無音になったか否かを判別することを特徴とする。
上記のように構成された請求項5のメタデータ生成システムによれば、コンテンツ音声が所定時間以上完全に無音になった場合に、その無音の時間帯をパート間の区切りであると判別することにより、パート間の区切りの判別を正確に行って、放送コンテンツ内のパート単位でのメタデータを自動生成することが可能となる。
また、請求項6のメタデータ生成システムは、請求項1から5のいずれか一項に記載のメタデータ自動生成システムにおいて、前記パート間区切り判別部は、機械学習の結果得られた学習済みモデルを用いて前記区切りを判別する第一判別機能と、予め設定された知識情報に基づいてパート間区切りを判別する第二判別機能と、前記知識情報によらず所定のアルゴリズムによりパート間区切りを判別する第三判別機能と、を有し、前記第一判別機能、前記第二判別機能及び前記第三判別機能による判別結果を総合評価して、パート間区切りを判別することを特徴とする。
上記のように構成された請求項6のメタデータ生成システムによれば、パート間の区切りを三種類の異なる手法により判別し、それら三種類の判別結果の総合評価を総合評価して、パート間の区切りを判別することにより、一つの手法で判別する場合と比較して、パート間の区切りの判別を正確に行って、放送コンテンツ内のパート単位でのメタデータを自動生成することが可能となる。
また、上記課題を解決するために、請求項7のメタデータ自動生成方法は、映像と音声とからなる放送コンテンツのメタデータを自動生成する方法であって、放送コンテンツに含まれるコンテンツ映像から、当該コンテンツ映像を構成するコンテンツ画面内の画像要素を認識する画像認識ステップと、前記画像認識ステップにより認識された画像要素の時間的変化を判別する画像要素変化判別ステップと、放送コンテンツに含まれるコンテンツ音声を認識する音声認識ステップと、前記音声認識ステップにより認識されたコンテンツ音声の変化を判別する音声変化判別ステップと、前記画像要素変化判別ステップによる画像要素変化判別結果と前記音声変化判別ステップによる音声変化判別結果とに基づいて、一つの放送コンテンツを構成している時系列的に互いに隣接するパートとパートとの間の区切りを判別するパート間区切り判別ステップと、前記パート毎のメタデータを自動生成するメタデータ生成ステップと、を有することを特徴とする。
上記のように構成された請求項7のメタデータ生成方法は、放送コンテンツに含まれるコンテンツ映像から、当該コンテンツ映像を構成するコンテンツ画面内の画像要素を画像認識ステップにより認識し、画像要素の時間的変化を画像要素変化判別ステップにより判別するとともに、放送コンテンツに含まれるコンテンツ音声を音声認識ステップにより認識し、コンテンツ音声の変化を音声変化判別ステップにより判別する。その後、画像要素変化判別ステップによる画像要素変化判別結果と音声変化判別ステップによる音声変化判別結果とに基づいて、パート間区切り判別ステップにより、パート間の区切りを判別し、メタデータ生成ステップによりパート毎のメタデータを自動生成する。
このように、請求項7のメタデータ生成方法によれば、パート間の区切りを判別することができるので、放送コンテンツ内のパート単位でのメタデータを自動生成することが可能となる。
また、請求項8のメタデータ自動生成方法は、請求項7に記載のメタデータ自動生成方法において、前記コンテンツ画面は、フレーム画面であり、前記画像要素変化判別ステップは、フレーム画面が所定回数切り替わる毎に、切り替わりの前後のフレーム画面における画像要素が別の画像要素に変化したか否かを判別するステップである、ことを特徴とする。
上記のように構成された請求項8のメタデータ生成方法によれば、フレーム画面が所定回数切り替わる毎に、切り替わりの前後のフレーム画面における画像要素が別の画像要素に変化したか否かを判別することにより、パート間の区切りの判別を正確に行って、放送コンテンツ内のパート単位でのメタデータを自動生成することが可能となる。
また、請求項9のメタデータ自動生成方法は、請求項7又は8に記載のメタデータ自動生成方法において、前記画像要素は、文字、登場分物の顔、番組セット、背景の少なくともいずれかである。
上記のように構成された請求項9のメタデータ生成方法によれば、コンテンツ映像を構成するコンテンツ画面内の画像要素として、文字、登場分物の顔、番組セット、背景の少なくともいずれかを認識し、その画像要素の時間的変化を判別することにより、パート間の区切りの判別を正確に行って、放送コンテンツ内のパート単位でのメタデータを自動生成することが可能となる。
また、請求項10のメタデータ自動生成方法は、請求項7から9のいずれか一項に記載のメタデータ自動生成方法において、前記音声認識ステップは、前記コンテンツ音声に含まれる人物の声、楽音、効果音、環境音又はベル音のうちのいずれか一の音声を認識することを特徴とする。
上記のように構成された請求項10のメタデータ生成方法によれば、コンテンツ音声に含まれる人物の声、楽音、効果音、環境音又はベル音のうちのいずれか一の音声を認識し、その音声の変化を音声判別することにより、パート間の区切りの判別を正確に行って、放送コンテンツ内のパート単位でのメタデータを自動生成することが可能となる。
また、請求項11のメタデータ自動生成方法は、請求項7から10のいずれか一項に記載のメタデータ自動生成方法において、前記音声変化判別ステップは、前記コンテンツ音声が所定時間以上完全に無音になったか否かを判別することを特徴とする。
上記のように構成された請求項11のメタデータ生成方法によれば、コンテンツ音声が所定時間以上完全に無音になった場合に、その無音の時間帯をパート間の区切りであると判別することにより、パート間の区切りの判別を正確に行って、放送コンテンツ内のパート単位でのメタデータを自動生成することが可能となる。
また、請求項12のメタデータ自動生成方法は、請求項7から11のいずれか一項に記載のメタデータ自動生成方法において、前記パート間区切り判別ステップは、機械学習の結果得られた学習済みモデルを用いて前記一つの放送コンテンツを構成している時系列的に互いに隣接するパートとパートとの間の区切りを判別する第一判別機能ステップと、予め設定された知識情報に基づいて前記一つの放送コンテンツを構成している時系列的に互いに隣接するパートとパートとの間の区切りを判別する第二判別機能ステップと、前記知識情報によらず所定のアルゴリズムにより前記一つの放送コンテンツを構成している時系列的に互いに隣接するパートとパートとの間の区切りを判別する第三判別機能ステップと、を有し、前記第一判別機能ステップ、前記第二判別機能ステップ及び前記第三判別機能ステップによる判別結果を総合評価して、前記区切りを判別することを特徴とする。
上記のように構成された請求項12のメタデータ生成方法によれば、パート間の区切りを三種類の異なる手法により判別し、それら三種類の判別結果の総合評価を総合評価して、パート間の区切りを判別することにより、一つの手法で判別する場合と比較して、パート間の区切りの判別を正確に行って、放送コンテンツ内のパート単位でのメタデータを自動生成することが可能となる。
請求項1のメタデータ生成システムによれば、パート間の区切りを判別することができるので、番組内のパート単位でのメタデータを自動生成することが可能となる。
また、請求項2から請求項6のメタデータ生成システムによれば、パート間の区切りをより正確に判別して、番組内のパート単位でのメタデータを自動生成することが可能となる。
請求項7のメタデータ生成方法によれば、パート間の区切りを判別することができるので、番組内のパート単位でのメタデータを自動生成することが可能となる。
また、請求項8から請求項12のメタデータ生成方法によれば、パート間の区切りの判別をより正確に判別して、番組内のパート単位でのメタデータを自動生成することが可能となる。
本発明のメタデータ生成システムの一実施形態を示す機能ブロック図である。 図1に示すメタデータ生成システムの動作内容を例示するフローチャートである。 図1に示すメタデータ生成システムの動作説明図である。 図1に示すメタデータ生成システムの別の動作説明図である。
以下、添付図面を参照して、一実施形態のメタデータ生成システムについて説明する。このメタデータ生成システムは、映像と音声とからなる放送コンテンツのメタデータを自動生成するシステムである。放送コンテンツの代表例としてテレビ番組を挙げることができる。なお、本明細書において、放送コンテンツには、インターネットに代表される情報通信網を介して配信される所謂動画コンテンツが含まれるものとする。
[構成]
図1に示すように一実施形態のメタデータ生成システム100は、画像認識部110と、画像要素変化判別部120と、音声認識部130と、音声変化判別部140と、パート間区切り判別部150と、メタデータ生成部160と、を有する。このメタデータ生成システム100は、コンピュータに、本発明に係るシステム及び方法を実現するためのプログラムをインストールし実行することにより実現される。メタデータ生成システム100には、大容量記憶装置10及びコンテンツ提供装置20が接続されている。
大容量記憶装置10は、図示しない受信装置により受信した放送コンテンツのデータを格納する。大容量記憶装置10は、メタデータ生成システム100により生成されたメタデータに基づいて、放送コンテンツ単位及び放送コンテンツ内のパーツ単位でコンテンツを検索可能に、大量のコンテンツを蓄積している。
コンテンツ提供装置20は、ユーザからメタデータを手がかりにしたコンテンツ検索を受け付ける機能、受け付けた条件に該当するコンテンツを大容量記憶装置10から検索する機能、該当したコンテンツをユーザの端末装置に送信する機能、等を有している。メタデータは、放送局、放送時間、タイトル、内容の抄録、登場人物の氏名、ロゴ、等のテキスト情報で構成される。
画像認識部110は、放送コンテンツに含まれるコンテンツ映像から、当該コンテンツ映像を構成するコンテンツ画面内の画像要素を認識する機能ブロックである。ここで、コンテンツ画面は、フレーム画面すなわち、動画の1コマ分の静止画像が表示される画面を意味するものとする。画像要素は、文字、登場分物の顔、番組セット、背景の少なくともいずれかである。
画像要素変化判別部120は、画像認識部110により認識された画像要素の時間的変化を判別する機能ブロックである。画像要素変化判別部120は、フレーム画面が所定回数切り替わる毎に、切り替わりの前後のフレーム画面における画像要素が別の画像要素に変化したか否かを判別する機能を有する。画像要素変化判別部120による判別周期は、1秒以内の範囲で、コンテンツ映像のフレームレート(fps)に基づいて設定される。
例えば、フレームレートが60fpsであれば、フレーム画面が60回以下の所定回数切り替わる周期に設定される。
音声認識部130は、放送コンテンツに含まれるコンテンツ音声を認識する機能ブロックである。音声認識部130は、コンテンツ音声に含まれる人物の声、楽音、効果音、環境音又はベル音のうちのいずれか一の音声を認識する機能を有する。
音声変化判別部140は、音声認識部130により認識されたコンテンツ音声の変化を判別する機能ブロックである。音声変化判別部140は、コンテンツ音声が所定時間以上完全に無音になったか否かを判別する機能を有する。
パート間区切り判別部150は、画像要素変化判別部120による画像要素変化判別結果と音声変化判別部140による音声変化判別結果とに基づいて、パート間の区切りを判別する機能ブロックである。
パート間区切り判別部150は、第一判別機能部151と、第二判別機能部152と、第三判別機能部153と、総合評価部154と、を有する。
第一判別機能部151は、機械学習の結果得られた学習済みモデルを用いて前記区切りを判別する機能ブロックである。第一判別機能部151において用いられる判別手法は、所謂人工知能の第三世代と呼ばれる段階で開発された手法である。
第二判別機能部152は、予め設定された知識情報に基づいてパート間区切りを判別する機能ブロックである。第二判別機能部152において用いられる判別手法は、所謂人工知能の第二世代と呼ばれる段階で開発された手法である。
第三判別機能部153は、知識情報によらず所定のアルゴリズムによりパート間区切りを判別する機能ブロックである。第三判別機能部153において用いられる判別手法は、所謂人工知能の第一世代と呼ばれる段階で開発された手法である。
総合評価部154は、第一判別機能部151、第二判別機能部152及び第三判別機能部153による判別結果を総合評価して、パート間の区切りを判別する機能ブロックである。総合評価部154は、一例として、第一判別機能部151による判別の成功率或いは失敗率、第二判別機能部152による判別の成功率或いは失敗率、及び、第二判別機能部152による判別の成功率或いは失敗率を考慮して、パート間の区切りを判別する。
メタデータ生成部160は、パート毎のメタデータを自動生成する機能ブロックである。「パート毎」とは、パート間区切り判別部150により判別された互いに隣接する二つの区切りの間にあるパート毎を意味する。メタデータ生成部160は、一例として、各パートから抽出される特徴量に対するラベル付与を自動で行い、ラベルが付与された特徴量を用いて各パートのメタデータを自動生成する。メタデータ生成部160により生成されたパート毎のメタデータは、大容量記憶装置10において、大量の放送コンテンツとともに管理される。
[動作]
図2に示すようにメタデータ生成システム100は、画像認識ステップS1と、画像要素変化判別ステップS2と、音声認識ステップS3と、音声変化判別ステップS4と、パート間区切り判別ステップS5と、メタデータ生成ステップS6と、を実行する。
画像認識ステップS1は、放送コンテンツに含まれるコンテンツ映像から、当該コンテンツ映像を構成するコンテンツ画面内の画像要素を認識するステップである。
画像要素変化判別ステップS2は、画像認識ステップS1により認識された画像要素の時間的変化を判別するステップである。画像要素変化判別ステップS2では、図3に示すように、フレーム画面FGが所定回数切り替わる毎(図3ではM回毎)に、切り替わりの前後のフレーム画面FGa、FGbにおける画像要素GEが異なるか否かを判別する処理が実行される。図3の例では、所定回数毎のフレーム画面FGa、FGbの切り替わりの前後で、画像要素GEが画像要素GE(A)から別の画像要素GE(B)に変化しているため、画像要素GEの時間的変化があったと判別される。この場合、フレーム画面FGa、FGbとの間にパート間の区切りが存在する可能性が高いといえる。
音声認識ステップS3は、放送コンテンツに含まれるコンテンツ音声を認識するステップである。音声認識ステップS3では、コンテンツ音声に含まれる人物の声、楽音、効果音、環境音又はベル音のうちのいずれか一の音声を認識する処理が実行される。
音声変化判別ステップS4は、音声認識ステップS3により認識されたコンテンツ音声の変化を判別するステップである。音声変化判別ステップS4では、コンテンツ音声の変化を判別する処理の一つとして、コンテンツ音声が所定時間(閾値Ts)以上完全に無音になった否かを判別する処理が実行される。図4の例では、フレームFからフレームFn+9の間が無音の時間帯TS0であり、その時間帯TS0が閾値Ts以上(TS0≧Ts)であるため、音声変化判別ステップS4により、コンテンツ音声が所定時間以上完全に無音になったと判別される。この場合、フレームFからフレームFn+9の間にパート間の区切りが存在する可能性が高いといえる。
パート間区切り判別ステップS5は、画像要素変化判別部120による画像要素変化判別結果と音声変化判別部140による音声変化判別結果とに基づいて、パート間の区切りを判別する機能ブロックである。
パート間区切り判別ステップS5では、例えば、図3のように、フレーム画面FGa、FGbの切り替わりの前後で、画像要素GEの変化があった場合には、フレーム画面FGaとフレーム画面FGbとの間がパート間の区切りである可能性が高いと判断される。フレーム画面FGa、FGbの切り替わりの前後で、画像要素GEとは別の画像要素についても変化があった場合には、フレーム画面FGaとフレーム画面FGbとの間がパート間の区切りである可能性がより高いと判断される。例えば、ある画像要素がある登場人物の顔であり、別の画像要素が背景画像である場合、両方の画像要素がフレーム画面の切り替わりの前後で登場人物の顔が変化した場合、パート間の区切りである可能性が相当高いと判断される。
また、パート間区切り判別ステップS5では、音声変化判別ステップS4によりコンテンツ音声が変化したと判別された場合には、コンテンツ音声が変化する前後のフレーム間がパート間の区切りである可能性が高いと判断される。例えば、特定の登場人物の声が主に発せられる状態から別の特定の登場人物の声が主に発せられる状態に変化した場合、その状態変化の前後のフレーム間がパート間の区切りである可能性が高いと判断される。
また、パート間区切り判別ステップS5では、例えば、図4のように、所定時間以上完全に無音の時間帯TS0があった場合には、無音の時間帯TS0にパート間の区切りが存在する可能性が高いと判断される。無音の時間帯TS0が、コマーシャルの前後に生じることが多いという傾向がある場合、無音の時間帯TS0を判別することにより、放送コンテンツとコマーシャルとの区切りである可能性が高いと判断することができる。
そして、パート間区切り判別ステップS5では、フレーム画面の切り替わりの前後での画像要素の変化の有無とコンテンツ音声の変化の有無とに基づいて、パート間の区切りを判別する。
パート間区切り判別ステップS5は、第一判別機能ステップS51と、第二判別機能ステップS52と、第三判別機能ステップS53と、総合評価ステップS54と、を有する。
第一判別機能ステップS51は、機械学習の結果得られた学習済みモデルを用いて前記区切りを判別するステップである。
第二判別機能ステップS52は、予め設定された知識情報に基づいてパート間区切りを判別するステップである。
第三判別機能ステップS53は、知識情報によらず所定のアルゴリズムによりパート間区切りを判別するステップである。
総合評価ステップS54は、第一判別機能ステップS51、第二判別機能ステップS52及び第三判別機能ステップS53による判別結果を総合評価して、パート間の区切りを判別するステップである。総合評価ステップS54では、一例として、第一判別機能ステップS51による判別の成功率或いは失敗率、第二判別機能ステップS52による判別の成功率或いは失敗率、及び、第二判別機能ステップS52による判別の成功率或いは失敗率を考慮して、パート間の区切りを判別する。
メタデータ生成ステップS6は、パート毎のメタデータを自動生成するステップである。メタデータ生成ステップS6では、一例として、各パートから抽出される特徴量に対するラベル付与を自動で行い、ラベルが付与された特徴量を用いて各パートのメタデータを自動生成する。各パートから抽出される特徴量が、たとえば動画の各フレームから抽出された顔特徴ベクトルである場合、顔特徴ベクトルにラベルを付与するとともに、その顔特徴ベクトルが抽出されたフレーム番号にラベルを付与する。この場合、フレーム番号に付与されたラベルは、放送コンテンツの中から特定の人物が登場するパートを検索するためのメタデータとなる。メタデータ生成ステップS6により生成されたパート毎のメタデータは、大容量記憶装置10において、大量の放送コンテンツとともに管理される。
メタデータ生成システム100は、以上の一連のステップS1〜S6を実行することにより、パート毎のメタデータを自動生成する。
[作用効果]
上記のように、一実施形態のメタデータ生成システム100によれば、放送コンテンツに含まれるコンテンツ映像から、当該コンテンツ映像を構成するコンテンツ画面内の画像要素を画像認識部110により認識し、画像要素の時間的変化を画像要素変化判別部120により判別するとともに、放送コンテンツに含まれるコンテンツ音声を音声認識部130により認識し、コンテンツ音声の変化を音声変化判別部140により判別する。そして、画像要素変化判別部120による画像要素変化判別結果と音声変化判別部140による音声変化判別結果とに基づいて、パート間区切り判別部150により、パート間の区切りを判別し、メタデータ生成部160によりパート毎のメタデータを自動生成する。
このように、一実施形態のメタデータ生成システム100によれば、パート間の区切りを判別することができるので、放送コンテンツ内のパート単位でのメタデータを自動生成することが可能となる。
また、一実施形態のメタデータ生成システム100によれば、フレーム画面が所定回数切り替わる毎に、切り替わりの前後のフレーム画面における画像要素が別の画像要素に変化したか否かを判別することにより、パート間の区切りの判別を正確に行って、放送コンテンツ内のパート単位でのメタデータを自動生成することが可能となる。
また、一実施形態のメタデータ生成システム100によれば、コンテンツ映像を構成するコンテンツ画面内の画像要素として、文字、登場分物の顔、番組セット、背景の少なくともいずれかを認識し、その画像要素の時間的変化を判別することにより、パート間の区切りの判別を正確に行って、放送コンテンツ内のパート単位でのメタデータを自動生成することが可能となる。
また、一実施形態のメタデータ生成システム100によれば、コンテンツ音声に含まれる人物の声、楽音、効果音、環境音又はベル音のうちのいずれか一の音声を認識し、その音声の変化を音声判別することにより、パート間の区切りの判別を正確に行って、放送コンテンツ内のパート単位でのメタデータを自動生成することが可能となる。
また、一実施形態のメタデータ生成システム100によれば、コンテンツ音声が所定時間以上完全に無音になった場合に、その無音の時間帯をパート間の区切りであると判別することにより、パート間の区切りの判別を正確に行って、放送コンテンツ内のパート単位でのメタデータを自動生成することが可能となる。
また、一実施形態のメタデータ生成システム100によれば、パート間の区切りを三種類の異なる手法により判別し、それら三種類の判別結果を総合評価して、パート間の区切りを判別することにより、一つの手法で判別する場合と比較して、パート間の区切りの判別を正確に行って、放送コンテンツ内のパート単位でのメタデータを自動生成することが可能となる。
なお、上記実施形態では、フレーム画面が複数回(M回)切り替わる毎に、切り替わりの前後のフレーム画面における画像要素が異なるか否かを判別する処理が実行されることとしたが、フレーム画面が1回切り替わる毎に、当該処理を実行するようにしてもよい。
100 メタデータ生成システム
110 画像認識部
120 画像要素変化判別部
130 音声認識部
140 音声変化判別部
150 パート間区切り判別部
160 メタデータ生成部
151 第一判別機能部
152 第二判別機能部
153 第三判別機能部
154 総合評価部
S1 画像認識ステップ
S2 画像要素変化判別ステップ
S3 音声認識ステップ
S4 音声変化判別ステップ
S5 パート間区切り判別ステップ
S6 メタデータ生成ステップ
S51 第一判別機能ステップ
S52 第二判別機能ステップ
S53 第三判別機能ステップ
S54 総合評価ステップ

Claims (12)

  1. 映像と音声とからなる放送コンテンツのメタデータを自動生成するシステムであって、
    放送コンテンツに含まれるコンテンツ映像から、当該コンテンツ映像を構成するコンテンツ画面内の画像要素を認識する画像認識部と、
    前記画像認識部により認識された画像要素の時間的変化を判別する画像要素変化判別部と、
    放送コンテンツに含まれるコンテンツ音声を認識する音声認識部と、
    前記音声認識部により認識されたコンテンツ音声の変化を判別する音声変化判別部と、
    前記画像要素変化判別部による画像要素変化判別結果と前記音声変化判別部による音声変化判別結果とに基づいて、一つの放送コンテンツを構成している時系列的に互いに隣接するパートとパートとの間の区切りを判別するパート間区切り判別部と、
    前記パート毎のメタデータを自動生成するメタデータ生成部と、を有することを特徴とするメタデータ自動生成システム。
  2. 前記コンテンツ画面は、フレーム画面であり、
    前記画像要素変化判別部は、フレーム画面が所定回数切り替わる毎に、切り替わりの前後のフレーム画面における画像要素が別の画像要素に変化したか否かを判別する、請求項1に記載のメタデータ自動生成システム。
  3. 前記画像要素は、文字、登場分物の顔、番組セット、背景の少なくともいずれかである、請求項1又は2に記載のメタデータ自動生成システム。
  4. 前記音声認識部は、前記コンテンツ音声に含まれる人物の声、楽音、効果音、環境音又はベル音のうちのいずれか一の音声を認識する、請求項1から3のいずれか一項に記載のメタデータ自動生成システム。
  5. 前記音声変化判別部は、前記コンテンツ音声が所定時間以上完全に無音になった否かを判別する、請求項1から4のいずれか一項に記載のメタデータ自動生成システム。
  6. 前記パート間区切り判別部は、
    機械学習の結果得られた学習済みモデルを用いて前記一つの放送コンテンツを構成している時系列的に互いに隣接するパートとパートとの間の区切りを判別する第一判別機能と、
    予め設定された知識情報に基づいて前記一つの放送コンテンツを構成している時系列的に互いに隣接するパートとパートとの間の区切りを判別する第二判別機能と、
    前記知識情報によらず所定のアルゴリズムにより前記一つの放送コンテンツを構成している時系列的に互いに隣接するパートとパートとの間の区切りを判別する第三判別機能と、を有し、
    前記第一判別機能、前記第二判別機能及び前記第三判別機能による判別結果の総合評価に基づいて、前記区切りを判別する、請求項1から5のいずれか一項に記載のメタデータ自動生成システム。
  7. 映像と音声とからなる放送コンテンツのメタデータを自動生成する方法であって、
    放送コンテンツに含まれるコンテンツ映像から、当該コンテンツ映像を構成するコンテンツ画面内の画像要素を認識する画像認識ステップと、
    前記画像認識ステップにより認識された画像要素の時間的変化を判別する画像要素変化判別ステップと、
    放送コンテンツに含まれるコンテンツ音声を認識する音声認識ステップと、
    前記音声認識ステップにより認識されたコンテンツ音声の変化を判別する音声変化判別ステップと、
    前記画像要素変化判別ステップによる画像要素変化判別結果と前記音声変化判別ステップによる音声変化判別結果とに基づいて、一つの放送コンテンツを構成している時系列的に互いに隣接するパートとパートとの間の区切りを判別するパート間区切り判別ステップと、
    前記パート毎のメタデータを自動生成するメタデータ生成ステップと、を有することを特徴とするメタデータ自動生成方法。
  8. 前記コンテンツ画面は、フレーム画面であり、
    前記画像要素変化判別ステップは、フレーム画面が所定回数切り替わる毎に、切り替わりの前後のフレーム画面における画像要素が別の画像要素に変化したか否かを判別するステップである、請求項7に記載のメタデータ自動生成方法。
  9. 前記画像要素は、文字、登場分物の顔、番組セット、背景の少なくともいずれかである、請求項7又は8に記載のメタデータ自動生成方法。
  10. 前記音声認識ステップは、前記コンテンツ音声に含まれる人物の声、楽音、効果音、環境音又はベル音のうちのいずれか一の音声を認識する、請求項7から9のいずれか一項に記載のメタデータ自動生成方法。
  11. 前記音声変化判別ステップは、前記コンテンツ音声が所定時間以上完全に無音になったか否かを判別する、請求項7から10のいずれか一項に記載のメタデータ自動生成方法。
  12. 前記パート間区切り判別ステップは、
    機械学習の結果得られた学習済みモデルを用いて前記一つの放送コンテンツを構成している時系列的に互いに隣接するパートとパートとの間の区切りを判別する第一判別機能ステップと、
    予め設定された知識情報に基づいて前記一つの放送コンテンツを構成している時系列的に互いに隣接するパートとパートとの間の区切りを判別する第二判別機能ステップと、
    前記知識情報によらず所定のアルゴリズムにより前記一つの放送コンテンツを構成している時系列的に互いに隣接するパートとパートとの間の区切りを判別する第三判別機能ステップと、を有し、
    前記第一判別機能ステップ、前記第二判別機能ステップ及び前記第三判別機能ステップによる判別結果を総合評価して、前記区切りを判別する、請求項7から11のいずれか一項に記載のメタデータ自動生成方法。
JP2020026201A 2020-02-19 2020-02-19 メタデータ生成システムおよびメタデータ生成方法 Pending JP2021132281A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020026201A JP2021132281A (ja) 2020-02-19 2020-02-19 メタデータ生成システムおよびメタデータ生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020026201A JP2021132281A (ja) 2020-02-19 2020-02-19 メタデータ生成システムおよびメタデータ生成方法

Publications (1)

Publication Number Publication Date
JP2021132281A true JP2021132281A (ja) 2021-09-09

Family

ID=77551317

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020026201A Pending JP2021132281A (ja) 2020-02-19 2020-02-19 メタデータ生成システムおよびメタデータ生成方法

Country Status (1)

Country Link
JP (1) JP2021132281A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023176997A1 (ko) * 2022-03-17 2023-09-21 엘지전자 주식회사 디스플레이 장치

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009171624A (ja) * 2002-04-12 2009-07-30 Mitsubishi Electric Corp メタデータ配信装置、メタデータ検索装置、メタデータ再生成条件設定装置、メタデータ再生成装置、メタデータ配信方法及びメタデータ再生成方法
JP2011024077A (ja) * 2009-07-17 2011-02-03 Mitsubishi Electric Corp 映像音声記録再生装置および映像音声記録再生方法
JP2012142645A (ja) * 2009-04-28 2012-07-26 Mitsubishi Electric Corp 映像音声再生装置、映像音声記録再生装置、映像音声編集装置、映像音声再生方法、映像音声記録再生方法、および映像音声編集方法
JP2014006912A (ja) * 2009-01-20 2014-01-16 Sony Corp 情報処理装置、情報処理方法およびプログラム
JP2017112448A (ja) * 2015-12-15 2017-06-22 日本放送協会 映像シーン分割装置及び映像シーン分割プログラム
JP2020009300A (ja) * 2018-07-11 2020-01-16 株式会社東芝 ラベル付与装置、ラベル付与方法およびプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009171624A (ja) * 2002-04-12 2009-07-30 Mitsubishi Electric Corp メタデータ配信装置、メタデータ検索装置、メタデータ再生成条件設定装置、メタデータ再生成装置、メタデータ配信方法及びメタデータ再生成方法
JP2014006912A (ja) * 2009-01-20 2014-01-16 Sony Corp 情報処理装置、情報処理方法およびプログラム
JP2012142645A (ja) * 2009-04-28 2012-07-26 Mitsubishi Electric Corp 映像音声再生装置、映像音声記録再生装置、映像音声編集装置、映像音声再生方法、映像音声記録再生方法、および映像音声編集方法
JP2011024077A (ja) * 2009-07-17 2011-02-03 Mitsubishi Electric Corp 映像音声記録再生装置および映像音声記録再生方法
JP2017112448A (ja) * 2015-12-15 2017-06-22 日本放送協会 映像シーン分割装置及び映像シーン分割プログラム
JP2020009300A (ja) * 2018-07-11 2020-01-16 株式会社東芝 ラベル付与装置、ラベル付与方法およびプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023176997A1 (ko) * 2022-03-17 2023-09-21 엘지전자 주식회사 디스플레이 장치
US11949942B2 (en) 2022-03-17 2024-04-02 Lg Electronics Inc. Display device

Similar Documents

Publication Publication Date Title
CN107146612B (zh) 语音引导方法、装置、智能设备及服务器
KR102436734B1 (ko) 비디오 재생 노드 위치 확정 방법, 장치, 전자 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램
CA2924065C (en) Content based video content segmentation
KR100707189B1 (ko) 동영상의 광고 검출 장치 및 방법과 그 장치를 제어하는컴퓨터 프로그램을 저장하는 컴퓨터로 읽을 수 있는 기록매체
EP1345360B1 (en) Method and apparatus for controlling devices connected to home network
EP3796110A1 (en) Method and apparatus for determining controlled object, and storage medium and electronic device
CN102342124A (zh) 用于提供与广播节目相关的信息的装置和方法
CN111258995B (zh) 数据处理方法、装置、存储介质及设备
CN111711855A (zh) 视频生成方法及装置
CN101444092A (zh) 视频播放装置,视频播放方法,以及视频播放程序
CN1581951A (zh) 信息处理设备及其方法
CN112632326B (zh) 一种基于视频脚本语义识别的视频生产方法及装置
CN112153397B (zh) 视频处理方法、装置、服务器及存储介质
CN105072465A (zh) 一种视频播放控制方法及电子设备
CN112423081B (zh) 一种视频数据处理方法、装置、设备及可读存储介质
CN113411674A (zh) 视频的播放控制方法、装置、电子设备及存储介质
CN114598933B (zh) 一种视频内容处理方法、系统、终端及存储介质
CN114466210B (zh) 直播质量检测处理方法及其装置、设备、介质
CN111930974A (zh) 一种音视频类型的推荐方法、装置、设备及存储介质
JP2021132281A (ja) メタデータ生成システムおよびメタデータ生成方法
GB2533913A (en) A video signal caption system and method for advertising
KR102243275B1 (ko) 오프라인 오브젝트에 관한 콘텐츠 자동 생성 방법, 장치 및 컴퓨터 판독가능 저장 매체
CN112328152B (zh) 媒体文件的播放控制方法、装置、电子设备及存储介质
CN108922534A (zh) 控制方法、装置、设备及存储介质
CN112333554A (zh) 多媒体数据的处理方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200316

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210521

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210719

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211203

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220328

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220525