JP2024024798A - 映像編集装置、映像編集プログラム、及び映像編集方法 - Google Patents

映像編集装置、映像編集プログラム、及び映像編集方法 Download PDF

Info

Publication number
JP2024024798A
JP2024024798A JP2022127691A JP2022127691A JP2024024798A JP 2024024798 A JP2024024798 A JP 2024024798A JP 2022127691 A JP2022127691 A JP 2022127691A JP 2022127691 A JP2022127691 A JP 2022127691A JP 2024024798 A JP2024024798 A JP 2024024798A
Authority
JP
Japan
Prior art keywords
video
cut
scene
content
video content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022127691A
Other languages
English (en)
Inventor
絵里香 林
Erika Hayashi
文彦 木村
Fumihiko Kimura
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unixon Systems Co Ltd
Original Assignee
Unixon Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unixon Systems Co Ltd filed Critical Unixon Systems Co Ltd
Priority to JP2022127691A priority Critical patent/JP2024024798A/ja
Priority to PCT/JP2023/027364 priority patent/WO2024034401A1/ja
Publication of JP2024024798A publication Critical patent/JP2024024798A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】視聴者が興味を示すシーンを集めたダイジェスト映像を効率的に生成することができる映像編集装置、映像編集プログラム、及び映像編集方法を提供することを目的とする。【解決手段】映像編集装置1は、元素材となる映像コンテンツを所定の条件に基づいて複数のフレーム画像からなるカット映像に分割する。分割したカット映像は、予め分類された映像コンテンツのシーンにそれぞれ分類したうえで、視聴者にとって印象に残るカット映像を抽出するとともに、抽出したカット映像を繋ぎ合わせて、映像コンテンツよりも短い時間長であるダイジェスト映像を生成する。【選択図】図1

Description

本発明は、映像編集装置、映像編集プログラム、及び映像編集方法に関する。詳しくは、視聴者が興味を示すシーンを集めたダイジェスト映像を効率的に生成することができる映像編集装置、映像編集プログラム、及び映像編集方法に係るものである。
テレビ放送におけるスポーツの試合、映画、或いはテレビショッピング等のように特に放送が長時間に及ぶ番組においては、視聴者は番組視聴以外の生活への時間を割かなければならず、長時間の番組を最初から最後まで全て視聴するには時間がなく、番組のポイントのみに編集したダイジェスト番組を視聴したいというニーズがある。従来、放送局における映像編集担当者は、長時間の番組の中で視聴者が興味を示すと思われるシーンのみを人手により選択し、決められた放送時間枠に収まるように編集することでダイジェスト映像を作成するのが一般的であった。
しかしながら、このようにダイジェスト映像を人手により編集する場合、ダイジェスト映像にする必要がある番組は比較的長時間に及ぶものであり、そこからポイントとなるシーンを選択するには多大な時間と労力が必要となり、映像編集者にとって大きな作業負担となっていた。更に、このようにして作成したダイジェスト映像は、映像編集担当者の目線で選んだポイントから構成されるダイジェストとなるため、必ずしも視聴者の興味を反映したものとはなっていないという問題があった。
以上のような問題に対して、ダイジェスト映像を効率的に生成する技術として、例えば特許文献1に開示されている技術がある。特許文献1に開示されている技術内容によれば、他の視聴者の動作状況を分析し、当該視聴者の興味情報に基づいて番組中のシーンの注目度を算出し、当該視聴者の注目度の高いシーンを映像から選択し、選択したシーンを繋ぎ合わせることでダイジェスト映像を生成するものである。これにより、視聴者の興味を反映したダイジェスト映像を効率的に生成することができるものとなっている。
特開2012-248987号公報
しかしながら、他の視聴者が注目したシーンを見るだけでは、内容の前後関係やシーン間の前後関係を考慮していないダイジェスト映像が生成され、内容の把握が難しい場合がある。例えば、スポーツ中継では、得点シーンが注目度が高くなる傾向があるが、得点シーンだけを採用してダイジェスト映像を編集しても、前後の映像の繋がりが不自然となり、視聴者が十分に試合内容を把握できない可能性がある。
本発明は、以上の点に鑑みて創案されたものであり、視聴者が興味を示すシーンを集めたダイジェスト映像を効率的に生成することができる映像編集装置、映像編集プログラム、及び映像編集方法を提供することを目的とするものである。
前記の目的を達成するために、本発明の映像編集装置は、元素材となる映像コンテンツの画像解析を行う画像解析部と、前記映像コンテンツを、前記画像解析部における解析結果に基づいて所定の分割点で分割し、カット映像を生成するカット映像生成部と、前記画像解析部における解析結果に基づいて、前記カット映像の中から任意のカット映像を選択するカット映像選択部と、該カット映像選択部で選択した前記カット映像を繋ぎ合わせて、前記映像コンテンツよりも映像時間が短い時間長となるダイジェスト映像を生成するダイジェスト映像生成部とを備える。
ここで、元素材となる映像コンテンツの画像解析を行う画像解析部を備えることにより、映像コンテンツを画像解析することで、元素材となる映像コンテンツから、ダイジェスト映像として採用すべき特徴的な画像を抽出することができる。
また、映像コンテンツを、画像解析部における解析結果に基づいて分割し、カット映像を生成するカット映像生成部を備えることにより、映像コンテンツを複数のカット映像に分割することができる。そして、分割されたカット映像から、任意のカット映像を繋ぎ合わせることで、元映像の全体をイメージしやすく、かつ違和感のないダイジェスト映像に編集することができる。
また、複数のカット映像から、画像解析部における解析結果に基づいて、任意のカット映像を選択するカット映像選択部を備えることにより、シーン映像に含まれるカット映像のうち、例えば映像コンテンツの出演者(司会者、競技者、実況者等)の表情が良いカット映像、或いは出演者が発した印象に残る言葉が含まれるカット映像のように、視聴者に対して好印象なカット映像を優先して採用し、視聴者に対して印象に残る映像に編集することができる。
また、カット映像選択部で選択したカット映像を繋ぎ合わせて、映像コンテンツよりも映像時間が短い時間長となるダイジェスト映像を生成するダイジェスト映像生成部を備えることにより、選択した特徴的なカット映像に基づいてダイジェスト映像が編集されるため、短時間の映像において視聴者に対して印象に残り易く、かつ違和感のない映像に編集することができる。
また、予め準備された複数の属性グループにカット映像を分類してシーン映像を生成するシーン映像生成部を備えることにより、映像内容に基づいてカット映像を予め分類された属性グループに振り分け、一つのシーン映像を生成することができる。即ち、映像コンテンツを複数のシーン映像に分類し、編集するダイジェスト映像の目的に応じてシーン映像を選択することで、前後のシーン映像の繋がりが自然なものとなり、違和感のないダイジェスト映像に編集することができる。
また、シーン映像のそれぞれに任意のスコアを設定してシーン映像を評価するシーン映像評価部を備えることにより、複数の属性グループに分類されたシーン映像のうち、例えば視聴率、視聴者からの問い合わせ件数等をパラメータとして各シーン映像にスコアを付与することで、視聴者が印象に残るシーン映像を特定することができる。
また、シーン映像評価部で設定されたスコアに基づいて、シーン映像から任意のシーン映像を選択するシーン映像選択部を備えることにより、前記したシーン映像評価部の評価結果に基づいて、視聴者からの注目度が高いと思われるシーン映像を優先的に選択することで、視聴者にとって印象に残りやすい映像に編集することができる。
また、画像解析部は、映像コンテンツのフレーム画像間の色彩変化量を演算する色彩変化量演算部と、映像コンテンツに含まれる音声データを認識してテキストデータとして抽出するテキストデータ抽出部と、映像コンテンツに含まれる文字情報を抽出するOCR解析部とを有し、カット映像生成部は、色彩変化量、テキストデータ、及び文字情報の少なくとも1つ以上のパラメータを特徴量として、映像コンテンツを時間軸上で区切る分割点を設定する場合には、映像コンテンツの分割点を正確に判断し、カット映像を繋げて編集したダイジェスト映像について違和感のない映像に編集することができる。
例えば前後フレーム画像の色彩変化量が大きい場合には、映像シーンの切り替えがあったものと推定して、色彩変化量が大きく変わるポイントをカット映像の分割点と設定することができる。また、音声データを認識してテキスト化されたテキストデータに基づけば、その接続詞や文脈に基づいてカット映像の分割点を設定することができる。さらに映像コンテンツに表示されているフリップに表示された文字情報をOCR処理により抽出し、該文字情報が変化するポイントをカット映像の分割点と設定することができる。そして、これら色彩変化量、テキストデータ、及び文字情報の3つのパラメータに基づいて総合的にシーンの切り替えを判定することで、より正確にカット映像を抽出する分割点を設定することができる。
また、色彩変化量演算部は、映像コンテンツの時間的に前後する代表フレーム画像を複数の画像領域に分割し、代表フレーム画像の各画像領域内の画素のRGB変化量を演算するRGB変化量演算部と、代表フレーム画像を、色相環上の隣接する所定の色相領域における色相移動平均を演算する色相移動平均演算部とを有し、RGB変化量と色相移動平均とに基づいて色彩変化量を演算する場合には、色彩変化を、少なくともRGB変化量と色相移動平均の2つのパラメータに基づいて判定するため、分割点の誤検出を防止し、確実に分割点を検出することができ、違和感のない映像に編集することができる。
また、画像解析部は、テキストデータ抽出部で抽出したテキストデータを単語ごとに形態素解析する形態素解析部と、映像コンテンツに表示される任意の物体を検出する物体検出部とをさらに含み、シーン映像生成部は、形態素解析部による形態素解析に基づく文脈の共通性、OCR解析部によるOCR解析に基づく文字情報の共通性、及び物体検出部による物体検出に基づく物体の移動の有無の少なくとも1つに基づいて、カット映像を複数の属性グループの1つに分類する場合には、カット映像を、形態素解析に基づくテキストデータ、物体検出、及びOCR解析による文字情報の各要素に基づいて、予め分類されたシーン映像の属性に正確に分類することができる。
また、属性グループとして、映像コンテンツの冒頭部分の内容を示すオープニング区間をはじめとして、映像コンテンツの番組構成に応じた複数のコンテンツ区間が記憶されており、シーン映像生成部は、カット映像の内容に基づいて、カット映像を複数のコンテンツ区間の何れか1つに分類する場合には、カット映像を、映像コンテンツの番組構成に応じたコンテンツ区間に分類し、一群のシーン映像とすることができる。
また、シーン映像評価部は、映像コンテンツの各シーン映像における視聴者からの注目度を示す所定のパラメータ、及び映像コンテンツの予め決められた番組構成に対応する時間区分に応じた重み付けにより各シーン映像に対するスコアを設定する場合には、例えば視聴率、視聴者のリアクション等をパラメータとして各シーン映像にスコアを付与することで、複数のシーン映像のうち視聴者が注目するシーン映像を優先的に採用した映像に編集することができる。
また、画像解析部は、映像コンテンツの音量レベルを検出する音量レベル検出部と、映像コンテンツの出演者の表情を検出する表情検出部とをさらに含み、カット映像選択部は、音量レベル検出部により検出された映像コンテンツの音量が所定の閾値を超えるコンテンツ区間、表情検出部により検出された映像コンテンツの出演者の表情が特定状態となるコンテンツ区間、或いはテキストデータ抽出部により抽出されたテキストデータに基づいて映像コンテンツの出演者が特定用語を発したコンテンツ区間の中から任意のカット映像を選択する場合には、任意のシーン映像に分類された複数のカット映像から、視聴者に対して最も見栄えのよいカット映像を優先的に採用した映像に編集することができる。
前記の目的を達成するために、本発明の映像編集プログラムは、元素材となる映像コンテンツを所定の分割条件に基づいて分割してカット映像を生成するステップと、予め準備された複数の属性グループに前記カット映像を分類してシーン映像を生成するステップと、前記シーン映像のそれぞれに任意のスコアを設定して前記シーン映像を評価するステップと、前記スコアに基づいて、前記シーン映像から任意のシーン映像を選択するステップと、前記シーン映像に含まれる複数の前記カット映像から任意のカット映像を選択するステップと、該カット映像を選択するステップで選択したカット映像を繋ぎ合わせて、前記映像コンテンツよりも映像時間が短い時間長となるダイジェスト映像を生成するステップと、をコンピュータに実行させるためのものである。
ここで、元素材となる映像コンテンツを所定の分割条件に基づいて分割してカット映像を生成するステップを備えることにより、映像コンテンツを複数のカット映像に分割することができる。そして、分割されたカット映像から、任意のカット映像を繋ぎ合わせることで、元映像の全体をイメージしやすく、かつ違和感のない映像に編集することができる。
また、予め準備された複数の属性グループにカット映像を分類してシーン映像を生成するステップを備えることにより、映像内容に応じてカット映像を予め分類された属性グループに振り分け、一つのシーン映像を生成することができる。
また、シーン映像のそれぞれに任意のスコアを設定してシーン映像を評価するステップを備えることにより、複数の属性グループに分類されたシーン映像のうち、例えば視聴率、視聴者のリアクション等をパラメータとして各シーン映像にスコアを付与することで、視聴者から注目度の高いシーン映像を特定することができる。
また、シーン映像を評価するステップで設定したスコアに基づいて、シーン映像から任意のシーン映像を選択するステップを備えることにより、前記したシーン映像の評価結果に基づいて、視聴者から注目度の高いと思われるシーン映像を優先的に選択することで、視聴者に対して好印象な映像を採用することができる。
また、スコアに基づいて、シーン映像から任意のカット映像を選択するステップを備えることにより、シーン映像に含まれるカット映像のうち、例えば出演者の表情が良いカット映像、或いは出演者が発した印象に残る言葉が含まれるカット映像を優先的に選択することで、視聴者に対して好印象なカット映像を優先して採用し、視聴者に対して印象に残る映像に編集することができる。
また、カット映像を選択するステップで選択したカット映像を繋ぎ合わせて、映像コンテンツよりも映像時間が短い時間長となるダイジェスト映像を生成するステップを備えることにより、選択した特徴的なカット映像に基づいてダイジェスト映像が編集されるため、短時間の映像においても視聴者に対して印象に残り易く、かつ違和感のない映像に編集することができる。
また、カット映像を生成するステップは、映像コンテンツのフレーム画像間の色彩変化量を演算するステップと、映像コンテンツに含まれる音声データを認識してテキストデータとして抽出するステップと、映像コンテンツに含まれる文字情報を抽出するステップと、色彩変化量、テキストデータ、及び文字情報の少なくとも1つ以上のパラメータを特徴量として、映像コンテンツを時間軸上で区切る分割点を設定するステップと、を有する場合には、映像コンテンツの分割点を正確に判断し、カット映像を繋げて編集したダイジェスト映像について違和感のない映像に編集することができる。
また、色彩変化量を演算するステップは、映像コンテンツの時間的に前後する代表フレーム画像を複数の画像領域に分割し、代表フレーム画像の各画像領域内の画素のRGB成分変化量を演算するステップと、代表フレーム画像を、色相環上の隣接する所定の色相領域における色相移動平均を演算するステップと、RGB成分変化量と色相移動平均とに基づいて、色彩変化量を演算するステップと、を有する場合には、色彩変化を、少なくともRGB変化量と色相移動平均の2つのパラメータに基づいて判定するため、分割点の誤検出を防止し、確実に分割点を検出することができ、違和感のない映像に編集することができる。
また、シーン映像を生成するステップは、テキストデータを単語ごとの形態素解析に基づいて各カット映像の文脈の共通性を判定するステップと、映像コンテンツに表示される任意の物体を検出し、各カット映像内の物体の移動の有無を判定するステップと、映像コンテンツに含まれる文字情報をOCR解析に基づいて抽出し、各カット映像の文字情報の共通性を判定するステップと、文脈の共通性、物体の移動の有無、及び文字情報の共通性の少なくとも1つに基づいて、カット映像を複数の属性グループの1つに分類するステップとを有する場合には、カット映像を、形態素解析に基づくテキストデータ、物体検出、及びOCR解析による文字情報の各要素に基づいて、予め分類されたシーン映像の属性に正確に分類することができる。
また、カット映像を選択するステップは、映像コンテンツの音量レベルが所定の閾値以上であるか否かを判定するステップと、映像コンテンツの出演者の表情が特定状態であるか否かを判定するステップと、映像コンテンツの出演者が発した言葉が特定用語であるか否かを判定するステップと、音量レベルが所定の閾値以上となるコンテンツ区間、出演者の表情が特定状態となるコンテンツ区間、及び出演者が特定用語を発したコンテンツ区間の中から任意のカット映像を選択するステップと、を有する場合には、任意のシーン映像に分類された複数のカット映像から、視聴者に対して最も見栄えのよいカット映像を選択することができる。
本発明に係る映像編集装置、映像編集プログラム、及び映像編集方法は、視聴者が興味を示すシーンを集めたダイジェスト映像を効率的に生成することができる。
本発明の実施形態に係る映像編集装置の全体構成を示す図である。 画像解析部の全体構成を示す図である。 本発明の実施形態に係る映像編集方法のフロー図である。 色彩変化量演算部における処理フロー図である。 テキストデータ抽出部により抽出されたテキストデータの一例を示す図である。 カット映像生成部における処理フロー図である。 シーン映像生成部における処理フロー図である。 予め準備されたダイジェスト映像の枠組みの一例を示す図である。
以下、映像編集装置、映像編集プログラム、及び映像編集方法に関する本発明の実施の形態について、図面を参照しながら説明し、本発明の理解に供する。
まず、本発明の実施形態に係る映像編集装置1の全体構成について図1を用いて説明する。本発明の実施形態に係る映像編集装置1は、画像解析部10、カット映像生成部20、シーン映像生成部30、シーン映像評価部40、シーン映像選択部50、カット映像選択部60、ダイジェスト映像生成部70、及び記憶部80から主に構成されている。
1 画像解析部
画像解析部10は、図2に示す構成からなり、ダイジェスト映像の元素材となる長編からなる映像コンテンツを画像解析する機能を有している。画像解析部10は主に以下の構成を備えている。
[色彩変化量演算部]
色彩変化量演算部11は、映像コンテンツのうち所定に画像縮小した時間的に前後するフレーム画像の色彩変化量を演算し、色彩変化量が所定の値を超えるフレーム画像を映像の切り替わりを示す分割点として抽出する機能を有しており、RGB変化量演算部11aと色相移動平均演算部11bから構成されている。RGB変化量演算部11aは、複数の画素(画像領域)に分割された前後フレーム画像における同一箇所のピクセルのRGB値(0~255)を演算し、後フレームが、前フレームと比較して所定の閾値(例えば20%)以上に変化しているピクセルを特定し、該ピクセルを変化ピクセルとして1カウントのうえ、画面全体のRGB変化量のカウント数が所定以上となるフレーム画像を抽出する。
ここで、必ずしも、前後フレームの色彩変化量の閾値は20%に限定されるものではなく、該閾値については任意に選択することができる。また、必ずしも、縮小した画像を比較用のフレーム画像として採用する必要はない。但し、縮小した画像を比較用のフレーム画像として採用することで、フレーム画像中の極小さな色彩変化に対する感度を下げ、映像の切り替わりが過度に判定されることを防止することができる。
また、色相移動平均演算部11bは、360色の連続的な色相変化を示す周知の色相環に基づいて、映像コンテンツの前後フレーム画像の各色の含有量を求め、更に色相環における360色について隣接する16色の領域に区分し、該16色の移動平均を演算する。そして、演算した移動平均の各色について、前後フレームを比較して所定の変化量を示す色をカウントすることで画面全体の色相変化のカウント数を演算し、カウント数が閾値以上であるか否かの判定に基づいて映像の切り替わりの有無を判定する。
ここで、必ずしも、色相移動平均の演算において、色相環において隣接する16色に区分した領域の移動平均を演算する必要は無い。但し、前記した通り、映像の切り替わりが過度に判定されることを防止するという観点で、各色のスパイクや少量の色合い変化を緩和するためにも、色相環に基づく各色の含有量の演算のみならず、隣接する所定領域の色相の移動平均を演算することが好ましい。
色彩変化量演算部11で演算した色彩変化量に基づく映像の切り替わりの判定については、例えば図4に示すフローに従って判定される。まず、RGB変化量演算部11aで演算した前後フレーム画像のRGB変化量C1が第1の閾値T1(例えば24%)以上か否かが判定される(STEP11)。
STEP11においてRGB変化量C1が第1の閾値T1以上と判定されると、RGB変化量C1から所定時間におけるRGB変化量の平均値C2を差し引いた値が第2の閾値T2(例えば20%)以上か否かが判定される(STEP12)。そして、STEP12で「YES」の場合には、前後フレーム画像のRGB変化量C1が大きいと判定し、映像の切り替わりの判定フラグが立てられる(STEP13)。
さらに、色相移動平均演算部11bで演算した色相移動平均C3が第3の閾値T3を上回るか否かが判定される(STEP14)。そして、色移動平均C3が第3の閾値T3以上であると判定されると、色成分が大きく変化しているものと判断して、映像の切り替わりと判定する(STEP15)。なお、STEP11、STEP12、及びSTEP14において何れも「NO」と判定された場合には、色彩変化量は少なく映像の切り替わりがないものと判定し処理を終了する。
以上のように、色彩変化量に基づく映像の切り替わりについて、RGB変化量と色彩移動平均の双方に基づいて判定することにより、例えば映像コンテンツ中の画像の撮影手法としてカメラのズーム、パン、或いはチルトを組み合わせて撮像する場合、前後するフレーム画像のRGB変化量は一時的に大きく変化するが、色相移動平均に基づけば閾値を下回るような場合には映像の切り替わりとは判定しないため、過度な映像の切り替わりの判定を未然に防止することができる。
[テキストデータ抽出部]
テキストデータ抽出部12は、映像コンテンツの出演者の音声(スポーツ中継であれば実況者の音声)を認識する音声認識エンジン(図示しない)を備えており、映像コンテンツから出力される音声を文字起こし、即ち音声データをテキストデータに変換する機能を有している。文字起こしにより抽出されたテキストデータは、図5に示すように、映像コンテンツのカット映像と対応付けれられタイムコードとともに記憶部80に記憶される。テキストデータは、例えば後記する形態素解析部14における形態素解析に使用され、映像の切り替わりの判定が行われる。
[OCR解析部]
OCR解析部13は、映像コンテンツ中に表示される文字情報、例えば映像コンテンツの中で出演者が視聴者に対して説明をするために使用するフリップに表示されている文字情報をはじめとして、映像コンテンツ中に表示されるテロップとして表示される情報(スポーツ番組であれば選手情報や対戦スコアを含む字幕情報)など、画面に映し出される文字や数字情報の全般をOCR解析により認識し、テキストデータとして記憶部80に記憶する機能を有している。
[形態素解析部]
形態素解析部14は、テキストデータ抽出部12で抽出をした文字情報に対して形態素解析を行い、その解析結果を、記憶部80に記憶する。例えば、形態素解析部14は、文字情報を形態素単位に区切り、形態素毎に品詞や活用形、或いはそれぞれの文章の文脈を推定する。そして、形態素解析部14は、形態素毎に、形態素単位に区切った文字列と推定した品詞や活用形等の情報とを含んだ形態素解析結果を記憶部80に記憶する。
記憶部80には映像の切り替わりの際によく使用される「さて」「じゃあ」「さあ」「では」「それでは」「そして」等の単語、或いは映像シーンの切り替わりが行われる直前の文末によく使用される「そうなんです」「と思います」「ありがとうございます」等の単語がそれぞれ事前に登録されており、形態素解析部14による形態素解析の結果、文頭や文末にこれらの言葉が含まれている場合には、映像シーンの切り替わりがあった可能性が高いものと判定し、不自然なポイントで映像シーンの切り替わりの判定がされることを防止することができる。
[物体検出部]
物体検出部15は、映像コンテンツから取得されたフレーム画像に含まれる被写体のそれぞれに対して物体検出を行う。物体検出部15による物体検出は、予め用意された物体検出モデルが記憶部80に記憶されており、物体検出部15で検出した物体と記憶部80に記憶された物体検出モデルを対比し、検出した物体が特定される。そして、この物体検出モデルは、例えば画像学習装置(図示しない)により随時更新される。
物体検出部15は前記したOCR解析においても使用される。まず、物体検出部15は、OCR解析を行うべき対象物である映像コンテンツに表示される文字情報を機械学習に基づいていて検出する。例えば、映像コンテンツに表示されるフリップの認識には、一般的に使用されるフリップの形や大きさを事前にデータとして登録をしておき、これら事前に登録されたデータと映像に映し出されている物体の形状や大きさとが合致する場合にはフリップであると判定し、当該フリップに表示されている文字情報をOCR解析部13によりOCR解析することが可能となる。
その他、物体検出部15は、映像コンテンツに表示される他の物体(例えば、映像コンテンツがスポーツ中継である場合には、コンテンツ内で紹介される競技者)を検出し、予め登録がされている競技者情報と整合したうえで、映像コンテンツに映し出されている競技者の検出を行う。そして、検出した競技者が映像コンテンツに表示されている間は映像の切り替わりが無いものと判定し、一方で異なる他の競技者を検出した場合には映像の切り替わり、或いは映像シーンの切り替わりがあったものと判定することができる。
[音量レベル検出部]
音量レベル検出部16は、映像コンテンツから出力される音声を検出し、その音量レベルを認識する。この音量レベル検出部16で検出した音量レベルにより、例えば映像コンテンツの中で、音量レベルが所定の閾値を超える場面が特に注目場面であると判定することができる。なお、音量レベル検出部16は、テキストデータ抽出部12に組み込まれ、テキストデータ抽出部12の音声認識エンジンに基づいて音量レベルを検出するようにしてもよい。
[表情検出部]
表情検出部17は、映像コンテンツに出演する出演者であるヒトの顔面部分を検出し、その表情を検出する機能を有している。表情検出部17による表情の検出は、物体検出部15と同様に、予め用意されたヒトの表情モデルが複数登録をされており、顔の各パーツの動きを検出して、ヒトの感情を例えば喜、怒、哀、楽、驚き、恐怖、無表情に分類して、そのヒトの表情分析を行うことが可能となっている。これにより、視聴者に対して最も見栄えのよい表情のカット映像を抽出することができる。
2 カット映像生成部
カット映像生成部20は、前記した画像解析部10における解析結果に基づいて、元素材となる映像コンテンツの映像の切り替わりポイント(分割点)を特定し、特定した分割点に基づいて、映像コンテンツを複数のカット映像に分割する機能を有している。
カット映像の生成は、図6のフローに基づいて演算される。まず、色彩変化量演算部11において、抽出した前後フレーム画像の色彩変化量を演算し、色彩変化量が所定以上となる分割点を設定する(STEP21)。なお、色彩変化量演算部11における演算処理は前記した図3のフローに基づいて演算される。
色彩変化量が所定以上となる場合には、OCR解析部13によるOCR解析(STEP22)、物体検出部15による物体検出(STEP23)、及びテキストデータ抽出部12によりテキスト解析(STEP24)、に基づいてより詳細な分割点が設定されカット映像が生成される(STEP25)。即ち、色彩変化量演算部11により、凡その分割点が設定され、OCR解析、物体検出に基づく画像解析、さらにはテキスト解析により分割点の前後位置の調整が行われることで、切り替わりポイントとして中途半端な場面で分割点が設定されることを防止することができる。
なお、カット映像を生成するための分割点の設定は、色彩変化量に基づいて設定することもできるが、ダイジェスト映像に編集した場合の各カット画像の前後の繋がりが不自然とならないようにするためにも、OCR解析、物体検出に基づく画像解析、さらにはテキスト解析により分割点を設定することが好ましい。
3 シーン映像生成部
シーン映像生成部30は、画像解析部10による画像解析で元素材となる映像コンテンツのシーンチェンジの判定を行い、映像コンテンツを時間帯で区切られた複数の属性グループ(映像コンテンツの番組構成に応じた複数のコンテンツ区間)に分類し、分類した属性グループにカット映像生成部20で生成されたカット映像を割り振り、一群のシーン映像を生成する機能を有している。このシーン映像生成部30におけるシーン映像の生成は、図7に示すフローに基づいて処理される。
まず、OCR解析部13によるOCR解析により、映像コンテンツに映し出されているフリップ等に表示された文字情報を解析し、一群のコンテンツ区間のシーン映像としてまとめられるか否かが判定される(STEP31)。具体的には、時間経過とともにOCR解析により抽出した文字情報の変化の有無が判定され、文字情報が変化しない時間のカット映像を一群のシーン映像として所定のコンテンツ区間に分類される。
次に、物体検出部15により、映像コンテンツに映し出される画像中の物体(例えば出出演者、運動用具、建物等)を検出し、一群のコンテンツ区間のシーン映像としてまとめられるか否かが判定される(STEP32)。画像中の物体が一定期間変化しない場合には、その期間内のカット映像は一群のシーン画像として所定のコンテンツ区間に分類される。
さらに、テキストデータ抽出部12で文字起こしにより抽出されたテキストデータ、及び形態素解析部14における形態素解析に基づいて、文脈的に一群のシーン画像としてまとめられるか否かが判定される(STEP33)。
以上の処理に基づいて、カット映像生成部20で生成されたカット映像を、予め設定されたコンテンツ区間に分類されて一群のシーン映像が生成される(STEP34)。
なお、シーン映像の生成においては、OCR解析部13によるOCR解析、物体検出部15による物体検出、及びテキストデータ抽出部12により抽出されたテキストデータの3つの要素に基づいて判断する必要はなく、何れか一つ、或いは2つを組み合わせて生成するようにしてもよい。
4 シーン映像評価部
シーン映像評価部40は、シーン映像生成部30で生成された複数のコンテンツ区間からなる一群の属性グループ(シーン映像)のそれぞれに対してスコアを設定する機能を有している。このスコアの設定は、所定の条件の下において重み付けされたスコアが各シーン映像に対して付与される。
シーン映像評価部40によるスコア設定においては、まずは編集担当者により、編集するダイジェスト映像の枠組みが選択される。この枠組みは編集するダイジェスト映像の元素材となる映像コンテンツがスポーツ中継である場合には、図8に示すように、10分(ハイライト長め)、5分(ハイライト短め)、3分(得点シーン多め)、3分(得点シーンのみ)のように、編集するダイジェスト映像の時間に応じて、予め準備されたシーン映像のひな形から任意のものが選択される。
例えば、ダイジェスト映像の枠組みとして、「10分(ハイライト長め)」を選択した場合には、その番組構成として「オープニング」から始まり、「選手紹介」、「得点シーン1」、「観客席の様子」、「得点シーン2」、「ヒーローインタビュー」のように一連のコンテンツ区間が設定される。
そして、各シーン映像に対するスコア設定は、選択したシーン映像の枠組みにおいて任意に設定することができる。例えば、比較的時間の長い番組構成のひな形を選択した場合には、各シーン映像について万遍なくスコアが付与されるように重み付けが設定される。一方、比較的時間が短く、かつ得点シーンが多めの番組構成の枠組みを選択した場合には、得点シーンのシーン映像に対して高スコアとなるように重み付けが設定される。
その他、元素材である映像コンテンツの放送時における視聴率データやSNSを通じた視聴者からのリアクションが多かったシーン映像に対しては重み付けを大きくしてスコアを設定することができる。さらに、過去の視聴データに基づいて、映像コンテンツに応じてダイジェスト映像として採用されやすい時間帯のシーン映像(例えばスポーツ中継であれば、試合開始直後や試合終了時間に近い終盤の時間帯)については重み付けを大きくしてスコアを設定することができる。
5 シーン映像選択部
シーン映像選択部50は、前記したシーン映像評価部40による評価結果に基づいて、ダイジェスト映像として採用するシーン映像を選択する機能を有している。具体的には、編集するダイジェスト映像の枠組みに対して、シーン映像評価部40で設定したスコア値のうち、スコアの高いシーン映像を選択して記憶部80に記憶される。
6 カット映像選択部
カット映像選択部60は、シーン映像選択部50で選択したシーン映像に含まれるカット映像からダイジェスト映像に採用する任意のカット映像が選択される。このカット映像の選択は、前記したテキストデータ抽出部12、音量レベル検出部16、及び表情検出部17により抽出、或いは検出した結果に応じて任意に選択される。
例えば、テキストデータ抽出部12においては、出演者が発した言葉のうち予め登録されたポジティブな言葉(例「すごい」「美しい」「ゴール」「ホームラン」等)が使われているカット映像が優先的に選択される。また、音量レベル検出部16で検出した音量のうち、観客席の歓声や拍手により特に音量が高いカット映像が優先的に選択される。さらに、表情検出部17により、出演者の表情が良いカット映像が優先的に選択される。
このように、各シーン映像の中からテキストデータ、音量、及び表情等に基づいて最も映えるカット映像が選択されるため、短時間であっても視聴者に対して印象に残るダイジェスト映像に編集することが可能となる。
7 ダイジェスト映像生成部
ダイジェスト映像生成部70は、選択されたシーン映像から抽出されたカット映像を繋ぎ合わせて、目的に応じたダイジェスト映像を生成する機能を有している。特に前記したカット映像選択部60で、視聴者に対して印象に残るカット映像だけを繋ぎ合わせると、各シーン映像の繋がりが不自然となる場合がある。これを解消するために、ダイジェスト映像生成部70においては、例えば前後のカット映像について形態素解析により文脈の繋がりが不自然とならないようなカット映像を挿入することで、全体を通じて違和感のないダイジェスト映像に編集することが可能となる。
以上が映像編集装置1の主な構成である。次に映像編集装置1において実現される本発明の実施形態に係る映像編集方法について図2のフロー図に基づいて説明する。なお、映像編集装置1は同図に示す処理をプログラムに従って実行されるものである。
まず、カット映像生成部20により、元素材となる映像コンテンツを所定の分割条件に基づいて分割してカット映像が生成される(STEP1)。なお、カット映像の生成については前記した図4、及び図6のフローに従って生成される。
STEP1で生成されたカット映像は、シーン映像生成部30により、予め準備された複数の属性グループに分類して一群のシーン映像が生成される(STEP2)。なお、シーン映像の生成については前記した図7のフローに従って生成される。そして、生成された各シーン映像に対しては、シーン映像評価部40によりスコアが設定され(STEP3)、スコア値に基づいて任意のシーン映像が選択される(STEP4)。
次にカット映像選択部60により、シーン映像に含まれるカット映像の中から、映像として最も映えるカット映像が選択され(STEP5)、それらカット映像について、ダイジェスト映像生成部70により、不自然な映像とならないように適当なカット映像を挿入して繋ぎ合わせてダイジェスト映像が生成される(STEP6)。
以上が本発明の実施形態に係る映像編集装置、映像編集プログラム、及び映像編集方法であるが、本発明の技術範囲は上記した実施形態に限定されるものではなく、本発明の趣旨を逸脱をしない範囲で、前記した実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を構成できる。
例えば、前記した実施形態において、シーン映像生成部30、シーン映像評価部40、シーン映像選択部50、カット映像選択部60はそれぞれ独立した構成となっているが、シーン映像生成部30、シーン映像評価部40、シーン映像選択部50はそれぞれカット映像選択部60に含まれる構成としてもよく、その他実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。
以上、本発明に係る映像編集装置、映像編集プログラム、及び映像編集方法は、視聴者が興味を示すシーンを集めたダイジェスト映像を効率的に生成することができるものとなっている。
1 映像編集装置
10 画像解析部
11 色彩変化量演算部
11a RGB変化量演算部
11b 色相移動平均演算部
12 テキストデータ抽出部
13 OCR解析部
14 形態素解析部
15 物体検出部
16 音量レベル検出部
17 表情検出部
20 カット映像生成部
30 シーン映像生成部
40 シーン映像評価部
50 シーン映像選択部
60 カット映像選択部
70 ダイジェスト映像生成部
80 記憶部

Claims (14)

  1. 元素材となる映像コンテンツの画像解析を行う画像解析部と、
    前記映像コンテンツを、前記画像解析部における解析結果に基づいて所定の分割点で分割し、カット映像を生成するカット映像生成部と、
    前記画像解析部における解析結果に基づいて、前記カット映像の中から任意のカット映像を選択するカット映像選択部と、
    該カット映像選択部で選択した前記カット映像を繋ぎ合わせて、前記映像コンテンツよりも映像時間が短い時間長となるダイジェスト映像を生成するダイジェスト映像生成部と、を備える
    映像編集装置。
  2. 前記カット映像選択部は、
    予め準備された複数の属性グループに前記カット映像を分類してシーン映像を生成するシーン映像生成部と、
    前記シーン映像のそれぞれに任意のスコアを設定して前記シーン映像を評価するシーン映像評価部と、
    該シーン映像評価部で設定されたスコアに基づいて、前記シーン映像から任意のシーン映像を選択するシーン映像選択部とを有し、
    該シーン映像選択部で選択した前記シーン映像に含まれる複数の前記カット映像から、任意のカット映像を選択する
    請求項1に記載の映像編集装置。
  3. 前記画像解析部は、
    前記映像コンテンツのフレーム画像間の色彩変化量を演算する色彩変化量演算部と、前記映像コンテンツに含まれる音声データを認識してテキストデータとして抽出するテキストデータ抽出部と、前記映像コンテンツに含まれる文字情報を抽出するOCR解析部と、を有し、
    前記カット映像生成部は、
    前記色彩変化量、前記テキストデータ、及び前記文字情報の少なくとも1つ以上のパラメータを特徴量として、前記映像コンテンツを時間軸上で区切る分割点を設定する
    請求項1または請求項2に記載の映像編集装置。
  4. 前記色彩変化量演算部は、
    前記映像コンテンツの時間的に前後する代表フレーム画像を複数の画像領域に分割し、前記代表フレーム画像の各画像領域内の画素のRGB変化量を演算するRGB変化量演算部と、
    前記代表フレーム画像を、色相環上の隣接する所定の色相領域における色相移動平均を演算する色相移動平均演算部とを有し、
    前記RGB変化量と前記色相移動平均とに基づいて、前記色彩変化量を演算する
    請求項3に記載の映像編集装置。
  5. 前記画像解析部は、
    前記テキストデータ抽出部で抽出したテキストデータを単語ごとに形態素解析する形態素解析部と、前記映像コンテンツに表示される任意の物体を検出する物体検出部とをさらに含み、
    前記シーン映像生成部は、
    前記形態素解析部による形態素解析に基づく文脈の共通性、前記OCR解析部によるOCR解析に基づく文字情報の共通性、及び前記物体検出部による物体検出に基づく物体の移動の有無の少なくとも1つに基づいて、前記カット映像を前記複数の属性グループの1つに分類する
    請求項3に記載の映像編集装置。
  6. 前記属性グループとして、前記映像コンテンツの冒頭部分の内容を示すオープニング区間をはじめとして、前記映像コンテンツの番組構成に応じた複数のコンテンツ区間が記憶されており、
    前記シーン映像生成部は、前記カット映像の内容に基づいて、前記カット映像を前記複数のコンテンツ区間の何れか1つに分類する
    請求項2に記載の映像編集装置。
  7. 前記シーン映像評価部は、
    前記映像コンテンツの各シーン映像における視聴者からの注目度を示す所定のパラメータ、及び前記映像コンテンツの予め決められた番組構成に対応する時間区分に応じた重み付けにより各シーン映像に対するスコアを設定する
    請請求項2に記載の映像編集装置。
  8. 前記画像解析部は、
    前記映像コンテンツの音量レベルを検出する音量レベル検出部と、前記映像コンテンツの出演者の表情を検出する表情検出部とをさらに含み、
    前記カット映像選択部は、
    前記音量レベル検出部により検出された前記映像コンテンツの音量が所定の閾値を超えるコンテンツ区間、前記表情検出部により検出された前記映像コンテンツの出演者の表情が特定状態となるコンテンツ区間、或いは前記テキストデータ抽出部により抽出されたテキストデータに基づいて前記映像コンテンツの出演者が特定用語を発したコンテンツ区間の中から任意のカット映像を選択する
    請求項3に記載の映像編集装置。
  9. 元素材となる映像コンテンツを所定の分割条件に基づいて分割してカット映像を生成するステップと、
    予め準備された複数の属性グループに前記カット映像を分類してシーン映像を生成するステップと、
    前記シーン映像のそれぞれに任意のスコアを設定して前記シーン映像を評価するステップと、
    前記スコアに基づいて、前記シーン映像から任意のシーン映像を選択するステップと、
    前記シーン映像に含まれる複数の前記カット映像から任意のカット映像を選択するステップと、
    該カット映像を選択するステップで選択したカット映像を繋ぎ合わせて、前記映像コンテンツよりも映像時間が短い時間長となるダイジェスト映像を生成するステップと、をコンピュータに実行させるための
    映像編集プログラム。
  10. 前記カット映像を生成するステップは、
    前記映像コンテンツのフレーム画像間の色彩変化量を演算するステップと、
    前記映像コンテンツに含まれる音声データを認識してテキストデータとして抽出するステップと、
    前記映像コンテンツに含まれる文字情報を抽出するステップと、
    前記色彩変化量、前記テキストデータ、及び前記文字情報の少なくとも1つ以上のパラメータを特徴量として、前記映像コンテンツを時間軸上で区切る分割点を設定するステップと、を有する
    請求項9に記載の映像編集プログラム。
  11. 前記色彩変化量を演算するステップは、
    前記映像コンテンツの時間的に前後する代表フレーム画像を複数の画像領域に分割し、前記代表フレーム画像の各画像領域内の画素のRGB成分変化量を演算するステップと、
    前記代表フレーム画像を、色相環上の隣接する所定の色相領域における色相移動平均を演算するステップと、
    前記RGB成分変化量と前記色相移動平均とに基づいて、前記色彩変化量を演算するステップと、を有する
    請求項9または請求項10に記載の映像編集プログラム。
  12. 前記シーン映像を生成するステップは、
    前記テキストデータを単語ごとの形態素解析に基づいて各カット映像の文脈の共通性を判定するステップと、
    前記映像コンテンツに表示される任意の物体を検出し、各カット映像内の前記物体の移動の有無を判定するステップと、
    前記映像コンテンツに含まれる文字情報をOCR解析に基づいて抽出し、各カット映像の前記文字情報の共通性を判定するステップと、
    前記文脈の共通性、前記物体の移動の有無、及び前記文字情報の共通性の少なくとも1つに基づいて、前記カット映像を前記複数の属性グループの1つに分類するステップと、を有する
    請求項9または請求項10に記載の映像編集プログラム。
  13. 前記カット映像を選択するステップは、
    前記映像コンテンツの音量レベルが所定の閾値以上であるか否かを判定するステップと、前記映像コンテンツの出演者の表情が特定状態であるか否かを判定するステップと、
    前記映像コンテンツの出演者が発した言葉が特定用語であるか否かを判定するステップと、
    前記音量レベルが所定の閾値以上となるコンテンツ区間、前記出演者の表情が特定状態となるコンテンツ区間、及び前記出演者が特定用語を発したコンテンツ区間の中から任意のカット映像を選択するステップと、を有する
    請求項9または請求項10に記載の映像編集プログラム。
  14. 元素材となる映像コンテンツを所定の分割条件に基づいて分割してカット映像を生成する工程と、
    予め準備された複数の属性グループに前記カット映像を分類してシーン映像を生成する工程と、
    前記シーン映像のそれぞれに任意のスコアを設定して前記シーン映像を評価する工程と、
    前記スコアに基づいて、前記シーン映像から任意のシーン映像を選択する工程と、
    前記シーン映像に含まれる複数の前記カット映像から任意のカット映像を選択する工程と、
    該カット映像を選択するステップで選択したカット映像を繋ぎ合わせて、前記映像コンテンツよりも映像時間が短い時間長となるダイジェスト映像を生成する工程と、を備える
    映像編集方法。
JP2022127691A 2022-08-10 2022-08-10 映像編集装置、映像編集プログラム、及び映像編集方法 Pending JP2024024798A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022127691A JP2024024798A (ja) 2022-08-10 2022-08-10 映像編集装置、映像編集プログラム、及び映像編集方法
PCT/JP2023/027364 WO2024034401A1 (ja) 2022-08-10 2023-07-26 映像編集装置、映像編集プログラム、及び映像編集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022127691A JP2024024798A (ja) 2022-08-10 2022-08-10 映像編集装置、映像編集プログラム、及び映像編集方法

Publications (1)

Publication Number Publication Date
JP2024024798A true JP2024024798A (ja) 2024-02-26

Family

ID=89851542

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022127691A Pending JP2024024798A (ja) 2022-08-10 2022-08-10 映像編集装置、映像編集プログラム、及び映像編集方法

Country Status (2)

Country Link
JP (1) JP2024024798A (ja)
WO (1) WO2024034401A1 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002335473A (ja) * 2001-05-10 2002-11-22 Webstream:Kk 動画コンテンツの検索情報抽出システム、検索情報抽出方法、検索情報保存システム、動画コンテンツのストリーミング配信方法
JP5066172B2 (ja) * 2009-12-22 2012-11-07 ヤフー株式会社 動画表示装置、動画表示方法、プログラム及び端末装置
JP2016035607A (ja) * 2012-12-27 2016-03-17 パナソニック株式会社 ダイジェストを生成するための装置、方法、及びプログラム
JP6917788B2 (ja) * 2017-06-09 2021-08-11 日本放送協会 要約映像生成装置及びプログラム

Also Published As

Publication number Publication date
WO2024034401A1 (ja) 2024-02-15

Similar Documents

Publication Publication Date Title
CN106162223B (zh) 一种新闻视频切分方法和装置
US10643074B1 (en) Automated video ratings
US6964021B2 (en) Method and apparatus for skimming video data
US10304458B1 (en) Systems and methods for transcribing videos using speaker identification
CN108419141B (zh) 一种字幕位置调整的方法、装置、存储介质及电子设备
Truong et al. Scene extraction in motion pictures
US20130156321A1 (en) Video processing apparatus and method
JP2006287319A (ja) 番組ダイジェスト作成装置および番組ダイジェスト作成プログラム
KR100717402B1 (ko) 멀티미디어 데이터의 장르를 판단하는 장치 및 방법
JP6557592B2 (ja) 映像シーン分割装置及び映像シーン分割プログラム
JP2004520756A (ja) マルチメディアの手掛かりを利用したテレビ番組をセグメント化及びインデクス化する方法
CN110856039A (zh) 视频处理方法及装置、存储介质
CN104320670A (zh) 一种网络视频的摘要信息提取方法及系统
CN109408672A (zh) 一种文章生成方法、装置、服务器及存储介质
CN112995756A (zh) 短视频的生成方法及装置、短视频生成系统
KR100681017B1 (ko) 동영상의 요약 제공이 가능한 이동통신 단말기 및 이를 이용한 요약 제공 방법
Mizutani et al. Commercial detection in heterogeneous video streams using fused multi-modal and temporal features
US20110243447A1 (en) Method and apparatus for synthesizing speech
KR20060089922A (ko) 음성 인식을 이용한 데이터 추출 장치 및 방법
Carbonneau et al. Real-time visual play-break detection in sport events using a context descriptor
KR20070017068A (ko) 동영상의 주제별 분할장치 및 방법
CN114339451A (zh) 视频剪辑方法、装置、计算设备及存储介质
WO2024034401A1 (ja) 映像編集装置、映像編集プログラム、及び映像編集方法
KR102294817B1 (ko) 동영상 분석 장치 및 방법
CN115665508A (zh) 视频摘要生成的方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240401