JP2023122236A - セクション分割処理装置、方法およびプログラム - Google Patents

セクション分割処理装置、方法およびプログラム Download PDF

Info

Publication number
JP2023122236A
JP2023122236A JP2022025818A JP2022025818A JP2023122236A JP 2023122236 A JP2023122236 A JP 2023122236A JP 2022025818 A JP2022025818 A JP 2022025818A JP 2022025818 A JP2022025818 A JP 2022025818A JP 2023122236 A JP2023122236 A JP 2023122236A
Authority
JP
Japan
Prior art keywords
section
moving image
tag
audio data
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022025818A
Other languages
English (en)
Inventor
優佳 小林
Yuka Kobayashi
尚水 吉田
Takami Yoshida
憲治 岩田
Kenji Iwata
務嗣 久島
Tsuyoshi Kushima
功雄 三原
Isao Mihara
尚義 永江
Hisayoshi Nagae
奈夕子 渡辺
Nayuko Watanabe
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2022025818A priority Critical patent/JP2023122236A/ja
Priority to CN202211059350.6A priority patent/CN116680440A/zh
Publication of JP2023122236A publication Critical patent/JP2023122236A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】動画コンテンツまたは音声コンテンツを効率的に管理又は視聴することができるセクション分割処理装置、方法およびプログラムを提供することである。
【解決手段】実施形態のセクション分割処理装置は、情報取得部と、分割部と、セクションタグ候補取得部と、セクションタグ選択部と、セクションタグ付与部とを備える。情報取得部は、動画または音声データと、動画または音声データの分野と、動画または音声データのテキスト情報を取得する。分割部は、動画または音声データを1つ以上のセクションに分割する。セクションタグ候補取得部は、分野に応じたセクションタグ候補を取得する。セクションタグ選択部は、セクションごとに、テキスト情報に基づいてセクションタグ候補からセクションタグを選択する。セクションタグ付与部は、選択されたセクションタグをセクションに付与する。
【選択図】 図1

Description

本発明の実施形態は、セクション分割処理装置、方法およびプログラムに関する。
近年、オンライン教育やオンライン学会などが増加し、講演動画を見る機会や講演の音声データを聞く機会が増えている。このため、大量の動画コンテンツや音声コンテンツを管理するための技術や、大量のコンテンツを効率的に視聴するための技術が注目されている。
このような技術では、動画中の情報をもとに動画を1つ以上のセクションに分割し、分割した各セクションにセクション名を付与している。このような場合、各動画に対してばらばらなセクション名が付与されるため、動画間においてセクション名が統一されない。ユーザは、各動画の重要な箇所のみを視聴し、どのセクションを視聴するかを決めるために、セクション名をいちいち目視する必要がある。
特開2019-149083号公報
本発明が解決しようとする課題は、動画コンテンツまたは音声コンテンツを効率的に管理又は視聴することができるセクション分割処理装置、方法およびプログラムを提供することである。
このような課題を解決するため、実施形態のセクション分割処理装置は、情報取得部と、分割部と、セクションタグ候補取得部と、セクションタグ選択部と、セクションタグ付与部とを備える。情報取得部は、動画または音声データと、動画または音声データの分野と、動画または音声データのテキスト情報を取得する。分割部は、動画または音声データを1つ以上のセクションに分割する。セクションタグ候補取得部は、分野に応じたセクションタグ候補を取得する。セクションタグ選択部は、セクションごとに、テキスト情報に基づいてセクションタグ候補からセクションタグを選択する。セクションタグ付与部は、選択されたセクションタグをセクションに付与する。
第1の実施形態に係るセクション分割処理装置の構成の一例を示す図。 第1の実施形態に係るセクション分割処理装置による動画分割処理の処理手順を例示するフローチャート。 第1の実施形態に係るセクション分割処理装置により、テキスト情報を用いて「学会」分野の動画が分割された様子の一例を示す図。 第1の実施形態に係るセクション分割処理装置により、「学会」分野の動画が分割された各セクションに対して、セクションタグが付与された様子の一例を示す図。 第1の実施形態に係るセクション分割処理装置により、「教育」分野の動画が分割された各セクションに対して、セクションタグが付与された様子の一例を示す図。 第2の実施形態に係るセクション分割処理装置の構成の一例を示す図。 第2の実施形態に係るセクション分割処理装置による動画分割処理の処理手順を例示するフローチャート。 第2の実施形態に係るセクション分割処理装置により、「学会」分野の動画が分割された各セクションに対してセクション名が設定された様子の一例を示す図。 第2の実施形態に係るセクション分割処理装置により、「教育」分野の動画が分割された各セクションに対してセクション名が選択された様子の一例を示す図。 第2の実施形態の第1の変形例に係るセクション分割処理装置の構成の一例を示す図。 第2の実施形態の第1の変形例に係るセクション分割処理装置による動画分割処理の処理手順を例示するフローチャート。 第2の実施形態の第2の変形例に係るセクション分割処理装置の構成の一例を示す図。 第2の実施形態の第2の変形例に係るセクション分割処理装置による動画分割処理の処理手順を例示するフローチャート。 第2の実施形態の第3の変形例に係るセクション分割処理装置の構成の一例を示す図。 第2の実施形態の第3の変形例に係るセクション分割処理装置による動画分割処理の処理手順を例示するフローチャート。
以下、図面を参照しながら、セクション分割処理装置、方法およびプログラムの実施形態について詳細に説明する。以下の説明において、略同一の機能及び構成を有する構成要素については、同一符号を付し、重複説明は必要な場合にのみ行う。
(第1の実施形態)
図1は、第1の実施形態に係るセクション分割処理装置100の構成を示す図である。セクション分割処理装置100は、ユーザが視聴したい複数の動画を取得し、動画から取得できるテキスト情報の内容に応じて動画を複数のセクションに分割し、動画を部分的に視聴できるようにする。また、セクション分割処理装置100は、各セクションに、分野ごとに統一された共通のセクションタグを付与する。複数の動画に対して統一されたセクションタグが付与されることで、大量の動画の管理を簡単に行えるようになる。
なお、セクション分割処理装置100は、動画ファイル形式のデータの管理だけでなく、音声ファイル形式のデータの管理にも適用することができる。また、セクション分割処理装置100は、動画ファイル形式のデータと音声ファイル形式のデータが混在した複数のデータの管理にも適用することができる。本実施形態では、一例として、動画形式のデータの管理を行うものとして説明するが、上記説明及び以下の説明において、「動画」、「動画コンテンツ」、「動画データ」等の用語は、「音声」、「音声コンテンツ」、「音声データ」という用語に置き換えることができる。
セクション分割処理装置100は、例えば、ユーザが使用するPC端末などの端末装置や、端末装置にネットワークを介して接続されたクラウドサーバに、動画管理用のアプリケーションとして搭載される。端末装置は、例えば、セクション分割処理装置100との通信を行う通信インタフェース及び通信機能、動画の入力を行う入力インタフェース及び入力機能、動画の管理画面や動画の再生画面を表示するディスプレイ及び表示制御機能、管理する複数の動画の中から特定の動画を検索する動画検索機能等を備える。ネットワークは、例えば、LAN(Local Area Network)である。なお、ネットワークへの接続は、有線接続、及び無線接続を問わない。また、ネットワークはLANに限定されず、インターネットや公衆の通信回線等であっても構わない。
動画は、例えば、e-learning、大学の講義、学会発表等の講演の音声及び画像が記録されたデータである。動画は、オンライン授業やオンライン学会などの講演を録画したものでもよい。また、動画は、動画共有サイトに投稿された動画をダウンロードしたものでもよい。動画の分野としては、例えば、「教育」や、「学会」などの、講演が行われやすい分野の動画を用いることができるが、これに限るものではない。また、動画は、講演等の音声のみを含み、画像を含まないデータであってもよい。また、動画は、講演内容を表す文字を表示した画像のみを含み、音声を含まないデータであってもよい。
セクション分割処理装置100は、セクション分割処理装置100全体を制御する処理回路と、記憶媒体(メモリ)と、を備える。処理回路は、記憶媒体内のプログラムを呼び出し実行することにより、動画情報取得部101、動画分割部102、セクションタグ候補取得部103、セクションタグ選択部104およびセクションタグ付与部105の機能を実行するプロセッサである。処理回路は、CPU(Central Processing Unit)、ASIC(Application Specific Integrated Circuit)又はFPGA(Field Programmable Gate Array)等を含む集積回路から形成される。プロセッサは、1つの集積回路から形成されてもよく、複数の集積回路から形成されてもよい。
記憶媒体には、プロセッサで用いられる処理プログラム、及び、プロセッサでの演算で用いられるパラメータ及びテーブル等が記憶される。記憶媒体は、種々の情報を記憶するHDD(Hard Disk Drive)やSSD(Solid State Drive)、集積回路等の記憶装置である。また、記憶装置は、HDDやSSD等以外にも、CD(Compact Disc)、DVD(Digital Versatile Disc)、フラッシュメモリ等の可搬性記憶媒体であってもよく、フラッシュメモリ、RAM(Random Access Memory)等の半導体メモリ素子等との間で種々の情報を読み書きする駆動装置であってもよい。また、記憶媒体には、複数の動画や、後述のセクションタグ候補や、処理回路による処理に用いられるデータや閾値等が記憶される。記憶媒体は、記憶部の一例である。
なお、動画情報取得部101、動画分割部102、セクションタグ候補取得部103、セクションタグ選択部104およびセクションタグ付与部105が有する各機能は、単一の処理回路にて実現されてもよく、複数の独立したプロセッサを組み合わせて処理回路を構成し、各プロセッサがプログラムを実行することにより各機能を実現するものとしても構わない。また、動画情報取得部101、動画分割部102、セクションタグ候補取得部103、セクションタグ選択部104およびセクションタグ付与部105が有する各機能は、個別のハードウェア回路として実装してもよい。また、処理回路が有する機能の全部または一部は、クラウド上で処理を実行するクラウドサーバに搭載されてもよい。
動画情報取得部101は、動画と、動画の分野に関する情報(以下、分野情報と呼ぶ)と、動画のテキスト情報を取得する。テキスト情報は、動画の内容を表す文字データである。動画や分野情報は、例えば、ユーザにより、端末装置の入力インタフェースを介して入力される。動画情報取得部101は、音声認識処理を用いて動画内の音声を文字データに変換し、変換した文字データをテキスト情報として取得する。音声は、例えば、講演会の講演者の音声であってもよく、教育動画の出演者の音声であってもよく、教育動画の機械音声であってもよい。あるいは、動画情報取得部101は、動画中の画像に対してOCR(Optical Character Recognition:光学文字認識)処理を実行することにより、動画内で表示された内容を文字データに変換し、変換した文字データをテキスト情報として取得してもよい。
また、動画情報取得部101は、テキスト情報に含まれる各文字データについて、音声が発声された発声時刻や、画像表示が開始した開始時刻や、画像表示が終了した終了時刻を検出してもよい。この場合、動画情報取得部101は、検出した時刻を各文字データに関連付けて保存する。上述の「時刻」は、動画が開始した時点を「0」とする動画内の経過時刻を示す。動画情報取得部101は、情報取得部の一例である。
また、動画情報取得部101は、動画に表示された画像から取得した文字データについて、画像中の表示座標(表示位置)を検出してもよい。この場合、動画情報取得部101は、検出した表示座標を対応する文字データに関連付けて保存する。
動画分割部102は、動画を1つ以上のセクションに分割する。例えば、動画分割部102は、テキスト情報に基づいて、複数の動画のそれぞれを1つ以上のセクションに分割する。典型的には、動画分割部102は、各動画を複数のセクションに分割する。動画の分割処理を実行した結果、動画が1つのセクションに分割されてもよい。以下、動画を分割する方法の一例について説明するが、公知の他の分割手法を使用してもよい。また、以下の説明では、1つの動画を複数のセクションに分割する場合を例に説明する。動画分割部102は、分割部の一例である。
テキスト情報を用いて動画を分割する方法としては、例えば、話者が明示的にセクションを区切りたい場合に用いる特定の言い回しを利用して、動画を分割する方法が挙げられる。教育動画や講演動画では、話者が明示的にセクションを区切りたい場合に特定の言い回しが用いられることがある。特定の言い回しとしては、例えば、「本セッションは以上です。」や「では、次に○○について説明します。」などがある。以下、このような特定の言い回しを、セクション区切り用語と呼ぶこととする。セクション区切り用語は、例えば、記憶媒体に記憶されている。
この方法では、動画分割部102は、テキスト情報からセクション区切り用語を検出し、セクション区切り用語が検出された部分を境界として、複数の動画のそれぞれを複数のセクションに分割する。具体的には、動画分割部102は、まず、記憶媒体に記憶された複数のセクション区切り用語を読み出し、テキスト情報中の各文について、読み出した各セクション区切り用語との類似度を算出する。類似度の算出方法としては、例えば、編集距離を用いる方法が挙げられる。次に、動画分割部102は、セクション区切り用語との類似度が一定の値以上である文を、セクションの区切りとなる文として検出する。そして、動画分割部102は、セクションの区切りとなる文の前後でセクションを分割する。セクション区切り用語には、セクションの最後に用いられる用語と、セクションの最初に用いられる用語がある。このため、セクション区切り用語ごとに、セクション区切り用語が検出された文の前後のどちらでセクション分割を行うかが予め設定される。例えば、「本セッションは以上です。」というセクションの区切り語句との類似度が所定の値以上となる文が検出された場合、動画分割部102は、検出された文の直後でセクションを区切る。この場合、検出された文とその直後の文は異なるセクションに含まれる。また、例えば、「では、次に○○について説明します。」というセクションの区切り語句との類似度が所定の値以上となる文が検出された場合、動画分割部102は、検出された文の直前でセクションを区切る。この場合、検出された文とその直前の文は異なるセクションに含まれる。
次に、テキスト情報を用いて動画を分割する方法の一例として、テキスト情報に含まれる内容語を利用して動画を分割する方法について説明する。内容語とは、助詞、助動詞、代名詞、感嘆詞などを除いた語句である。内容語は、文の内容を表す。この方法では、動画分割部102は、テキスト情報に含まれるテキストを複数の文に分割し、複数の文のそれぞれから動画の内容に関する内容語を検出し、内容語を用いて複数の文を比較し、内容語が変化した部分を境界として、各動画を複数のセクションに分割する。
具体的には、動画分割部102は、まず、テキスト情報を1文ごとに分割する。テキスト情報を文ごとに分割する方法としては、例えば、句点などの文末を表す記号を使用する方法が挙げられる。この方法は、音声認識により取得されたテキスト情報と、OCR処理により取得されたテキスト情報の両方に対して適用できる。
テキスト情報を文ごとに分割する他の方法としては、例えば、音声認識により取得されたテキスト情報に対して各文字データの発声時刻を参照し、動画の全体の中で何も発声されていない期間を無音区間として検出し、無音区間一定時間以上続いた箇所でテキスト情報を区切ることにより、テキスト情報を複数の文に分割する方法が挙げられる。この方法は、音声認識により取得されたテキスト情報に対して適用できる。
また、テキスト情報を文ごとに分割する他の方法としては、例えば、OCR処理により取得されたテキスト情報に対して各文字データの表示座標を参照し、表示座標が一定以上変化した箇所でテキスト情報を区切ることにより、テキスト情報を複数の文に分割する方法が挙げられる。この方法は、OCR処理により取得されたテキスト情報に対して適用できる。
テキスト情報を文ごとに分割した後、動画分割部102は、分割された各文から内容語を検出する。文から内容語を検出する方法としては、公知の種々の手法を採用することができる。文から内容語を検出する方法としては、例えば、形態素解析を用いる方法が挙げられる。この方法では、動画分割部102は、分割された各文に対して形態素解析を実行することにより各文を単語に分割し、分割された単語の中から内容語を抽出する。
内容語を抽出する方法としては、例えば、あらかじめ記憶された内容語以外の単語(ストップワード)を参照し、分割された単語の中からストップワードを除外したものを内容語として抽出する方法が挙げられる。
内容語を抽出する他の方法としては、例えば、IDF(Inverse Document Frequency:逆文書頻度)を使用する方法が挙げられる。この方法では、動画分割部102は、まず、事前に記憶された複数の外部文書を参照し、分割された各単語について外部文書に含まれる数Ndを算出し、下記の式(1)を使用して各単語のIDFを算出する。式(1)において、「N」は用意された外部文書の文書数を表す。IDFは、単語が汎用的に用いられる単語であるほど小さくなり、文の特徴を示す単語であるほど大きくなる値である。そして、動画分割部102は、各単語のIDFを所定の閾値と比較し、閾値よりIDFが大きい単語を内容語として抽出する。
IDF = log (N / Nd) (1)
内容語を抽出した後、動画分割部102は、各文について、抽出された内容語を含む内容語リストを生成する。その後、動画分割部102は、テキスト情報に含まれる連続する2文について内容語リストの類似度を算出し、算出した類似度が閾値よりも低い場合、比較した2文の間でセクションを分割する。例えば、テキスト情報に含まれる1つ目の文から順に、直後の文との内容語リストの比較が行われる。内容語リストの類似度を算出する方法としては、例えば、内容語リストの中で一致する内容語の数や、内容語リストに含まれる内容語の編集距離を用いて算出される。または、あらかじめ用意された単語分散表現モデルを用いて内容語リストの類似度を算出してもよい。
なお、類似度の比較の結果としてセクション分割が行われなかった場合に文の内容語リストをストックしておき、ストックされた内容語リストと次の文の内容語リストを比較してもよい。この場合、例えば、テキスト情報に含まれる1つ目の文(以下、第1文と呼ぶ)の内容語リスト(以下、第1内容語リストと呼ぶ)と2つ目の文(以下、第2文と呼ぶ)の内容語リスト(以下、第2内容語リストと呼ぶ)の類似度が閾値より高い場合、動画分割部102は、第1文と第2文が同じセクションになると判断し、第1文と第2文との間ではセクションを分割しない。そして、第2内容語リストと3つ目の文(以下、第3文と呼ぶ)の内容語リスト(以下、第3内容語リストと呼ぶ)の類似度を算出する際には、第2文の内容語に加えて第1文の内容語を含む内容語リストと、第3内容語リストとの類似度を算出し、第2文と第3文の間でセクションを分割するか否かを判断する。この際、同じセクションの第1文と第2文の両方の内容語を含む内容語リストを比較に用いることにより、セクション分割の精度を向上させることができる。
次に、テキスト情報に加えて、動画中の音声や画像の特徴量を使用して動画を分割する方法の一例について説明する。この方法では、動画分割部102は、動画の音声情報または画像の特徴量を取得し、音声情報または画像の特徴量と、テキスト情報とに基づいて、動画を複数のセクションに分割する。動画中の音声を用いる場合、例えば、特定の音楽が流れたタイミングや、一定期間の無音の時間があるタイミングでセクションを分割する。動画中の画像の特徴量を用いる場合、例えば、スライド表示の静止画から動画に切り替わったタイミングや、話者が切り替わったタイミングや、動画中の文字や画像の色が変化したタイミングでセクションを分割する。
セクションタグ候補取得部103は、動画の分野に応じたセクションタグ候補を取得する。セクションタグ候補に含まれるセクションタグは、各分野における典型的な動画の流れに従って予め決定され、分野ごとに記憶媒体に記憶されている。例えば、セクションタグ候補に含まれるセクションタグは、動画全体における各セクションの役割や機能に応じて、予め設定される。動画の分野は、例えば、「学会」、「教育」等である。学会分野のセクションタグ候補としては、例えば、「研究背景」、「提案手法」、「実験」、「まとめ」等が用いられる。また、教育分野のセクションタグ候補としては、例えば、「振り返り」、「概要」、「詳細説明」、「具体例」、「まとめ」等が用いられる。セクションタグ候補に含まれるセクションタグの数は1つ以上であればよく、例えば6つ以上であってもよい。
セクションタグ選択部104は、分割されたセクションごとに、当該セクションのテキスト情報に基づいて、動画の分野に応じて取得されたセクションタグ候補の中から適切なセクションタグを選択する。
セクションタグ候補からセクションタグを選択する方法としては、例えば、テキスト情報から抽出された内容語を用いる方法が挙げられる。この方法では、各分野で想定される内容語とセクションタグ候補との関連度を示すテーブルが、記憶媒体に予め記憶される。セクションタグ選択部104は、まず、テキスト情報を用いて各セクションの内容語を検出し、セクションごとに内容語リストを生成する。内容語の検出方法は、前述した方法のいずれかを用いればよい。また、動画分割部102の処理において各文の内容語を検出していた場合、その内容語を利用してもよい。セクションタグ選択部104は、内容語リストと上述のテーブルとを用いて、内容語リストに含まれる内容語とセクションタグ候補に含まれるセクションタグとの関連度を取得し、セクションタグ候補に含まれる各セクションタグに対する関連度を算出する。この際、セクションタグ選択部104は、セクションタグ候補に含まれる各セクションタグについて、内容語リストに含まれる各内容語との関連度を取得し、取得した複数の関連度の平均値や最大値を当該セクションの関連度として算出する。セクションタグ選択部104は、セクションタグ候補の中で関連度が最も高いセクションタグを、当該セクションのセクションタグとして選択する。
なお、動画情報取得部101によりテキスト情報を取得する処理は、機械学習モデルを使用して実行してもよい。この場合、機械学習モデルは、例えば、動画の入力を受け付けて、動画のテキスト情報を出力する。機械学習モデルとしては、例えば、ディープニューラルネットワーク等が用いられる。また、動画分割部102による動画を複数のセクションに分割する処理は、機械学習モデルを使用して実行してもよい。この場合、機械学習モデルは、例えば、動画と当該動画から取得されたテキスト情報との入力を受け付けて、セクションの分割結果を出力する。また、セクションタグ選択部104による適切なセクションタグを選択する処理は、機械学習モデルを使用して実行してもよい。この場合、機械学習モデルは、例えば、動画と当該動画から取得されたテキスト情報と、当該動画におけるセクション分割結果の入力を受け付けて、各セクションにおける適切なセクションタグを出力する。
セクションタグ付与部105は、セクションタグ選択部104の処理により選択されたセクションタグを各セクションに付与する。セクションタグ付与部105は、選択されたセクションタグが各セクションに付与された動画を記憶媒体に記憶する。記憶媒体には、セクションタグ付与部105等によりセクションタグが各セクションに付与された複数の動画が記憶される。
次に、セクション分割処理装置100により実行される処理の動作について説明する。図2は、動画分割処理の手順の一例を示すフローチャートである。動画分割処理は、入力された動画を複数のセクションに分割し、分割された各セクションに分野ごとに設定された共通のセクションタグを付与する処理である。動画分割処理は、セクション分割処理装置100に新たな動画が入力された際に、自動的に実行される。なお、以下で説明する各処理における処理手順は一例に過ぎず、各処理は可能な限り適宜変更可能である。また、以下で説明する処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。
(動画分割処理)
(ステップS201)
セクション分割処理装置100に新たな動画が入力されると、動画情報取得部101は、入力された動画と、その動画の分野情報を取得する。分野情報は、例えば、ユーザにより手動で入力される。また、動画情報取得部101は、取得した動画に対して音声認識処理やOCR処理を実行することにより、動画のテキスト情報を取得する。
(ステップS202)
次に、動画分割部102は、ステップS201の処理で取得したテキスト情報を用いて、動画を複数のセクションに分割する。この際、例えば、動画分割部102は、前述の手法のいずれかを用いて動画を複数のセクションに分割する。
図3は、テキスト情報を用いて「学会」分野の動画が分割された様子の一例を示す図である。図3は、テキスト情報内の句点を用いて、テキスト情報に含まれるテキストを6つの文A1-A6に分割し、文A1-A6から生成した内容語リストB1-B6を用いて動画を4つのセクションC1-C4に分割した様子を示している。内容語リストB1-B6に含まれる太字の内容語は、前後の文と共通する内容語を示している。共通する内容語が多い文ほど、同じセクションに分割されやすくなる。
(ステップS203)
次に、セクションタグ候補取得部103は、記憶媒体から、動画の分野に対応するセクションタグ候補を取得する。動画の分野が「学会」である場合、例えば、「研究背景」、「提案手法」、「実験」、及び「まとめ」のセクションタグを含むセクションタグ候補が取得される。また、動画の分野が「教育」である場合、例えば、セクションタグ候補として「振り返り」、「概要」、「詳細説明」、「具体例」及び「まとめ」のセクションタグを含むセクションタグ候補が取得される。
(ステップS204)
セクションタグ選択部104は、各セクションに対して、ステップS203の処理で取得したセクションタグ候補の中から適切なセクションタグを選択する。
(ステップS205)
セクションタグ付与部105は、ステップS204の処理により選択されたセクションタグを、対応するセクションに付与する。
図4は、「学会」分野の動画が分割された各セクションD1-D4に対して、セクションタグが付与された様子の一例を示す図である。図4は、各セクションD1-D4に対して、セクションタグ候補として取得された「研究背景」、「提案手法」、「実験」、及び「まとめ」の中の1つが選択された様子を示している。
また、図5は、「教育」分野の動画が分割された各セクションF1-F7に対して、セクションタグが選択された様子の一例を示す図である。図5は、各セクションF1-F7に対して、セクションタグ候補として取得された「振り返り」、「概要」、「詳細説明」、「具体例」及び「まとめ」の中の1つが選択された様子を示している。図5に示すように、同じセクションタグがふられたセクションが複数あってもよい。
各セクションにセクションタグが付与されると、動画分割処理は終了する。入力された各動画に対して上述の動画分割処理が実行されることにより、分野ごとに統一されたセクションタグが管理される複数の動画に付与される。なお、上記実施形態では、1つの動画に対してステップS201-ステップS205の処理が実行される場合について説明したが、入力された複数の動画に対してステップS201-ステップS205の各処理を実行し、複数の動画に対する動画分割処理をまとめて実行してもよい。
以下、本実施形態に係るセクション分割処理装置100の効果について説明する。
本実施形態に係るセクション分割処理装置100は、動画または音声データと、動画または音声データの分野と、動画または音声データのテキスト情報を取得し、動画または音声データを1つ以上のセクションに分割し、分野に応じたセクションタグ候補を取得し、分割されたセクションごとに、テキスト情報に基づいてセクションタグ候補からセクションタグを選択し、選択されたセクションタグをセクションに付与することができる。
近年、オンライン教育やオンライン学会などが増加し、講演動画を見る機会が増えている。このため、複数の長時間の動画をポイントだけ視聴し、効率的に複数の動画を視聴したいというニーズが高まっている。しかし、付与されるセクション名が動画間で統一されておらず、各動画にばらばらなセクション名が付与されていたため動画間でのセクションの対応付けができず、ユーザは、セクション名を確認してどのセクションを視聴するかを決める必要があった。本実施形態に係るセクション分割処理装置100によれば、管理したい複数の動画のそれぞれを複数のセクションに分割し、分野ごとに用意されたセクションタグ候補からセクションタグを選択してセクションに付与することができる。このため、ユーザは、管理画面においてセクションタグをいちいち目視で確認することなく、各動画における特定のセクションタグが付与されたセクションを選択することにより、複数の動画中の見たい部分だけを効率的に視聴することができる。すなわち、ユーザが管理したい複数の動画に対して統一されたセクションタグを付与することで、ユーザが視聴したい動画を探しやすくする。
例えば、学会分野の動画では、一般的に、「研究背景」では分野共通の話題が話され、「提案手法」においてその動画の要点が話される。ユーザは、学会分野の各動画から、「提案手法」のセクションタグが付与されたセクションのみを選択することにより、各動画の重要な部分だけを効率的に視聴することができる。同様に、例えば、教育分野の動画についても、動画の要点が話される「概要」のセクションタグが付与されたセクションのみを選択することにより、各動画の重要な部分だけを効率的に視聴することができる。
また、小中高大学や企業での教育などの教育現場では、動画を視聴するスタイルの教育方法が広がりつつある。こうした教育スタイルでは、本実施形態に係るセクション分割処理装置100を用いることにより、ユーザは、任意に動画を選択したり、動画の必要な部分だけを視聴したり、早送りして視聴したりできる。したがって、本実施形態に係るセクション分割処理装置100によれば、自由な視聴スタイルを支援し、効率的な動画の視聴が可能になる。また、学会、講演会などでも動画視聴による聴講スタイルが一般化してきており、本実施形態に係るセクション分割処理装置100はこれらの分野にも適用可能である。
また、本実施形態に係るセクション分割処理装置100は、動画または音声データの音声情報、または動画の画像の特徴量を取得し、音声情報または特徴量と、テキスト情報とに基づいて、動画または音声データを1つ以上のセクションに分割することができる。音声情報を用いる場合、セクション分割処理装置100は、例えば、特定の音楽が流れたタイミングや、一定期間の無音の時間があるタイミングでセクションを分割することができる。動画の音声情報を用いることにより、講義動画のように画像の変化が小さい動画に対しても、精度よくセクション分割が行うことができる。また、画像の特徴量を用いる場合、セクション分割処理装置100は、例えば、スライド表示の静止画から動画に切り替わったタイミングや、話者が切り替わったタイミングや、動画中の文字や画像の色が変化したタイミングでセクションを分割することができる。この構成により、精度よくセクションの分割を行うことができる。
また、本実施形態に係るセクション分割処理装置100は、テキスト情報からセクション区切り用語を検出し、セクション区切り用語が検出された部分を境界として、動画または音声データを1つ以上のセクションに分割することができる。セクション区切り用語は、教育動画や講演動画において話者が明示的にセクションを区切りたい場合に用いる特定の言い回しであり、例えば、「本セッションは以上です。」や「では、次に○○について説明します。」などである。この構成により、精度よくセクションの分割を行うことができる。
また、本実施形態に係るセクション分割処理装置100は、テキスト情報を複数の文に分割し、複数の文のそれぞれから動画または音声データの内容に関する内容語を検出し、内容語を用いて複数の文を比較し、内容語が変化した部分を境界として動画または音声データを1つ以上のセクションに分割することができる。内容語は、文から助詞、助動詞、代名詞、感嘆詞などを除いた語句であり、文の内容を表す。内容語を用いることにより、精度よくセクションの分割を行うことができる。
また、本実施形態に係るセクション分割処理装置100は、内容語に基づいて、セクションタグ候補からセクションタグを選択することができる。内容語を用いることにより、セクションの内容に合った適切なセクションタグを選択することができる。
なお、セクションタグ選択部104は、セクションタグ候補の中に適切なセクションタグが無いセクションに対して、当該セクションのテキスト情報に基づいてセクションタグを生成してもよい。例えば、テキスト情報から抽出された内容語を用いてセクションタグ候補から適切なセクションタグを選択する際に、そのセクションから検出された内容語の中に、セクションタグ候補に含まれるセクションタグとの関連度が所定の値よりも大きい内容語が存在しない場合、セクションタグ選択部104は、適切なセクションタグがないと判断し、セクションタグ候補からセクションタグを選択する代わりに、テキスト情報から新規のセクションタグを生成する。セクションタグの生成方法は、上述のセクション名の生成手法と同様の手法を用いることができる。また、新規のセクションタグを生成する代わりに、適切なセクションタグが見つからないセクションに対する適切なセクションタグをユーザが入力してもよい。
(第2の実施形態)
第2の実施形態について説明する。本実施形態は、第1の実施形態の構成を以下の通りに変形したものである。第1の実施形態と同様の構成、動作、及び効果については、説明を省略する。本実施形態のセクション分割処理装置100は、分割した各セクションにセクションタグを付与した後、各セクションにタイトルと検索用のキーワードを設定する。
図6は、本実施形態に係るセクション分割処理装置100の構成を示す図である。セクション分割処理装置100の処理回路は、セクション名生成部106と、キーワード検出部107と、検索ワード設定部108とをさらに備える。
セクション名生成部106は、セクションごとに、テキスト情報に基づいて、セクション名を生成する。セクション名は、セクションのタイトルとして用いられる。セクション名を生成する方法としては、例えば、テキスト情報から抽出された内容語を用いる方法が挙げられる。この方法では、セクション名生成部106は、まず、テキスト情報を用いて内容語を検出し、各セクションにおいて登場する頻度が最も高い内容語をセクション名として設定する。この際、各内容語のIDFを算出し、IDFが最も高い内容語をセクション名としてもよい。IDFを用いることにより、非一般的で登場する頻度が高い単語をセクション名として設定することができる。または、「○○について」などのテンプレートをあらかじめ用意しておき、各セクションの内容語のうち、登場する頻度が高い複数の内容語を上記テンプレートに組み合わせて、「高速で高精度なグラフニューラルネットワークについて」といったセクション名を生成することもできる。この例では、「高速」、「高精度」、「グラフニューラルネットワーク」が、登場頻度の高い内容語である。また、「では、今から○○について説明します」などの特定の言い回しを各セクションのテキスト情報から検出し、検出された用語の中の○○の部分をセクション名としてもよい。この場合、特定の言い回しと完全に一致していなくても、編集距離などを用いて特定の言い回しに対する類似度を算出し、類似度が高い部分をセクション名の決定に用いてもよい。また、各セクションのテキスト情報や内容語リストの入力を受け付けて自然文で構成されたセクション名を出力するように訓練された機械学習モデルを使用して、セクション名を生成してもよい。
キーワード検出部107は、セクションごとに、テキスト情報からキーワードを検出する。キーワードとは、セクションの内容を示す特徴的な単語である。キーワードの検出方法としては、例えば、テキスト情報から検出した内容語を用いる方法が挙げられる。この方法では、キーワード検出部107は、例えば、各セクションにおいて内容語を検出し、検出した内容語のうち登場する頻度が高い複数の内容語をキーワードとして検出する。この際、各内容語のIDFを算出し、IDFが高い順にキーワードを並び替えてもよい。また、「では今から○○について説明します」などの特定の言い回しを各セクションのテキスト情報から検出し、検出された用語の中の○○の部分をキーワードとしてもよい。また、テキスト情報の入力を受け付けてキーワードを出力するように訓練された機械学習モデルを使用して、キーワードを検出してもよい。
検索ワード設定部108は、各セクションに付与されたセクションタグに基づいてセクションから注目セクションを選択し、注目セクションのテキスト情報から検出したキーワードのみを当該動画の検索用キーワードとして設定する。注目セクションは、各動画において最も重要な内容が含まれていると想定されるセクションであり、各分野において特定のセクションタグが付与されているセクションである。注目セクションと判断されるセクションタグは、分野ごとに予め設定され、記憶媒体に記憶されている。例えば、学会分野の動画では、「提案手法」のセクションタグが付与されたセクションが最も重要な注目セクションであると推定することができる。また、教育分野の動画では、「概要」のセクションタグが付与されたセクションが最も重要な注目セクションであると推定することができる。
具体的には、検索ワード設定部108は、まず、分野ごとに設定された重要なセクションタグ名を取得し、各セクションに付与されたセクションタグを参照して動画の注目セクションを選択する。次に、検索ワード設定部108は、キーワード検出部107により検出されたキーワードの中で、注目セクションから検出されたキーワードのみを当該動画の検索キーワードとして設定する。設定された検索キーワードは、動画に付与されて記憶媒体に記憶される。
次に、本実施形態のセクション分割処理装置100により実行される処理の動作について説明する。図7は、本実施形態の動画分割処理の手順の一例を示すフローチャートである。ステップS701-S705の処理は、それぞれ図2のステップS201-S205の処理と同様のため、説明を省略する。なお、以下で説明する各処理における処理手順は一例に過ぎず、各処理は可能な限り適宜変更可能である。また、以下で説明する処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。
(動画分割処理)
(ステップS706)
ステップS701-ステップS705の処理により各セクションに分野ごとに統一されたセクションタグが付与された後、セクション名生成部106は、各セクションのセクション名を生成し、設定する。セクション名生成部106は、設定されたセクション名を対応するセクションに紐付けて記憶媒体に記憶する。
図8は、「学会」分野の動画が分割された各セクションD1-D4に対してセクション名が設定された様子の一例を示す図である。また、図9は、「教育」分野の動画が分割された各セクションF1-F7に対してセクション名が選択された様子の一例を示す図である。
(ステップS707)
キーワード検出部107は、テキスト情報を用いて各セクションのキーワードを検出する。キーワード検出部107は、検出したキーワードを対応するセクションに紐づけて記憶媒体に記憶する。
図8は、「学会」分野の動画が分割された各セクションD1-D4に対して、キーワードが検出された様子の一例を示す図である。また、図9は、「教育」分野の動画が分割された各セクションF1-F7に対してキーワードが検出された様子の一例を示す図である。
(ステップS708)
検索ワード設定部108は、動画の注目セクションを選択し、注目セクションから検出されたキーワードのみを、その動画の検索用キーワードとして設定する。検索ワード設定部108は、設定された検索用キーワードを対応する動画に紐づけて記憶媒体に記憶する。例えば、学会分野の「提案手法」のセクションタグが付与されたセクションや、教育分野の「概要」のセクションタグが付与されたセクションから検出されたキーワードのみが、動画の検索用キーワードとして設定される。
以下、本実施形態に係るセクション分割処理装置100の効果について説明する。
本実施形態に係るセクション分割処理装置100は、セクションごとに、テキスト情報に基づいてセクション名を生成し、テキスト情報からキーワードを検出することができる。この構成により、本実施形態に係るセクション分割処理装置100によれば、セクション名としてセクションの内容を表す付加情報が各セクションに付与されるため、ユーザは、セクション名を確認することで、動画を視聴する前に動画の内容を把握することができる。
また、従来の動画管理装置では、大量の動画の中から自分が視聴したい動画を検索する際に、ユーザがクエリーを使用して動画を検索すると、ヒットした動画が検索結果として提示される。この際、動画全体から検出された検索用キーワードを用いて動画が検索される。しかし、設定されたキーワードの中には、同じ分野の動画において共通で使われるものがある。たとえば、教育分野では、「性能向上」、「予定」などが該当する。全セクションのキーワードを検索に使用すると、共通で用いられるキーワードも検索用キーワードに含まれるため、視聴したい動画を絞りづらい。また、図9の一例のように、動画中にケース動画が挿入されていることがある。ケース動画は、例えば、具体例を提示するために、動画の内容の一例を再現したドラマ形式の映像である。ケース動画から検出されるキーワードは、例えば「鈴木さん」、「しつこい」のように動画の内容と関係ないものが多い。このため、ケース動画を含む動画に対して、全セクションのキーワードを検索に使用すると、動画の内容との関係性が低いキーワードが検索用キーワードとして用いられるため、検索の精度が低下してしまう。
上記課題に対し、本実施形態に係るセクション分割処理装置100は、各セクションに付与されたセクションタグに基づいてセクションから注目セクションを選択し、注目セクションのテキスト情報から検出したキーワードのみを当該動画または音声データの検索用キーワードとして設定することができる。この構成により、本実施形態に係るセクション分割処理装置100によれば、検索に用いる検索用キーワードを重要度の高いセクションのキーワードに限定することで、各動画で動画の特徴を表す特有の検索キーワードのみを用いて検索を行うことができる。これにより、不要な検索キーワードを除外することができ、ユーザは、視聴したい内容の動画を効率的に検索できる。
(第2の実施形態の第1の変形例)
第2の実施形態の第1の変形例について説明する。本変形例は、第2の実施形態の構成を以下の通りに変形したものである。第2の実施形態と同様の構成、動作、及び効果については、説明を省略する。本変形例のセクション分割処理装置100は、特定のセクションのキーワードのみを用いて動画の紹介文や紹介画像を生成する。
図10は、本変形例に係るセクション分割処理装置100の構成を示す図である。セクション分割処理装置100の処理回路は、検索ワード設定部108の代わりに、紹介データ生成部109を備える。
紹介データ生成部109は、動画ごとに、セクションタグに基づいてセクションから注目セクションを選択し、注目セクションのテキスト情報から検出したキーワードを用いて動画の紹介データを生成する。動画の紹介データは、例えば、動画の紹介文や紹介画像である。紹介文や紹介画像は、例えば、動画とともに動画の管理画面に表示される。
紹介文としては、例えば、注目セクションのセクション名が用いられる。または、セクション名を生成する処理と同様の方法で長い文章の紹介文を生成してもよい。
紹介画像としては、例えば、注目セクションのキーワードを用いたワードクラウド画像が用いられる。ワードクラウド画像とは、1つの画像中に複数のキーワードが表示された画像である。ワードクラウド画像では、テキストデータ内の出現頻度が高いほどキーワードのフォントサイズを大きく表示する手法であり、重要なキーワードほど大きく表示される。紹介画像は、例えば、動画の管理画面において動画のサムネイルとして用いられてもよい。
次に、本変形例のセクション分割処理装置100により実行される処理の動作について説明する。図11は、本変形例の動画分割処理の手順の一例を示すフローチャートである。ステップS1101-S1107の処理は、それぞれ図7のステップS701-S707の処理と同様のため、説明を省略する。なお、以下で説明する各処理における処理手順は一例に過ぎず、各処理は可能な限り適宜変更可能である。また、以下で説明する処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。
(動画分割処理)
(ステップS1108)
ステップS1101-ステップS1107の処理により各セクションのキーワードが検出された後、紹介データ生成部109は、検出したキーワードを用いて動画の紹介データを生成する。動画の紹介データは、例えば、キーワードを用いて生成した紹介文やキーワードを表示した紹介画像である。この際、紹介データ生成部109は、動画の中で重要な内容が含まれる注目セクションを特定し、注目セクションのキーワードのみを用いて紹介データを生成する。生成された紹介データは、動画に紐づけられて記憶媒体に記憶される。
本変形例に係るセクション分割処理装置100は、セクションタグに基づいてセクションから注目セクションを選択し、注目セクションのテキスト情報から検出したキーワードを用いて動画または音声データの紹介データを生成することができる。例えば、動画の中で重要なセクションのキーワードのみを使用して紹介データを生成することにより、動画の特徴を精度よく表した紹介文や紹介画像を生成することができる。ユーザは、動画の紹介データを確認することで動画を視聴するかどうかを効率的に判断することができる。
(第2の実施形態の第2の変形例)
第2の実施形態の第2の変形例について説明する。本変形例は、第2の実施形態の構成を以下の通りに変形したものである。第2の実施形態と同様の構成、動作、及び効果については、説明を省略する。本変形例のセクション分割処理装置100は、特定のセクションのキーワードのみを用いて動画間の関連度を算出し、関連度の高い動画をまとめて表示する。
図12は、本変形例に係るセクション分割処理装置100の構成を示す図である。セクション分割処理装置100の処理回路は、検索ワード設定部108の代わりに、類似度算出部110を備える。
類似度算出部110は、動画ごとに、セクションタグに基づいてセクションから注目セクションを選択し、注目セクションにおけるテキスト情報を用いて複数の動画間の関連度を算出し、関連度の高い複数の動画を関連付ける。関連付けられた動画は、例えば、端末装置に表示される動画の管理画面にまとめて表示される。関連度は、例えば、注目セクションのキーワードや内容語を比較することにより算出することができる。この場合、例えば、注目セクションのキーワードが2つの動画間で一致している確率を関連度として算出する。類似度算出部110は、関連度算出部の一例である。
次に、本変形例のセクション分割処理装置100により実行される処理の動作について説明する。図13は、本変形例の動画分割処理の手順の一例を示すフローチャートである。ステップS1301-S1307の処理は、それぞれ図7のステップS701-S707の処理と同様のため、説明を省略する。なお、以下で説明する各処理における処理手順は一例に過ぎず、各処理は可能な限り適宜変更可能である。また、以下で説明する処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。
(動画分割処理)
(ステップS1308)
ステップS1301-ステップS1307の処理により各セクションのキーワードが検出された後、類似度算出部110は、管理される複数の動画間の関連度を算出する。例えば、記憶媒体に記憶された各動画について他の全ての動画との関連度を算出する。この際、類似度算出部110は、動画の中で重要な内容が含まれる注目セクションを特定し、注目セクションのキーワードのみを用いて動画間の関連度を算出する。算出された関連度は、対応する動画に紐づけられて記憶媒体に記憶される。
本変形例に係るセクション分割処理装置100は、複数の動画ごとに、セクションタグに基づいてセクションから注目セクションを選択し、注目セクションにおけるテキスト情報を用いて複数の動画間または複数の音声データ間の関連度を算出し、関連度の高い複数の動画または音声データを関連付けることができる。この構成により、ある動画を視聴したユーザに、ユーザが視聴した動画と関連付けられた関連度の高い動画を紹介することができる。または、関連度の高い動画同士を隣接させて表示することで、ユーザは、関連度の高い動画をまとめて視聴することができる。また、動画の中で重要なセクションのキーワードのみを使用して関連度を算出することにより、各動画の特徴的な部分同士を比較して関連度を算出することができ、動画間の関連度を精度よく算出することができる。
(第2の実施形態の第3の変形例)
第2の実施形態の第3の変形例について説明する。本変形例は、第2の実施形態の構成を以下の通りに変形したものである。第2の実施形態と同様の構成、動作、及び効果については、説明を省略する。本変形例のセクション分割処理装置100は、特定のセクションだけを合成したダイジェスト動画を作成する。
図14は、本実施形態に係るセクション分割処理装置100の構成を示す図である。セクション分割処理装置100の処理回路は、検索ワード設定部108の代わりに、動画生成部111を備える。
動画生成部111は、動画ごとに、セクションタグに基づいてセクションから注目セクションを選択し、複数の動画の注目セクションのみを結合したまとめ動画を生成する。まとめ動画は、例えば、複数の動画の特定のセクションだけを集めたダイジェスト動画である。動画生成部111は、生成部の一例である。
次に、本変形例のセクション分割処理装置100により実行される処理の動作について説明する。図15は、本変形例の動画分割処理の手順の一例を示すフローチャートである。ステップS1501-S1507の処理は、それぞれ図7のステップS701-S707の処理と同様のため、説明を省略する。なお、以下で説明する各処理における処理手順は一例に過ぎず、各処理は可能な限り適宜変更可能である。また、以下で説明する処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。
(動画分割処理)
(ステップS1508)
ステップS1501-ステップS1507の処理により各セクションのキーワードが検出された後、動画生成部111は、セクションタグに基づいてセクションから注目セクションを選択し、管理したい動画の中で同一分野の複数の動画を結合したまとめ動画を生成する。この際、動画生成部111は、結合する各動画の注目セクションのみを結合することにより、まとめ動画を生成する。生成されたまとめ動画は、例えば、管理画面に表示される。
本変形例に係るセクション分割処理装置100は、動画または音声データごとに、セクションタグに基づいてセクションから注目セクションを選択し、複数の動画または音声データの注目セクションのみを結合したまとめコンテンツを生成することができる。まとめコンテンツは、例えば、まとめ動画である。まとめ動画は各動画の重要な注目セクションのみを結合して生成されているため、ユーザは、生成されたまとめ動画を視聴することにより、各動画の特徴的な部分だけをまとめて視聴することができ、動画の重要な部分だけを集中的に視聴することができる。
かくして、前述のいずれかの実施形態によれば、複数の動画コンテンツまたは音声コンテンツを効率的に視聴することができるセクション分割処理装置、方法およびプログラムを提供することができる。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
100…セクション分割処理装置、101…動画情報取得部、102…動画分割部、103…セクションタグ候補取得部、104…セクションタグ選択部、105…セクションタグ付与部、106…セクション名生成部、107…キーワード検出部、108…検索ワード設定部、109…紹介データ生成部、110…類似度算出部、111…動画生成部、A1-A6…文、B1-B6…内容語リスト、C1-C4、D1-D4、F1-F6…セクション。

Claims (13)

  1. 動画または音声データと、前記動画または音声データの分野と、前記動画または音声データのテキスト情報を取得する情報取得部と、
    前記動画または音声データを1つ以上のセクションに分割する分割部と、
    前記分野に応じたセクションタグ候補を取得するセクションタグ候補取得部と、
    前記セクションごとに、前記テキスト情報に基づいて前記セクションタグ候補からセクションタグを選択するセクションタグ選択部と、
    選択されたセクションタグを前記セクションに付与するセクションタグ付与部と、
    を備える、セクション分割処理装置。
  2. 前記セクションごとに、前記テキスト情報に基づいてセクション名を生成するセクション名生成部と、
    前記セクションごとに、前記テキスト情報からキーワードを検出するキーワード検出部と、
    をさらに備える、請求項1に記載のセクション分割処理装置。
  3. 前記セクションに付与された前記セクションタグに基づいて前記セクションから注目セクションを選択し、前記注目セクションの前記テキスト情報から検出したキーワードのみを当該動画または音声データの検索用キーワードとして設定する検索ワード設定部をさらに備える、
    請求項2に記載のセクション分割処理装置。
  4. 前記セクションに付与された前記セクションタグに基づいて前記セクションから注目セクションを選択し、前記注目セクションの前記テキスト情報から検出したキーワードを用いて当該動画または音声データの紹介文または紹介画像を生成する紹介データ生成部をさらに備える、
    請求項2または3に記載のセクション分割処理装置。
  5. 関連度算出部をさらに備え、
    前記情報取得部は、セクションにセクションタグが付与された複数の動画または音声データを記憶する記憶部から前記複数の動画または音声データを取得し、
    前記関連度算出部は、前記複数の動画または音声データごとに、前記セクションに付与された前記セクションタグに基づいて前記セクションから注目セクションを選択し、前記注目セクションにおけるテキスト情報を用いて前記複数の動画間または前記複数の音声データ間の関連度を算出し、関連度の高い複数の動画または音声データを関連付ける、
    請求項2から4までのいずれか1項に記載のセクション分割処理装置。
  6. 生成部をさらに備え、
    前記情報取得部は、セクションにセクションタグが付与された複数の動画または音声データを記憶する記憶部から前記複数の動画または音声データを取得し、
    前記生成部は、前記複数の動画または音声データごとに、前記セクションに付与された前記セクションタグに基づいて前記セクションから注目セクションを選択し、前記複数の動画または音声データの前記注目セクションのみを結合したまとめコンテンツを生成する、
    請求項2から5までのいずれか1項に記載のセクション分割処理装置。
  7. 前記セクションタグ付与部は、前記セクションタグ候補の中に適切なセクションタグが無いセクションに対して、当該セクションのテキスト情報に基づいてセクションタグを生成する、
    請求項1から6までのいずれか1項に記載のセクション分割処理装置。
  8. 前記分割部は、前記動画または音声データの音声情報、あるいは、前記動画の画像の特徴量を取得し、前記音声情報または前記特徴量と、前記テキスト情報とに基づいて、前記動画または音声データを前記1つ以上のセクションに分割する、
    請求項1から7までのいずれか1項に記載のセクション分割処理装置。
  9. 前記分割部は、前記テキスト情報からセクション区切り用語を検出し、前記セクション区切り用語が検出された部分を境界として、前記動画または音声データを前記1つ以上のセクションに分割する、
    請求項1から7までのいずれか1項に記載のセクション分割処理装置。
  10. 前記分割部は、前記テキスト情報を複数の文に分割し、前記複数の文のそれぞれから動画または音声データの内容に関する内容語を検出し、内容語を用いて前記複数の文を比較し、前記内容語が変化した部分を境界として、前記動画または音声データを前記1つ以上のセクションに分割する、
    請求項1から7までのいずれか1項に記載のセクション分割処理装置。
  11. 前記セクションタグ選択部は、前記内容語に基づいて、前記セクションタグ候補からセクションタグを選択する、
    請求項10に記載のセクション分割処理装置。
  12. 動画または音声データと、前記動画または音声データの分野と、前記動画または音声データのテキスト情報を取得することと、
    前記動画または音声データを1つ以上のセクションに分割することと、
    前記分野に応じたセクションタグ候補を取得することと、
    前記セクションごとに、前記テキスト情報に基づいて前記セクションタグ候補からセクションタグを選択することと、
    選択されたセクションタグを前記セクションに付与することと、
    を備えるセクション分割処理方法。
  13. コンピュータに、
    動画または音声データと、前記動画または音声データの分野と、前記動画または音声データのテキスト情報を取得する機能と、
    前記動画または音声データを1つ以上のセクションに分割する機能と、
    前記分野に応じたセクションタグ候補を取得する機能と、
    前記セクションごとに、前記テキスト情報に基づいて前記セクションタグ候補からセクションタグを選択する機能と、
    選択されたセクションタグを前記セクションに付与する機能と、
    を実現させるためのセクション分割処理プログラム。
JP2022025818A 2022-02-22 2022-02-22 セクション分割処理装置、方法およびプログラム Pending JP2023122236A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022025818A JP2023122236A (ja) 2022-02-22 2022-02-22 セクション分割処理装置、方法およびプログラム
CN202211059350.6A CN116680440A (zh) 2022-02-22 2022-08-31 区段分割处理装置、方法以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022025818A JP2023122236A (ja) 2022-02-22 2022-02-22 セクション分割処理装置、方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2023122236A true JP2023122236A (ja) 2023-09-01

Family

ID=87781484

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022025818A Pending JP2023122236A (ja) 2022-02-22 2022-02-22 セクション分割処理装置、方法およびプログラム

Country Status (2)

Country Link
JP (1) JP2023122236A (ja)
CN (1) CN116680440A (ja)

Also Published As

Publication number Publication date
CN116680440A (zh) 2023-09-01

Similar Documents

Publication Publication Date Title
Pavel et al. Sceneskim: Searching and browsing movies using synchronized captions, scripts and plot summaries
US10096145B2 (en) Method and system for assembling animated media based on keyword and string input
US7818329B2 (en) Method and apparatus for automatic multimedia narrative enrichment
US8155969B2 (en) Subtitle generation and retrieval combining document processing with voice processing
US20090307207A1 (en) Creation of a multi-media presentation
US20080300872A1 (en) Scalable summaries of audio or visual content
US20140164371A1 (en) Extraction of media portions in association with correlated input
CN110781328A (zh) 基于语音识别的视频生成方法、系统、装置和存储介质
CN115082602B (zh) 生成数字人的方法、模型的训练方法、装置、设备和介质
US20090254578A1 (en) Methods and apparatus for searching and accessing multimedia content
US20200227033A1 (en) Natural conversation storytelling system
US20200151220A1 (en) Interactive representation of content for relevance detection and review
US20140161423A1 (en) Message composition of media portions in association with image content
US20230022966A1 (en) Method and system for analyizing, classifying, and node-ranking content in audio tracks
US20220121712A1 (en) Interactive representation of content for relevance detection and review
US20140163956A1 (en) Message composition of media portions in association with correlated text
JP2010524280A (ja) 第1のメディアアイテム及び第2のメディアアイテムの同時再生を可能とする方法及び装置
JP2003208083A (ja) 教材作成方法及び装置及び教材作成プログラム及び教材作成プログラムを格納した記憶媒体
JP2023122236A (ja) セクション分割処理装置、方法およびプログラム
Porwal et al. Video Transcription and Summarization using NLP
JP2021097417A (ja) サーバおよびデータ割り当て方法
JP6988715B2 (ja) 回答文選択装置、方法、およびプログラム
CN113626722A (zh) 舆论引导方法、装置、设备及计算机可读存储介质
US20230281248A1 (en) Structured Video Documents
TWI780333B (zh) 動態處理並播放多媒體內容的方法及多媒體播放裝置

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20230105

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240301