JP2023122236A

JP2023122236A - セクション分割処理装置、方法およびプログラム

Info

Publication number: JP2023122236A
Application number: JP2022025818A
Authority: JP
Inventors: 優佳小林; Yuka Kobayashi; 尚水吉田; Takami Yoshida; 憲治岩田; Kenji Iwata; 務嗣久島; Tsuyoshi Kushima; 功雄三原; Isao Mihara; 尚義永江; Hisayoshi Nagae; 奈夕子渡辺; Nayuko Watanabe
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2022-02-22
Filing date: 2022-02-22
Publication date: 2023-09-01
Also published as: CN116680440A

Abstract

【課題】動画コンテンツまたは音声コンテンツを効率的に管理又は視聴することができるセクション分割処理装置、方法およびプログラムを提供することである。
【解決手段】実施形態のセクション分割処理装置は、情報取得部と、分割部と、セクションタグ候補取得部と、セクションタグ選択部と、セクションタグ付与部とを備える。情報取得部は、動画または音声データと、動画または音声データの分野と、動画または音声データのテキスト情報を取得する。分割部は、動画または音声データを１つ以上のセクションに分割する。セクションタグ候補取得部は、分野に応じたセクションタグ候補を取得する。セクションタグ選択部は、セクションごとに、テキスト情報に基づいてセクションタグ候補からセクションタグを選択する。セクションタグ付与部は、選択されたセクションタグをセクションに付与する。
【選択図】図１

Description

本発明の実施形態は、セクション分割処理装置、方法およびプログラムに関する。

近年、オンライン教育やオンライン学会などが増加し、講演動画を見る機会や講演の音声データを聞く機会が増えている。このため、大量の動画コンテンツや音声コンテンツを管理するための技術や、大量のコンテンツを効率的に視聴するための技術が注目されている。

このような技術では、動画中の情報をもとに動画を１つ以上のセクションに分割し、分割した各セクションにセクション名を付与している。このような場合、各動画に対してばらばらなセクション名が付与されるため、動画間においてセクション名が統一されない。ユーザは、各動画の重要な箇所のみを視聴し、どのセクションを視聴するかを決めるために、セクション名をいちいち目視する必要がある。

特開２０１９－１４９０８３号公報

本発明が解決しようとする課題は、動画コンテンツまたは音声コンテンツを効率的に管理又は視聴することができるセクション分割処理装置、方法およびプログラムを提供することである。

このような課題を解決するため、実施形態のセクション分割処理装置は、情報取得部と、分割部と、セクションタグ候補取得部と、セクションタグ選択部と、セクションタグ付与部とを備える。情報取得部は、動画または音声データと、動画または音声データの分野と、動画または音声データのテキスト情報を取得する。分割部は、動画または音声データを１つ以上のセクションに分割する。セクションタグ候補取得部は、分野に応じたセクションタグ候補を取得する。セクションタグ選択部は、セクションごとに、テキスト情報に基づいてセクションタグ候補からセクションタグを選択する。セクションタグ付与部は、選択されたセクションタグをセクションに付与する。

第１の実施形態に係るセクション分割処理装置の構成の一例を示す図。第１の実施形態に係るセクション分割処理装置による動画分割処理の処理手順を例示するフローチャート。第１の実施形態に係るセクション分割処理装置により、テキスト情報を用いて「学会」分野の動画が分割された様子の一例を示す図。第１の実施形態に係るセクション分割処理装置により、「学会」分野の動画が分割された各セクションに対して、セクションタグが付与された様子の一例を示す図。第１の実施形態に係るセクション分割処理装置により、「教育」分野の動画が分割された各セクションに対して、セクションタグが付与された様子の一例を示す図。第２の実施形態に係るセクション分割処理装置の構成の一例を示す図。第２の実施形態に係るセクション分割処理装置による動画分割処理の処理手順を例示するフローチャート。第２の実施形態に係るセクション分割処理装置により、「学会」分野の動画が分割された各セクションに対してセクション名が設定された様子の一例を示す図。第２の実施形態に係るセクション分割処理装置により、「教育」分野の動画が分割された各セクションに対してセクション名が選択された様子の一例を示す図。第２の実施形態の第１の変形例に係るセクション分割処理装置の構成の一例を示す図。第２の実施形態の第１の変形例に係るセクション分割処理装置による動画分割処理の処理手順を例示するフローチャート。第２の実施形態の第２の変形例に係るセクション分割処理装置の構成の一例を示す図。第２の実施形態の第２の変形例に係るセクション分割処理装置による動画分割処理の処理手順を例示するフローチャート。第２の実施形態の第３の変形例に係るセクション分割処理装置の構成の一例を示す図。第２の実施形態の第３の変形例に係るセクション分割処理装置による動画分割処理の処理手順を例示するフローチャート。

以下、図面を参照しながら、セクション分割処理装置、方法およびプログラムの実施形態について詳細に説明する。以下の説明において、略同一の機能及び構成を有する構成要素については、同一符号を付し、重複説明は必要な場合にのみ行う。

（第１の実施形態）
図１は、第１の実施形態に係るセクション分割処理装置１００の構成を示す図である。セクション分割処理装置１００は、ユーザが視聴したい複数の動画を取得し、動画から取得できるテキスト情報の内容に応じて動画を複数のセクションに分割し、動画を部分的に視聴できるようにする。また、セクション分割処理装置１００は、各セクションに、分野ごとに統一された共通のセクションタグを付与する。複数の動画に対して統一されたセクションタグが付与されることで、大量の動画の管理を簡単に行えるようになる。
なお、セクション分割処理装置１００は、動画ファイル形式のデータの管理だけでなく、音声ファイル形式のデータの管理にも適用することができる。また、セクション分割処理装置１００は、動画ファイル形式のデータと音声ファイル形式のデータが混在した複数のデータの管理にも適用することができる。本実施形態では、一例として、動画形式のデータの管理を行うものとして説明するが、上記説明及び以下の説明において、「動画」、「動画コンテンツ」、「動画データ」等の用語は、「音声」、「音声コンテンツ」、「音声データ」という用語に置き換えることができる。

セクション分割処理装置１００は、例えば、ユーザが使用するＰＣ端末などの端末装置や、端末装置にネットワークを介して接続されたクラウドサーバに、動画管理用のアプリケーションとして搭載される。端末装置は、例えば、セクション分割処理装置１００との通信を行う通信インタフェース及び通信機能、動画の入力を行う入力インタフェース及び入力機能、動画の管理画面や動画の再生画面を表示するディスプレイ及び表示制御機能、管理する複数の動画の中から特定の動画を検索する動画検索機能等を備える。ネットワークは、例えば、ＬＡＮ（Local Area Network）である。なお、ネットワークへの接続は、有線接続、及び無線接続を問わない。また、ネットワークはＬＡＮに限定されず、インターネットや公衆の通信回線等であっても構わない。

動画は、例えば、e-learning、大学の講義、学会発表等の講演の音声及び画像が記録されたデータである。動画は、オンライン授業やオンライン学会などの講演を録画したものでもよい。また、動画は、動画共有サイトに投稿された動画をダウンロードしたものでもよい。動画の分野としては、例えば、「教育」や、「学会」などの、講演が行われやすい分野の動画を用いることができるが、これに限るものではない。また、動画は、講演等の音声のみを含み、画像を含まないデータであってもよい。また、動画は、講演内容を表す文字を表示した画像のみを含み、音声を含まないデータであってもよい。

セクション分割処理装置１００は、セクション分割処理装置１００全体を制御する処理回路と、記憶媒体（メモリ）と、を備える。処理回路は、記憶媒体内のプログラムを呼び出し実行することにより、動画情報取得部１０１、動画分割部１０２、セクションタグ候補取得部１０３、セクションタグ選択部１０４およびセクションタグ付与部１０５の機能を実行するプロセッサである。処理回路は、ＣＰＵ（Central Processing Unit）、ＡＳＩＣ（Application Specific Integrated Circuit）又はＦＰＧＡ（Field Programmable Gate Array）等を含む集積回路から形成される。プロセッサは、１つの集積回路から形成されてもよく、複数の集積回路から形成されてもよい。

記憶媒体には、プロセッサで用いられる処理プログラム、及び、プロセッサでの演算で用いられるパラメータ及びテーブル等が記憶される。記憶媒体は、種々の情報を記憶するＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）、集積回路等の記憶装置である。また、記憶装置は、ＨＤＤやＳＳＤ等以外にも、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、フラッシュメモリ等の可搬性記憶媒体であってもよく、フラッシュメモリ、ＲＡＭ（Random Access Memory）等の半導体メモリ素子等との間で種々の情報を読み書きする駆動装置であってもよい。また、記憶媒体には、複数の動画や、後述のセクションタグ候補や、処理回路による処理に用いられるデータや閾値等が記憶される。記憶媒体は、記憶部の一例である。

なお、動画情報取得部１０１、動画分割部１０２、セクションタグ候補取得部１０３、セクションタグ選択部１０４およびセクションタグ付与部１０５が有する各機能は、単一の処理回路にて実現されてもよく、複数の独立したプロセッサを組み合わせて処理回路を構成し、各プロセッサがプログラムを実行することにより各機能を実現するものとしても構わない。また、動画情報取得部１０１、動画分割部１０２、セクションタグ候補取得部１０３、セクションタグ選択部１０４およびセクションタグ付与部１０５が有する各機能は、個別のハードウェア回路として実装してもよい。また、処理回路が有する機能の全部または一部は、クラウド上で処理を実行するクラウドサーバに搭載されてもよい。

動画情報取得部１０１は、動画と、動画の分野に関する情報（以下、分野情報と呼ぶ）と、動画のテキスト情報を取得する。テキスト情報は、動画の内容を表す文字データである。動画や分野情報は、例えば、ユーザにより、端末装置の入力インタフェースを介して入力される。動画情報取得部１０１は、音声認識処理を用いて動画内の音声を文字データに変換し、変換した文字データをテキスト情報として取得する。音声は、例えば、講演会の講演者の音声であってもよく、教育動画の出演者の音声であってもよく、教育動画の機械音声であってもよい。あるいは、動画情報取得部１０１は、動画中の画像に対してＯＣＲ（Optical Character Recognition：光学文字認識）処理を実行することにより、動画内で表示された内容を文字データに変換し、変換した文字データをテキスト情報として取得してもよい。

また、動画情報取得部１０１は、テキスト情報に含まれる各文字データについて、音声が発声された発声時刻や、画像表示が開始した開始時刻や、画像表示が終了した終了時刻を検出してもよい。この場合、動画情報取得部１０１は、検出した時刻を各文字データに関連付けて保存する。上述の「時刻」は、動画が開始した時点を「０」とする動画内の経過時刻を示す。動画情報取得部１０１は、情報取得部の一例である。

また、動画情報取得部１０１は、動画に表示された画像から取得した文字データについて、画像中の表示座標（表示位置）を検出してもよい。この場合、動画情報取得部１０１は、検出した表示座標を対応する文字データに関連付けて保存する。

動画分割部１０２は、動画を１つ以上のセクションに分割する。例えば、動画分割部１０２は、テキスト情報に基づいて、複数の動画のそれぞれを１つ以上のセクションに分割する。典型的には、動画分割部１０２は、各動画を複数のセクションに分割する。動画の分割処理を実行した結果、動画が１つのセクションに分割されてもよい。以下、動画を分割する方法の一例について説明するが、公知の他の分割手法を使用してもよい。また、以下の説明では、１つの動画を複数のセクションに分割する場合を例に説明する。動画分割部１０２は、分割部の一例である。

テキスト情報を用いて動画を分割する方法としては、例えば、話者が明示的にセクションを区切りたい場合に用いる特定の言い回しを利用して、動画を分割する方法が挙げられる。教育動画や講演動画では、話者が明示的にセクションを区切りたい場合に特定の言い回しが用いられることがある。特定の言い回しとしては、例えば、「本セッションは以上です。」や「では、次に○○について説明します。」などがある。以下、このような特定の言い回しを、セクション区切り用語と呼ぶこととする。セクション区切り用語は、例えば、記憶媒体に記憶されている。

この方法では、動画分割部１０２は、テキスト情報からセクション区切り用語を検出し、セクション区切り用語が検出された部分を境界として、複数の動画のそれぞれを複数のセクションに分割する。具体的には、動画分割部１０２は、まず、記憶媒体に記憶された複数のセクション区切り用語を読み出し、テキスト情報中の各文について、読み出した各セクション区切り用語との類似度を算出する。類似度の算出方法としては、例えば、編集距離を用いる方法が挙げられる。次に、動画分割部１０２は、セクション区切り用語との類似度が一定の値以上である文を、セクションの区切りとなる文として検出する。そして、動画分割部１０２は、セクションの区切りとなる文の前後でセクションを分割する。セクション区切り用語には、セクションの最後に用いられる用語と、セクションの最初に用いられる用語がある。このため、セクション区切り用語ごとに、セクション区切り用語が検出された文の前後のどちらでセクション分割を行うかが予め設定される。例えば、「本セッションは以上です。」というセクションの区切り語句との類似度が所定の値以上となる文が検出された場合、動画分割部１０２は、検出された文の直後でセクションを区切る。この場合、検出された文とその直後の文は異なるセクションに含まれる。また、例えば、「では、次に○○について説明します。」というセクションの区切り語句との類似度が所定の値以上となる文が検出された場合、動画分割部１０２は、検出された文の直前でセクションを区切る。この場合、検出された文とその直前の文は異なるセクションに含まれる。

次に、テキスト情報を用いて動画を分割する方法の一例として、テキスト情報に含まれる内容語を利用して動画を分割する方法について説明する。内容語とは、助詞、助動詞、代名詞、感嘆詞などを除いた語句である。内容語は、文の内容を表す。この方法では、動画分割部１０２は、テキスト情報に含まれるテキストを複数の文に分割し、複数の文のそれぞれから動画の内容に関する内容語を検出し、内容語を用いて複数の文を比較し、内容語が変化した部分を境界として、各動画を複数のセクションに分割する。

具体的には、動画分割部１０２は、まず、テキスト情報を１文ごとに分割する。テキスト情報を文ごとに分割する方法としては、例えば、句点などの文末を表す記号を使用する方法が挙げられる。この方法は、音声認識により取得されたテキスト情報と、ＯＣＲ処理により取得されたテキスト情報の両方に対して適用できる。

テキスト情報を文ごとに分割する他の方法としては、例えば、音声認識により取得されたテキスト情報に対して各文字データの発声時刻を参照し、動画の全体の中で何も発声されていない期間を無音区間として検出し、無音区間一定時間以上続いた箇所でテキスト情報を区切ることにより、テキスト情報を複数の文に分割する方法が挙げられる。この方法は、音声認識により取得されたテキスト情報に対して適用できる。

また、テキスト情報を文ごとに分割する他の方法としては、例えば、ＯＣＲ処理により取得されたテキスト情報に対して各文字データの表示座標を参照し、表示座標が一定以上変化した箇所でテキスト情報を区切ることにより、テキスト情報を複数の文に分割する方法が挙げられる。この方法は、ＯＣＲ処理により取得されたテキスト情報に対して適用できる。

テキスト情報を文ごとに分割した後、動画分割部１０２は、分割された各文から内容語を検出する。文から内容語を検出する方法としては、公知の種々の手法を採用することができる。文から内容語を検出する方法としては、例えば、形態素解析を用いる方法が挙げられる。この方法では、動画分割部１０２は、分割された各文に対して形態素解析を実行することにより各文を単語に分割し、分割された単語の中から内容語を抽出する。

内容語を抽出する方法としては、例えば、あらかじめ記憶された内容語以外の単語(ストップワード)を参照し、分割された単語の中からストップワードを除外したものを内容語として抽出する方法が挙げられる。

内容語を抽出する他の方法としては、例えば、ＩＤＦ（Inverse Document Frequency：逆文書頻度）を使用する方法が挙げられる。この方法では、動画分割部１０２は、まず、事前に記憶された複数の外部文書を参照し、分割された各単語について外部文書に含まれる数Ndを算出し、下記の式（１）を使用して各単語のＩＤＦを算出する。式（１）において、「Ｎ」は用意された外部文書の文書数を表す。ＩＤＦは、単語が汎用的に用いられる単語であるほど小さくなり、文の特徴を示す単語であるほど大きくなる値である。そして、動画分割部１０２は、各単語のＩＤＦを所定の閾値と比較し、閾値よりＩＤＦが大きい単語を内容語として抽出する。

IDF = log (N / Nd) （１）

内容語を抽出した後、動画分割部１０２は、各文について、抽出された内容語を含む内容語リストを生成する。その後、動画分割部１０２は、テキスト情報に含まれる連続する２文について内容語リストの類似度を算出し、算出した類似度が閾値よりも低い場合、比較した２文の間でセクションを分割する。例えば、テキスト情報に含まれる１つ目の文から順に、直後の文との内容語リストの比較が行われる。内容語リストの類似度を算出する方法としては、例えば、内容語リストの中で一致する内容語の数や、内容語リストに含まれる内容語の編集距離を用いて算出される。または、あらかじめ用意された単語分散表現モデルを用いて内容語リストの類似度を算出してもよい。

なお、類似度の比較の結果としてセクション分割が行われなかった場合に文の内容語リストをストックしておき、ストックされた内容語リストと次の文の内容語リストを比較してもよい。この場合、例えば、テキスト情報に含まれる１つ目の文（以下、第１文と呼ぶ）の内容語リスト（以下、第１内容語リストと呼ぶ）と２つ目の文（以下、第２文と呼ぶ）の内容語リスト（以下、第２内容語リストと呼ぶ）の類似度が閾値より高い場合、動画分割部１０２は、第１文と第２文が同じセクションになると判断し、第１文と第２文との間ではセクションを分割しない。そして、第２内容語リストと３つ目の文（以下、第３文と呼ぶ）の内容語リスト（以下、第３内容語リストと呼ぶ）の類似度を算出する際には、第２文の内容語に加えて第１文の内容語を含む内容語リストと、第３内容語リストとの類似度を算出し、第２文と第３文の間でセクションを分割するか否かを判断する。この際、同じセクションの第１文と第２文の両方の内容語を含む内容語リストを比較に用いることにより、セクション分割の精度を向上させることができる。

次に、テキスト情報に加えて、動画中の音声や画像の特徴量を使用して動画を分割する方法の一例について説明する。この方法では、動画分割部１０２は、動画の音声情報または画像の特徴量を取得し、音声情報または画像の特徴量と、テキスト情報とに基づいて、動画を複数のセクションに分割する。動画中の音声を用いる場合、例えば、特定の音楽が流れたタイミングや、一定期間の無音の時間があるタイミングでセクションを分割する。動画中の画像の特徴量を用いる場合、例えば、スライド表示の静止画から動画に切り替わったタイミングや、話者が切り替わったタイミングや、動画中の文字や画像の色が変化したタイミングでセクションを分割する。

セクションタグ候補取得部１０３は、動画の分野に応じたセクションタグ候補を取得する。セクションタグ候補に含まれるセクションタグは、各分野における典型的な動画の流れに従って予め決定され、分野ごとに記憶媒体に記憶されている。例えば、セクションタグ候補に含まれるセクションタグは、動画全体における各セクションの役割や機能に応じて、予め設定される。動画の分野は、例えば、「学会」、「教育」等である。学会分野のセクションタグ候補としては、例えば、「研究背景」、「提案手法」、「実験」、「まとめ」等が用いられる。また、教育分野のセクションタグ候補としては、例えば、「振り返り」、「概要」、「詳細説明」、「具体例」、「まとめ」等が用いられる。セクションタグ候補に含まれるセクションタグの数は１つ以上であればよく、例えば６つ以上であってもよい。

セクションタグ選択部１０４は、分割されたセクションごとに、当該セクションのテキスト情報に基づいて、動画の分野に応じて取得されたセクションタグ候補の中から適切なセクションタグを選択する。

セクションタグ候補からセクションタグを選択する方法としては、例えば、テキスト情報から抽出された内容語を用いる方法が挙げられる。この方法では、各分野で想定される内容語とセクションタグ候補との関連度を示すテーブルが、記憶媒体に予め記憶される。セクションタグ選択部１０４は、まず、テキスト情報を用いて各セクションの内容語を検出し、セクションごとに内容語リストを生成する。内容語の検出方法は、前述した方法のいずれかを用いればよい。また、動画分割部１０２の処理において各文の内容語を検出していた場合、その内容語を利用してもよい。セクションタグ選択部１０４は、内容語リストと上述のテーブルとを用いて、内容語リストに含まれる内容語とセクションタグ候補に含まれるセクションタグとの関連度を取得し、セクションタグ候補に含まれる各セクションタグに対する関連度を算出する。この際、セクションタグ選択部１０４は、セクションタグ候補に含まれる各セクションタグについて、内容語リストに含まれる各内容語との関連度を取得し、取得した複数の関連度の平均値や最大値を当該セクションの関連度として算出する。セクションタグ選択部１０４は、セクションタグ候補の中で関連度が最も高いセクションタグを、当該セクションのセクションタグとして選択する。

なお、動画情報取得部１０１によりテキスト情報を取得する処理は、機械学習モデルを使用して実行してもよい。この場合、機械学習モデルは、例えば、動画の入力を受け付けて、動画のテキスト情報を出力する。機械学習モデルとしては、例えば、ディープニューラルネットワーク等が用いられる。また、動画分割部１０２による動画を複数のセクションに分割する処理は、機械学習モデルを使用して実行してもよい。この場合、機械学習モデルは、例えば、動画と当該動画から取得されたテキスト情報との入力を受け付けて、セクションの分割結果を出力する。また、セクションタグ選択部１０４による適切なセクションタグを選択する処理は、機械学習モデルを使用して実行してもよい。この場合、機械学習モデルは、例えば、動画と当該動画から取得されたテキスト情報と、当該動画におけるセクション分割結果の入力を受け付けて、各セクションにおける適切なセクションタグを出力する。

セクションタグ付与部１０５は、セクションタグ選択部１０４の処理により選択されたセクションタグを各セクションに付与する。セクションタグ付与部１０５は、選択されたセクションタグが各セクションに付与された動画を記憶媒体に記憶する。記憶媒体には、セクションタグ付与部１０５等によりセクションタグが各セクションに付与された複数の動画が記憶される。

次に、セクション分割処理装置１００により実行される処理の動作について説明する。図２は、動画分割処理の手順の一例を示すフローチャートである。動画分割処理は、入力された動画を複数のセクションに分割し、分割された各セクションに分野ごとに設定された共通のセクションタグを付与する処理である。動画分割処理は、セクション分割処理装置１００に新たな動画が入力された際に、自動的に実行される。なお、以下で説明する各処理における処理手順は一例に過ぎず、各処理は可能な限り適宜変更可能である。また、以下で説明する処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。

（動画分割処理）
（ステップＳ２０１）
セクション分割処理装置１００に新たな動画が入力されると、動画情報取得部１０１は、入力された動画と、その動画の分野情報を取得する。分野情報は、例えば、ユーザにより手動で入力される。また、動画情報取得部１０１は、取得した動画に対して音声認識処理やＯＣＲ処理を実行することにより、動画のテキスト情報を取得する。

（ステップＳ２０２）
次に、動画分割部１０２は、ステップＳ２０１の処理で取得したテキスト情報を用いて、動画を複数のセクションに分割する。この際、例えば、動画分割部１０２は、前述の手法のいずれかを用いて動画を複数のセクションに分割する。

図３は、テキスト情報を用いて「学会」分野の動画が分割された様子の一例を示す図である。図３は、テキスト情報内の句点を用いて、テキスト情報に含まれるテキストを６つの文Ａ１－Ａ６に分割し、文Ａ１－Ａ６から生成した内容語リストＢ１－Ｂ６を用いて動画を４つのセクションＣ１－Ｃ４に分割した様子を示している。内容語リストＢ１－Ｂ６に含まれる太字の内容語は、前後の文と共通する内容語を示している。共通する内容語が多い文ほど、同じセクションに分割されやすくなる。

（ステップＳ２０３）
次に、セクションタグ候補取得部１０３は、記憶媒体から、動画の分野に対応するセクションタグ候補を取得する。動画の分野が「学会」である場合、例えば、「研究背景」、「提案手法」、「実験」、及び「まとめ」のセクションタグを含むセクションタグ候補が取得される。また、動画の分野が「教育」である場合、例えば、セクションタグ候補として「振り返り」、「概要」、「詳細説明」、「具体例」及び「まとめ」のセクションタグを含むセクションタグ候補が取得される。

（ステップＳ２０４）
セクションタグ選択部１０４は、各セクションに対して、ステップＳ２０３の処理で取得したセクションタグ候補の中から適切なセクションタグを選択する。

（ステップＳ２０５）
セクションタグ付与部１０５は、ステップＳ２０４の処理により選択されたセクションタグを、対応するセクションに付与する。

図４は、「学会」分野の動画が分割された各セクションＤ１－Ｄ４に対して、セクションタグが付与された様子の一例を示す図である。図４は、各セクションＤ１－Ｄ４に対して、セクションタグ候補として取得された「研究背景」、「提案手法」、「実験」、及び「まとめ」の中の１つが選択された様子を示している。

また、図５は、「教育」分野の動画が分割された各セクションＦ１－Ｆ７に対して、セクションタグが選択された様子の一例を示す図である。図５は、各セクションＦ１－Ｆ７に対して、セクションタグ候補として取得された「振り返り」、「概要」、「詳細説明」、「具体例」及び「まとめ」の中の１つが選択された様子を示している。図５に示すように、同じセクションタグがふられたセクションが複数あってもよい。

各セクションにセクションタグが付与されると、動画分割処理は終了する。入力された各動画に対して上述の動画分割処理が実行されることにより、分野ごとに統一されたセクションタグが管理される複数の動画に付与される。なお、上記実施形態では、１つの動画に対してステップＳ２０１－ステップＳ２０５の処理が実行される場合について説明したが、入力された複数の動画に対してステップＳ２０１－ステップＳ２０５の各処理を実行し、複数の動画に対する動画分割処理をまとめて実行してもよい。

以下、本実施形態に係るセクション分割処理装置１００の効果について説明する。

本実施形態に係るセクション分割処理装置１００は、動画または音声データと、動画または音声データの分野と、動画または音声データのテキスト情報を取得し、動画または音声データを１つ以上のセクションに分割し、分野に応じたセクションタグ候補を取得し、分割されたセクションごとに、テキスト情報に基づいてセクションタグ候補からセクションタグを選択し、選択されたセクションタグをセクションに付与することができる。

近年、オンライン教育やオンライン学会などが増加し、講演動画を見る機会が増えている。このため、複数の長時間の動画をポイントだけ視聴し、効率的に複数の動画を視聴したいというニーズが高まっている。しかし、付与されるセクション名が動画間で統一されておらず、各動画にばらばらなセクション名が付与されていたため動画間でのセクションの対応付けができず、ユーザは、セクション名を確認してどのセクションを視聴するかを決める必要があった。本実施形態に係るセクション分割処理装置１００によれば、管理したい複数の動画のそれぞれを複数のセクションに分割し、分野ごとに用意されたセクションタグ候補からセクションタグを選択してセクションに付与することができる。このため、ユーザは、管理画面においてセクションタグをいちいち目視で確認することなく、各動画における特定のセクションタグが付与されたセクションを選択することにより、複数の動画中の見たい部分だけを効率的に視聴することができる。すなわち、ユーザが管理したい複数の動画に対して統一されたセクションタグを付与することで、ユーザが視聴したい動画を探しやすくする。

例えば、学会分野の動画では、一般的に、「研究背景」では分野共通の話題が話され、「提案手法」においてその動画の要点が話される。ユーザは、学会分野の各動画から、「提案手法」のセクションタグが付与されたセクションのみを選択することにより、各動画の重要な部分だけを効率的に視聴することができる。同様に、例えば、教育分野の動画についても、動画の要点が話される「概要」のセクションタグが付与されたセクションのみを選択することにより、各動画の重要な部分だけを効率的に視聴することができる。

また、小中高大学や企業での教育などの教育現場では、動画を視聴するスタイルの教育方法が広がりつつある。こうした教育スタイルでは、本実施形態に係るセクション分割処理装置１００を用いることにより、ユーザは、任意に動画を選択したり、動画の必要な部分だけを視聴したり、早送りして視聴したりできる。したがって、本実施形態に係るセクション分割処理装置１００によれば、自由な視聴スタイルを支援し、効率的な動画の視聴が可能になる。また、学会、講演会などでも動画視聴による聴講スタイルが一般化してきており、本実施形態に係るセクション分割処理装置１００はこれらの分野にも適用可能である。

また、本実施形態に係るセクション分割処理装置１００は、動画または音声データの音声情報、または動画の画像の特徴量を取得し、音声情報または特徴量と、テキスト情報とに基づいて、動画または音声データを１つ以上のセクションに分割することができる。音声情報を用いる場合、セクション分割処理装置１００は、例えば、特定の音楽が流れたタイミングや、一定期間の無音の時間があるタイミングでセクションを分割することができる。動画の音声情報を用いることにより、講義動画のように画像の変化が小さい動画に対しても、精度よくセクション分割が行うことができる。また、画像の特徴量を用いる場合、セクション分割処理装置１００は、例えば、スライド表示の静止画から動画に切り替わったタイミングや、話者が切り替わったタイミングや、動画中の文字や画像の色が変化したタイミングでセクションを分割することができる。この構成により、精度よくセクションの分割を行うことができる。

また、本実施形態に係るセクション分割処理装置１００は、テキスト情報からセクション区切り用語を検出し、セクション区切り用語が検出された部分を境界として、動画または音声データを１つ以上のセクションに分割することができる。セクション区切り用語は、教育動画や講演動画において話者が明示的にセクションを区切りたい場合に用いる特定の言い回しであり、例えば、「本セッションは以上です。」や「では、次に○○について説明します。」などである。この構成により、精度よくセクションの分割を行うことができる。

また、本実施形態に係るセクション分割処理装置１００は、テキスト情報を複数の文に分割し、複数の文のそれぞれから動画または音声データの内容に関する内容語を検出し、内容語を用いて複数の文を比較し、内容語が変化した部分を境界として動画または音声データを１つ以上のセクションに分割することができる。内容語は、文から助詞、助動詞、代名詞、感嘆詞などを除いた語句であり、文の内容を表す。内容語を用いることにより、精度よくセクションの分割を行うことができる。

また、本実施形態に係るセクション分割処理装置１００は、内容語に基づいて、セクションタグ候補からセクションタグを選択することができる。内容語を用いることにより、セクションの内容に合った適切なセクションタグを選択することができる。

なお、セクションタグ選択部１０４は、セクションタグ候補の中に適切なセクションタグが無いセクションに対して、当該セクションのテキスト情報に基づいてセクションタグを生成してもよい。例えば、テキスト情報から抽出された内容語を用いてセクションタグ候補から適切なセクションタグを選択する際に、そのセクションから検出された内容語の中に、セクションタグ候補に含まれるセクションタグとの関連度が所定の値よりも大きい内容語が存在しない場合、セクションタグ選択部１０４は、適切なセクションタグがないと判断し、セクションタグ候補からセクションタグを選択する代わりに、テキスト情報から新規のセクションタグを生成する。セクションタグの生成方法は、上述のセクション名の生成手法と同様の手法を用いることができる。また、新規のセクションタグを生成する代わりに、適切なセクションタグが見つからないセクションに対する適切なセクションタグをユーザが入力してもよい。

（第２の実施形態）
第２の実施形態について説明する。本実施形態は、第１の実施形態の構成を以下の通りに変形したものである。第１の実施形態と同様の構成、動作、及び効果については、説明を省略する。本実施形態のセクション分割処理装置１００は、分割した各セクションにセクションタグを付与した後、各セクションにタイトルと検索用のキーワードを設定する。

図６は、本実施形態に係るセクション分割処理装置１００の構成を示す図である。セクション分割処理装置１００の処理回路は、セクション名生成部１０６と、キーワード検出部１０７と、検索ワード設定部１０８とをさらに備える。

セクション名生成部１０６は、セクションごとに、テキスト情報に基づいて、セクション名を生成する。セクション名は、セクションのタイトルとして用いられる。セクション名を生成する方法としては、例えば、テキスト情報から抽出された内容語を用いる方法が挙げられる。この方法では、セクション名生成部１０６は、まず、テキスト情報を用いて内容語を検出し、各セクションにおいて登場する頻度が最も高い内容語をセクション名として設定する。この際、各内容語のＩＤＦを算出し、ＩＤＦが最も高い内容語をセクション名としてもよい。ＩＤＦを用いることにより、非一般的で登場する頻度が高い単語をセクション名として設定することができる。または、「○○について」などのテンプレートをあらかじめ用意しておき、各セクションの内容語のうち、登場する頻度が高い複数の内容語を上記テンプレートに組み合わせて、「高速で高精度なグラフニューラルネットワークについて」といったセクション名を生成することもできる。この例では、「高速」、「高精度」、「グラフニューラルネットワーク」が、登場頻度の高い内容語である。また、「では、今から○○について説明します」などの特定の言い回しを各セクションのテキスト情報から検出し、検出された用語の中の○○の部分をセクション名としてもよい。この場合、特定の言い回しと完全に一致していなくても、編集距離などを用いて特定の言い回しに対する類似度を算出し、類似度が高い部分をセクション名の決定に用いてもよい。また、各セクションのテキスト情報や内容語リストの入力を受け付けて自然文で構成されたセクション名を出力するように訓練された機械学習モデルを使用して、セクション名を生成してもよい。

キーワード検出部１０７は、セクションごとに、テキスト情報からキーワードを検出する。キーワードとは、セクションの内容を示す特徴的な単語である。キーワードの検出方法としては、例えば、テキスト情報から検出した内容語を用いる方法が挙げられる。この方法では、キーワード検出部１０７は、例えば、各セクションにおいて内容語を検出し、検出した内容語のうち登場する頻度が高い複数の内容語をキーワードとして検出する。この際、各内容語のＩＤＦを算出し、ＩＤＦが高い順にキーワードを並び替えてもよい。また、「では今から○○について説明します」などの特定の言い回しを各セクションのテキスト情報から検出し、検出された用語の中の○○の部分をキーワードとしてもよい。また、テキスト情報の入力を受け付けてキーワードを出力するように訓練された機械学習モデルを使用して、キーワードを検出してもよい。

検索ワード設定部１０８は、各セクションに付与されたセクションタグに基づいてセクションから注目セクションを選択し、注目セクションのテキスト情報から検出したキーワードのみを当該動画の検索用キーワードとして設定する。注目セクションは、各動画において最も重要な内容が含まれていると想定されるセクションであり、各分野において特定のセクションタグが付与されているセクションである。注目セクションと判断されるセクションタグは、分野ごとに予め設定され、記憶媒体に記憶されている。例えば、学会分野の動画では、「提案手法」のセクションタグが付与されたセクションが最も重要な注目セクションであると推定することができる。また、教育分野の動画では、「概要」のセクションタグが付与されたセクションが最も重要な注目セクションであると推定することができる。

具体的には、検索ワード設定部１０８は、まず、分野ごとに設定された重要なセクションタグ名を取得し、各セクションに付与されたセクションタグを参照して動画の注目セクションを選択する。次に、検索ワード設定部１０８は、キーワード検出部１０７により検出されたキーワードの中で、注目セクションから検出されたキーワードのみを当該動画の検索キーワードとして設定する。設定された検索キーワードは、動画に付与されて記憶媒体に記憶される。

次に、本実施形態のセクション分割処理装置１００により実行される処理の動作について説明する。図７は、本実施形態の動画分割処理の手順の一例を示すフローチャートである。ステップＳ７０１－Ｓ７０５の処理は、それぞれ図２のステップＳ２０１－Ｓ２０５の処理と同様のため、説明を省略する。なお、以下で説明する各処理における処理手順は一例に過ぎず、各処理は可能な限り適宜変更可能である。また、以下で説明する処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。

（動画分割処理）
（ステップＳ７０６）
ステップＳ７０１－ステップＳ７０５の処理により各セクションに分野ごとに統一されたセクションタグが付与された後、セクション名生成部１０６は、各セクションのセクション名を生成し、設定する。セクション名生成部１０６は、設定されたセクション名を対応するセクションに紐付けて記憶媒体に記憶する。

図８は、「学会」分野の動画が分割された各セクションＤ１－Ｄ４に対してセクション名が設定された様子の一例を示す図である。また、図９は、「教育」分野の動画が分割された各セクションＦ１－Ｆ７に対してセクション名が選択された様子の一例を示す図である。

（ステップＳ７０７）
キーワード検出部１０７は、テキスト情報を用いて各セクションのキーワードを検出する。キーワード検出部１０７は、検出したキーワードを対応するセクションに紐づけて記憶媒体に記憶する。

図８は、「学会」分野の動画が分割された各セクションＤ１－Ｄ４に対して、キーワードが検出された様子の一例を示す図である。また、図９は、「教育」分野の動画が分割された各セクションＦ１－Ｆ７に対してキーワードが検出された様子の一例を示す図である。

（ステップＳ７０８）
検索ワード設定部１０８は、動画の注目セクションを選択し、注目セクションから検出されたキーワードのみを、その動画の検索用キーワードとして設定する。検索ワード設定部１０８は、設定された検索用キーワードを対応する動画に紐づけて記憶媒体に記憶する。例えば、学会分野の「提案手法」のセクションタグが付与されたセクションや、教育分野の「概要」のセクションタグが付与されたセクションから検出されたキーワードのみが、動画の検索用キーワードとして設定される。

本実施形態に係るセクション分割処理装置１００は、セクションごとに、テキスト情報に基づいてセクション名を生成し、テキスト情報からキーワードを検出することができる。この構成により、本実施形態に係るセクション分割処理装置１００によれば、セクション名としてセクションの内容を表す付加情報が各セクションに付与されるため、ユーザは、セクション名を確認することで、動画を視聴する前に動画の内容を把握することができる。

また、従来の動画管理装置では、大量の動画の中から自分が視聴したい動画を検索する際に、ユーザがクエリーを使用して動画を検索すると、ヒットした動画が検索結果として提示される。この際、動画全体から検出された検索用キーワードを用いて動画が検索される。しかし、設定されたキーワードの中には、同じ分野の動画において共通で使われるものがある。たとえば、教育分野では、「性能向上」、「予定」などが該当する。全セクションのキーワードを検索に使用すると、共通で用いられるキーワードも検索用キーワードに含まれるため、視聴したい動画を絞りづらい。また、図９の一例のように、動画中にケース動画が挿入されていることがある。ケース動画は、例えば、具体例を提示するために、動画の内容の一例を再現したドラマ形式の映像である。ケース動画から検出されるキーワードは、例えば「鈴木さん」、「しつこい」のように動画の内容と関係ないものが多い。このため、ケース動画を含む動画に対して、全セクションのキーワードを検索に使用すると、動画の内容との関係性が低いキーワードが検索用キーワードとして用いられるため、検索の精度が低下してしまう。

上記課題に対し、本実施形態に係るセクション分割処理装置１００は、各セクションに付与されたセクションタグに基づいてセクションから注目セクションを選択し、注目セクションのテキスト情報から検出したキーワードのみを当該動画または音声データの検索用キーワードとして設定することができる。この構成により、本実施形態に係るセクション分割処理装置１００によれば、検索に用いる検索用キーワードを重要度の高いセクションのキーワードに限定することで、各動画で動画の特徴を表す特有の検索キーワードのみを用いて検索を行うことができる。これにより、不要な検索キーワードを除外することができ、ユーザは、視聴したい内容の動画を効率的に検索できる。

（第２の実施形態の第１の変形例）
第２の実施形態の第１の変形例について説明する。本変形例は、第２の実施形態の構成を以下の通りに変形したものである。第２の実施形態と同様の構成、動作、及び効果については、説明を省略する。本変形例のセクション分割処理装置１００は、特定のセクションのキーワードのみを用いて動画の紹介文や紹介画像を生成する。

図１０は、本変形例に係るセクション分割処理装置１００の構成を示す図である。セクション分割処理装置１００の処理回路は、検索ワード設定部１０８の代わりに、紹介データ生成部１０９を備える。

紹介データ生成部１０９は、動画ごとに、セクションタグに基づいてセクションから注目セクションを選択し、注目セクションのテキスト情報から検出したキーワードを用いて動画の紹介データを生成する。動画の紹介データは、例えば、動画の紹介文や紹介画像である。紹介文や紹介画像は、例えば、動画とともに動画の管理画面に表示される。

紹介文としては、例えば、注目セクションのセクション名が用いられる。または、セクション名を生成する処理と同様の方法で長い文章の紹介文を生成してもよい。

紹介画像としては、例えば、注目セクションのキーワードを用いたワードクラウド画像が用いられる。ワードクラウド画像とは、１つの画像中に複数のキーワードが表示された画像である。ワードクラウド画像では、テキストデータ内の出現頻度が高いほどキーワードのフォントサイズを大きく表示する手法であり、重要なキーワードほど大きく表示される。紹介画像は、例えば、動画の管理画面において動画のサムネイルとして用いられてもよい。

次に、本変形例のセクション分割処理装置１００により実行される処理の動作について説明する。図１１は、本変形例の動画分割処理の手順の一例を示すフローチャートである。ステップＳ１１０１－Ｓ１１０７の処理は、それぞれ図７のステップＳ７０１－Ｓ７０７の処理と同様のため、説明を省略する。なお、以下で説明する各処理における処理手順は一例に過ぎず、各処理は可能な限り適宜変更可能である。また、以下で説明する処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。

（動画分割処理）
（ステップＳ１１０８）
ステップＳ１１０１－ステップＳ１１０７の処理により各セクションのキーワードが検出された後、紹介データ生成部１０９は、検出したキーワードを用いて動画の紹介データを生成する。動画の紹介データは、例えば、キーワードを用いて生成した紹介文やキーワードを表示した紹介画像である。この際、紹介データ生成部１０９は、動画の中で重要な内容が含まれる注目セクションを特定し、注目セクションのキーワードのみを用いて紹介データを生成する。生成された紹介データは、動画に紐づけられて記憶媒体に記憶される。

本変形例に係るセクション分割処理装置１００は、セクションタグに基づいてセクションから注目セクションを選択し、注目セクションのテキスト情報から検出したキーワードを用いて動画または音声データの紹介データを生成することができる。例えば、動画の中で重要なセクションのキーワードのみを使用して紹介データを生成することにより、動画の特徴を精度よく表した紹介文や紹介画像を生成することができる。ユーザは、動画の紹介データを確認することで動画を視聴するかどうかを効率的に判断することができる。

（第２の実施形態の第２の変形例）
第２の実施形態の第２の変形例について説明する。本変形例は、第２の実施形態の構成を以下の通りに変形したものである。第２の実施形態と同様の構成、動作、及び効果については、説明を省略する。本変形例のセクション分割処理装置１００は、特定のセクションのキーワードのみを用いて動画間の関連度を算出し、関連度の高い動画をまとめて表示する。

図１２は、本変形例に係るセクション分割処理装置１００の構成を示す図である。セクション分割処理装置１００の処理回路は、検索ワード設定部１０８の代わりに、類似度算出部１１０を備える。

類似度算出部１１０は、動画ごとに、セクションタグに基づいてセクションから注目セクションを選択し、注目セクションにおけるテキスト情報を用いて複数の動画間の関連度を算出し、関連度の高い複数の動画を関連付ける。関連付けられた動画は、例えば、端末装置に表示される動画の管理画面にまとめて表示される。関連度は、例えば、注目セクションのキーワードや内容語を比較することにより算出することができる。この場合、例えば、注目セクションのキーワードが２つの動画間で一致している確率を関連度として算出する。類似度算出部１１０は、関連度算出部の一例である。

次に、本変形例のセクション分割処理装置１００により実行される処理の動作について説明する。図１３は、本変形例の動画分割処理の手順の一例を示すフローチャートである。ステップＳ１３０１－Ｓ１３０７の処理は、それぞれ図７のステップＳ７０１－Ｓ７０７の処理と同様のため、説明を省略する。なお、以下で説明する各処理における処理手順は一例に過ぎず、各処理は可能な限り適宜変更可能である。また、以下で説明する処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。

（動画分割処理）
（ステップＳ１３０８）
ステップＳ１３０１－ステップＳ１３０７の処理により各セクションのキーワードが検出された後、類似度算出部１１０は、管理される複数の動画間の関連度を算出する。例えば、記憶媒体に記憶された各動画について他の全ての動画との関連度を算出する。この際、類似度算出部１１０は、動画の中で重要な内容が含まれる注目セクションを特定し、注目セクションのキーワードのみを用いて動画間の関連度を算出する。算出された関連度は、対応する動画に紐づけられて記憶媒体に記憶される。

本変形例に係るセクション分割処理装置１００は、複数の動画ごとに、セクションタグに基づいてセクションから注目セクションを選択し、注目セクションにおけるテキスト情報を用いて複数の動画間または複数の音声データ間の関連度を算出し、関連度の高い複数の動画または音声データを関連付けることができる。この構成により、ある動画を視聴したユーザに、ユーザが視聴した動画と関連付けられた関連度の高い動画を紹介することができる。または、関連度の高い動画同士を隣接させて表示することで、ユーザは、関連度の高い動画をまとめて視聴することができる。また、動画の中で重要なセクションのキーワードのみを使用して関連度を算出することにより、各動画の特徴的な部分同士を比較して関連度を算出することができ、動画間の関連度を精度よく算出することができる。

（第２の実施形態の第３の変形例）
第２の実施形態の第３の変形例について説明する。本変形例は、第２の実施形態の構成を以下の通りに変形したものである。第２の実施形態と同様の構成、動作、及び効果については、説明を省略する。本変形例のセクション分割処理装置１００は、特定のセクションだけを合成したダイジェスト動画を作成する。

図１４は、本実施形態に係るセクション分割処理装置１００の構成を示す図である。セクション分割処理装置１００の処理回路は、検索ワード設定部１０８の代わりに、動画生成部１１１を備える。

動画生成部１１１は、動画ごとに、セクションタグに基づいてセクションから注目セクションを選択し、複数の動画の注目セクションのみを結合したまとめ動画を生成する。まとめ動画は、例えば、複数の動画の特定のセクションだけを集めたダイジェスト動画である。動画生成部１１１は、生成部の一例である。

次に、本変形例のセクション分割処理装置１００により実行される処理の動作について説明する。図１５は、本変形例の動画分割処理の手順の一例を示すフローチャートである。ステップＳ１５０１－Ｓ１５０７の処理は、それぞれ図７のステップＳ７０１－Ｓ７０７の処理と同様のため、説明を省略する。なお、以下で説明する各処理における処理手順は一例に過ぎず、各処理は可能な限り適宜変更可能である。また、以下で説明する処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。

（動画分割処理）
（ステップＳ１５０８）
ステップＳ１５０１－ステップＳ１５０７の処理により各セクションのキーワードが検出された後、動画生成部１１１は、セクションタグに基づいてセクションから注目セクションを選択し、管理したい動画の中で同一分野の複数の動画を結合したまとめ動画を生成する。この際、動画生成部１１１は、結合する各動画の注目セクションのみを結合することにより、まとめ動画を生成する。生成されたまとめ動画は、例えば、管理画面に表示される。

本変形例に係るセクション分割処理装置１００は、動画または音声データごとに、セクションタグに基づいてセクションから注目セクションを選択し、複数の動画または音声データの注目セクションのみを結合したまとめコンテンツを生成することができる。まとめコンテンツは、例えば、まとめ動画である。まとめ動画は各動画の重要な注目セクションのみを結合して生成されているため、ユーザは、生成されたまとめ動画を視聴することにより、各動画の特徴的な部分だけをまとめて視聴することができ、動画の重要な部分だけを集中的に視聴することができる。

かくして、前述のいずれかの実施形態によれば、複数の動画コンテンツまたは音声コンテンツを効率的に視聴することができるセクション分割処理装置、方法およびプログラムを提供することができる。

なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

１００…セクション分割処理装置、１０１…動画情報取得部、１０２…動画分割部、１０３…セクションタグ候補取得部、１０４…セクションタグ選択部、１０５…セクションタグ付与部、１０６…セクション名生成部、１０７…キーワード検出部、１０８…検索ワード設定部、１０９…紹介データ生成部、１１０…類似度算出部、１１１…動画生成部、Ａ１－Ａ６…文、Ｂ１－Ｂ６…内容語リスト、Ｃ１－Ｃ４、Ｄ１－Ｄ４、Ｆ１－Ｆ６…セクション。

Claims

動画または音声データと、前記動画または音声データの分野と、前記動画または音声データのテキスト情報を取得する情報取得部と、
前記動画または音声データを１つ以上のセクションに分割する分割部と、
前記分野に応じたセクションタグ候補を取得するセクションタグ候補取得部と、
前記セクションごとに、前記テキスト情報に基づいて前記セクションタグ候補からセクションタグを選択するセクションタグ選択部と、
選択されたセクションタグを前記セクションに付与するセクションタグ付与部と、
を備える、セクション分割処理装置。
前記セクションごとに、前記テキスト情報に基づいてセクション名を生成するセクション名生成部と、
前記セクションごとに、前記テキスト情報からキーワードを検出するキーワード検出部と、
をさらに備える、請求項１に記載のセクション分割処理装置。
前記セクションに付与された前記セクションタグに基づいて前記セクションから注目セクションを選択し、前記注目セクションの前記テキスト情報から検出したキーワードのみを当該動画または音声データの検索用キーワードとして設定する検索ワード設定部をさらに備える、
請求項２に記載のセクション分割処理装置。
前記セクションに付与された前記セクションタグに基づいて前記セクションから注目セクションを選択し、前記注目セクションの前記テキスト情報から検出したキーワードを用いて当該動画または音声データの紹介文または紹介画像を生成する紹介データ生成部をさらに備える、
請求項２または３に記載のセクション分割処理装置。
関連度算出部をさらに備え、
前記情報取得部は、セクションにセクションタグが付与された複数の動画または音声データを記憶する記憶部から前記複数の動画または音声データを取得し、
前記関連度算出部は、前記複数の動画または音声データごとに、前記セクションに付与された前記セクションタグに基づいて前記セクションから注目セクションを選択し、前記注目セクションにおけるテキスト情報を用いて前記複数の動画間または前記複数の音声データ間の関連度を算出し、関連度の高い複数の動画または音声データを関連付ける、
請求項２から４までのいずれか１項に記載のセクション分割処理装置。
生成部をさらに備え、
前記情報取得部は、セクションにセクションタグが付与された複数の動画または音声データを記憶する記憶部から前記複数の動画または音声データを取得し、
前記生成部は、前記複数の動画または音声データごとに、前記セクションに付与された前記セクションタグに基づいて前記セクションから注目セクションを選択し、前記複数の動画または音声データの前記注目セクションのみを結合したまとめコンテンツを生成する、
請求項２から５までのいずれか１項に記載のセクション分割処理装置。
前記セクションタグ付与部は、前記セクションタグ候補の中に適切なセクションタグが無いセクションに対して、当該セクションのテキスト情報に基づいてセクションタグを生成する、
請求項１から６までのいずれか１項に記載のセクション分割処理装置。
前記分割部は、前記動画または音声データの音声情報、あるいは、前記動画の画像の特徴量を取得し、前記音声情報または前記特徴量と、前記テキスト情報とに基づいて、前記動画または音声データを前記１つ以上のセクションに分割する、
請求項１から７までのいずれか１項に記載のセクション分割処理装置。
前記分割部は、前記テキスト情報からセクション区切り用語を検出し、前記セクション区切り用語が検出された部分を境界として、前記動画または音声データを前記１つ以上のセクションに分割する、
請求項１から７までのいずれか１項に記載のセクション分割処理装置。
前記分割部は、前記テキスト情報を複数の文に分割し、前記複数の文のそれぞれから動画または音声データの内容に関する内容語を検出し、内容語を用いて前記複数の文を比較し、前記内容語が変化した部分を境界として、前記動画または音声データを前記１つ以上のセクションに分割する、
請求項１から７までのいずれか１項に記載のセクション分割処理装置。
前記セクションタグ選択部は、前記内容語に基づいて、前記セクションタグ候補からセクションタグを選択する、
請求項１０に記載のセクション分割処理装置。
動画または音声データと、前記動画または音声データの分野と、前記動画または音声データのテキスト情報を取得することと、
前記動画または音声データを１つ以上のセクションに分割することと、
前記分野に応じたセクションタグ候補を取得することと、
前記セクションごとに、前記テキスト情報に基づいて前記セクションタグ候補からセクションタグを選択することと、
選択されたセクションタグを前記セクションに付与することと、
を備えるセクション分割処理方法。
コンピュータに、
動画または音声データと、前記動画または音声データの分野と、前記動画または音声データのテキスト情報を取得する機能と、
前記動画または音声データを１つ以上のセクションに分割する機能と、
前記分野に応じたセクションタグ候補を取得する機能と、
前記セクションごとに、前記テキスト情報に基づいて前記セクションタグ候補からセクションタグを選択する機能と、
選択されたセクションタグを前記セクションに付与する機能と、
を実現させるためのセクション分割処理プログラム。