JP2023107697A

JP2023107697A - プログラム

Info

Publication number: JP2023107697A
Application number: JP2022009012A
Authority: JP
Inventors: 計人椋; Kazuto Mugura
Original assignee: Individual
Current assignee: Individual
Priority date: 2022-01-24
Filing date: 2022-01-24
Publication date: 2023-08-03

Abstract

【課題】スライドショーによる講演や解説などをストリーミング配信する際、事前にスライドショーに説明音声を付加して動画化し、短編に分割する作業を省き、配信するだけで自動的に複数の短編動画に分割・生成するプログラムを提供する。【解決手段】プログラムは、スライドショー動画の配信時に、コンテンツ内メタデータと、配信中の音声・映像から得られるメタデータを照合することで、内容区分の分割位置を特定し、配信に沿って記録されていく音声付き動画を、逐次短編に自動分割し、配信中に、視聴者が、見逃した部分や難解箇所の再視聴を求めると、既に短編動画化された経過部分を加速再生したうえで、その間に配信の進行から遅れてしまう部分を進行中の配信に追いつくまで加速再生し続けることで、スムーズな視聴体験を提供する。【選択図】図５

Description

本発明は、通信ネットワーク上で授業、講演、解説などを配信するための、スライドショー動画に代表される各種の動画コンテンツの生成と、その視聴に関するものである。

従来のスライドショー動画は、予め作成したスライドショーを再生しながら音声で説明を加え、リアルタイムに配信するものか、或いはその状況を録画・録音して動画データを生成した後にそれを再生配信するものである。

特開2012-109820「講義映像コンテンツ処理装置およびプログラム」

本発明が解決しようとする課題は、動画配信によって、授業、講演、解説といった何らかの知識や情報を伝達する活動を行う際に、視聴者が見逃した経過部分や再確認したい経過部分の配信内容を、配信進行中の時間内に一時的に再視聴でき、かつ経過部分の再視聴が終わり次第、続けて再視聴開始時点以降の未視聴部分を視聴できる手段を提供することにある。

本発明が対象とする授業、講演、解説の動画配信においては、教員、講師、解説者などの配信者が自己の配信端末からスライドショー資料画面を共有表示し、自分の発話ペースに合わせてスライドショーのページを送ることで配信を進めて行くが、その際に視聴者が経過部分の一部を見逃した場合、見逃した部分を素早く再視聴できるように、配信中の内容を逐次、複数の短編動画に分割して生成保存しておくことで、配信進行中の時間内においての再視聴を可能にする。

この手段は、配信中の動画の映像と音声を配信内容の意味的区分によって分割し、複数の短編動画として生成する短編動画生成プログラムP1と、視聴者が希望する経過部分の短編動画を加速再生する短編動画視聴プログラムP2によって実現される。

短編動画生成プログラムP1においては、配信の過程をコンテンツ内容の推移に照らして理解しやすい区間ごとに分割された短編動画に仕上げるために、資料データの内容解析に基づく分割位置と、実況での発話の成り行きに沿った時間軸上の区切り位置を掛け合わせることで時間軸上の区間分割位置を特定して配信過程を分割する。

短編動画視聴プログラムP2においては、視聴者が再視聴要求を発信すると、再視聴を要求された区間の短編動画を加速再生するとともに、再視聴要求が発信された時点以降の配信中の映像と音声をバッファリングし、再視聴区間の加速再生終了に続いてバッファリングされた映像と音声も加速配信して進行中の配信に追いつくことで、予定されている配信時間内に、配信済区間の再視聴と配信進行中区間の実時間視聴を途切れることなく提供する。

本発明によれば、配信者が事前に配信内容を短編動画として作成する労力を払うことなく、配信進行中であっても視聴者に柔軟に特定区間を再視聴する利便を提供できる効果がある。

本発明の、システム全体のハードウエア構成の概念図である。図１に含まれる配信者端末H1のハードウエア構成の概念図である。図１に含まれるサーバH3のハードウエア構成の概念図である。図１に含まれる視聴者端末H4のハードウエア構成の概念図である。本発明で想定するユースケース３種を示す概念図である。図５に含まれるユースケース１の概念図である。図５に含まれるユースケース２の概念図である。図５に含まれるユースケース３の概念図である。本発明の、システム全体のソフトウエア構成の概念図である。図９に含まれる短編動画生成プログラムP1の、ソフトウエア処理の概念図である。図９に含まれる短編動画視聴プログラムP2の、ソフトウエア処理の概念図である。図９に含まれる短編動画視聴プログラムP2におけるユースケース１とユースケース２についての操作ステップ概念図である。図９に含まれる短編動画視聴プログラムP2におけるユースケース３についての操作ステップ概念図である。図10で示された短編動画生成プログラムP1に含まれる配信ブロックS1の実行に関わるハードウエア構成の概念図である。図10で示された短編動画生成プログラムP1に含まれる資料解析ブロックS2のソフトウエア処理の概念図である。図15で示された資料解析ブロックS2に含まれる、データ抽出S2.1からデータ分類S2.2までの処理内容を示す概念図である。図15で示された資料解析ブロックS2に含まれる、データ抽出S2.1からデータ分類S2.2までの処理の対象となる画面上区域を示す概念図である。図15で示された資料解析ブロックS2に含まれる、ページ種別判定S2.3によって分類される各ページ種別の概念図である。図15で示された資料解析ブロックS2に含まれる、ページ種別判定S2.3の第１ステップの処理フロー図である。図15で示された資料解析ブロックS2に含まれる、ページ種別判定S2.3の第２ステップの処理フロー図である。図15で示された資料解析ブロックS2に含まれる、ページ種別判定S2.3の第３ステップの処理フロー図である。図15で示された資料解析ブロックS2に含まれる、ページ種別判定S2.3によって生成される資料構造ツリーD3の概念図である。図22で示された資料構造ツリーD3から導き出される、各ページ間接続点の属性分類を示す概念図である。図15で示された資料解析ブロックS2に含まれる、キーワード抽出S2.4の処理概念図である。図15で示された資料解析ブロックS2に含まれる、キーワード抽出S2.4の対象となる画面上区域、及び生成される資料キーワードスタックD5の概念図である。図15で示された資料解析ブロックS2に含まれる、接続点属性判定S2.5の処理方法において、接続点を挟む前後両ページの関連度が高い例の概念図である。図15で示された資料解析ブロックS2に含まれる、接続点属性判定S2.5の処理方法において、接続点を挟む前後両ページの関連度が低い例の概念図である。図15で示された資料解析ブロックS2に含まれる、接続点属性判定S2.5の処理において参照される意味的連続度判定基準の例である。図15で示された資料解析ブロックS2に含まれる、接続点属性判定S2.5の処理において、図23で示された資料構造ツリーD3上で「未定」と分類されている接続点についての意味的連続度を判定する処理方法を示す概念図である。図10で示された短編動画生成プログラムP1に含まれる、音声解析ブロックS4のソフトウエア処理の概念図である。図30で示された音声解析ブロックS4に含まれる、文字列変換S4.1の概要を示す概念図である。図30で示された音声解析ブロックS4に含まれる、音声文字列キーワード抽出S4.2の概要を示す概念図である。図30で示された音声解析ブロックS4に含まれる、ページ説明区間区切り位置推定S4.3の概要を示す概念図である。図30で示された音声解析ブロックS4に含まれる、時間的連続度判定S4.4の概要を示す概念図である。図30で示された音声解析ブロックS4に含まれる、時間的連続度判定S4.4において参照される、時間的連続度判定基準の例である。図30で示された音声解析ブロックS4に含まれる、時間的連続度判定S4.4の初期ステップ（処理4.0）の処理フロー図である。図30で示された音声解析ブロックS4に含まれる、時間的連続度判定S4.4の第１ステップ（処理4.1）の処理フロー図である。図30で示された音声解析ブロックS4に含まれる、時間的連続度判定S4.4の第２ステップ（処理4.2）の処理フロー図である。図30で示された音声解析ブロックS4に含まれる、時間的連続度判定S4.4の第３ステップ（処理4.3）の処理フロー図である。図30で示された音声解析ブロックS4に含まれる、時間的連続度判定S4.4の第４ステップ（処理4.4）の処理フロー図である。図30で示された音声解析ブロックS4に含まれる、時間的連続度判定S4.4の第５ステップ（処理4.5）の処理フロー図である。図10で示された短編動画生成プログラムP1に含まれる、分割位置判定ブロックS5において参照される判定テーブルである。図10で示された短編動画生成プログラムP1に含まれる、分割位置判定ブロックS5によって生成される分割位置スタックD11の内容および適用状況を例示する概念図である。図10で示された短編動画生成プログラムP1に含まれる、分割ブロックS6のソフトウエア構成の概念図である。図10で示された短編動画生成プログラムP1に含まれる、後編集ブロックS7のソフトウエア構成の概念図である。図45で示された後編集ブロックS7に含まれる、素材結合S7.4における処理方法の概念図である。図12で示された、短編動画視聴プログラムP2におけるユースケース１の操作画面の遷移を示す概念図である。図12で示された、短編動画視聴プログラムP2におけるユースケース２の操作画面遷移を示す概念図である。図12で示された、短編動画視聴プログラムP2におけるユースケース１「部分的に再視聴したい」の機能についての概念図である。図12で示された、短編動画視聴プログラムP2におけるユースケース２「最初から再視聴したい」の機能についての概念図である。図13で示された、短編動画視聴プログラムP2におけるユースケース３「配信後に再視聴したい」の操作のうち、「部分的に再視聴」が選ばれた場合の画面遷移を示す概念図である。図13で示された、短編動画視聴プログラムP2におけるユースケース３「配信後に再視聴したい」の操作のうち、「全編を再視聴」が選ばれた場合の画面遷移を示す概念図である。

本発明は、一本の動画コンテンツを配信する時、配信実行中の平行処理によって、既に配信した部分を短編動画として逐次生成する短編動画生成プログラムP1と、配信実行中に、配信済み部分の短編動画を、その視聴者が一時的に視聴できる機能を提供する短編動画視聴プログラムP2によって構成されている。

短編動画生成プログラムP1は概念的には、文字列解析手段と、画像解析手段と、意味解析手段と、進行監視手段と、区分生成手段と、補足編集手段と、音声解析手段と、逐次記憶手段とで構成される。

文字列解析手段とは、以下実施形態で説明するように、資料スライドショーの各ページに含まれる文字データからキーワードを抽出する手段のことであり、スライドショー形式以外の動画においては、一般的な映像と音声から画像解析手段および音声解析手段によって取得される文字データからキーワードを抽出する手段のことである。

画像解析手段とは、以下実施形態で説明するように、資料スライドショーの各ページに含まれる画像・映像データからキーワードを抽出する手段のことであり、スライドショー形式以外の動画においては、一般的な映像内容から画像認識によってキーワードを抽出する手段のことである。

意味的解析手段とは、以下実施形態で説明するように、スライドショーの上で連続する２ページ同士の意味的連続度を算出する手段のことであり、スライドショー形式以外の動画においては、映像と音声を基に意味的区分を特定する手段のことである。

進行監視手段とは、以下実施形態で説明するように、スライドショー各ページに対する説明音声の区間が配信時間軸上で占める位置を特定する手段のことであり、スライドショー形式以外の動画においては、配信中の映像と音声を基に特定された意味的区分が配信時間軸上で占める位置を特定する手段のことである。

区分生成手段とは、以下実施形態で説明するように、視聴者が取り扱いやすい視聴時間長の一般的な想定を基に、個々の短編動画内に連続して収められるべき説明区間を判定し、動画データを分割する手段のことである。

補足編集手段とは、以下実施形態で説明するように、分割された配信の動画データの冒頭に開始部動画データを付加し、末尾に終了部動画データを付加することで、１本の短編動画として完成させる手段のことである。

音声解析手段とは、以下実施形態で説明するように、配信中の音声から文字データを生成し、スライドショー各ページの意味的サマリーデータと照合する手段のことであり、スライドショー形式以外の動画においては、配信中の音声から生成した文字データから特定される意味的区分を、配信中の映像の解析結果から特定された意味的区分と照合する手段のことである。

逐次記憶手段とは、以下実施形態で説明するように、配信中の映像と音声のデータを短辺動画の素材として逐次記憶しておく手段のことである。

短編動画視聴プログラムP2は概念的には、視聴者要求受信手段と、要求区間特定手段と、加速再生時間算出手段と、要求区間加速再生手段と、追尾区間加速再生手段と、視聴者対話手段と、例外処理手段とで構成される。

視聴者要求受信手段とは、以下実施形態で説明するように、視聴者が配信済部分の一部を再視聴する要求を発信した際、それを受信する手段のことである。

要求区間特定手段とは、以下実施形態で説明するように、再視聴したい箇所を短編動画の一覧から視聴者に選択させる手段のことである。

加速再生時間算出手段とは、以下実施形態で説明するように、再視聴要求された区間の加速再生にかかる時間と、その後に、配信中の走行を追尾し同期させるまでに加速再生するべき時間の総計を算出する手段のことである。

要求区間加速再生手段とは、以下実施形態で説明するように、再生要求された配信済み特定箇所を、配信者が任意に設定する加速度によって、要求を発信した視聴者端末に対して個別に加速再生配信する手段のことである。

追尾区間加速再生手段とは、以下実施形態で説明するように、要求区間の加速再生完了後に、要求区間の加速再生への対応の間に未視聴となる配信中区間について、進行中の通常速度配信の走行に同期するまで加速再生を継続して配信を追尾する手段のことである。

視聴者対話手段とは、以下実施形態で説明するように、画面上のメニュー表示により、
視聴者の再視聴要求区間を特定する手段のことである。

例外処理手段とは、以下実施形態で説明するように、再視聴要求区間と追尾区間の加速再生の終了時点が配信終了時点の後になると算出される場合、再視聴要求区間と追尾区間について実速度再生する判断を行う手段のことである。

本発明を実施するための典型的な形態として、ネットワーク上で動画配信する授業、講演、解説などにおいて、予め用意された資料スライドショーを再生しながら音声による説明を加えた配信状況の映像と音声を記録しながら複数個の短編動画に逐次分割処理することで、一本の配信内容を複数の短編動画で構成された再視聴可能コンテンツ一式に加工することが想定される。

この場合、まず配信開始前に、いったん資料スライドショーの各ページに含まれる文字列データや、同じく各ページに含まれる画像・映像データを画像認識処理することで得られる文字列データから、予め用意されている用語辞書との照合によってキーワードを抽出することで、ページ毎の意味的サマリーデータを生成するプロセスを経て、資料スライドショーの上で連続する２つのページについて、各ページの意味的サマリーデータを比較することで、両ページの意味的関連度を比較可能な一定の数値として算出する。

配信を開始すると、配信中の音声から生成される文字データを前記スライドショー各ページの意味的サマリーデータと照合することで、スライドショー各ページに対する説明区間が配信時間軸上で占める位置、すなわち当該区間の開始位置と終了位置のタイムスタンプを特定する。

そのうえで、授業、講演、解説などの動画視聴体験において、視聴者が心理的あるいは利便的に取り扱いやすい視聴時間長の一般的な想定を基に、配信者が任意で定義する短編動画１本の視聴時間長基準に対して、配信時間軸上での各ページ説明区間長に照らして、個々の短編動画内に連続して収められるべきページ区間を判定し、それらページ区間の組み合わせ判定情報に基づいて分割された配信の映像と音声に一定のフォーマットによる動画開始部と動画終了部の映像および音声を付加することで、１本の短編動画として完成させる。

また、前記の配信進行中の時間において、視聴者が、経過時間のなかで既に逐次生成されている１本～N本の短編動画の中から、各自の目的に沿って視聴したい動画を選択し、配信者が任意で設定する加速度による加速再生によって素早く視聴したうえで、引き続き配信進行中部分を視聴できるようにする。

本発明のハードウエアは、図１に示す通り、配信者端末H1がネットワークH2を介してサーバH3及び視聴者端末H4に接続された構成を持つ。

配信者端末H1内では、図２に示す通り、プロセッサH1.1、音声入力装置H1.2、表示装置H1.3、記憶装置H1.4、通信装置H1.5が、バスH1.6を介して互いに接続されている。

サーバH3内では、図３に示す通り、プロセッサH3.1、記憶装置H3.2、通信装置H3.3が、バスH3.4を介して互いに接続されている。

視聴者端末H4内では、図４に示す通り、プロセッサH4.1、音声出力装置H4.2、表示装置H4.3、記憶装置H4.4、通信装置H4.5が、バスH4.6を介して互いに接続されている。

本発明は、前記ハードウエア構成に基づき、図５に一覧し以下に記述する３つのユースケースを実施するものである。

ユースケース１：図６で示すように、視聴者が配信の特定部分の内容を再確認するなどのために、部分的に素早く再視聴したうえで、引き続き進行中の配信を視聴したい場合である。

ユースケース２：図７で示すように、視聴者が配信の開始より遅れて視聴を開始したため、先頭から視聴開始時点まで見逃した部分を素早く視聴したうえで、引き続き進行中の配信を視聴したい場合である。

ユースケース３：図８で示すように、配信が終了した後、配信済み動画の全編または特定部分を再視聴したい場合である。

本システムのサーバH3上ソフトウエアは図９に示すとおり、短編動画生成プログラムP1と短編動画視聴プログラムP2の２つに分かれている。

そのうち短編動画生成プログラムP1は図１０に示すとおり、配信ブロックS1、資料解析ブロックS2、バッファリング・ブロックS3、音声解析ブロックS4、分割位置判定ブロックS5、分割ブロックS6、後編集ブロックS7、および録画ブロックS8の処理ブロックによって構成される。

また短編動画視聴プログラムP2は図１１に示す通り、視聴者要求受信ブロックS9、要求区間特定ブロックS10、加速再生時間算出ブロックS11、要求区間加速再生ブロックS12、および追尾区間再生ブロックS13の処理ブロックによって構成される。

短編動画視聴プログラムP2は、図１２と図１３に示す通り、前記の３つのユースケースに従って個別の処理ステップを実行する。

短編動画生成プログラムP1は、資料解析ブロックS2によって、文字を含む映像と音声からなる動画コンテンツのオンライン配信サービスにおける動画に使用する素材データに含まれる文字列データ、および画像・映像データから画像認識によって生成される文字列データ、のそれぞれからキーワードを抽出する文字列解析手段と、素材データ上のキーワードの出現箇所と出現回数を検証することで、動画素材データ全体の流れの上に存在する意味的区分を検出する意味解析手段を提供し、配信ブロックS1、バッファリング・ブロックS3、音声解析ブロックS4によって、検出された意味的区分を構成する各キーワードが動画配信の過程で登場する動画配信時間軸上の位置を検出することで、各意味的区分が動画配信時間軸上で持つ区分開始位置、区分終了位置、及びそれらに基づく区分配信時間長、で構成される配信時間区分情報を検出する配信進行監視手段を提供し、分割位置判定ブロックS5、分割ブロックS6によって、動画素材データ上の意味的区分情報と動画配信実施時の配信時間区分情報を掛合わせ、意味内容の伝達効率と時間的な取り扱い易さへの観点に基づいて算出する最適な各区分の開始位置情報と終了位置情報に基づいて、
動画全編を複数の動画区分に分割する動画区分生成手段を提供し、さらに後編集ブロックS7によって、生成された複数の各動画区分に、配信済動画データの一部を加工して生成した区分タイトル動画データ、直前の動画区分内容を要約したリマインド動画データ、および区分エンディング動画データを付加することにより、各動画区分を、独立していながらもシリーズ化されている短編動画作品に加工する補足編集手段を提供する。

配信者は、事前に配信内容（講義・講演・解説など）を記述したスライドショー型の資料データD1を用意し、ネットワークH2を介してサーバH3にアップロードし、資料データD1はサーバH3内の記憶装置H3.2に格納される。

配信者が配信開始時刻に、短辺動画生成プログラムP1の配信ブロックS1を起動すると、図１４に示すとおり、サーバH3内の記憶装置H3.2に格納された資料データD1が、ネットワークH2を介して１台以上の視聴者端末H4に対して、単方向ストリーミング通信または双方向会議通信の何れかで配信される。

それと同時に、資料解析ブロックS2、バッファリング・ブロックS3、音声解析ブロックS4の各処理が以下に記述するように全て並行的に実行される。

資料解析ブロックS2では、図１５に示す通り、資料データD1を、データ抽出S2.1、データ分類S2.2、ページ種別判定S2.3、キーワード抽出S2.4、接続点属性判定S2.5の各プロセスにおいて、以下に記述する手順で処理することにより、意味的連続度スタックD6を生成する。

まず、配信開始時から配信処理と並行して、サーバH3内の記憶装置H3.2に格納された資料データD1を先頭ページから順にスキャンし、図１６に示す通り、各ページ上にある全てのデータオブジェクトを、文字列データE1.1あるいは図形／画像／動画データE1.2に分類したうえで、文字列データE1.1についてはそのまま、図形／画像／動画データ1.2については画像認識処理を施すことによって画像内容を表す文字列データに変換したものを、全てページ毎にまとめて、データスタックD2に格納する。

このとき、データオブジェクトを検出・分類するにあたっては、各ページの画面を、
図１７に示す通り、ヘッダ（Header）E2.1、ボディ（Body）E2.2、フッタ（Footer）E2.3の３領域に分け、資料解析ブロックの処理に置いては、このうちボディ（Body）E2.2領域内のデータオブジェクトを検出・分類することで解析処理を行う。

各ページの登場順と各ページのボディE2.2（Body）領域内について検出・分類・リスト化されたデータオブジェクト内容を照合することで、続く項で説明するページ種別判定S2.3、第１ステップ、第２ステップ、第３ステップ、を経ることで、図１８に示すように、各ページは以下４つのページ種別に分類され、各々にページ種別データが付与される。
ページ種別A：扉（Cover）
ページ種別B：見出し（Index）
ページ種別C：部分扉（Part Cover）
ページ種別D：内容（Content）

ページ種別判定S2.3、第１ステップ：ページ種別分類の処理プロセスにおいては、先ず図１９に示す通り、当該ページがデータの先頭にあるか否かを検証し、先頭にある場合は、ページ種別A：扉（Cover）と判定し、そのページ種別データを付与する。

ページ種別判定S2.3、第２ステップ：先頭でないページは全て図２０に示すページ種別判定処理に進み、ページ上にリスト形式の文字列があるか否かを検証し、それがある場合は、ページ種別B：見出し（Index）と判定し、そのページ種別データを付与する。

ページ種別判定S2.3、第３ステップ：ページ種別Aにもページ種別Bにも該当しないページは全て図２１に示すページ種別判定S2.3、第３ステップに進み、まず当該ページの前方にページ種別B：見出し（Index）のページが存在するか否かを検証し、存在する場合は、前方のページ種別B：見出し（Index）ページ上のリスト型文字列に含まれる項目と同じ文字列がボディ（Body）E2.2内の先頭文字ブロック内の先頭に置かれているか、を検証し、それであればページ種別C：部分扉（Part Cover）と判定し、そのページ種別データを付与する。

一方、当該ページの前方にページ種別B：見出し（Index）のページが存在しない場合は、ページ種別D：内容（Content）と判定し、そのページ種別データを付与する。

次に図２２に例を示すように、それらページ種別をもとに、資料構造ツリーD3を生成する。

全てのスライドショー資料は、最初のページから最後のページまで改ページをしながら内容を表示していくものであり、その画面推移に音声が付随した形式の動画において、動画全編を分割して短編動画集とするためには、スライドショー内で隣り合うページ同士の間に存在する改ページ位置のどこかで動画を区切ることになるが、本発明では、その改ページ位置を「接続点」と呼び、それぞれの接続点に対して「連続」あるいは「分割」の２種類の「接続点属性」を付与することで、どこで動画を分割するのが妥当であるかを判定する基礎情報とする。

この段階で、判定された各ページのページ種別に基づけば、スライドショー内の幾つかの接続点については、おのずと接続点属性が判明する。

例えば、図２３に例を示すように、扉（Cover）ページPG01に対し、その直後に位置する内容（Content）ページPG02は、通常は扉ページに付随して提示され読み上げられるものであるため、これら両ページは同一の短編動画内に収められるべき性質のものであり、扉（Cover）ページPG01と内容（Content）ページPG02の間にある接続点は「連続」の属性を持っているべきと判定される。

一方で、内容（Content）ページPG02と見出し（Index）ページPG03の間の接続点に関しては、見出し（Index）ページが短編動画において先頭に位置するのが妥当であることから、内容（Content）ページPG02の直後で動画をいったん分割し、見出し（Index）ページPG03が次の短編動画の先頭に来るようにする必要があるため、内容（Content）ページPG02と見出し（Index）ページPG03の間にある接続点は「分割」の属性を持っているべきと判定される。

しかし、この例において、PG03、PG08、PG13のような、見出し（Index）ページの後方には、部分扉（Part Cover）ページ、あるいは内容（Content）ページが存在しているが、それらページ同士の間にある接続点が「連続」の属性を持つべきか、あるいは「分割」の属性を持つべきか、この段階では判定できないため、それらの接続点には、暫定属性として「未定」を一時的に付与しておく。

前記の処理に続いて、資料解析ブロックでは、図２4に示す通り、データスタックD2に格納された各ページのデータを、各配信内容の分野に合わせて装備している用語辞書D4に照合することで、各ページ上に存在するキーワードを抽出し、資料キーワードスタックD5に格納する。

資料キーワードスタックD5には、図２５に例を示すように、各ページに登場するキーワードに、そのそれぞれのページ内での登場回数を対応させて格納するが、このとき、各キーワードについて、ページ上に存在する複数の文字データオブジェクト内での登場回数を全て合計した値を格納する。

各ページに対する資料キーワードスタックD5を、全てのページについて生成した後、互いに連続した位置にある２ページ同士について、両ページの資料キーワードスタックD5を比較・照合することで、両ページ間の「意味的連続度」を判定する。

図２６と図２７に例を示すように、例えば連続する位置関係にある PAGE_A と PAGE_B について、両ページの資料キーワードスタックD5を比較・照合すると、以下のように、両ページに存在する共通のキーワードが検出される。
[KEY_01]：PAGE_A 上に２回登場：PAGE_B上に１回登場
[KEY_02]：PAGE_A 上に４回登場：PAGE_B 上に１回登場
[KEY_04]：PAGE_A 上に３回登場：PAGE_B 上に１回登場

これについて、検出された共通のキーワードの、両ページ上の登場回数を以下のように計算し、両ページの「連続度」を数値化する。
（[KEY_01]のPAGE_A上の登場回数×[KEY_01]のPAGE_B上の登場回数）
＋（[KEY_02]のPAGE_A上の登場回数×[KEY_02]のPAGE_B上の登場回数）
＋（[KEY_04]のPAGE_A上の登場回数×[KEY_04]のPAGE_B上の登場回数）
＝PAGE_AとPAGE_Bの連続度

この例では、同一スライドショー内で連続した位置関係にある、PAGE_A、PAGE_B、PAGE_Cの３ページについて、図２６にてPAGE_AとPAGE_Bの連続度、図２７にて PAGE_BとPAGE_Cの連続度を算出しているが、これらの２図を併せて考えると、PAGE_AとPAGE_Bの連続度は9と算出されている一方で、PAGE_BとPAGE_Cの連続度は1と算出されていることから、PAGE_AとPAGE_Bの連続度の方が、PAGE_B とPAGE_Cの連続度より高いことが判る。

このように、いったん数値化した「連続度」をもとに、図２８に例を示すように、資料内容の種別や記述スタイルに最適化した数値に基づいて配信者が設定した基準に照らし、連続する位置関係にある前後ページの意味的連続度を「低」、「中」、「高」の３段階に分類する。

そして、図２９で示すように、図２３で示された処理において属性を「未定」と暫定的に判定されていた接続点の全てに対して意味的連続度判定を行い、スライドショー資料の全接続点について意味的連続度の付与が完了し、その結果は図１５で示すように、意味的連続度スタックD6に格納される。

配信ブロックS1において、配信者が前記スライドショーを表示しながら発話することで実況配信を実行すると、同時進行で、図３０に示すように、音声解析ブロックS4において以下の処理が実行される。

文字列変換S4.1：図３１に示す通り、発話音声を文字列に変換し、経過時間情報と連結した形で、音声文字列スタックD7に格納する。

音声文字列キーワード抽出S4.2：図３２に示す通り、音声文字列スタックD7を用語辞書D4に照合し、音声文字列上に存在するキーワードを抽出し、音声文字列キーワードスタックD8に格納する。

ページ説明区間区切り位置推定S4.3：図３３に示す通り、資料解析ブロックS2で得られた資料キーワードスタックD5に、音声から抽出されて音声文字列キーワードスタックD8上に格納されたキーワードの分布状態および言語認識によって検知される文章の区切り位置を照合することで、各ページ内容に対する説明音声の時間軸上の区切り位置を推定し、ページ区切り位置スタックD9に格納する。

時間的連続度判定S4.4：さらに図３４に示す通り、ページ区切り位置スタックD9に格納された各ページ区切り位置タイムスタンプの差分から割り出される各ページ説明区間の時間幅を、資料の内容や説明形式などに最適化して配信者が数値設定する時間的連続度判定基準に照合し、資料内で連続する位置関係にある前後ページ説明区間同士の時間的連続度を「高」「中」「低」の３段階で判定し、時間的連続度スタックD10に格納する。

時間的連続度判定基準は図３５にて示す以下の例のような形式で定義する。
基準例）ひとつの説明区間の長さについて：
18分以上（18m00s～）となることは認めない
15分以上18分未満（15m00s～17m59s）は、例外的長尺区分とする
10分以上15分未満（10m00s～14m59s）を、標準区分とする
7分以上10分未満（7m00s～9m59s）を、例外的短尺区分とする
7分未満（0m01s～6m59s）となることは認めない
ただし、上記の基準例に含まれる具体的な数値は、配信内容に基づいて配信者が最適な値を規定するものである。

この時間的連続度判定基準を適用することを前提に、以下の時間的連続度判定S4.4、初期ステップ（処理4.0）以降を実行する。

時間的連続度判定S4.4、初期ステップ（処理4.0）：図３６に示すように、現在のページ説明区間の長さについて、以下の何れに該当するかを判定し、それぞれ次の処理ステップに進む：
7分未満（0m01s～6m59s）の場合、第１ステップ（処理4.1）に進む。
7分以上10分未満（7m00s～9m59s）の場合、第２ステップ（処理4.2）に進む。
10分以上15分未満（10m00s～14m59s）の場合、第３ステップ（処理4.3）に進む。
15分以上18分未満（15m00s～17m59s）の場合、第４ステップ（処理4.4）に進む。
18分以上（18m00s～）の場合、第５ステップ（処理4.5）に進む。

第１ステップ（処理4.1）においては、図３７に示すとおり、以下を繰り返す：
処理 4.1.0：次のページ説明区間の時間を加算したとき合計時間が以下の何れに該当するかを判定し、それぞれ続く処理を行う。
処理 4.1.1： 7分未満（0m01s～6m59s）の場合、次ページとの時間的連続度について「高」の属性を付与し、処理4.1.0に戻る。
処理 4.1.2： 7分以上10分未満（7m00s～9m59s）の場合、次ページとの時間的連続度について「高」の属性を付与し、処理4.1.0に戻る。
処理 4.1.3）10分以上15分未満（10m00s～14m59s）の場合、次ページとの時間的連続度について「高」の属性を付与し、処理4.1.0に戻る。
処理 4.1.4）15分以上18分未満（15m00s～17m59s）の場合、次ページとの時間的連続度について「中」の属性を付与し、処理4.1.0に戻る。
処理 4.1.5）18分以上（18m00s～）の場合、次ページとの時間的連続度について「低」の属性を付与し、処理4.1.0に戻る。

第２ステップ（処理4.2）においては、図３８に示すとおり、以下を繰り返す：
処理 4.2.0：次のページ説明区間の時間を加算したとき合計時間が以下の何れに該当するかを判定し、それぞれ続く処理を行う。
処理 4.2.1： 7分以上10分未満（7m00s～9m59s）の場合、次ページとの時間的連続度について「高」の属性を付与し、処理4.2.0に戻る。
処理 4.2.2： 10分以上15分未満（10m00s～14m59s）の場合、次ページとの時間的連続度について「高」の属性を付与し、処理4.2.0に戻る。
処理 4.2.3： 15分以上18分未満（15m00s～17m59s）の場合、次ページとの時間的連続度について「中」の属性を付与し、処理4.2.0に戻る。
処理 4.2.4： 18分以上（18m00s～）の場合、次ページとの時間的連続度について「低」の属性を付与し、処理4.2.0に戻る。

第３ステップ（処理4.3）においては、図３９に示すとおり、以下を繰り返す：
処理4.3.0：次のページ説明区間の時間を加算したとき合計時間が以下の何れに該当するかを判定し、それぞれ続く処理を行う。
処理 4.3.1： 10分以上15分未満（10m00s～14m59s）の場合、次ページとの時間的連続度について「高」の属性を付与し、処理4.3.0に戻る。
処理 4.3.2： 15分以上18分未満（15m00s～17m59s）の場合、次ページとの時間的連続度について「中」の属性を付与し、処理4.3.0に戻る。
処理 4.3.3： 18分以上（18m00s～）の場合、次ページとの時間的連続度について「低」の属性を付与し、処理4.3.0に戻る。

第４ステップ（処理4.4）においては、図４０に示すとおり、以下を繰り返す：
処理4.4.0：次のページ説明区間の時間を加算したとき合計時間が以下の何れに該当するかを判定し、それぞれ続く処理を行う。
処理4.4.1： 15分以上18分未満（15m00s～17m59s）の場合、次ページとの時間的連続度について「中」の属性を付与し、処理 4.4.0 に戻る。
処理 4.4.2： 18分以上（18m00s～）の場合、次ページとの時間的連続度について「低」の属性を付与し、処理4.4.0に戻る。

第５ステップ（処理4.5）においては、図４１に示すとおり、以下を実行する：
処理4.5.0：音声文字列スタックD7を言語解析し、現在のページ説明区間内での18分経過直前にある発話区切り（文末）位置を「追加ページ区切り位置」とする。
処理4.5.1：「追加ページ区切り位置」を末尾とするページ説明区間については、次ページとの時間的連続度に「低」の属性を付与する。
処理4.5.2：「追加ページ区切り位置」を先頭とするページ説明区間については、初期ステップ（処理 4.0）に戻る。

分割位置判定ブロックS5では、資料解析ブロックS2で生成された意味的連続度スタックD6と音声解析ブロックS4で生成された時間的連続度スタックD10を掛け合わせて、各接続点について連続あるいは分割の属性を判定した分割位置スタックD11を生成する。

分割位置の判定基準は、図４２に示すように、以下に従う：
・「意味的連続度」、「時間的連続度」の何れかが「低」の場合は分割する。
・「意味的連続度」、「時間的連続度」の両方が「中」の場合は分割する。
・「意味的連続度」、「時間的連続度」の一方が「高」、一方が「中」、の場合は連続する。

図４３に例を示すように、分割位置スタックD11のデータフォーマットは次の通り：
接続点番号／接続点タイムスタンプ／連続属性0または分割属性1
接続点番号／接続点タイムスタンプ／連続属性0または分割属性1
接続点番号／接続点タイムスタンプ／連続属性0または分割属性1
注）上記データ列が接続点の個数分連続する。

このデータフォーマットによる分割位置スタックD11に基づく分割処理の一例を図４３に示すが、この例においては、全体を８本の短編動画に分割することを示している。

分割ブロックS6では、図４４で示す通り、バッファリング・ブロックS3で格納された配信済動画C3を、前記の分割位置スタックD11上で分割属性１を付与されたタイムスタンプ位置で分割し、生成されたN個の動画区分1～N（C4.1～C4.N）を後編集ブロックS7に送る。

後編集ブロックS7では、図４５で示すように、以下の処理を行う。

短編動画タイトル作成S7.1：バッファリング・ブロックS3で録画され、分割ブロックS6で分割生成された動画区分のうち最初の動画区分１（C4.1）冒頭にある資料タイトルページ映像を一定秒数（例：３～５秒など）で切り出したものに、短編番号の文字列（例えば「Vol. 1」）を重畳し、短辺動画タイトル1～N（C5.1～C5.N）として保持しておく。

ページ切替え時点抽出S7.2： N個の動画区分1～N（C4.1～C4.N）をスキャンし、画像認識によってページ切換えが起きた時点のタイムスタンプを抽出し、ページ切替え時点スタックD12に記録する。

リマインド映像生成S7.3：各動画データから、ページ切替え時点スタックD12のタイムスタンプに従い、各ページシーンの静止画像を一定秒数（例：３～５秒など）のみ表示したリマインド映像（C6.1～C6.N）を生成する。

その後、図４６に示す通り、動画区分１（C4.1）の場合と動画区分N（C4.N）の場合それぞれに最適化した以下の素材結合S7.4を行う。

素材結合S7.4、動画区分1（C4.1）の場合：短編動画タイトル1（C5.1）に配信者が任意で用意する背景音楽C7を付加したうえで、後方に動画１（C4.1）を連結し、さらに後方に短編動画タイトル1（C5.1）画面上に次の短編番号2を含む案内文字列（例えば「次はVol. 2」など）を重畳し、背景音楽C7を付加した物を連結し、短編動画1（C8.1）の完成版としてサーバH3内の記憶装置H3.2に保存する。

素材結合S7.4、動画区分2～N（C4.2～C4.N）の場合：短編動画タイトル2～N（C5.2～C5.N）に配信者が任意で用意する背景音楽C7を付加したうえで、後方に、直前の動画のリマインド映像1～N-1（C6.1～C6.N-1）を連結し、そこに配信者が任意で用意する背景音楽C7 を付加したうえで、後方に動画区分2～N（C4.2～C4.N）を連結し、さらにその後方に短編動画タイトル２～N（C5.2～C5.N）画面上に次の短編番号3～Nを含む案内文字列（例えば「次はVol. 3」など）を重畳し、背景音楽C7を付加したものを連結し、短編動画2～N（C8.2～C8.N）の完成版としてサーバH3内の記憶装置H3.2に保存する。

前記の短編動画視聴プログラムP2は、図１１に示すとおり、何れかの視聴者端末から同動画内における配信済み特定箇所に対する再視聴要求が発信された時、視聴者要求受信ブロックS9によって、当該要求を受信する再視聴要求受信手段を提供し、要求区間特定ブロックS10によって、要求された再視聴対象箇所を特定する要求区間特定手段を提供し、加速再生時間算出ブロックS11によって、再視聴要求区間を配信者が任意に設定する加速度によって加速再生したのち配信走行に追いつくまでの未視聴区間を引き続き同じ加速度で加速再生した場合の合計所用時間を算出する加速再生時間算出手段を提供し、要求区間加速再生ブロックS12によって、再視聴要求区間を当該視聴者端末に対して個別に加速再生する要求区間加速再生手段を提供し、再視聴要求区間の加速再生完了後は、追尾区間加速再生ブロックS13によって、再視聴要求区間の加速再生完了時点から配信走行に追いつくまでの未視聴区間を加速再生する追尾区間加速再生手段を提供する。

視聴者は、図５で示した３種のユースケースについて、以下に記述するように、ユースケース１と２については図１２にて示す処理ステップ、ユースケース３については図１３にて示す処理ステップに沿って、サーバH3内の記憶装置H3.2に保存された短編動画1～N（C8.1～C8.N）を利用する。

ユースケース１の処理ステップ：視聴者が配信済部分の一部を再視聴したい場合、図４７に示すように、先ず視聴者は本システムの画面にある「再視聴」ボタンを押して第１操作メニューM1を表示し、そこにある「部分的に再視聴」ボタンを押して要求を発信する。

「部分的に再視聴」の要求は、最低１本の短編動画が既に生成済みの場合に発信可能となり、配信終了まで要求発信可能状態が継続する。

「部分的に再視聴」の要求を発信すると、以下の処理が実行される。

画面にはサーバH3内の記憶装置H3.2に保存済みの短編動画1～N（C8.1～C8.N）の一覧が、それぞれの時間情報と共に表示される。視聴者は自分が視聴したい箇所について1個～N個の短編動画を任意選択し、「視聴開始」ボタンを押して視聴開始指示を行うと、図４９で推移を示すように、以下の処理が実行される。

まず、視聴者が選択した短編動画のうち時間軸上で最初の短編動画N（C8.N）が、配信者が任意で設定する加速度Xにより加速再生されるが、発話音声には自然化処理が施され、発話音声のトーンは話者肉声に近いままX倍速で発話された状態の音声となって聞こえる（既存の音声フィルタ技術を使用）。

最初に再視聴選択をされた短編動画N（C8.N）の加速再生が終わると、第２の短編動画N+1（C8.N+1）の加速再生、さらに第３の短編動画N+2（C8.N+2）の加速再生、と選択された短編動画（1個～N個）を全て時間軸に沿って連続的に加速再生する。

再生選択をされた短編動画（１個～N個）全ての加速再生が完了すると、続けて、最初に「再視聴」ボタンを押して再視聴要求を発信した時点以降に未視聴となった部分を引き続き加速再生し、進行中の配信の走行位置に追いついた時点で、実速度での通常配信に戻る。

ユースケース２の処理ステップ：視聴者が配信済部分を最初から再視聴したい場合、図４８に示すように、視聴者は本システムの画面にある「再視聴」ボタンを押して第１操作メニューM1を表示し、そこにある「先頭から再視聴」ボタンを押して当該要求を発信すると、図５０で推移を示すように、以下の処理が実行される。

視聴者から「先頭から再視聴」の要求が発信されると、短編動画視聴プログラムP2は短編動画生成プログラムP1のバッファリング・ブロックS3に格納された配信済動画C3を読み出し、その先頭から配信者が任意で設定する加速度Xにより加速再生するが、その際、発話音声には自然化処理が施され、発話音声のトーンは話者肉声に近いままX倍速で発話された状態の音声となって聞こえる（既存の音声フィルタ技術を使用）。

先頭からの加速再生が、最初に「再視聴」ボタンを押して再視聴要求を発信した時点に到達した後は、要求発信時以降に未視聴となっている部分について引き続き加速再生を続け、進行中の配信の走行位置に追いついた時点で、実速度での通常配信に戻る。

ユースケース３の処理ステップ：配信終了後に、視聴者が再視聴したい場合、図５１に示すように、視聴者が本システムの画面にある「再視聴」ボタンを押すと、「部分的に再視聴」または「全編を再視聴」の選択肢の載った第２操作メニューM2が表示される。

第２操作メニューM2の上で「部分的に再視聴」を選択すると、画面にはサーバH3内の記憶装置H3.2に保存済みの短編動画1～N（C8.1～C8.N）の一覧が、それぞれの時間情報と共に表示される。視聴者は自分が視聴したい箇所について1個～N個の短編動画を選択し、「実速度で再視聴」または「加速して再視聴」のボタンを押す。

「実速度で再視聴」のボタンを押した場合、選択された１個～N個の短編動画が配信時刻の古い順に実速度再生される。

「加速して再視聴」のボタンを押した場合、選択された１個～N個の短編動画が配信時刻の古い順に、配信者が任意で設定した加速度Xにより加速再生される。

また、ユースケース３において、図５２に示すように、第２操作メニューM2の上で「全編を再視聴」を選択すると、「実速度で再視聴」および「加速して再視聴」のボタンが表示される。

「実速度で再視聴」ボタンを押すと、全ての短編動画が配信時刻の古い順に実速度再生される。

「加速して再視聴」ボタンを押すと、全ての短編動画が配信時刻の古い順に、配信者が任意で設定した加速度Xにより加速再生される。

H1 配信者端末
H1.1 プロセッサ
H1.2 音声入力装置
H1.3 表示装置
H1.4 記憶装置
H1.5 通信装置
H1.6 バス
H2 ネットワーク
H3 サーバ
H3.1 プロセッサ
H3.2 記憶装置
H3.3 通信装置
H3.4 バス
H4 視聴者端末
H4.1 プロセッサ
H4.2 音声出力装置
H4.3 表示装置
H4.4 記憶装置
H4.5 通信装置
H4.6 バス
C1 発話音声
C2 配信ストリーム
C3 配信済動画
C4.1 動画区分１
C4.2 動画区分２
C４.N 動画区分N
C5.1 短編動画タイトル1
C5.2 短編動画タイトル2
C5.N 短編動画タイトルN
C6.1 リマインド映像1
C6.2 リマインド映像2
C6.N-1 リマインド映像N-1
C7 背景音楽
C8.1 短編動画１
C8.2 短編動画２
C8.3 短編動画３
C8.4 短編動画４
C8.5 短編動画５
C8.6 短編動画６
C８.N 短編動画N
C9 全体動画
D1 資料データ
D2 データスタック
D3 資料構造ツリー
D4 用語辞書
D5 資料キーワードスタック
D6 意味的連続度スタック
D7 音声文字列スタック
D8 音声文字列キーワードスタック
D9 ページ区切り位置スタック
D10 時間的連続度スタック
D11 分割位置スタック
D12 ページ切り換え時点スタック
D13 要求時タイムスタンプ
D14 再生完了予定タイムスタンプ
P1 短編動画生成プログラム
P2 短編動画視聴プログラム
M1 第１操作メニュー
M2 第２操作メニュー
S1 配信ブロック
S2 資料解析ブロック
S3 バッファリング・ブロック
S4 音声解析ブロック
S5 分割位置判定ブロック
S6 分割ブロック
S7 後編集ブロック
S8 録画ブロック
S9 視聴者要求受信ブロック
S10 要求区間特定ブロック
S11 加速再生時間算出ブロック
S12 要求区間加速再生ブロック
S13 追尾区間加速再生ブロック

Claims

文字を含む映像と音声からなる動画コンテンツのオンライン配信サービスにおける動画に使用する素材データに含まれる文字列データ、および画像・映像データから画像認識によって生成される文字列データ、のそれぞれからキーワードを抽出する文字列解析手段と、素材データ上のキーワードの出現箇所と出現回数を検証することで、動画素材データ全体の流れの上に存在する意味的区分を検出する意味解析手段と、検出された意味的区分を構成する各キーワードが動画配信の過程で登場する動画配信時間軸上の位置を検出することで、各意味的区分が動画配信時間軸上で持つ区分開始位置、区分終了位置、及びそれらに基づく区分配信時間長、で構成される配信時間区分情報を検出する配信進行監視手段と、動画素材データ上の意味的区分情報と動画配信実施時の配信時間区分情報を掛合わせ、意味内容の伝達効率と時間的な取り扱い易さへの観点に基づいて算出する最適な各区分の開始位置情報と終了位置情報に基づいて、動画全編を複数の動画区分に分割する動画区分生成手段と、生成された複数の各動画区分に、配信済動画データの一部を加工して生成した区分タイトル動画データ、直前の動画区分内容を要約したリマインド動画データ、および区分エンディング動画データを付加することにより、各動画区分を、独立していながらもシリーズ化されている短編動画作品に加工する補足編集手段を有するプログラム。
前記の進行監視手段は、少なくとも、発話音声データを文字列に変換する音声解析手段を有する請求項１記載のプログラム。
前記の補足編集手段は、少なくとも、動画配信データの逐次記憶手段を有する請求項１記載のプログラム。
文字を含む映像と音声からなる動画コンテンツのオンライン配信サービスにおいて、動画配信中に何れかの視聴者端末から配信済み特定箇所に対する再視聴要求が発信された際、当該要求を受信する視聴者要求受信手段と、要求された再視聴対象箇所を特定する要求区間特定手段と、再視聴要求区間を配信者が任意に設定する加速度によって加速再生したのち配信走行に追いつくまでの未視聴区間を引き続き同じ加速度で加速再生した場合の合計所用時間を算出する加速再生時間算出手段と、再視聴要求区間を当該視聴者端末に対して個別に加速再生する要求区間加速再生手段と、再視聴要求区間の加速再生完了時点から配信走行に追いつくまでの未視聴区間を加速再生する追尾区間加速再生手段を有するプログラム。
前記の要求区間特定手段は、少なくとも、画面上のメニュー表示により、
視聴者の再視聴要求区間を特定する視聴者対話手段を有する請求項４記載のプログラム。
前記の加速再生時間算出手段は、少なくとも、再視聴要求区間と追尾区間の加速再生の終了時点が配信終了時点の後になると算出される場合、再視聴要求区間と追尾区間について実速度再生する判断を行う例外処理手段を有する請求項４記載のプログラム。