JP2022065694A

JP2022065694A - 情報処理方法、情報処理システムおよびプログラム

Info

Publication number: JP2022065694A
Application number: JP2020174321A
Authority: JP
Inventors: 直之安立; Naoyuki Adachi; 克己石川; Katsumi Ishikawa; 大智井芹; Hirotomo Iseri; 祐二小池; Yuji Koike; 謙一良齋藤; Kenichiro Saito; 康之介加藤; Konosuke Kato
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2020-10-16
Filing date: 2020-10-16
Publication date: 2022-04-28

Abstract

【課題】動画データが表す動画に対する影響を抑制しながら、当該動画と音との間に統一感があるコンテンツを生成する。【解決手段】編集システム２０は、複数の動画区間を含む動画データＸ1と複数の音区間を含む音データＹ1とを処理するシステムであり、複数の動画区間のうち第１動画区間と当該第１動画区間に後続する第２動画区間との境界点において、複数の音区間のうちの第１音区間から当該第１音区間以外の第２音区間に切替わるように、音データＹ1を処理する音データ処理部５３を具備する。【選択図】図３

Description

本開示は、動画と音とを含むコンテンツを生成するための技術に関する。

動画と音とを含むコンテンツを作成するための各種の技術が従来から提案されている。例えば特許文献１には、楽曲の曲調が変化する時点において動画が切替わるようにスライドショー動画を生成する技術が開示されている。

特開２００７－１８８５６１号公報

特許文献１の技術においては、楽曲の曲調が変化する時点において動画が強制的に切替わるため、作成者が意図した動画を含むコンテンツを作成することは実際には困難である。以上の事情を考慮して、本開示のひとつの態様は、動画データが表す動画に対する影響を抑制しながら、当該動画と音との間に統一感があるコンテンツを生成することを目的とする。

以上の課題を解決するために、本開示のひとつの態様に係る情報処理方法は、複数の動画区間を含む動画データと複数の音区間を含む音データとを処理する情報処理方法であって、前記複数の動画区間のうち第１動画区間と当該第１動画区間に後続する第２動画区間との境界点において、前記複数の音区間のうちの第１音区間から当該第１音区間以外の第２音区間に切替わるように、前記音データを処理する。本開示の他の態様に係る情報処理方法は、複数の動画区間を含む動画データと音を表す音データとを処理する情報処理方法であって、前記複数の動画区間のうち第１動画区間と当該第１動画区間に後続する第２動画区間との境界点を含む遷移期間内において音量が減少するように、前記音データを処理する。

本開示のひとつの態様に係る情報処理システムは、複数の動画区間を含む動画データと複数の音区間を含む音データとを処理する情報処理システムであって、前記複数の動画区間のうち第１動画区間と当該第１動画区間に後続する第２動画区間との境界点において、前記複数の音区間のうちの第１音区間から当該第１音区間以外の第２音区間に切替わるように、前記音データを処理する音データ処理部を具備する。本開示の他の態様に係る情報処理システムは、複数の動画区間を含む動画データと音を表す音データとを処理する情報処理システムであって、前記複数の動画区間のうち第１動画区間と当該第１動画区間に後続する第２動画区間との境界点を含む遷移期間内において音量が減少するように、前記音データを処理する音データ処理部を具備する。

本開示のひとつの態様に係るプログラムは、複数の動画区間を含む動画データと複数の音区間を含む音データとを処理するためのプログラムであって、コンピュータを、前記複数の動画区間のうち第１動画区間と当該第１動画区間に後続する第２動画区間との境界点において、前記複数の音区間のうちの第１音区間から当該第１音区間以外の第２音区間に切替わるように、前記音データを処理する音データ処理部として機能させる。本開示の他の態様に係るプログラムは、複数の動画区間を含む動画データと音を表す音データとを処理するためのプログラムであって、コンピュータを、前記複数の動画区間のうち第１動画区間と当該第１動画区間に後続する第２動画区間との境界点を含む遷移期間内において音量が減少するように、前記音データを処理する音データ処理部として機能させる。

第１実施形態に係る情報システムの構成を例示するブロック図である。編集システムの構成を例示するブロック図である。編集システムの機能的な構成を例示するブロック図である。編集システムの制御装置が実行する動作のフローチャートである。第１実施形態における編集処理の説明図である。第１実施形態における編集処理のフローチャートである。第２実施形態における編集処理の説明図である。第２実施形態における編集処理のフローチャートである。第３実施形態における編集処理の説明図である。第３実施形態における編集処理のフローチャートである。第４実施形態における編集処理の説明図である。第５実施形態における端末装置の構成を例示するブロック図である。第５実施形態における端末装置の機能的な構成を例示するブロック図である。

Ａ：第１実施形態
図１は、第１実施形態における情報システム１００の構成を例示するブロック図である。第１実施形態の情報システム１００は、端末装置１０と編集システム２０とを具備する。端末装置１０と編集システム２０とは、例えばインターネット等の通信網３０を介して相互に通信する。

端末装置１０は、例えば携帯電話機、スマートフォン、タブレット端末またはパーソナルコンピュータ等の情報端末である。端末装置１０は、素材データＤを編集システム２０に送信する。素材データＤは、動画データＸ1と音データＹ1とを含む。動画データＸ1は、動画を表すデータである。例えば、端末装置１０に搭載された撮像装置により動画データＸ1が生成される。音データＹ1は、動画データＸ1の動画に対して並行に再生されるべき音を表すデータである。具体的には、第１実施形態の音データＹ1は、動画データＸ1の動画の背景音楽として再生される楽曲の演奏音（楽器音または歌唱音）を表すデータである。

編集システム２０は、端末装置１０から受信した素材データＤを利用してコンテンツＣを生成するコンピュータシステムである。コンテンツＣは、動画データＸ2と音データＹ2とを含む映像コンテンツである。動画データＸ2は、動画データＸ1の編集により生成される。音データＹ2は、音データＹ1の編集により生成される。すなわち、素材データＤは、コンテンツＣの素材となるデータである。編集システム２０は、コンテンツＣを端末装置１０に送信する。端末装置１０は、編集システム２０から受信したコンテンツＣを再生する。すなわち、動画データＸ2が表す動画と音データＹ2が表す音（具体的には楽曲の演奏音）とが並行に再生される。

図２は、編集システム２０の構成を例示するブロック図である。編集システム２０は、制御装置２１と記憶装置２２と通信装置２３とを具備する。なお、編集システム２０は、単体の装置で実現されるほか、相互に別体で構成された複数の装置でも実現される。

制御装置２１は、編集システム２０の各要素を制御する単数または複数のプロセッサである。具体的には、例えばＣＰＵ（Central Processing Unit）、ＳＰＵ（Sound Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＦＰＧＡ（Field Programmable Gate Array）、またはＡＳＩＣ（Application Specific Integrated Circuit）等の１種類以上のプロセッサにより、制御装置２１が構成される。

記憶装置２２は、制御装置２１が実行するプログラムと制御装置２１が使用する各種のデータとを記憶する単数または複数のメモリである。記憶装置２２は、例えば磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または、複数種の記録媒体の組合せで構成される。また、編集システム２０に対して着脱される可搬型の記録媒体、または制御装置２１が通信網３０を介して書込または読出を実行可能な記録媒体（例えばクラウドストレージ）を、記憶装置２２として利用してもよい。

通信装置２３は、端末装置１０との間で通信網３０を介して通信する。具体的には、通信装置２３は、端末装置１０から送信された素材データＤを受信する。また、通信装置２３は、素材データＤから生成したコンテンツＣを端末装置１０に送信する。

図３は、編集システム２０の機能的な構成を例示するブロック図である。編集システム２０の制御装置２１は、記憶装置２２に記憶されたプログラムを実行することで、素材データＤからコンテンツＣを生成および提供するための複数の機能（素材データ取得部５１，動画データ処理部５２，音データ処理部５３およびコンテンツ提供部５４）を実現する。素材データ取得部５１は、端末装置１０から送信された素材データＤを通信装置２３により取得する。

動画データ処理部５２は、素材データＤの動画データＸ1から動画データＸ2を生成する。具体的には、動画データ処理部５２は、動画データＸ1に対して画像処理を実行することで動画データＸ2を生成する。画像処理は、例えば動画のうち特定の区間の抽出または画質の調整等の各種の処理を含む。なお、動画データＸ1および動画データＸ2の形式は任意である。

音データ処理部５３は、素材データＤの音データＹ1から音データＹ2を生成する。第１実施形態における音データＹ1および音データＹ2は、例えば音の波形を表すサンプルの時系列で構成される。動画データ処理部５２が生成した動画データＸ2と音データ処理部５３が生成した音データＹ2とによりコンテンツＣが構成される。すなわち、動画データ処理部５２および音データ処理部５３は、素材データＤからコンテンツＣを生成する要素として機能する。コンテンツ提供部５４は、動画データＸ2と音データＹ2とを含むコンテンツＣを、通信装置２３から端末装置１０に送信する。

図４は、制御装置２１が実行する動作の具体的な手順を例示するフローチャートである。端末装置１０の利用者からの指示を契機として図４の処理が開始される。処理が開始されると、制御装置２１（素材データ取得部５１）は、端末装置１０から送信された素材データＤを通信装置２３により受信する（Ｓa）。動画データ処理部５２は、素材データＤの動画データＸ1から動画データＸ2を生成する（Ｓb）。音データ処理部５３は、素材データＤの音データＹ1から音データＹ2を生成する（Ｓc：編集処理）。コンテンツ提供部５４は、動画データＸ2と音データＹ2とを含むコンテンツＣを通信装置２３から端末装置１０に送信する（Ｓd）。

図５は、編集処理Ｓcの説明図である。動画データＸ2は、時間軸上に配列された複数（Ｍ個）の動画区間Ｖ1～ＶMを含む（Ｍは２以上の自然数）。各動画区間Ｖm（ｍ＝１～Ｍ）は、動画データＸ2が表す動画をシーン毎に時間軸上で区分した期間である。Ｍ個の動画区間Ｖ1～ＶMは、相互に間隔をあけずに時間軸上で連続し、ひとつの主題に関連する一連のストーリーを構成する。例えば、ひとつの企業を紹介する動画、または当該企業が取扱う製品を紹介する動画等、観念的に統一感がある一連のストーリーが、Ｍ個の動画区間Ｖ1～ＶMにより構成される。Ｍ個の動画区間Ｖ1～ＶMのうち任意の１個の動画区間Ｖmは、例えば、動画のうち意味的な纏まりがある１個の場面に対応する区間、または、撮像装置による１回の撮像動作で撮像された区間である。ただし、１個の動画区間Ｖmが複数の場面を含む場合、または、１個の動画区間Ｖmが複数回の撮像動作で撮像された期間を含む場合も想定される。なお、Ｍ個の動画区間Ｖ1～ＶMの時間的または観念的な連続性は必須ではない。例えば、各動画区間Ｖmが間隔をあけて前後する形態、または２以上の動画区間Ｖmに関する主題が相違する形態も想定される。また、１個の動画区間Ｖmにおける意味的な纏まりも必須ではない。

各動画区間Ｖmは可変長である。各動画区間Ｖmの時間長は、基本的には相違する。ただし、任意の２以上の動画区間Ｖmにわたり時間長が共通してもよい。動画データＸ2においては、時間軸上で相前後する動画区間Ｖmと動画区間Ｖm+1との境界の時点（以下「境界点」という）Ｐmが指定される。境界点Ｐmは、動画区間Ｖmの端点（具体的には終点）とも換言される。

音データＹ1は、時間軸上に配列された複数（Ｍ個）の音区間Ａ1～ＡMを含む。動画データＸ2の各動画区間Ｖmと音データＹ1の各音区間Ａmとは相互に対応する。具体的には、動画データＸ1の各動画区間Ｖmと音データＹ1の各音区間Ａmとが相互に対応付けられた素材データＤを、素材データ取得部５１は端末装置１０から取得する。例えば、端末装置１０の利用者からの指示に応じて各動画区間Ｖmに対応する音区間Ａmが選択される。なお、音データＹ1は、Ｍ個の音区間Ａ1～ＡMにわたり連続するひとつのデータ、または、相異なる音区間Ａmに対応する複数のデータの集合である。

各音区間Ａmは、音データＹ1が表す楽曲を音楽的な意味に応じて時間軸上で区分した構造区間である。例えば、各音区間Ａmは、イントロ（intro）、Ａメロ（verse）、Ｂメロ（bridge）、サビ（chorus）およびアウトロ（outro）等の期間に該当する。各音区間Ａmの端点（始点または終点）を指定するデータが、音データＹ1には設定される。各音区間Ａmの端点を指定するデータは、各構造区間の始点を指示するリハーサルマークに相当する。なお、各音区間Ａmの時間長は、当該音区間Ａmに対応する動画区間Ｖmの時間長を上回る。

音データ処理部５３は、動画データＸ2のＭ個の動画区間Ｖ1～ＶMの各々において当該動画区間Ｖmに対応する音区間Ａmが開始されるように、音データＹ1を加工することで音データＹ2を生成する。すなわち、音データ処理部５３は、Ｍ個の動画区間Ｖ1～ＶMのうち動画区間Ｖmと直後の動画区間Ｖm+1との境界点Ｐmにおいて、Ｍ個の音区間Ａ1～ＡMのうち音区間Ａmから直後の音区間Ａm+1に切替わるように、音データＹ1から音データＹ2を生成する。例えば、動画区間Ｖ1と動画区間Ｖ2との境界点Ｐ1において音区間Ａ1から音区間Ａ2への切替が発生し、動画区間Ｖ2と動画区間Ｖ3との境界点Ｐ2において音区間Ａ2から音区間Ａ3への切替が発生する。具体的には、第１実施形態の音データ処理部５３は、音区間Ａmのうち境界点Ｐmに一致する途中の時点から直後の音区間Ａm+1に切替わるように、音データＹ1を処理することで音データＹ2を生成する。

具体的には、第１実施形態の音データ処理部５３は、音データＹ1の音区間Ａmのうち始点を含む一部の期間（以下「特定区間」という）Ｂmを抽出し、相異なる音区間Ａmに対応するＭ個の特定区間Ｂ1～ＢMを時系列に順番で相互に連結することで音データＹ2を生成する。特定区間Ｂmは、音区間Ａmのうち当該音区間Ａmの始点から動画区間Ｖmの時間長にわたる区間である。音区間Ａmのうち終点を含む一部の区間（特定区間Ｂm以外の区間）は除去される。以上の説明から理解される通り、各音区間Ａmの時間長が動画区間Ｖmの時間長に一致するように、音区間Ａmのうち末尾側の区間が除去される。

図６は、編集処理Ｓcの具体的な手順を例示するフローチャートである。動画データ処理部５２による動画データＸ2の生成を契機として編集処理Ｓcが開始される。

編集処理Ｓcが開始されると、音データ処理部５３は、動画データＸ2のＭ個の動画区間Ｖ1～ＶMから１個の動画区間Ｖmを選択する（Ｓc11）。各動画区間Ｖmが時系列の順番で順次に選択される。音データ処理部５３は、音データＹ1のＭ個の音区間Ａ1～ＡMのうち動画区間Ｖmに対応する１個の音区間Ａmを選択する（Ｓc12）。音データ処理部５３は、選択中の音区間Ａmのうち当該音区間Ａmの始点から動画区間Ｖmの時間長にわたる特定区間Ｂmを抽出する（Ｓc13：抽出処理）。音データ処理部５３は、抽出処理Ｓc13で抽出した特定区間Ｂmを、直前の抽出処理Ｓc13で抽出した特定区間Ｂm-1の末尾に連結する（Ｓc14：連結処理）。なお、最初の音区間Ａ1から抽出された特定区間Ｂ1は、音データＹ2の先頭に配置される。

音データ処理部５３は、Ｍ個の音区間Ａ1～ＡMの全部について以上の処理（Ｓc11－Ｓc14）を実行したか否かを判定する（Ｓc15）。未処理の音区間Ａmが残存する場合（Ｓc15：NO）、音データ処理部５３は、動画データＸ2のＭ個の動画区間Ｖ1～ＶMのうち現時点で選択している動画区間Ｖmの直後の動画区間Ｖm+1を処理対象の動画区間Ｖmとして選択し（Ｓc11）、更新後の動画区間Ｖmについて音区間Ａmの選択（Ｓc12）と抽出処理Ｓc13と連結処理Ｓc14とを実行する。他方、Ｍ個の音区間Ａ1～ＡMの全部を処理した場合（Ｓc15：YES）、音データ処理部５３は編集処理Ｓcを終了する。以上の説明から理解される通り、編集処理Ｓcにおいて動画データＸ2は編集されない。

以上の例示の通り、動画区間Ｖmと後続の動画区間Ｖm+1との境界点Ｐmにおいて音区間Ａmから音区間Ａm+1に切替わるように、音データ処理部５３は音データＹ1を処理する。したがって、各動画区間Ｖmと各音区間Ａmとが並行し、かつ、動画区間Ｖmの始点において音区間Ａmが開始するコンテンツＣが生成される。すなわち、端末装置１０により再生される動画が動画区間Ｖmから動画区間Ｖm+1に遷移する境界点Ｐmにおいて、端末装置１０が再生する音は、音区間Ａmの途中の時点（特定区間Ｂmの終点）から音区間Ａm+1に切替わる。他方、動画データＸ2が指定する各動画区間Ｖmの時間長は変更されない。以上の説明から理解される通り、第１実施形態によれば、動画データＸ2が表す動画に対する影響を抑制しながら、当該動画の変化と音の変化との間に統一感があるコンテンツＣを生成できる。

また、第１実施形態においては、各動画区間Ｖmの境界点Ｐmにおいて音区間Ａm+1を開始させる簡便な処理により、動画区間Ｖmと動画区間Ｖm+1との境界点Ｐmにおいて音区間Ａmから音区間Ａm+1への切替を発生させることが可能である。なお、動画区間Ｖmは「第１動画区間」の一例であり、動画区間Ｖm+1は「第２動画区間」の一例である。また、音区間Ａmは「第１音区間」の一例であり、直後の音区間Ａm+1は「第２音区間」の一例である。

Ｂ：第２実施形態
第２実施形態について説明する。なお、以下に例示する各形態において機能が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。

図７は、第２実施形態における編集処理Ｓcの説明図である。第１実施形態においては、各音区間Ａmのうち終点を含む一部を削除することで、各音区間Ａmの端点と各動画区間Ｖmの端点とを時間軸上で一致させた。第２実施形態の音データ処理部５３は、各音区間Ａmを時間軸上において短縮または伸長することで、各音区間Ａmの端点と各動画区間Ｖmの端点とを時間軸上で一致させる。具体的には、音データ処理部５３は、各音区間Ａmの進行速度（例えばテンポ）を調整することで、当該音区間Ａmを動画区間Ｖmの時間長に短縮または伸長する。

図８は、第２実施形態における編集処理Ｓcの具体的な手順を例示するフローチャートである。編集処理Ｓcが開始されると、音データ処理部５３は、第１実施形態と同様に、動画区間Ｖmの選択（Ｓc21）と音区間Ａmの選択（Ｓc22）とを実行する。

第２実施形態の音データ処理部５３は、第１実施形態の抽出処理Ｓc13に代えて伸縮処理Ｓc23を実行する。伸縮処理Ｓc23は、音区間Ａmの時間長が動画区間Ｖmの時間長に一致するように音区間Ａmを短縮または伸長する処理である。伸縮処理Ｓc23には公知の伸縮技術が任意に採用される。音データ処理部５３は、伸縮処理Ｓc23による伸縮後の音区間Ａmを、直前の伸縮処理Ｓc23による伸縮後の音区間Ａm-1の末尾に連結する（Ｓc24）。なお、最初の音区間Ａmは音データＹ2の先頭に配置される。Ｍ個の音区間Ａ1～ＡMの全部について以上の処理が反復される（Ｓc25）。第１実施形態と同様に、第２実施形態の編集処理Ｓcにおいても動画データＸ2は編集されない。

以上に例示した編集処理Ｓcにより、各動画区間Ｖmと各音区間Ａmとが並行し、かつ、動画区間Ｖmの始点において音区間Ａmが開始するコンテンツＣが生成される。したがって、第１実施形態と同様に、動画データＸ2が表す動画に対する影響を抑制しながら、当該動画の変化と音の変化との間に統一感があるコンテンツＣを生成できる。また、第２実施形態においては、各音区間Ａmが伸縮されるから、各音区間Ａmが途中の時点で不連続に途切れる可能性が低減される。また、音区間Ａmの時間長が動画区間Ｖmの時間長を下回る場合に、音区間Ａmを伸長することで、音区間Ａmが動画区間Ｖmに対して不足する可能性が低減される。

第１実施形態および第２実施形態における音データ処理部５３は、動画区間Ｖmと動画区間Ｖm+1との境界点Ｐmにおいて音区間Ａmから音区間Ａm+1に切替わるように音データＹ1を処理する要素として包括的に表現される。

Ｃ：第３実施形態
図９は、第３実施形態の音データ処理部５３が実行する編集処理Ｓcの説明図である。第３実施形態においては、音データＹ1が表す音の各音区間Ａmの時間長が、動画データＸ2が表す動画の各動画区間Ｖmと同等の時間長に設定された場合を想定する。なお、第３実施形態および第４実施形態においては、各音区間Ａmの区別は必須ではない。

図９の遷移期間Ｑは、動画データＸ2が表す動画のＭ個の動画区間Ｖ1～ＶMのうち相前後する動画区間Ｖmと動画区間Ｖm+1との境界点Ｐmに対応する期間である。具体的には、遷移期間Ｑは境界点Ｐmを含む期間である。第１実施形態においては、境界点Ｐmを終点とする期間を遷移期間Ｑとして例示する。遷移期間Ｑは所定の時間長に設定される。ただし、遷移期間Ｑの時間長を、例えば端末装置１０の利用者からの指示に応じた可変長としてもよい。

第３実施形態の音データ処理部５３は、遷移期間Ｑ内において遷移期間Ｑ外よりも音量が減少するように音データＹ1を処理することで、音データＹ2を生成する。具体的には、音データ処理部５３は、遷移期間Ｑの始点ｑ1から終点ｑ2にかけて音量が減少し、かつ、遷移期間Ｑの終点ｑ2において音量が増加するように、音データＹ1を処理する。例えば、音データ処理部５３は、音データＹ1を構成する各サンプルに調整値Ｇを乗算することで音データＹ2を生成する。音データ処理部５３は、基準値ｇHと最小値ｇLとの間の範囲内で調整値Ｇを経時的に変化させる。基準値ｇHは、最小値ｇLを上回る数値である。例えば、基準値ｇHは１に設定され、最小値ｇLは０に設定される。

第３実施形態の音データ処理部５３は、第１に、遷移期間Ｑ外においては調整値Ｇを基準値ｇHに維持する。第２に、音データ処理部５３は、遷移期間Ｑの始点ｑ1から終点ｑ2にかけて調整値Ｇを基準値ｇHから最小値ｇLまで経時的に減少させる。遷移期間Ｑ内において、調整値Ｇは、例えば所定の変化率で直線的に減少する。ただし、調整値Ｇは、例えば可変の変化率で曲線的に変化してもよい。第３に、音データ処理部５３は、遷移期間Ｑの終点ｑ2において調整値Ｇを最小値ｇLから基準値ｇHまで増加させる。

図１０は、第３実施形態における編集処理Ｓcの具体的な手順を例示するフローチャートである。編集処理Ｓcが開始されると、音データ処理部５３は、動画データＸ2を参照することで、相異なる境界点Ｐmに対応する複数の遷移期間Ｑを時間軸上に設定する（Ｓc31）。音データ処理部５３は、複数の遷移期間Ｑの何れかを選択する（Ｓc32）。

音データ処理部５３は、選択中の遷移期間Ｑ内において音量が減少するように音データＹ1の音量を調整する（Ｓc33：調整処理）。具体的には、音データ処理部５３は、遷移期間Ｑの始点ｑ1から終点ｑ2にかけて調整値Ｇを基準値ｇHから最小値ｇLまで経時的に減少させ、当該終点ｑ2において調整値Ｇを最小値ｇLから基準値ｇHまで増加させる。

音データ処理部５３は、複数の遷移期間Ｑの全部について調整処理Ｓc33を実行したか否かを判定する（Ｓc34）。未処理の遷移期間Ｑが残存する場合（Ｓc34：NO）、音データ処理部５３は、複数の遷移期間Ｑのうち現時点で選択している遷移期間の直後の遷移期間を選択し（Ｓc32）、更新後の遷移期間Ｑについて調整処理Ｓc33を実行する。他方、複数の遷移期間Ｑの全部について調整処理Ｓc33を実行した場合（Ｓc34：YES）、音データ処理部５３は編集処理Ｓcを終了する。以上の説明から理解される通り、編集処理Ｓcにおいて動画データＸ2は編集されない。

以上に説明した通り、第３実施形態においては、動画区間Ｖmと動画区間Ｖm+1との境界点Ｐmに対応する遷移期間Ｑ内において音量が減少するように音データＹ1が処理される。したがって、第１実施形態と同様に、動画データＸ2が表す動画に対する影響を抑制しながら、当該動画の変化と音の変化との間に統一感があるコンテンツＣを生成できる。

第３実施形態においては特に、遷移期間Ｑの始点ｑ1から終点ｑ2（境界点Ｐm）にかけて音量が減少し、遷移期間Ｑの終点ｑ2（動画区間Ｖmの始点）において音量が増加する。したがって、動画区間Ｖmの終点にかけて音量が経時的に減少し、かつ、動画区間Ｖm+1の開始とともに充分な音量で音が再生されるコンテンツＣを生成できる。

Ｄ：第４実施形態
図１１は、第４実施形態における編集処理Ｓcの説明図である。第４実施形態においては、第３実施形態と同様に、音データＹ1が表す音の各音区間Ａmの時間長が、動画データＸ2が表す動画の各動画区間Ｖmと同等の時間長に設定された場合を想定する。第４実施形態においては、第３実施形態と同様に、動画データＸ2が表す動画の相異なる境界点Ｐmを含む複数の遷移期間Ｑが設定される。各遷移期間Ｑは、境界点Ｐmを終点とする期間である。

第４実施形態の音データ処理部５３は、遷移期間Ｑ内において遷移期間Ｑ外よりも音量が減少するように音データＹ1を処理することで、音データＹ2を生成する。具体的には、音データ処理部５３は、遷移期間Ｑの始点ｑ1において音量が減少し、かつ、遷移期間Ｑの始点ｑ1から終点ｑ2にかけて音量が増加するように、音データＹ1を処理する。例えば、音データ処理部５３は、第３実施形態と同様に、音データＹ1の各サンプルに乗算される調整値Ｇを、基準値ｇHと最小値ｇLとの間の範囲内で経時的に変化させる。

第４実施形態の音データ処理部５３は、第１に、遷移期間Ｑ外においては調整値Ｇを基準値ｇHに維持する。第２に、音データ処理部５３は、遷移期間Ｑの始点ｑ1において調整値Ｇを基準値ｇHから最小値ｇLまで減少させる。第３に、音データ処理部５３は、遷移期間Ｑの始点ｑ1から終点ｑ2にかけて調整値Ｇを最小値ｇLから基準値ｇHまで経時的に増加させる。遷移期間Ｑ内において、調整値Ｇは、例えば所定の変化率で直線的に増加する。ただし、調整値Ｇは、例えば可変の変化率で曲線的に変化してもよい。

第４実施形態における編集処理Ｓcのうち調整処理Ｓc33以外の動作は第３実施形態と同様である。第４実施形態の調整処理Ｓc33において、音データ処理部５３は、遷移期間Ｑ内において音量が減少するように音データＹ1の音量を調整する。具体的には、第４実施形態の音データ処理部５３は、遷移期間Ｑの始点ｑ1において調整値Ｇを基準値ｇHから最小値ｇLまで減少させ、当該遷移期間Ｑの始点ｑ1から終点ｑ2にかけて調整値Ｇを最小値ｇLから基準値ｇHまで経時的に増加させる。

以上に説明した通り、第４実施形態においては、動画区間Ｖmと動画区間Ｖm+1との境界点Ｐmを含む遷移期間Ｑ内において音量が減少するように音データＹ1が処理される。したがって、第３実施形態と同様に、動画データＸ2が表す動画に対する影響を抑制しながら、当該動画の変化と音の変化との間に統一感があるコンテンツＣを生成できる。

第４実施形態においては特に、遷移期間Ｑの始点ｑ1において音量が減少し、遷移期間Ｑの始点ｑ1から終点ｑ2（境界点Ｐm）にかけて音量が増加する。したがって、音量が経時的に増加しながら動画区間Ｖmから動画区間Ｖm+1に切り替わるコンテンツＣを生成できる。

Ｅ：第５実施形態
図１２は、第５実施形態における端末装置１０の構成を例示するブロック図である。第１実施形態から第４実施形態においては、編集システム２０が素材データＤからコンテンツＣを生成した。第５実施形態においては端末装置１０が素材データＤからコンテンツＣを生成する。第５実施形態においては編集システム２０が省略される。

端末装置１０は、制御装置１１と記憶装置１２と再生装置１３とを具備する。なお、端末装置１０は、単体の装置で実現されるほか、相互に別体で構成された複数の装置でも実現される。例えば、再生装置１３は、端末装置１０とは別体で構成され、端末装置１０に有線または無線で接続されてもよい。

制御装置１１は、端末装置１０の各要素を制御する単数または複数のプロセッサである。具体的には、例えばＣＰＵ、ＳＰＵ、ＤＳＰ、ＦＰＧＡ、またはＡＳＩＣ等の１種類以上のプロセッサにより、制御装置１１が構成される。

記憶装置１２は、制御装置１１が実行するプログラムと制御装置１１が使用する各種のデータとを記憶する単数または複数のメモリである。記憶装置１２は、例えば磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または、複数種の記録媒体の組合せで構成される。また、端末装置１０に対して着脱される可搬型の記録媒体、または制御装置１１が通信網３０を介して書込または読出を実行可能な記録媒体（例えばクラウドストレージ）を、記憶装置１２として利用してもよい。

再生装置１３は、コンテンツＣを再生する。具体的には、再生装置１３は、コンテンツＣの動画データＸ2が表す動画を表示する表示装置１３１と、当該コンテンツＣの音データＹ2が表す音を放音する放音装置１３２（例えばスピーカまたはヘッドホン）とを具備する。

図１３は、端末装置１０の機能的な構成を例示するブロック図である。端末装置１０の制御装置１１は、記憶装置１２に記憶されたプログラムを実行することで、素材データＤからコンテンツＣを生成および提供するための複数の機能（素材データ取得部５１，動画データ処理部５２，音データ処理部５３および再生制御部５５）を実現する。すなわち、端末装置１０の機能は、第１実施形態から第４実施形態における編集システム２０の機能のうちコンテンツ提供部５４を再生制御部５５に置換した関係にある。

素材データ取得部５１は、動画データＸ1と音データＹ1とを含む素材データＤを取得する。具体的には、素材データ取得部５１は、端末装置１０の利用者からの指示に応じて素材データＤを生成または編集する。なお、素材データ取得部５１は、端末装置１０が通信網３０を介して通信可能な外部装置から素材データＤを受信してもよい。

動画データ処理部５２は、第１実施形態と同様に、素材データＤの動画データＸ1から動画データＸ2を生成する。音データ処理部５３は、素材データＤの音データＹ1から音データＹ2を生成する。具体的には、音データ処理部５３は、第１実施形態から第４実施形態の何れかに例示した編集処理Ｓcを音データＹ1に対して実行することで、音データＹ2を生成する。第１実施形態と同様に、動画データ処理部５２が生成した動画データＸ2と音データ処理部５３が生成した音データＹ2とによりコンテンツＣが構成される。

再生制御部５５は、コンテンツＣを再生装置１３に再生させる。具体的には、再生制御部５５は、動画データＸ2の供給により表示装置１３１に動画を表示させ、音データＹ2の供給により放音装置１３２に音を放音させる。したがって、端末装置１０の利用者はコンテンツＣを視聴可能である。第５実施形態においても第１実施形態と同様の効果が実現される。

第１実施形態から第４実施形態に例示した編集システム２０と、第５実施形態に例示した端末装置１０とは、動画データＸ1と音データＹ1とを処理する情報処理システムとして包括的に表現される。

Ｆ：変形例
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。

（１）前述の各形態に係る構成は適宜に併合可能である。例えば、第１実施形態または第２実施形態に例示した抽出処理（Ｓc13，Ｓc23）により各音区間Ａmを各動画区間Ｖmと同等の時間長に調整したうえで、第３実施形態または第４実施形態に例示した調整処理Ｓc33により各遷移期間Ｑ内の音量を調整してもよい。

（２）第３実施形態および第４実施形態においては、境界点Ｐmを終点とする遷移期間Ｑを例示したが、遷移期間Ｑと境界点Ｐmとの関係は以上の例示に限定されない。例えば、境界点Ｐmを始点として遷移期間Ｑを設定する形態、または、境界点Ｐmを中点として遷移期間Ｑを設定する形態も想定される。

（３）前述の各形態においては、音データＹ（Ｙ1，Ｙ2）が楽曲の演奏音（楽器音または歌唱音）を表す形態を例示したが、音データＹが表す音は音楽的な音に限定されない。例えば、音楽的な要素を含まない発話音声（言語音）を音データＹが表す形態も想定される。例えば、動画データＸ2が表す動画に並行に再生されるべき発話音声（例えば動画の登場人物による発話音声または当該動画の解説音声）を音データＹが表してもよい。

（４）前述の各形態においては、素材データＤが音データＹ1を含む構成を例示したが、素材データＤが音データＹ1に代えて文字列データを含む形態も想定される。文字列データは、動画データＸ2の動画に対して並行に再生されるべき音声に対応する文字列を表すデータである。音データ処理部５３は、素材データＤの文字列データを適用した音声合成により音データＹ1を生成し、当該音データＹ1に対する編集処理Ｓcにより音データＹ2を生成する。音声合成には公知の任意の方法が利用される。

（５）第１実施形態および第２実施形態においては、音データＹ1における各音区間Ａmの時間長を動画区間Ｖmの時間長に調整（削除または伸縮）したが、各音区間Ａmの時間長が動画区間Ｖmの時間長に応じて設定された音データＹ2を、音データ処理部５３が合成処理により生成してもよい。合成処理は、音符の時系列を表す制御データから演奏音を合成する楽音合成、または、文字列を表す制御データから発話音声または歌唱音等の音声を合成する音声合成である。音データ処理部５３は、例えば、各音区間Ａmが動画区間Ｖmと同等の時間長に設定された音データＹ2を、制御データを適用した合成処理により生成する。以上の説明から理解される通り、第１実施形態または第２実施形態において、音データＹ1に対する調整は省略されてもよい。また、第３実施形態または第４実施形態に利用される音データＹ1は、以上に例示した合成処理により生成されてもよい。

（６）前述の各形態においては、音データＹ（Ｙ1，Ｙ2）がサンプルの時系列で構成される形態を例示したが、音データＹの形式は任意である。例えば、ＭＩＤＩ（Musical Instrument Digital Interface）規格に準拠した形式の音データＹを利用してもよい。

（７）前述の各形態においては、動画データＸ（Ｘ1，Ｘ2）が動画を表す形態を例示したが、相互に並行に再生される動画および音の双方を動画データＸが表す形態も想定される。コンテンツＣが再生される状況では、動画データＸ2が表す音と音データＹ2が表す音とが並行に再生される。

（８）第１実施形態から第４実施形態における編集システム２０の機能は、前述の通り、制御装置２１を構成する単数または複数のプロセッサと、記憶装置２２に記憶されたプログラムとの協働により実現される。同様に、第５実施形態における端末装置１０の機能は、制御装置１１を構成する単数または複数のプロセッサと、記憶装置１２に記憶されたプログラムとの協働により実現される。

以上の機能を実現するためのプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号（transitory, propagating signal）を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、配信装置が通信網を介してプログラムを配信する構成では、当該配信装置においてプログラムを記憶する記憶装置が、前述の非一過性の記録媒体に相当する。

Ｇ：付記
以上に例示した形態から、例えば以下の構成が把握される。

本開示のひとつの態様（態様１）に係る情報処理方法は、複数の動画区間を含む動画データと複数の音区間を含む音データとを処理する情報処理方法であって、前記複数の動画区間のうち第１動画区間と当該第１動画区間に後続する第２動画区間との境界点において、前記複数の音区間のうちの第１音区間から当該第１音区間以外の第２音区間に切替わるように、前記音データを処理する。以上の態様においては、第１動画区間と第２動画区間との境界点において第１音区間から第２音区間に遷移するように音データが処理される。したがって、動画データが表す動画に対する影響を抑制しながら、当該動画の変化と音の変化との間に統一感があるコンテンツを生成できる。

なお、「第１動画区間と第２動画区間との境界点において第１音区間から第２音区間に切替わる」とは、第１音区間から第２音区間への切替点が、第１動画区間と第２動画区間との境界点に実質的に一致することを意味する。「実質的に一致する」場合は、切替点が境界点に完全に一致する場合のほか、切替点と境界点とが厳密には一致しないけれども両者が一致すると同視できる場合も包含する。例えば、切替点と境界点とが実際には相違しても、切替点と境界点とが一致しているとコンテンツの視聴者が知覚できる程度に両者が近似する状態は、「実質的に一致する」と解釈できる。

態様１の具体例（態様２）において、前記音データの処理においては、前記第１音区間のうち前記境界点に一致する途中の時点から前記第２音区間に切替わるように、前記音データを処理する。以上の態様によれば、第１音区間のうち境界点に一致する途中の時点において第２音区間を開始させる簡便な処理により、第１動画区間と第２動画区間との境界点において第１音区間から第２音区間への切替を発生させることが可能である。

態様１の具体例（態様３）において、前記音データの処理においては、前記第１音区間および前記第２音区間の少なくとも一方を時間軸上において短縮または伸長することで、前記第１音区間から前記第２音区間への切替の時点を前記境界点に一致させる。以上の態様によれば、第１音区間が途中で途切れる可能性、または、第１音区間が第１動画区間に対して不足する可能性を低減できる。なお、音区間の伸縮は、例えば再生速度の調整により実現される。すなわち、再生速度を増加させることで音区間は短縮され、再生速度を減少させることで音区間は伸長される。

本開示の他の態様（態様４）に係る情報処理方法は、複数の動画区間を含む動画データと音を表す音データとを処理する情報処理方法であって、前記複数の動画区間のうち第１動画区間と当該第１動画区間に後続する第２動画区間との境界点を含む遷移期間内において音量が減少するように、前記音データを処理する。以上の態様においては、第１動画区間と第２動画区間との境界点を含む遷移期間内において音量が減少するように音データが処理される。したがって、動画データが表す動画に対する影響を抑制しながら、当該動画の変化と音の変化との間に統一感があるコンテンツを生成できる。

態様４の具体例（態様５）において、前記遷移期間は、前記境界点を終点とする期間であり、前記音データの処理においては、前記遷移期間の始点から終点にかけて前記音量が減少し、当該遷移期間の終点において前記音量が増加するように、前記音データを処理する。以上の態様においては、遷移期間の始点から終点（境界点）にかけて音量が減少し、遷移期間の終点（第２動画区間の始点）において音量が増加する。したがって、第１動画区間の終点にかけて音量が経時的に減少し、かつ、第２動画区間の開始とともに充分な音量で音が再生されるコンテンツを生成できる。

態様４の具体例（態様６）において、前記遷移期間は、前記境界点を終点とする期間であり、前記音データの処理においては、前記遷移期間の始点において前記音量が減少し、当該遷移期間の始点から終点にかけて前記音量が増加するように、前記音データを処理する。以上の態様においては、遷移期間の始点において音量が減少し、遷移期間の始点から終点（境界点）にかけて音量が増加する。したがって、音量が経時的に増加しながら第１動画区間から第２動画区間に切替わるコンテンツを生成できる。

本開示のひとつの態様に係る情報処理システムは、複数の動画区間を含む動画データと複数の音区間を含む音データとを処理する情報処理システムであって、前記複数の動画区間のうち第１動画区間と当該第１動画区間に後続する第２動画区間との境界点において、前記複数の音区間のうちの第１音区間から当該第１音区間以外の第２音区間に切替わるように、前記音データを処理する音データ処理部を具備する。また、本開示の他の態様に係る情報処理システムは、複数の動画区間を含む動画データと音を表す音データとを処理する情報処理システムであって、前記複数の動画区間のうち第１動画区間と当該第１動画区間に後続する第２動画区間との境界点を含む遷移期間内において音量が減少するように、前記音データを処理する音データ処理部を具備する。

本開示のひとつの態様に係るプログラムは、複数の動画区間を含む動画データと複数の音区間を含む音データとを処理するためのプログラムであって、コンピュータを、前記複数の動画区間のうち第１動画区間と当該第１動画区間に後続する第２動画区間との境界点において、前記複数の音区間のうちの第１音区間から当該第１音区間以外の第２音区間に切替わるように、前記音データを処理する音データ処理部として機能させる。また、本開示の他の態様に係るプログラムは、複数の動画区間を含む動画データと音を表す音データとを処理するためのプログラムであって、コンピュータを、前記複数の動画区間のうち第１動画区間と当該第１動画区間に後続する第２動画区間との境界点を含む遷移期間内において音量が減少するように、前記音データを処理する音データ処理部として機能させる。

１００…情報システム、１０…端末装置、１１，２１…制御装置、１２，２２…記憶装置、１３…再生装置、１３１…表示装置、１３２…放音装置、２０…編集システム、２３…通信装置、５１…素材データ取得部、５２…動画データ処理部、５３…音データ処理部、５４…コンテンツ提供部、５５…再生制御部。

Claims

複数の動画区間を含む動画データと複数の音区間を含む音データとを処理する情報処理方法であって、
前記複数の動画区間のうち第１動画区間と当該第１動画区間に後続する第２動画区間との境界点において、前記複数の音区間のうちの第１音区間から当該第１音区間以外の第２音区間に切替わるように、前記音データを処理する
コンピュータにより実現される情報処理方法。
前記音データの処理においては、前記第１音区間のうち前記境界点に一致する途中の時点から前記第２音区間に切替わるように、前記音データを処理する
請求項１の情報処理方法。
前記音データの処理においては、前記第１音区間および前記第２音区間の少なくとも一方を時間軸上において短縮または伸長することで、前記第１音区間から前記第２音区間への切替の時点を前記境界点に一致させる
請求項１の情報処理方法。
複数の動画区間を含む動画データと音を表す音データとを処理する情報処理方法であって、
前記複数の動画区間のうち第１動画区間と当該第１動画区間に後続する第２動画区間との境界点を含む遷移期間内において音量が減少するように、前記音データを処理する
コンピュータにより実現される情報処理方法。
前記遷移期間は、前記境界点を終点とする期間であり、
前記音データの処理においては、前記遷移期間の始点から終点にかけて前記音量が減少し、当該遷移期間の終点において前記音量が増加するように、前記音データを処理する
請求項４の情報処理方法。
前記遷移期間は、前記境界点を終点とする期間であり、
前記音データの処理においては、前記遷移期間の始点において前記音量が減少し、当該遷移期間の始点から終点にかけて前記音量が増加するように、前記音データを処理する
請求項４の情報処理方法。
複数の動画区間を含む動画データと複数の音区間を含む音データとを処理する情報処理システムであって、
前記複数の動画区間のうち第１動画区間と当該第１動画区間に後続する第２動画区間との境界点において、前記複数の音区間のうちの第１音区間から当該第１音区間以外の第２音区間に切替わるように、前記音データを処理する音データ処理部
を具備する情報処理システム。
複数の動画区間を含む動画データと音を表す音データとを処理する情報処理システムであって、
前記複数の動画区間のうち第１動画区間と当該第１動画区間に後続する第２動画区間との境界点を含む遷移期間内において音量が減少するように、前記音データを処理する音データ処理部
を具備する情報処理システム。
複数の動画区間を含む動画データと複数の音区間を含む音データとを処理するためのプログラムであって、コンピュータを、
前記複数の動画区間のうち第１動画区間と当該第１動画区間に後続する第２動画区間との境界点において、前記複数の音区間のうちの第１音区間から当該第１音区間以外の第２音区間に切替わるように、前記音データを処理する音データ処理部
として機能させるプログラム。
複数の動画区間を含む動画データと音を表す音データとを処理するためのプログラムであって、コンピュータを、
前記複数の動画区間のうち第１動画区間と当該第１動画区間に後続する第２動画区間との境界点を含む遷移期間内において音量が減少するように、前記音データを処理する音データ処理部
として機能させるプログラム。