JP6830634B1

JP6830634B1 - 情報処理方法、情報処理装置及びコンピュータプログラム

Info

Publication number: JP6830634B1
Application number: JP2020027209A
Authority: JP
Inventors: 大資玉城; 伸行松下; ヘーラトサマン; 健一郎金井; フェドトフキリル; 宏輝藤原; 祐也杉田; アブドゥルラーマンアブドゥルガニ
Original assignee: Exa Wizards Inc
Current assignee: Exa Wizards Inc
Priority date: 2020-02-20
Filing date: 2020-02-20
Publication date: 2021-02-17
Anticipated expiration: 2040-02-20
Also published as: JP2021132328A

Abstract

【課題】動画像の編集を容易化することが期待できる情報処理方法、情報処理装置及びコンピュータプログラムを提供する。【解決手段】本実施の形態に係る情報処理方法は、情報処理装置が動画像データを生成する情報処理方法であって、前記情報処理装置が、動画像データを取得し、取得した動画像データの特徴を特定し、特定した特徴に応じて前記動画像データの編集処理を行う。また前記情報処理装置が、前記動画像データの中の同一時点で複数の特徴を特定し、特定した複数の特徴の組み合わせに応じて、前記動画像データに対して編集処理を行ってもよい。また前記情報処理装置が、前記動画像データから複数の部分動画像データを抽出し、抽出した前記部分動画像データに対して前記編集処理を行い、編集した部分動画像データを結合してもよい。【選択図】図７

Description

本発明は、動画像データに対する編集処理を行う情報処理方法、情報処理装置及びコンピュータプログラムに関する。

近年、動画像を撮影することができる機器が広く普及しており、多くのユーザが簡単に動画像の撮影を行うことができる。しかし、撮影された動画像データに対する編集処理はある程度の知識及び技術等が必要であり、一般のユーザにとって動画像の編集は敷居が高いものであった。

特許文献１においては、動画の撮像時又は再生時に撮像した操作者の動画からこの操作者の顔の表情を数値化して評価値を算出し、算出した評価値を元の動画と同じタイムラインで記録し、記録した評価値に基づいて元の動画の部分動画を順次抽出してダイジェストを生成する動画像処理装置が提案されている。

特開２０１４−１１２７８７号公報

しかしながら特許文献１に記載の動画像処理装置は、元の動画像から単に部分動画を抽出してダイジェストを生成するのみであり、ユーザによる動画像の編集の補助には不十分である。

本発明は、斯かる事情に鑑みてなされたものであって、その目的とするところは、動画像の編集を容易化することが期待できる情報処理方法、情報処理装置及びコンピュータプログラムを提供することにある。

一実施形態に係る情報処理方法は、情報処理装置が動画像データを生成する情報処理方法であって、前記情報処理装置が、施設に設置された一又は複数のカメラが撮影した動画像データを取得し、取得した動画像データから、登録されたユーザが映された複数の部分動画像データを抽出し、動画像データを入力として受け付けて当該動画像データに含まれるシーンの特徴を特定した情報を出力するよう機械学習がなされた学習モデルを用いて、抽出した部分動画像データを前記学習モデルへ入力して当該学習モデルが出力する情報を取得することで前記部分動画像データの特徴を特定し、前記情報に対応付けられた編集方法に基づいて前記部分動画像データの編集処理を行い、編集した部分動画像データを結合し、結合した動画像データを、登録された端末装置へ送信する。

一実施形態による場合は、動画像の編集を容易化することが期待できる。

本実施の形態に係る情報処理システムの概要を説明するための模式図である。本実施の形態に係るサーバ装置の構成を示すブロック図である。編集方法決定テーブルの一例を示す模式図である。本実施の形態に係る端末装置の構成を示すブロック図である。端末装置が表示する動画像再生画面の一例を示す模式図である。本実施の形態に係る端末装置が行う処理の手順を示すフローチャートである。サーバ装置が行う動画像データの編集処理を説明するための模式図である。画像を重畳する編集処理の一例を説明するための模式図である。本実施の形態においてサーバ装置が行う処理の手順を示すフローチャートである。変形例１に係る端末装置が表示する編集設定画面の一例を示す模式図である。変形例２に係る情報処理システムの構成を説明するための模式図である。

本発明の実施形態に係る情報処理システムの具体例を、以下に図面を参照しつつ説明する。なお、本発明はこれらの例示に限定されるものではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。

＜システム構成＞
図１は、本実施の形態に係る情報処理システムの概要を説明するための模式図である。本実施の形態に係る情報処理システムは、動画像の編集サービスを提供するサーバ装置１と、このサービスを利用するユーザが所持するスマートフォン又はタブレット端末装置等の端末装置３とを備えて構成されている。サーバ装置１及び端末装置３は、携帯電話通信網、無線ＬＡＮ（Local Area Network）及びインターネット等を含むネットワークＮを介して通信を行うことができる。

例えばユーザは、端末装置３に搭載されたカメラにて動画像の撮影を行った後、撮影により得られた動画像データの自動編集を実施する指示を端末装置３へ与える。この指示に応じて端末装置３は、ネットワークＮを介したサーバ装置１との通信を行うことにより、編集対象の動画像データをサーバ装置１へ送信する。サーバ装置１は、端末装置３から送信された動画像データを取得し、この動画像データに対して適宜の編集処理を行い、編集済みの動画像データを端末装置３へ返送する。端末装置３は、サーバ装置１から編集済みの動画像データを受信して記憶し、この動画像データの再生（表示）又はＳＮＳ（Social Networking Service）への投稿等の処理を行う。

図２は、本実施の形態に係るサーバ装置１の構成を示すブロック図である。本実施の形態に係るサーバ装置１は、処理部１１、記憶部（ストレージ）１２及び通信部（トランシーバ）１３等を備えて構成されている。なお本実施の形態においては、１つのサーバ装置１にて処理が行われるものとして説明を行うが、複数のサーバ装置１が分散して処理を行ってもよい。

処理部１１は、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro-Processing Unit）又はＧＰＵ（Graphics Processing Unit）等の演算処理装置、ＲＯＭ（Read Only Memory）、及び、ＲＡＭ（Random Access Memory）等を用いて構成されている。処理部１１は、記憶部１２に記憶されたサーバプログラム１２ａを読み出して実行することにより、動画像データの編集に係る種々の処理を行う。

記憶部１２は、例えばハードディスク等の大容量の記憶装置を用いて構成されている。記憶部１２は、処理部１１が実行する各種のプログラム、及び、処理部１１の処理に必要な各種のデータを記憶する。本実施の形態において記憶部１２は、処理部１１が実行するサーバプログラム１２ａと、編集処理に用いられる特徴特定モデル１２ｂ及び編集方法決定テーブル１２ｃとを記憶している。

本実施の形態においてサーバプログラム１２ａは、メモリカード又は光ディスク等の記録媒体９９に記録された態様で提供され、サーバ装置１は記録媒体９９からサーバプログラム１２ａを読み出して記憶部１２に記憶する。ただし、サーバプログラム１２ａは、例えばサーバ装置１の製造段階において記憶部１２に書き込まれてもよい。また例えばサーバプログラム１２ａは、遠隔の他のサーバ装置等が配信するものをサーバ装置１が通信にて取得してもよい。例えばサーバプログラム１２ａは、記録媒体９９に記録されたものを書込装置が読み出してサーバ装置１の記憶部１２に書き込んでもよい。サーバプログラム１２ａは、ネットワークを介した配信の態様で提供されてもよく、記録媒体９９に記録された態様で提供されてもよい。

本実施の形態に係るサーバ装置１は、いわゆる人工知能を活用して動画像データの編集処理を行うものであり、編集処理に用いる特徴特定モデル１２ｂを有している。特徴特定モデル１２ｂは、予め機械学習がなされた学習済の学習モデルであり、例えばニューラルネットワーク又はＳＶＭ（Support Vector Machine）等の学習モデルが採用され得る。特徴特定モデル１２ｂは、例えばサーバプログラム１２ａと共に記録媒体９９を介して提供されてもよく、また例えばサーバプログラム１２ａとは別に他のサーバ装置等により配信されてもよく、どのような態様で提供されてもよい。本実施の形態に係るサーバ装置１は、予め機械学習がなされた特徴特定モデル１２ｂを取得して記憶部１２に記憶している。また本実施の形態においては、特徴特定モデル１２ｂを機械学習により生成する処理は、サーバ装置１とは別の装置にて行われるものとするが、これに限るものではなく、サーバ装置１が機械学習を行ってもよい。また特徴特定モデル１２ｂをサーバ装置１が備えていなくてもよく、特徴特定モデル１２ｂを備える他の装置に対してサーバ装置１がこの特徴特定モデル１２ｂを用いる処理を依頼し、他の装置からサーバ装置１が処理結果を取得してもよい。

特徴特定モデル１２ｂは、動画像データの入力に対して、この動画像データに含まれるシーンの特徴を特定した情報を出力する学習モデルである。特徴特定モデル１２ｂは、例えばＣＮＮ（Convolutional Neural Network）又はＲＮＮ（Recurrent Neural Network）等の種々の学習モデルが採用され得る。本実施の形態において特徴特定モデル１２ｂが入力を受け付けるデータは動画像データとするが、動画像データに加えて例えばＧＰＳ（Global Positioning System）による位置情報又は時刻情報等の種々の情報が入力されてもよい。特徴特定モデル１２ｂが出力する情報には、例えば動画像に写っているもの（人物、自動車、自転車、建物、木、動物及び植物等）が何であるかを示す情報、写っているものの属性（表情、年齢、性別及び動作等）を示す情報、動画像が撮影された場所（屋内、屋外、海、山、森及び都市）がどこであるかを示す情報、動画像が撮影された時間帯（朝、昼、夕方又は夜等）を示す情報、及び、動画像が撮影された際の天候（晴、雨、曇又は雪等）を示す情報等の種々の情報が含まれ得る。なお特徴特定モデル１２ｂは、１つの学習モデルとして実現されるのではなく、例えば動画像に写っているものを検出する学習モデル、写っているものの属性を検出する学習モデル等のように、複数の学習モデルの集合体として実現されてよい。

編集方法決定テーブル１２ｃは、動画像データに対して特定された特徴に係る一又は複数の情報であるシーン情報と、動画像データに対して行う編集方法とが対応付けて記憶されたテーブルである。図３は、編集方法決定テーブル１２ｃの一例を示す模式図である。図示の編集方法決定テーブル１２ｃでは、動画像データに関する天候、場所、時間帯、子供の有無、大人の有無及び自動車の有無等の特徴がシーン情報に含まれる特徴として例示されている。また図示の編集方法決定テーブル１２ｃでは、これらのシーン情報の特徴の組み合わせに対して、編集方法として方法１及び方法２の２つが予め定められている。

本例の編集方法決定テーブル１２ｃには、シーン情報として天候が晴、場所が屋外、時間帯が昼、子供が写っており性別が男且つ笑顔であるという特徴が動画像データから特定されている場合、笑いのエフェクト画像を追加する編集、及び、明るいＢＧＭを追加する編集を行うことが編集方法として定められている。またシーン情報として場所が屋内、大人が写っており怒りを表しているという特徴が特定されている場合、怒りのエフェクト画像を追加する編集、及び、動画像に映された人物が発する声を変更する編集を行うことが編集方法として定められている。またシーン情報として場所が屋内、子供がハイハイ（四つ這い、ずり這い、いざり這い）しているという特徴が特定されている場合、キャラクタ画像を追加する編集を行うことが編集方法として定められている。また天候が雨、場所が屋外、時間帯が夕方、自動車が写っており走行しているという特徴が特定されている場合、動画をスロー再生する編集を行うことが編集方法として定められている。

なお上記の編集方法決定テーブル１２ｃの内容は一例であって、これに限るものではない。シーン情報には、天候、場所、時間帯、子供の有無、大人の有無及び自動車の有無以外の種々の特徴が含まれ得る。編集方法は、シーン情報における１つの組み合わせに対して２つではなく、１つ又は３つ以上であってよい。

通信部１３は、携帯電話通信網及びインターネット等を含むネットワークＮを介して、種々の装置との間で通信を行う。本実施の形態において通信部１３は、ネットワークＮを介して、一又は複数の端末装置３との間で通信を行う。通信部１３は、処理部１１から与えられたデータを他の装置へ送信すると共に、他の装置から受信したデータを処理部１１へ与える。

なお記憶部１２は、サーバ装置１に接続された外部記憶装置であってよい。またサーバ装置１は、複数のコンピュータを含んで構成されるマルチコンピュータであってよく、ソフトウェアによって仮想的に構築された仮想マシンであってもよい。またサーバ装置１は、上記の構成に限定されず、例えば可搬型の記憶媒体に記憶された情報を読み取る読取部、操作入力を受け付ける入力部、又は、画像を表示する表示部等を含んでもよい。

また本実施の形態に係るサーバ装置１の処理部１１には、記憶部１２に記憶されたサーバプログラム１２ａを処理部１１が読み出して実行することにより、動画像取得部１１ａ、部分動画像抽出部１１ｂ、特徴特定部１１ｃ、編集方法決定部１１ｄ、編集処理部１１ｅ、結合処理部１１ｆ及び編集済動画像送信部１１ｇ等が、ソフトウェア的な機能部として処理部１１に実現される。

動画像取得部１１ａは、自動編集の対象となる動画像データを端末装置３から取得する処理を行う。動画像取得部１１ａは、例えば端末装置３から編集処理を実施する依頼と共に送信される動画像データを通信部１３にて受信し、受信した動画像データを記憶部１２の空き領域等に記憶することで、動画像データを取得する。また動画像取得部１１ａは、動画像データと共に、例えばこの動画像データが撮影された日時又は場所等の情報を取得してもよい。撮影日時の情報は、例えば端末装置３のカレンダー機能及び時計機能等に基づいて動画像データに付され得る。撮影場所の情報は、例えば端末装置３が受信したＧＰＳ信号に基づいて特定され、動画像データに付され得る。

部分動画像抽出部１１ｂは、編集対象の動画像データから一又は複数の部分動画像データを抽出する処理を行う。部分動画像抽出部１１ｂは、いわゆるダイジェストを生成するための動画像抽出処理を行う。部分動画像抽出部１１ｂは、例えば特定の人もしくは物が映されている部分、写されている人の動きが大きい部分、写されている人が笑顔である部分、写されている人数が多い部分、場面が切り替わる部分、又は、音声の音量が大きい部分等のように、所定の特徴を有する部分画像を動画像データの全体から抽出する。なお、部分動画像抽出部１１ｂによる部分動画像データの抽出処理は、既存の技術であるため、詳細な説明を省略する。例えば部分動画像抽出部１１ｂは、特許文献１に記載の動画像処理装置と同様の技術により、動画像の撮像時又は再生時に撮像した操作者の顔の表情を数値化して評価値を算出し、算出した評価値に基づいて部分動画像データを抽出してもよい。また例えば部分動画像抽出部１１ｂは、特徴特定モデル１２ｂにより動画像データに含まれる一又は複数のシーンの特徴を特定し、所定の特徴を有するシーンを部分動画像データとして抽出することができる。

特徴特定部１１ｃは、記憶部１２に記憶された特徴特定モデル１２ｂを用い、部分動画像抽出部１１ｂが抽出した一又は複数の部分動画像データに対して、この部分動画像データに含まれるシーンの特徴を特定する処理を行う。特徴特定部１１ｃは、抽出された部分動画像データを特徴特定モデル１２ｂへ入力し、特徴特定モデル１２ｂが出力する特徴の特定結果を取得する。特徴特定部１１ｃは、部分動画像データに対して特定された一又は複数の特徴をまとめたシーン情報を作成する。また特徴特定部１１ｃは、部分動画像データの撮影日時及び撮影場所等の情報を特徴特定モデル１２ｂへ入力する構成であってもよい。

編集方法決定部１１ｄは、特徴特定部１１ｃが特定した特徴に関するシーン情報と、記憶部１２に記憶された編集方法決定テーブル１２ｃとに基づいて、部分動画像データに対して行う編集処理の方法を決定する処理を行う。編集方法決定部１１ｄは、シーン情報にて特定された一又は複数の特徴に基づいて編集方法決定テーブル１２ｃを参照し、特定された特徴に対応付けられた編集方法を取得することによって、編集方法を決定する。

なお本実施の形態において編集方法決定部１１ｄは、編集方法決定テーブル１２ｃを用いて編集方法を決定する構成とするが、これに限るものではなく、例えば動画像データやシーン情報等の入力に対して適した編集方法を出力するよう予め機械学習がなされた学習モデルを用いて編集方法を決定してもよい。編集方法の決定に学習モデルを用いる構成の場合、例えば編集後の動画像データを視聴したユーザから編集方法に対する評価を受け付けて、受け付けた評価に基づいて学習モデルの再学習処理を行うことができる。

編集処理部１１ｅは、編集方法決定部１１ｄが決定した編集方法に従って、部分動画像データに対する編集処理を行う。本実施の形態において編集処理部１１ｅは、例えば装飾画像、キャラクタ画像又はエフェクト画像等の種々の画像を動画像に重畳する編集処理を行う。また例えば編集処理部１１ｅは、動画像に含まれるシーンの時間帯を変更する（昼間から夜間へ、夜間から昼間へ、又は、昼間から夕方へ等）編集処理を行う。また例えば編集処理部１１ｅは、動画像のスタイルを変更する（通常スタイルの動画から絵画風又はアニメ風等へ）編集処理を行う。また例えば編集処理部１１ｅは、動画像データに対して効果音又は背景音を追加する編集処理を行う。また例えば編集処理部１１ｅは、動画像に映された人が話す音声について声色又は声音等を変更する処理を行う。また例えば編集処理部１１ｅは、動画像データの再生速度を変更する（スロー再生、コマ送り再生、倍速再生又は早送り再生等）編集処理を行う。上記の編集処理は一例であって、編集処理部１１ｅはこれら以外の様々な編集処理を行う構成であってよい。

結合処理部１１ｆは、部分動画像抽出部１１ｂにて抽出されて編集処理部１１ｅにて編集処理がなされた複数の部分動画像データを結合することによって、ダイジェスト動画像データを生成する処理を行う。

編集済動画像送信部１１ｇは、結合処理部１１ｆが部分動画像データを結合して生成したダイジェスト動画像データを、編集処理の依頼元である端末装置３へ送信する処理を行う。

図４は、本実施の形態に係る端末装置３の構成を示すブロック図である。本実施の形態に係る端末装置３は、処理部３１、記憶部（ストレージ）３２、通信部（トランシーバ）３３、表示部（ディスプレイ）３４、操作部３５及びカメラ３６等を備えて構成されている。端末装置３は、カメラ３６による動画像の撮影機能を搭載した例えばスマートフォン、タブレット型端末装置又はパーソナルコンピュータ等の情報処理装置を用いて構成され得る。また端末装置３は、動画像を撮影するビデオカメラ等の撮影装置であってもよい。

処理部３１は、ＣＰＵ又はＭＰＵ等の演算処理装置、ＲＯＭ及び等を用いて構成されている。処理部３１は、記憶部３２に記憶されたプログラム３２ａを読み出して実行することにより、カメラ３６による動画像の撮影処理及び撮影した動画像の表示部３４への表示処理等の種々の処理を行う。

記憶部３２は、例えばフラッシュメモリ等の不揮発性のメモリ素子を用いて構成されている。記憶部３２は、処理部３１が実行する各種のプログラム、及び、処理部３１の処理に必要な各種のデータを記憶する。本実施の形態において記憶部３２は、処理部３１が実行するプログラム３２ａを記憶している。本実施の形態においてプログラム３２ａは遠隔のサーバ装置等により配信され、これを端末装置３が通信にて取得し、記憶部３２に記憶する。ただしプログラム３２ａは、例えば端末装置３の製造段階において記憶部３２に書き込まれてもよい。例えばプログラム３２ａは、メモリカード又は光ディスク等の記録媒体９８に記録されたプログラム３２ａを端末装置３が読み出して記憶部３２に記憶してもよい。例えばプログラム３２ａは、記録媒体９８に記録されたものを書込装置が読み出して端末装置３の記憶部３２に書き込んでもよい。プログラム３２ａは、ネットワークを介した配信の態様で提供されてもよく、記録媒体９８に記録された態様で提供されてもよい。

通信部３３は、携帯電話通信網及びインターネット等を含むネットワークＮを介して、種々の装置との間で通信を行う。本実施の形態において通信部３３は、ネットワークＮを介して、サーバ装置１との間で通信を行う。通信部３３は、処理部３１から与えられたデータを他の装置へ送信すると共に、他の装置から受信したデータを処理部３１へ与える。

表示部３４は、液晶ディスプレイ等を用いて構成されており、処理部３１の処理に基づいて種々の画像及び文字等を表示する。

操作部３５は、ユーザの操作を受け付け、受け付けた操作を処理部３１へ通知する。例えば操作部３５は、機械式のボタン又は表示部３４の表面に設けられたタッチパネル等の入力デバイスによりユーザの操作を受け付ける。また例えば操作部３５は、マウス及びキーボード等の入力デバイスであってよく、これらの入力デバイスは端末装置３に対して取り外すことが可能な構成であってもよい。

カメラ３６は、ＣＣＤ（Charge Coupled Device）イメージセンサ又はＣＭＯＳ（Complementary Metal Oxide Semiconductor）イメージセンサ等の撮像素子を用いて構成されている。カメラ３６は、例えば端末装置３の筐体の適所に配置されている。カメラ３６は、撮像素子により撮影した画像を処理部１１へ与える。本実施の形態においてカメラ３６は、動画像を撮影することができる。なお本実施の形態においては、端末装置３がカメラ３６を備え、カメラ３６にて撮影された動画像データに対して編集処理が行われるものとするが、これに限るものではない。例えばデジタルビデオカメラ等の他の装置で撮影された動画像データを端末装置３が取得したものが編集処理の対象とされてもよく、インターネット等において公開されている動画像データを端末装置３が取得したものが編集対象とされてもよい。

また本実施の形態に係る端末装置３は、記憶部３２に記憶されたプログラム３２ａを処理部３１が読み出して実行することにより、撮影処理部３１ａ、表示処理部３１ｂ、編集指示受付部３１ｃ、動画像送信部３１ｄ及び動画像受信部３１ｅ等がソフトウェア的な機能部として処理部３１に実現される。なおプログラム３２ａは、本実施の形態に係る情報処理システムに専用のプログラムであってもよく、インターネットブラウザ又はウェブブラウザ等の汎用のプログラムであってもよい。プログラム３２ａは、例えば動画像を他のユーザと共有するＳＮＳ（Social Networking Service）のアプリケーションプログラムであってよい。

撮影処理部３１ａは、カメラ３６による動画像の撮影に係る処理を行う。撮影処理部３１ａは、例えばカメラ３６のシャッタースピード、フレームレート、ＩＳＯ感度、露出及び絞り値等の制御を行う。また撮影処理部３１ａは、カメラ３６が撮影した動画像のデータを取得し、例えばＭＰ４又はＡＶＩ（Audio Video Interleave）等の適宜のファイル形式の動画像データとして記憶部３２に記憶する。

表示処理部３１ｂは、記憶部３２に記憶された動画像データを再生して表示部３４に表示する処理を行う。本実施の形態において表示処理部３１ｂが表示する動画像データには、カメラ３６によって撮影された動画像データと、サーバ装置１によって編集処理がなされた動画像データとが含まれる。また表示処理部３１ｂは、ユーザが本システムを利用するためのメニュー画面、ホーム画面又は設定画面等の表示を行う。これらの画面表示に必要なデータは、プログラム３２ａと共に記憶部３２に記憶されている。

編集指示受付部３１ｃは、操作部３５に対してなされた操作に基づいて、動画像データに対してサーバ装置１による自動的な編集処理を実施する指示をユーザから受け付ける処理を行う。例えば編集指示受付部３１ｃは、表示処理部３１ｂが動画像データを再生して表示する画面に設けられたボタン又はアイコン等に対するタッチ操作、タップ操作又はクリック操作等に応じて、動画像データに対する編集処理の実施指示を受け付ける。また例えば、表示処理部３１ｂが撮影済みの動画像データのファイル名又はサムネイル画像等の一覧表示を行い、編集指示受付部３１ｃは、一覧表示された動画像データから編集処理の対象とする一又は複数の動画像データの選択操作を受け付けることで、選択された動画像データに対する編集処理の実施指示を受け付ける。なお編集指示受付部３１ｃによる編集指示の受け付け方法は一例であって、これに限るものではない。

動画像送信部３１ｄは、編集指示受付部３１ｃが編集指示を受け付けた場合に、編集対象の動画像データを記憶部３２から読み出し、読み出した動画像データを通信部３３にてサーバ装置１へ送信する処理を行う。動画像送信部３１ｄは、編集処理の実施を依頼するメッセージ等と共に、動画像データをサーバ装置１へ送信する。またこのときに動画像送信部３１ｄは、動画像データの自動編集に対する条件又は設定等の情報をサーバ装置１へ送信してもよい。

動画像受信部３１ｅは、サーバ装置１が編集処理を行った編集済の動画像データを通信部３３にて受信する処理を行う。動画像受信部３１ｅは、受信した動画像データを記憶部３２に記憶する。なお本実施の形態においては、サーバ装置１は編集した動画像データを端末装置３へ送信し、端末装置３は編集済の動画像データを記憶部３２に記憶する構成とするが、これに限るものではない。例えば、編集済みの動画像データをサーバ装置１が記憶しておき、端末装置３は編集済みの動画像データを再生して表示する場合に、その都度、サーバ装置１から編集済の動画像データを取得して再生する、いわゆるストリーミング再生の構成が採用されてもよい。

＜編集指示受付処理＞
図５は、端末装置３が表示する動画像再生画面の一例を示す模式図である。本実施の形態に係る端末装置３は、動画像再生画面を表示部３４に表示して、動画像データの再生及び表示を行う。例えば端末装置３は、動画像再生画面の最上部に、再生する動画像のタイトルを示す「タイトル：小学校の運動会」等の文字列を表示する。動画像のタイトルは、例えばユーザが予め付したものであってもよく、また例えば動画像データに付されたファイル名等であってもよい。端末装置３は、タイトルの文字列の下方に設けられた矩形の再生領域に、動画像を再生して表示する。再生領域の下部には、再生、停止及び早送り等を制御するためのアイコン等が並べて設けられており、端末装置３はこれらのアイコンに対するユーザの操作に応じて動画像の再生を制御する。

また操作用のアイコンの下方には動画像データに関する情報を表示する情報表示領域が設けられており、端末装置３は、例えば動画像データが撮影された日時又は場所等の情報をこの領域に表示する。本実施の形態において、動画像再生画面の情報表示領域の下部には、「自動編集」のラベルが付されたアイコン１０１と、「動画共有」のラベルが付されたアイコン１０２とが並べて設けられている。アイコン１０１は、動画像再生画面に表示されている動画像に対するユーザからの自動編集の指示を受け付けるためのものである。アイコン１０１に対するタッチ操作、タップ操作又はクリック操作等を受け付けた場合、端末装置３は、動画像データをサーバ装置１へ送信して、この動画像データの自動編集を依頼する。アイコン１０２は、動画像データを例えば動画像共有サイト又はＳＮＳ等へ投稿し、一又は複数の他ユーザにこの動画像データを公開するための操作を受け付ける。動画像データの共有については、既存の技術であるため、詳細な説明は省略する。

端末装置３からの編集処理の依頼に応じてサーバ装置１は、端末装置３から送信される動画像データを取得して、この動画像データに対する編集処理を自動的に行う。本実施の形態においてサーバ装置１は、元の動画像データから適宜のシーンを抽出し、抽出した各シーンに適宜の画像処理及び音声処理等を施して結合することによりダイジェスト動画像を作成する編集処理を自動的に行う。サーバ装置１は、編集済みの動画像データを、依頼元の端末装置３へ送信する。

アイコン１０１に対する操作に応じて動画像データをサーバ装置１へ送信した端末装置３は、例えば「しばらくお待ちください」等のメッセージを動画像再生画面に重畳して表示し、サーバ装置１から送信される編集済みの動画像データの受信を待機する。編集済みの動画像データを受信した場合、端末装置３は、編集前の動画像データに代えて、サーバ装置１から受信した編集済みの動画像データを再生領域にて再生して表示する。

また編集済みの動画像データを視聴したユーザは、例えば動画像データに対して行われた編集処理の内容に不満等を有する場合、自動編集のアイコン１０１に対する操作を再び行うことで、動画像データに対する再編集処理を依頼することが可能であってもよい。サーバ装置１は、端末装置３からの再編集の依頼に応じて、動画像データに対して以前とは異なる内容の編集処理を施して、端末装置３へ送信することができる。

図６は、本実施の形態に係る端末装置３が行う処理の手順を示すフローチャートである。本実施の形態に係る端末装置３の処理部３１の表示処理部３１ｂは、例えば記憶部３２に記憶された一の動画像データの選択操作等を受け付けた場合に、選択された動画像データを再生すべく、図５に示した構成の動画像再生画面を表示部３４に表示する（ステップＳ１）。表示処理部３１ｂは、例えば動画像再生画面に設けられた再生アイコン等に対する操作を受け付けたか否かに基づいて、再生操作がなされたか否かを判定する（ステップＳ２）。再生操作がなされた場合（Ｓ２：ＹＥＳ）、表示処理部３１ｂは、記憶部３２から動画像データを読み出し、読み出した動画像データを再生して表示部３４に表示する再生処理を行い（ステップＳ３）、処理を終了する。

再生操作がなされていない場合（Ｓ２：ＮＯ）、処理部３１の編集指示受付部３１ｃは、動画像再生画面に設けられた自動編集のアイコン１０１に対する操作がなされたか否かに基づいて、ユーザから動画像データの自動編集の指示が与えられたか否かを判定する（ステップＳ４）。自動編集の指示が与えられていない場合（Ｓ４：ＮＯ）、処理部３１は、ステップＳ１へ処理を戻す。

自動編集の指示が与えられた場合（Ｓ４：ＹＥＳ）、処理部３１の動画像送信部３１ｄは、編集対象の動画像データを記憶部３２から読み出して、読み出した動画像データをサーバ装置１へ送信する（ステップＳ５）。その後、処理部３１の動画像受信部３１ｅは、サーバ装置１が送信する編集済みの動画像データを受信したか否かを判定する（ステップＳ６）。編集済みの動画像データを受信していない場合（Ｓ６：ＮＯ）、動画像受信部３１ｅは、サーバ装置１から動画像データを受信するまで待機する。サーバ装置１から編集済みの動画像データを動画像受信部３１ｅが受信した場合（Ｓ６：ＹＥＳ）、表示処理部３１ｂは、受信した編集済みの動画像データを再生して表示部３４に表示する再生処理を行い（ステップＳ７）、処理を終了する。

＜編集処理＞
図７は、サーバ装置１が行う動画像データの編集処理を説明するための模式図である。本実施の形態に係るサーバ装置１は、端末装置３から編集依頼と共に送信される動画像データに対して編集処理を行い、ダイジェスト動画像データを生成する処理を行う。本図においては、端末装置３からサーバ装置１が取得した動画像データを全体動画像として最上部に図示している。

まず本実施の形態に係るサーバ装置１は、この全体動画像から一又は複数の部分動画像を抽出する処理を行う。なお、全体動画像から部分動画像を抽出してダイジェスト動画像を生成する技術は既存のものであるため、サーバ装置１が行う部分動画像の抽出方法の詳細な説明は省略する。サーバ装置１は、どのような方法で全体動画像から部分動画像を抽出してもよい。図示の例では、サーバ装置１は、全体動画像から３つの部分動画像を抽出している。

例えばサーバ装置１は、全体動画像の中で笑顔の人が映されている部分、笑顔の人がより多く映されている部分を抽出することができる。また例えばサーバ装置１は、特定の人又は物が映されている部分を抽出することができる。また例えばサーバ装置１は、全体動画像の中に映されている人又は物等の動作又は変化等が大きい部分を抽出することができ、動作又は変化等が小さい部分を抽出してもよい。また例えばサーバ装置１は、動画像に映されている人の会話の音量が閾値を超えた部分を抽出することができる。上記の部分動画像の抽出方法は一例であって、これに限るものではない。

次いでサーバ装置１は、抽出した部分動画像毎に、映されているシーンの特徴を特定する処理を行う。本実施の形態においてサーバ装置１は、記憶部３２に記憶した特徴特定モデル１２ｂに部分動画像のデータを入力し、この部分動画像データに含まれるシーンの特徴を特定した出力情報を特徴特定モデル１２ｂから取得する。図示の例では、部分動画像に対して天候、撮影場所、時間帯、自動車の有無及び状態、人物１（子供且つ男）の有無及び状態、並びに、人物２（大人且つ女）の有無及び状態等の特徴が特定されている。また自動車に関しては走行しているか又は停車しているかが特徴として特定され、人物１に関しては笑顔であるか否かが特徴として特定され、人物２に関しては話しているか否かが特徴として特定されている。なお図示の特徴は一例であって、これに限るものではなく、動画像データからはこれら以外の種々の特徴が特定されてよい。例えば動画像データに自転車、建物、木、植物又は動物等が映されているか否かを特徴として特定としてもよく、映っている人又は物の属性として表情、年齢、性別又は動作等の種類を特徴として特定してもよい。

特徴特定モデル１２ｂには、例えば動画像データを構成する複数のフレームが時系列で入力される。特徴特定モデル１２ｂは、時系列で入力される各フレームについて上記の特徴を特定する。特徴特定モデル１２ｂが出力する情報に基づいてサーバ装置１は、動画像データに対して特定された時系列の特徴の情報を取得することができる。サーバ装置１は、動画像データを構成するフレーム毎に特徴を特定してもよく、所定数のフレームの集まり毎に特徴を特定してもよく、動画像データの再生時間において１秒等の所定時間毎に特徴を特定してもよい。いずれにしても本実施の形態に係るサーバ装置１が特定する特徴は、時間の経過に従って変化し得る時系列の特徴である。

サーバ装置１は、特徴特定モデル１２ｂとして、例えば動画像データの入力に対して、この動画像データに映されているシーンの天候が晴、曇、雨及び雪等のいずれであるかを分類する学習モデルを用いることができる。この特徴特定モデル１２ｂは、例えば動画像データと天候のラベルとが対応付けられた教師データを用いて予め機械学習がなされることで生成される。またサーバ装置１は、特徴特定モデル１２ｂとして、例えば動画像データの入力に対して、この動画像データに映されているシーンの撮影場所が屋内又は屋外のいずれであるかを分類する学習モデルを用いることができる。またサーバ装置１は、例えば動画像データの入力に対して、この動画像データに映されているシーンの時間帯が朝、昼間、夕方又は夜間のいずれであるかを分類する学習モデルを用いることができる。

またサーバ装置１は、特徴特定モデル１２ｂとして、例えば動画像データの入力に対して、この動画像データに自動車が映されているか否か、写されている自動車の位置、及び、写されている自動車の属性として走行しているか又は停車しているか等を特定する学習モデルを用いることができる。図示の例では、部分動画像１において停車している自動車が映されている期間が特定されている。サーバ装置１は、特徴特定モデル１２ｂから時系列の特徴を取得することによって、部分動画像１に自動車が映されているか否かのみでなく、部分動画像１に自動車が映されている期間を特定することができる。

同様にサーバ装置１は、特徴特定モデル１２ｂとして、例えば動画像データの入力に対して、この動画像データに人が映されているか否か、写されている人の位置、並びに、写されている人の属性として表情、年齢及び性別等を特定する学習モデルを用いることができる。図示の例では、部分動画像１において子供の男性が映されている期間が特定され、更にこの子供の表情が笑顔である期間が特定されている。また図示の例では、部分動画像１において大人の女性が映されている期間が特定され、更にこの女性が話している期間が特定されている。

サーバ装置１は、上記のような複数の特徴を動画像データから特定する複数の学習モデルを、記憶部３２に特徴特定モデル１２ｂとして記憶している。サーバ装置１は、これら複数の学習モデルに対してそれぞれ動画像データを入力し、各学習モデルが出力する情報を取得することによって、動画像データから複数の特徴を特定することができる。ただし特徴特定モデル１２ｂは、これら複数の特徴を出力する１つの学習モデルとして生成されてもよい。

各部分動画像について時系列の特徴を特定したサーバ装置１は、特定した特徴に基づいて記憶部３２の編集方法決定テーブル１２ｃを参照することによって、各部分動画像に対して行う編集処理を決定する。サーバ装置１は、特定された部分動画像についての時系列の特徴の組み合わせに合致する組み合わせを、編集方法決定テーブル１２ｃにシーン情報として定められた複数の組み合わせの中から検索する。部分動画像から特定した特徴の組み合わせに合致する組み合わせが編集方法決定テーブル１２ｃに存在する場合、サーバ装置１は、この組み合わせに対応付けられた編集方法を編集方法決定テーブル１２ｃから取得する。

例えば、図７に示す例では、天候が晴、撮影場所が屋外、時間帯が昼間、且つ、子供の男性が笑顔という特徴の組み合わせが特定されるタイミングが存在している。これらの特徴の組み合わせは、図３に示す編集方法決定テーブル１２ｃの１番目に存在しており、サーバ装置１は、対応する編集方法として「笑いエフェクト画像追加」及び「明るいＢＧＭ」の２種を編集方法決定テーブル１２ｃから取得することができる。

サーバ装置１は、部分動画像に対して時系列に特定した複数の特徴の組み合わせに対して、時系列に編集方法を編集方法決定テーブル１２ｃから取得して、時系列に編集方法を決定する。例えば、部分動画像のフレーム毎に特徴が特定されている場合、サーバ装置１は、フレーム毎に編集方法を決定することができる。ただしサーバ装置１は、フレーム毎に特徴が特定されている場合であっても、例えば１０フレーム毎又は１００フレーム毎等の所定フレーム毎に編集方法を決定してもよく、また例えば動画像の再生時間の１秒毎又は１０秒毎等の所定時間毎に編集方法を決定してもよい。また例えばサーバ装置１は、部分動画像において最も長い時間に亘って現れる特徴の組み合わせを１つ又は複数選択して代表の特徴とし、選択した代表の特徴に基づいてこの部分動画像に対する編集方法を決定してもよい。

全体動画像から抽出した全ての部分動画像について編集方法を決定したサーバ装置１は、決定した編集方法による部分動画像の編集処理を行う。本実施の形態においてサーバ装置１は、例えば以下の編集処理を行うことができる。ただし以下に列挙する編集処理は一例であって、サーバ装置１はこれら以外の様々な編集処理を行ってよい。
・装飾画像、キャラクタ画像又はエフェクト画像等の画像を重畳する編集処理
・動画像に含まれるシーンの時間帯を変更する編集処理
・動画像のスタイルを変更する編集処理
・効果音又は背景音を追加する編集処理
・音声について声色又は声音等を変更する編集処理
・再生速度を変更する編集処理

図８は、画像を重畳する編集処理の一例を説明するための模式図である。画像を重畳する編集処理において、サーバ装置１は、例えば動画像に映された人に宇宙服の装飾画像を重畳することで、登場人物を宇宙飛行士に変身させることができる。また例えばサーバ装置１は、動画像に映された人の顔に眼鏡又はサングラスの装飾画像を重畳することで、登場人物を装飾することができる。また例えばサーバ装置１は、動画像に映された人に衣服の装飾画像を重畳することで、登場人物の服装を変更することができる。また例えばサーバ装置１は、動画像に映された赤ん坊の近くにひよこのキャラクタ画像を重畳することができる。また例えばサーバ装置１は、動画像に映されたサッカー選手の足元に存在するサッカーボールに対してエフェクト画像を重畳することができる。

サーバ装置１が動画像に重畳したこれらの画像は、動画像の再生に伴ってアニメーションにより動いてよい。サーバ装置１が重畳するこれらの画像のデータは、記憶部１２に予め記憶されている。予め記憶された多数の画像のいずれを重畳するかは、例えば編集方法決定テーブル１２ｃに定められていてもよく、また例えば特定された特定の特徴に対して予め紐付けられた画像を重畳してもよく、また例えば乱数に基づいて重畳する画像を選択してもよく、これら以外の種々の方法で重畳する画像を決定してよい。サーバ装置１は、重畳する画像を、元の動画像の適宜の位置に重畳する画像処理を行う。このときにサーバ装置１は、例えば動画像中での人又は物等の位置の検出、人の顔の検出、人の姿勢の検出、人又は物の移動方向又は移動速度の検出等を行って、重畳する画像の位置及び向き等を決定することができる。

また、サーバ装置１は、例えば元の動画像の色相、彩度、明度等を変更する画像処理を施すことによって、動画像に含まれるシーンの時間帯を変更することができる。これによりサーバ装置１は、例えば昼間から夕方又は夜間へ、夜間から昼間又は夕方へ、夕方から昼間又は夜間へ等の時間帯を変更する画像処理を行うことができる。

また、サーバ装置１は、動画像のスタイルを変更する編集処理を、いわゆる画風変換の学習モデルを利用して行うことができる。既存の技術であるため詳細な説明は省略するが、例えば画風変換の学習モデルは、入力画像に対してスタイル（画風）を変換した変換画像を出力するモデルであり、入力画像及びスタイル画像に近い変換画像を出力するように予め機械学習がなされる。学習モデルは変換するスタイル毎に生成され、サーバ装置１は、複数の画風変換の学習モデルを記憶部１２に記憶して利用することができる。変換可能な複数のスタイルのうち、いずれのスタイルへ変換するかは、例えば編集方法決定テーブル１２ｃに定められていてもよく、また例えば特定された特定の特徴に対して予め紐付けられたスタイルを採用してもよく、また例えば乱数に基づいてスタイルを決定してもよく、これら以外の種々の方法でスタイルを決定してよい。これらによりサーバ装置１は、例えば撮影された通常スタイルの動画像を、絵画風又はアニメ風等のスタイルに変更することができる。

また、サーバ装置１は、動画像に効果音又は背景音を追加する編集処理を行うことができ、追加する効果音又は背景音のデータは記憶部１２に予め記憶されている。サーバ装置１は、例えば編集方法決定テーブル１２ｃにて定められた効果音又は背景音に対応するデータを記憶部１２から読み出して、この効果音又は背景音を動画像データに追加する処理を行う。

また、サーバ装置１は、動画像に映された人又は動物等が発した音声の声色又は声音等を変更する、例えば男性の声を女性の声に変換する又は人の声を特定のアニメーションキャラクターの声に変換する等の編集処理を行うことができる。サーバ装置１は、例えば動画像から人が発した音声を抽出し、抽出した音声の周波数変換等の処理を行うことによって、声色又は声音を変更する。

また、サーバ装置１は、動画像データの再生速度を変更する、例えばスロー再生、コマ送り再生、倍速再生又は早送り再生等の速度変更の処理を行う。これら複数の速度変更の方法うち、いずれの方法で速度変更を行うかは、例えば編集方法決定テーブル１２ｃに定められていてもよく、また例えば特定された特定の特徴に対して予め紐付けられた方法を採用してもよく、また例えば乱数に基づいて速度変更の方法を決定してもよく、これら以外の種々の方法で速度変更の方法を決定してよい

なお本実施の形態においてサーバ装置１は、画像の重畳、時間帯の変更、効果音又は背景音の追加、声色又は声音の変更、再生速度の変更等の編集処理について、予め定められた方法（ルール）に従って画像処理又は音声処理等を行うことにより、動画像を編集するものとするが、これに限るものではない。サーバ装置１は、これらの編集処理についても、スタイル変更の編集処理と同様に、学習済の学習モデルを用いて編集処理を行ってよい。

全ての部分動画像に対して編集処理を行ったサーバ装置１は、複数の部分動画像を結合して１つの動画像データを生成する。これにより生成された動画像データが、編集済みのダイジェスト動画像データとして、サーバ装置１から編集依頼元の端末装置３へ送信される。

なおサーバ装置１は、編集済みの動画像データを端末装置３へ送信した後に、この端末装置３から再編集の依頼を受け付けてもよい。再編集の依頼を受け付けたサーバ装置１は、例えば未編集の全体動画像のデータから編集処理を再度行ってもよく、編集済みのダイジェスト動画像データに対して編集内容の変更、追加又は削除等を行ってもよい。サーバ装置１は、例えば編集方法決定テーブル１２ｃにて決定される編集方法をランダムに別の編集方法へ変更してもよい。また例えば、編集方法決定テーブル１２ｃに２回目の編集方法、３回目の編集方法…のように複数の編集方法を記憶しておき、サーバ装置１が編集方法決定テーブル１２ｃにて定められた複数の編集方法を順番に実施してもよい。また例えばサーバ装置１は、前回の編集方法と再編集で行う編集方法とを対応付けたテーブルを予め記憶しておき、このテーブルを用いて再編集の編集方法を決定してもよい。サーバ装置１は、再編集の編集方法をどのように決定してもよい。

図９は、本実施の形態においてサーバ装置１が行う処理の手順を示すフローチャートである。本実施の形態に係るサーバ装置１の処理部１１は、端末装置３からの依頼に応じて本処理を開始する。まず処理部１１の動画像取得部１１ａは、端末装置３から編集処理を実施する依頼と共に送信される動画像データを、編集処理の対象とする全体動画像のデータとして取得する（ステップＳ１１）。動画像取得部１１ａが取得した全体動画像のデータは、例えば記憶部１２に一時的に記憶される。

次いで処理部１１の部分動画像抽出部１１ｂは、ステップＳ１１にて取得した全体動画像のデータから一又は複数の部分動画像のデータを抽出する（ステップＳ１２）。処理部１１の特徴特定部１１ｃは、記憶部１２に記憶された特徴特定モデル１２ｂを用いて、ステップＳ１２にて抽出された各部分動画像のデータについて時系列の特徴を特定する処理を行う（ステップＳ１３）。処理部１１の編集方法決定部１１ｄは、ステップＳ１３にて特定された各部分動画像の特徴に基づいて、記憶部１２に記憶された編集方法決定テーブル１２ｃを参照し、編集方法決定テーブル１２ｃに定められた編集方法を取得することにより、各部分動画像に対して行う編集方法を決定する（ステップＳ１４）。

次いで処理部１１の編集処理部１１ｅは、ステップＳ１４にて決定された編集方法に従って、各部分動画像のデータを編集する（ステップＳ１５）。処理部１１の結合処理部１１ｆは、ステップＳ１５にて編集処理が行われた全ての部分動画像のデータを時系列順に結合する（ステップＳ１６）。処理部１１の編集済動画像送信部１１ｇは、ステップＳ１６にて部分動画像を結合することにより得られた編集済みの動画像データを、編集処理の依頼元の端末装置３へ送信し（ステップＳ１７）、処理を終了する。

＜まとめ＞
以上の構成の本実施の形態に係るサーバ装置１は、端末装置３から編集処理の対象となる動画像データを取得し、取得した動画像データの特徴を特定し、特定した特徴に応じて動画像データの編集処理を行う。これにより、サーバ装置１は動画像データの特徴に適した編集処理を自動的に行うことができ、ユーザは動画像データの編集処理を自ら行う必要がないため、ユーザにとって動画像データの編集を容易化することが期待できる。

また本実施の形態に係るサーバ装置１は、動画像データの中の同一時点で複数の特徴を特定し、特定した複数の特徴の組み合わせに応じて編集方法を決定して動画像データを編集する。これにより、サーバ装置１が多様な編集処理を動画像データに対して行うことが期待できる。

また本実施の形態に係るサーバ装置１は、装飾画像等を重畳する編集処理、シーンの時間帯を変更する編集処理、スタイルを変更する編集処理、効果音又は背景音を追加する編集処理、音声を変更する編集処理、及び、再生速度を変更する編集処理のうちの少なくとも１つの編集処理を行う。これにより、サーバ装置１は娯楽性又は趣向性の高い動画像データを作成することが期待できる。なお、サーバ装置１が行う編集処理は上記のものに限定されず、サーバ装置１はこれら以外の様々な編集処理を行ってよい。

また本実施の形態に係るサーバ装置１は、端末装置３から取得した動画像データの全体から複数の部分動画像のデータを抽出し、抽出した各部分動画像に対して編集処理を行い、編集した複数の部分動画像データを結合することによって、ダイジェスト動画像データを生成する。これによりサーバ装置１は、再生時間の長い動画像データに基づいて、再生時間を短縮し且つ編集処理を施したダイジェスト動画像データを生成することができる。なお本実施の形態においてサーバ装置１は、全体動画像から部分動画像を抽出して編集処理を行ったが、これに限るものではなく、部分動画像を抽出せず、全体動画像に対して編集処理を行ってもよい。これは、全体動画像の再生時間が短い場合等に好適である。換言すれば、サーバ装置１は、全体動画像から部分動画像を抽出する際に、全体動画像そのものを１つの部分動画像として抽出してもよい。

また本実施の形態に係る端末装置３は、動画像データに対する編集処理の実施指示を受け付けるアイコン１０１を、動画像再生画面に動画像と共に表示し、アイコン１０１に対する操作を受け付けることで編集処理の実施指示を受け付ける。実施指示を受け付けた場合に端末装置３は編集処理の依頼をサーバ装置１へ与え、この依頼に応じてサーバ装置１が動画像データの編集処理を行い、編集済みの動画像データを端末装置３へ送信する。端末装置３は、再生画面において、編集前の動画像データに代えて、サーバ装置１から受信した編集済みの動画像データを再生して表示する。これによりユーザは、動画像データの編集処理の実施指示を容易に行うことができると共に、編集処理がなされた動画像データを容易に視聴することが期待できる。

なお、本実施の形態において情報処理システムは、端末装置３からサーバ装置１が動画像データを取得して編集処理を行い、編集済みの動画像データをサーバ装置１から端末装置３へ送信する構成としたが、これに限るものではなく、例えば端末装置３にて編集処理等を行う構成としてもよく、この場合には情報処理システムにサーバ装置１が含まれていなくてもよい。本実施の形態において説明した情報処理は、複数の装置の協働により行われてもよく、単体の装置にて行われてもよい。

また本実施の形態においてサーバ装置１は、１つの動画像データに対して編集処理を行っているが、これに限るものではない。例えば端末装置３から複数の動画像データをサーバ装置１が取得し、複数の全体動画像からそれぞれ一又は複数の部分動画像を抽出して編集処理を行い、編集済みの複数の部分動画像を結合して１つのダイジェスト動画像を生成してもよい。

また本実施の形態においてサーバ装置１は、動画像データの入力に対してこの動画像データの特徴を出力する学習モデルを用いたが、例えば以下のような学習モデルを用いて編集処理を行ってもよい。例えば、動画像データの入力に対して、本実施の形態においてサーバ装置１の処理として説明した編集処理を施すように機械学習がなされた学習モデルを生成してもよい。サーバ装置１は、端末装置３から取得した動画像データをこの学習モデルへ入力し、学習モデルが出力する編集済みの動画像データを取得して端末装置３へ送信することができる。

また例えばサーバ装置１は、動画像データやシーン情報等の入力に対して又は特徴特定モデル１２ｂにより特定した特徴の入力に対して、編集方法を出力する学習モデルを用いてもよい。サーバ装置１が編集済みの動画像データを端末装置３へ送信し、端末装置３が編集済みの動画像データを再生して表示した後、端末装置３は、この編集内容に対するユーザの評価を取得してもよい。例えば図５に示した動画像再生画面に設けられた動画共有のアイコン１０２に対する操作がなされた場合には編集内容に対して高評価がなされたものとし、自動編集のアイコン１０１に対する２回目以降の操作がなされた場合（即ち再編集の依頼がなされた場合）には編集内容に対して低評価がなされたものとして端末装置３が編集内容に対する評価を取得して蓄積することができる。端末装置３が取得した評価はサーバ装置１へフィードバックされ、編集方法を出力する学習モデルの再学習に用いることができる。ユーザの評価に基づいて再学習された学習モデルを用いることによって、よりユーザの好みを反映した編集処理を実現できる。

また本実施の形態においては端末装置３にて撮影した動画像データを編集処理の対象としたが、これに限るものではない。端末装置３とは異なるビデオカメラ等の装置にて撮影した動画像データをサーバ装置１が取得して編集処理を行い、編集済みの動画像データを端末装置３へ送信してもよい。またインターネット等にて公開されている動画像データをユーザが端末装置３にて取得し、取得した動画像データに対して編集処理を行ってもよい。またゲーム機にてプレイしたゲームの様子を動画像データとして保存し、この動画像データに対して編集処理を行ってもよい。この場合に編集処理はサーバ装置１が行ってもよく、ゲーム機が行ってもよい。

＜変形例１＞
図１０は、変形例１に係る端末装置３が表示する編集設定画面の一例を示す模式図である。変形例１に係る情報処理システムでは、サーバ装置１が行う種々の編集処理に対して、ユーザが各編集処理の実施の可否を設定することが可能である。端末装置３は、例えば図示しないメニュー画面等において編集処理に関する設定の項目が選択された場合に、図示の編集設定画面を表示部３４に表示する。

編集設定画面は、最上部に「編集設定」のタイトル文字列が表示されて、その下方に実施可能な編集処理の方法がチェックボックスと共に一覧表示される。端末装置３は、各チェックボックスに対するユーザの操作に応じてチェックの有無をトグル的に更新して表示する。図示の例では、「装飾画像の追加」、「キャラクタ画像の追加」、「エフェクト画像の追加」、「時間帯変更」、「スタイル変更」、「効果音追加」、「背景音追加」、「音声変更」及び「再生速度変更」の９項目が設定可能な編集方法として示されている。これらのうち、「時間帯変更」及び「再生速度変更」の２項目がチェックボックスにチェックされておらず、ユーザが編集方法から除外したものとみなされる。

編集設定画面の最下部には「ＯＫ」のラベルが付されたボタンが設けられている。端末装置３は、ＯＫのボタンに対するタッチ操作、タップ操作又はクリック操作等を受け付けた場合に、編集設定画面に表示された各項目のチェックボックスのチェック状態を取得し、各編集方法の採用の可否を決定する。端末装置３は、サーバ装置１に対して動画像データの編集を依頼する際に、各編集方法の可否を示した設定情報をサーバ装置１へ送信する。

サーバ装置１は、端末装置３から送信される設定情報を受信し、受信した設定情報に基づいて各編集方法の適用の可否を判断する。例えばサーバ装置１は、動画像データから特定して特徴の組み合わせに基づいて編集方法決定テーブル１２ｃを参照することで編集方法を決定するが、編集方法決定テーブル１２ｃに定められた編集方法が適用不可に設定されている場合、この編集方法を用いた編集処理を行わない。この場合にサーバ装置１は、代わりの編集方法で編集処理を行ってもよく、編集処理を行わなくてもよい。

＜変形例２＞
図１１は、変形例２に係る情報処理システムの構成を説明するための模式図である。変形例２に係る情報処理システムは、例えばテーマパーク、遊園地、動物園、イベント会場又は結婚式場等の施設に設置された一又は複数のカメラ５が撮影した動画像データをサーバ装置１が取得する。サーバ装置１は、カメラ５から取得した複数の動画像データから部分動画像を抽出してダイジェスト動画像データを生成する。サーバ装置１は、生成したダイジェスト動画像データを予め定められたユーザの端末装置３へ送信する。

変形例２に係るサーバ装置１は、例えば予め顔画像等が登録されたユーザについて、このユーザが映されているシーンを複数の動画像データから抽出することで複数の部分動画像を生成する。サーバ装置１は、これら複数の部分動画像に対して上述のような編集処理を施して結合したダイジェスト動画像データを生成することができる。サーバ装置１は、顔画像と共に登録されたユーザのメールアドレス等に対して生成した動画像データを送信することができる。

今回開示された実施形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。

１サーバ装置
３端末装置
５カメラ
１１処理部
１１ａ動画像取得部
１１ｂ部分動画像抽出部
１１ｃ特徴特定部
１１ｄ編集方法決定部
１１ｅ編集処理部
１１ｆ結合処理部
１１ｇ編集済動画像送信部
１２記憶部
１２ａサーバプログラム
１２ｂ特徴特定モデル
１２ｃ編集方法決定テーブル
１３通信部
３１処理部
３１ａ撮影処理部
３１ｂ表示処理部
３１ｃ編集指示受付部
３１ｄ動画像送信部
３１ｅ動画像受信部
３２記憶部
３２ａプログラム
３３通信部
３４表示部
３５操作部
３６カメラ
９８，９９記録媒体
１０１，１０２アイコン

Claims

情報処理装置が動画像データを生成する情報処理方法であって、
前記情報処理装置が、
施設に設置された一又は複数のカメラが撮影した動画像データを取得し、
取得した動画像データから、登録されたユーザが映された複数の部分動画像データを抽出し、
動画像データを入力として受け付けて当該動画像データに含まれるシーンの特徴を特定した情報を出力するよう機械学習がなされた学習モデルを用いて、抽出した部分動画像データを前記学習モデルへ入力して当該学習モデルが出力する情報を取得することで前記部分動画像データの特徴を特定し、
前記情報に対応付けられた編集方法に基づいて前記部分動画像データの編集処理を行い、
編集した部分動画像データを結合し、
結合した動画像データを、登録された端末装置へ送信する、
情報処理方法。
前記情報処理装置が、
前記動画像データの中の同一時点で複数の特徴を特定し、
特定した複数の特徴の組み合わせに応じて、前記動画像データに対して編集処理を行う、
請求項１に記載の情報処理方法。
前記編集処理には、
前記動画像データに対する装飾画像、キャラクタ画像又はエフェクト画像を重畳する処理、
前記動画像データに含まれるシーンの時間帯を変更する処理、
前記動画像データのスタイルを変更する処理、
前記動画像データに効果音又は背景音を追加する処理、
前記動画像データに含まれる音声を変更する処理、及び、
前記動画像データの再生速度を変更する処理
の少なくとも１つの処理を含む、
請求項１又は請求項２に記載の情報処理方法。
前記情報処理装置が、
前記編集処理に係る設定を受け付け、
受け付けた設定に応じて前記編集処理を行う、
請求項１から請求項３までのいずれか１つに記載の情報処理方法。
前記動画像データに対する編集処理の実施指示を受け付ける画像を前記動画像データと共に出力し、
前記実施指示を受け付けた場合に、前記情報処理装置が前記動画像データの編集処理を行い、
編集前の前記動画像データに代えて、編集後の動画像データを出力する、
請求項１から請求項４までのいずれか１つに記載の情報処理方法。
施設に設置された一又は複数のカメラが撮影した動画像データを取得する取得部と、
前記取得部が取得した動画像データから、登録されたユーザが映された複数の部分動画像データを抽出する抽出部と、
動画像データを入力として受け付けて当該動画像データに含まれるシーンの特徴を特定した情報を出力するよう機械学習がなされた学習モデルを用いて、抽出した部分動画像データを前記学習モデルへ入力して当該学習モデルが出力する情報を取得することで前記部分動画像データの特徴を特定する特定部と、
前記情報に対応付けられた編集方法に基づいて前記部分動画像データの編集処理を行う編集部と、
前記編集部が編集した部分動画像データを結合する結合部と、
前記結合部が結合した動画像データを、登録された端末装置へ送信する送信部と
を備える情報処理装置。
コンピュータに、
施設に設置された一又は複数のカメラが撮影した動画像データを取得し、
取得した動画像データから、登録されたユーザが映された複数の部分動画像データを抽出し、
動画像データを入力として受け付けて当該動画像データに含まれるシーンの特徴を特定した情報を出力するよう機械学習がなされた学習モデルを用いて、抽出した部分動画像データを前記学習モデルへ入力して当該学習モデルが出力する情報を取得することで前記部分動画像データの特徴を特定し、
前記情報に対応付けられた編集方法に基づいて前記部分動画像データを編集し、
編集した部分動画像データを結合し、
結合した動画像データを、登録された端末装置へ送信する
処理を実行させる、コンピュータプログラム。