JP2016144080A

JP2016144080A - 情報処理装置、情報処理システム、情報処理方法及びプログラム

Info

Publication number: JP2016144080A
Application number: JP2015019554A
Authority: JP
Inventors: 高橋　直也; Naoya Takahashi; 直也高橋
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2015-02-03
Filing date: 2015-02-03
Publication date: 2016-08-08
Also published as: US20180268866A1; US10504554B2; WO2016125362A1

Abstract

【課題】高速再生動画において再生される音声をより自然なものすることが可能な情報処理装置、情報処理システム、情報処理方法及びプログラムを提案する。
【解決手段】入力された動画の映像部分から高速再生映像を生成する映像生成部と、前記動画の音声部分の一部を用いて短縮音声を生成する音声生成部と、前記映像生成部により生成された前記高速再生映像及び前記音声生成部により生成された前記短縮音声を合成して高速再生動画を生成する合成部と、を備える情報処理装置。
【選択図】図１

Description

本開示は、情報処理装置、情報処理システム、情報処理方法及びプログラムに関する。

近年、ライフログカメラやアクションカメラといった種類のカメラがスポーツ等の分野において広く用いられている。このようなカメラでは、長時間連続して撮影されることが多く、また構図が単調になりやすいことから、撮影された動画そのままでは鑑賞に堪えない場合がある。そのため、例えば撮影された動画を高速再生して短くまとめた高速再生動画を生成するための技術が注目されている。高速再生動画には、例えばいわゆるタイムラプス動画や、一人称動画（撮影者自身の目線で撮影された動画）のタイムラプス動画であるハイパーラプス動画といった種類がある。

映像に関しては、例えば高速再生における激しい手振れを押さえるための技術が開発されている。一方、音声に関しては、例えば波形の伸縮又は間引き等を行うスピードコントロールにより、音程・音色の歪を押さえながら高速再生する技術が開発されている。しかし、スピードコントロールの技術では、高速再生動画において採用される速度（例えば、４倍速以上）において、音程及び音色の歪み激しくなったり、人の話し声が細切れになって理解不可能な不自然な音声になったりする場合がある。そのため、高速再生動画において再生される音声を自然なものにするための技術が求められている。

例えば、下記特許文献１では、入力音声を人の発話区間と非発話区間とに分け、非発話区間に関しては、発話区間と比較して速い速度で再生する技術が開示されている。

特開平２００８−１１８６８８号公報

しかし、上記特許文献１に開示された技術では、発話区間を速い速度で再生することが困難であった。そのため、例えば発話区間を早い速度で再生しようとすると、不自然な音声になる場合があった。そこで、本開示では、高速再生動画において再生される音声をより自然なものすることが可能な、新規且つ改良された情報処理装置、情報処理システム、情報処理方法及びプログラムを提案する。

本開示によれば、入力された動画の映像部分から高速再生映像を生成する映像生成部と、前記動画の音声部分の一部を用いて短縮音声を生成する音声生成部と、前記映像生成部により生成された前記高速再生映像及び前記音声生成部により生成された前記短縮音声を合成して高速再生動画を生成する合成部と、を備える情報処理装置が提供される。

また、本開示によれば、入力された動画の映像部分から高速再生映像を生成する映像生成部と、前記動画の音声部分の一部を用いて短縮音声を生成する音声生成部と、前記映像生成部により生成された前記高速再生映像及び前記音声生成部により生成された前記短縮音声を合成して高速再生動画を生成する合成部と、を備える情報処理システムが提供される。

また、本開示によれば、入力された動画の映像部分から高速再生映像を生成することと、前記動画の音声部分の一部を用いて短縮音声を生成することと、生成された前記高速再生映像及び短縮音声をプロセッサにより合成して高速再生動画を生成することと、を含む情報処理方法が提供される。

また、本開示によれば、コンピュータを、入力された動画の映像部分から高速再生映像を生成する映像生成部と、前記動画の音声部分の一部を用いて短縮音声を生成する音声生成部と、前記映像生成部により生成された前記高速再生映像及び前記音声生成部により生成された前記短縮音声を合成して高速再生動画を生成する合成部と、として機能させるためのプログラムが提供される。

以上説明したように本開示によれば、高速再生動画において再生される音声をより自然なものすることが可能である。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本実施形態に係る動画生成装置の論理的な構成の一例を示すブロック図である。本実施形態に係る音声生成部の論理的な構成の一例を示すブロック図である。本実施形態に係る分割部の論理的な構成の一例を示すブロック図である。本実施形態に係る環境音声区間分割部の論理的な構成の一例を示すブロック図である。本実施形態に係る抽出部による抽出処理の一例を説明するための図である。本実施形態に係る連結部による連結処理の一例を説明するための図である。本実施形態に係る連結部による連結処理の一例を説明するための図である。本実施形態に係る動画生成装置において実行される高速動画生成処理の流れの一例を示すフローチャートである。本実施形態に係る動画生成装置において実行される連結処理の流れの一例を示すフローチャートである。本実施形態に係る動画生成装置において実行される連結処理の流れの一例を示すフローチャートである。本実施形態に係る動画生成装置の論理的な構成の一例を示すブロック図である。本実施形態に係る音声生成部の論理的な構成の一例を示すブロック図である。本実施形態に係る分割部の論理的な構成の一例を示すブロック図である。本実施形態に係る抽出部による抽出処理の一例を説明するための図である。本実施形態に係る連結部による連結処理の一例を説明するための図である。本実施形態に係る動画生成装置の論理的な構成の一例を示すブロック図である。本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

なお、説明は以下の順序で行うものとする。
１．概要
２．第１の実施形態
２．１．構成例
２．２．動作処理例
３．第２の実施形態
４．第３の実施形態
５．第４の実施形態
６．ハードウェア構成例
７．まとめ

＜＜１．概要＞＞
まず、本開示の一実施形態に係る動画生成装置の概要を説明する。

本実施形態に係る動画生成装置は、入力された動画を高速再生する高速再生動画を生成する。その際、動画生成装置は、映像中の場面やイベント等と整合性のとれた、歪みやブツ切れ感のない自然な音声を、高速再生動画に付加することが可能である。なお、本明細書では、音全般を音声とも称し、人の声を発話音声とも称し、音声のうち発話音声以外の音声を環境音とも称する。ただし、音声認識とは発話内容を認識する技術を指すものとする。また、動画は、音声及び映像（画像）を含むものとする。また、高速再生動画のための音声を短縮音声とも称し、高速再生動画のための映像を高速再生映像とも称する。

以下、上記特許文献１に記載の技術を比較例として、本実施形態に係る動画生成装置との比較を行う。

比較例では、非発話区間を発話区間と比較して速い速度で再生していた。そのため、比較例では、発話の有無に応じて映像の再生速度を変化させることが望ましい、という不要な制限が課せられていた。また、音声のみ再生速度を変化させる場合、映像との同期ずれが発生して、映像と音声との整合性をとることが困難な場合がある。さらに、非発話区間での高速再生では音が歪む可能性があり、無音にするなどの対処を要される場合があった。

ここで、約４倍速以上の速度で音声を再生する場合、例えば発話内容の意味を理解することは困難である。しかし、高速再生動画の鑑賞者にとって、発話内容をすべて理解することが目的であることはほとんどないと考えられる。例えば、鑑賞者にとっては、映像中の環境や雰囲気を知ることができたり、ごく限られた短い発話内容を聞き取ったりすることができれば十分であると考えられる。

そのために、例えば環境音のみを分離抽出して高速再生動画に付加するという手法が考えられる。例えば特開２０１４−１３９６５８号公報には、音声信号から環境音を抽出する技術が開示されている。しかし、当該技術では、中央に定位していない音声を抽出することは困難であり、また、音色の劣化が生じる可能性がある。よって、当該技術が適用可能しても、高速再生動画において再生される音声を自然なものにすることは困難であると考えられる。

そこで、上記事情を一着眼点にして本実施形態に係る動画生成装置を創作するに至った。本実施形態に係る動画生成装置は、動画の音声部分の一部を用いて短縮音声を生成する。より詳しくは、本実施形態に係る動画生成装置は、動画の音声部分の一部を抽出して、高速再生する映像部分に同期するタイミングで、抽出した音声を再生する。

以上、本開示の一実施形態に係る動画生成装置の概要を説明した。以下、各実施形態について詳細に説明する。

＜＜２．第１の実施形態＞＞
まず、図１〜図１０を参照して、第１の実施形態について説明する。本実施形態は、入力された原音声に基づいて短縮音声を生成する形態である。

＜２．１．構成例＞
（Ａ）全体の構成例
図１は、本実施形態に係る動画生成装置の論理的な構成の一例を示すブロック図である。図１に示すように、動画生成装置１は、入力部１０、出力部２０、記憶部３０及び制御部４０を含む。

（Ａ．１）入力部１０
入力部１０は、動画生成装置１の処理対象となる動画の入力を受け付ける機能を有する。例えば、入力部１０は、動画を撮影するカメラ及びマイクにより実現されてもよい。また、入力部１０は、他の装置からの動画の入力を受け付ける、有線／無線のインタフェースであってもよい。

（Ａ．２）出力部２０
出力部２０は、制御部４０により生成された高速再生動画を出力する機能を有する。例えば、出力部２０は、動画を出力する表示装置及び音声出力装置により実現されてもよい。また、出力部２０は、他の装置へ高速再生動画を出力する、有線／無線のインタフェースであってもよい。

（Ａ．３）記憶部３０
記憶部３０は、所定の記録媒体に対してデータの記録再生を行う部位である。例えば、記憶部３０は、生成された高速再生動画や、高速再生動画を生成するための処理途中の音声データ及び映像データを記憶し得る。

（Ａ．４）制御部４０
制御部４０は、演算処理装置および制御装置として機能し、各種プログラムに従って動画生成装置１内の動作全般を制御する。図１に示すように、制御部４０は、分離部１００、映像生成部２００、音声生成部３００、合成部４００及び出力制御部５００として機能する。

（Ａ．４．１）分離部１００
分離部１００は、入力された動画を映像部分と音声部分とに分離する機能を有する。分離部１００は映像部分を映像生成部２００へ出力し、音声部分を音声生成部３００へ出力する。

（Ａ．４．２）映像生成部２００
映像生成部２００は、入力された動画の映像部分から高速再生映像を生成する機能を有する。例えば、映像生成部２００は、分離部１００により分離された映像を所定の再生速度の映像に変換することで、高速再生映像を生成する。再生速度は固定であってもよいし、時間によって変化してもよい。映像生成部２００は、手振れ補正などの安定化の処理（スタビライズ処理）を行ってもよい。スタビライズ処理としては、例えば特開２０１２−２５７０８０号公報に記載された技術を適用可能である。

（Ａ．４．３）音声生成部３００
音声生成部３００は、入力された動画の音声部分の一部を用いて短縮音声を生成する機能を有する。例えば、音声生成部３００は、分離部１００により分離された音声（原音声）のうち一部の区間の音声について、映像生成部２００において採用された再生速度に合わせて再生時間を短縮することで、短縮音声を生成する。なお、短縮音声は、原音声のうち抽出された一部の区間の音声を連結することで、再生時間を短縮した音声である。抽出された音声は、再生速度を高速化されてから連結されてもよいし、等速で連結されてもよいし、低速化されてから連結されてもよい。また、短縮音声には、再生速度が異なる区間が混在し得る。音声生成部３００の詳細な機能構成については、後に詳しく説明する。

（Ａ．４．４）合成部４００
合成部４００は、映像生成部２００により生成された高速再生映像及び音声生成部３００により生成された短縮音声を合成して高速再生動画を生成する機能を有する。

（Ａ．４．５）出力制御部５００
出力制御部５００は、合成部４００により生成された高速再生動画を出力するよう出力部２０を制御する機能を有する。出力制御部５００は、高速再生動画を記憶部３０に記憶させてもよい。

以上、動画生成装置１の全体構成例を説明した。続いて、図２〜図７を参照して、音声生成部３００の詳細な機能を説明する。

（Ｂ）音声生成部３００の構成例
図２は、本実施形態に係る音声生成部３００の論理的な構成の一例を示すブロック図である。音声生成部３００は、原音声から短縮音声を生成する。図２に示すように、音声生成部３００は、分割部３１０、抽出部３２０及び連結部３３０として機能する。

（Ｂ．１）分割部３１０
分割部３１０は、動画の音声部分をひとつ以上の区間に分割する機能を有する。例えば、分割部３１０は、音声を発話音声が含まれる発話区間と環境音のみの非発話区間とに分割したり、場面ごとの区間に分割したりする。分割された各区間の音声を、以下では部分音声とも称する。以下では、図３及び図４を参照して、分割部３１０の詳細な機能を説明する。

図３は、本実施形態に係る分割部３１０の論理的な構成の一例を示すブロック図である。分割部３１０は、原音声を分割して、分割点を示す情報である分割情報を出力する。図３に示すように、分割部３１０は、発話音声区間分割部３１１、環境音声区間分割部３１３及び特徴量変化分割部３１５として機能する。

（Ｂ．１．１）発話音声区間分割部３１１
発話音声区間分割部３１１は、発話音声を検出することで、音声を発話音声が含まれる発話区間と含まれない非発話区間とに分割する機能を有する。例えば、発話音声区間分割部３１１は、ＶＡＤ（voice activity detection）を行う。ＶＡＤの一例として、例えば入力音のエネルギーが閾値を超えた区間を発話区間とし、それ以外を非発話区間とする方法が採用されてもよい。他にも、下記の数式１に示すように、入力音のエネルギーの短時間（Ｔ１）積分を長時間（Ｔ２：Ｔ１＜＜Ｔ２）積分で正規化した値Ｒが、予め設定した閾値ｔｈを超える区間を発話区間とする方法が採用されてもよい。

また、ロバスト性を向上させるために、他の方法が採用されてもよい。例えば、スペクトルの白色性や短時間ＳＮＲを考慮する方法、特開２００７−３２８２２８号公報に開示された波形の周期性を考慮する方法、又は特開２０１２−１５０２３７号公報に開示された音源の到来方向を考慮する方法が採用されてもよい。

発話音声区間分割部３１１は、発話区間を対象とした音声認識を行い、発話区間をさらに詳細に分割してもよい。例えば、発話音声区間分割部３１１は、文単位又は単語単位等に分割してもよい。音声認識の方法としては、例えばＭＦＣＣ（Mel-Frequency Cepstrum Coefficients）等を特徴量とした混合正規分布を生成し、生成した混合正位分布を出力確率とした隠れマルコフモデルを用いてモデル化する方法が採用されてもよい。

（Ｂ．１．２）環境音声区間分割部３１３
環境音声区間分割部３１３は、発話音声以外の音声に基づいて、動画の音声部分を当該動画における場面ごとの区間に分割する機能を有する。これにより、音声生成部３００は、高速再生映像に含まれる場面の各々に対応する短縮音声を生成することが可能となる。例えば、環境音声区間分割部３１３は、まず、環境音が含まれる区間を、大通りの環境音、路地裏の環境音、自然公園の環境音、電車の傍の環境音等の場面（クラス）ごとの環境音に分類する。さらに、環境音声区間分割部３１３は、例えば花火の音、単発の車のクラクション、車が近くを通り過ぎる音や単発の打撃音などの定常性の低い音を検出して、分類した各クラスの環境音をさらに詳細に分類してもよい。そして、発話音声区間分割部３１１は、分類されたクラスが変わる時点、定常性の低い音の開始点及び終了点を分割点として、音声を分割する。

図４は、本実施形態に係る環境音声区間分割部３１３の論理的な構成の一例を示すブロック図である。図４に示すように、環境音声区間分割部３１３は、特徴量計算部３１３１及び識別器３１３３として機能する。

特徴量計算部３１３１は、環境音の特徴量を計算する機能を有する。環境音は、発話音声に比べてバリエーションが多岐にわたるため、特徴量計算部３１３１は、多様な特徴量を計算することで、環境音の識別精度を向上させてもよい。特徴量として、例えば、エネルギー、ゼロクロス、スペクトル包絡、スペクトルフラックス、スペクトラルセントロイド、ＭＦＣＣ、ＭＰ（matching pursuit）又はＳｕｂｂａｎｄＰＣＡ等が採用され得る。

識別器３１３３は、特徴量からクラスを識別する機能を有する。識別器３１３３として、例えば線形判別器、サポートベクターマシン、ニューラルネットワーク、ＧＭＭ（Gaussian mixture model）等が採用されてもよい。識別器３１３３は、予め教師データを用いて学習済みであるものとする。

（Ｂ．１．３）特徴量変化分割部３１５
特徴量変化分割部３１５は、動画の音声部分を特徴量が変化する時点で分割する機能を有する。特徴量変化分割部３１５は、例えば環境音声区間分割部３１３と組み合わせて、又は環境音声区間分割部３１３の代わりとして機能し得る。特徴量としては、例えば特徴量計算部３１３１で計算される特徴量が同様に採用されてもよい。特徴量変化分割部３１５は、識別処理を要さないので、環境音声区間分割部３１３と比較して簡易に分割することが可能である。また、特徴量変化分割部３１５は、学習を要さないので、環境音声区間分割部３１３と比較して未知の場面にも対応可能である。例えば、特徴量変化分割部３１５は、音声全体のエネルギー、各バンドのエネルギー、スペクトルフラックス等の短時間平均を特徴量毎にモニタリングし、その変化量が閾値を超えた時点で区間を分割し得る。

以上、分割部３１０の構成例を説明した。なお、分割部３１０は、発話音声区間分割部３１１、環境音声区間分割部３１３及び特徴量変化分割部３１５の少なくともいずれかを有していればよく、例えば一部を有していなくてもよい。以下では、再度音声生成部３００の説明に戻る。

（Ｂ．２）抽出部３２０
抽出部３２０は、入力された動画の音声部分の一部から部分音声をひとつ以上抽出する機能を有する。例えば、抽出部３２０は、分割部３１０により分割された区間のうちどの区間を間引き、どの区間を短縮音声に使用する区間として抽出するかを決定する。原音声のうち一部の区間の音声が短縮音声に使用されるので、全部が短縮音声に使用される場合と比較して、使用される音声の長さが短くなる。これにより、高速再生の度合が低まり、高速再生に起因する不自然さが軽減される。抽出部３２０による抽出方法は多様に考えられる。

例えば、抽出部３２０は、非発話区間（環境音）から部分音声を優先的に抽出してもよい。その際、抽出部３２０は、分割部３１０により分割された場面ごとの区間の各々から、ひとつ以上の部分音声を抽出してもよい。これにより、抽出部３２０は、高速再生映像に含まれる場面の各々に対応する部分音声を抽出することが可能となる。従って、動画生成装置１は、場面に対応する部分音声を含む高速再生動画を生成することが可能となる。これにより、鑑賞者は、映像中の環境や雰囲気を容易に知ることが可能となる。

また、抽出部３２０は、イベント音を優先的に抽出してもよい。イベント音とは、動画の撮影中に発生したイベントに対応する音を意味する。イベント音は、発話音声のうち、例えば「きれい！」や「○○に到着です」といった短い発話音声であってもよい。例えば、抽出部３２０は、抽出するべき単語が予め登録された抽出ルールＤＢを参照して、登録された単語が音声認識された場合に発話区間からイベント音を抽出してもよい。これにより、鑑賞者は、短い発話内容を聞き取ることが可能となる。他にも、イベント音は、環境音のうち、例えば花火の音、単発の車のクラクション、車が近くを通り過ぎる音、単発の打撃音、又は破裂音等といった突発的な音声であってもよい。例えば、抽出部３２０は、抽出するべき環境音が予め登録された環境音ＤＢを参照して、登録された環境音が認識された場合に非発話区間からイベント音を抽出してもよい。以下、図５を参照して、抽出部３２０による抽出処理を具体的に説明する。

図５は、本実施形態に係る抽出部３２０による抽出処理の一例を説明するための図である。例えば、原音声６００が、場面６１１と場面６１２の二つの場面の音声に分類されるものとする。また、原音声６００には、発話区間６２１及び６２２が含まれるものとする。なお、原音声６００における区切り線は、分割部３１０により設定された分割点を意味するものとする。まず、抽出部３２０は、非発話区間である環境音６３０（符号６３１〜６３５）を抽出する。また、抽出部３２０は、イベント音６４０を抽出する。イベント音６４１は、花火等の突発的な環境音である。イベント音６４２は、「○○に到着です」といった短い発話音声である。

なお、抽出部３２０は、上述のような音声の内容に応じて抽出する他に、例えば再生速度の倍率等に応じて抽出してもよい。

（Ｂ．３）連結部３３０
連結部３３０は、抽出部３２０により抽出された部分音声の各々を連結することで、短縮音声を生成する機能を有する。

例えば、連結部３３０は、部分音声を互いに重複させて連結する。これにより、短縮音声が途切れることが防止される。また、連結部３３０は、部分音声の重複部分で多様な音響効果を適用してもよい。例えば、連結部３３０は、部分音声の重複部分でクロスフェードを適用してもよい。これにより、重複部分での不連続性及び音の急激な変化が防止されるので、高速再生動画において再生される音声の不自然さが軽減される。

例えば、連結部３３０は、抽出部３２０により抽出された部分音声の各々を、高速再生映像に対応する位置に配置し連結することで短縮音声を生成してもよい。これにより、音声生成部３００は、高速再生映像と同期の取れた（即ち、相関のある）短縮音声を生成することが可能となり、高速再生動画において再生される音声の不自然さが軽減される。例えば、高速再生動画において、交通の激しい大通りの映像では激しい車の音声が再生され、静かな川辺の映像では静かな川の音声が再生されることとなり、例えば交通の激しい大通りの映像で静かな川の音声が再生されることを防止することができる。

より具体的には、連結部３３０は、部分音声の再生開始位置を、入力された動画における部分音声の始点に対応する高速再生映像における位置に配置してもよい。即ち、連結部３３０は、入力された動画における部分音声が抽出された区間の映像の高速再生映像における再生開始位置と、当該部分音声の再生開始位置とを合せる。これにより、ある映像の始点及び当該映像に対応する音声の始点が一致することとなり、同期の取得が実現される。

また、連結部３３０は、部分音声を高速化して連結してもよい。例えば、ある部分音声の長さが、次に配置された部分音声までの期間よりも長い場合、連結部３３０は、部分音声の音色を激しく変化させない範囲（例えば１．５倍速程度以内）で高速化してもよい。他にも、連結部３３０は、次に配置された部分音声までの期間に合わせて、部分音声を切り出してもよい。これにより、短縮音声の長さと高速再生動画の長さとを一致させることが可能となる。また、ある部分音声の長さが、次に配置された部分音声までの期間よりも短い場合、連結部３３０は、部分音声を低速化して連結してもよいし、部分音声を繰り返して（リピートして）連結してもよい。

また、連結部３３０は、部分音声を、入力された動画における当該部分音声が属する場面に対応する高速再生映像における位置に配置してもよい。例えば、連結部３３０は、映像に、当該映像の場面に対応するクラスの部分音声を割り当てる。これにより、映像の場面と音声の場面とが一致することとなり、同期の取得が実現される。

また、連結部３３０は、抽出部３２０により非発話区間から抽出された部分音声を連結してもよい。これにより、環境音が連結された短縮音声が生成されるので、鑑賞者は、映像中の環境や雰囲気を容易に知ることができる。また、連結部３３０は、非発話区間から抽出された部分音声を連結した上で、抽出部３２０により抽出されたイベント音をさらに重ねて連結してもよい。これにより、短縮音声に、花火などの突発音や「○○に到着です」といった短い発話音声が含まれることとなる。よって、鑑賞者は、映像中の環境や雰囲気をさらに容易に知ることができ、短い発話内容を容易に聞き取ることができる。

以上、連結部３３０による連結処理の一例を説明した。以下、図６を参照して、具体例に沿って連結部３３０による連結処理を説明する。

図６は、本実施形態に係る連結部３３０による連結処理の一例を説明するための図である。図６に示すように、図５を参照して上記説明した原音声６００を対象として、連結処理の一例を説明する。例えば、まず、連結部３３０は、原音声６００から参照タイムスタンプ６５０を生成する。参照タイムスタンプ６５０とは、原音声を高速再生した場合の分割点の位置を示す情報である。例えば、高速再生映像における再生速度の倍率が固定値のｍ倍である場合を想定する。その場合、原音声における分割時刻をそれぞれｔ_ｉ（ｉ＝１、２、…、ｎ）とすると、原音声を高速再生した場合の分割点ｔ’_ｉは、ｔ’_ｉ＝ｔ_ｉ／ｍとなる。また、高速再生映像における再生速度の倍率が時刻ｔによって変化する場合、時刻ｔでの再生速度の倍率をｍ（ｔ）とすると、原音声を高速再生した場合の分割点ｔ’_ｉは次式で表される。

そして、連結部３３０は、参照タイムスタンプ６５０を参照して、適切な位置に部分音声を配置することで、短縮音声６６０を生成する。

例えば、連結部３３０は、時刻ｔ’_ｉ−１に、時刻ｔ_ｉ−１を始点として抽出された部分音声を割り当ててもよい。図６に示す例では、連結部３３０は、短縮音声６６０における時刻０に、原音声６００における時刻０を始点として抽出された部分音声６３１を配置している。また、連結部３３０は、短縮音声６６０における時刻ｔ’_３に、原音声６００における時刻ｔ_３を始点として抽出された部分音声６３２を配置している。また、連結部３３０は、短縮音声６６０における時刻ｔ’_５に、原音声６００における時刻ｔ_５を始点として抽出された部分音声６３４を配置している。

ただし、時刻ｔ_ｉ−１を始点として抽出された音声がない場合、連結部３３０は、同一の場面に属する部分音声を配置する。例えば、連結部３３０は、時刻ｔ’_ｉ−１に、入力された動画の時刻ｔ_ｉ−１における場面と同一の場面から抽出された部分音声を割り当ててもよい。図６に示す例では、短縮音声６６０における時刻ｔ’_２には、原音声６００の時刻ｔ_２における場面と同一の場面から抽出された部分音声６３１が継続して割り当てられる。

また、連結部３３０は、非発話区間から抽出された部分音声を連結した上で、イベント音さらに重ねて連結してもよい。図６に示す例では、連結部３３０は、環境音である部分音声６３１、６３２、及び６３４を連結した上で、イベント音である部分音声６４２を重ねている。ここで、部分音声６４２は、部分音声６４２が抽出された時刻ｔ_６に対応する時刻ｔ’_６に配置されている。また、連結部３３０は、各部分音声を重複させて連結してもよい。図６に示す例では、連結部３３０は、部分音声６３１と６３２、６３２と６３４を一部重複させている。連結部３３０は、この重複部分でクロスフェードを適用してもよい。

以上、具体例に沿って連結部３３０による連結処理を説明した。

なお、上記説明した短縮音声の生成方法は一例であって、本技術はかかる例に限定されない。例えば、連結部３３０は、場面が変わらない限り、同一の環境音を継続して使用してもよい。また、連結部３３０は、図７に示すように、同一の場面に分類された区間を分割及び合成して、短縮音声を生成してもよい。図７は、本実施形態に係る連結部３３０による連結処理の一例を説明するための図である。図７に示す例では、連結部３３０は、原音声６００のうち、場面６１１から抽出された部分音声、及び場面６１２から抽出された部分音声をそれぞれ合成し、合成した部分音声を連結することで、短縮音声６６０を生成している。

以上、本実施形態に係る動画生成装置１の構成例を説明した。続いて、図８〜図１０を参照して、本実施形態に係る動画生成装置１の動作処理例を説明する。

＜２．２．動作処理例＞
図８は、本実施形態に係る動画生成装置１において実行される高速動画生成処理の流れの一例を示すフローチャートである。

図８に示すように、まず、ステップＳ１０２で、分離部１００は、入力された動画を映像部分と音声部分とに分離する。

次いで、ステップＳ１０４で、映像生成部２００は、高速再生映像を生成する。

次に、ステップＳ１０６〜Ｓ１１０において、音声生成部３００は、原音声から短縮音声を生成する。詳しくは、ステップＳ１０６で、分割部３１０は、動画の音声部分をひとつ以上の区間に分割する。次いで、ステップＳ１０８で、抽出部３２０は、分割部３１０により分割された区間から、ひとつ以上の部分音声を抽出する。そして、ステップＳ１１０で、連結部３３０は、抽出された部分音声を連結する。

次いで、ステップＳ１１２で、合成部４００は、高速再生映像と短縮音声とを合成する。

そして、ステップＳ１１４で、出力制御部５００は、高速再生動画を出力するよう出力部２０を制御する。

以上、高速動画生成処理の流れの一例を説明した。続いて、上記ステップＳ１１０における連結処理を詳細に説明する。

図９及び図１０は、本実施形態に係る動画生成装置１において実行される連結処理の流れの一例を示すフローチャートである。なお、本フローでは、ｔ_ｉ−１からｔ_ｉまでの音声区間をｄ_ｉ、ｔ’_ｉ−１からｔ’_ｉまでの音声区間をｄ’_ｉとする。また、抽出された部分音声を、抽出音とも称する。

まず、連結部３３０は、ステップＳ２０２でｉ＝１とし、ステップＳ２０４でｊ＝１とする。次いで、ステップＳ２０６で、連結部３３０は、区間ｄ_ｉに抽出音があるか否か判定する。

区間ｄ_ｉに抽出音がないと判定された場合（Ｓ２０６／ＮＯ）、ステップＳ２０８及びＳ２１０で、ｊをインクリメントしながら、区間ｄ_ｉ＋ｊに抽出音があるか否か判定する。このように、連結部３３０は、抽出音を見つけるまで音声区間を進めていく。抽出音が見つかった場合（Ｓ２０８／ＹＥＳ）、連結部３３０は、ステップＳ２３４で、区間ｄ_ｉ＋ｊの抽出音を区間ｄ’_ｉからｄ’_{ｉ＋ｊ−１}に割り当てる。なお、抽出音の長さがｄ’_ｉからｄ’_{ｉ＋ｊ−１}までの長さより短い場合、連結部３３０は、区間ｄ_ｉ＋ｊの抽出音を区間ｄ_ｉ〜ｄ_{ｉ＋ｊ−１}の間リピートさせて（ステップＳ２１２）、区間ｄ’_ｉからｄ’_{ｉ＋ｊ−１}に割り当てる。一方で、抽出音の長さがｄ’_ｉからｄ’_{ｉ＋ｊ−１}までの長さより長い場合、連結部３３０は、抽出音からその長さ分だけ切り出して、区間ｄ’_ｉから区間ｄ’_{ｉ＋ｊ−１}に割り当ててもよい。

区間ｄ_ｉに抽出音があると判定された場合（Ｓ２０６／ＹＥＳ）、ステップＳ２１４で、連結部３３０は、抽出音がイベント音であるか否かを判定する。

イベント音であると判定された場合（Ｓ２１４／ＹＥＳ）、連結部３３０は、ステップＳ２１６で、区間ｄ_ｉの抽出音をｍ倍（ｍ≧１）に高速化して、時刻ｔ´_ｉに重畳させる。これにより、イベント音のタイミング及び速さが、高速再生映像と同期されることとなる。

イベント音でないと判定された場合（Ｓ２１４／ＮＯ）、連結部３３０は、その抽出音をどの区間に割り当てるかを決定する。具体的には、連結部３３０は、区間ｄ_ｉに続く区間ｄ_ｉ＋ｊから部分音声が抽出されていない場合は、区間ｄ_ｉの抽出音声をそのまま区間ｄ_ｉ＋ｊにも用いる。また、区間ｄ_ｉ＋ｊから部分音声が抽出されていない場合でも、環境音のクラスが変化する場合は、変化前のクラスの環境音は当該クラスに対応する場面の映像に割り当てられることが望ましい。

そのために、まず、連結部３３０は、ステップＳ２２０及びＳ２２２で、ｊをインクリメントしながら、区間ｄ_ｉ＋ｊに抽出音がある、又は区間ｄ_ｉ＋ｊにおいて環境音のクラスが変化するか否かを判定する。抽出音が見つかった又は環境音のクラスの変化があった場合（Ｓ２２０／ＹＥＳ）、ステップＳ２２４で、連結部３３０は、ｔ’_ｉ＋ｊ−ｔ’_ｉ−１がｔ_ｉ−ｔ_ｉ−１より短いか否かを判定する。そして、連結部３３０は、抽出音の長さを、割り当てる区間の長さにするようリピートさせたり、切り出したり、高速化したりする。

例えば、短いと判定された場合（Ｓ２２４／ＹＥＳ）、連結部３３０は、ステップＳ２２６で、区間ｄ_ｉの抽出音をｍ倍（ｍ≧１）に高速化する。このｍの値は、音色が大きく変わらない、例えば、１．５倍程度が望ましい。さらに、ｍの値は、１．５倍を超えない範囲で、（ｔ_ｉ−ｔ_ｉ−１）／ｍがｔ’_ｉ＋ｊ−ｔ’_ｉ−１と近くなるように設定されることが望ましい。これにより、高速再生後の音声の長さを目標値に近づけることが可能となる。具体的には、連結部３３０は、ｍ＝ｍｉｎ（（ｔ’_ｉ＋ｊ−ｔ’_ｉ−１）／（ｔ_ｉ−ｔ_ｉ−１），１．５）を計算して、ｍの値を設定し得る。そして、連結部３３０は、ステップＳ２２８で、ｔ’_ｉ＋ｊ−ｔ’_ｉ−１が高速化した抽出音の長さ、即ち（ｔ_ｉ−ｔ_ｉ−１）／ｍより長いか否かを判定する。短いと判定された場合（Ｓ２２８／ＮＯ）、ステップＳ２３０で、連結部３３０は、高速化した抽出音からｔ’_ｉ＋ｊ−ｔ’_ｉ−１時間分切り出して、ステップＳ２３４で区間ｄ’_ｉから区間ｄ’_{ｉ＋ｊ−１}に割り当てる。長いと判定された場合（Ｓ２２８／ＹＥＳ）、ステップＳ２３４で、連結部３３０は、高速化した抽出音を区間ｄ’_ｉから区間ｄ’_{ｉ＋ｊ−１}に割り当てる。なお、長さの差が大幅である場合、連結部３３０は、高速化した抽出音をリピートして、ステップＳ２３４で区間ｄ’_ｉから区間ｄ’_{ｉ＋ｊ−１}に割り当ててもよい。上記Ｓ２２６において、ｍの値が、（ｔ_ｉ−ｔ_ｉ−１）／ｍがｔ’_ｉ＋ｊ−ｔ’_ｉ−１と近くなるように設定されている場合、差が無い又は差が微小となるので、連結部３３０は、リピートする処理を省略することが可能である。また、ｔ’_ｉ＋ｊ−ｔ’_ｉ−１がｔ_ｉ−ｔ_ｉ−１よりも長いと判定された場合（Ｓ２２４／ＮＯ）、ステップＳ２３２で、連結部３３０は、区間ｄ_ｉの抽出音を区間ｄ_ｉの抽出音を時間ｔ’_ｉ＋ｊ−ｔ’_ｉ−１の間リピートさせて、ステップＳ２３４で区間ｄ’_ｉから区間ｄ’_{ｉ＋ｊ−１}に割り当てる。

以上説明したように、ｔ’_{ｉ＋ｊ−１}までの短縮音声が生成された場合、連結部３３０は、ステップＳ２３６でｉの値をｉ＋ｊに置き換えることで、ｉの値をまだ短縮音声が生成されていないｊ区間先まで進め、最終区間に至るまで処理を繰り返す。例えば、ステップＳ２３８で、連結部３３０は、ｉ≧ｎであるか否かを判定し、ｉ＜ｎであれば上記ステップＳ２０４に戻り、ｉ≧ｎであれば処理を終了する。なお、上記では省略したが、連結部３３０は、クロスフェード処理のために、時間マージンΔｔを各分割点前後に持たせてもよい。

以上、連結処理の流れの一例を説明した。

＜＜３．第２の実施形態＞＞
続いて、図１１〜図１５を参照して、第２の実施形態について説明する。本実施形態は、入力された映像にさらに基づいて短縮音声を生成する形態である。

（Ａ）全体の構成例
図１１は、本実施形態に係る動画生成装置１の論理的な構成の一例を示すブロック図である。図１１に示すように、本実施形態に係る動画生成装置１の構成例は、第１の実施形態と同様である。本実施形態では、音声生成部３００は、動画の映像部分を対象とした映像解析結果に基づいて短縮音声を生成する。これにより、短縮音声は、より高速再生映像と同期がとれたものとなり、不自然さがより軽減される。

（Ｂ）音声生成部３００の構成例
図１２は、本実施形態に係る音声生成部３００の論理的な構成の一例を示すブロック図である。図１２に示すように、本実施形態に係る分割部３１０、抽出部３２０及び連結部３３０は、それぞれ映像解析結果を示す映像解析情報を参照する。

（Ｂ．１）分割部３１０
図１３は、本実施形態に係る分割部３１０の論理的な構成の一例を示すブロック図である。図１３に示すように、発話音声区間分割部３１１、環境音声区間分割部３１３及び特徴量変化分割部３１５は、映像解析情報を参照して原音声を分割し、分割点を示す情報である分割情報を出力する。

（Ｂ．１．１）発話音声区間分割部３１１
発話音声区間分割部３１１は、映像解析情報を参照して、音声を発話区間と非発話区間とに分割する。例えば、発話音声区間分割部３１１は、映像中の人の唇の動きを認識し、より高精度な音声認識を行ってもよい。なお、特開２０１３−２５７４１８号公報に開示された技術が採用されてもよい。

（Ｂ．１．２）環境音声区間分割部３１３
環境音声区間分割部３１３は、映像解析情報を参照して、動画の音声部分を当該動画における場面ごとの区間に分割する。例えば、環境音声区間分割部３１３は、予め多くの風景動画を用いて映像及び音声の分類を学習しておく。例えば、環境音声区間分割部３１３は、車の多い道路の映像には車の走行音、エンジン音などが対応し、緑豊かな公園の映像には木々のざわつきや鳥、虫の鳴き声が対応するといった対応関係を、予め学習しておく。その際、映像の特徴量として、例えばオプティカルフロー変化量、ＳＩＦＴ（Scale-Invariant Feature Transform）特徴量等が用いられ得る。そして、環境音声区間分割部３１３は、実際に環境音を分類する際に、例えば映像解析情報に基づいて、又は映像解析結果情報及び音声の特徴量に基づいて分類し、分類が変化した位置に分割点を設定する。例えば、環境音声区間分割部３１３は、映像内に車や電車が映っている区間で取得された音声を、車や電車の走行音として分類する。また、環境音声区間分割部３１３は、映像内に花火が写っている区間で取得された突発音を、花火の音として分類する。このように、環境音声区間分割部３１３は、映像解析情報を参照することで、環境音の分類精度を向上させることができる。

（Ｂ．１．３）特徴量変化分割部３１５
特徴量変化分割部３１５は、音声の特徴量に加え、映像の特徴量が変化する時点で分割する。そのような特徴量としては、例えばオプティカルフロー変化量、ＳＩＦＴ特徴量等が採用可能である。

（Ｂ．２）抽出部３２０
抽出部３２０は、映像解析情報にさらに基づいて、部分音声をひとつ以上抽出する。例えば、抽出部３２０は、映像解析結果情報に基づき、映像中で支配的な場面の区間の部分音声を抽出して、そうでない区間の部分音声を間引く。これにより、例えば、原音声で８秒間犬が鳴いていても、高速再生すると約１秒以下になる場合、犬の鳴き声が短縮音声に含まれることを防止することができる。

具体的には、例えば抽出部３２０は、部分音声が、映像内で支配的な物体から発生した音声であるか否かを判定する。その際、抽出部３２０は、物体が映像に写っている時間、写っている領域の広さに基づいて、支配的な物体であるか否かを判定し得る。そして、抽出部３２０は、支配的な物体から発生したと判定した音声を抽出してもよい。例えば、抽出部３２０は、映像内に犬が大きく長時間写っている場合に犬の鳴き声をイベント音として抽出し、映像内に犬がほとんど写っていない場合に犬の鳴き声を間引く。ここで、図１４を参照して、具体例に沿って抽出処理を説明する。

図１４は、本実施形態に係る抽出部３２０による抽出処理の一例を説明するための図である。例えば、図１４に示すように、映像生成部２００は、画像ＤＢ７３０を参照して、映像７１０内で支配的な物体が犬であると判定する。また、環境音声区間分割部３１３は、環境音ＤＢ７４０を参照して、部分音声７２０が犬の鳴き声の環境音であると判定する。そして、抽出部３２０は、部分音声７２０が映像内で支配的な犬から発生した音声であり、且つ犬の鳴き声が抽出ルールＤＢ７５０にイベント音として抽出すべき音声として登録されていることから、部分音声７２０を抽出する。

（Ｂ．３）連結部３３０
連結部３３０は、抽出部３２０により抽出された部分音声の各々を、映像解析情報を参照して連結することで、短縮音声を生成する。例えば、連結部３３０は、部分音声における音量の時系列変化と高速再生映像に写る被写体の時系列変化とが合致する位置に、その部分音声を配置してもよい。例えば、連結部３３０は、部分音声のうち最も音量が大きい位置が、当該部分音声の発生源である物体がカメラに最も接近したと推測される位置と一致するよう、連結位置や再生速度を調節する。これにより、短縮音声は、より高速再生映像と同期がとれたものとなり、不自然さがより軽減される。以下、図１５を参照して、具体例に沿って連結処理の一例を説明する。

図１５は、本実施形態に係る連結部３３０による連結処理の一例を説明するための図である。例えば、映像８１０に対応する部分音声として、車の走行音のイベント音８２０が抽出部３２０により抽出されたものとする。例えば、連結部３３０は、映像８１０において徐々に接近してくる車がカメラに最も接近したと推測される映像８１１の時刻に、イベント音８２０の音量が最大となる時刻を合せる。その際、連結部３３０は、映像から物体が消えた時刻付近から滑らかに走行音が始まってその後消えるよう、波形を切り出してフェード処理を行ったイベント音８３０を生成して連結してもよい。これにより、車の走行音の音量が最大になる時刻と映像中で車が最接近する時刻とが一致することとなる。

＜＜４．第３の実施形態＞＞
続いて、図１６を参照して、第３の実施形態について説明する。本実施形態は、音声に基づいて高速再生映像を生成する形態である。

図１６は、本実施形態に係る動画生成装置の論理的な構成の一例を示すブロック図である。図１６に示すように、本実施形態に係る動画生成装置１の構成例は、第１の実施形態と同様である。本実施形態では、映像生成部２００は、動画の音声部分を対象とした音声解析結果に応じて高速再生映像の再生速度を制御する。これにより、短縮音声と高速再生映像とがより同期されて、不自然さがより軽減される。

例えば、単発の花火の音、教会の鐘の音、滝の音、急ブレーキの音など特に印象的な音が含まれる区間については、一瞬で通り過ぎるのではなく、比較的長い時間をかけて鑑賞したいという欲求が考えられる。そのため、映像生成部２００は、例えば全体的には１０倍速としつつ、音声解析結果及び／又は映像解析結果、印象的であると判定された区間は約１倍〜２倍程度の比較的低速として、高速再生映像を生成する。例えば、映像生成部２００は、印象的であると判定する環境音のクラスや発話音声の単語を予め定義しておき、当該クラスに環境音が分類された区間、又は音声認識により当該単語が認識された区間で低速度を設定し、他の区間で高速度を設定する。この結果、単調なシーンは高速に再生され、印象的なシーンでは比較的低速で再生される高速再生映像が生成されることとなる。よって、鑑賞者は、印象的なシーンを見逃さずに鑑賞することができる。

＜＜５．第４の実施形態＞＞
続いて、第４の実施形態について説明する。本実施形態は、映像のみに基づいて短縮音声を生成する形態である。本実施形態に係る動画生成装置１の構成例は、図１１と同様である。

本実施形態に係る音声生成部３００は、映像生成部２００による映像解析結果のみに応じて、短縮音声を生成する。例えば、分割部３１０は、映像における人の口の動きに応じて発話区間と非発話区間とを分割したり、映像における場面の切り替わりに応じて環境音を分類したりする。そして、抽出部３２０は、例えば第１の実施形態と同様にして部分音声を抽出し、連結部３３０は、例えば第１の実施形態と同様にして部分音声を連結することで、短縮音声を生成する。

＜＜６．ハードウェア構成例＞＞
最後に、図１７を参照して、本実施形態に係る情報処理装置のハードウェア構成について説明する。図１７は、本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。なお、図１７に示す情報処理装置９００は、例えば、図１、図１１及び図１６にそれぞれ示した動画生成装置１を実現し得る。本実施形態に係る動画生成装置１による情報処理は、ソフトウェアと、以下に説明するハードウェアとの協働により実現される。

図１７に示すように、情報処理装置９００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）９０１、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）９０２、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９０３及びホストバス９０４ａを備える。また、情報処理装置９００は、ブリッジ９０４、外部バス９０４ｂ、インタフェース９０５、入力装置９０６、出力装置９０７、ストレージ装置９０８、ドライブ９０９、接続ポート９１１、通信装置９１３、撮像装置９１５及び音声入力装置９１７を備える。情報処理装置９００は、ＣＰＵ９０１に代えて、又はこれとともに、ＤＳＰ若しくはＡＳＩＣ等の処理回路を有してもよい。

ＣＰＵ９０１は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置９００内の動作全般を制御する。また、ＣＰＵ９０１は、マイクロプロセッサであってもよい。ＲＯＭ９０２は、ＣＰＵ９０１が使用するプログラムや演算パラメータ等を記憶する。ＲＡＭ９０３は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。ＣＰＵ９０１は、例えば、図１、図１１及び図１６に示す制御部４０を形成し得る。

ＣＰＵ９０１、ＲＯＭ９０２及びＲＡＭ９０３は、ＣＰＵバスなどを含むホストバス９０４ａにより相互に接続されている。ホストバス９０４ａは、ブリッジ９０４を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス９０４ｂに接続されている。なお、必ずしもホストバス９０４ａ、ブリッジ９０４および外部バス９０４ｂを分離構成する必要はなく、１つのバスにこれらの機能を実装してもよい。

入力装置９０６は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ及びレバー等、ユーザによって情報が入力される装置によって実現される。また、入力装置９０６は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置９００の操作に対応した携帯電話やＰＤＡ等の外部接続機器であってもよい。さらに、入力装置９０６は、例えば、上記の入力手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、ＣＰＵ９０１に出力する入力制御回路などを含んでいてもよい。情報処理装置９００のユーザは、この入力装置９０６を操作することにより、情報処理装置９００に対して各種のデータを入力したり処理動作を指示したりすることができる。

出力装置９０７は、取得した情報をユーザに対して視覚的又は聴覚的に通知することが可能な装置で形成される。このような装置として、ＣＲＴディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ＥＬディスプレイ装置及びランプ等の表示装置や、スピーカ及びヘッドホン等の音声出力装置や、プリンタ装置等がある。出力装置９０７は、例えば、情報処理装置９００が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置９００が行った各種処理により得られた結果を、テキスト、イメージ、表、グラフ等、様々な形式で視覚的に表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して聴覚的に出力する。上記表示装置及び上記音声出力装置は、例えば、図１、図１１及び図１６に示す出力部２０を形成し得る。

ストレージ装置９０８は、情報処理装置９００の記憶部の一例として形成されたデータ格納用の装置である。ストレージ装置９０８は、例えば、ＨＤＤ等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により実現される。ストレージ装置９０８は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。このストレージ装置９０８は、ＣＰＵ９０１が実行するプログラムや各種データ及び外部から取得した各種のデータ等を格納する。ストレージ装置９０８は、例えば、図１、図１１及び図１６に示す記憶部３０を形成し得る。

ドライブ９０９は、記憶媒体用リーダライタであり、情報処理装置９００に内蔵、あるいは外付けされる。ドライブ９０９は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体に記録されている情報を読み出して、ＲＡＭ９０３に出力する。また、ドライブ９０９は、リムーバブル記憶媒体に情報を書き込むこともできる。

接続ポート９１１は、外部機器と接続されるインタフェースであって、例えばＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）などによりデータ伝送可能な外部機器との接続口である。接続ポート９１１は、例えば、図１、図１１及び図１６に示す入力部１０及び／又は出力部２０を形成し得る。

通信装置９１３は、例えば、ネットワーク９２０に接続するための通信デバイス等で形成された通信インタフェースである。通信装置９１３は、例えば、有線若しくは無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）又はＷＵＳＢ（ＷｉｒｅｌｅｓｓＵＳＢ）用の通信カード等である。また、通信装置９１３は、光通信用のルータ、ＡＤＳＬ（ＡｓｙｍｍｅｔｒｉｃＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ）用のルータ又は各種通信用のモデム等であってもよい。この通信装置９１３は、例えば、インターネットや他の通信機器との間で、例えばＴＣＰ／ＩＰ等の所定のプロトコルに則して信号等を送受信することができる。通信装置９１３は、例えば、図１、図１１及び図１６に示す入力部１０及び／又は出力部２０を形成し得る。

なお、ネットワーク９２０は、ネットワーク９２０に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、ネットワーク９２０は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）などを含んでもよい。また、ネットワーク９２０は、ＩＰ−ＶＰＮ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ−ＶｉｒｔｕａｌＰｒｉｖａｔｅＮｅｔｗｏｒｋ）などの専用回線網を含んでもよい。

撮像装置９１５は、撮像レンズ、絞り、ズームレンズ、及びフォーカスレンズ等により構成されるレンズ系、レンズ系に対してフォーカス動作やズーム動作を行わせる駆動系、レンズ系で得られる撮像光を光電変換して撮像信号を生成する固体撮像素子アレイ等を有する。固体撮像素子アレイは、例えばＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）センサアレイや、ＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）センサアレイにより実現されてもよい。撮像装置９１５は、デジタル信号とされた撮影画像のデータを出力する。撮像装置９１５は、例えば、図１、図１１及び図１６に示す入力部１０を形成し得る。

音声入力装置９１７は、マイク、マイクで得られた音声信号を増幅処理するマイクアンプ回路やＡ／Ｄ変換器、音声データに対してノイズ除去、音源分離等の処理を行う信号処理回路等を有する。音声入力装置９１７は、デジタル信号とされた音声信号を出力する。音声入力装置９１７は、例えば、図１、図１１及び図１６に示す入力部１０を形成し得る。

以上、本実施形態に係る情報処理装置９００の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて実現されていてもよいし、各構成要素の機能に特化したハードウェアにより実現されていてもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。

なお、上述のような本実施形態に係る情報処理装置９００の各機能を実現するためのコンピュータプログラムを作製し、ＰＣ等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信されてもよい。

＜＜７．まとめ＞＞
以上、図１〜図１７を参照して、本開示の一実施形態について詳細に説明した。上記説明したように、動画生成装置１は、入力された動画の映像部分から高速再生映像を生成し、当該動画の音声部分の一部を用いて短縮音声を生成し、高速再生映像及び短縮音声を合成して高速再生動画を生成する。これにより、高速再生動画において再生される音声をより自然なものすることが可能となる。

例えば、動画生成装置１は、抽出された部分音声の各々を、高速再生映像に対応する位置に配置し連結することで短縮音声を生成してもよい。これにより、高速再生映像との整合性のとれた違和感のない短縮音声を生成することが可能となる。よって、例えばウォーキングやサイクリング等で公園や街中、線路脇などさまざまな場所を回りながら撮影された動画に基づいて生成された高速再生動画では、鑑賞者は映像中の背景にマッチした短縮音声を聴くことができる。これにより、鑑賞者は、撮影された場所の環境、雰囲気を容易に理解することができる。また、不動産ビジネス等において例えば駅から物件までの道が撮影された動画に基づいて生成された高速再生動画により、鑑賞者は、駅から物件までの道順を理解可能な上、周辺の雰囲気、治安、騒音などを短時間且つ簡単に確認可能である。また、カメラ視点が移動しない場合であっても、例えば定点観測カメラにより撮影された動画に基づいて生成された高速再生動画により、鑑賞者は、朝、昼、夜のそれぞれの時間帯での様子及び騒音等を確認可能である。

例えば、動画生成装置１は、入力された動画の映像部分を対象とした映像解析結果に基づいて短縮音声を生成してもよい。これにより、動画生成装置１は、映像や音声で特に印象的であると定義されたイベントが検出された区間で、再生速度を相対的に遅くすることが可能となる。よって、動画生成装置１は、多くの単調なシーンは高速で再生しながらも、印象的なシーンは時間をかけて再生することが可能となる。例えば、動画生成装置１は、登山の様子が撮影された動画については、滝の近くを通ったシーン、珍しい鳥の声がしたシーン、珍しい植物を見つけて名前を言ったシーン等の印象的なイベントの時のみ、再生速度を相対的に遅くした高速再生動画を生成可能である。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

また、上記では、動画生成装置１はひとつの情報処理装置として実現される例を説明したが、本技術はかかる例に限定されない。例えば、動画生成装置１は、単独の装置として実現されてもよく、一部または全部が別々の装置として分離した情報処理システムとして実現されてもよい。

また、本明細書においてフローチャート及びシーケンス図を用いて説明した処理は、必ずしも図示された順序で実行されなくてもよい。いくつかの処理ステップは、並列的に実行されてもよい。また、追加的な処理ステップが採用されてもよく、一部の処理ステップが省略されてもよい。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

なお、以下のような構成も本開示の技術的範囲に属する。
（１）
入力された動画の映像部分から高速再生映像を生成する映像生成部と、
前記動画の音声部分の一部を用いて短縮音声を生成する音声生成部と、
前記映像生成部により生成された前記高速再生映像及び前記音声生成部により生成された前記短縮音声を合成して高速再生動画を生成する合成部と、
を備える情報処理装置。
（２）
前記音声生成部は、
前記動画の音声部分の一部から部分音声をひとつ以上抽出する抽出部と、
前記抽出部により抽出された前記部分音声の各々を、前記高速再生映像に対応する位置に配置し連結することで前記短縮音声を生成する連結部と、
をさらに備える、前記（１）に記載の情報処理装置。
（３）
前記連結部は、前記部分音声の再生開始位置を、前記動画における前記部分音声の始点に対応する前記高速再生映像における位置に配置する、前記（２）に記載の情報処理装置。
（４）
前記音声生成部は、前記動画の音声部分を前記動画における場面ごとの区間に分割する分割部をさらに備え、
前記抽出部は、前記分割部により分割された場面ごとの区間の各々からひとつ以上の前記部分音声を抽出する、前記（２）又は（３）に記載の情報処理装置。
（５）
前記連結部は、前記部分音声を、前記動画における当該部分音声が属する場面に対応する前記高速再生映像における位置に配置する、前記（４）に記載の情報処理装置。
（６）
前記音声生成部は、前記動画の音声部分を発話区間と非発話区間とに分割する分割部をさらに備え、
前記連結部は、前記抽出部により前記非発話区間から抽出された前記部分音声を連結する、前記（２）〜（５）のいずれか一項に記載の情報処理装置。
（７）
前記連結部は、前記抽出部により抽出されたイベント音をさらに重ねる、前記（６）に記載の情報処理装置。
（８）
前記連結部は、前記部分音声を互いに重複させて連結する、前記（２）〜（７）のいずれか一項に記載の情報処理装置。
（９）
前記連結部は、前記部分音声の重複部分でクロスフェードを適用する、前記（８）に記載の情報処理装置。
（１０）
前記連結部は、前記部分音声を高速化して連結する、前記（２）〜（９）のいずれか一項に記載の情報処理装置。
（１１）
前記音声生成部は、前記動画の映像部分を対象とした映像解析結果に基づいて前記短縮音声を生成する、前記（２）〜（１０）のいずれか一項に記載の情報処理装置。
（１２）
前記連結部は、前記部分音声における音量の時系列変化と前記高速再生映像に写る被写体の時系列変化とが合致する位置に、前記部分音声を配置する、前記（１１）に記載の情報処理装置。
（１３）
前記映像生成部は、前記動画の音声部分を対象とした音声解析結果に応じて前記高速再生映像の再生速度を制御する、前記（１）〜（１２）のいずれか一項に記載の情報処理装置。
（１４）
入力された動画の映像部分から高速再生映像を生成する映像生成部と、
前記動画の音声部分の一部を用いて短縮音声を生成する音声生成部と、
前記映像生成部により生成された前記高速再生映像及び前記音声生成部により生成された前記短縮音声を合成して高速再生動画を生成する合成部と、
を備える情報処理システム。
（１５）
入力された動画の映像部分から高速再生映像を生成することと、
前記動画の音声部分の一部を用いて短縮音声を生成することと、
生成された前記高速再生映像及び短縮音声をプロセッサにより合成して高速再生動画を生成することと、
を含む情報処理方法。
（１６）
コンピュータを、
入力された動画の映像部分から高速再生映像を生成する映像生成部と、
前記動画の音声部分の一部を用いて短縮音声を生成する音声生成部と、
前記映像生成部により生成された前記高速再生映像及び前記音声生成部により生成された前記短縮音声を合成して高速再生動画を生成する合成部と、
として機能させるためのプログラム。

１動画生成装置
１０入力部
２０出力部
３０記憶部
４０制御部
１００分離部
２００映像生成部
３００音声生成部
３１０分割部
３１１発話音声区間分割部
３１３環境音声区間分割部
３１３１特徴量計算部
３１３３識別器
３１５特徴量変化分割部
３２０抽出部
３３０連結部
４００合成部
５００出力制御部

特開２００８−１１８６８８号公報

Claims

入力された動画の映像部分から高速再生映像を生成する映像生成部と、
前記動画の音声部分の一部を用いて短縮音声を生成する音声生成部と、
前記映像生成部により生成された前記高速再生映像及び前記音声生成部により生成された前記短縮音声を合成して高速再生動画を生成する合成部と、
を備える情報処理装置。
前記音声生成部は、
前記動画の音声部分の一部から部分音声をひとつ以上抽出する抽出部と、
前記抽出部により抽出された前記部分音声の各々を、前記高速再生映像に対応する位置に配置し連結することで前記短縮音声を生成する連結部と、
をさらに備える、請求項１に記載の情報処理装置。
前記連結部は、前記部分音声の再生開始位置を、前記動画における前記部分音声の始点に対応する前記高速再生映像における位置に配置する、請求項２に記載の情報処理装置。
前記音声生成部は、前記動画の音声部分を前記動画における場面ごとの区間に分割する分割部をさらに備え、
前記抽出部は、前記分割部により分割された場面ごとの区間の各々からひとつ以上の前記部分音声を抽出する、請求項２に記載の情報処理装置。
前記連結部は、前記部分音声を、前記動画における当該部分音声が属する場面に対応する前記高速再生映像における位置に配置する、請求項４に記載の情報処理装置。
前記音声生成部は、前記動画の音声部分を発話区間と非発話区間とに分割する分割部をさらに備え、
前記連結部は、前記抽出部により前記非発話区間から抽出された前記部分音声を連結する、請求項２に記載の情報処理装置。
前記連結部は、前記抽出部により抽出されたイベント音をさらに重ねる、請求項６に記載の情報処理装置。
前記連結部は、前記部分音声を互いに重複させて連結する、請求項２に記載の情報処理装置。
前記連結部は、前記部分音声の重複部分でクロスフェードを適用する、請求項８に記載の情報処理装置。
前記連結部は、前記部分音声を高速化して連結する、請求項２に記載の情報処理装置。
前記音声生成部は、前記動画の映像部分を対象とした映像解析結果に基づいて前記短縮音声を生成する、請求項２に記載の情報処理装置。
前記連結部は、前記部分音声における音量の時系列変化と前記高速再生映像に写る被写体の時系列変化とが合致する位置に、前記部分音声を配置する、請求項１１に記載の情報処理装置。
前記映像生成部は、前記動画の音声部分を対象とした音声解析結果に応じて前記高速再生映像の再生速度を制御する、請求項１に記載の情報処理装置。
入力された動画の映像部分から高速再生映像を生成する映像生成部と、
前記動画の音声部分の一部を用いて短縮音声を生成する音声生成部と、
前記映像生成部により生成された前記高速再生映像及び前記音声生成部により生成された前記短縮音声を合成して高速再生動画を生成する合成部と、
を備える情報処理システム。
入力された動画の映像部分から高速再生映像を生成することと、
前記動画の音声部分の一部を用いて短縮音声を生成することと、
生成された前記高速再生映像及び短縮音声をプロセッサにより合成して高速再生動画を生成することと、
を含む情報処理方法。
コンピュータを、
入力された動画の映像部分から高速再生映像を生成する映像生成部と、
前記動画の音声部分の一部を用いて短縮音声を生成する音声生成部と、
前記映像生成部により生成された前記高速再生映像及び前記音声生成部により生成された前記短縮音声を合成して高速再生動画を生成する合成部と、
として機能させるためのプログラム。