JP2016144080A - 情報処理装置、情報処理システム、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理システム、情報処理方法及びプログラム Download PDF

Info

Publication number
JP2016144080A
JP2016144080A JP2015019554A JP2015019554A JP2016144080A JP 2016144080 A JP2016144080 A JP 2016144080A JP 2015019554 A JP2015019554 A JP 2015019554A JP 2015019554 A JP2015019554 A JP 2015019554A JP 2016144080 A JP2016144080 A JP 2016144080A
Authority
JP
Japan
Prior art keywords
video
sound
unit
information processing
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015019554A
Other languages
English (en)
Inventor
高橋 直也
Naoya Takahashi
直也 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2015019554A priority Critical patent/JP2016144080A/ja
Priority to US15/544,128 priority patent/US10504554B2/en
Priority to PCT/JP2015/081867 priority patent/WO2016125362A1/ja
Publication of JP2016144080A publication Critical patent/JP2016144080A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/005Reproducing at a different information rate from the information rate of recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/78Television signal recording using magnetic recording
    • H04N5/782Television signal recording using magnetic recording on tape
    • H04N5/783Adaptations for reproducing at a rate different from the recording rate
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/802Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving processing of the sound signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Television Signal Processing For Recording (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】高速再生動画において再生される音声をより自然なものすることが可能な情報処理装置、情報処理システム、情報処理方法及びプログラムを提案する。
【解決手段】入力された動画の映像部分から高速再生映像を生成する映像生成部と、前記動画の音声部分の一部を用いて短縮音声を生成する音声生成部と、前記映像生成部により生成された前記高速再生映像及び前記音声生成部により生成された前記短縮音声を合成して高速再生動画を生成する合成部と、を備える情報処理装置。
【選択図】図1

Description

本開示は、情報処理装置、情報処理システム、情報処理方法及びプログラムに関する。
近年、ライフログカメラやアクションカメラといった種類のカメラがスポーツ等の分野において広く用いられている。このようなカメラでは、長時間連続して撮影されることが多く、また構図が単調になりやすいことから、撮影された動画そのままでは鑑賞に堪えない場合がある。そのため、例えば撮影された動画を高速再生して短くまとめた高速再生動画を生成するための技術が注目されている。高速再生動画には、例えばいわゆるタイムラプス動画や、一人称動画(撮影者自身の目線で撮影された動画)のタイムラプス動画であるハイパーラプス動画といった種類がある。
映像に関しては、例えば高速再生における激しい手振れを押さえるための技術が開発されている。一方、音声に関しては、例えば波形の伸縮又は間引き等を行うスピードコントロールにより、音程・音色の歪を押さえながら高速再生する技術が開発されている。しかし、スピードコントロールの技術では、高速再生動画において採用される速度(例えば、4倍速以上)において、音程及び音色の歪み激しくなったり、人の話し声が細切れになって理解不可能な不自然な音声になったりする場合がある。そのため、高速再生動画において再生される音声を自然なものにするための技術が求められている。
例えば、下記特許文献1では、入力音声を人の発話区間と非発話区間とに分け、非発話区間に関しては、発話区間と比較して速い速度で再生する技術が開示されている。
特開平2008−118688号公報
しかし、上記特許文献1に開示された技術では、発話区間を速い速度で再生することが困難であった。そのため、例えば発話区間を早い速度で再生しようとすると、不自然な音声になる場合があった。そこで、本開示では、高速再生動画において再生される音声をより自然なものすることが可能な、新規且つ改良された情報処理装置、情報処理システム、情報処理方法及びプログラムを提案する。
本開示によれば、入力された動画の映像部分から高速再生映像を生成する映像生成部と、前記動画の音声部分の一部を用いて短縮音声を生成する音声生成部と、前記映像生成部により生成された前記高速再生映像及び前記音声生成部により生成された前記短縮音声を合成して高速再生動画を生成する合成部と、を備える情報処理装置が提供される。
また、本開示によれば、入力された動画の映像部分から高速再生映像を生成する映像生成部と、前記動画の音声部分の一部を用いて短縮音声を生成する音声生成部と、前記映像生成部により生成された前記高速再生映像及び前記音声生成部により生成された前記短縮音声を合成して高速再生動画を生成する合成部と、を備える情報処理システムが提供される。
また、本開示によれば、入力された動画の映像部分から高速再生映像を生成することと、前記動画の音声部分の一部を用いて短縮音声を生成することと、生成された前記高速再生映像及び短縮音声をプロセッサにより合成して高速再生動画を生成することと、を含む情報処理方法が提供される。
また、本開示によれば、コンピュータを、入力された動画の映像部分から高速再生映像を生成する映像生成部と、前記動画の音声部分の一部を用いて短縮音声を生成する音声生成部と、前記映像生成部により生成された前記高速再生映像及び前記音声生成部により生成された前記短縮音声を合成して高速再生動画を生成する合成部と、として機能させるためのプログラムが提供される。
以上説明したように本開示によれば、高速再生動画において再生される音声をより自然なものすることが可能である。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本実施形態に係る動画生成装置の論理的な構成の一例を示すブロック図である。 本実施形態に係る音声生成部の論理的な構成の一例を示すブロック図である。 本実施形態に係る分割部の論理的な構成の一例を示すブロック図である。 本実施形態に係る環境音声区間分割部の論理的な構成の一例を示すブロック図である。 本実施形態に係る抽出部による抽出処理の一例を説明するための図である。 本実施形態に係る連結部による連結処理の一例を説明するための図である。 本実施形態に係る連結部による連結処理の一例を説明するための図である。 本実施形態に係る動画生成装置において実行される高速動画生成処理の流れの一例を示すフローチャートである。 本実施形態に係る動画生成装置において実行される連結処理の流れの一例を示すフローチャートである。 本実施形態に係る動画生成装置において実行される連結処理の流れの一例を示すフローチャートである。 本実施形態に係る動画生成装置の論理的な構成の一例を示すブロック図である。 本実施形態に係る音声生成部の論理的な構成の一例を示すブロック図である。 本実施形態に係る分割部の論理的な構成の一例を示すブロック図である。 本実施形態に係る抽出部による抽出処理の一例を説明するための図である。 本実施形態に係る連結部による連結処理の一例を説明するための図である。 本実施形態に係る動画生成装置の論理的な構成の一例を示すブロック図である。 本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
なお、説明は以下の順序で行うものとする。
1.概要
2.第1の実施形態
2.1.構成例
2.2.動作処理例
3.第2の実施形態
4.第3の実施形態
5.第4の実施形態
6.ハードウェア構成例
7.まとめ
<<1.概要>>
まず、本開示の一実施形態に係る動画生成装置の概要を説明する。
本実施形態に係る動画生成装置は、入力された動画を高速再生する高速再生動画を生成する。その際、動画生成装置は、映像中の場面やイベント等と整合性のとれた、歪みやブツ切れ感のない自然な音声を、高速再生動画に付加することが可能である。なお、本明細書では、音全般を音声とも称し、人の声を発話音声とも称し、音声のうち発話音声以外の音声を環境音とも称する。ただし、音声認識とは発話内容を認識する技術を指すものとする。また、動画は、音声及び映像(画像)を含むものとする。また、高速再生動画のための音声を短縮音声とも称し、高速再生動画のための映像を高速再生映像とも称する。
以下、上記特許文献1に記載の技術を比較例として、本実施形態に係る動画生成装置との比較を行う。
比較例では、非発話区間を発話区間と比較して速い速度で再生していた。そのため、比較例では、発話の有無に応じて映像の再生速度を変化させることが望ましい、という不要な制限が課せられていた。また、音声のみ再生速度を変化させる場合、映像との同期ずれが発生して、映像と音声との整合性をとることが困難な場合がある。さらに、非発話区間での高速再生では音が歪む可能性があり、無音にするなどの対処を要される場合があった。
ここで、約4倍速以上の速度で音声を再生する場合、例えば発話内容の意味を理解することは困難である。しかし、高速再生動画の鑑賞者にとって、発話内容をすべて理解することが目的であることはほとんどないと考えられる。例えば、鑑賞者にとっては、映像中の環境や雰囲気を知ることができたり、ごく限られた短い発話内容を聞き取ったりすることができれば十分であると考えられる。
そのために、例えば環境音のみを分離抽出して高速再生動画に付加するという手法が考えられる。例えば特開2014−139658号公報には、音声信号から環境音を抽出する技術が開示されている。しかし、当該技術では、中央に定位していない音声を抽出することは困難であり、また、音色の劣化が生じる可能性がある。よって、当該技術が適用可能しても、高速再生動画において再生される音声を自然なものにすることは困難であると考えられる。
そこで、上記事情を一着眼点にして本実施形態に係る動画生成装置を創作するに至った。本実施形態に係る動画生成装置は、動画の音声部分の一部を用いて短縮音声を生成する。より詳しくは、本実施形態に係る動画生成装置は、動画の音声部分の一部を抽出して、高速再生する映像部分に同期するタイミングで、抽出した音声を再生する。
以上、本開示の一実施形態に係る動画生成装置の概要を説明した。以下、各実施形態について詳細に説明する。
<<2.第1の実施形態>>
まず、図1〜図10を参照して、第1の実施形態について説明する。本実施形態は、入力された原音声に基づいて短縮音声を生成する形態である。
<2.1.構成例>
(A)全体の構成例
図1は、本実施形態に係る動画生成装置の論理的な構成の一例を示すブロック図である。図1に示すように、動画生成装置1は、入力部10、出力部20、記憶部30及び制御部40を含む。
(A.1)入力部10
入力部10は、動画生成装置1の処理対象となる動画の入力を受け付ける機能を有する。例えば、入力部10は、動画を撮影するカメラ及びマイクにより実現されてもよい。また、入力部10は、他の装置からの動画の入力を受け付ける、有線/無線のインタフェースであってもよい。
(A.2)出力部20
出力部20は、制御部40により生成された高速再生動画を出力する機能を有する。例えば、出力部20は、動画を出力する表示装置及び音声出力装置により実現されてもよい。また、出力部20は、他の装置へ高速再生動画を出力する、有線/無線のインタフェースであってもよい。
(A.3)記憶部30
記憶部30は、所定の記録媒体に対してデータの記録再生を行う部位である。例えば、記憶部30は、生成された高速再生動画や、高速再生動画を生成するための処理途中の音声データ及び映像データを記憶し得る。
(A.4)制御部40
制御部40は、演算処理装置および制御装置として機能し、各種プログラムに従って動画生成装置1内の動作全般を制御する。図1に示すように、制御部40は、分離部100、映像生成部200、音声生成部300、合成部400及び出力制御部500として機能する。
(A.4.1)分離部100
分離部100は、入力された動画を映像部分と音声部分とに分離する機能を有する。分離部100は映像部分を映像生成部200へ出力し、音声部分を音声生成部300へ出力する。
(A.4.2)映像生成部200
映像生成部200は、入力された動画の映像部分から高速再生映像を生成する機能を有する。例えば、映像生成部200は、分離部100により分離された映像を所定の再生速度の映像に変換することで、高速再生映像を生成する。再生速度は固定であってもよいし、時間によって変化してもよい。映像生成部200は、手振れ補正などの安定化の処理(スタビライズ処理)を行ってもよい。スタビライズ処理としては、例えば特開2012−257080号公報に記載された技術を適用可能である。
(A.4.3)音声生成部300
音声生成部300は、入力された動画の音声部分の一部を用いて短縮音声を生成する機能を有する。例えば、音声生成部300は、分離部100により分離された音声(原音声)のうち一部の区間の音声について、映像生成部200において採用された再生速度に合わせて再生時間を短縮することで、短縮音声を生成する。なお、短縮音声は、原音声のうち抽出された一部の区間の音声を連結することで、再生時間を短縮した音声である。抽出された音声は、再生速度を高速化されてから連結されてもよいし、等速で連結されてもよいし、低速化されてから連結されてもよい。また、短縮音声には、再生速度が異なる区間が混在し得る。音声生成部300の詳細な機能構成については、後に詳しく説明する。
(A.4.4)合成部400
合成部400は、映像生成部200により生成された高速再生映像及び音声生成部300により生成された短縮音声を合成して高速再生動画を生成する機能を有する。
(A.4.5)出力制御部500
出力制御部500は、合成部400により生成された高速再生動画を出力するよう出力部20を制御する機能を有する。出力制御部500は、高速再生動画を記憶部30に記憶させてもよい。
以上、動画生成装置1の全体構成例を説明した。続いて、図2〜図7を参照して、音声生成部300の詳細な機能を説明する。
(B)音声生成部300の構成例
図2は、本実施形態に係る音声生成部300の論理的な構成の一例を示すブロック図である。音声生成部300は、原音声から短縮音声を生成する。図2に示すように、音声生成部300は、分割部310、抽出部320及び連結部330として機能する。
(B.1)分割部310
分割部310は、動画の音声部分をひとつ以上の区間に分割する機能を有する。例えば、分割部310は、音声を発話音声が含まれる発話区間と環境音のみの非発話区間とに分割したり、場面ごとの区間に分割したりする。分割された各区間の音声を、以下では部分音声とも称する。以下では、図3及び図4を参照して、分割部310の詳細な機能を説明する。
図3は、本実施形態に係る分割部310の論理的な構成の一例を示すブロック図である。分割部310は、原音声を分割して、分割点を示す情報である分割情報を出力する。図3に示すように、分割部310は、発話音声区間分割部311、環境音声区間分割部313及び特徴量変化分割部315として機能する。
(B.1.1)発話音声区間分割部311
発話音声区間分割部311は、発話音声を検出することで、音声を発話音声が含まれる発話区間と含まれない非発話区間とに分割する機能を有する。例えば、発話音声区間分割部311は、VAD(voice activity detection)を行う。VADの一例として、例えば入力音のエネルギーが閾値を超えた区間を発話区間とし、それ以外を非発話区間とする方法が採用されてもよい。他にも、下記の数式1に示すように、入力音のエネルギーの短時間(T1)積分を長時間(T2:T1<<T2)積分で正規化した値Rが、予め設定した閾値thを超える区間を発話区間とする方法が採用されてもよい。
Figure 2016144080
また、ロバスト性を向上させるために、他の方法が採用されてもよい。例えば、スペクトルの白色性や短時間SNRを考慮する方法、特開2007−328228号公報に開示された波形の周期性を考慮する方法、又は特開2012−150237号公報に開示された音源の到来方向を考慮する方法が採用されてもよい。
発話音声区間分割部311は、発話区間を対象とした音声認識を行い、発話区間をさらに詳細に分割してもよい。例えば、発話音声区間分割部311は、文単位又は単語単位等に分割してもよい。音声認識の方法としては、例えばMFCC(Mel-Frequency Cepstrum Coefficients)等を特徴量とした混合正規分布を生成し、生成した混合正位分布を出力確率とした隠れマルコフモデルを用いてモデル化する方法が採用されてもよい。
(B.1.2)環境音声区間分割部313
環境音声区間分割部313は、発話音声以外の音声に基づいて、動画の音声部分を当該動画における場面ごとの区間に分割する機能を有する。これにより、音声生成部300は、高速再生映像に含まれる場面の各々に対応する短縮音声を生成することが可能となる。例えば、環境音声区間分割部313は、まず、環境音が含まれる区間を、大通りの環境音、路地裏の環境音、自然公園の環境音、電車の傍の環境音等の場面(クラス)ごとの環境音に分類する。さらに、環境音声区間分割部313は、例えば花火の音、単発の車のクラクション、車が近くを通り過ぎる音や単発の打撃音などの定常性の低い音を検出して、分類した各クラスの環境音をさらに詳細に分類してもよい。そして、発話音声区間分割部311は、分類されたクラスが変わる時点、定常性の低い音の開始点及び終了点を分割点として、音声を分割する。
図4は、本実施形態に係る環境音声区間分割部313の論理的な構成の一例を示すブロック図である。図4に示すように、環境音声区間分割部313は、特徴量計算部3131及び識別器3133として機能する。
特徴量計算部3131は、環境音の特徴量を計算する機能を有する。環境音は、発話音声に比べてバリエーションが多岐にわたるため、特徴量計算部3131は、多様な特徴量を計算することで、環境音の識別精度を向上させてもよい。特徴量として、例えば、エネルギー、ゼロクロス、スペクトル包絡、スペクトルフラックス、スペクトラルセントロイド、MFCC、MP(matching pursuit)又はSub band PCA等が採用され得る。
識別器3133は、特徴量からクラスを識別する機能を有する。識別器3133として、例えば線形判別器、サポートベクターマシン、ニューラルネットワーク、GMM(Gaussian mixture model)等が採用されてもよい。識別器3133は、予め教師データを用いて学習済みであるものとする。
(B.1.3)特徴量変化分割部315
特徴量変化分割部315は、動画の音声部分を特徴量が変化する時点で分割する機能を有する。特徴量変化分割部315は、例えば環境音声区間分割部313と組み合わせて、又は環境音声区間分割部313の代わりとして機能し得る。特徴量としては、例えば特徴量計算部3131で計算される特徴量が同様に採用されてもよい。特徴量変化分割部315は、識別処理を要さないので、環境音声区間分割部313と比較して簡易に分割することが可能である。また、特徴量変化分割部315は、学習を要さないので、環境音声区間分割部313と比較して未知の場面にも対応可能である。例えば、特徴量変化分割部315は、音声全体のエネルギー、各バンドのエネルギー、スペクトルフラックス等の短時間平均を特徴量毎にモニタリングし、その変化量が閾値を超えた時点で区間を分割し得る。
以上、分割部310の構成例を説明した。なお、分割部310は、発話音声区間分割部311、環境音声区間分割部313及び特徴量変化分割部315の少なくともいずれかを有していればよく、例えば一部を有していなくてもよい。以下では、再度音声生成部300の説明に戻る。
(B.2)抽出部320
抽出部320は、入力された動画の音声部分の一部から部分音声をひとつ以上抽出する機能を有する。例えば、抽出部320は、分割部310により分割された区間のうちどの区間を間引き、どの区間を短縮音声に使用する区間として抽出するかを決定する。原音声のうち一部の区間の音声が短縮音声に使用されるので、全部が短縮音声に使用される場合と比較して、使用される音声の長さが短くなる。これにより、高速再生の度合が低まり、高速再生に起因する不自然さが軽減される。抽出部320による抽出方法は多様に考えられる。
例えば、抽出部320は、非発話区間(環境音)から部分音声を優先的に抽出してもよい。その際、抽出部320は、分割部310により分割された場面ごとの区間の各々から、ひとつ以上の部分音声を抽出してもよい。これにより、抽出部320は、高速再生映像に含まれる場面の各々に対応する部分音声を抽出することが可能となる。従って、動画生成装置1は、場面に対応する部分音声を含む高速再生動画を生成することが可能となる。これにより、鑑賞者は、映像中の環境や雰囲気を容易に知ることが可能となる。
また、抽出部320は、イベント音を優先的に抽出してもよい。イベント音とは、動画の撮影中に発生したイベントに対応する音を意味する。イベント音は、発話音声のうち、例えば「きれい!」や「○○に到着です」といった短い発話音声であってもよい。例えば、抽出部320は、抽出するべき単語が予め登録された抽出ルールDBを参照して、登録された単語が音声認識された場合に発話区間からイベント音を抽出してもよい。これにより、鑑賞者は、短い発話内容を聞き取ることが可能となる。他にも、イベント音は、環境音のうち、例えば花火の音、単発の車のクラクション、車が近くを通り過ぎる音、単発の打撃音、又は破裂音等といった突発的な音声であってもよい。例えば、抽出部320は、抽出するべき環境音が予め登録された環境音DBを参照して、登録された環境音が認識された場合に非発話区間からイベント音を抽出してもよい。以下、図5を参照して、抽出部320による抽出処理を具体的に説明する。
図5は、本実施形態に係る抽出部320による抽出処理の一例を説明するための図である。例えば、原音声600が、場面611と場面612の二つの場面の音声に分類されるものとする。また、原音声600には、発話区間621及び622が含まれるものとする。なお、原音声600における区切り線は、分割部310により設定された分割点を意味するものとする。まず、抽出部320は、非発話区間である環境音630(符号631〜635)を抽出する。また、抽出部320は、イベント音640を抽出する。イベント音641は、花火等の突発的な環境音である。イベント音642は、「○○に到着です」といった短い発話音声である。
なお、抽出部320は、上述のような音声の内容に応じて抽出する他に、例えば再生速度の倍率等に応じて抽出してもよい。
(B.3)連結部330
連結部330は、抽出部320により抽出された部分音声の各々を連結することで、短縮音声を生成する機能を有する。
例えば、連結部330は、部分音声を互いに重複させて連結する。これにより、短縮音声が途切れることが防止される。また、連結部330は、部分音声の重複部分で多様な音響効果を適用してもよい。例えば、連結部330は、部分音声の重複部分でクロスフェードを適用してもよい。これにより、重複部分での不連続性及び音の急激な変化が防止されるので、高速再生動画において再生される音声の不自然さが軽減される。
例えば、連結部330は、抽出部320により抽出された部分音声の各々を、高速再生映像に対応する位置に配置し連結することで短縮音声を生成してもよい。これにより、音声生成部300は、高速再生映像と同期の取れた(即ち、相関のある)短縮音声を生成することが可能となり、高速再生動画において再生される音声の不自然さが軽減される。例えば、高速再生動画において、交通の激しい大通りの映像では激しい車の音声が再生され、静かな川辺の映像では静かな川の音声が再生されることとなり、例えば交通の激しい大通りの映像で静かな川の音声が再生されることを防止することができる。
より具体的には、連結部330は、部分音声の再生開始位置を、入力された動画における部分音声の始点に対応する高速再生映像における位置に配置してもよい。即ち、連結部330は、入力された動画における部分音声が抽出された区間の映像の高速再生映像における再生開始位置と、当該部分音声の再生開始位置とを合せる。これにより、ある映像の始点及び当該映像に対応する音声の始点が一致することとなり、同期の取得が実現される。
また、連結部330は、部分音声を高速化して連結してもよい。例えば、ある部分音声の長さが、次に配置された部分音声までの期間よりも長い場合、連結部330は、部分音声の音色を激しく変化させない範囲(例えば1.5倍速程度以内)で高速化してもよい。他にも、連結部330は、次に配置された部分音声までの期間に合わせて、部分音声を切り出してもよい。これにより、短縮音声の長さと高速再生動画の長さとを一致させることが可能となる。また、ある部分音声の長さが、次に配置された部分音声までの期間よりも短い場合、連結部330は、部分音声を低速化して連結してもよいし、部分音声を繰り返して(リピートして)連結してもよい。
また、連結部330は、部分音声を、入力された動画における当該部分音声が属する場面に対応する高速再生映像における位置に配置してもよい。例えば、連結部330は、映像に、当該映像の場面に対応するクラスの部分音声を割り当てる。これにより、映像の場面と音声の場面とが一致することとなり、同期の取得が実現される。
また、連結部330は、抽出部320により非発話区間から抽出された部分音声を連結してもよい。これにより、環境音が連結された短縮音声が生成されるので、鑑賞者は、映像中の環境や雰囲気を容易に知ることができる。また、連結部330は、非発話区間から抽出された部分音声を連結した上で、抽出部320により抽出されたイベント音をさらに重ねて連結してもよい。これにより、短縮音声に、花火などの突発音や「○○に到着です」といった短い発話音声が含まれることとなる。よって、鑑賞者は、映像中の環境や雰囲気をさらに容易に知ることができ、短い発話内容を容易に聞き取ることができる。
以上、連結部330による連結処理の一例を説明した。以下、図6を参照して、具体例に沿って連結部330による連結処理を説明する。
図6は、本実施形態に係る連結部330による連結処理の一例を説明するための図である。図6に示すように、図5を参照して上記説明した原音声600を対象として、連結処理の一例を説明する。例えば、まず、連結部330は、原音声600から参照タイムスタンプ650を生成する。参照タイムスタンプ650とは、原音声を高速再生した場合の分割点の位置を示す情報である。例えば、高速再生映像における再生速度の倍率が固定値のm倍である場合を想定する。その場合、原音声における分割時刻をそれぞれt(i=1、2、…、n)とすると、原音声を高速再生した場合の分割点t’は、t’=t/mとなる。また、高速再生映像における再生速度の倍率が時刻tによって変化する場合、時刻tでの再生速度の倍率をm(t)とすると、原音声を高速再生した場合の分割点t’は次式で表される。
Figure 2016144080
そして、連結部330は、参照タイムスタンプ650を参照して、適切な位置に部分音声を配置することで、短縮音声660を生成する。
例えば、連結部330は、時刻t’i−1に、時刻ti−1を始点として抽出された部分音声を割り当ててもよい。図6に示す例では、連結部330は、短縮音声660における時刻0に、原音声600における時刻0を始点として抽出された部分音声631を配置している。また、連結部330は、短縮音声660における時刻t’に、原音声600における時刻tを始点として抽出された部分音声632を配置している。また、連結部330は、短縮音声660における時刻t’に、原音声600における時刻tを始点として抽出された部分音声634を配置している。
ただし、時刻ti−1を始点として抽出された音声がない場合、連結部330は、同一の場面に属する部分音声を配置する。例えば、連結部330は、時刻t’i−1に、入力された動画の時刻ti−1における場面と同一の場面から抽出された部分音声を割り当ててもよい。図6に示す例では、短縮音声660における時刻t’には、原音声600の時刻tにおける場面と同一の場面から抽出された部分音声631が継続して割り当てられる。
また、連結部330は、非発話区間から抽出された部分音声を連結した上で、イベント音さらに重ねて連結してもよい。図6に示す例では、連結部330は、環境音である部分音声631、632、及び634を連結した上で、イベント音である部分音声642を重ねている。ここで、部分音声642は、部分音声642が抽出された時刻tに対応する時刻t’に配置されている。また、連結部330は、各部分音声を重複させて連結してもよい。図6に示す例では、連結部330は、部分音声631と632、632と634を一部重複させている。連結部330は、この重複部分でクロスフェードを適用してもよい。
以上、具体例に沿って連結部330による連結処理を説明した。
なお、上記説明した短縮音声の生成方法は一例であって、本技術はかかる例に限定されない。例えば、連結部330は、場面が変わらない限り、同一の環境音を継続して使用してもよい。また、連結部330は、図7に示すように、同一の場面に分類された区間を分割及び合成して、短縮音声を生成してもよい。図7は、本実施形態に係る連結部330による連結処理の一例を説明するための図である。図7に示す例では、連結部330は、原音声600のうち、場面611から抽出された部分音声、及び場面612から抽出された部分音声をそれぞれ合成し、合成した部分音声を連結することで、短縮音声660を生成している。
以上、本実施形態に係る動画生成装置1の構成例を説明した。続いて、図8〜図10を参照して、本実施形態に係る動画生成装置1の動作処理例を説明する。
<2.2.動作処理例>
図8は、本実施形態に係る動画生成装置1において実行される高速動画生成処理の流れの一例を示すフローチャートである。
図8に示すように、まず、ステップS102で、分離部100は、入力された動画を映像部分と音声部分とに分離する。
次いで、ステップS104で、映像生成部200は、高速再生映像を生成する。
次に、ステップS106〜S110において、音声生成部300は、原音声から短縮音声を生成する。詳しくは、ステップS106で、分割部310は、動画の音声部分をひとつ以上の区間に分割する。次いで、ステップS108で、抽出部320は、分割部310により分割された区間から、ひとつ以上の部分音声を抽出する。そして、ステップS110で、連結部330は、抽出された部分音声を連結する。
次いで、ステップS112で、合成部400は、高速再生映像と短縮音声とを合成する。
そして、ステップS114で、出力制御部500は、高速再生動画を出力するよう出力部20を制御する。
以上、高速動画生成処理の流れの一例を説明した。続いて、上記ステップS110における連結処理を詳細に説明する。
図9及び図10は、本実施形態に係る動画生成装置1において実行される連結処理の流れの一例を示すフローチャートである。なお、本フローでは、ti−1からtまでの音声区間をd、t’i−1からt’までの音声区間をd’とする。また、抽出された部分音声を、抽出音とも称する。
まず、連結部330は、ステップS202でi=1とし、ステップS204でj=1とする。次いで、ステップS206で、連結部330は、区間dに抽出音があるか否か判定する。
区間dに抽出音がないと判定された場合(S206/NO)、ステップS208及びS210で、jをインクリメントしながら、区間di+jに抽出音があるか否か判定する。このように、連結部330は、抽出音を見つけるまで音声区間を進めていく。抽出音が見つかった場合(S208/YES)、連結部330は、ステップS234で、区間di+jの抽出音を区間d’からd’i+j−1に割り当てる。なお、抽出音の長さがd’からd’i+j−1までの長さより短い場合、連結部330は、区間di+jの抽出音を区間d〜di+j−1の間リピートさせて(ステップS212)、区間d’からd’i+j−1に割り当てる。一方で、抽出音の長さがd’からd’i+j−1までの長さより長い場合、連結部330は、抽出音からその長さ分だけ切り出して、区間d’から区間d’i+j−1に割り当ててもよい。
区間dに抽出音があると判定された場合(S206/YES)、ステップS214で、連結部330は、抽出音がイベント音であるか否かを判定する。
イベント音であると判定された場合(S214/YES)、連結部330は、ステップS216で、区間dの抽出音をm倍(m≧1)に高速化して、時刻t´に重畳させる。これにより、イベント音のタイミング及び速さが、高速再生映像と同期されることとなる。
イベント音でないと判定された場合(S214/NO)、連結部330は、その抽出音をどの区間に割り当てるかを決定する。具体的には、連結部330は、区間dに続く区間di+jから部分音声が抽出されていない場合は、区間dの抽出音声をそのまま区間di+jにも用いる。また、区間di+jから部分音声が抽出されていない場合でも、環境音のクラスが変化する場合は、変化前のクラスの環境音は当該クラスに対応する場面の映像に割り当てられることが望ましい。
そのために、まず、連結部330は、ステップS220及びS222で、jをインクリメントしながら、区間di+jに抽出音がある、又は区間di+jにおいて環境音のクラスが変化するか否かを判定する。抽出音が見つかった又は環境音のクラスの変化があった場合(S220/YES)、ステップS224で、連結部330は、t’i+j−t’i−1がt−ti−1より短いか否かを判定する。そして、連結部330は、抽出音の長さを、割り当てる区間の長さにするようリピートさせたり、切り出したり、高速化したりする。
例えば、短いと判定された場合(S224/YES)、連結部330は、ステップS226で、区間dの抽出音をm倍(m≧1)に高速化する。このmの値は、音色が大きく変わらない、例えば、1.5倍程度が望ましい。さらに、mの値は、1.5倍を超えない範囲で、(t−ti−1)/mがt’i+j−t’i−1と近くなるように設定されることが望ましい。これにより、高速再生後の音声の長さを目標値に近づけることが可能となる。具体的には、連結部330は、m=min((t’i+j−t’i−1)/(t−ti−1),1.5)を計算して、mの値を設定し得る。そして、連結部330は、ステップS228で、t’i+j−t’i−1が高速化した抽出音の長さ、即ち(t−ti−1)/mより長いか否かを判定する。短いと判定された場合(S228/NO)、ステップS230で、連結部330は、高速化した抽出音からt’i+j−t’i−1時間分切り出して、ステップS234で区間d’から区間d’i+j−1に割り当てる。長いと判定された場合(S228/YES)、ステップS234で、連結部330は、高速化した抽出音を区間d’から区間d’i+j−1に割り当てる。なお、長さの差が大幅である場合、連結部330は、高速化した抽出音をリピートして、ステップS234で区間d’から区間d’i+j−1に割り当ててもよい。上記S226において、mの値が、(t−ti−1)/mがt’i+j−t’i−1と近くなるように設定されている場合、差が無い又は差が微小となるので、連結部330は、リピートする処理を省略することが可能である。また、t’i+j−t’i−1がt−ti−1よりも長いと判定された場合(S224/NO)、ステップS232で、連結部330は、区間dの抽出音を区間dの抽出音を時間t’i+j−t’i−1の間リピートさせて、ステップS234で区間d’から区間d’i+j−1に割り当てる。
以上説明したように、t’i+j−1までの短縮音声が生成された場合、連結部330は、ステップS236でiの値をi+jに置き換えることで、iの値をまだ短縮音声が生成されていないj区間先まで進め、最終区間に至るまで処理を繰り返す。例えば、ステップS238で、連結部330は、i≧nであるか否かを判定し、i<nであれば上記ステップS204に戻り、i≧nであれば処理を終了する。なお、上記では省略したが、連結部330は、クロスフェード処理のために、時間マージンΔtを各分割点前後に持たせてもよい。
以上、連結処理の流れの一例を説明した。
<<3.第2の実施形態>>
続いて、図11〜図15を参照して、第2の実施形態について説明する。本実施形態は、入力された映像にさらに基づいて短縮音声を生成する形態である。
(A)全体の構成例
図11は、本実施形態に係る動画生成装置1の論理的な構成の一例を示すブロック図である。図11に示すように、本実施形態に係る動画生成装置1の構成例は、第1の実施形態と同様である。本実施形態では、音声生成部300は、動画の映像部分を対象とした映像解析結果に基づいて短縮音声を生成する。これにより、短縮音声は、より高速再生映像と同期がとれたものとなり、不自然さがより軽減される。
(B)音声生成部300の構成例
図12は、本実施形態に係る音声生成部300の論理的な構成の一例を示すブロック図である。図12に示すように、本実施形態に係る分割部310、抽出部320及び連結部330は、それぞれ映像解析結果を示す映像解析情報を参照する。
(B.1)分割部310
図13は、本実施形態に係る分割部310の論理的な構成の一例を示すブロック図である。図13に示すように、発話音声区間分割部311、環境音声区間分割部313及び特徴量変化分割部315は、映像解析情報を参照して原音声を分割し、分割点を示す情報である分割情報を出力する。
(B.1.1)発話音声区間分割部311
発話音声区間分割部311は、映像解析情報を参照して、音声を発話区間と非発話区間とに分割する。例えば、発話音声区間分割部311は、映像中の人の唇の動きを認識し、より高精度な音声認識を行ってもよい。なお、特開2013−257418号公報に開示された技術が採用されてもよい。
(B.1.2)環境音声区間分割部313
環境音声区間分割部313は、 映像解析情報を参照して、動画の音声部分を当該動画における場面ごとの区間に分割する。例えば、環境音声区間分割部313は、予め多くの風景動画を用いて映像及び音声の分類を学習しておく。例えば、環境音声区間分割部313は、車の多い道路の映像には車の走行音、エンジン音などが対応し、緑豊かな公園の映像には木々のざわつきや鳥、虫の鳴き声が対応するといった対応関係を、予め学習しておく。その際、映像の特徴量として、例えばオプティカルフロー変化量、SIFT(Scale-Invariant Feature Transform)特徴量等が用いられ得る。そして、環境音声区間分割部313は、実際に環境音を分類する際に、例えば映像解析情報に基づいて、又は映像解析結果情報及び音声の特徴量に基づいて分類し、分類が変化した位置に分割点を設定する。例えば、環境音声区間分割部313は、映像内に車や電車が映っている区間で取得された音声を、車や電車の走行音として分類する。また、環境音声区間分割部313は、映像内に花火が写っている区間で取得された突発音を、花火の音として分類する。このように、環境音声区間分割部313は、映像解析情報を参照することで、環境音の分類精度を向上させることができる。
(B.1.3)特徴量変化分割部315
特徴量変化分割部315は、音声の特徴量に加え、映像の特徴量が変化する時点で分割する。そのような特徴量としては、例えばオプティカルフロー変化量、SIFT特徴量等が採用可能である。
(B.2)抽出部320
抽出部320は、映像解析情報にさらに基づいて、部分音声をひとつ以上抽出する。例えば、抽出部320は、映像解析結果情報に基づき、映像中で支配的な場面の区間の部分音声を抽出して、そうでない区間の部分音声を間引く。これにより、例えば、原音声で8秒間犬が鳴いていても、高速再生すると約1秒以下になる場合、犬の鳴き声が短縮音声に含まれることを防止することができる。
具体的には、例えば抽出部320は、部分音声が、映像内で支配的な物体から発生した音声であるか否かを判定する。その際、抽出部320は、物体が映像に写っている時間、写っている領域の広さに基づいて、支配的な物体であるか否かを判定し得る。そして、抽出部320は、支配的な物体から発生したと判定した音声を抽出してもよい。例えば、抽出部320は、映像内に犬が大きく長時間写っている場合に犬の鳴き声をイベント音として抽出し、映像内に犬がほとんど写っていない場合に犬の鳴き声を間引く。ここで、図14を参照して、具体例に沿って抽出処理を説明する。
図14は、本実施形態に係る抽出部320による抽出処理の一例を説明するための図である。例えば、図14に示すように、映像生成部200は、画像DB730を参照して、映像710内で支配的な物体が犬であると判定する。また、環境音声区間分割部313は、環境音DB740を参照して、部分音声720が犬の鳴き声の環境音であると判定する。そして、抽出部320は、部分音声720が映像内で支配的な犬から発生した音声であり、且つ犬の鳴き声が抽出ルールDB750にイベント音として抽出すべき音声として登録されていることから、部分音声720を抽出する。
(B.3)連結部330
連結部330は、抽出部320により抽出された部分音声の各々を、映像解析情報を参照して連結することで、短縮音声を生成する。例えば、連結部330は、部分音声における音量の時系列変化と高速再生映像に写る被写体の時系列変化とが合致する位置に、その部分音声を配置してもよい。例えば、連結部330は、部分音声のうち最も音量が大きい位置が、当該部分音声の発生源である物体がカメラに最も接近したと推測される位置と一致するよう、連結位置や再生速度を調節する。これにより、短縮音声は、より高速再生映像と同期がとれたものとなり、不自然さがより軽減される。以下、図15を参照して、具体例に沿って連結処理の一例を説明する。
図15は、本実施形態に係る連結部330による連結処理の一例を説明するための図である。例えば、映像810に対応する部分音声として、車の走行音のイベント音820が抽出部320により抽出されたものとする。例えば、連結部330は、映像810において徐々に接近してくる車がカメラに最も接近したと推測される映像811の時刻に、イベント音820の音量が最大となる時刻を合せる。その際、連結部330は、映像から物体が消えた時刻付近から滑らかに走行音が始まってその後消えるよう、波形を切り出してフェード処理を行ったイベント音830を生成して連結してもよい。これにより、車の走行音の音量が最大になる時刻と映像中で車が最接近する時刻とが一致することとなる。
<<4.第3の実施形態>>
続いて、図16を参照して、第3の実施形態について説明する。本実施形態は、音声に基づいて高速再生映像を生成する形態である。
図16は、本実施形態に係る動画生成装置の論理的な構成の一例を示すブロック図である。図16に示すように、本実施形態に係る動画生成装置1の構成例は、第1の実施形態と同様である。本実施形態では、映像生成部200は、動画の音声部分を対象とした音声解析結果に応じて高速再生映像の再生速度を制御する。これにより、短縮音声と高速再生映像とがより同期されて、不自然さがより軽減される。
例えば、単発の花火の音、教会の鐘の音、滝の音、急ブレーキの音など特に印象的な音が含まれる区間については、一瞬で通り過ぎるのではなく、比較的長い時間をかけて鑑賞したいという欲求が考えられる。そのため、映像生成部200は、例えば全体的には10倍速としつつ、音声解析結果及び/又は映像解析結果、印象的であると判定された区間は約1倍〜2倍程度の比較的低速として、高速再生映像を生成する。例えば、映像生成部200は、印象的であると判定する環境音のクラスや発話音声の単語を予め定義しておき、当該クラスに環境音が分類された区間、又は音声認識により当該単語が認識された区間で低速度を設定し、他の区間で高速度を設定する。この結果、単調なシーンは高速に再生され、印象的なシーンでは比較的低速で再生される高速再生映像が生成されることとなる。よって、鑑賞者は、印象的なシーンを見逃さずに鑑賞することができる。
<<5.第4の実施形態>>
続いて、第4の実施形態について説明する。本実施形態は、映像のみに基づいて短縮音声を生成する形態である。本実施形態に係る動画生成装置1の構成例は、図11と同様である。
本実施形態に係る音声生成部300は、映像生成部200による映像解析結果のみに応じて、短縮音声を生成する。例えば、分割部310は、映像における人の口の動きに応じて発話区間と非発話区間とを分割したり、映像における場面の切り替わりに応じて環境音を分類したりする。そして、抽出部320は、例えば第1の実施形態と同様にして部分音声を抽出し、連結部330は、例えば第1の実施形態と同様にして部分音声を連結することで、短縮音声を生成する。
<<6.ハードウェア構成例>>
最後に、図17を参照して、本実施形態に係る情報処理装置のハードウェア構成について説明する。図17は、本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。なお、図17に示す情報処理装置900は、例えば、図1、図11及び図16にそれぞれ示した動画生成装置1を実現し得る。本実施形態に係る動画生成装置1による情報処理は、ソフトウェアと、以下に説明するハードウェアとの協働により実現される。
図17に示すように、情報処理装置900は、CPU(Central Processing Unit)901、ROM(Read Only Memory)902、RAM(Random Access Memory)903及びホストバス904aを備える。また、情報処理装置900は、ブリッジ904、外部バス904b、インタフェース905、入力装置906、出力装置907、ストレージ装置908、ドライブ909、接続ポート911、通信装置913、撮像装置915及び音声入力装置917を備える。情報処理装置900は、CPU901に代えて、又はこれとともに、DSP若しくはASIC等の処理回路を有してもよい。
CPU901は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置900内の動作全般を制御する。また、CPU901は、マイクロプロセッサであってもよい。ROM902は、CPU901が使用するプログラムや演算パラメータ等を記憶する。RAM903は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。CPU901は、例えば、図1、図11及び図16に示す制御部40を形成し得る。
CPU901、ROM902及びRAM903は、CPUバスなどを含むホストバス904aにより相互に接続されている。ホストバス904aは、ブリッジ904を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス904bに接続されている。なお、必ずしもホストバス904a、ブリッジ904および外部バス904bを分離構成する必要はなく、1つのバスにこれらの機能を実装してもよい。
入力装置906は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ及びレバー等、ユーザによって情報が入力される装置によって実現される。また、入力装置906は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置900の操作に対応した携帯電話やPDA等の外部接続機器であってもよい。さらに、入力装置906は、例えば、上記の入力手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、CPU901に出力する入力制御回路などを含んでいてもよい。情報処理装置900のユーザは、この入力装置906を操作することにより、情報処理装置900に対して各種のデータを入力したり処理動作を指示したりすることができる。
出力装置907は、取得した情報をユーザに対して視覚的又は聴覚的に通知することが可能な装置で形成される。このような装置として、CRTディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ELディスプレイ装置及びランプ等の表示装置や、スピーカ及びヘッドホン等の音声出力装置や、プリンタ装置等がある。出力装置907は、例えば、情報処理装置900が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置900が行った各種処理により得られた結果を、テキスト、イメージ、表、グラフ等、様々な形式で視覚的に表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して聴覚的に出力する。上記表示装置及び上記音声出力装置は、例えば、図1、図11及び図16に示す出力部20を形成し得る。
ストレージ装置908は、情報処理装置900の記憶部の一例として形成されたデータ格納用の装置である。ストレージ装置908は、例えば、HDD等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により実現される。ストレージ装置908は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。このストレージ装置908は、CPU901が実行するプログラムや各種データ及び外部から取得した各種のデータ等を格納する。ストレージ装置908は、例えば、図1、図11及び図16に示す記憶部30を形成し得る。
ドライブ909は、記憶媒体用リーダライタであり、情報処理装置900に内蔵、あるいは外付けされる。ドライブ909は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体に記録されている情報を読み出して、RAM903に出力する。また、ドライブ909は、リムーバブル記憶媒体に情報を書き込むこともできる。
接続ポート911は、外部機器と接続されるインタフェースであって、例えばUSB(Universal Serial Bus)などによりデータ伝送可能な外部機器との接続口である。接続ポート911は、例えば、図1、図11及び図16に示す入力部10及び/又は出力部20を形成し得る。
通信装置913は、例えば、ネットワーク920に接続するための通信デバイス等で形成された通信インタフェースである。通信装置913は、例えば、有線若しくは無線LAN(Local Area Network)、LTE(Long Term Evolution)、Bluetooth(登録商標)又はWUSB(Wireless USB)用の通信カード等である。また、通信装置913は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ又は各種通信用のモデム等であってもよい。この通信装置913は、例えば、インターネットや他の通信機器との間で、例えばTCP/IP等の所定のプロトコルに則して信号等を送受信することができる。通信装置913は、例えば、図1、図11及び図16に示す入力部10及び/又は出力部20を形成し得る。
なお、ネットワーク920は、ネットワーク920に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、ネットワーク920は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク920は、IP−VPN(Internet Protocol−Virtual Private Network)などの専用回線網を含んでもよい。
撮像装置915は、撮像レンズ、絞り、ズームレンズ、及びフォーカスレンズ等により構成されるレンズ系、レンズ系に対してフォーカス動作やズーム動作を行わせる駆動系、レンズ系で得られる撮像光を光電変換して撮像信号を生成する固体撮像素子アレイ等を有する。固体撮像素子アレイは、例えばCCD(Charge Coupled Device)センサアレイや、CMOS(Complementary Metal Oxide Semiconductor)センサアレイにより実現されてもよい。撮像装置915は、デジタル信号とされた撮影画像のデータを出力する。撮像装置915は、例えば、図1、図11及び図16に示す入力部10を形成し得る。
音声入力装置917は、マイク、マイクで得られた音声信号を増幅処理するマイクアンプ回路やA/D変換器、音声データに対してノイズ除去、音源分離等の処理を行う信号処理回路等を有する。音声入力装置917は、デジタル信号とされた音声信号を出力する。音声入力装置917は、例えば、図1、図11及び図16に示す入力部10を形成し得る。
以上、本実施形態に係る情報処理装置900の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて実現されていてもよいし、各構成要素の機能に特化したハードウェアにより実現されていてもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。
なお、上述のような本実施形態に係る情報処理装置900の各機能を実現するためのコンピュータプログラムを作製し、PC等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信されてもよい。
<<7.まとめ>>
以上、図1〜図17を参照して、本開示の一実施形態について詳細に説明した。上記説明したように、動画生成装置1は、入力された動画の映像部分から高速再生映像を生成し、当該動画の音声部分の一部を用いて短縮音声を生成し、高速再生映像及び短縮音声を合成して高速再生動画を生成する。これにより、高速再生動画において再生される音声をより自然なものすることが可能となる。
例えば、動画生成装置1は、抽出された部分音声の各々を、高速再生映像に対応する位置に配置し連結することで短縮音声を生成してもよい。これにより、高速再生映像との整合性のとれた違和感のない短縮音声を生成することが可能となる。よって、例えばウォーキングやサイクリング等で公園や街中、線路脇などさまざまな場所を回りながら撮影された動画に基づいて生成された高速再生動画では、鑑賞者は映像中の背景にマッチした短縮音声を聴くことができる。これにより、鑑賞者は、撮影された場所の環境、雰囲気を容易に理解することができる。また、不動産ビジネス等において例えば駅から物件までの道が撮影された動画に基づいて生成された高速再生動画により、鑑賞者は、駅から物件までの道順を理解可能な上、周辺の雰囲気、治安、騒音などを短時間且つ簡単に確認可能である。また、カメラ視点が移動しない場合であっても、例えば定点観測カメラにより撮影された動画に基づいて生成された高速再生動画により、鑑賞者は、朝、昼、夜のそれぞれの時間帯での様子及び騒音等を確認可能である。
例えば、動画生成装置1は、入力された動画の映像部分を対象とした映像解析結果に基づいて短縮音声を生成してもよい。これにより、動画生成装置1は、映像や音声で特に印象的であると定義されたイベントが検出された区間で、再生速度を相対的に遅くすることが可能となる。よって、動画生成装置1は、多くの単調なシーンは高速で再生しながらも、印象的なシーンは時間をかけて再生することが可能となる。例えば、動画生成装置1は、登山の様子が撮影された動画については、滝の近くを通ったシーン、珍しい鳥の声がしたシーン、珍しい植物を見つけて名前を言ったシーン等の印象的なイベントの時のみ、再生速度を相対的に遅くした高速再生動画を生成可能である。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
また、上記では、動画生成装置1はひとつの情報処理装置として実現される例を説明したが、本技術はかかる例に限定されない。例えば、動画生成装置1は、単独の装置として実現されてもよく、一部または全部が別々の装置として分離した情報処理システムとして実現されてもよい。
また、本明細書においてフローチャート及びシーケンス図を用いて説明した処理は、必ずしも図示された順序で実行されなくてもよい。いくつかの処理ステップは、並列的に実行されてもよい。また、追加的な処理ステップが採用されてもよく、一部の処理ステップが省略されてもよい。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
入力された動画の映像部分から高速再生映像を生成する映像生成部と、
前記動画の音声部分の一部を用いて短縮音声を生成する音声生成部と、
前記映像生成部により生成された前記高速再生映像及び前記音声生成部により生成された前記短縮音声を合成して高速再生動画を生成する合成部と、
を備える情報処理装置。
(2)
前記音声生成部は、
前記動画の音声部分の一部から部分音声をひとつ以上抽出する抽出部と、
前記抽出部により抽出された前記部分音声の各々を、前記高速再生映像に対応する位置に配置し連結することで前記短縮音声を生成する連結部と、
をさらに備える、前記(1)に記載の情報処理装置。
(3)
前記連結部は、前記部分音声の再生開始位置を、前記動画における前記部分音声の始点に対応する前記高速再生映像における位置に配置する、前記(2)に記載の情報処理装置。
(4)
前記音声生成部は、前記動画の音声部分を前記動画における場面ごとの区間に分割する分割部をさらに備え、
前記抽出部は、前記分割部により分割された場面ごとの区間の各々からひとつ以上の前記部分音声を抽出する、前記(2)又は(3)に記載の情報処理装置。
(5)
前記連結部は、前記部分音声を、前記動画における当該部分音声が属する場面に対応する前記高速再生映像における位置に配置する、前記(4)に記載の情報処理装置。
(6)
前記音声生成部は、前記動画の音声部分を発話区間と非発話区間とに分割する分割部をさらに備え、
前記連結部は、前記抽出部により前記非発話区間から抽出された前記部分音声を連結する、前記(2)〜(5)のいずれか一項に記載の情報処理装置。
(7)
前記連結部は、前記抽出部により抽出されたイベント音をさらに重ねる、前記(6)に記載の情報処理装置。
(8)
前記連結部は、前記部分音声を互いに重複させて連結する、前記(2)〜(7)のいずれか一項に記載の情報処理装置。
(9)
前記連結部は、前記部分音声の重複部分でクロスフェードを適用する、前記(8)に記載の情報処理装置。
(10)
前記連結部は、前記部分音声を高速化して連結する、前記(2)〜(9)のいずれか一項に記載の情報処理装置。
(11)
前記音声生成部は、前記動画の映像部分を対象とした映像解析結果に基づいて前記短縮音声を生成する、前記(2)〜(10)のいずれか一項に記載の情報処理装置。
(12)
前記連結部は、前記部分音声における音量の時系列変化と前記高速再生映像に写る被写体の時系列変化とが合致する位置に、前記部分音声を配置する、前記(11)に記載の情報処理装置。
(13)
前記映像生成部は、前記動画の音声部分を対象とした音声解析結果に応じて前記高速再生映像の再生速度を制御する、前記(1)〜(12)のいずれか一項に記載の情報処理装置。
(14)
入力された動画の映像部分から高速再生映像を生成する映像生成部と、
前記動画の音声部分の一部を用いて短縮音声を生成する音声生成部と、
前記映像生成部により生成された前記高速再生映像及び前記音声生成部により生成された前記短縮音声を合成して高速再生動画を生成する合成部と、
を備える情報処理システム。
(15)
入力された動画の映像部分から高速再生映像を生成することと、
前記動画の音声部分の一部を用いて短縮音声を生成することと、
生成された前記高速再生映像及び短縮音声をプロセッサにより合成して高速再生動画を生成することと、
を含む情報処理方法。
(16)
コンピュータを、
入力された動画の映像部分から高速再生映像を生成する映像生成部と、
前記動画の音声部分の一部を用いて短縮音声を生成する音声生成部と、
前記映像生成部により生成された前記高速再生映像及び前記音声生成部により生成された前記短縮音声を合成して高速再生動画を生成する合成部と、
として機能させるためのプログラム。
1 動画生成装置
10 入力部
20 出力部
30 記憶部
40 制御部
100 分離部
200 映像生成部
300 音声生成部
310 分割部
311 発話音声区間分割部
313 環境音声区間分割部
3131 特徴量計算部
3133 識別器
315 特徴量変化分割部
320 抽出部
330 連結部
400 合成部
500 出力制御部
特開2008−118688号公報

Claims (16)

  1. 入力された動画の映像部分から高速再生映像を生成する映像生成部と、
    前記動画の音声部分の一部を用いて短縮音声を生成する音声生成部と、
    前記映像生成部により生成された前記高速再生映像及び前記音声生成部により生成された前記短縮音声を合成して高速再生動画を生成する合成部と、
    を備える情報処理装置。
  2. 前記音声生成部は、
    前記動画の音声部分の一部から部分音声をひとつ以上抽出する抽出部と、
    前記抽出部により抽出された前記部分音声の各々を、前記高速再生映像に対応する位置に配置し連結することで前記短縮音声を生成する連結部と、
    をさらに備える、請求項1に記載の情報処理装置。
  3. 前記連結部は、前記部分音声の再生開始位置を、前記動画における前記部分音声の始点に対応する前記高速再生映像における位置に配置する、請求項2に記載の情報処理装置。
  4. 前記音声生成部は、前記動画の音声部分を前記動画における場面ごとの区間に分割する分割部をさらに備え、
    前記抽出部は、前記分割部により分割された場面ごとの区間の各々からひとつ以上の前記部分音声を抽出する、請求項2に記載の情報処理装置。
  5. 前記連結部は、前記部分音声を、前記動画における当該部分音声が属する場面に対応する前記高速再生映像における位置に配置する、請求項4に記載の情報処理装置。
  6. 前記音声生成部は、前記動画の音声部分を発話区間と非発話区間とに分割する分割部をさらに備え、
    前記連結部は、前記抽出部により前記非発話区間から抽出された前記部分音声を連結する、請求項2に記載の情報処理装置。
  7. 前記連結部は、前記抽出部により抽出されたイベント音をさらに重ねる、請求項6に記載の情報処理装置。
  8. 前記連結部は、前記部分音声を互いに重複させて連結する、請求項2に記載の情報処理装置。
  9. 前記連結部は、前記部分音声の重複部分でクロスフェードを適用する、請求項8に記載の情報処理装置。
  10. 前記連結部は、前記部分音声を高速化して連結する、請求項2に記載の情報処理装置。
  11. 前記音声生成部は、前記動画の映像部分を対象とした映像解析結果に基づいて前記短縮音声を生成する、請求項2に記載の情報処理装置。
  12. 前記連結部は、前記部分音声における音量の時系列変化と前記高速再生映像に写る被写体の時系列変化とが合致する位置に、前記部分音声を配置する、請求項11に記載の情報処理装置。
  13. 前記映像生成部は、前記動画の音声部分を対象とした音声解析結果に応じて前記高速再生映像の再生速度を制御する、請求項1に記載の情報処理装置。
  14. 入力された動画の映像部分から高速再生映像を生成する映像生成部と、
    前記動画の音声部分の一部を用いて短縮音声を生成する音声生成部と、
    前記映像生成部により生成された前記高速再生映像及び前記音声生成部により生成された前記短縮音声を合成して高速再生動画を生成する合成部と、
    を備える情報処理システム。
  15. 入力された動画の映像部分から高速再生映像を生成することと、
    前記動画の音声部分の一部を用いて短縮音声を生成することと、
    生成された前記高速再生映像及び短縮音声をプロセッサにより合成して高速再生動画を生成することと、
    を含む情報処理方法。
  16. コンピュータを、
    入力された動画の映像部分から高速再生映像を生成する映像生成部と、
    前記動画の音声部分の一部を用いて短縮音声を生成する音声生成部と、
    前記映像生成部により生成された前記高速再生映像及び前記音声生成部により生成された前記短縮音声を合成して高速再生動画を生成する合成部と、
    として機能させるためのプログラム。
JP2015019554A 2015-02-03 2015-02-03 情報処理装置、情報処理システム、情報処理方法及びプログラム Pending JP2016144080A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2015019554A JP2016144080A (ja) 2015-02-03 2015-02-03 情報処理装置、情報処理システム、情報処理方法及びプログラム
US15/544,128 US10504554B2 (en) 2015-02-03 2015-11-12 Information processing device, information processing system, and information processing method
PCT/JP2015/081867 WO2016125362A1 (ja) 2015-02-03 2015-11-12 情報処理装置、情報処理システム、情報処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015019554A JP2016144080A (ja) 2015-02-03 2015-02-03 情報処理装置、情報処理システム、情報処理方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2016144080A true JP2016144080A (ja) 2016-08-08

Family

ID=56563719

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015019554A Pending JP2016144080A (ja) 2015-02-03 2015-02-03 情報処理装置、情報処理システム、情報処理方法及びプログラム

Country Status (3)

Country Link
US (1) US10504554B2 (ja)
JP (1) JP2016144080A (ja)
WO (1) WO2016125362A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11039177B2 (en) * 2019-03-19 2021-06-15 Rovi Guides, Inc. Systems and methods for varied audio segment compression for accelerated playback of media assets
US10708633B1 (en) 2019-03-19 2020-07-07 Rovi Guides, Inc. Systems and methods for selective audio segment compression for accelerated playback of media assets
US11102523B2 (en) 2019-03-19 2021-08-24 Rovi Guides, Inc. Systems and methods for selective audio segment compression for accelerated playback of media assets by service providers
US10827157B1 (en) * 2019-05-10 2020-11-03 Gopro, Inc. Generating videos with short audio

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3102541B2 (ja) 1994-09-26 2000-10-23 日本電信電話株式会社 スキップサーチ方法
JP2002084505A (ja) 2000-09-07 2002-03-22 Nippon Telegr & Teleph Corp <Ntt> 映像閲覧時間短縮装置及び方法
EP2202648A1 (en) * 2002-04-12 2010-06-30 Mitsubishi Denki Kabushiki Kaisha Hint information describing method for manipulating metadata
JP2005204003A (ja) 2004-01-15 2005-07-28 Nippon Telegr & Teleph Corp <Ntt> 連続メディアデータ高速再生方法、複合メディアデータ高速再生方法、多チャンネル連続メディアデータ高速再生方法、映像データ高速再生方法、連続メディアデータ高速再生装置、複合メディアデータ高速再生装置、多チャンネル連続メディアデータ高速再生装置、映像データ高速再生装置、プログラム、および、記録媒体
US8081863B2 (en) * 2004-01-30 2011-12-20 Panasonic Corporation Content playback apparatus
JP2005286881A (ja) * 2004-03-30 2005-10-13 Nec Corp 映像コンテンツ再生装置および方法
JP4551734B2 (ja) 2004-10-25 2010-09-29 パイオニア株式会社 変速再生装置及び変速再生方法
JP4455644B2 (ja) 2007-12-07 2010-04-21 キヤノン株式会社 動画再生装置、動画再生方法及びそのコンピュータ・プログラム
US8886528B2 (en) * 2009-06-04 2014-11-11 Panasonic Corporation Audio signal processing device and method
US9171578B2 (en) * 2010-08-06 2015-10-27 Futurewei Technologies, Inc. Video skimming methods and systems
EP2641401B1 (en) * 2010-11-15 2017-04-05 Huawei Technologies Co., Ltd. Method and system for video summarization
JP2013192062A (ja) * 2012-03-14 2013-09-26 Toshiba Corp 映像配信システム、映像配信装置、映像配信方法およびプログラム

Also Published As

Publication number Publication date
US20180268866A1 (en) 2018-09-20
US10504554B2 (en) 2019-12-10
WO2016125362A1 (ja) 2016-08-11

Similar Documents

Publication Publication Date Title
Czyzewski et al. An audio-visual corpus for multimodal automatic speech recognition
US10991379B2 (en) Data driven audio enhancement
WO2021143599A1 (zh) 基于场景识别的语音处理方法及其装置、介质和系统
WO2016125362A1 (ja) 情報処理装置、情報処理システム、情報処理方法及びプログラム
JP2011250100A (ja) 画像処理装置および方法、並びにプログラム
CN109005419B (zh) 一种语音信息的处理方法及客户端
JP2007101945A (ja) 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム
JP2011071685A (ja) 映像音響処理システム、映像音響処理方法及びプログラム
US20230164509A1 (en) System and method for headphone equalization and room adjustment for binaural playback in augmented reality
CN113593601A (zh) 基于深度学习的视听多模态语音分离方法
CN115804099A (zh) 场景描述的再现控制
US8553855B2 (en) Conference support apparatus and conference support method
CN110992984B (zh) 音频处理方法及装置、存储介质
JP2011055386A (ja) 音響信号処理装置及び電子機器
CN112466306A (zh) 会议纪要生成方法、装置、计算机设备及存储介质
KR101920653B1 (ko) 비교음 생성을 통한 어학학습방법 및 어학학습프로그램
US20220157316A1 (en) Real-time voice converter
CN113362849A (zh) 一种语音数据处理方法以及装置
WO2022041177A1 (zh) 通信消息处理方法、设备及即时通信客户端
Hayasaka et al. Noise-robust scream detection using band-limited spectral entropy
Wang et al. A large-scale depth-based multimodal audio-visual corpus in mandarin
JP4219129B2 (ja) テレビジョン受像機
CN113903325B (zh) 文本转3d音频的方法及装置
US20230267942A1 (en) Audio-visual hearing aid
CN115547357B (zh) 音视频伪造同步方法及其构成的伪造系统