JP2018078402A - コンテンツ制作装置、及び音声付コンテンツ制作システム - Google Patents

コンテンツ制作装置、及び音声付コンテンツ制作システム Download PDF

Info

Publication number
JP2018078402A
JP2018078402A JP2016217816A JP2016217816A JP2018078402A JP 2018078402 A JP2018078402 A JP 2018078402A JP 2016217816 A JP2016217816 A JP 2016217816A JP 2016217816 A JP2016217816 A JP 2016217816A JP 2018078402 A JP2018078402 A JP 2018078402A
Authority
JP
Japan
Prior art keywords
content
individual
video
recording
script
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016217816A
Other languages
English (en)
Inventor
司 黒岩
Tsukasa Kuroiwa
司 黒岩
正人 助川
Masato Sukegawa
正人 助川
覚 小平
Satoru Kodaira
覚 小平
圭哉 渡辺
Keiya Watanabe
圭哉 渡辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shift One Co Ltd
Original Assignee
Shift One Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shift One Co Ltd filed Critical Shift One Co Ltd
Priority to JP2016217816A priority Critical patent/JP2018078402A/ja
Publication of JP2018078402A publication Critical patent/JP2018078402A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Abstract

【課題】本願発明の課題は、従来技術が抱える問題を解決することであり、すなわち、ユーザが複数の動画を編集して1つのコンテンツを作成することができ、しかもその動画ごとに台本を作成することのできるコンテンツ制作装置、及び音声付コンテンツ制作システムを提供することである。
【解決手段】本願発明のコンテンツ制作装置は、映像と個別台本を有する「コンテンツ」を制作する装置であり、映像作成手段と台本作成手段、コンテンツ記憶手段を備えた装置である。なお、映像は複数の個別動画によって構成されるもので、個別台本は個別動画ごとに設定されるものである。映像作成手段は、複数の個別動画を編集して映像を作成する手段であり、台本作成手段は、映像を構成する複数の個別動画に対してそれぞれ個別台本を入力する手段である。そしてコンテンツ記憶手段によって、映像と個別台本で構成されるコンテンツが記憶される。
【選択図】図3

Description

本願発明は、映像に合わせて音声を録音する技術に関するものであり、より具体的には、映像を構成するカット(個別の動画)ごとに台本を設定し、その台本を声優など他者に録音させることができるコンテンツ制作装置と音声付コンテンツ制作システムに関するものである。
従来、動画といえば映画やテレビが主流であったが、情報技術の飛躍的進歩に伴い、現在ではコンピュータを用いて表示する動画も多く利用されている。コンピュータ上で動作する動画のデータファイルはコンテナとも呼ばれ、一般的に「映像データ」と「音声データ」で構成される。そしてこの動画ファイルは、映像再生用のソフトウェアを使って再生され、再生する端末機器としては、パーソナルコンピュータ(パソコン)をはじめ、タブレット型端末やスマートフォンなど多種多様なものが利用されている。
また、近年ではインターネットを介して様々な情報を投稿する仕組みが大衆化され、特にビデオカメラをはじめ携帯電話やスマートフォンなど録画できる手段が身近になったこともあって、動画を投稿するwebサイトは数多くのユーザに支持されている。
ところで、録画した動画だけではその状況が十分に伝わらないこともある。例えば、ペットの様子を録画しただけでは、そのペットの名前や種別、好物などは伝わらない。もちろん、このような説明をしながら録画すれば状況は伝わりやすいが、とっさに録画する場合などは適切な説明を行うのは難しいし、そもそも自身の声が録音されるのを敬遠する者も少なくない。
既に録画した動画に対して説明を加えたい場合、字幕(テロップ)を付与することが考えられる。場面(シーン)ごとに説明文を作成し、そのテキストを各シーンと同時に表示させるわけである。また、テロップでは十分その臨場感が伝わらないケースでは、事後的に音声を吹き込むいわゆるアフレコ(アフターレコーディング)が採用されることもある。動画を観る者にとっては、文字ではなく音声として伝わるため情報を理解しやすく、さらに感情を込めるなど状況に応じた話し方で録音されていればその状況もより把握しやすくなる。
しかしながら、動画を作成するユーザの中には、説明するタイミング(シーン)やその内容、つまり台本を作成したいとは思うが、録音に関しては自身以外の声を望む者もいる。既述したように自身の声が録音されるのを敬遠する者もあれば、商品を紹介する動画であったり、ニュース調に仕上げたい動画であったり、劇調の台詞を用意した動画であれば、声優などより相応しい者に担当して欲しいと思うユーザもいる。
動画を含むコンテンツに対してアフレコを行うことでそのコンテンツを完成させる技術は、これまでにも提案されており、本願の出願人も特許文献1の発明を開示している。
特許第5860575号公報
特許文献1は、複数の配役(キャラクター)が登場するコンテンツに対して、ユーザが所望のキャラクターを選択して録音するとともに、他のキャラクターについては録音された中から所望の音声を選択することで、ユーザが望むコンテンツを作成することができる発明である。
ところが、特許文献1をはじめとする従来の技術では、ユーザがシーンごとに台本を作成することはできなかった。また、複数の動画を編集して1つのコンテンツ(いわば番組)を作成し、その動画ごとに台本を付けることを実現する技術が提案されることもなかった。さらに、動画ごとに台本を付けるにあたっては、動画の長さ(いわゆる尺)に収まるような台本としなければならないが、このような台本作成を支援する技術も当然ながらこれまで開示されることはなかった。
本願発明の課題は、従来技術が抱える問題を解決することであり、すなわち、ユーザが複数の動画を編集して1つのコンテンツを作成することができ、しかもその動画ごとに台本を作成することのできるコンテンツ制作装置、及び音声付コンテンツ制作システムを提供することである。
本願発明は、コンテンツを構成する複数の動画ごとに台本を作成し、さらに動画の再生時間(尺)内に収まる台本作成を支援する、という点に着目して開発されたものであり、従来にはない発想に基づいてなされた発明である。
本願発明のコンテンツ制作装置は、映像と個別台本を有する「コンテンツ」を制作する装置であり、映像作成手段と台本作成手段、コンテンツ記憶手段を備えた装置である。なお、映像は複数の個別動画によって構成されるもので、個別台本は個別動画ごとに設定されるものである。映像作成手段は、複数の個別動画を編集して映像を作成する手段であり、台本作成手段は、映像を構成する複数の個別動画に対してそれぞれ個別台本を入力する手段である。そしてコンテンツ記憶手段によって、映像と個別台本で構成されるコンテンツが記憶される。
本願発明のコンテンツ制作装置は、テンプレート記憶手段とテンプレート選択手段、動画取得手段をさらに備えたものとすることもできる。テンプレート記憶手段は、背景音が記録された動画テンプレートを記憶する手段であり、テンプレート選択手段は、テンプレート記憶手段から所望の動画テンプレートを選択する手段である。この場合、テンプレート選択手段で所望の動画テンプレートを指定すると、動画取得手段によって個別動画を取得する際に、指定した動画テンプレートの背景音が出力される。
本願発明のコンテンツ制作装置は、音声合成出力手段をさらに備えたものとすることもできる。音声合成出力手段は、個別台本を音声合成として音声出力する手段であり、音声合成による音声出力時間が対応する個別動画の時間よりも長いときは、個別台本のうち個別動画の時間に収まる部分のみを音声出力する。
本願発明のコンテンツ制作装置は、音声速度変更手段を有する音声合成出力手段を備えたものとすることもできる。音声速度変更手段は、声合成による音声出力の速度を変更する手段であり、音声合成出力手段は音声速度変更手段で設定した速度に応じて音声出力を行う。
本願発明の音声付コンテンツ制作システムは、依頼側端末装置とコンテンツ記憶装置、録音側端末装置を備えたシステムである。依頼側端末装置は、映像と個別台本を有する「コンテンツ」を制作する装置であり、映像作成手段と台本作成手段、依頼手段を有している。このうち映像作成手段は、複数の個別動画を編集して映像を作成する手段であり、台本作成手段は、映像を構成する複数の個別動画に対してそれぞれ個別台本を入力する手段であり、依頼手段は、コンテンツに対して録音を依頼する手段である。そしてコンテンツ記憶装置は、依頼手段によって録音を依頼されたコンテンツを記憶する。また録音側端末装置は、録音側出力手段と音声録音手段、投稿手段を有している。このうち録音側出力手段は、コンテンツ記憶装置に記憶されたコンテンツの映像を再生するとともに個別動画ごとに個別台本を合わせて表示する手段であり、音声録音手段は、録音側出力手段で映像と個別台本を表示しながら音声を録音する手段であり、投稿手段は、音声録音手段で音声が録音された「音声付コンテンツ」を投稿する手段である。そしてコンテンツ記憶装置は、投稿手段によって投稿された音声付コンテンツを記憶する。なお依頼側端末装置は依頼側出力手段を有しており、この依頼側出力手段は、コンテンツ記憶装置に記憶された音声付コンテンツの映像を、音声録音手段で録音された音声とともに再生する手段である。
本願発明の音声付コンテンツ制作システムは、要求事項設定手段を有する依頼側端末装置を備えたものとすることもできる。この要求事項設定手段は、録音者への要求事項を設定する手段であり、コンテンツ記憶装置は、要求事項設定手段で設定した要求事項とともにコンテンツを記憶し、録音側端末装置の音側出力手段は、コンテンツにかかる要求事項を表示する。
本願発明の音声付コンテンツ制作システムは、音声合成録音手段を有する依頼側端末装置を備えたものとすることもできる。この音声合成録音手段は、個別台本を指定した速度で音声合成として音声出力して録音する手段であり、コンテンツ記憶装置は、音声合成録音手段で録音した音声合成を記憶する。なおこの場合の録音側端末装置は、音声合成試聴手段を有するものである。この音声合成試聴手段は、コンテンツ記憶装置に記憶されたコンテンツの映像を再生するとともに、コンテンツにかかる音声合成を出力する手段である。
本願発明の音声付コンテンツ制作システムは、1のコンテンツに対して2以上の録音側端末装置から音声付コンテンツが投稿されたときは、コンテンツ記憶装置がそれぞれ異なる音声付コンテンツとして記憶するものとすることもできる。
本願発明のコンテンツ制作装置、及び音声付コンテンツ制作システムには、次のような効果がある。
(1)複数の動画を編集し、しかも動画単位で所望の台本を作成することができるため、単なる動画ではない多種多様なコンテンツを作成することができる。
(2)台本に相応しい他者(声優など)に録音させることができるため、ユーザが思惑したとおりのコンテンツを作成することができる。
(3)動画ごとに設定した台本を音声合成として音声出力することで、その動画の再生時間内に収まるように台本を修正することができる。
本願発明におけるコンテンツを示すモデル図。 本願発明における音声付コンテンツを示すモデル図。 本願発明のコンテンツ制作装置の主な構成を示すブロック図。 3つの個別動画がそれぞれ録画した順に並べられ、次の撮影に向けて待機している状況を表示手段に示した画像図。 テンプレート選択手段が表示手段に表示された画像図。 台本作成手段が表示手段に表示された画像図。 (a)は、比較的長い文章がテキストボックス内に入力されている状況を示すモデル図、(b)は、個別台本の途中で音声出力が中止される状況を示すモデル図。 本願発明の音声付コンテンツ制作システムの全体構成を示すブロック図。 音声付コンテンツ制作システムを構成する依頼側出力手段の主な構成を示すブロック図。 音声付コンテンツ制作システムを構成する録音側端末装置の主な構成を示すブロック図。 依頼手段が依頼側出力手段に表示された画像図。 要求事項設定手段が依頼側出力手段に表示された画像図。 選択したコンテンツのタイトル等が録音側出力手段に表示された画像図。 音声録音手段が依頼側出力手段に表示された画像図。 タイトルごとに複数の異なる音声付コンテンツを、依頼側出力手段に一覧表示したモデル図。
本願発明のコンテンツ制作装置、及び音声付コンテンツ制作システムの例を図に基づいて説明する。
1.定義
本願発明の実施形態の例を説明するにあたって、はじめにここで用いる用語の定義を示しておく。
(コンテンツ)
図1は、本願発明における「コンテンツ」を示すモデル図である。この図に示すようにコンテンツは、映像と個別台本を含んで構成される。この映像は、複数のシーン(カット)から構成されるもので、例えば図1では5つのシーン(Sc01〜Sc05)によって映像が構成されている。また、各シーンはビデオカメラやスマートフォンといった動画取得手段で録画した動画によって形成されるものであり、言い換えると映像は複数の動画によって構成される。なお、映像を構成する個々の動画を、ここでは便宜上「個別動画」ということとする。
映像は、個別動画のみで構成することもできるし、図1に示すように個別動画と静止画(以下、「個別静止画」という。)によって構成することもできる。図1の映像では、シーンSc01とシーンSc02、シーンSc04、シーンSc05は個別動画(Mv)であり、シーンSc03のみが個別静止画(Pc)となっている。この場合、個別静止画には表示時間を設定するとよい。映像を再生すると、個別動画は録画した時間だけ一連の動きがそのまま再生されるが、個別静止画は再生すべき時間を持っていない。したがって、映像を再生する中でその個別静止画をどの程度表示させるか、所望の時間を設定するわけである。個別静止画の表示時間の設定にあたっては、あらかじめ定めた表示時間(デフォルトの表示時間)を用意し、これを任意に編集する仕組みとしてもよいし、もちろんデフォルトの表示時間を用意することなくその都度任意の時間を設定する仕組みとしてもよい。
個別台本は、シーンごと、つまり個別動画(あるいは個別静止画)ごとに設定されるものである。個別動画が映し出す状況を説明するなど、その個別動画にふさわしい内容の個別台本とするとよい。図1では、シーンSc01の個別動画に対して個別台本Wr01が作成されており、以下、シーンSc02の個別動画に対しては個別台本Wr02が、シーンSc03の個別静止画に対しては個別台本Wr03が、シーンSc04の個別動画に対しては個別台本Wr04が、そしてシーンSc05の個別動画に対しては個別台本Wr05がそれぞれ作成されている。そして対応する個別動画(あるいは個別静止画)と個別台本は、相互に関連付けられたうえで記憶される。
(音声付コンテンツ)
図2は、本願発明における「音声付コンテンツ」を示すモデル図である。この図に示すように音声付コンテンツは、映像と個別台本に加え音声を含んで構成される。この音声は、人が個別台本を読んだ音を録音したものであり、個別動画(あるいは個別静止画)ごとに(つまり個別台本ごとに)設定される音声(以下、「個別音声」という。)の集合である。図2では、個別台本Wr01〜05に対して、それぞれ個別音声Vo01〜05が録音されている。そして対応する個別動画(あるいは個別静止画)と個別音声は、直接的にあるいは間接的に(個別台本を介して)関連付けられたうえで記憶される。
2.コンテンツ制作装置
次に、本願発明のコンテンツ制作装置について、図を参照しながら説明する。図3は、本願発明のコンテンツ制作装置100の主な構成を示すブロック図である。この図に示す各手段は、それぞれの手段が行う内容を表したプログラムを実行するものであり、専用のものとして製造することもできるし、汎用的なコンピュータ装置を利用することもできる。このコンピュータ装置は、パーソナルコンピュータ(PC)や、iPad(登録商標)といったタブレット型端末やスマートフォン、あるいはPDA(Personal Data Assistance)などによって構成することができる。コンピュータ装置は、CPU等のプロセッサ、ROMやRAMといったメモリを具備しており、さらにマウスやキーボード等の入力手段やディスプレイ(映像表示手段)を含むものもある。なお、一般的なPCであればマウスやキーボード等のデバイスから入力するが、タブレット型端末やスマートフォンではタッチパネルを用いた操作(タップ、ピンチイン/アウト、スライド等)で入力することが多い。
コンテンツ制作装置100は、図3に示すように映像作成手段110と、台本作成手段120、コンテンツ記憶手段130を備えている。映像作成手段110は、個別動画や個別静止画を編集して映像を作成するものであり、具体的には所望の個別動画を選択し、これらを表示順に並べることで目的の映像を作成する。例えば図1の例では、4つの個別動画と1つの個別静止画を選択し、これらを5つのシーンに割り付けて映像を作成している。
コンテンツ制作装置100は、動画取得手段111を備えたものとすることもできる。動画取得手段111で取得した個別動画は、個別動画記憶手段112に記憶される。この場合、図4に示すように動画取得手段112で録画した複数の個別動画を、録画した順に並べた映像とすることもできる。この図はコンテンツ制作装置100が具備する表示手段140(ディスプレイ等)に表示された画面であり、その上部には動画取得手段111の撮影状況が示されており、また画面下部には既に録画した個別動画、つまり「指輪を撮影した個別動画」、「椅子を撮影した個別動画」、「サングラスを撮影した個別動画」がそれぞれ録画した順に並べられ、次の撮影に向けて待機している状況を示している。この図の状態で撮影を完了すれば3つの個別動画からなる映像が作成されるし、さらに撮影を続ければ4以上の個別動画からなる映像が作成される。もちろん録画した順に並んだ映像を、その後に編集することもできる。たとえば、図4に示す3つの個別動画の表示順を変更したり、このうち1つの個別動画を削除したり、あるいは個別動画記憶手段112に記憶された他の個別動画を読み出して挿入するなどの編集を行うことで所望の映像を作成する。
また、動画取得手段111で個別動画を取得する際、あらかじめ用意しておいた動画テンプレートを利用することもできる。図5は、テンプレート選択手段113が表示手段140に表示された画像図である。この図に示すようにテンプレート選択手段113は、あらかじめテンプレート記憶手段114に記憶された動画テンプレートを読み出し、これら動画テンプレートを表示手段140に表示する。例えば図5では、「ニュース」と「LIVE」、そして「レポート」の3つのジャンルがタグで表されており、さらにニュースのジャンルにある「BREAKING NEWS」と「速報」、「流行最前線」の3種類の動画テンプレートが表示されている。
動画テンプレートには背景音(BGM:BackGround Music)や画面デザインが記録されており、ユーザが図5に示す画面から所望の動画テンプレートを選択すると、動画取得手段111で撮影する間、その動画テンプレートの背景音が出力されるとともに、録画画面には画面デザインが表示される。図5は「BREAKING NEWS」の動画テンプレートが選択されたケースであり、図の左側の録画画面には画面デザイン(右上の「BREAKING NEWS」)が表示され、(図示できないが)背景音が出力されている。録画中に出力された背景音、及び録画画面に表示された画面デザインは、個別動画の一部として(あるいは関連付けられて)個別動画記憶手段112に記憶される。このように動画テンプレートを利用すると、完成度の高い(高品質の)コンテンツを容易に作成することができる。
コンテンツ制作装置100を構成する台本作成手段120は、個別台本を作成するものである。図6は、台本作成手段120が表示手段140に表示された画像図である。この図では、3つの個別動画からなる映像の作成が既に完了しており、それぞれの個別動画に対して個別台本を作成している状況を示している。なおここでいう台本とは、話すべき内容(いわゆる台詞)と台詞の順のほか、沈黙の時間(いわゆる「間」)や、歌、あるいは肉声以外の効果音などが含まれる。
台本作成手段120では、テキストを入力し、さらにその内容を編集することができる。具体的には、図6に示すテキストボックス120t内に、キーボードやマウスなどのデバイスを使用してテキストを入力・編集していく。このとき、画面(図6では左側)には対応する個別動画が表示される。個別動画を確認しながら作成できるため、より適した内容の個別台本を作成することができるわけである。図6では、個別動画として椅子が表示されており、テキストボックス120tには「新しい画期的な椅子です。」と入力されている。ここで入力・編集されたテキストは個別台本として個別台本記憶手段121に記憶される。
個別台本は、個別動画に相当するいわばナレーションであるから、人が話すことを目的として作成されることになる。個別台本どおりに人が話した音声を録音したものが個別音声であり、この個別音声とともに個別動画を再生するとより効果的に情報が伝わるわけである。したがって個別台本は、個別動画が再生される時間内に録音が完了するような内容にするとよい。しかしながら、図6に示すように入力されたテキストだけでは、その長さが適切か否か容易に判断することができない。
そこで音声合成手段122を利用し、個別台本を音声合成(テキストを認識した機械が音声化したもの)として音声出力するとよい。具体的には、音声合成手段122が個別台本記憶手段121から個別台本を読み出し、その内容を認識した機械(コンピュータ)が音声合成として音声出力する。これによりその個別台本の内容(長さ)が、個別動画の再生時間内に録音可能な長さであるかを容易に判断できる。
さらに、音声合成による音声出力の時間が対応する個別動画の再生時間よりも長いときは、個別台本の途中で音声合成による音声出力を中止する仕様としてもよい。例えば図7(a)では、比較的長い文章がテキストボックス120t内に入力されている。ところが、これをすべて音声合成として音声出力すると、個別動画の再生時間内には収まらない。この場合、図7(b)に示すように、個別台本の途中(図では、「座り心地がこれま」)で音声出力が中止される。この結果、個別台本の内容を短縮しなければならないことが把握できるうえ、どの程度短縮すれば個別動画の再生時間内に収まるかを容易に判断することができる。
個別台本の途中で音声合成による音声出力を中止する仕様に代えて、個別動画の再生時間内にすべて音声出力が完了するように出力速度を計算し、その速度で音声合成による音声出力を実行する仕様としてもよい。この場合、ある程度ユーザが許容できる程度の出力速度であれば、個別台本を短くする必要がないという判断も可能になる。
ところで、個別動画の内容によっては、音声合成による音声出力が所望の速度となっていないケースもある。すなわち、もう少しゆっくり話してほしい、あるいはもう少し早口で話してほしい、とユーザが要望することも考えらえる。この場合、果たしてその速度(ユーザが要望する速度)で話すと、作成した個別台本すべてが個別動画の再生時間内に録音完了するか否か、その判断は難しい。そこで、音声合成による音声出力の速度を自在に変更できる音声速度変更手段123を備えるとよい。例えば、図6ではスライダー123sを表示し、これを操作(丸印を左右に移動)することで音声合成による音声出力の速度を変更する仕組みを採用している。ユーザが音声速度変更手段123で所望の速度を設定すると、音声合成手段122はその設定速度で音声合成による音声出力を実行する。
ここまで説明した映像と個別台本は、コンテンツとしてコンテンツ記憶手段130に記憶される。より詳しくは、個別動画と対応する個別台本が関連付けられ、しかもユーザが設定した個別動画の表示順となるように組み合わせた映像が、コンテンツとして記憶される。なおコンテンツ記憶手段130と、個別動画記憶手段112、テンプレート記憶手段114、個別台本記憶手段121は、それぞれ異なる記憶手段として形成してもよいし、一体として、つまり1つの記憶手段を兼用することで形成してもよい。
3.音声付コンテンツ制作システム
続いて、本願発明の音声付コンテンツ制作システムについて、図を参照しながら説明する。なお、本願発明の音声付コンテンツ制作システムは、ここまで説明したコンテンツ制作装置100の一部を利用するものであり、したがってコンテンツ制作装置100で説明した内容と重複する説明は避け、音声付コンテンツ制作システムに特有の内容のみ説明することとする。すなわち、ここに記載されていない内容は、コンテンツ制作装置100で説明したものと同様である。
図8は、本願発明の音声付コンテンツ制作システムの全体構成を示すブロック図であり、図9は音声付コンテンツ制作システムを構成する依頼側出力手段200の主な構成を示すブロック図、図10は音声付コンテンツ制作システムを構成する録音側端末装置400の主な構成を示すブロック図である。図8に示すように本願発明の音声付コンテンツ制作システムは、依頼側端末装置200とコンテンツ記憶装置300、録音側端末装置400によって構成され、これらは通信回線等を介して接続されている。また、依頼側端末装置200と録音側端末装置400はユーザによって利用されるものであり、通常は図8に示すように複数の依頼側端末装置200と録音側端末装置400がコンテンツ記憶装置300に接続されている。なお、図9や図10に示す各手段は、それぞれの手段が行う内容を表したプログラムを実行するものであり、専用のものとして製造することもできるし、汎用的なコンピュータ装置を利用することもできる。
図9に示すように依頼側出力手段200は、ここまでに説明した映像作成手段110と台本作成手段120を備えており、その他、動画取得手段111や個別動画記憶手段112、テンプレート選択手段113、テンプレート記憶手段114、個別台本記憶手段121、音声合成出力手段122、音声速度変更手段123、依頼側出力手段260を備えることもできる。なお、破線で示すテンプレート記憶手段114は、依頼側出力手段200とは別に設け、通信回線等を介して接続する仕組みとしてもよい。
コンテンツ制作装置100で説明したように、依頼側出力手段200を構成する映像作成手段110と台本作成手段120を用いることで「コンテンツ」を作成することができる。そしてコンテンツを作成したユーザは、依頼側出力手段200が備える依頼手段230を用いてそのコンテンツに対する録音を依頼する。図11は、依頼手段230が依頼側出力手段260に表示された画像図である。具体的には、依頼手段230を操作することで、例えば図11に示すアイコン230c(「声優にアフレコをオーダー」)をクリックすることで、そのコンテンツ(ファイル)をコンテンツ記憶装置300に記憶させる(アップロードする)。このとき、依頼側出力手段200が備える送信手段240によって、コンテンツがコンテンツ記憶装置300に送信される。
依頼手段230によって録音を依頼したユーザ(以下、「依頼ユーザ」という。)は、個別台本の内容を他者(以下、「録音ユーザ」という。)によって話してもらい、その音声を録音してもらうことを期待する。言い換えると、依頼ユーザが作成したコンテンツを、声優など録音ユーザの力を借りることによって「音声付コンテンツ」に替える(完成させる)ことを期待するわけである。この場合、依頼ユーザとしては、個別台本を話す際の条件を設定したいケースもある。例えば、話す速度であったり、感情を含めた話し方であったり、様々な条件が考えられる。
依頼ユーザが、録音ユーザに対して話す速度を要求したい場合は、音声合成録音手段231を利用することができる。具体的には、依頼ユーザが音声速度変更手段123を用いて所望の速度を設定し、音声合成手段122にその設定速度で音声合成による音声出力を実行させる。そしてここで出力された音声を、音声合成録音手段231によって記録(録音)し、コンテンツと合わせて(関連付けて)コンテンツ記憶装置300に記憶させる。いわば依頼ユーザが模範的と考える「話す速度」を、コンテンツとともに依頼(アップロード)するわけである。
依頼ユーザが、録音ユーザに対して話す際の感情、あるいは性別や年齢など録音ユーザの特性など(以下、これらをまとめて「要求事項」という。)を提示したい場合は、要求事項設定手段232を利用することができる。図12は、要求事項設定手段232が依頼側出力手段260に表示された画像図である。具体的にはこの図に示すように、あらかじめ要求事項記憶手段233に記憶された要求事項が依頼側出力手段260に表示され、この中から所望のものを指定して選択する。あるいは、動画テンプレートに対応する要求事項をあらかじめデフォルトとして設定しておき、コンテンツを作成する際にテンプレート選択手段113で選択した動画テンプレートの要求事項(デフォルト)をそのまま確定するか、ユーザによってそのデフォルトを編集できるような仕様とすることもできる。そしてここで選択(確定)された要求事項を、コンテンツと合わせて(関連付けて)コンテンツ記憶装置300に記憶させる。いわば依頼ユーザが理想とする話し方を、コンテンツとともに依頼(アップロード)するわけである。なお、破線で示す要求事項記憶手段233は、録音側端末装置400が備えるものとしてもよいし、録音側端末装置400とは別に設け通信回線等を介して接続する仕組みとしてもよい。
録音側端末装置400は主に録音ユーザが操作するものであり、図10に示すようにディスプレイといった録音側出力手段420と、音声録音手段440、投稿手段450を備えている。既述したとおり、通常は複数の依頼側端末装置200がコンテンツ記憶装置300に接続されていることから、コンテンツ記憶装置300には複数の依頼ユーザから依頼されたコンテンツが記憶されている。そこで録音ユーザは、録音側端末装置400を用いて、コンテンツ記憶装置300から複数のコンテンツを読み出し、例えば一覧形式でそのコンテンツを録音側出力手段420に表示する。このとき、録音側端末装置400が備える受信手段410によって、コンテンツ記憶装置300からコンテンツを受信する。そして録音ユーザが録音したいと思うコンテンツを選択する。
録音ユーザが所望のコンテンツを選択すると、図13に示すようにそのコンテンツのタイトル等が録音側出力手段420に表示される。このとき、依頼ユーザが要求事項設定手段232によって要求事項を提示していれば、その要求事項も録音側出力手段420に表示される。図13では、「男性のみ」、「ナレーション(調)」、「楽しい」、「ユニークな」といった要求事項が表示されており、録音ユーザはこの要求事項を意識しながら個別台本にしたがって話すことになる。
また、再生開始のトリガーとなる操作を行うと、選択されたコンテンツの映像(一連の個別動画)が録音側出力手段420に再生される。このとき、依頼ユーザが録音ユーザに対して話す速度を要求していれば、つまり音声合成録音手段231を用いて理想速度の音声合成を記録していれば、その音声合成が音声合成試聴手段430によって再生される。録音ユーザは、この音声合成の再生速度を意識しながらそれぞれの個別台本に対して録音することになる。なお音声合成の試聴は、映像の再生開始のトリガーとなる操作を行うと同時に(自動的に)音声合成が音声出力される仕組みとしてもよいし、録音ユーザが所定の操作をしたときのみ音声出力される仕組みとしてもよい。
録音ユーザは、選択したコンテンツの映像を再生して確認すると、いよいよ録音を開始する。図14は、音声録音手段440が録音側出力手段420に表示された画像図である。音声録音手段440は、個別台本を表示するとともに個別動画を再生するもので、図14では画面上部に個別動画の再生を、画面下部に個別台本を表示している。なお個別台本としては、1つの個別動画に対して1つの台詞を用意してもよいし、この図に示すように1つの個別動画に対して2つ(あるいはそれ以上)の台詞を用意してもよい。
録音ユーザは、個別動画の再生を観ながら個別台本(図14では2つの台詞)を話す。そして、その音声は音声記憶手段470(図10)に記憶される。ただし実際に話すとなると、どの程度の速度で話してよいか迷うことも考えられる。そこで図14に示すように、各台詞に対して録音速度計を表示するとよい。録音ユーザが録音開始の操作を行うと、個別動画が再生されるとともに、話すタイミングになった台詞ボックス440b内に録音速度計が表示され、さらに台詞を話すべき速度を録音速度計が案内する。例えばこの図の録音表示計は、台詞ボックス440b内を移動針が左から右に向かって移動することで、話すべき速度を案内している。なお、この録音表示計は、既に経過した時間帯を濃い色で、残りの時間帯を薄い色で示しており、その境界が移動針として表示されている。
録音ユーザはそれぞれの個別動画に対してそれぞれ個別台本を読みながら録音していき、全ての個別動画の録音が終了すると音声付コンテンツが完成する。そして録音ユーザは投稿手段450を用いて、この音声付コンテンツを投稿する。具体的には、依頼手段230を操作することで、音声付コンテンツ(ファイル)をコンテンツ記憶装置300に記憶させる(アップロードする)。このとき、録音側端末装置400が備える送信手段460によって、コンテンツがコンテンツ記憶装置300に送信される。
依頼ユーザは、コンテンツ記憶装置300に記憶された音声付コンテンツを依頼側出力手段260で表示することによって、自身が依頼したコンテンツに対する音声付コンテンツを確認する。既述したとおり、通常は複数の録音側端末装置400がコンテンツ記憶装置300に接続されていることから、コンテンツ記憶装置300には複数の録音ユーザから投稿された音声付コンテンツが記憶されている。そこで依頼ユーザは、依頼側端末装置200を用いて、コンテンツ記憶装置300から複数の音声付コンテンツを読み出し、例えば一覧形式でその音声付コンテンツを依頼側出力手段260に表示する。このとき、依頼側端末装置200が備える受信手段250(図9)によって、コンテンツ記憶装置300から音声付コンテンツを受信する。
また、依頼ユーザが依頼した1つのコンテンツに対して、多数の録音ユーザから音声付コンテンツが投稿されることもある。この場合、コンテンツ記憶装置300は異なる録音ユーザ(つまり録音側端末装置400)から投稿された音声付コンテンツを、それぞれ異なる音声付コンテンツとして記憶するとよい。そして図15に示すように、タイトルごとに複数の異なる音声付コンテンツを、依頼側出力手段260に一覧表示すると好適である。依頼ユーザは、投稿された音声付コンテンツを依頼側出力手段260で再生することで、つまり個別動画と個別音声を順次再生(出力)していくことで、好みの音声付コンテンツを選定し、その音声付コンテンツを依頼側端末装置200に記憶する、あるいは好みの音声付コンテンツである旨をコンテンツ記憶装置300に登録する。
本願発明のコンテンツ制作装置、及び音声付コンテンツ制作システムは、商品紹介や観光地案内といった紹介用のコンテンツ、あるいは実写劇(ドラマ)やニュース、ドキュメンタリーといった本格的なコンテンツ、さらには日常の様子やペットの状況など身の周りを記録したコンテンツ、その他外国語の会話練習や映像付きの音楽演奏など、幅広く応用することができる。すなわち、今後は様々な産業界で活用されることが期待できる発明である。
100 コンテンツ制作装置
110 映像作成手段
111 動画取得手段
112 個別動画記憶手段
113 テンプレート選択手段
114 テンプレート記憶手段
120 台本作成手段
120t テキストボックス
121 個別台本記憶手段
122 音声合成出力手段
123 音声速度変更手段
123s スライダー
130 コンテンツ記憶手段
140 表示手段
200 依頼側端末装置
230 依頼手段
230c アイコン
231 音声合成録音手段
232 要求事項設定手段
233 要求事項設記憶手段
240 (依頼側端末装置)送信手段
250 (依頼側端末装置)受信手段
260 依頼側出力手段
300 コンテンツ記憶装置
400 録音側端末装置
410 (録音側端末装置)受信手段
420 録音側出力手段
430 音声合成試聴手段
440 音声録音手段
440b 台詞ボックス
450 投稿手段
460 (録音側端末装置)送信手段
470 音声記憶装置

Claims (8)

  1. 複数の個別動画によって構成される一連の映像と、該個別動画ごとに設定される個別台本と、を有する「コンテンツ」を制作する装置であって、
    複数の前記個別動画を編集して、前記映像を作成する映像作成手段と、
    前記映像を構成する複数の前記個別動画に対して、それぞれ前記個別台本を入力する台本作成手段と、
    前記映像作成手段によって作成された前記映像と、前記台本作成手段によって作成された前記個別台本と、で構成される前記コンテンツを記憶するコンテンツ記憶手段と、
    を備えたことを特徴とするコンテンツ制作装置。
  2. 背景音が記録された動画テンプレートを記憶するテンプレート記憶手段と、
    前記テンプレート記憶手段から、所望の前記動画テンプレートを選択するテンプレート選択手段と、
    前記個別動画を取得する動画取得手段と、をさらに備え、
    前記テンプレート選択手段で所望の前記動画テンプレートを指定すると、前記動画取得手段によって前記個別動画を取得する際に、指定した動画テンプレートの背景音が出力される、
    ことを特徴とする請求項1記載のコンテンツ制作装置。
  3. 前記個別台本を音声合成として音声出力する音声合成出力手段を、さらに備え、
    音声合成による音声出力時間が対応する前記個別動画の時間よりも長いときは、前記音声合成出力手段は、前記個別台本のうち該個別動画の時間に収まる部分のみを音声出力する、
    ことを特徴とする請求項1又は請求項2記載のコンテンツ制作装置。
  4. 前記音声合成出力手段は、音声合成による音声出力の速度を変更する音声速度変更手段を有し、
    前記音声速度変更手段で設定した速度に応じて、前記音声合成出力手段が音声出力する、
    ことを特徴とする請求項3記載のコンテンツ制作装置。
  5. 複数の個別動画によって構成される一連の映像と、該個別動画ごとに設定される個別台本と、を有する「コンテンツ」を制作する依頼側端末装置と、
    前記コンテンツを記憶するコンテンツ記憶装置と、
    前記コンテンツに対して音声を録音する録音側端末装置と、を備え、
    前記依頼側端末装置は、
    複数の前記個別動画を編集して、前記映像を作成する映像作成手段と、
    前記映像を構成する複数の前記個別動画に対して、それぞれ前記個別台本を入力する台本作成手段と、
    前記映像作成手段によって作成された前記映像と、前記台本作成手段によって作成された前記個別台本と、で構成される前記コンテンツに対して、録音を依頼する依頼手段と、を有し、
    前記コンテンツ記憶装置は、前記依頼手段によって録音を依頼された前記コンテンツを記憶し、
    前記録音側端末装置は、
    前記コンテンツ記憶装置に記憶された前記コンテンツの前記映像を再生するとともに、前記個別動画ごとに前記個別台本を合わせて表示する録音側出力手段と、
    前記録音側出力手段で前記映像と前記個別台本を表示しながら、音声を録音する音声録音手段と、
    前記音声録音手段で音声が録音された「音声付コンテンツ」を投稿する投稿手段と、を有し、
    前記コンテンツ記憶装置は、前記投稿手段によって投稿された前記音声付コンテンツを記憶し、
    前記依頼側端末装置は、前記コンテンツ記憶装置に記憶された前記音声付コンテンツの前記映像を、前記音声録音手段で録音された音声とともに再生する依頼側出力手段を有する、
    ことを特徴とする音声付コンテンツ制作システム。
  6. 前記依頼側端末装置は、録音者への要求事項を設定する要求事項設定手段を、さらに有し、
    前記コンテンツ記憶装置は、前記要求事項設定手段で設定した前記要求事項とともに前記コンテンツを記憶し、
    前記録音側端末装置の前記音側出力手段は、前記コンテンツにかかる前記要求事項を表示する、
    ことを特徴とする請求項5記載の音声付コンテンツ制作システム。
  7. 前記依頼側端末装置は、前記個別台本を指定した速度で音声合成として音声出力して録音する音声合成録音手段を、さらに有し、
    前記コンテンツ記憶装置は、前記音声合成録音手段で録音した音声合成を記憶し、
    前記録音側端末装置は、前記コンテンツ記憶装置に記憶された前記コンテンツの前記映像を再生するとともに、該コンテンツにかかる音声合成を出力する音声合成試聴手段を、さらに有する、
    ことを特徴とする請求項5又は請求項6記載の音声付コンテンツ制作システム。
  8. 前記コンテンツ記憶装置は、1の前記コンテンツに対して、2以上の前記録音側端末装置から前記音声付コンテンツが投稿されたときは、それぞれ異なる音声付コンテンツとして記憶する、
    ことを特徴とする請求項5乃至請求項7のずれかに記載の音声付コンテンツ制作システム。
JP2016217816A 2016-11-08 2016-11-08 コンテンツ制作装置、及び音声付コンテンツ制作システム Pending JP2018078402A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016217816A JP2018078402A (ja) 2016-11-08 2016-11-08 コンテンツ制作装置、及び音声付コンテンツ制作システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016217816A JP2018078402A (ja) 2016-11-08 2016-11-08 コンテンツ制作装置、及び音声付コンテンツ制作システム

Publications (1)

Publication Number Publication Date
JP2018078402A true JP2018078402A (ja) 2018-05-17

Family

ID=62149279

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016217816A Pending JP2018078402A (ja) 2016-11-08 2016-11-08 コンテンツ制作装置、及び音声付コンテンツ制作システム

Country Status (1)

Country Link
JP (1) JP2018078402A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754810A (zh) * 2019-02-21 2019-05-14 珠海格力电器股份有限公司 一种语音控制方法、装置、存储介质及空调
JP2020046842A (ja) * 2018-09-18 2020-03-26 富士ゼロックス株式会社 情報処理装置およびプログラム
KR20210050410A (ko) * 2019-10-28 2021-05-07 네이버 주식회사 영상 컨텐츠에 대한 합성음 실시간 생성에 기반한 컨텐츠 편집 지원 방법 및 시스템
KR20210157458A (ko) * 2019-10-28 2021-12-28 네이버 주식회사 영상 컨텐츠에 대한 합성음 실시간 생성에 기반한 컨텐츠 편집 지원 방법 및 시스템
KR20220007221A (ko) * 2020-07-10 2022-01-18 닥프렌즈 주식회사 전문 상담 미디어 등록 처리 방법
KR20220129868A (ko) * 2021-03-17 2022-09-26 네이버 주식회사 이미지에 대한 음성합성에 기반하여 영상 컨텐츠를 생성하는 방법 및 시스템

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020046842A (ja) * 2018-09-18 2020-03-26 富士ゼロックス株式会社 情報処理装置およびプログラム
JP7215033B2 (ja) 2018-09-18 2023-01-31 富士フイルムビジネスイノベーション株式会社 情報処理装置およびプログラム
CN109754810A (zh) * 2019-02-21 2019-05-14 珠海格力电器股份有限公司 一种语音控制方法、装置、存储介质及空调
KR20210050410A (ko) * 2019-10-28 2021-05-07 네이버 주식회사 영상 컨텐츠에 대한 합성음 실시간 생성에 기반한 컨텐츠 편집 지원 방법 및 시스템
KR20210157458A (ko) * 2019-10-28 2021-12-28 네이버 주식회사 영상 컨텐츠에 대한 합성음 실시간 생성에 기반한 컨텐츠 편집 지원 방법 및 시스템
KR102353797B1 (ko) * 2019-10-28 2022-01-24 네이버 주식회사 영상 컨텐츠에 대한 합성음 실시간 생성에 기반한 컨텐츠 편집 지원 방법 및 시스템
KR102488623B1 (ko) * 2019-10-28 2023-01-17 네이버 주식회사 영상 컨텐츠에 대한 합성음 실시간 생성에 기반한 컨텐츠 편집 지원 방법 및 시스템
KR20220007221A (ko) * 2020-07-10 2022-01-18 닥프렌즈 주식회사 전문 상담 미디어 등록 처리 방법
KR102530883B1 (ko) * 2020-07-10 2023-05-11 닥프렌즈 주식회사 전문 상담 미디어 등록 처리 방법
KR20220129868A (ko) * 2021-03-17 2022-09-26 네이버 주식회사 이미지에 대한 음성합성에 기반하여 영상 컨텐츠를 생성하는 방법 및 시스템
KR102465870B1 (ko) * 2021-03-17 2022-11-10 네이버 주식회사 이미지에 대한 음성합성에 기반하여 영상 컨텐츠를 생성하는 방법 및 시스템

Similar Documents

Publication Publication Date Title
JP2018078402A (ja) コンテンツ制作装置、及び音声付コンテンツ制作システム
JP5767108B2 (ja) 媒体生成システム及び方法
US8930817B2 (en) Theme-based slideshows
US20120308209A1 (en) Method and apparatus for dynamically recording, editing and combining multiple live video clips and still photographs into a finished composition
US20180226101A1 (en) Methods and systems for interactive multimedia creation
JP2008172582A (ja) 議事録作成再生装置
JP6641045B1 (ja) コンテンツ生成システム、及びコンテンツ生成方法
US20190019533A1 (en) Methods for efficient annotation of audiovisual media
KR102308508B1 (ko) 리뷰 제작 시스템
US20120154514A1 (en) Conference support apparatus and conference support method
Miller Sams teach yourself YouTube in 10 Minutes
Tidal Podcasting: A practical guide for librarians
JP3942471B2 (ja) データ編集方法、データ編集装置、データ記録装置および記録媒体
JP6166070B2 (ja) 再生装置および再生方法
JP5777233B1 (ja) 動画生成装置及び動画生成方法
JP2005285076A (ja) 映像情報制作方法
KR20130092692A (ko) 사용자의 음성으로 구연될 수 있는 전자 도서 제작 방법 및 전자 도서 제작 프로그램이 저장된 컴퓨터 판독 가능한 기록 매체
KR101564659B1 (ko) 효과음을 이용한 자막 삽입 시스템 및 방법
Engstrom et al. Audio and Video Journalism
US11989231B2 (en) Audio recommendation based on text information and video content
JP5860575B1 (ja) 音声録音プログラム、音声録音端末装置、及び音声録音システム
WO2022163023A1 (ja) コンテンツ修正装置、コンテンツ配信サーバ、コンテンツ修正方法、および、記録媒体
JP2017211995A (ja) 再生装置、再生方法、再生プログラム、音声要約装置、音声要約方法および音声要約プログラム
CN115315960B (en) Content correction device, content distribution server, content correction method, and recording medium
WO2023058101A1 (ja) 動画再生支援システム、動画再生支援方法及びプログラム