JP2024092145A

JP2024092145A - コンテンツ生成装置、コンテンツ生成方法、およびプログラム

Info

Publication number: JP2024092145A
Application number: JP2022207873A
Authority: JP
Inventors: 昭彦戀塚; 伸也北岡; 侑司中谷; 俊介柳澤
Original assignee: Dwango Co Ltd
Current assignee: Dwango Co Ltd
Filing date: 2022-12-26
Publication date: 2024-07-08
Anticipated expiration: 2042-12-26

Abstract

【課題】より魅力的な配信用動画を生成する。
【解決手段】配信者端末１は、配信者が配信したいコンテンツを入力する入力部１１と、動画配信サーバ２が配信する動画に対して付与されたコメントを取得するコメント取得部１２と、コメントから音声を生成する音声合成部１３と、音声に応じた動作を行うキャラクタまたはキャラクタデータを含むキャラクタコンテンツを生成する動画生成部１４と、コンテンツにキャラクタコンテンツを重畳させた配信用動画を生成する動画合成部１５を備える。
【選択図】図２

Description

本開示は、コンテンツ生成装置、コンテンツ生成方法、プログラム、および記録媒体に関する。

配信される動画に対してコメントを投稿できるサービスが広く利用されている（特許文献１）。投稿されたコメントは、動画の表示領域内に重畳して表示されたり、動画の表示領域外に設けられたコメント欄に表示されたりする。リアルタイムでライブ配信される、いわゆる生放送番組では、視聴者が投稿したコメントを配信者が読み上げることで視聴者と配信者との間でコミュニケーションを取ることができる。

配信者自身がコメントを読むのではなく、コメントを機械音声で読み上げる技術も利用されている（非特許文献１）。

特許文献２には、ユーザ端末装置で撮影した画像にユーザの化身であるアバターオブジェクトを重畳した画像を配信する技術が開示されている。

特許第６２９５４９４号公報特開２０２０－１６０６４５号公報

"棒読みちゃん"、インターネット〈URL：https://chi.usamimi.info/Program/Application/BouyomiChan/〉

配信者自身がコメントを読む場合、コメントを読み飛ばすことがある。コメントを読み飛ばされた視聴者は、コメントを投稿する意欲をなくし、番組を視聴しなくなる可能性がある。非特許文献１の技術を利用してコメントを機械音声で読み上げることでコメントの読み飛ばしは解消されるが、単調な合成音声であるから視聴者が飽きてしまうという問題がある。

本開示は、上記に鑑みてなされたものであり、より魅力的な配信用動画を生成することを目的とする。

本開示の一態様のコンテンツ生成装置は、コンテンツ配信サーバが配信するコンテンツを生成するためのコンテンツ生成装置であって、コンテンツを入力する入力部と、前記コンテンツ配信サーバが配信するコンテンツに対して投稿されたコメントを取得するコメント取得部と、前記コメントから音声を生成する音声合成部と、前記音声に応じた動作を行うキャラクタまたはキャラクタデータを含むキャラクタコンテンツを生成する生成部と、前記コンテンツに前記キャラクタコンテンツを重畳させた配信用コンテンツを生成する合成部を備える。

本開示によれば、より魅力的な配信用動画を生成できる。

図１は、本実施形態の動画配信システムの構成の一例を示す図である。図２は、配信者端末の構成の一例を示す図である。図３は、配信者端末の処理の流れの一例を示すフローチャートである。図４は、配信者端末が生成する画面の一例を示す図である。

以下、本開示の実施の形態について図面を用いて説明する。

［システムの構成］
図１は、本実施形態の動画配信システムの構成の一例を示す図である。同図に示す動画配信システムは、配信者端末１、動画配信サーバ２、コメント配信サーバ３、および視聴者端末４を備える。各装置はネットワークを介して通信可能に接続される。図１では、視聴者端末４を２台のみ図示しているが、これに限るものではない。視聴者は多数存在し、多数の視聴者端末４が接続される。また、配信者端末１を１台のみ図示しているが、実際には多数の配信者が存在し、多数の配信者端末１が接続される。視聴者は見たい配信者の番組を選択して視聴できる。

動画配信サーバ２は、配信者端末１から受信した動画をリアルタイムに視聴者端末４へ配信する。リアルタイムに動画を配信することをライブ配信、生放送配信、またはストリーミング配信ともいう。動画配信サーバ２は、配信者端末１から受信した動画を蓄積しておき、視聴者端末４からの配信要求に応じて任意の時間に動画を視聴者端末４へ配信してもよい。任意の時間に動画を配信することをタイムシフト配信ともいう。

コメント配信サーバ３は、視聴者端末４から、視聴者が動画に対して入力したコメントを受信し、受信したコメントをリアルタイムで同じ動画の配信を受けている視聴者端末４へ配信する。視聴者端末４から受信するコメントの情報は、コメントの内容（文字列）、ユーザＩＤ、および時刻情報を含む。ユーザＩＤは、コメントを投稿したユーザの識別子である。時刻情報は、ユーザがコメントを投稿したときの番組のタイムスタンプである。コメント配信サーバ３は、コメントを配信者端末１へ配信してもよい。また、コメント配信サーバ３は、配信者端末１から、配信者が入力したコメントを受信し、配信者コメントとして視聴者端末４へ配信する。

コメント配信サーバ３は、コメントを動画ごとに管理して保持する。動画配信サーバ２は、視聴者端末４から配信要求を受信すると、視聴者端末４を識別する情報と要求された動画を識別する情報をコメント配信サーバ３へ通知する。コメント配信サーバ３は、動画に対応するコメントの視聴者端末４への送信と視聴者端末４からのコメントの受信を開始する。コメントの配信については特許文献１に記載の技術を用いることができる。

視聴者端末４は、番組を視聴する視聴者が使用する端末であり、動画配信サーバ２から動画を受信して表示する。視聴者が視聴者端末４を操作して見たい生放送番組（ライブ配信される動画）を選択すると、視聴者端末４は、動画の配信要求を動画配信サーバ２へ送信する。動画配信サーバ２は、配信要求を受信すると、要求された動画の視聴者端末４への送信を開始する。視聴者端末４として、例えば、パーソナルコンピュータ（ＰＣ）、スマートフォン、またはタブレット端末を利用できる。

視聴者は、生放送番組を見ながら、生放送番組に対してコメントを投稿できる。視聴者端末４は、生放送番組に対して投稿されたコメントを表示できる。具体的には、視聴者が視聴者端末４にコメントを入力すると、視聴者端末４は、入力されたコメントをコメント配信サーバ３へ送信する。視聴者端末４は、投稿されたコメントを配信者端末１および視聴者端末４のそれぞれに対して配信する。

視聴者端末４は、配信されたコメントを表示する。視聴者端末４は、動画に重畳してコメントを表示してもよいし、動画表示領域外のコメント欄にコメントを表示してもよい。視聴者は、視聴者端末４を操作してコメントの表示をオン・オフできる。

配信者端末１は、番組を配信する配信者が使用する端末であり、配信したい動画をリアルタイムに動画配信サーバ２へ送信する。例えば、配信者端末１は、配信者端末１に接続したカメラで撮影した動画を入力し、入力した動画に後述するキャラクタ動画を重畳して動画配信サーバ２へ送信する。配信者端末１がカメラを備えてもよいし、ゲーム機などの外部の装置から映像を入力してもよい。配信者端末１として、例えば、ＰＣ、スマートフォン、またはタブレット端末を利用できる。

配信者端末１は、コメント配信サーバ３から、生放送番組に対するコメントを受信し、コメントに対応した音声を生成するとともに、コメントに対応した動作を行うキャラクタを含むキャラクタ動画を生成する。コメントに対応した動作とは、例えば、コメントから生成した音声に合わせて口パク（リップシンク）する動作である。

［配信者端末の構成］
次に、配信者端末１の構成の一例について説明する。

図２は、配信者端末１の構成の一例を示す図である。同図に示す配信者端末１は、入力部１１、コメント取得部１２、音声合成部１３、動画生成部１４、動画合成部１５、および送信部１６を備える。配信者端末１が備える各部は、演算処理装置、記憶装置等を備えたコンピュータにより構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムは配信者端末１が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリなどのコンピュータが読み取り可能な非一時的な記録媒体に記録することも、ネットワークを通して提供することも可能である。

入力部１１は、配信者が配信したいコンテンツを入力する。例えば、入力部１１が入力するコンテンツは、カメラで配信者自身を撮影した動画、事前に撮影した実写動画、コンピュータが描いたコンピュータグラフィックス映像、配信者端末１または他の装置（ゲーム機、パーソナルコンピュータ、スマートフォン、タブレット端末など）で実行されるアプリケーションの画面（ゲーム画面、ペイントソフト、ブラウザなど）、あるいは写真やイラストなどの静止画であり、動画配信サーバ２が配信できるものであればコンテンツの内容と形式は問わない。入力部１１は、複数のコンテンツを入力して合成してもよい。例えば、配信者がゲームのプレイ動画を配信する場合、入力部１１は、ゲーム機から入力したゲーム画面に、カメラで配信者を撮影した画像を合成した動画を生成する。以下、入力部１１が入力したコンテンツと入力部１１が合成したコンテンツを含めてコンテンツと称する。

なお、入力部１１は、コンテンツの音も入力する。入力部１１は、複数のソースから音を入力する場合、これらの音をミックスする。例えば、配信者がゲームのプレイ動画を配信する場合、入力部１１は、ゲームの音と配信者の音声とをミックスする。ゲームの音はゲーム機から入力さら、配信者の音声は配信者端末１に接続したマイクから入力される。

コメント取得部１２は、コメント配信サーバ３から、視聴者が生放送番組に対して投稿したコメントを取得する。コメントには、視聴者が投稿する視聴者コメント、配信者が入力する配信者コメント、動画配信システムが表示するシステムコメントがある。以下、単にコメントと呼ぶ場合は、視聴者コメントを指すものとする。

音声合成部１３は、コメント取得部１２が取得したコメントから音声を合成（生成）する。音声合成部１３は、一般的な音声合成技術を利用できる。例えば、音声合成部１３には、深層学習技術を活用したテキストから音声への音声合成技術を利用できる。

音声合成部１３は、コメントの到着順にコメントから音声を合成して出力する。音声合成部１３は、音声の出力が終わると、次のコメントの処理を行う。

コメントが大量に投稿された場合、音声合成部１３は、読み上げる（音声を生成する）コメントを選別し、選別したコメントのみを読み上げてもよい。例えば、コメントが大量に投稿された場合、音声合成部１３は、時間的に読み上げ可能な個数のコメントをコメントの到着順に抽出し、抽出したコメントのみから音声を生成する。抽出されなかったコメントは読み上げ対象から除外される。その後、処理的な余裕が生じると、音声合成部１３は、新しく投稿されたコメントの読み上げを再開する。

長いコメント、例えば文字数の多いコメントについては、音声合成部１３は、そのコメントの読み上げ時間が所定内に収まるように音声合成する。つまり、音声合成部１３は、長いコメントは早口で読み上げられるように音声合成する。

動画生成部１４は、音声合成部１３で合成した音声からキャラクタが口パクするキャラクタ動画を生成する。例えば、動画生成部１４は、合成した音声の音素情報に基づいてキャラクタが口パクする動きを生成する。キャラクタ動画は、キャラクタ以外の背景部分は透過する動画である。キャラクタは、コンピュータグラフィクスで描かれた２次元または３次元のキャラクタでもよいし、手書きのキャラクタまたは実写の人物でもよい。キャラクタは、人だけでなく、擬人化した動物や物であってもよい。

動画合成部１５は、コンテンツに動画生成部１４が生成したキャラクタ動画を重畳して配信用動画を生成する。配信者は、配信用動画内でのキャラクタの位置を任意の位置に設定できる。配信者は、配信開始時にキャラクタの位置とサイズ（キャラクタ動画を重畳する位置）を指定する。配信者は、配信途中で、キャラクタの位置とサイズを変更してもよい。コンテンツが実空間を撮影した実写動画の場合、動画合成部１５は、拡張現実（ＡＲ）技術を用いて、キャラクタを実空間の座標系に基づいて配置してもよい。

動画合成部１５は、コンテンツにコメントを重畳して表示してもよいし、コンテンツ内にコメントを表示しなくてもよい。動画合成部１５は、コメントをキャラクタ動画の上に重畳して表示してもよいし、コンテンツとキャラクタ動画の間に重畳して表示してもよい。配信者端末１において動画にコメントを重畳することで、コメントの表示、コメントの音声、およびキャラクタの動きを同期させることができる。なお、配信者端末１においてコンテンツにコメントを重畳しなくても、視聴者端末４は、コメント配信サーバ３からコメントを取得して配信された動画にコメントを重畳表示することができる。

動画合成部１５は、コンテンツにキャラクタ動画を重畳するとともに、音声合成部１３が生成した音声と配信用動画の音とをミックスする。

送信部１６は、配信用動画を動画配信サーバ２へ送信する。

［配信者端末の動作］
図３のフローチャートを参照し、配信者端末１の処理の流れの一例について説明する。下記の処理は、配信者が生放送番組の配信を開始してから配信を終了するまで繰り返して行われる。

ステップＳ１１にて、配信者端末１は、配信者が配信したいコンテンツを入力する。

ステップＳ１２にて、配信者端末１は、コメント配信サーバ３から、視聴者が投稿したコメントを取得する。

ステップＳ１３にて、配信者端末１は、ステップＳ１２で取得したコメントから音声を生成する。

ステップＳ１４にて、配信者端末１は、ステップＳ１３で生成した音声からキャラクタ動画を生成する。

なお、ステップＳ１１の処理と、ステップＳ１２ないしステップＳ１４の処理とは、並列して行われてもよい。

ステップＳ１５にて、配信者端末１は、ステップＳ１１で入力したコンテンツに、ステップＳ１４で生成したキャラクタ動画を重畳して配信用動画を生成する。

ステップＳ１６にて、配信者端末１は、動画配信サーバ２に、ステップＳ１３で生成した音声と、ステップＳ１５で生成した配信用動画を送信する。

動画配信サーバ２は、視聴者端末４のそれぞれに、配信用動画を配信する。コメント配信サーバ３は、視聴者端末４のそれぞれから、視聴者が投稿したコメントを受信し、配信者端末１および視聴者端末４のそれぞれに、コメントを配信する。

［配信用動画の例］
図４を参照し、配信用動画の画面の一例について説明する。図４は、配信者端末が生成する画面の一例を示す図である。図４に示す画面１００では、カメラで撮影した動画に、コメント１１０，１１１とキャラクタ１２０を重畳している。

コメント１１０は、視聴者が投稿した視聴者コメントである。視聴者コメントは、例えば、画面の右端から左端に向けて移動する。コメント１１１は、配信者が入力した配信者コメントである。配信者コメント１１１は、画面の上部に表示される。図示していないが、システムコメントは画面１００の下部に表示される。

キャラクタ１２０は、コメント１１０，１１１から生成した音声に合わせて口パクの動きをする。これにより、キャラクタ１２０がコメントを読み上げるような生放送番組を配信できる。配信者が視聴者のコメントに対して応答すると、あたかも配信者がコメントを読み上げたキャラクタ１２０に対して応答したように見えるので、配信者と視聴者との間でより魅力的な双方向コミュニケーションを実現できる。

［変形例］
次に、本実施形態のいくつかの変形例について説明する。

音声合成部１３は、コメントの種類ごとに異なる声質でコメントを音声合成してもよい。例えば、音声合成部１３は、視聴者コメント、配信者コメント、およびシステムコメントを異なる声質で音声合成してもよいし、システムコメントのみを別の声質で音声合成してもよい。音声合成部１３を配信者の声で音声合成できるように学習し、配信者コメントを配信者の声質で音声合成してもよい。動画生成部１４は、声質ごとに異なるキャラクタのキャラクタ動画を生成してもよい。例えば、動画生成部１４は、視聴者コメントを読み上げるキャラクタと配信者コメントを読み上げるキャラクタを異ならせてもよい。

音声合成部１３は、コメントしたユーザごとに異なる声質でコメントを音声合成してもよい。例えば、音声合成部１３は、複数種類（例えば数十種類程度）の声質を出力できる音声合成モデルを利用する。音声合成部１３は、コメントを音声合成する際に、ユーザＩＤと声質の識別番号との対応付けを記憶する。ユーザＩＤと声質の識別番号との対応付けが記憶されている場合は、音声合成部１３は、対応付けられた声質でコメントを音声合成する。ユーザＩＤと声質の識別番号との対応付けが記憶されていない場合、つまり新たなユーザのコメントの場合は、音声合成部１３は、そのユーザＩＤにいずれかの声質の識別番号を対応付け、その声質でコメントを音声合成する。コメントするユーザの数が声質の数よりも多い場合、同じ声質を複数のユーザに対応付けてもよい。動画生成部１４は、声質のそれぞれに対応するキャラクタを用意しておき、音声合成部１３の合成した音声の声質に対応するキャラクタが口パクするキャラクタ動画を生成する。

視聴者が、自分のコメントを読み上げるキャラクタと声質の少なくともいずれかを指定してもよい。例えば、視聴者は、コメントを投稿する際のコマンドでキャラクタと音質を指定する。音声合成部１３は、コメントの表示態様（色、サイズ、表示位置）で声質を変えてもよい。この場合、視聴者は、コメントの表示態様でキャラクタと声質を指定できる。

コメントしたユーザの数のキャラクタを表示してもよい。例えば、同時または近い時刻でコメントが投稿された場合、音声合成部１３は、コメントを順番に音声合成するのではなく、音声が重なるようにコメントを音声合成して出力し、動画生成部１４は、複数のキャラクタを同時に表示する。

動画生成部１４は、コメントの内容に基づいた動作をキャラクタに行わせてもよい。例えば、コメントの内容が「８８８８」（８が２つ以上連続した文字列であり、パチパチと読み、拍手を意味する）の場合、動画生成部１４は、キャラクタが拍手する動作のキャラクタ動画を生成する。このとき、音声合成部１３は、「８８８８」に対応する音声を出力しなくてもよいし、拍手の音を出力してもよいし、パチパチと発声する音声を合成してもよい。コメントの内容が「ｗｗｗ」（ｗが１つ以上連続した文字列、笑を意味する）の場合、動画生成部１４は、キャラクタが笑うキャラクタ動画を生成する。コメントの最後に「ｗ」の文字が付与されている場合、動画生成部１４は、コメントを読み上げた後にキャラクタが笑うキャラクタ動画を生成する。

動画生成部１４は、コメントの投稿状況（例えばコメント量）に応じた動作をキャラクタに行わせてもよい。例えば、大量のコメントが届いた場合、動画生成部１４は、キャラクタが慌てる動作を行うキャラクタ動画を生成する。コメントが少ない場合、例えば所定時間以上コメントが届かない場合、動画生成部１４は、キャラクタが暇そうな動作を行うキャラクタ動画を生成する。

生放送番組に対してギフトを投入できる場合、ギフトが投入された際に、動画生成部１４は、キャラクタが感謝する動作を行うキャラクタ動画を生成してもよい。音声合成部１３は、ギフトを投入したユーザの名前を読み上げる音声を合成してもよい。また、動画生成部１４は、投入されたギフトの演出に応じた動作を行うキャラクタ動画を生成してもよい。例えば、動画生成部１４は、画面上端からオブジェクトが落下するような演出の場合、落下物を受け止める動作を行うキャラクタ動画を生成する。

配信者が発話中は、コメントの読み上げを一時停止してもよい。例えば、マイクに配信者の音声が入力されている場合、音声合成部１３は、コメントの入力を一時停止して、コメントの音声合成を行わない。配信者の発話の終了を検知すると、音声合成部１３は、読み上げを一時停止したコメントを、読み上げを中断した位置から再開して読み上げてもよいし、そのコメントを最初から読み上げてもよい。配信者が発話中に取得したコメントは、読み上げ対象から除外してもよい。あるいは、音声合成部１３は、配信者が発話中に取得したコメントを一時的に保持し、配信者の発話後に、順次コメントを音声合成してもよい。

配信者端末１は、キャラクタ動画を生成するためのキャラクタデータ（例えばモーションデータなど）を送信してもよい。具体的には、動画生成部１４は、合成した音声からキャラクタデータを生成し、動画合成部１５は、キャラクタデータをコンテンツに重畳し、送信部１６は、キャラクタデータが重畳されたコンテンツを送信する。この場合、視聴者端末４が、キャラクタデータからキャラクタ動画を生成し、コンテンツにキャラクタ動画を重畳表示する。動画配信サーバ２がキャラクタ動画を生成してコンテンツにキャラクタ動画を重畳し、キャラクタ動画を重畳したコンテンツを視聴者端末４へ送信してもよい。配信者端末１は、コンテンツとキャラクタデータを別々に送信してもよい。

なお、本実施形態では、配信者端末１でキャラクタ動画を生成したが、視聴者端末４でキャラクタ動画を生成し、配信動画に重畳表示してもよい。具体的には、視聴者端末４は、コメント配信サーバ３から取得したコメントから音声を合成し、合成した音声からキャラクタ動画を生成し、動画配信サーバ２から受信した動画にキャラクタ動画を重畳して表示するとともに、合成した音声を出力する。視聴者端末４でキャラクタ動画を生成する場合は、タイムシフトで配信される動画についても同様に、投稿されたコメントについても音声合成とキャラクタ動画を行うことで、コメントを読み上げるキャラクタを表示して動画を視聴できる。

以上説明したように、本実施形態の配信者端末１は、配信者が配信したいコンテンツを入力する入力部１１と、動画配信サーバ２が配信する動画に対して投稿されたコメントを取得するコメント取得部１２と、コメントから音声を生成する音声合成部１３と、音声に応じた動作を行うキャラクタを含むキャラクタ動画を生成する動画生成部１４と、コンテンツにキャラクタ動画を重畳させた配信用動画を生成する動画合成部１５を備える。これにより、キャラクタがコメントを読み上げる動画を配信できるので、コメントを投稿する意欲をかきたてることができる。配信者が視聴者のコメントに対して返答することで、配信者がキャラクタと対話しているような動画を配信できる。

１…配信者端末
１１…入力部
１２…コメント取得部
１３…音声合成部
１４…動画生成部
１５…動画合成部
１６…送信部
２…動画配信サーバ
３…コメント配信サーバ
４…視聴者端末

本開示の一態様のコンテンツ生成装置は、コンテンツ配信サーバが配信するコンテンツを生成するためのコンテンツ生成装置であって、コンテンツを入力する入力部と、前記コンテンツ配信サーバが配信するコンテンツに対して投稿されたコメントを取得するコメント取得部と、前記コメントから前記コメントの種類ごとまたは前記コメントの投稿者ごとに異なる声質の音声を生成する音声合成部と、前記音声に応じた動作を行い、前記声質に対応するキャラクタまたはキャラクタデータを含むキャラクタコンテンツを生成する生成部と、前記コンテンツに前記キャラクタコンテンツを重畳させた配信用コンテンツを生成する合成部を備える。生成部は、コメントの内容またはコメントの投稿状況に応じた動作を行うキャラクタまたはキャラクタデータを含むキャラクタコンテンツを生成する。音声合成部は、配信者が発話中は、音声の生成を一時的に停止する。音声合成部は、コメントからコメントの内容の長さに応じた速さの音声を生成する。

Claims

コンテンツ配信サーバが配信するコンテンツを生成するためのコンテンツ生成装置であって、
コンテンツを入力する入力部と、
前記コンテンツ配信サーバが配信するコンテンツに対して投稿されたコメントを取得するコメント取得部と、
前記コメントから音声を生成する音声合成部と、
前記音声に応じた動作を行うキャラクタまたはキャラクタデータを含むキャラクタコンテンツを生成する生成部と、
前記コンテンツに前記キャラクタコンテンツを重畳させた配信用コンテンツを生成する合成部を備える
コンテンツ生成装置。
請求項１に記載のコンテンツ生成装置であって、
前記音声合成部は、前記コメントの種類ごとまたは前記コメントの投稿者ごとに異なる声質の音声を生成し、
前記生成部は、前記声質に対応するキャラクタまたは当該キャラクタのデータを含む前記キャラクタコンテンツを生成する
コンテンツ生成装置。
請求項２に記載のコンテンツ生成装置であって、
前記声質と前記キャラクタの少なくともいずれか一方は前記コメントの投稿者によって指定される
コンテンツ生成装置。
請求項１に記載のコンテンツ生成装置であって、
前記生成部は、前記コメントの内容に応じた動作を行うキャラクタまたはキャラクタデータを含む前記キャラクタコンテンツを生成する
コンテンツ生成装置。
請求項４に記載のコンテンツ生成装置であって、
前記生成部は、前記コメントの内容が数字の８の文字が複数個連続する文字列を含む場合は、拍手の動作を行うキャラクタまたはキャラクタデータを含む前記キャラクタコンテンツを生成する
コンテンツ生成装置。
請求項１に記載のコンテンツ生成装置であって、
前記生成部は、前記コメントの投稿状況に応じた動作を行うキャラクタまたはキャラクタデータを含む前記キャラクタコンテンツを生成する
コンテンツ生成装置。
請求項１に記載のコンテンツ生成装置であって、
前記音声合成部は、配信者が発話中は、音声の生成を一時的に停止する
コンテンツ生成装置。
請求項１に記載のコンテンツ生成装置であって、
前記音声合成部は、前記コメントの内容の長さに応じた速さの音声を生成する
コンテンツ生成装置。
コンテンツ配信サーバが配信するコンテンツを生成するためのコンテンツ生成装置によるコンテンツ生成方法であって、
コンテンツを入力し、
前記コンテンツ配信サーバが配信するコンテンツに対して投稿されたコメントを取得し、
前記コメントから音声を生成し、
前記音声に応じた動作を行うキャラクタまたはキャラクタデータを含むキャラクタコンテンツを生成し、
前記コンテンツに前記キャラクタコンテンツを重畳させた配信用コンテンツを生成する
コンテンツ生成方法。
コンテンツ配信サーバが配信するコンテンツを生成するためのコンテンツ生成装置としてコンピュータを動作させるプログラムであって、
コンテンツを入力する処理と、
前記コンテンツ配信サーバが配信するコンテンツに対して投稿されたコメントを取得する処理と、
前記コメントから音声を生成する処理と、
前記音声に応じた動作を行うキャラクタまたはキャラクタデータを含むキャラクタコンテンツを生成する処理と、
前記コンテンツに前記キャラクタコンテンツを重畳させた配信用コンテンツを生成する処理を
コンピュータに実行させるプログラム。
コンテンツ配信サーバが配信するコンテンツを生成するためのコンテンツ生成装置としてコンピュータを動作させるプログラムを格納した記録媒体であって、
コンテンツを入力する処理と、
前記コンテンツ配信サーバが配信するコンテンツに対して投稿されたコメントを取得する処理と、
前記コメントから音声を生成する処理と、
前記音声に応じた動作を行うキャラクタまたはキャラクタデータを含むキャラクタコンテンツを生成する処理と、
前記コンテンツに前記キャラクタコンテンツを重畳させた配信用コンテンツを生成する処理を
コンピュータに実行させるプログラムを格納した記録媒体。