JP2024088345A - 情報処理装置およびゲーム動画生成方法 - Google Patents

情報処理装置およびゲーム動画生成方法 Download PDF

Info

Publication number
JP2024088345A
JP2024088345A JP2022203461A JP2022203461A JP2024088345A JP 2024088345 A JP2024088345 A JP 2024088345A JP 2022203461 A JP2022203461 A JP 2022203461A JP 2022203461 A JP2022203461 A JP 2022203461A JP 2024088345 A JP2024088345 A JP 2024088345A
Authority
JP
Japan
Prior art keywords
user
game
voice
time
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022203461A
Other languages
English (en)
Inventor
陽 徳永
Akira Tokunaga
利彦 長澤
Toshihiko Nagasawa
圭史 松永
Keiji Matsunaga
雅宏 藤原
Masahiro Fujiwara
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Interactive Entertainment LLC
Original Assignee
Sony Interactive Entertainment LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Interactive Entertainment LLC filed Critical Sony Interactive Entertainment LLC
Priority to JP2022203461A priority Critical patent/JP2024088345A/ja
Priority to PCT/JP2023/042127 priority patent/WO2024135221A1/ja
Publication of JP2024088345A publication Critical patent/JP2024088345A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/30Interconnection arrangements between game servers and game devices; Interconnection arrangements between game devices; Interconnection arrangements between game servers
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/45Controlling the progress of the video game
    • A63F13/49Saving the game status; Pausing or ending the game
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Security & Cryptography (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】ゲーム動画を効率的に生成する仕組みを提供する。【解決手段】記録制御部114は、ユーザの操作にもとづいて生成されたゲーム画像を記録部130に記録する。動画生成部132は、ユーザ音声により指定されるゲーム動画の終了点にもとづいて、記録部130に記録されたゲーム画像から、ユーザ音声を含まないゲーム動画を生成する。【選択図】図3

Description

本開示は、ユーザ生成コンテンツであるゲーム動画を生成する技術に関する。
特許文献1は、ユーザの操作にもとづいてゲーム画像を生成して、生成したゲーム画像を出力装置に表示するとともに、当該ゲーム画像をバックグランドでリングバッファに記録する情報処理装置を開示する。ユーザは編集画面において、記録したゲーム動画を切り出す開始点と終了点を指定し、切り出したゲーム動画をコンテンツ共有サーバにアップロードできる。
特開2020-870号公報
従来、ユーザは、切り出したゲーム動画をコンテンツ共有サーバにアップロードする前に、ゲーム動画に含まれている余計なユーザ音声や、ゲーム画像に重畳表示されたグラフィカルユーザインタフェース(GUI)などをトリミングする編集作業を行う。このような編集作業はユーザにとって面倒であるため、ユーザがゲーム動画を編集する手間を軽減する仕組みを実現することが望まれている。
そこで本開示は、ユーザ生成コンテンツであるゲーム動画を効率的に生成する仕組みを実現することを目的とする。
上記課題を解決するために、本開示のある態様の情報処理装置は、ハードウェアを有する1つ以上のプロセッサを備え、1つ以上のプロセッサは、ユーザの操作にもとづいて生成されたゲーム画像を記録部に記録し、ユーザ音声または表示されたユーザインタフェースにおけるユーザ操作により指定されるゲーム動画の終了点にもとづいて、記録部に記録されたゲーム画像から、ユーザ音声またはユーザインタフェースを含まないゲーム動画を生成する。
本開示の別の態様のゲーム動画生成方法は、ユーザの操作にもとづいて生成されたゲーム画像を記録部に記録し、ユーザ音声または表示されたユーザインタフェースにおけるユーザ操作により指定されるゲーム動画の終了点にもとづいて、記録部に記録されたゲーム画像から、ユーザ音声またはユーザインタフェースを含まないゲーム動画を生成する。
本開示のさらに別の態様の情報処理装置は、ハードウェアを有する1つ以上のプロセッサを備え、1つ以上のプロセッサは、ユーザの操作にもとづいて生成されたゲーム画像を第1記録部に記録し、ユーザ音声を取得し、ユーザ音声を第2記録部に記録し、第1記録部に記録したゲーム画像と、第2記録部に記録したユーザ音声を合成したゲーム動画を生成する。
本開示のさらに別の態様のゲーム動画生成方法は、ユーザの操作にもとづいて生成されたゲーム画像を第1記録部に記録し、ユーザ音声を取得し、ユーザ音声を第2記録部に記録し、第1記録部に記録したゲーム画像と、第2記録部に記録したユーザ音声を合成したゲーム動画を生成する。
なお、以上の構成要素の任意の組合せ、本開示の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本開示の態様として有効である。
実施例にかかる情報処理システムを示す図である。 情報処理装置のハードウェア構成を示す図である。 情報処理装置の機能ブロックを示す図である。 ゲーム画面の例を示す図である。 ゲーム画面に重畳表示される文字列を示す図である。 ユーザが指定するコンテンツの開始点および終了点を示す図である。 コンテンツの開始点および終了点を示す図である。 ユーザが指定するコンテンツの開始点および終了点を示す図である。 コンテンツの開始点および終了点を示す図である。 情報処理装置の機能ブロックの別の例を示す図である。 ユーザが指定する開始点と終了点を示す図である。 情報処理装置の機能ブロックの変形例を示す図である。 ゲーム画面に重畳表示されるGUIの例を示す図である。 ゲーム画面に重畳表示されるGUIの例を示す図である。 コンテンツの開始点および終了点を示す図である。
実施例の情報処理システムでは、情報処理装置がユーザの操作にもとづいてゲームプログラムを実行し、ゲーム画像を出力装置に表示するとともに、ゲーム画像をリングバッファなどのバッファ(記録部)に時間情報とともに記録する。ゲームプレイ中、ユーザが、バッファに記録したゲーム画像を切り出すための開始点および終了点を指定すると、情報処理装置は、ユーザが指定した開始点および終了点にもとづいてバッファからゲーム動画を切り出し、ユーザ生成コンテンツ(UGC:User Generated Content)として、記憶装置に記録する。
図1は、本開示の実施例にかかる情報処理システム1を示す。情報処理システム1は、ユーザ端末装置である情報処理装置10、補助記憶装置2および出力装置4を備える。アクセスポイント(以下、「AP」とよぶ)8は、無線アクセスポイントおよびルータの機能を有し、情報処理装置10は、無線または有線経由でAP8に接続して、ネットワーク上のコンテンツ共有サーバ(図示せず)と通信可能に接続する。
情報処理装置10は、ユーザA(以下、単に「ユーザ」とも呼ぶ)が操作する入力装置6と無線または有線で接続し、入力装置6はユーザが操作した情報を情報処理装置10に送信する。情報処理装置10は入力装置6から操作情報を受け付けると、システムソフトウェアやゲームソフトウェアの処理に反映し、出力装置4から処理結果を出力させる。
実施例において、情報処理装置10はゲームプログラムを実行するゲーム装置(ゲームコンソール)であり、入力装置6はゲームコントローラなど情報処理装置10に対してユーザの操作情報を供給する機器であってよい。なお入力装置6は、キーボードやマウスなどの入力インタフェースであってもよい。
変形例で情報処理システム1は、ユーザの操作にもとづいてゲームプログラムを実行するクラウドゲームサーバを備えてよい。この変形例において情報処理装置10は、ゲームサーバに対してユーザのゲーム操作情報を送信する。ゲームサーバは、ユーザの操作にもとづいてゲーム画像およびゲーム音を生成し、ゲーム画像およびゲーム音を情報処理装置10にストリーミングする。この変形例で情報処理装置10はゲームプログラムの実行機能を有しなくてよく、ゲーム画像およびゲーム音を出力装置4から出力する端末装置であってよい。
補助記憶装置2は、HDD(ハードディスクドライブ)やSSD(ソリッドステートドライブ)などの大容量記憶装置であり、内蔵型記憶装置であってよく、またUSB(Universal Serial Bus)などによって情報処理装置10と接続する外部記憶装置であってもよい。出力装置4は画像を出力する表示装置および音声を出力するスピーカを有するテレビであってよい。出力装置4は、情報処理装置10に有線ケーブルで接続されてよく、また無線接続されてもよい。
撮像装置であるカメラ7は出力装置4の近傍に設けられ、出力装置4周辺の空間を撮像する。図1ではカメラ7が出力装置4の上部に取り付けられている例を示しているが、出力装置4の側部または下部に配置されてもよく、いずれにしても出力装置4の前方に位置するユーザを撮像できる位置に配置される。カメラ7はステレオカメラであってもよい。
マイク5は、ユーザの近傍に配置され、ユーザが発する音声を取得する。ユーザは、プレイしているゲームを実況し、その実況音声を、ゲーム画像およびゲーム音とともにバッファ(記録部)に記録することで、ゲームの実況動画をコンテンツ共有サーバにアップロードできる。クリアなユーザ音声を取得するために、マイク5は、ユーザに近い距離に位置する入力装置6に内蔵されてもよい。なおユーザは、マイク5およびイヤホン(ヘッドホン)を備えるヘッドセットを使用して、ゲーム実況を行ってもよい。
図2は、情報処理装置10のハードウェア構成を示す。情報処理装置10は、メイン電源ボタン20、電源ON用LED21、スタンバイ用LED22、システムコントローラ24、クロック26、デバイスコントローラ30、メディアドライブ32、USBモジュール34、フラッシュメモリ36、無線通信モジュール38、有線通信モジュール40、サブシステム50およびメインシステム60を有して構成される。
メインシステム60は、メインCPU(Central Processing Unit)、主記憶装置であるメモリおよびメモリコントローラ、GPU(Graphics Processing Unit)などを備える。GPUはゲームプログラムの演算処理に主として利用される。メインCPUはシステムソフトウェアを起動し、システムソフトウェアが提供する環境下において、補助記憶装置2にインストールされたゲームプログラムを実行する機能をもつ。サブシステム50は、サブCPU、主記憶装置であるメモリおよびメモリコントローラなどを備え、GPUを備えない。
メインCPUは補助記憶装置2やROM媒体44にインストールされているゲームプログラムを実行する機能をもつ一方で、サブCPUはそのような機能をもたない。しかしながらサブCPUは補助記憶装置2にアクセスする機能を有している。サブCPUは、このような制限された処理機能のみを有して構成されており、したがってメインCPUと比較して小さい消費電力で動作できる。これらのサブCPUの機能は、メインCPUがスタンバイ状態にある際に実行される。
メイン電源ボタン20は、ユーザからの操作入力が行われる入力部であって、情報処理装置10の筐体の前面に設けられ、情報処理装置10のメインシステム60への電源供給をオンまたはオフするために操作される。電源ON用LED21は、メイン電源ボタン20がオンされたときに点灯し、スタンバイ用LED22は、メイン電源ボタン20がオフされたときに点灯する。システムコントローラ24は、ユーザによるメイン電源ボタン20の押下を検出する。
クロック26はリアルタイムクロックであって、現在の日時情報を生成し、システムコントローラ24やサブシステム50およびメインシステム60に供給する。
デバイスコントローラ30は、サウスブリッジのようにデバイス間の情報の受け渡しを実行するLSI(Large-Scale Integrated Circuit)として構成される。図示のように、デバイスコントローラ30には、システムコントローラ24、メディアドライブ32、USBモジュール34、フラッシュメモリ36、無線通信モジュール38、有線通信モジュール40、サブシステム50およびメインシステム60などのデバイスが接続される。デバイスコントローラ30は、それぞれのデバイスの電気特性の違いやデータ転送速度の差を吸収し、データ転送のタイミングを制御する。
メディアドライブ32は、ゲームなどのアプリケーションソフトウェア、およびライセンス情報を記録したROM媒体44を装着して駆動し、ROM媒体44からプログラムやデータなどを読み出すドライブ装置である。ROM媒体44は、光ディスクや光磁気ディスク、ブルーレイディスクなどの読出専用の記録メディアである。
USBモジュール34は、外部機器とUSBケーブルで接続するモジュールである。USBモジュール34は補助記憶装置2およびカメラ7とUSBケーブルで接続してもよい。フラッシュメモリ36は、内部ストレージを構成する補助記憶装置である。無線通信モジュール38は、Bluetooth(登録商標)プロトコルやIEEE802.11プロトコルなどの通信プロトコルで、たとえば入力装置6と無線通信する。入力装置6がマイク5を内蔵している場合、マイク5で取得されたユーザ音声は、無線通信モジュール38に送信される。有線通信モジュール40は、外部機器と有線通信し、たとえばAP8を介して外部のネットワークに接続する。
図3は、情報処理装置10の機能ブロックを示す。実施例の情報処理装置10は、処理部100および通信部102を備え、ユーザの操作にもとづいて生成されたゲーム画像をバックグランドで一時的に記録し、記録したゲーム画像を用いて、ユーザ生成コンテンツ(以下、単に「コンテンツ」とも呼ぶ)であるゲーム動画を生成する機能を有する。処理部100は、ゲームソフトウェア110、出力処理部112、記録制御部114、ユーザ音声取得部120、音声供給部122、音声認識部124、指示部126、記録部130および動画生成部132を備える。
図3に示す情報処理装置10はコンピュータを備え、コンピュータがプログラムを実行することによって、図3に示す様々な機能が実現される。コンピュータは、プログラムをロードするメモリ、ロードされたプログラムを実行する1つ以上のプロセッサ、補助記憶装置、その他のLSIなどをハードウェアとして備える。プロセッサは、半導体集積回路やLSIを含む複数の電子回路により構成され、複数の電子回路は、1つのチップ上に搭載されてよく、または複数のチップ上に搭載されてもよい。図3に示す機能ブロックは、ハードウェアとソフトウェアとの連携によって実現され、したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは、当業者には理解されるところである。
通信部102は、無線通信モジュール38および有線通信モジュール40の機能を併せ持つ。ユーザのゲームプレイ中、通信部102は、ユーザが入力装置6を操作した情報(ゲーム操作情報)を受信して、ゲームソフトウェア110に提供する。
ゲームソフトウェア110は、少なくともゲームプログラム、画像データおよび音声データを含んで構成される。ゲームプログラムは、ユーザによるゲーム操作情報を受けると、仮想空間においてプレイヤキャラクタを動かす演算処理を行う。出力処理部112は、ゲームソフトウェア110による演算結果にもとづいてゲーム画像およびゲーム音(ゲーム画音)を生成し、出力装置4から出力させる。出力処理部112は、レンダリング処理などを実行するGPU(Graphics Processing Unit)を含んでよい。
図4は、出力装置4に表示されるゲーム画面の例を示す。ユーザは、ゲーム画像を見ながら入力装置6を操作して、ゲームを進行させる。
情報処理装置10では、出力処理部112が、ゲーム画像およびゲーム音を出力装置4から出力させるとともに、ゲーム画像およびゲーム音を記録制御部114に供給する。情報処理装置10は、出力処理部112が生成したゲーム画像およびゲーム音をバックグランド記録する機能を有し、記録制御部114は、ユーザの操作にもとづいて生成されたゲーム画像およびゲーム音を記録部130に記録する。以下、ゲーム画像およびゲーム音を、説明の便宜上、単に「ゲーム画像」と呼ぶこともある。
記録部130は、ゲーム画像を一時的に保持するためのバッファであり、補助記憶装置2の記憶領域に設けられてよい。記録部130はリングバッファであってよく、リングバッファは、補助記憶装置2の記憶領域に開始アドレスおよび終了アドレスを設定することで構成されてよい。リングバッファ領域の開始アドレスおよび終了アドレスは、情報処理装置10の出荷前に設定されてよいが、ユーザが自由に設定できてもよい。記録制御部114は、ゲーム画像を時間情報(タイムスタンプ)とともに記録部130に一時記録する。
記録制御部114は、ユーザの操作にもとづいて生成されたゲーム画像を、開始アドレスから予め定められたアドレス順にリアルタイムで記録していき、終了アドレスまで記録すると、開始アドレスに戻って上書き記録し、それを繰り返す。たとえば記録部130の容量は、最大で60分間(1時間)分のゲーム画像を記録できるように設定され、したがって記録部130には、ユーザが直近の60分間にプレイしたゲーム画像が記録されることになる。
実施例では、ユーザがゲームをプレイしながら、ゲームの実況を行う。ユーザが発した音声がマイク5に入力されると、ユーザ音声取得部120は、マイク5に入力されたユーザ音声を取得し、音声供給部122は、ユーザ音声を記録制御部114に供給する。記録制御部114は、出力処理部112から供給されるゲーム画像と、音声供給部122から供給されるユーザ音声とを合成して、記録部130に記録する。つまり記録部130には、ユーザの実況音声を含んだゲーム動画が記録される。
実施例において、ユーザはゲームプレイ中に、記録部130に記録されたゲーム画像から所望のシーンを切り出してユーザ生成コンテンツを生成し、補助記憶装置2に保存できる。たとえばユーザがゲームプレイ中に、コンテンツの終了点と、当該終了点から任意の時間だけ遡ったタイミングを指定すると、動画生成部132は、記録部130からゲーム動画を切り出し、切り出したゲーム動画をユーザ生成コンテンツとして補助記憶装置2に保存できる。またユーザがゲームプレイ中に、コンテンツの開始点をリアルタイムで指定し、その後、コンテンツの終了点をリアルタイムで指定すると、動画生成部132は、記録部130からゲーム動画を切り出し、切り出したゲーム動画をユーザ生成コンテンツとして補助記憶装置2に保存できる。
実施例においてユーザは、ゲームプレイ中に、所定のコマンドを発声することで、コンテンツの生成指示を情報処理装置10に入力できる。ゲームプレイ中、ユーザは、入力装置6をゲームの操作に使用しているため、コンテンツの生成指示を入力装置6を用いずに、音声コマンドにより入力可能とすることは、ユーザの円滑なゲームプレイを支援する。音声認識部124は、ユーザ音声取得部120が取得した音声を音声認識して、ユーザが発した音声を文字列に変換する。なお図3においては、音声認識部124と音声供給部122とを別個の機能ブロックとして示しているが、音声認識部124と音声供給部122は一体の機能モジュールとして構成されてもよい。
<音声コマンド1>
以下、音声コマンド1の例を示す。
・「Hey Game Console, Capture the last 5 minutes(ヘイゲームコンソール 直近の5分を保存してください)」
ユーザは、音声コマンド1を発声することで、コンテンツの終了点と、当該終了点から任意の時間だけ遡ったコンテンツの開始点を指定できる。
この音声コマンド1は、第1音声コマンドと、第1音声コマンドに続く第2音声コマンドから構成される。
(a)第1音声コマンド 「Hey Game Console(ヘイゲームコンソール)」
第1音声コマンドは、ユーザ音声によるコンテンツ生成機能を起動するための音声コマンドである。音声認識部124は、マイク5に入力された音声を音声認識処理して、ユーザ音声を文字列に変換し、変換した文字列に「Hey Game Console」が含まれていると、ユーザ音声によるコンテンツ生成機能を起動する。ユーザ音声によるコンテンツ生成機能が起動されると、指示部126が、音声認識部124から供給される文字列にもとづいて、コンテンツの生成を動画生成部132に指示可能な状態となる。
ユーザ音声によるコンテンツ生成機能が起動されると、記録制御部114は、ユーザ音声をゲーム画像に合成する処理を一時停止し、ゲーム画像のみを記録部130に記録する。このとき記録制御部114は、音声供給部122から供給されるユーザ音声を破棄することで、ユーザ音声の合成処理を一時停止してよいが、音声供給部122が、記録制御部114にユーザ音声を供給することを一時停止してもよい。したがって記録制御部114は、ユーザが「Hey Game Console」と発した後にユーザが発した音声を、記録部130に記録しない。なおユーザ音声がゲーム画像に合成されなくなるのは、ユーザ音声を変換した文字列に第1音声コマンド「Hey Game Console」が含まれていることが音声認識部124により確認された後であるため、ユーザ音声「Hey Game Console」は、記録部130に記録されることになる。
(b)第2音声コマンド 「Capture the last 5 minutes(直近の5分を保存してください)」
第2音声コマンドは、コンテンツを切り出す開始点および終了点を指定するための音声コマンドである。音声認識部124は、マイク5に入力された音声を音声認識処理して、「Hey Game Console」に続けてユーザが発した音声を文字列に変換する。この例で音声認識部124は、ユーザ音声を文字列「Capture the last 5 minutes」に変換して、変換した文字列を指示部126に供給する。
図5は、ゲーム画面に重畳表示される文字列を示す。ユーザ音声によるコンテンツ生成機能の起動後に音声認識された文字列は、出力装置4に表示されているゲーム画面に重畳表示されてよい。ユーザは、ゲーム画面に重畳表示される文字列140を見ることで、ユーザ音声によるコンテンツ生成指示が情報処理装置10に受け付けられたことを確認できる。
指示部126は、文字列「Capture the last 5 minutes」を受け取ると、ユーザが直近の5分のゲーム動画を切り出すことを要求していることを認識する。音声コマンドの認識率を高めるために、第2音声コマンドは定型化されていることが好ましい。具体的には、「Capture the last」が定型文であり、ユーザが「Capture the last」を発声した後に、ゲーム動画の切出時間を発声することで、第2音声コマンドが成立してよい。実施例では「Capture the last」に限らず、「Save the last」や、「Record gameplay for the last」なども定型文として用意されて、ユーザは、様々な種類の第2音声コマンドを利用できてよい。なお指示部126は自然言語理解機能を備え、文字列の意味を理解して、ユーザが指定するコンテンツの開始点および終了点を特定できてもよい。
指示部126は、第2音声コマンドを受け取ると、生成するコンテンツの終了点と、当該終了点から5分だけ遡ったコンテンツの開始点を特定する。以下の図6においては、指示部126が、第2音声コマンドを受け取ったタイミング、つまりユーザが第2音声コマンド「Capture the last 5 minutes」を発声し終えたタイミングを、コンテンツの終了点として特定した場合について説明する。
図6は、ユーザが指定するコンテンツの開始点および終了点を示す。時間tは、ユーザが第1音声コマンドの発声を開始したタイミング、時間tは、ユーザが第1音声コマンドの発声を終了したタイミング、時間tは、ユーザが第2音声コマンドの発声を終了したタイミングを示す。第2音声コマンドの発声が終了したタイミングは、ユーザが指定するコンテンツの終了点とみなすことができる。したがって時間tは、ユーザが指定したコンテンツの終了点であり、時間tから5分前の時間tは、ユーザが指定したコンテンツの開始点となる。
上記したように、記録制御部114は、第1音声コマンド「Hey Game Console」の発声が終了したタイミング(時間t)より後にユーザが発した音声を記録部130に記録しないが、第1音声コマンドの発声は記録部130に記録している。そのため図6に示すタイムラインでは、時間tから時間tまでの間にユーザ音声「Hey Game Console」が記録されており、ユーザが指定する時間tから時間tまでのゲーム動画を切り出すと、切り出したゲーム動画に、ユーザ音声「Hey Game Console」が含まれることになる。
そこで実施例の情報処理装置10は、ユーザ音声により指定されるコンテンツの開始点および終了点にもとづいて、記録部130に記録されたゲーム画像から、ユーザ音声を含まないコンテンツ(ゲーム動画)を生成する機能を備える。情報処理装置10は、ユーザ音声を含まないコンテンツを生成することで、ユーザによるコンテンツの編集作業を支援する。
(実施例1)
図7は、実施例1において設定するコンテンツの開始点および終了点を示す。時間tは、ユーザが第1音声コマンドの発声を開始したタイミング、時間tは、ユーザが第1音声コマンドの発声を終了したタイミング、時間tは、ユーザが第2音声コマンドの発声を終了したタイミングを示す。時間tは、ユーザが指定したコンテンツの終了点である。なお参考のために、ユーザが指定した開始点である時間t(図6参照)も示している。
実施例1において、音声認識部124は、音声認識した文字列を指示部126に伝える際に、あわせて時間t、時間t、時間tの時間情報も伝える。したがって指示部126は、ユーザが指定したコンテンツの終了点(時間t)を認識するとともに、ユーザによる音声コマンド1の発声時間(時間t-時間t)を取得する。なお指示部126は、音声認識部124から音声認識した文字を単語単位で伝えられるため、各単語を伝えられたタイミングで、時間t、時間t、時間tの時間情報を特定してもよい。
指示部126は、コンテンツを切り出す開始点および終了点を定めたコンテンツ生成指示を生成して、動画生成部132に提供する。動画生成部132は、コンテンツ生成指示にもとづいて、ユーザ音声により指定されるゲーム動画の終了点(時間t)より時間的に前となるタイミングを終了点とするゲーム動画を記録部130から切り出し、ユーザ生成コンテンツとして補助記憶装置2に保存する。
具体的に、指示部126は、ユーザ音声により指定されるゲーム動画の終了点(時間t)から発声時間(時間t-時間t)以上遡ったタイミングを終了点に設定し、当該終了点から5分だけ遡ったコンテンツの開始点を設定する。図7に示す例では、指示部126は、ユーザが指定した終了点(時間t)から発声時間(時間t-時間t)だけ遡ったタイミング(時間t)を終了点とし、当該終了点から5分だけ遡ったコンテンツの開始点(T)を設定している。そこで指示部126は、開始点(時間T)および終了点(時間t)を定めたコンテンツ生成指示を生成して、動画生成部132に提供する。動画生成部132は、コンテンツ生成指示にもとづいて、ユーザが指定した終了点(時間t)から発声時間(時間t-時間t)だけ遡ったタイミング(時間t)を終了点とし、当該終了点から5分だけ遡ったタイミング(時間T)を開始点とするゲーム動画を記録部130から切り出して、ユーザ生成コンテンツとして補助記憶装置2に保存する。
このように実施例1によれば、音声認識部124が変換した文字列に音声コマンド1が含まれている場合に、動画生成部132は、音声コマンド1に対応するユーザ音声を含まないゲーム動画(コンテンツ)を生成できる。つまり動画生成部132は、音声コマンド1が発声される前に記録部130に記録されたゲーム画像を用いることで、音声コマンドを発したユーザ音声を含まないコンテンツを生成することが可能となる。
なお図7に示す例では、指示部126が、ユーザが第1音声コマンドの発声を開始したタイミング(時間t)を終了点としているが、ユーザ音声がコンテンツに確実に含まれないようにするために、時間tの所定時間(たとえば数秒)前を終了点としてもよい。
<音声コマンド2>
次に、音声コマンド1とは異なる音声コマンド2の例を示す。
音声コマンド2は、コンテンツの開始点を指定する開始コマンドと、コンテンツの終了点を指定する終了コマンドを含む。
・開始コマンド
「Hey Game Console, Start recording(ヘイゲームコンソール 録画を開始してください)」
・終了コマンド
「Hey Game Console, Stop recording(ヘイゲームコンソール 録画を終了してください)」
なお、音声コマンド2における“Start recording”、“Stop recording”は、記録部130への録画に関する指示ではなく、記録部130に録画されたゲーム画像からコンテンツを生成することに関する指示であることに留意されたい。記録制御部114は、ゲーム画像を常に記録部130に記録しており、音声コマンド2は、記録部130へのゲーム画像の記録に影響を与えるものではない。
ユーザは、開始コマンドを発声することで、コンテンツの開始点を指定し、終了コマンドを発声することで、コンテンツの終了点を指定する。なお開始コマンドと終了コマンドはセットであり、ユーザが開始コマンドを発声しても、終了コマンドを発声しなければ、記録部130からゲーム動画の切り出しは行われない。
音声コマンド1と同様に、音声コマンド2は、第1音声コマンドと、第1音声コマンドに続く第2音声コマンドから構成される。
(a)第1音声コマンド 「Hey Game Console(ヘイゲームコンソール)」
上記したように第1音声コマンドは、ユーザ音声によるコンテンツ生成機能を起動するための音声コマンドである。ユーザが第1音声コマンドを発声すると、ユーザ音声によるコンテンツ生成機能が起動され、指示部126が、音声認識部124から供給される文字列にもとづいて、コンテンツの生成に関する処理を実行可能な状態となり、記録制御部114は、ユーザ音声をゲーム画像に合成する処理を一時停止する。
(b)第2音声コマンド
(b1) 開始コマンド 「Start recording(録画を開始してください)」
この第2音声コマンドは、コンテンツを切り出す開始点を指定するための音声コマンドである。音声認識部124は、マイク5に入力された音声から文字列「Start recording」を取得すると、文字列「Start recording」を、取得した時間を示す時間情報とともに指示部126に供給する。なおユーザが第2音声コマンド「Start recording」を発声して、指示部126が文字列「Start recording」を受け取ると、記録制御部114は、ユーザ音声をゲーム画像に合成する処理を再開する。
(b2) 終了コマンド 「Stop recording(録画を終了してください)」
この第2音声コマンドは、コンテンツを切り出す終了点を指定するための音声コマンドである。音声認識部124は、マイク5に入力された音声から文字列「Stop recording」を取得すると、文字列「Stop recording」を、取得した時間を示す時間情報とともに指示部126に供給する。
指示部126は、音声認識部124から文字列「Start recording」を受け取った後に、文字列「Stop recording」を受け取ると、ユーザが、「Start recording」を発声したタイミングから、「Stop recording」を発声したタイミングの間のゲーム動画を切り出すことを要求していることを認識する。指示部126は、一対の開始コマンドと終了コマンドを受け取ると、生成するコンテンツの開始点と終了点を特定する。以下の図8においては、指示部126が、文字列「Start recording」を受け取ったタイミングをコンテンツの開始点、文字列「Stop recording」を受け取ったタイミングをコンテンツの終了点として特定した場合について説明する。
図8は、ユーザが指定するコンテンツの開始点および終了点を示す。時間tは、ユーザが第1音声コマンドの発声を開始したタイミング、時間tは、ユーザが第1音声コマンドの発声を終了したタイミング、時間tは、ユーザが第2音声コマンド(開始コマンド)の発声を終了したタイミングを示す。第2音声コマンド(開始コマンド)の発声が終了したタイミングは、ユーザが指定するコンテンツの開始点とみなすことができる。したがって時間tは、ユーザが指定したコンテンツの開始点である。
時間tは、ユーザが第1音声コマンドの発声を開始したタイミング、時間tは、ユーザが第1音声コマンドの発声を終了したタイミング、時間tは、ユーザが第2音声コマンド(終了コマンド)の発声を終了したタイミングを示す。第2音声コマンド(終了コマンド)の発声が終了したタイミングは、ユーザが指定するコンテンツの終了点とみなすことができる。したがって時間tは、ユーザが指定したコンテンツの終了点である。
上記したように、ユーザが「Start recording」を発声したタイミング(時間t)の後、記録制御部114は、ゲーム画像にユーザ音声を合成する処理を再開している。図8に示すタイムラインにおいては、時間tから時間tまでの間にユーザ音声「Hey Game Console」が記録部130に記録されており、ユーザが指定する時間tから時間tまでのゲーム動画を切り出すと、切り出したゲーム動画に、ユーザ音声「Hey Game Console」が含まれることになる。
図9は、実施例1において設定するコンテンツの開始点および終了点を示す。時間tは、ユーザが第1音声コマンドの発声を開始したタイミング、時間tは、ユーザが第1音声コマンドの発声を終了したタイミング、時間tは、ユーザが第2音声コマンド(開始コマンド)の発声を終了したタイミングを示す。時間tは、ユーザが指定したコンテンツの開始点である。
時間tは、ユーザが第1音声コマンドの発声を開始したタイミング、時間tは、ユーザが第1音声コマンドの発声を終了したタイミング、時間tは、ユーザが第2音声コマンド(終了コマンド)の発声を終了したタイミングを示す。時間tは、ユーザが指定したコンテンツの終了点である。
実施例1において、音声認識部124は、音声認識した文字列を指示部126に伝える際に、あわせて時間t、時間t、時間t、時間t、時間t、時間tの時間情報も伝える。したがって指示部126は、ユーザが指定したコンテンツの終了点(時間t)を認識するとともに、ユーザによる終了コマンド「Hey Game Console, Stop recording」の発声時間(時間t-時間t)を取得する。なお指示部126は、音声認識部124から音声認識した文字を単語単位で伝えられるため、各単語を伝えられたタイミングで、時間t、時間t、時間t、時間t、時間t、時間tの時間情報を特定してもよい。
指示部126は、コンテンツを切り出す開始点および終了点を定めたコンテンツ生成指示を生成して、動画生成部132に提供する。動画生成部132は、コンテンツ生成指示にもとづいて、ユーザ音声により指定されるゲーム動画の終了点(時間t)より時間的に前となるタイミングを終了点とするゲーム動画を記録部130から切り出し、ユーザ生成コンテンツとして補助記憶装置2に保存する。
具体的に、指示部126は、ユーザ音声により指定されるゲーム動画の終了点(時間t)から終了コマンドの発声時間(時間t-時間t)以上遡ったタイミングを終了点として設定する。指示部126は、ユーザ音声により指定されるゲーム動画の開始点(t)を、そのまま開始点として設定してよい。図9に示す例では、指示部126は、ユーザが指定した終了点(時間t)から終了コマンドの発声時間(時間t-時間t)だけ遡ったタイミング(時間t)を終了点としている。そこで指示部126は、開始点(時間t)および終了点(時間t)を定めたコンテンツ生成指示を生成して、動画生成部132に提供する。動画生成部132は、コンテンツ生成指示にもとづいて、ユーザが指定した終了点(時間t)から発声時間(時間t-時間t)だけ遡ったタイミング(時間t)を終了点とし、ユーザが指定したタイミング(時間t)を開始点とするゲーム動画を記録部130から切り出して、ユーザ生成コンテンツとして補助記憶装置2に保存する。
このように実施例1によれば、音声認識部124が変換した文字列に音声コマンド2が含まれている場合に、動画生成部132は、音声コマンド2に対応するユーザ音声を含まないゲーム動画(コンテンツ)を生成できる。つまり動画生成部132は、終了コマンドが発声される前に記録部130に記録されたゲーム画像を用いることで、音声コマンドを発したユーザ音声を含まないコンテンツを生成することが可能となる。
なお図9に示す例では、指示部126が、ユーザが第1音声コマンドの発声を開始したタイミング(時間t)を終了点としているが、ユーザ音声がコンテンツに確実に含まれないようにするために、時間tの所定時間(たとえば数秒)前を終了点としてもよい。また図9に示す例では、指示部126が、ユーザが第2音声コマンド(開始コマンド)の発声を終了したタイミング(時間t)を開始点としているが、ユーザ音声がコンテンツに確実に含まれないようにするために、時間tの所定時間(たとえば数秒)後を開始点としてもよい。
(実施例2)
実施例1では、ユーザが指定したコンテンツの終了点より前のタイミングを終了点に設定して、設定した終了点でゲーム動画を記録部130から切り出している。実施例2では、ユーザ音声により指定されたコンテンツの開始点から終了点までのゲーム動画を記録部130から切り出し、切り出したゲーム動画から、音声コマンドに対応するユーザ音声を除去する。
図6を参照すると、時間tが、ユーザが指定したコンテンツの開始点であり、時間tが、ユーザが指定したコンテンツの終了点である。図6に示すタイムラインにおいて、実施例2では、指示部126が、開始点(時間t)および終了点(時間t)を定めたコンテンツ生成指示を生成して、動画生成部132に提供する。動画生成部132は、コンテンツ生成指示にもとづいて、開始点を時間t、終了点を時間tとするゲーム動画を記録部130から切り出し、時間tから時間tまでの間に記録されているユーザ音声「Hey Game Console」を、切り出したゲーム動画から除去する。
実施例2において、音声認識部124は、ユーザ音声をバッファリングする機能を有し、ユーザが時間tから時間tまでの間に発声したユーザ音声「Hey Game Console」を、指示部126に供給する。音声認識部124は、音声認識処理により時間tから時間tまでの間に「Hey Game Console」のユーザ音声が含まれていることを検出すると、バッファから時間tから時間tまでの間のユーザ音声「Hey Game Console」を読み出して、ユーザが発声した時間情報(時間tから時間tまでの区間)とともに、ユーザ音声データを指示部126に供給する。指示部126は、開始点(時間t)および終了点(時間t)を定めたコンテンツ生成指示に、ユーザ音声「Hey Game Console」および時間情報を含めて、動画生成部132に提供する。
動画生成部132は、コンテンツ生成指示にもとづいて、開始点を時間t、終了点を時間tとするゲーム動画を記録部130から切り出した後、時間tと時間tの間に記録されているユーザ音声「Hey Game Console」を、提供されたユーザ音声データを用いて除去する。具体的に、動画生成部132は、ゲーム動画に含まれるユーザ音声に、提供されたユーザ音声の逆位相を重ねることで、ゲーム動画に含まれるユーザ音声をキャンセルして、ゲーム動画からユーザ音声「Hey Game Console」を消してよい。なお実施例においては、ユーザ音声「Hey Game Console」の後に続くユーザ音声「Capture the last 5 minutes」は記録部130に記録されない仕様を前提としているが、ユーザ音声「Capture the last 5 minutes」も記録部130に記録される場合には、指示部126が、ユーザ音声「Hey Game Console, Capture the last 5 minutes」を動画生成部132に提供して、動画生成部132が、ゲーム動画からユーザ音声「Hey Game Console, Capture the last 5 minutes」をキャンセルする。
ユーザ音声がゲーム画像に合成されて記録部130に記録される際に、符号化処理などの非線形処理が施されている場合、動画生成部132は、その非線形処理を加味して、ゲーム動画に含まれるユーザ音声を消すことが好ましい。
この例では、動画生成部132が、コンテンツ生成のための音声コマンドの発声をキャンセルする例を説明したが、情報処理装置10が、他の機能を起動するための音声コマンドを許容している場合、音声認識部124が、ユーザによる音声コマンドの発声を検出すると、そのコマンドのユーザ音声を指示部126に提供することで、動画生成部132が、切り出したゲーム動画から、各種コマンドのユーザ音声をキャンセルすることが可能となる。
なお上記例では、動画生成部132が、ユーザが実際に発した音声を用いて、ゲーム動画に含まれるユーザ音声をキャンセルしたが、たとえば音声コマンドの発声を学習した学習済みモデルを用いて、ゲーム動画に含まれる音声コマンドの発声をキャンセルしてもよい。学習済みモデルは、多数のユーザが発声した音声コマンドを学習することで作成されてよい。上記したように、情報処理装置10が、各種機能を起動するための様々な音声コマンドの受け付けを許容している場合、学習済みモデルは、各種コマンドの発声を学習しておくことで、動画生成部132が、ゲーム動画から、様々な音声コマンドの発声を除去することが可能となる。
(実施例3)
図10は、情報処理装置10の機能ブロックの別の例を示す。実施例3の情報処理装置10は、処理部100および通信部102を備え、ユーザの操作にもとづいて生成されたゲーム画像をバックグランドで一時的に記録し、記録したゲーム画像を用いて、ユーザ生成コンテンツであるゲーム動画を生成する機能を有する。処理部100は、ゲームソフトウェア110、出力処理部112、ユーザ音声取得部120、音声供給部122、音声認識部124、指示部126、第1記録制御部150、第1記録部152、第2記録制御部154、第2記録部156および動画生成部132を備える。図10に示す機能ブロックで、図3に示す機能ブロックと同じ符号を付した機能ブロックは、図3に示す機能ブロックと同じまたは同様の機能を有してよい。
図10に示す情報処理装置10はコンピュータを備え、コンピュータがプログラムを実行することによって、図10に示す様々な機能が実現される。コンピュータは、プログラムをロードするメモリ、ロードされたプログラムを実行する1つ以上のプロセッサ、補助記憶装置、その他のLSIなどをハードウェアとして備える。プロセッサは、半導体集積回路やLSIを含む複数の電子回路により構成され、複数の電子回路は、1つのチップ上に搭載されてよく、または複数のチップ上に搭載されてもよい。図10に示す機能ブロックは、ハードウェアとソフトウェアとの連携によって実現され、したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは、当業者には理解されるところである。
ゲームソフトウェア110は、少なくともゲームプログラム、画像データおよび音声データを含んで構成される。ゲームプログラムは、ユーザによるゲーム操作情報を受けると、仮想空間においてプレイヤキャラクタを動かす演算処理を行う。出力処理部112は、ゲームソフトウェア110による演算結果にもとづいてゲーム画像およびゲーム音を生成し、出力装置4から出力させる。
情報処理装置10では、出力処理部112が、ゲーム画像およびゲーム音を出力装置4から出力させるとともに、ゲーム画像およびゲーム音を第1記録制御部150に供給する。第1記録制御部150は、ユーザの操作にもとづいて生成されたゲーム画像およびゲーム音を第1記録部152に記録する。以下、ゲーム画像およびゲーム音を、説明の便宜上、単に「ゲーム画像」と呼ぶこともある。
第1記録部152は、ゲーム画像を一時的に保持するためのバッファであり、補助記憶装置2の記憶領域に設けられてよい。第1記録部152はリングバッファであってよく、リングバッファは、補助記憶装置2の記憶領域に開始アドレスおよび終了アドレスを設定することで構成されてよい。リングバッファ領域の開始アドレスおよび終了アドレスは、情報処理装置10の出荷前に設定されてよいが、ユーザが自由に設定できてもよい。第1記録制御部150は、ゲーム画像を時間情報(タイムスタンプ)とともに第1記録部152に一時記録する。
第1記録制御部150は、ユーザの操作にもとづいて生成されたゲーム画像を、開始アドレスから予め定められたアドレス順にリアルタイムで記録していき、終了アドレスまで記録すると、開始アドレスに戻って上書き記録し、それを繰り返す。たとえば第1記録部152の容量は、最大で60分間(1時間)分のゲーム画像を記録できるように設定され、したがって第1記録部152には、ユーザが直近の60分間にプレイしたゲーム画像が記録されることになる。
ユーザ音声取得部120は、マイク5に入力されたユーザ音声を取得し、音声供給部122は、ユーザ音声を第2記録制御部154に供給する。第2記録制御部154は、音声供給部122から供給されるユーザ音声を、第2記録部156に記録する。実施例3では、実施例1,2と異なり、ユーザ音声がゲーム動画と合成されることなく、第2記録部156に記録される。
第2記録部156は、ユーザ音声を一時的に保持するためのバッファであり、補助記憶装置2の記憶領域に設けられてよい。第2記録部156の記憶領域は、第1記録部152の記憶領域とは別に設けられる。第2記録部156はリングバッファであってよく、リングバッファは、補助記憶装置2の記憶領域に開始アドレスおよび終了アドレスを設定することで構成されてよい。リングバッファ領域の開始アドレスおよび終了アドレスは、情報処理装置10の出荷前に設定されてよいが、ユーザが自由に設定できてもよい。第2記録制御部154は、ユーザ音声を時間情報(タイムスタンプ)とともに第2記録部156に一時記録する。
第2記録制御部154は、マイク5に入力されたユーザ音声を、開始アドレスから予め定められたアドレス順にリアルタイムで記録していき、終了アドレスまで記録すると、開始アドレスに戻って上書き記録し、それを繰り返す。たとえば第2記録部156の容量は、最大で60分間(1時間)分のユーザ音声を記録できるように設定されてよい。
実施例3において、第1記録制御部150は、ゲーム画像を常に第1記録部152に記録し、第2記録制御部154は、ユーザ音声を常に第2記録部156に記録してよい。
実施例3において、ユーザは、第1記録部152に記録されたゲーム画像と、第2記録部156に記録されたユーザ音声を合成してユーザ生成コンテンツを生成し、補助記憶装置2に保存できる。たとえばユーザがゲームプレイ中に、音声コマンドによりコンテンツの開始点と終了点を指定すると、動画生成部132は、指定された開始点から終了点までのゲーム画像を第1記録部152から切り出し、また指定された開始点から終了点までのユーザ音声を第2記録部156から切り出して、タイムスタンプが揃うようにゲーム画像とユーザ音声を合成してゲーム動画を生成し、ユーザ生成コンテンツとして補助記憶装置2に保存できる。
以下、ユーザが、ゲームプレイ中に、音声コマンド1である「Hey Game Console, Capture the last 5 minutes」を発声したときの処理について説明する。実施例3において音声認識部124は、ユーザ音声を文字列に変換し、変換した文字列に音声コマンドが含まれているか否かを検出する。変換した文字列に音声コマンドが含まれている場合、動画生成部132は、当該音声コマンドに対応するユーザ音声を含まないゲーム動画を生成する。
図11は、実施例3において、音声コマンド1によりユーザが指定する開始点と終了点を示す。
音声認識部124は、マイク5に入力された音声を音声認識処理して、ユーザ音声を文字列に変換し、変換した文字列に「Hey Game Console」が含まれていると、ユーザ音声によるコンテンツ生成機能を起動する。ユーザ音声によるコンテンツ生成機能が起動されると、指示部126が、音声認識部124から供給される文字列にもとづいて、コンテンツの生成を動画生成部132に指示可能な状態となる。
音声認識部124は、マイク5に入力された音声を音声認識処理して、「Hey Game Console」に続けてユーザが発した音声を文字列に変換する。この例で音声認識部124は、ユーザ音声を文字列「Capture the last 5 minutes」に変換して、変換した文字列を指示部126に供給する。
指示部126は、文字列「Capture the last 5 minutes」を受け取ると、ユーザが直近の5分のゲーム動画を切り出すことを要求していることを認識する。指示部126は、第2音声コマンドを受け取ると、生成するコンテンツの終了点と、当該終了点から5分だけ遡ったコンテンツの開始点を特定する。図11に示すタイムラインでは、指示部126が第2音声コマンドを受け取ったタイミング、つまりユーザが第2音声コマンド「Capture the last 5 minutes」を発声し終えたタイミングを、コンテンツの終了点として特定している。
図11において、時間tは、ユーザが第1音声コマンドの発声を開始したタイミング、時間tは、ユーザが第1音声コマンドの発声を終了したタイミング、時間tは、ユーザが第2音声コマンドの発声を終了したタイミングを示す。第2音声コマンドの発声が終了したタイミングは、ユーザが指定するコンテンツの終了点とみなすことができ、したがって時間tは、ユーザが指定したコンテンツの終了点であり、時間tから5分前の時間tは、ユーザが指定したコンテンツの開始点となる。
実施例3において、音声認識部124は、音声認識した文字列を指示部126に伝える際に、あわせて時間t、時間t、時間tの時間情報も伝える。したがって指示部126は、ユーザが指定したコンテンツの終了点(時間t)と、開始点(時間t)を認識する。なお指示部126は、音声認識部124から音声認識した文字を単語単位で伝えられるため、各単語を伝えられたタイミングで、時間t、時間t、時間tの時間情報を特定してもよい。指示部126は、コンテンツを切り出す開始点(時間t)および終了点(時間t)を定めたコンテンツ生成指示を生成する。実施例3において指示部126は、ユーザが音声コマンドを発した時間を示す時間情報(時間tから時間tまでの区間)を含めたコンテンツ生成指示を、動画生成部132に提供する。
動画生成部132は、コンテンツ生成指示にもとづいて、開始点(時間t)から終了点(時間t)までのゲーム画像を第1記録部152から抽出する。また動画生成部132は、開始点(時間t)から終了点(時間t)のうち、コマンド発声区間である時間tから時間tまでの区間を除いた、時間tから時間tまでのユーザ音声を第2記録部156から抽出する。動画生成部132は、抽出したゲーム画像のタイムスタンプと、抽出したユーザ音声のタイムスタンプとが揃うようにゲーム画像とユーザ音声を合成して、ゲーム動画を生成し、補助記憶装置2に保存する。この場合、生成されるゲーム動画には、時間tから時間tの間のユーザ音声は含まれない。
実施例3においては、ゲーム画像とユーザ音声とを別個にバッファリングしておき、ゲーム画像とユーザ音声の合成処理において、音声コマンドに対応するユーザ音声をゲーム画像に合成しないことで、生成するゲーム動画に、音声コマンドの発声を含ませないことが可能となる。
なお実施例3では、生成するゲーム動画に、音声コマンドの発声を含ませないことを説明したが、たとえば不適切な発声などをゲーム動画に含ませないことも可能である。つまり実施例3では、音声認識部124がユーザ音声を文字列に変換し、変換した文字列に、音声コマンドや適切でない所定の文字列が含まれている場合に、動画生成部132は、当該所定の文字列に対応するユーザ音声をゲーム画像に合成しないことで、ユーザが当該ユーザ音声をトリミングする手間を軽減することが可能となる。
以上、本開示を実施例をもとに説明した。この実施例は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本開示の範囲にあることは当業者に理解されるところである。
実施例では、情報処理装置10が、音声コマンドにもとづいてゲーム動画を生成するが、変形例では、情報処理装置10が、システムソフトウェアが生成するグラフィカルユーザインタフェース(GUI)におけるユーザ操作にもとづいて、ゲーム動画を生成する。
図12は、情報処理装置10の機能ブロックの変形例を示す。変形例の情報処理装置10は、処理部100および通信部102を備え、ユーザの操作にもとづいて生成されたゲーム画像をバックグランドで一時的に記録し、記録したゲーム画像を用いて、ユーザ生成コンテンツであるゲーム動画を生成する機能を有する。処理部100は、ゲームソフトウェア110、出力処理部112、記録制御部160、記録部162、入力受付部170、GUI生成部172、指示部174および動画生成部180を備える。図12に示す機能ブロックで、図3に示す機能ブロックと同じ符号を付した機能ブロックは、図3に示す機能ブロックと同じまたは同様の機能を有してよい。
図12に示す情報処理装置10はコンピュータを備え、コンピュータがプログラムを実行することによって、図12に示す様々な機能が実現される。コンピュータは、プログラムをロードするメモリ、ロードされたプログラムを実行する1つ以上のプロセッサ、補助記憶装置、その他のLSIなどをハードウェアとして備える。プロセッサは、半導体集積回路やLSIを含む複数の電子回路により構成され、複数の電子回路は、1つのチップ上に搭載されてよく、または複数のチップ上に搭載されてもよい。図12に示す機能ブロックは、ハードウェアとソフトウェアとの連携によって実現され、したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは、当業者には理解されるところである。
ゲームソフトウェア110は、少なくともゲームプログラム、画像データおよび音声データを含んで構成される。ゲームプログラムは、ユーザによるゲーム操作情報を受けると、仮想空間においてプレイヤキャラクタを動かす演算処理を行う。出力処理部112は、ゲームソフトウェア110による演算結果にもとづいてゲーム画像およびゲーム音(ゲーム画音)を生成し、出力装置4から出力させる。
出力処理部112は、ゲーム画像およびゲーム音を出力装置4から出力させるとともに、ゲーム画像およびゲーム音を記録制御部160に供給する。記録制御部160は、ユーザの操作にもとづいて生成されたゲーム画像およびゲーム音を記録部162に記録する。以下、ゲーム画像およびゲーム音を、説明の便宜上、単に「ゲーム画像」と呼ぶこともある。
記録部162は、ゲーム画像を一時的に保持するためのバッファであり、補助記憶装置2の記憶領域に設けられたリングバッファであってよい。記録制御部160は、ゲーム画像を時間情報(タイムスタンプ)とともに記録部162に一時記録する。記録部162は、図3に示す記録部130と同様の構成を備えてよい。
変形例では、ユーザがゲームプレイ中に、入力装置6の所定のボタン(たとえばクリエイトボタン)を操作して、ユーザ生成コンテンツ(ビデオクリップ)を生成するためのグラフィカルユーザインタフェース(GUI)を出力装置4に表示させる。入力受付部170が、所定のボタンの操作を受け付けると、GUI生成部172が、GUIを生成して、出力処理部112が、ゲーム画面にGUIを重畳表示する。
図13は、ゲーム画面に重畳表示されるGUI190の例を示す。GUI190は、ゲーム画像のキャプチャおよび共有に関する複数のメニュー項目を含む。ユーザは入力装置6を操作して、選択枠194を所望のメニュー項目の位置に動かすことで、メニュー項目を選択する。図13に示す例では、選択枠194が「直近のゲームプレイを保存」するためのメニュー項目に配置されている。この状態で、ユーザが入力装置6の決定ボタンを操作すると、GUI生成部172が、キャプチャ時間を選択するためのGUIを生成し、出力処理部112が、ゲーム画面にGUIを重畳表示する。
図14は、ゲーム画面に重畳表示されるGUI192の例を示す。GUI192は、保存するビデオクリップ(ユーザ生成コンテンツ)の時間に関する複数のメニュー項目を含む。ユーザは入力装置6を操作して、選択枠194を所望のメニュー項目の位置に動かすことで、ゲーム動画のキャプチャ時間を選択する。図14に示す例では、選択枠194が「直近の5分」のゲーム画像を保存するためのメニュー項目に配置されている。この状態で、ユーザが入力装置6の決定ボタンを操作すると、入力受付部170は、「直近の5分」が選択されたことを受け付け、GUI生成部172は、GUIの表示を終了する。
入力受付部170は、ゲームプレイ中に所定のボタン(クリエイトボタン)の操作を受け付けると、指示部174に、GUIの表示が開始された時間を示す時間情報を提供する。また入力受付部170は、GUI192においてゲーム動画のキャプチャ時間の選択操作を受け付けると、指示部174に、選択されたキャプチャ時間(この例では直近の5分)と、GUIの表示が終了された時間を示す時間情報を提供する。
図15は、変形例におけるコンテンツの開始点および終了点を示す。時間tは、GUIの表示が開始したタイミング、時間tは、ゲーム動画のキャプチャ時間が選択されて、GUIの表示が終了したタイミングを示す。ゲーム動画のキャプチャ時間が選択されたタイミングは、ユーザが指定するコンテンツの終了点とみなすことができ、したがって時間tは、ユーザが指定したコンテンツの終了点となる。
変形例において、指示部174は、GUIにおけるユーザ操作により指定されるゲーム動画の終了点(時間t)からGUIの表示時間(時間t-時間t)以上遡ったタイミングを終了点とし、当該終了点から5分だけ遡ったコンテンツの開始点を設定する。図15に示す例では、指示部174は、ユーザが指定した終了点(時間t)からGUI表示時間(時間t-時間t)だけ遡ったタイミング(時間t)を終了点とし、当該終了点から5分だけ遡ったコンテンツの開始点(時間T)を設定している。そこで指示部174は、開始点(時間T)および終了点(時間t)を定めたコンテンツ生成指示を生成して、動画生成部180に提供する。動画生成部180は、コンテンツ生成指示にもとづいて、ユーザが指定した終了点(時間t)からGUI表示時間(時間t-時間t)だけ遡ったタイミング(時間t)を終了点とし、当該終了点から5分だけ遡ったタイミング(T)を開始点とするゲーム動画を記録部162から切り出して、ユーザ生成コンテンツとして補助記憶装置2に保存する。
このように変形例によれば、記録部162に記録したゲーム画像に、システムソフトウェアが生成したGUIが含まれている場合に、動画生成部180は、当該GUIを含まないゲーム動画(コンテンツ)を生成できる。つまり動画生成部180は、GUIが表示される前に記録部162に記録されたゲーム画像を用いることで、GUIを含まないコンテンツを生成することが可能となる。
なお図15に示す例では、指示部174が、GUIの表示が開始したタイミング(時間t)を終了点としているが、GUIがコンテンツに確実に含まれないようにするために、時間tの所定時間(たとえば数秒)前を終了点としてもよい。
1・・・情報処理システム、5・・・マイク、6・・・入力装置、10・・・情報処理装置、100・・・処理部、102・・・通信部、110・・・ゲームソフトウェア、112・・・出力処理部、114・・・記録制御部、120・・・ユーザ音声取得部、122・・・音声供給部、124・・・音声認識部、126・・・指示部、130・・・記録部、132・・・動画生成部、140・・・文字列、150・・・第1記録制御部、152・・・第1記録部、154・・・第2記録制御部、156・・・第2記録部、160・・・記録制御部、162・・・記録部、170・・・入力受付部、172・・・GUI生成部、174・・・指示部、180・・・動画生成部。

Claims (12)

  1. 情報処理装置であって、ハードウェアを有する1つ以上のプロセッサを備え、
    前記1つ以上のプロセッサは、
    ユーザの操作にもとづいて生成されたゲーム画像を記録部に記録し、
    ユーザ音声または表示されたユーザインタフェースにおけるユーザ操作により指定されるゲーム動画の終了点にもとづいて、前記記録部に記録されたゲーム画像から、ユーザ音声またはユーザインタフェースを含まないゲーム動画を生成する、
    情報処理装置。
  2. 前記1つ以上のプロセッサは、
    ユーザ音声を取得し、
    ゲーム画像とユーザ音声とを合成して前記記録部に記録し、
    ユーザ音声を文字列に変換し、
    変換した文字列に音声コマンドが含まれている場合に、音声コマンドに対応するユーザ音声を含まないゲーム動画を生成する、
    請求項1に記載の情報処理装置。
  3. 前記1つ以上のプロセッサは、
    ユーザ音声により指定されるゲーム動画の終了点より前のタイミングを終了点とするゲーム動画を、前記記録部から切り出す、
    請求項2に記載の情報処理装置。
  4. 前記1つ以上のプロセッサは、
    ユーザによる音声コマンドの発声時間を取得し、
    ユーザ音声により指定されるゲーム動画の終了点から発声時間以上遡ったタイミングを終了点とするゲーム動画を、前記記録部から切り出す、
    請求項3に記載の情報処理装置。
  5. 前記1つ以上のプロセッサは、
    ユーザ音声により指定される終了点までのゲーム動画を、前記記録部から切り出し、
    音声コマンドに対応するユーザ音声を、切り出したゲーム動画から除去する、
    請求項2に記載の情報処理装置。
  6. 前記1つ以上のプロセッサは、
    表示されたユーザインタフェースにおけるユーザ操作により指定されるゲーム動画の終了点より前のタイミングを終了点とするゲーム動画を、前記記録部から切り出す、
    請求項1に記載の情報処理装置。
  7. 前記1つ以上のプロセッサは、
    ユーザインタフェースが表示されていた表示時間を取得し、
    ユーザ操作により指定されるゲーム動画の終了点から表示時間以上遡ったタイミングを終了点とするゲーム動画を、前記記録部から切り出す、
    請求項6に記載の情報処理装置。
  8. ゲーム動画を生成する方法であって、
    ユーザの操作にもとづいて生成されたゲーム画像を記録部に記録し、
    ユーザ音声または表示されたユーザインタフェースにおけるユーザ操作により指定されるゲーム動画の終了点にもとづいて、前記記録部に記録されたゲーム画像から、ユーザ音声またはユーザインタフェースを含まないゲーム動画を生成する、
    ゲーム動画生成方法。
  9. 情報処理装置であって、ハードウェアを有する1つ以上のプロセッサを備え、
    前記1つ以上のプロセッサは、
    ユーザの操作にもとづいて生成されたゲーム画像を第1記録部に記録し、
    ユーザ音声を取得し、
    ユーザ音声を第2記録部に記録し、
    前記第1記録部に記録したゲーム画像と、前記第2記録部に記録したユーザ音声を合成したゲーム動画を生成する、
    情報処理装置。
  10. 前記1つ以上のプロセッサは、
    ユーザ音声を文字列に変換し、
    変換した文字列に所定の文字列が含まれている場合に、所定の文字列に対応するユーザ音声を含まないゲーム動画を生成する、
    請求項9に記載の情報処理装置。
  11. 前記1つ以上のプロセッサは、
    変換した文字列に所定の文字列が含まれている場合に、所定の文字列に対応するユーザ音声を、ゲーム画像に合成しない、
    請求項10に記載の情報処理装置。
  12. ゲーム動画を生成する方法であって、
    ユーザの操作にもとづいて生成されたゲーム画像を第1記録部に記録し、
    ユーザ音声を取得し、
    ユーザ音声を第2記録部に記録し、
    前記第1記録部に記録したゲーム画像と、前記第2記録部に記録したユーザ音声を合成したゲーム動画を生成する、
    ゲーム動画生成方法。
JP2022203461A 2022-12-20 2022-12-20 情報処理装置およびゲーム動画生成方法 Pending JP2024088345A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022203461A JP2024088345A (ja) 2022-12-20 2022-12-20 情報処理装置およびゲーム動画生成方法
PCT/JP2023/042127 WO2024135221A1 (ja) 2022-12-20 2023-11-24 情報処理装置およびゲーム動画生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022203461A JP2024088345A (ja) 2022-12-20 2022-12-20 情報処理装置およびゲーム動画生成方法

Publications (1)

Publication Number Publication Date
JP2024088345A true JP2024088345A (ja) 2024-07-02

Family

ID=91588191

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022203461A Pending JP2024088345A (ja) 2022-12-20 2022-12-20 情報処理装置およびゲーム動画生成方法

Country Status (2)

Country Link
JP (1) JP2024088345A (ja)
WO (1) WO2024135221A1 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2252969A4 (en) * 2008-01-25 2013-10-16 Sony Online Entertainment Llc SYSTEM AND METHOD FOR CREATING, EDITING AND SHARING VIDEO CONTENT LINKED TO VIDEO GAME EVENTS
JP7329946B2 (ja) * 2019-03-29 2023-08-21 株式会社バンダイナムコエンターテインメント プログラム、コンピュータシステムおよび制御方法
JP7012791B1 (ja) * 2020-07-22 2022-01-28 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置、表示要素の表示方法および管理サーバ
JP7431143B2 (ja) * 2020-11-06 2024-02-14 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置および報告作成支援方法

Also Published As

Publication number Publication date
WO2024135221A1 (ja) 2024-06-27

Similar Documents

Publication Publication Date Title
JP5750380B2 (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
CN110675886B (zh) 音频信号处理方法、装置、电子设备及存储介质
WO2017006766A1 (ja) 音声対話方法および音声対話装置
WO2013024704A1 (ja) 画像処理装置および方法、並びにプログラム
CN111273775A (zh) 增强现实眼镜、基于增强现实眼镜的ktv实现方法与介质
JP2008259808A (ja) ロボットシステムおよびその制御方法
JP4917920B2 (ja) コンテンツ生成装置及びコンテンツ生成プログラム
JP2009163265A (ja) 思考単位と連結質問を用いる言語教育方法
US11580954B2 (en) Systems and methods of handling speech audio stream interruptions
US8553855B2 (en) Conference support apparatus and conference support method
WO2024135221A1 (ja) 情報処理装置およびゲーム動画生成方法
CN109168017A (zh) 一种基于智能眼镜的视频直播互动系统及直播互动方式
CN110225279B (zh) 一种移动终端的视频制作系统和视频制作方法
JP2019176375A (ja) 動画出力装置、動画出力方法および動画出力プログラム
JP2016186646A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP2015187738A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP7545688B2 (ja) イベント検出装置、イベント検出方法、及びプログラム
WO2024209802A1 (ja) プログラム、情報処理装置および情報処理方法
JP3463804B2 (ja) 音声合成装置並びに方法及び情報記憶媒体
WO2020177483A1 (zh) 音视频处理方法、装置、电子设备及存储介质
US20240293739A1 (en) Method And System To Reduce Latency In Cloud Gaming
JP2007047291A (ja) 音声通訳システムおよび音声通訳方法
JP2007256502A (ja) 演奏データ遠隔通信システムおよびその制御方法を実現するためのプログラム
JP2006198135A (ja) ゲーム装置
KR102025903B1 (ko) 언어 학습을 위한 장치 및 그 제어방법