JP2024011105A

JP2024011105A - 実況音声リアルタイム生成システム

Info

Publication number: JP2024011105A
Application number: JP2022112830A
Authority: JP
Inventors: 和広志村; Kazuhiro Shimura
Original assignee: Dentsu Inc
Current assignee: Dentsu Group Inc
Priority date: 2022-07-14
Filing date: 2022-07-14
Publication date: 2024-01-25
Also published as: WO2024014509A1

Abstract

【課題】対象スポーツゲームの実況音声をリアルタイムで自動的に生成することのできる実況音声リアルタイム生成システムを提供する。【解決手段】実況音声リアルタイム生成システム１は、実況音声をリアルタイム生成する対象スポーツゲームの所定シーンの映像が入力されると、第１機械学習部１４で分析した関係に基づいて、入力された対象スポーツゲームの所定シーンの映像を入力として、その対象スポーツゲームの所定シーンにおける実況情報を推定して出力する。そして、対象スポーツゲームに関するファクト情報を取得すると、第２機械学習部１５で分析した関係に基づいて、取得したファクト情報および出力された実況情報を入力として、その対象スポーツゲームの所定シーンにおける実況音声を推定して出力する。【選択図】図１

Description

本発明は、スポーツゲームの所定シーンの実況音声をリアルタイムで生成する実況音声リアルタイム生成システムに関する。

従来、携帯端末を利用するスポーツ実況システムが提案されている（例えば、特許文献１参照）。従来のシステムでは、携帯機器にアニメーション化した実況画像が表示され、リアルタイムでスポーツ実況が行われる。

特開２００６－２６０５５４号公報

従来のシステムでは、アニメーション化した野球の実況画面（例えば、ピッチャーが投球し、バッターがバットを振る動作がアニメーションで表示される画面）が表示されるが、視覚障害者（その画面を見ることに障害のある者）がスポーツ観戦を楽しむことは困難である。従来、視覚障害者がスポーツ観戦を楽しむためのシステム（例えば、そのシーンの実況音声をリアルタイムで生成するシステム）について、何らの提案もなされていない。

本発明は、上記の課題に鑑みてなされたもので、スポーツゲームの所定シーンの実況音声をリアルタイムで生成することのできる実況音声リアルタイム生成システムを提供することを目的とする。

本発明の実況音声リアルタイム生成システムは、過去のスポーツゲームの所定シーンの映像と、当該過去のスポーツゲームの所定シーンにおける実況情報との関係を、機械学習により分析する第１機械学習部と、前記過去のスポーツゲームに関するファクト情報および前記過去のスポーツゲームの所定シーンにおける実況情報と、当該過去のスポーツゲームの所定シーンにおける実況音声との関係を、機械学習により分析する第２機械学習部と、実況音声をリアルタイム生成する対象スポーツゲームの所定シーンの映像が入力される映像入力部と、前記第１機械学習部で分析した関係に基づいて、前記映像入力部から入力された前記対象スポーツゲームの所定シーンの映像を入力として、当該対象スポーツゲームの所定シーンにおける実況情報を推定して出力する第１推定部と、前記対象スポーツゲームに関するファクト情報を取得するファクト情報取得部と、前記第２機械学習部で分析した関係に基づいて、前記ファクト情報取得部で取得した前記対象スポーツゲームに関するファクト情報および前記第１推定部から出力された前記対象スポーツゲームの所定シーンにおける実況情報を入力として、当該対象スポーツゲームの所定シーンにおける実況音声を推定して出力する第２推定部と、を備えている。

この構成によれば、まず、実況音声をリアルタイム生成する対象スポーツゲーム（例えば、野球など）の所定シーンの映像が入力されると、第１機械学習部で分析した関係を用いて、その対象スポーツゲームの所定シーンにおける実況情報（例えば、「ピッチャー投げました。バッター空振り。」など）が推定される。つぎに、対象スポーツゲームに関するファクト情報（例えば、選手名「ピッチャーＡ、バッターＢ」、ボールカウント「ワンボール・ワンストライク」、アウトカウント「ノーアウト」、スコア「０対０」など）を取得すると、第２機械学習部で分析した関係を用いて、その対象スポーツゲームの所定シーンにおける実況音声（例えば、「ピッチャーＡが投げました。バッターＢが空振り。ワンボール・ワンストライク。」など）が推定される。このようにして、対象スポーツゲームの実況音声をリアルタイムで自動的に生成することが可能になる。

また、本発明の実況音声リアルタイム生成システムは、過去のスポーツゲームの会場に設置された複数のカメラで撮影される複数の所定シーンの映像と、前記複数の所定シーンの映像うち当該過去のスポーツゲームの実況中継に用いられる所定シーンの映像との関係を、機械学習により分析する第３機械学習部と、前記第３機械学習部で分析した関係に基づいて、前記対象スポーツゲームの会場に設置された複数のカメラで撮影される複数の所定シーンの映像を入力として、前記複数の所定シーンの映像うち当該対象スポーツゲームの実況中継に用いられる所定シーンの映像を推定して出力する第３推定部と、を備え、前記第３推定部から出力された前記対象スポーツゲームの実況中継に用いられる所定シーンの映像が前記映像入力部に入力されてもよい。

この構成によれば、対象スポーツゲームの会場に設置された複数のカメラで撮影される複数の所定シーンの映像が入力されると、第３機械学習部で分析した関係を用いて、複数の所定シーンの映像うち対象スポーツゲームの実況中継に用いられる所定シーンの映像が推定される。このようにして、対象スポーツゲームの会場に設置された複数のカメラで撮影される複数の所定シーンの映像の中から、映像入力部に入力される所定シーンの映像（対象スポーツゲームの実況音声のリアルタイム生成に用いられる所定シーンの映像）を適切に選択することができる。

本発明の実況音声リアルタイム生成方法は、過去のスポーツゲームの所定シーンの映像と、当該過去のスポーツゲームの所定シーンにおける実況情報との関係を、機械学習により分析する第１機械学習ステップと、前記過去のスポーツゲームに関するファクト情報および前記過去のスポーツゲームの所定シーンにおける実況情報と、当該過去のスポーツゲームの所定シーンにおける実況音声との関係を、機械学習により分析する第２機械学習ステップと、実況音声をリアルタイム生成する対象スポーツゲームの所定シーンの映像が入力される映像入力ステップと、前記第１機械学習ステップで分析した関係に基づいて、前記映像入力ステップから入力された前記対象スポーツゲームの所定シーンの映像を入力として、当該対象スポーツゲームの所定シーンにおける実況情報を推定して出力する第１推定ステップと、前記対象スポーツゲームに関するファクト情報を取得するファクト情報取得ステップと、前記第２機械学習ステップで分析した関係に基づいて、前記ファクト情報取得ステップで取得した前記対象スポーツゲームに関するファクト情報および前記第１推定ステップから出力された前記対象スポーツゲームの所定シーンにおける実況情報を入力として、当該対象スポーツゲームの所定シーンにおける実況音声を推定して出力する第２推定ステップと、を含んでいる。

この方法によっても、上記のシステムと同様に、まず、実況音声をリアルタイム生成する対象スポーツゲーム（例えば、野球など）の所定シーンの映像が入力されると、第１機械学習部で分析した関係を用いて、その対象スポーツゲームの所定シーンにおける実況情報（例えば、「ピッチャー投げました。バッター空振り。」など）が推定される。つぎに、対象スポーツゲームに関するファクト情報（例えば、選手名「ピッチャーＡ、バッターＢ」、ボールカウント「ワンボール・ワンストライク」、アウトカウント「ノーアウト」、スコア「０対０」など）を取得すると、第２機械学習部で分析した関係を用いて、その対象スポーツゲームの所定シーンにおける実況音声（例えば、「ピッチャーＡが投げました。バッターＢが空振り。ワンボール・ワンストライク。」など）が推定される。このようにして、対象スポーツゲームの実況音声をリアルタイムで自動的に生成することが可能になる。

本発明によれば、対象スポーツゲームの実況音声をリアルタイムで自動的に生成することができる。

本発明の実施の形態における実況音声リアルタイム生成システムの構成を示すブロック図である。本発明の実施の形態においてスポーツゲーム会場に設置される複数のカメラの例を模式的に示す図である。本発明の実施の形態における実況音声リアルタイム生成システムの動作を説明するためのフロー図である。

以下、本発明の実施の形態の実況音声リアルタイム生成システムについて、図面を用いて説明する。本実施の形態では、視覚障害者がスポーツ観戦を楽しむシステム等に用いられる実況音声リアルタイム生成システムの場合を例示する。

本発明の実施の形態の実況音声リアルタイム生成システムの構成を、図面を参照して説明する。図１は、本実施の形態の実況音声リアルタイム生成システムの構成を示すブロック図である。図１に示すように、実況音声リアルタイム生成システム１は、ネットワークＮを介してスポーツゲーム撮影システム２と接続されている。スポーツゲーム撮影システム２は、野球などの試合中の映像を撮影する複数のカメラ２１と、撮影した映像をネットワークＮを介して配信する映像配信部２２を備えている。なお、図２に示すように、スポーツゲームの会場Ｓには、スポーツゲームの様々なシーンの映像を取得できるように、複数のカメラ２１（カメラＡ、カメラＢ、カメラＣ・・・）が様々な位置に設定されている。

図１に示すように、実況音声リアルタイム生成システム１は、スポーツゲーム撮影システム２から配信された試合中の映像（カメラ映像）を取得する映像取得部１１と、実況音声をリアルタイム生成するスポーツゲーム（対象スポーツゲーム）の所定シーンの映像が入力される映像入力部１２と、対象スポーツゲームに関するファクト情報を取得するファクト情報取得部１３を備えている。例えば、実況音声をリアルタイム生成する対象スポーツゲームが「野球」である場合、ファクト情報は「選手名、ボールカウント、アウトカウント、スコア」などである。ファクト情報は、例えば、スポーツゲーム主催者の情報データベース（図示せず）などから取得することができる。

また、実況音声リアルタイム生成システム１は、過去の試合の映像データが記憶される映像記憶部３を備えている。なお、映像記憶部３には、スポーツゲーム撮影システム２から配信された試合中の映像が記憶されてもよい。

さらに、実況音声リアルタイム生成システム１は、３つの機械学習部（第１機械学習部１４、第２機械学習部１５、第３機械学習部１６）と、３つの推定部（第１推定部１７、第２推定部１８、第３推定部１９）を備えている。

第１機械学習部１４は、過去のスポーツゲームの所定シーンの映像と、その過去のスポーツゲームの所定シーンにおける実況情報との関係を、機械学習により分析する。この機械学習には、ニューラルネットワークによるディープラーニング等の任意の手法が用いられる。例えば、ニューラルネットワークであれば、過去のスポーツゲームの所定シーンの映像を入力層に入力し、その過去のスポーツゲームの所定シーンにおける実況情報を出力層から出力するように構成する。そして、入力層に入力するデータと出力層から出力されるデータとが紐付けられた分析用データを用いた教師あり学習によって、ニューラルネットワークのニューロン間の重み付け係数が最適化される。

第１推定部１７は、第１機械学習部１４で分析した関係に基づいて、映像入力部１２から入力された対象スポーツゲームの所定シーンの映像を入力として、その対象スポーツゲームの所定シーンにおける実況情報を推定して出力する。例えば、上記のニューラルネットワークであれば、映像入力部１２から入力された対象スポーツゲームの所定シーンの映像を入力層に入力し、その対象スポーツゲームの所定シーンにおける実況情報を出力層から出力することにより、推定が行われる。例えば、実況音声をリアルタイム生成する対象スポーツゲームが「野球」である場合、実況情報は「ピッチャー投げました。バッター空振り。」などである。

第２機械学習部１５は、過去のスポーツゲームに関するファクト情報および過去のスポーツゲームの所定シーンにおける実況情報と、その過去のスポーツゲームの所定シーンにおける実況音声との関係を、機械学習により分析する。この機械学習にも、ニューラルネットワークによるディープラーニング等の任意の手法が用いられる。例えば、ニューラルネットワークであれば、過去のスポーツゲームに関するファクト情報および過去のスポーツゲームの所定シーンにおける実況情報を入力層に入力し、その過去のスポーツゲームの所定シーンにおける実況音声を出力層から出力するように構成する。そして、入力層に入力するデータと出力層から出力されるデータとが紐付けられた分析用データを用いた教師あり学習によって、ニューラルネットワークのニューロン間の重み付け係数が最適化される。

第２推定部１８は、第２機械学習部１５で分析した関係に基づいて、ファクト情報取得部１３で取得した対象スポーツゲームに関するファクト情報および第１推定部１７から出力された対象スポーツゲームの所定シーンにおける実況情報を入力として、その対象スポーツゲームの所定シーンにおける実況音声を推定して出力する。例えば、上記のニューラルネットワークであれば、ファクト情報取得部１３で取得した対象スポーツゲームに関するファクト情報および第１推定部１７から出力された対象スポーツゲームの所定シーンにおける実況情報を入力層に入力し、その対象スポーツゲームの所定シーンにおける実況音声を出力層から出力することにより、推定が行われる。例えば、実況音声をリアルタイム生成する対象スポーツゲームが「野球」である場合、実況音声は「ピッチャーＡ（選手名）が投げました。バッターＢ（選手名）が空振り。ワンボール・ワンストライク。」などである。

第３機械学習部１６は、過去のスポーツゲームの会場に設置された複数のカメラ２１で撮影される複数の所定シーンの映像と、複数の所定シーンの映像うちその過去のスポーツゲームの実況中継に用いられる所定シーンの映像との関係を、機械学習により分析する。この機械学習にも、ニューラルネットワークによるディープラーニング等の任意の手法が用いられる。例えば、ニューラルネットワークであれば、過去のスポーツゲームの会場に設置された複数のカメラ２１で撮影される複数の所定シーンの映像を入力層に入力し、複数の所定シーンの映像うちその過去のスポーツゲームの実況中継に用いられる所定シーンの映像を出力層から出力するように構成する。そして、入力層に入力するデータと出力層から出力されるデータとが紐付けられた分析用データを用いた教師あり学習によって、ニューラルネットワークのニューロン間の重み付け係数が最適化される。

第３推定部１９は、第３機械学習部１６で分析した関係に基づいて、対象スポーツゲームの会場に設置された複数のカメラ２１で撮影される複数の所定シーンの映像を入力として、複数の所定シーンの映像うち対象スポーツゲームの実況中継に用いられる所定シーンの映像を推定して出力する。例えば、上記のニューラルネットワークであれば、対象スポーツゲームの会場に設置された複数のカメラ２１で撮影される複数の所定シーンの映像を入力層に入力し、それら複数の所定シーンの映像うち対象スポーツゲームの実況中継に用いられる所定シーンの映像を出力層から出力することにより、推定が行われる。第３推定部１９から出力された対象スポーツゲームの実況中継に用いられる所定シーンの映像が映像入力部１２に入力される。

以上のように構成された実況音声リアルタイム生成システム１について、図３のフロー図を参照してその動作を説明する。

本実施の形態の実況音声リアルタイム生成システム１では、まず事前の準備として、第１機械学習部１４において、過去のスポーツゲームの所定シーンの映像と、その過去のスポーツゲームの所定シーンにおける実況情報との関係を、機械学習により分析する（第１機械学習ステップ）。また、第２機械学習部１５において、過去のスポーツゲームに関するファクト情報および過去のスポーツゲームの所定シーンにおける実況情報と、その過去のスポーツゲームの所定シーンにおける実況音声との関係を、機械学習により分析する（第２機械学習ステップ）。さらに、第３機械学習部１６において、過去のスポーツゲームの会場に設置された複数のカメラ２１で撮影される複数の所定シーンの映像と、複数の所定シーンの映像うちその過去のスポーツゲームの実況中継に用いられる所定シーンの映像との関係を、機械学習により分析する（第３機械学習ステップ）。

そして、図３に示すように、対象スポーツゲームの実況音声をリアルタイム生成する場合には、スポーツゲーム撮影システム２から配信された試合中の複数のカメラ映像を取得し（Ｓ１）、第３機械学習部１６で分析した関係に基づいて、対象スポーツゲームの会場に設置された複数のカメラ映像（複数の所定シーンの映像）を入力として、複数の所定シーンの映像うち対象スポーツゲームの実況中継に用いられる所定シーンの映像（中継映像）を推定して出力する（Ｓ２）。そして、推定された所定シーンの映像（中継映像）が映像入力部１２に入力される。なお、実際に対象スポーツゲームの実況中継が行われてる場合には、中継映像を推定するステップＳ２は不要であり、実際の中継映像が映像入力部１２に入力される。

つぎに、第１機械学習部１４で分析した関係に基づいて、映像入力部１２から入力された対象スポーツゲームの所定シーンの映像を入力として、その対象スポーツゲームの所定シーンにおける実況情報を推定して出力する（Ｓ３）。その後、ファクト情報取得部１３において、対象スポーツゲームに関するファクト情報を取得し（Ｓ４）、第２機械学習部１５で分析した関係に基づいて、ファクト情報取得部１３で取得した対象スポーツゲームに関するファクト情報および第１推定部１７から出力された対象スポーツゲームの所定シーンにおける実況情報を入力として、その対象スポーツゲームの所定シーンにおける実況音声を推定して出力する（Ｓ５）。

このような本実施の形態の実況音声リアルタイム生成システム１によれば、まず、実況音声をリアルタイム生成する対象スポーツゲーム（例えば、野球など）の所定シーンの映像が入力されると、第１機械学習部１４で分析した関係を用いて、その対象スポーツゲームの所定シーンにおける実況情報（例えば、「ピッチャー投げました。バッター空振り。」など）が推定される。つぎに、対象スポーツゲームに関するファクト情報（例えば、選手名「ピッチャーＡ、バッターＢ」、ボールカウント「ワンボール・ワンストライク」、アウトカウント「ノーアウト」、スコア「０対０」など）を取得すると、第２機械学習部１５で分析した関係を用いて、その対象スポーツゲームの所定シーンにおける実況音声（例えば、「ピッチャーＡが投げました。バッターＢが空振り。ワンボール・ワンストライク。」など）が推定される。このようにして、対象スポーツゲームの実況音声をリアルタイムで自動的に生成することが可能になる。

また、本実施の形態では、対象スポーツゲームの会場に設置された複数のカメラ２１で撮影される複数の所定シーンの映像が入力されると、第３機械学習部１６で分析した関係を用いて、複数の所定シーンの映像うち対象スポーツゲームの実況中継に用いられる所定シーンの映像が推定される。このようにして、対象スポーツゲームの会場に設置された複数のカメラ２１で撮影される複数の所定シーンの映像の中から、映像入力部１２に入力される所定シーンの映像（対象スポーツゲームの実況音声のリアルタイム生成に用いられる所定シーンの映像）を適切に選択することができる。

以上、本発明の実施の形態を例示により説明したが、本発明の範囲はこれらに限定されるものではなく、請求項に記載された範囲内において目的に応じて変更・変形することが可能である。

以上の説明では、実況音声をリアルタイム生成する対象スポーツゲームが「野球」である場合、例えば、ファクト情報が「選手名、ボールカウント、アウトカウント、スコア」などであり、実況情報が「ピッチャー投げました。バッター空振り。」などであり、実況音声が「ピッチャーＡ（選手名）が投げました。バッターＢ（選手名）が空振り。ワンボール・ワンストライク。」などである例について説明したが、その他のスポーツゲームについても同様に実施可能である。

例えば、実況音声をリアルタイム生成する対象スポーツゲームが「競馬」である場合には、ファクト情報は「馬名、馬番、騎手名、順位」などであり、実況情報は「各馬一斉にスタート。」などであり、実況音声は「各場一斉にスタート。先頭はＣ（馬名）。」などであってもよい。

また、実況音声をリアルタイム生成する対象スポーツゲームが「モータースポーツ」である場合には、ファクト情報は「チーム名、ドライバー名、順位」などであり、実況情報は「バックストレートで先頭が２番手に抜かれた。」などであり、実況音声は「バックストレートで先頭のＤ（ドライバー名）が２番手のＥ（ドライバー名）に抜かれた。」などであってもよい。

以上のように、本発明にかかる実況音声リアルタイム生成システムは、対象スポーツゲームの実況音声をリアルタイムで自動的に生成することができるという効果を有し、視覚障害者がスポーツ観戦を楽しむシステム等として有用である。

１実況音声リアルタイム生成システム
２スポーツゲーム撮影システム
３映像記憶部
１１映像取得部
１２映像入力部
１３ファクト情報取得部
１４第１機械学習部
１５第２機械学習部
１６第３機械学習部
１７第１推定部
１８第２推定部
１９第３推定部
２１カメラ
２２映像配信部
Ｎネットワーク

Claims

過去のスポーツゲームの所定シーンの映像と、当該過去のスポーツゲームの所定シーンにおける実況情報との関係を、機械学習により分析する第１機械学習部と、
前記過去のスポーツゲームに関するファクト情報および前記過去のスポーツゲームの所定シーンにおける実況情報と、当該過去のスポーツゲームの所定シーンにおける実況音声との関係を、機械学習により分析する第２機械学習部と、
実況音声をリアルタイム生成する対象スポーツゲームの所定シーンの映像が入力される映像入力部と、
前記第１機械学習部で分析した関係に基づいて、前記映像入力部から入力された前記対象スポーツゲームの所定シーンの映像を入力として、当該対象スポーツゲームの所定シーンにおける実況情報を推定して出力する第１推定部と、
前記対象スポーツゲームに関するファクト情報を取得するファクト情報取得部と、
前記第２機械学習部で分析した関係に基づいて、前記ファクト情報取得部で取得した前記対象スポーツゲームに関するファクト情報および前記第１推定部から出力された前記対象スポーツゲームの所定シーンにおける実況情報を入力として、当該対象スポーツゲームの所定シーンにおける実況音声を推定して出力する第２推定部と、
を備える、実況音声リアルタイム生成システム。
過去のスポーツゲームの会場に設置された複数のカメラで撮影される複数の所定シーンの映像と、前記複数の所定シーンの映像うち当該過去のスポーツゲームの実況中継に用いられる所定シーンの映像との関係を、機械学習により分析する第３機械学習部と、
前記第３機械学習部で分析した関係に基づいて、前記対象スポーツゲームの会場に設置された複数のカメラで撮影される複数の所定シーンの映像を入力として、前記複数の所定シーンの映像うち当該対象スポーツゲームの実況中継に用いられる所定シーンの映像を推定して出力する第３推定部と、
を備え、
前記第３推定部から出力された前記対象スポーツゲームの実況中継に用いられる所定シーンの映像が前記映像入力部に入力される、請求項１に記載の実況音声リアルタイム生成システム。
過去のスポーツゲームの所定シーンの映像と、当該過去のスポーツゲームの所定シーンにおける実況情報との関係を、機械学習により分析する第１機械学習ステップと、
前記過去のスポーツゲームに関するファクト情報および前記過去のスポーツゲームの所定シーンにおける実況情報と、当該過去のスポーツゲームの所定シーンにおける実況音声との関係を、機械学習により分析する第２機械学習ステップと、
実況音声をリアルタイム生成する対象スポーツゲームの所定シーンの映像が入力される映像入力ステップと、
前記第１機械学習ステップで分析した関係に基づいて、前記映像入力ステップから入力された前記対象スポーツゲームの所定シーンの映像を入力として、当該対象スポーツゲームの所定シーンにおける実況情報を推定して出力する第１推定ステップと、
前記対象スポーツゲームに関するファクト情報を取得するファクト情報取得ステップと、
前記第２機械学習ステップで分析した関係に基づいて、前記ファクト情報取得ステップで取得した前記対象スポーツゲームに関するファクト情報および前記第１推定ステップから出力された前記対象スポーツゲームの所定シーンにおける実況情報を入力として、当該対象スポーツゲームの所定シーンにおける実況音声を推定して出力する第２推定ステップと、
を含む、実況音声リアルタイム生成方法。