JP2022007108A - Information processor, information processing method, and program - Google Patents
Information processor, information processing method, and program Download PDFInfo
- Publication number
- JP2022007108A JP2022007108A JP2020109838A JP2020109838A JP2022007108A JP 2022007108 A JP2022007108 A JP 2022007108A JP 2020109838 A JP2020109838 A JP 2020109838A JP 2020109838 A JP2020109838 A JP 2020109838A JP 2022007108 A JP2022007108 A JP 2022007108A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- sound source
- information
- information processing
- microphone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本発明は、音源の位置を推定する技術に関する。 The present invention relates to a technique for estimating the position of a sound source.
複数の撮影装置を異なる位置に設置して多視点で同期撮影し、当該撮影により得られた複数の画像を用いて、視点を任意に変更可能な仮想視点映像を生成する技術がある。例えば、サッカーやバスケットボールなどの競技を撮影した複数の画像に基づいて、ユーザにより指定された視点に応じた仮想視点映像を生成することにより、ユーザは様々な視点から競技を観戦することができる。 There is a technique in which a plurality of photographing devices are installed at different positions to perform synchronous shooting from multiple viewpoints, and a virtual viewpoint image in which the viewpoint can be arbitrarily changed is generated by using a plurality of images obtained by the shooting. For example, a user can watch a game from various viewpoints by generating a virtual viewpoint image corresponding to a viewpoint designated by the user based on a plurality of images of a game such as soccer or basketball.
また、仮想視点映像と共に再生される音響信号の高臨場感化が検討されている。仮想視点映像に対応する仮想視点は撮影対象の競技が行われるフィールド内の任意の位置に設定することが可能であるが、収音するためのマイクをフィールド内に持ち込んで仮想視点に追従させることは難しい。そこで、フィールドの周辺に複数のマイクを設置し、それらのマイクから得られた収音信号を選択したりミックスしたりすることで、仮想視点映像と共に再生される音響信号を生成することが考えられる。この場合、フィールド内の音源の位置に基づいて収音信号の選択やミックスを行うことで、音響信号の臨場感を向上できる。 In addition, it is being studied to make the acoustic signal reproduced together with the virtual viewpoint image highly realistic. The virtual viewpoint corresponding to the virtual viewpoint image can be set at any position in the field where the competition to be shot is held, but a microphone for collecting sound should be brought into the field to follow the virtual viewpoint. Is difficult. Therefore, it is conceivable to install multiple microphones around the field and select and mix the sound pickup signals obtained from those microphones to generate an acoustic signal to be reproduced together with the virtual viewpoint image. .. In this case, the presence of the acoustic signal can be improved by selecting and mixing the sound pickup signal based on the position of the sound source in the field.
特許文献1には、仮想視点映像と共に再生される音響信号を生成するために、仮想視点に対応する視界に含まれる被写体の位置に基づいて収音位置を選択することが開示されている。また、特許文献1には、被写体の位置を検出する方法として、仮想視点映像を解析する方法と位置センサを用いる方法が開示されている。 Patent Document 1 discloses that a sound collecting position is selected based on a position of a subject included in a field of view corresponding to a virtual viewpoint in order to generate an acoustic signal to be reproduced together with a virtual viewpoint image. Further, Patent Document 1 discloses a method of analyzing a virtual viewpoint image and a method of using a position sensor as a method of detecting the position of a subject.
しかしながら、特許文献1に記載の技術のように、生成された仮想視点映像を解析して検出された音源の位置に基づいて音響信号を生成する場合、仮想視点映像の生成から音響信号の生成までの遅延が大きくなる虞がある。また、撮影対象となる競技やイベントによっては、被写体に位置センサを装着することが難しい場合がある。 However, when an acoustic signal is generated based on the position of a sound source detected by analyzing the generated virtual viewpoint image as in the technique described in Patent Document 1, from the generation of the virtual viewpoint image to the generation of the acoustic signal. There is a risk that the delay will increase. In addition, it may be difficult to attach a position sensor to the subject depending on the competition or event to be photographed.
本発明は上記の課題に鑑み、仮想視点映像に関わる音源の位置を推定するための新たな方法を提供することを目的とする。 In view of the above problems, it is an object of the present invention to provide a new method for estimating the position of a sound source related to a virtual viewpoint image.
上記の課題を解決するため、本発明に係る情報処理装置は、例えば以下の構成を有する。すなわち、撮影領域を複数の方向から撮影することで得られる複数の撮影画像に基づいて生成される仮想視点映像に対応する仮想視点の変遷を表す視点情報を取得する取得手段と、前記取得手段により取得された前記視点情報に基づいて、前記撮影領域内の音源の位置を推定する推定手段と、を有する。 In order to solve the above problems, the information processing apparatus according to the present invention has, for example, the following configuration. That is, the acquisition means for acquiring the viewpoint information representing the transition of the virtual viewpoint corresponding to the virtual viewpoint image generated based on the plurality of captured images obtained by photographing the shooting area from a plurality of directions, and the acquisition means. It has an estimation means for estimating the position of a sound source in the photographing region based on the acquired viewpoint information.
本発明によれば、仮想視点映像に関わる音源の位置を推定することができる。 According to the present invention, the position of the sound source related to the virtual viewpoint image can be estimated.
[システム構成]
図1(A)は、本実施形態に係る情報処理システム10の構成を示すブロック図である。また、図1(B)は、本実施形態に係る音響生成システム20の構成を示すブロック図である。情報処理システム10は、仮想視点映像に対応するカメラパスと検出された音源位置とを用いて学習を行い、学習済みモデルを生成する。音響生成システム20は、入力されたカメラパスを学習済みモデルに入力して処理することで、音源位置を推定する。本実施形態において、情報処理システム10によって学習済みモデルの生成、更新を行うフェーズのことを学習フェーズと呼び、音響生成システム20によって学習モデルを適用し、音源位置を推定するフェーズのことを適用フェーズと呼ぶ。
[System configuration]
FIG. 1A is a block diagram showing a configuration of an
仮想視点映像は、複数の撮像装置による撮像に基づく複数の画像と、指定された仮想視点とに基づいて生成され、指定された仮想視点からの光景を表す。本実施形態における仮想視点映像は、自由視点映像とも呼ばれるものであるが、ユーザが自由に(任意に)指定した視点に対応する画像に限定されず、例えば複数の候補からユーザが選択した視点に対応する画像なども仮想視点映像に含まれる。仮想視点の指定はユーザ操作により行われてもよいし、仮想視点の指定が画像解析の結果等に基づいて自動で行われてもよい。また、本実施形態では仮想視点映像が動画である場合を中心に説明するが、仮想視点映像に静止画が含まれていてもよい。仮想視点映像は、空間内に設定された仮想視点の位置にカメラが存在するものと仮定した場合に、そのカメラにより得られる撮像画像を模擬した画像であると言える。本実施形態では、経時的な仮想視点の変遷の内容を示す視点情報を、カメラパスと表記する。 The virtual viewpoint image is generated based on a plurality of images taken by a plurality of image pickup devices and a designated virtual viewpoint, and represents a scene from the designated virtual viewpoint. The virtual viewpoint image in the present embodiment is also called a free viewpoint image, but is not limited to an image corresponding to a viewpoint freely (arbitrarily) specified by the user, for example, a viewpoint selected by the user from a plurality of candidates. Corresponding images are also included in the virtual viewpoint video. The virtual viewpoint may be specified by a user operation, or the virtual viewpoint may be automatically specified based on the result of image analysis or the like. Further, in the present embodiment, the case where the virtual viewpoint image is a moving image will be mainly described, but the virtual viewpoint image may include a still image. It can be said that the virtual viewpoint image is an image simulating the captured image obtained by the camera, assuming that the camera exists at the position of the virtual viewpoint set in the space. In the present embodiment, the viewpoint information indicating the contents of the transition of the virtual viewpoint over time is referred to as a camera path.
仮想視点映像の生成に用いられる視点情報は、仮想視点の位置及び向き(視線方向)を示す情報である。具体的には、視点情報は、仮想視点の三次元位置を表すパラメータと、パン、チルト、及びロール方向における仮想視点の向きを表すパラメータとを含む、パラメータセットである。なお、視点情報の内容は上記に限定されない。例えば、視点情報としてのパラメータセットには、仮想視点の視野の大きさ(画角)を表すパラメータが含まれてもよい。カメラパスには、複数の時刻それぞれに対応する複数のパラメータセットが含まれる。例えば、カメラパスは、仮想視点映像の動画を構成する複数のフレームにそれぞれ対応する複数のパラメータセットを有し、連続する複数の時点それぞれにおける仮想視点の位置及び向きを示す情報であってもよい。 The viewpoint information used to generate the virtual viewpoint image is information indicating the position and direction (line-of-sight direction) of the virtual viewpoint. Specifically, the viewpoint information is a parameter set including a parameter representing a three-dimensional position of the virtual viewpoint and a parameter representing the orientation of the virtual viewpoint in the pan, tilt, and roll directions. The content of the viewpoint information is not limited to the above. For example, the parameter set as the viewpoint information may include a parameter representing the size (angle of view) of the field of view of the virtual viewpoint. The camera path contains multiple parameter sets corresponding to each of the multiple times. For example, the camera path may have a plurality of parameter sets corresponding to a plurality of frames constituting the moving image of the virtual viewpoint video, and may be information indicating the position and orientation of the virtual viewpoint at each of a plurality of consecutive time points. ..
図1(A)に示すように、情報処理システム10は、音源検出部111、映像データ格納部112、カメラパス生成部130、及びモデル生成部100を有する。モデル生成部100は、カメラパス受信部101、教師データ生成部102、学習部103、音源情報格納部104、音源種別格納部105、及び再学習部106を備える。
As shown in FIG. 1A, the
カメラパス受信部101は、カメラパス生成部130で生成されたカメラパスを受信する。カメラパスの送受信方法としては、例えば、カメラパスの生成中にフレーム毎の視点情報を送受信してもよいし、カメラパスの生成が完了した後に全フレーム分の視点情報をまとめて送受信してもよい。
The camera
教師データ生成部102は、カメラパス受信部101が受信したカメラパスと、カメラパスに対応する音源位置、音源発生時刻、及び音源種別IDを音源情報格納部から取得する。そして、取得したカメラパスと音源位置、音源発生時刻、及び音源種別IDを1組の教師データとして学習部103に送信する。なお、カメラパスに対応する音源位置とは、そのカメラパスに基づいて生成される仮想視点映像に関連する音源の位置である。例えば、試合が行われるフィールドをある撮影期間において複数の方向から撮影することで得られた複数の撮影画像とカメラパスとに基づいて仮想視点映像が生成される場合を考える。この場合に、その撮影期間においてフィールド内(撮影領域内)で音を発する音源の位置が、カメラパスに対応する音源位置である。
The teacher
学習部103は、受信した教師データを元に、機械学習により学習済みモデルである音源算出モデルを作成、及び更新する。この時、教師データのうち音源位置、音源発生時刻、及び音源種別IDを、正解データとして扱うことで学習を行う。機械学習の具体的なアルゴリズムとしては、線形回帰、ロジスティック回帰、サポートベクターマシーン、ニューラルネットワークなどを用いることができる。
The
音源情報格納部104は、試合中に発生した音源に関する音源情報を格納する。例えば下記の表1に示すようなテーブルによって音源情報が管理される。なお、これらのデータは音源検出部111によって生成され、正解データとして扱われる。またこれらのデータは教師データ生成部102によって参照される。
The sound source
表1において、カラム104-1は、どの試合における音源なのかを一意に識別するための試合IDを格納する。カラム104-2は、音源が発生した時刻を格納する。カラム104-3は、発生した音源の種別を識別するための音源種別IDを格納する。カラム104-4、カラム104-5、及びカラム104-6はそれぞれ、発生した音源位置のX座標、Y座標、及びZ座標を格納する。表1の例では、単位はメートルを用いている。 In Table 1, column 104-1 stores a match ID for uniquely identifying which match the sound source is in. Column 104-2 stores the time when the sound source was generated. Column 104-3 stores a sound source type ID for identifying the type of the generated sound source. Column 104-4, column 104-5, and column 104-6 store the X-coordinate, Y-coordinate, and Z-coordinate of the generated sound source position, respectively. In the example of Table 1, the unit is meters.
音源種別格納部105は、音源の種別情報を格納している。例えば下記の表2のようなテーブルによって音源種別が管理される。
The sound source
表2において、カラム105-1は、音源の種別を識別するための音源種別IDを格納する。カラム105-2は、音源種別IDに対応する音源種別名を格納する。表2の例では、ラグビーの試合中に発生することが想定される音源の種別名が格納されている。 In Table 2, column 105-1 stores a sound source type ID for identifying the sound source type. Column 105-2 stores the sound source type name corresponding to the sound source type ID. In the example of Table 2, the type names of sound sources that are expected to occur during a rugby game are stored.
再学習部106は、適用フェーズにおいて音響生成システム20の音源位置算出部140が音源位置を算出した結果の妥当性を判定し、その結果をモデル生成部100にフィードバックする事で再学習を行う。上記判定処理は、音源履歴格納部129に格納されているデータを元に行われる。この判定処理については図4を用いて後述する。
The
音源検出部111は、映像データ格納部112から取得した映像データを元に音源を検出し、試合ID、音源発生時刻、音源種別、音源位置を決定し、音源情報格納部104にそれらのデータを格納する。本実施形態においては、映像データに対して映像認識処理を行うことで音源が検出されるものとする。但し音源の検出方法はこれに限定されない。例えば、作業者が映像を確認しながら一部またはすべての音源のデータを手動で入力してもよい。また例えば、音源となる人物や物体に付帯させた位置センサから出力されるGPS情報を用いて手動または自動で音源位置が検出されてもよい。映像データ格納部112には、俯瞰カメラで撮影した映像データが格納されている。俯瞰カメラは、フィールドを俯瞰する位置から撮影するカメラである。
The sound
カメラパス生成部130は、仮想視点映像を生成するためのカメラパスを生成する。カメラパスの生成方法としては、例えば、ユーザがジョイスティックコントローラを使用して仮想空間内で仮想視点を移動させる操作に基づいて、その操作に応じた入力からカメラパスを生成する方法などがある。ここで生成されたカメラパスは、カメラパス受信部101に送信される。
The camera
図1(B)に示すように、音響生成システム20は、音響生成部120とカメラパス生成部131とを有する。音響生成部120は、カメラパス受信部121、音源情報取得部122、マイク選択部123、競技音生成部124、歓声音生成部125、及びミックス部126を備える。更に音響生成部120は、収音信号格納部127、カメラパス履歴格納部128、音源履歴格納部129、及び音源位置算出部140を備える。
As shown in FIG. 1B, the
音源位置算出部140は、学習フェーズにおいてモデル生成部100で生成された音源算出モデルに、カメラパス生成部131で生成されたカメラパスを入力して処理することで、音源位置、音源発生時刻、及び音源種別IDを算出する。なお、本実施形態においては、音源算出モデルへの入力データをカメラパスとしているが、これに限定されない。例えば、撮影画像や、撮影画像から得られるパラメータが入力データに含まれてもよい。この場合、音源算出モデルを生成するための教師データにも、撮影画像や撮影画像から得られるパラメータが含まれる。
The sound source
ここで、撮影画像から得られるパラメータとは、例えばフィールドにおける領域ごとのオブジェクトの数や密度のような情報である。このようなデータを教師データ及び入力データに含むことで、ラグビーにおけるスクラムのような、選手が密集し競技音が発生しやすい状況において、正しく音源位置を算出できる可能性が高くなる。また、音源位置算出部140は、適用フェーズにて音源算出モデルから出力された音源位置に補正処理を行ってもよい。補正処理としては、例えば、1つ以上のマイクで収音された収音信号や、収音信号から算出されるパラメータに基づいて、音源位置を補正してもよい。
Here, the parameter obtained from the captured image is information such as the number and density of objects for each region in the field. By including such data in the teacher data and the input data, there is a high possibility that the sound source position can be calculated correctly in a situation where athletes are crowded and competition sounds are likely to occur, such as scrum in rugby. Further, the sound source
ここで、なぜカメラパスを基に音源位置や音源発生時刻が推測できるかについて補足説明する。カメラパスは、仮想視点を操作するユーザが、注目したいと思う被写体を仮想視点の視界に収めるように操作することで作成される。一方で、臨場感を向上させるために視聴者に聞かせたい競技音も、被写体の位置や被写体の近傍で発生することが多い。そのため、仮想視点が追いかけている被写体の位置と音源位置及び音源発生時刻との間には相関があり、機械学習によりカメラパスから音源位置及び音源発生時刻を推定することが可能となる。 Here, a supplementary explanation will be given as to why the sound source position and the sound source generation time can be estimated based on the camera path. The camera path is created by the user who operates the virtual viewpoint so that the subject he / she wants to pay attention to is within the field of view of the virtual viewpoint. On the other hand, competition sounds that the viewer wants to hear in order to improve the sense of presence are often generated at the position of the subject or in the vicinity of the subject. Therefore, there is a correlation between the position of the subject chased by the virtual viewpoint and the sound source position and the sound source generation time, and it becomes possible to estimate the sound source position and the sound source generation time from the camera path by machine learning.
またここで、なぜカメラパスを基に音源種別が推測できるかについて補足説明する。例えばラグビーにおけるプレースキックシーンのカメラパスを生成する場合には、蹴られる前のボールを仮想視点がアップで映し、蹴られた直後からは空中を舞うボールを仮想視点が追いかけるようなカメラパスが生成されることが多い。この例のように、カメラパスが表す仮想視点の動き方のパターンは、プレイの内容と相関があり、またプレイの内容と音源種別にも当然ながら相関がある。そのため、カメラパスと音源種別との間には相関があり、カメラパスから音源種別を推定することが可能となる。 Here, a supplementary explanation will be given as to why the sound source type can be inferred based on the camera path. For example, when generating a camera path for a place kick scene in rugby, a camera path is generated in which the virtual viewpoint shows the ball before being kicked up, and the virtual viewpoint chases the ball flying in the air immediately after being kicked. Often done. As in this example, the pattern of movement of the virtual viewpoint represented by the camera path has a correlation with the content of the play, and naturally there is a correlation between the content of the play and the sound source type. Therefore, there is a correlation between the camera path and the sound source type, and it is possible to estimate the sound source type from the camera path.
カメラパス受信部121は、カメラパス生成部131で生成されたカメラパスを受信する。音源情報取得部122は、カメラパス受信部121で取得したカメラパスを音源位置算出部140に送信し、返却値として音源発生時刻、音源種別、音源位置を取得する。
The camera
マイク選択部123は、音源情報取得部122が取得した音源位置に応じて、再生用の音響信号に含まれる競技音を収音するための1以上のマイクを選択する。選択方法としては、例えば、推定された音源位置からマイクまでの距離が、所定の閾値以下となるようなマイクを選んでもよい。また例えば、推定された音源位置に向けた指向性を有するマイクを選択したり、音源位置からの距離が閾値以下であり且つ音源位置に向けた指向性を有するマイクを選択したりしてもよい。
The
競技音生成部124は、マイク選択部123が選択したマイクで収音された収音信号を使用して、競技音として用いる音響信号を生成する。歓声音生成部125は、競技音を収音するためのマイクとは別に設置された歓声音収音用のマイクで収音した収音信号を使用して、歓声音として用いる音響信号を生成する。ミックス部126は、競技音生成部124が生成した音源と、歓声音生成部125が生成した音源とをミックスし、仮想視点映像と共に再生するための再生用の音響信号を生成する。
The competition
収音信号格納部127は、競技場に設置したマイクで収音した収音信号を格納している。本実施形態では、収音に用いたマイクと収音時刻の指定により所望の収音信号を抽出できるような形式で収音信号が格納されている。例えば、収音信号がデータベースの形式で格納されていて、SQLによりデータが参照されてもよい。または、収音信号がWAVE形式のファイル群で管理され、ファイル名を指定することでデータが参照されてもよい。
The sound collection
カメラパス履歴格納部128は、カメラパス受信部121により受信されたカメラパスの履歴を格納している。例えば下記の表3のようなテーブルによってカメラパスの履歴が管理される。
The camera path
カラム128-1は、カメラパスを一意に識別するためのカメラパスIDを格納する。カラム128-2は、カメラパスの内容を格納する。カメラパスの格納形式としては、例えば、カメラパスに含まれる時刻情報、並びに視点の位置及び向きの情報が、JSON形式で表現され、1つのデータとして格納されてもよい。また例えば、時刻情報、並びに視点の位置及び向きの情報が、データベースで管理されてもよい。 Column 128-1 stores a camera path ID for uniquely identifying the camera path. Column 128-2 stores the contents of the camera path. As the storage format of the camera path, for example, the time information included in the camera path and the information on the position and orientation of the viewpoint may be expressed in JSON format and stored as one data. Further, for example, time information and information on the position and orientation of the viewpoint may be managed in the database.
音源履歴格納部129は、音源算出モデルを適用して算出された音源情報の履歴を格納している。例えば下記の表4のようなテーブルによって音源情報の履歴が管理される。
The sound source
カラム129-1は、どの試合における音源の情報なのかを一意に識別するための試合IDを格納する。カラム129-2は、音源位置算出部140が音源位置を算出するために入力として用いたカメラパスに関連付けられたIDを格納する。カラム129-3は、音源が発生した時刻を格納する。カラム129-4は、発生した音源の種別を識別するための音源種別IDを格納する。カラム129-5、カラム129-6、及びカラム129-7はそれぞれ、発生した音源位置のX座標、Y座標、Z座標を格納する。表4の例では、座標の単位はメートルとしている。
Column 129-1 stores a match ID for uniquely identifying which match the sound source information is. Column 129-2 stores the ID associated with the camera path used as an input by the sound source
カラム129-8は、再学習部106によって判定が実施されたか否かの情報を格納する。本実施形態では、TRUEが格納されているとき、該当データについて既に再学習部106によって音源位置算出結果の妥当性が判定され、音源位置算出部140への結果のフィードバックが送信された状態である事を示している。
Column 129-8 stores information as to whether or not the determination has been performed by the
カメラパス生成部131は、カメラパス生成部130と同じく、仮想視点画像を生成するためのカメラパスを生成する。ここで生成されたカメラパスは、カメラパス受信部121に送信される。
Like the camera
図1(C)は、モデル生成部100及び音響生成部120のハードウェア構成を示す。モデル生成部100は、CPU161、ROM162、RAM163、補助記憶装置164、表示部165、操作部166、通信I/F167、GPU168及びバス169を有する情報処理装置により実現され得る。音響生成部120は、CPU171、ROM172、RAM173、補助記憶装置174、表示部175、操作部176、通信I/F177、GPU178及びバス179を有する情報処理装置により実現され得る。また、モデル生成部100と音響生成部120はネットワーク180を介して通信が可能である。
FIG. 1C shows the hardware configuration of the model generation unit 100 and the
CPU161は、ROM162やRAM163に格納されているコンピュータプログラムやデータを用いてモデル生成部100の全体を制御することで、図1(A)に示すモデル生成部100の各機能を実現する。なお、モデル生成部100がCPU161とは異なる1又は複数の専用のハードウェアを有し、CPU161による処理の少なくとも一部を専用のハードウェアが実行してもよい。そのような専用のハードウェアの例としては、ASIC(特定用途向け集積回路)、FPGA(フィールドプログラマブルゲートアレイ)、およびDSP(デジタルシグナルプロセッサ)などがある。
The
ROM162は、変更を必要としないプログラムなどを格納する。RAM163は、補助記憶装置164から供給されるプログラムやデータ、及び通信I/F167を介して外部から供給されるデータなどを一時記憶する。補助記憶装置164は、例えばハードディスクドライブ等で構成され、画像データや音響データなどの種々のデータを記憶する。なお、本実施形態では、音源情報格納部104、音源種別格納部105、及び映像データ格納部112は、補助記憶装置164により構成されているものとするが、これに限られるものではない。例えば、通信I/F167を介して接続された外部の装置により構成されてもよい。
The
表示部165は、例えば液晶ディスプレイやLED等で構成され、ユーザがモデル生成部100を操作するためのGUI(Graphical User Interface)などを表示する。操作部166は、例えばキーボードやマウス、ジョイスティック、タッチパネル等で構成され、ユーザによる操作を受けて各種の指示をCPU161に入力する。CPU161は、表示部165を制御する表示制御部、及び操作部166を制御する操作制御部として動作する。
The display unit 165 is composed of, for example, a liquid crystal display, an LED, or the like, and displays a GUI (Graphical User Interface) for the user to operate the model generation unit 100. The
通信I/F167は、モデル生成部100の外部の装置との通信に用いられる。例えば、モデル生成部100が外部の装置と有線で接続される場合には、通信用のケーブルが通信I/F167に接続される。モデル生成部100が外部の装置と無線通信する機能を有する場合には、通信I/F167はアンテナを備える。
The communication I /
GPU168は、データをより多く並列処理することで効率的な演算を行うことができるので、ディープラーニングのように学習モデルを用いて複数回に渡り学習を行う場合に有効である。そこで本実施形態では、学習部103による処理にはCPU161に加えてGPU168が用いられる。具体的には、学習モデルを用いて学習プログラムを実行する場合に、CPU161とGPU168が協働して演算を行うことで学習を行う。ただし、学習部103の処理がCPU161またはGPU168の何れか一方により実行されてもよい。
Since
バス169は、モデル生成部100の各部をつないで情報を伝達する。 The bus 169 connects each part of the model generation unit 100 to transmit information.
なお、本実施形態では表示部165と操作部166がモデル生成部100の内部に存在するものとするが、表示部165と操作部166との少なくとも一方がモデル生成部100の外部に別の装置として存在していてもよい。
In this embodiment, it is assumed that the display unit 165 and the
音響生成部120のハードウェア構成については、モデル生成部100のハードウェア構成と同様である。ただし、GPU178は、音源位置算出部140が音源位置を算出する際の処理に用いられてもよい。
The hardware configuration of the
[動作フロー]
図2は、学習フェーズにおけるモデル生成部100の処理を示すフローチャートである。図2に示す処理は、CPU161及びGPU168がROM162に格納されたプログラムをRAM163に展開して実行することで実現される。なお、図2に示す処理の少なくとも一部を、CPU161及びGPU168とは異なる1又は複数の専用のハードウェアにより実現してもよい。後述する図4及び図7に示すフローチャートの処理も同様である。図2に示す処理は、映像データ格納部112に映像データが格納され、カメラパス生成部130によりカメラパスが生成され、そのカメラパスに対応する音源が音源検出部111により検出された後、学習フェーズの開始が指示されたタイミングで開始される。ただし、図2に示す処理の開始タイミングはこれに限定されない。
[Operation flow]
FIG. 2 is a flowchart showing the processing of the model generation unit 100 in the learning phase. The process shown in FIG. 2 is realized by the
S201では、カメラパス生成部130で生成されたカメラパスをカメラパス受信部101が受信する。S202では、教師データ生成部102が、S201で受信したカメラパスに含まれる時刻情報を元に、カメラパスの開始時刻と終了時刻(すなわちカメラパスに基づいて生成される仮想視点映像に対応する撮影期間の開始時刻と終了時刻)を算出する。S203では、教師データ生成部102が、S201で受信したカメラパスに含まれる試合IDを取得する。
In S201, the camera
S204では、教師データ生成部102が、音源位置、音源発生時刻、及び音源種別IDを含む音源情報を音源情報格納部104から取得する。この時取得される音源情報は、表1における試合IDがS203で取得した試合IDに一致し、かつ表1における音源発生時刻がS202で算出したカメラパスの開始時刻から終了時刻までの間にある音源の情報である。
In S204, the teacher
S205~S208の処理は、S204で取得された音源情報それぞれについて実行される。S206では、教師データ生成部102が、S201で受信されたカメラパスを入力データとし、S202で取得された音源位置、音源発生時刻、及び音源種別IDを正解データとして、1組の教師データを生成する。S207では、学習部103が、S206で生成された教師データを用いて音源算出モデルを更新する。音源算出モデルの更新を音源情報毎に繰り返すことによって学習済みモデルとしての音源算出モデルが生成される。
The processes of S205 to S208 are executed for each of the sound source information acquired in S204. In S206, the teacher
図3は、適用フェーズにおける音響生成部120の処理を示すフローチャートである。図3に示す処理は、CPU171及びGPU178がROM172に格納されたプログラムをRAM173に展開して実行することで実現される。なお、図3に示す処理の少なくとも一部を、CPU171及びGPU178とは異なる1又は複数の専用のハードウェアにより実現してもよい。後述する図8に示すフローチャートの処理も同様である。図3に示す処理は、図2に示す学習フェーズの処理によって学習済みモデルとしての音源算出モデルが生成され、カメラパス生成部131によりカメラパスが生成された後、適用フェーズの開始が指示されたタイミングで開始される。ただし、図3に示す処理の開始タイミングはこれに限定されない。
FIG. 3 is a flowchart showing the processing of the
S301では、カメラパス生成部131で生成されたカメラパスをカメラパス受信部121が受信する。S302では、音源情報取得部122が、S301で取得したカメラパスを音源算出モデルに入力することで推定される音源位置、音源発生時刻、及び音源種別IDを取得する。この時、2組以上の音源情報が取得されてもよい。S303では、S302で取得された音源位置、音源発生時刻、及び音源種別IDが、音源履歴格納部129に格納される。ここで格納されたデータは、再学習部106により参照され、音源算出モデルにより算出された結果が正しかったかどうかを判定するために使用される。この判定処理については図4を用いて後述する。
In S301, the camera
S304では、マイク選択部123が、S303で算出された音源位置に基づいて使用マイクを選択する。マイクの選択方法としては、例えば図5のように、マイク501~512のそれぞれと音源位置520までの距離を求め、その距離が一定の閾値以下であるマイクを選択してもよい。また例えば、マイクの指向性も考慮した上でマイクを選択してもよい。また、マイク選択部123は、マイクの選択だけでなく、各マイクで収音された収音信号を競技音として再生用の音響信号にどれくらいの割合でミックスするかの係数をマイクごとに決定してもよい。
In S304, the
S305では、S304で選択されたマイクで収音された収音信号を収音信号格納部127から取得し、競技音を生成する。競技音の生成方法としては、例えば、音源種別IDが示す音源種別名がプレースキックだった場合に、音源発生時刻を元に、そのキックのインパクト音だけを収音信号から短い時間で切り出してもよい。S306では、カメラパスに対応した歓声音を生成する。歓声音の生成方法としては、例えば、複数の歓声音用マイクで収音した収音信号をLチャンネルとRチャンネルにバランスよく配置して、ステレオチャンネルを生成してもよい。また、仮想視点の変化に追従するように、ステレオチャンネル、または5.1チャンネルなどのマルチチャンネルの音響生成を行ってもよい。
In S305, the sound pick-up signal picked up by the microphone selected in S304 is acquired from the sound pick-up
S307では、S305で生成された競技音と、S306で生成された歓声音をミックスして、仮想視点映像と共に再生される音響信号を生成する。ミックスの手法としては、例えば、競技音と歓声音の平均レベルを算出し、同等のレベルになるように音量を自動で調整してミックスする手法等を仕様できる。生成された再生用の音響信号は、音響生成部120から外部のスピーカやネットワークや記憶装置へ出力される。このように、カメラパスから推定された音源位置に基づいて収音信号を合成して再生用の音響信号を生成することで、そのカメラパスに対応する仮想視点映像と共に再生するのに適した高臨場感の音響信号を生成することができる。
In S307, the competition sound generated in S305 and the cheering sound generated in S306 are mixed to generate an acoustic signal to be reproduced together with the virtual viewpoint image. As a mixing method, for example, a method of calculating the average level of the competition sound and the cheering sound and automatically adjusting the volume so as to have the same level and mixing can be specified. The generated acoustic signal for reproduction is output from the
次に図4を用いて、再学習部106が、適用フェーズにおける音源位置の推定結果が正しかったかどうかの判定を行い、その判定結果を音源算出モデルに再学習させる処理について説明する。図4に示す処理は、図3に示す適用フェーズの処理が行われたタイミングで開始される。ただし、図4に示す処理の開始タイミングはこれに限定されない。
Next, with reference to FIG. 4, a process in which the
S401では、音源履歴格納部129に格納されているデータの中で、カラム129-8の判定済フラグがFALSEであるデータの一部または全てが取得される。S402~S407の処理は、S401で取得された各データについて実行される。S403では、S401で取得されたデータの試合IDが取得される。S404では、S403で取得された試合IDに対応する試合の俯瞰カメラ映像が、映像データ格納部112から取得される。ただし、試合IDに対応する俯瞰カメラ映像がない場合は、例えばテレビ中継時の放送データ等、音源位置算出結果の判定が出来るデータで代替されもよい。なお、上記判定が可能な映像データが得られない場合は、判定が省略されてもよい。
In S401, among the data stored in the sound source
S405では、俯瞰カメラの映像に基づいて、S401で取得された履歴データにおける音源位置、音源発生時刻、及び音源種別IDが正しいかどうかが判定される。判定の方法としては、例えば、S401で取得された音源発生時刻において、音源位置が俯瞰カメラの映像上にマーキングされるようにして、判定者が目で見て正解か不正解かを判定してもよい。その場合、再学習部106は判定結果を受け付けるUIを有し、入力された情報(TRUE/FALSE)を判定結果として用いる。
In S405, it is determined whether or not the sound source position, the sound source generation time, and the sound source type ID in the history data acquired in S401 are correct based on the image of the bird's-eye view camera. As a method of determination, for example, at the sound source generation time acquired by S401, the sound source position is marked on the image of the bird's-eye view camera, and the judge visually determines whether the answer is correct or incorrect. May be good. In that case, the
S406では、S405で取得された判定結果とS401で取得されたデータとを用いて判定のフィードバックを行うことで音源算出モデルの更新が行われる。このような再学習により、音源算出モデルが改善され、その後の適用フェーズでの音源位置推定の精度が向上する。 In S406, the sound source calculation model is updated by feeding back the determination using the determination result acquired in S405 and the data acquired in S401. By such re-learning, the sound source calculation model is improved, and the accuracy of sound source position estimation in the subsequent application phase is improved.
[変形例]
上述した実施形態では、カメラパスを入力として音源位置を出力する音源算出モデルを機械学習により生成する構成について説明した。但し、音源算出モデルへの入力はカメラパスに限定されない。以下で説明する構成では、カメラパスを入力とする代わりに、マイクの位置及び向きと、マイクで収音した収音信号とを入力として、音源位置を推定する音源算出モデルを機械学習により生成する。
[Modification example]
In the above-described embodiment, a configuration is described in which a sound source calculation model that outputs a sound source position by inputting a camera path is generated by machine learning. However, the input to the sound source calculation model is not limited to the camera path. In the configuration described below, instead of inputting the camera path, a sound source calculation model that estimates the sound source position is generated by machine learning by inputting the position and orientation of the microphone and the sound collection signal collected by the microphone. ..
図6(A)は、本変形例において学習フェーズの処理を行う情報処理システム11の構成例を示すブロック図である。図6(B)は、本変形例において適用フェーズの処理を行う音響生成システム21の構成例を示すブロック図である。以下では、図1(A)及び図1(B)を用いて説明した構成と同様の処理を実施する部分については説明を省略し、差分を中心に説明をする。なお、ハードウェア構成に関しては図1(C)を用いて説明した内容と同様である。
FIG. 6A is a block diagram showing a configuration example of the
マイク641-1~641-Mは、収音領域内における音(例えばフィールドにおける歓声音または競技音)収音するために、フィールドの周辺等に設置されるマイクである。フィールドは、仮想視点画像を生成するために用いられる複数の撮影画像を取得する撮影装置が向けられる撮影領域でもある。マイク641-1~641-Mで収音された収音信号は収音信号格納部632に格納される。
The microphones 641-1 to 641-M are microphones installed around the field for collecting sounds (for example, cheering sounds or competition sounds in the field) in the sound collecting area. The field is also a shooting area to which a shooting device for acquiring a plurality of shot images used for generating a virtual viewpoint image is directed. The sound pick-up signal picked up by the microphones 641-1 to 641-M is stored in the sound pick-up
マイク情報格納部631は、設置されたマイクの位置と向きを示すマイク情報を格納している。例えば下記の表5のようなテーブルによってマイク情報は管理される。 The microphone information storage unit 631 stores microphone information indicating the position and orientation of the installed microphone. For example, microphone information is managed by a table as shown in Table 5 below.
カラム631-1は、どの試合において設置されたマイクの情報なのかを一意に識別するための試合IDを格納する。カラム631-2は、設置されたマイクを一意に識別するためのIDを格納する。カラム631-3、カラム631-4、及びカラム631-5はそれぞれ、マイク位置のX座標、Y座標、及びZ座標を格納する。表5の例では、座標の単位はメートルとしている。カラム631-6とカラム631-7はそれぞれ、マイクの向きを球面座標系であらわすための2つの角度である。カラム631-6は、Z軸と動径とがなす角度であり、0度から90度までの値を取る。また、90度が水平方向を表す。カラム631-7は、X軸とXY平面への動径の投射とがなす角であり、0度から360度までの値を取る。また、0度がX軸方向を表す。 The column 631-1 stores a match ID for uniquely identifying the information of the microphone installed in which match. Column 631-2 stores an ID for uniquely identifying the installed microphone. Columns 631-3, 631-4, and 631-5 store the X, Y, and Z coordinates of the microphone position, respectively. In the example of Table 5, the unit of coordinates is meters. Columns 631-6 and 631-7 are two angles for expressing the direction of the microphone in the spherical coordinate system, respectively. The column 631-6 is an angle formed by the Z axis and the radius, and takes a value from 0 degrees to 90 degrees. Also, 90 degrees represents the horizontal direction. Columns 631-7 are angles formed by the X-axis and the projection of the radius onto the XY plane, and take values from 0 degrees to 360 degrees. Further, 0 degree represents the X-axis direction.
収音信号格納部632は、フィールドに設置されたマイクで収音した収音信号を格納している。なお、収音信号格納部632は、モデル生成部600からアクセスできる場所に配置される。
The sound collection
教師データ生成部601は、マイク情報格納部631からマイク情報を取得し、収音信号格納部632から収音信号を取得する。また、教師データ生成部601は、収音信号に対応する収音期間の中で発生した全ての競技音について、音源位置、音源発生時刻、及び音源種別IDを音源情報格納部603から取得する。そして、教師データ生成部601は、取得したマイク情報、収音信号、音源位置、音源発生時刻、及び音源種別IDを教師データとして学習部602に送信する。学習部602は、受信した教師データを元に音源算出モデルを作成及び更新する。この時、教師データである音源位置、音源発生位置、及び音源種別IDは、正解データとして扱われる。
The teacher
音源位置算出部660は、マイクの位置、マイクの向き、マイクで収音した収音信号を音源算出モデルに入力して、音源位置、音源発生時刻、及び音源種別IDを推定する。音源算出モデルの学習フェーズでは、モデル生成部600によってモデルが生成及び更新される。音源算出モデルの適用フェーズでは、マイク情報格納部651に格納されているマイクの位置及び向きと、収音信号格納部652に格納されている収音信号を本番データとして、音源位置、音源発生時刻、及び音源種別IDが算出される。
The sound source
なお、本変形例においては、音源算出モデルへの入力データをマイクの位置、マイクの向き、及びマイクで収音した収音信号としているが、音源算出モデルへ入力されるデータはこれに限定されない。例えば、マイクの種別によって収音特性が変化する事を鑑みて、マイク種別が入力データに含まれてもよい。または、気温や湿度が音質に影響する事を鑑みて、気温及び湿度が入力データに含まれてもよい。また、収音対象となる空間の構造によって音の反響特性が変化する事を鑑みて、収音が行われた収音場所を示す場所情報が入力データに含まれてもよい。また、撮影画像や、撮影画像から得られるパラメータが入力データに含まれてもよい。 In this modification, the input data to the sound source calculation model is the position of the microphone, the direction of the microphone, and the sound collection signal collected by the microphone, but the data input to the sound source calculation model is not limited to this. .. For example, the microphone type may be included in the input data in view of the fact that the sound collection characteristic changes depending on the type of microphone. Alternatively, considering that the temperature and humidity affect the sound quality, the temperature and humidity may be included in the input data. Further, in view of the fact that the reverberation characteristic of the sound changes depending on the structure of the space to be picked up, the input data may include the place information indicating the place where the sound is picked up. Further, the captured image and the parameters obtained from the captured image may be included in the input data.
ここで、なぜマイクの位置、マイクの向き、及びマイクで収音した収音信号を基に音源位置及び音源発生時刻が推測できるかについて補足説明する。例えばサッカーにおいてシュートが発生した場合、マイクで収音した収音信号に含まれるキック音のタイミングと、マイク位置とシュート音の発生位置(音源位置)との間には、相関がある。また、指向性を有するマイクの向きとシュート音の収音レベルとには相関がある。このように、マイクの位置、マイクの向き、及びマイクで収音した収音信号と、音源位置には相関があるため、機械学習により推定が可能である。更に、単なる距離計算だけでなく機械学習を使う理由は、例えばシュート後の観客の盛り上がり等を検知することにより、シュートが発生したという事象の推定精度が向上するためである。この推定により、シュート音と、それ以外の音(例えば応援団の太鼓の音等)とを混同する可能性が低くなり、音源位置の推定精度が向上する。 Here, a supplementary explanation will be given as to why the sound source position and the sound source generation time can be estimated based on the position of the microphone, the direction of the microphone, and the sound pick-up signal picked up by the microphone. For example, when a shoot occurs in soccer, there is a correlation between the timing of the kick sound included in the sound pick-up signal picked up by the microphone and the position of the microphone and the position where the shoot sound is generated (sound source position). In addition, there is a correlation between the orientation of the microphone having directivity and the pick-up level of the shooting sound. As described above, since there is a correlation between the position of the microphone, the direction of the microphone, and the sound source signal picked up by the microphone, the sound source position can be estimated by machine learning. Furthermore, the reason for using machine learning in addition to mere distance calculation is that, for example, by detecting the excitement of the spectator after shooting, the estimation accuracy of the event that the shooting has occurred is improved. This estimation reduces the possibility of confusing the shoot sound with other sounds (for example, the sound of the drum of a cheering party), and improves the estimation accuracy of the sound source position.
また、なぜマイクの位置、マイクの向き、及びマイクで収音した収音信号を基に音源種別が推測できるかについて補足説明する。例えば前述したように、観客の盛り上がり等を検知することにより、シュートが行われたのか、コーナーキックが行われたのか、等が推定可能となる。このように、マイクで収音した収音信号と、音源種別とには相関があるため、機械学習を用いることで推定が可能となる。 In addition, a supplementary explanation will be given as to why the sound source type can be estimated based on the position of the microphone, the direction of the microphone, and the sound pick-up signal picked up by the microphone. For example, as described above, by detecting the excitement of the spectators, it is possible to estimate whether a shot has been taken or a corner kick has been taken. In this way, since there is a correlation between the sound pick-up signal picked up by the microphone and the sound source type, it is possible to estimate by using machine learning.
音源情報取得部622は、カメラパス受信部621が受信したカメラパスを取得する。また、音源情報取得部622は、上記カメラパスの開始時刻から終了時刻までの期間に対応する収音信号を、収音信号格納部652から取得する。また、音源情報取得部622は、マイク情報をマイク情報格納部651から取得する。これらの取得したデータを音源算出モデルに入力することで、音源位置、音源発生時刻、及び音源種別IDが取得できる。
The sound source
図7は、本変形例の学習フェーズにおけるモデル生成部600の処理を示すフローチャートである。図7に示す処理は、データ格納部630に収音信号とマイク情報が格納され、音源検出部111により音源が検出された後、学習フェーズの開始が指示されたタイミングで開始される。ただし、図2に示す処理の開始タイミングはこれに限定されない。
FIG. 7 is a flowchart showing the processing of the
S701では、試合IDが取得される。取得方法としては、例えば、外部の操作用PCを介してオペレータが学習の対象としたい試合を選択することで、選択された試合に対応した試合IDが教師データ生成部601に送られる。また例えば、まだ学習が行われていない試合もしくは音源位置に対して、自動で試合IDが決定されてもよい。
In S701, the match ID is acquired. As an acquisition method, for example, the operator selects a match to be learned via an external operating PC, and the match ID corresponding to the selected match is sent to the teacher
S702では、マイク情報格納部631から、S701で取得した試合IDに対応するマイク情報が取得される。S703では、収音信号格納部632から、S701で取得した試合IDに対応する収音信号が取得される。S704では、教師データ生成部601が、音源位置、音源発生時刻、及び音源種別IDを含む音源情報を音源情報格納部604から取得する。ここで取得される音源情報は、表1の試合IDがS701で取得した試合IDに一致する音源についての情報である。
In S702, the microphone information corresponding to the match ID acquired in S701 is acquired from the microphone information storage unit 631. In S703, the sound collection signal corresponding to the match ID acquired in S701 is acquired from the sound collection
S705~S709の処理は、S704で取得した各音源情報について実行される。S706では、取得した音源発生時刻の前後数秒間の範囲の収音信号が、S703で取得した収音信号から切り出される。何秒間分切り出すかは、音源算出モデルにおける機械学習のアルゴリズムに依存する。特に、音源発生時刻の前後の歓声の盛り上がり方等も含めて学習を行う場合は、前後10秒以上の範囲で切り出してもよい。 The processes of S705 to S709 are executed for each sound source information acquired in S704. In S706, the sound pick-up signal in the range of several seconds before and after the acquired sound source generation time is cut out from the sound pick-up signal acquired in S703. The number of seconds to cut out depends on the machine learning algorithm in the sound source calculation model. In particular, when learning is performed including how the cheers rise before and after the sound source generation time, it may be cut out within a range of 10 seconds or more before and after.
S707では、教師データ生成部601が、S702で取得したマイク情報及びS706で切り出した収音信号を入力データとし、S704で取得した音源位置、音源発生時刻、及び音源種別IDを正解データとして、1組の教師データを生成する。S708では、学習部602にが、S707で生成した教師データを用いて音源算出モデルを更新する。音源算出モデルの更新を音源情報毎に繰り返すことによって学習済みモデルとしての音源算出モデルが生成される。
In S707, the teacher
図8は、本変形例の適用フェーズにおける音響生成部620の処理を示すフローチャートである。図8に示す処理は、図7に示す学習フェーズの処理によって学習済みモデルとしての音源算出モデルが生成され、データ格納部650にマイク情報と収音信号が格納された後、適用フェーズの開始が指示されたタイミングで開始される。ただし、図8に示す処理の開始タイミングはこれに限定されない。
FIG. 8 is a flowchart showing the processing of the
S801では、カメラパス生成部643で生成されたカメラパスをカメラパス受信部621が受信する。S802では、S801で取得したカメラパスから試合IDが取得される。S803では、マイク情報格納部651から、S802で取得された試合IDに対応するマイク情報が取得される。S804では、収音信号格納部652から、S802で取得された試合IDに対応し、かつS801で取得したカメラパスの開始時刻から終了時刻までの期間に対応する収音信号が取得される。S805では、音源位置算出部660が、S803で取得されたマイク情報と、S804で取得された収音信号を音源算出モデルに入力し、音源位置、音源発生時刻、及び音源種別IDを算出する。この時、2組以上の音源情報が取得されてもよい。
In S801, the camera
S806~S809の処理は、図3を用いて説明したS304~S307の処理と同様であるため、説明を省略する。このように、マイク情報及び収音信号から推定された音源位置に基づいて収音信号を合成して再生用の音響信号を生成することで、収音期間に対応する仮想視点映像と共に再生するのに適した高臨場感の音響信号を生成することができる。 Since the processing of S806 to S809 is the same as the processing of S304 to S307 described with reference to FIG. 3, the description thereof will be omitted. In this way, by synthesizing the sound pickup signal based on the sound source position estimated from the microphone information and the sound collection signal to generate an acoustic signal for reproduction, the sound is reproduced together with the virtual viewpoint image corresponding to the sound collection period. It is possible to generate a highly realistic acoustic signal suitable for.
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC等)によっても実現可能である。また、そのプログラムをコンピュータにより読み取り可能な記録媒体に記録して提供してもよい。 The present invention supplies a program that realizes one or more functions of the above-described embodiment to a system or device via a network or storage medium, and one or more processors in the computer of the system or device reads and executes the program. It can also be realized by the processing to be performed. It can also be realized by a circuit (for example, ASIC or the like) that realizes one or more functions. Further, the program may be recorded and provided on a recording medium readable by a computer.
10 情報処理システム
20 音響生成システム
100 モデル生成部
120 音響生成部
10
Claims (18)
前記取得手段により取得された前記視点情報に基づいて、前記撮影領域内の音源の位置を推定する推定手段と、を有することを特徴とする情報処理装置。 An acquisition means for acquiring viewpoint information indicating the transition of a virtual viewpoint corresponding to a virtual viewpoint image generated based on a plurality of shot images obtained by shooting a shooting area from a plurality of directions.
An information processing apparatus comprising: an estimation means for estimating the position of a sound source in the photographing region based on the viewpoint information acquired by the acquisition means.
機械学習により得られた学習済みモデルであって、前記視点情報を含む入力データに応じて前記撮影領域内の音源に関するデータを出力する学習済みモデルに、前記取得手段により取得された前記視点情報を入力し、
前記学習済みモデルから出力されるデータに基づいて、前記撮影領域内の音源の位置を推定する
ことを特徴とする請求項1に記載の情報処理装置。 The estimation means is
The viewpoint information acquired by the acquisition means is applied to a trained model obtained by machine learning that outputs data related to a sound source in the photographing region according to input data including the viewpoint information. type in,
The information processing apparatus according to claim 1, wherein the position of a sound source in the photographing area is estimated based on the data output from the trained model.
請求項2乃至5の何れか1項に記載の情報処理装置と、を有することを特徴とする情報処理システム。 A learning means for generating the trained model by using the viewpoint information indicating the transition of the virtual viewpoint corresponding to the virtual viewpoint image and the sound source information indicating the position of the sound source as teacher data.
An information processing system comprising the information processing apparatus according to any one of claims 2 to 5.
機械学習により得られた学習済みモデルであって、前記マイク情報と前記収音信号とを含む入力データに応じて前記収音領域内の音源に関するデータを出力する学習済みモデルに、前記取得手段により取得されたマイク情報と収音信号とを入力し、且つ、前記学習済みモデルから出力されるデータに基づいて前記収音領域内の音源の位置を推定する推定手段と、
を有することを特徴とする情報処理装置。 An acquisition means for acquiring microphone information indicating the positions of a plurality of microphones for collecting sound in the sound collection region, and a sound collection signal acquired based on sound collection by the plurality of microphones.
The acquired model is a trained model obtained by machine learning and outputs data related to a sound source in the sound collecting region according to input data including the microphone information and the sound collecting signal by the acquisition means. An estimation means that inputs the acquired microphone information and the sound collection signal and estimates the position of the sound source in the sound collection area based on the data output from the trained model.
An information processing device characterized by having.
前記取得工程において取得された前記視点情報に基づいて、前記撮影領域内の音源の位置を推定する推定工程と、を有することを特徴とする情報処理方法。 An acquisition process for acquiring viewpoint information indicating the transition of a virtual viewpoint corresponding to a virtual viewpoint image generated based on a plurality of shot images obtained by shooting a shooting area from a plurality of directions, and an acquisition process.
An information processing method comprising an estimation step of estimating the position of a sound source in the photographing region based on the viewpoint information acquired in the acquisition step.
機械学習により得られた学習済みモデルであって、前記視点情報を含む入力データに応じて前記撮影領域内の音源に関するデータを出力する学習済みモデルに、前記取得工程において取得された前記視点情報を入力し、
前記学習済みモデルから出力されるデータに基づいて、前記撮影領域内の音源の位置を推定する
ことを特徴とする請求項13に記載の情報処理方法。 The estimation process is
The viewpoint information acquired in the acquisition step is applied to a trained model obtained by machine learning, which outputs data related to a sound source in the photographing region according to input data including the viewpoint information. type in,
The information processing method according to claim 13, wherein the position of the sound source in the photographing area is estimated based on the data output from the trained model.
機械学習により得られた学習済みモデルであって、前記マイク情報と前記収音信号とを含む入力データに応じて前記収音領域内の音源に関するデータを出力する学習済みモデルに、前記取得工程において取得されたマイク情報と収音信号とを入力し、且つ、前記学習済みモデルから出力されるデータに基づいて前記収音領域内の音源の位置を推定する推定工程と、
を有することを特徴とする情報処理方法。 An acquisition process for acquiring microphone information indicating the positions of a plurality of microphones for collecting sound in the sound collection region and sound collection signals acquired based on sound collection by the plurality of microphones.
In the acquisition process, a trained model obtained by machine learning that outputs data related to a sound source in the sound collection region according to input data including the microphone information and the sound collection signal. An estimation process in which the acquired microphone information and the sound collection signal are input, and the position of the sound source in the sound collection area is estimated based on the data output from the trained model.
An information processing method characterized by having.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020109838A JP2022007108A (en) | 2020-06-25 | 2020-06-25 | Information processor, information processing method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020109838A JP2022007108A (en) | 2020-06-25 | 2020-06-25 | Information processor, information processing method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022007108A true JP2022007108A (en) | 2022-01-13 |
Family
ID=80111007
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020109838A Pending JP2022007108A (en) | 2020-06-25 | 2020-06-25 | Information processor, information processing method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2022007108A (en) |
-
2020
- 2020-06-25 JP JP2020109838A patent/JP2022007108A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7013139B2 (en) | Image processing device, image generation method and program | |
US20150116502A1 (en) | Apparatus and method for dynamically selecting multiple cameras to track target object | |
US9747870B2 (en) | Method, apparatus, and computer-readable medium for superimposing a graphic on a first image generated from cut-out of a second image | |
JP7023696B2 (en) | Information processing equipment, information processing methods and programs | |
JP2014238731A (en) | Image processor, image processing system, and image processing method | |
US20210168411A1 (en) | Storage medium, video image generation method, and video image generation system | |
JP2020086983A (en) | Image processing device, image processing method, and program | |
CN113822970A (en) | Live broadcast control method and device, storage medium and electronic equipment | |
KR20200057484A (en) | Method and apparatus for displaying a strike zone | |
JP2020042665A (en) | Information processing apparatus, control method thereof, and program | |
JP7446754B2 (en) | Image processing device, image processing method, and program | |
JP6410769B2 (en) | Information processing system, control method therefor, and computer program | |
JP2021086189A (en) | Information processing apparatus, information processing method, video processing system, and program | |
JP6593922B2 (en) | Image surveillance system | |
JP2020205549A (en) | Video processing apparatus, video processing method, and program | |
JP5664215B2 (en) | Augmented reality display system, augmented reality display method used in the system, and augmented reality display program | |
JP2022007108A (en) | Information processor, information processing method, and program | |
JP2018019295A (en) | Information processing system, control method therefor, and computer program | |
JP2005295181A (en) | Voice information generating apparatus | |
JP2020101845A (en) | Image processing apparatus, image processing system, image processing method, and program | |
JP7240258B2 (en) | IMAGE PROCESSING DEVICE, CONTROL METHOD AND PROGRAM OF IMAGE PROCESSING DEVICE | |
KR102215146B1 (en) | Method, apparatus and computer program for providing interactive service using augmented reality and mixed reality | |
JP6450305B2 (en) | Information acquisition apparatus, information acquisition method, and information acquisition program | |
JP6664456B2 (en) | Information processing system, control method therefor, and computer program | |
JP6632134B2 (en) | Image processing apparatus, image processing method, and computer program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20200713 |