JP7278720B2 - Generation device, generation method and program - Google Patents

Generation device, generation method and program Download PDF

Info

Publication number
JP7278720B2
JP7278720B2 JP2018122424A JP2018122424A JP7278720B2 JP 7278720 B2 JP7278720 B2 JP 7278720B2 JP 2018122424 A JP2018122424 A JP 2018122424A JP 2018122424 A JP2018122424 A JP 2018122424A JP 7278720 B2 JP7278720 B2 JP 7278720B2
Authority
JP
Japan
Prior art keywords
image
object plane
camera
projection
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018122424A
Other languages
Japanese (ja)
Other versions
JP2020004053A (en
Inventor
知頼 岩尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2018122424A priority Critical patent/JP7278720B2/en
Publication of JP2020004053A publication Critical patent/JP2020004053A/en
Application granted granted Critical
Publication of JP7278720B2 publication Critical patent/JP7278720B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Studio Devices (AREA)
  • Image Analysis (AREA)
  • Length Measuring Devices By Optical Means (AREA)
  • Processing Or Creating Images (AREA)

Description

本発明は、3次元形状データを生成する生成装置、生成方法及びプログラムに関する。 The present invention relates to a generation device, generation method, and program for generating three-dimensional shape data.

地形分析やストリートビューイングなど様々な用途のために、カメラの撮影画像を解析して、地形の3次元位置情報(3次元形状データ)を取得する需要がある。特許文献1では、ステレオマッチング法を用いて、地形を複数の方向から撮影した航空写真から3次元形状データの取得を行っている。 For various purposes such as terrain analysis and street viewing, there is a demand for analyzing images captured by cameras and acquiring three-dimensional position information (three-dimensional shape data) of terrain. In Patent Literature 1, three-dimensional shape data is acquired from aerial photographs of terrain taken from a plurality of directions using a stereo matching method.

国際公開WO08/152740号明細書International Publication WO08/152740

しかし、特許文献1のようなステレオマッチング法では、画像間の画素毎のマッチングを利用しているため、被写体面上の模様によっては、精度よく3次元形状データを取得することができない場合がある。例えば、競技フィールドに描かれたラインのように色がほぼ同じでかつ、ある方向に延伸するような模様が描かれた被写体面については、上記マッチングの精度が上がらず、被写体面の3次元形状データを精度よく取得することはできない。 However, since the stereo matching method as disclosed in Patent Document 1 uses matching for each pixel between images, it may not be possible to acquire three-dimensional shape data with high accuracy depending on the pattern on the object plane. . For example, for a subject plane with a pattern drawn that has almost the same color and that extends in a certain direction, such as lines drawn on a competition field, the accuracy of the above matching does not improve, and the three-dimensional shape of the subject plane Data cannot be obtained with high accuracy.

本発明では、被写体面上の模様によらず、高精度の3次元形状データを取得することを目的とする。 An object of the present invention is to obtain highly accurate three-dimensional shape data regardless of the pattern on the object surface.

本発明の生成装置は、被写体面を複数の方向から撮影して取得される複数の撮影画像を取得する第1取得手段と、前記被写体面における模様の位置及び形状を示す情報を取得する第2取得手段と、前記第1取得手段により取得された前記複数の撮影画像と、前記第2取得手段により取得された前記模様の位置及び形状を示す情報とに基づき、前記被写体面における複数の領域毎に3次元位置情報を決定する決定手段と、前記決定手段により決定された前記領域毎の3次元位置情報に基づき、前記被写体面に対応する3次元形状データを生成する生成手段と、前記第1取得手段により取得された複数の撮影画像に基づき、前記領域毎及び前記被写体面からの距離毎に、前記被写体面からの距離が異なる投影面における投影画像を生成する投影手段と、前記領域毎及び前記被写体面からの距離毎に、前記被写体面からの距離が同じである複数の投影画像を合成して合成画像を生成する合成手段とを有し、前記決定手段は、前記合成手段により生成された、前記領域毎及び前記被写体面からの距離毎の合成画像に基づいて、前記領域毎に3次元位置情報を決定することを特徴とする。 The generating apparatus of the present invention includes first obtaining means for obtaining a plurality of photographed images obtained by photographing a subject plane from a plurality of directions, and second obtaining means for obtaining information indicating the position and shape of a pattern on the subject plane. for each of a plurality of areas on the subject plane based on the acquisition means, the plurality of photographed images acquired by the first acquisition means, and the information indicating the position and shape of the pattern acquired by the second acquisition means; generating means for generating three-dimensional shape data corresponding to the object plane based on the three-dimensional position information for each region determined by the determining means; and the first projection means for generating a projection image on a projection plane having a different distance from the object plane for each area and for each distance from the object plane, based on the plurality of captured images acquired by the acquisition means; synthesizing means for synthesizing a plurality of projected images having the same distance from the object plane to generate a synthetic image for each distance from the object plane, wherein the determining means is generated by the synthesizing means; Further, the three-dimensional position information is determined for each area based on the synthesized image for each area and for each distance from the object plane.

本発明によれば、被写体面上の模様によらず、高精度の3次元形状データを取得することができる。 According to the present invention, highly accurate three-dimensional shape data can be acquired regardless of the pattern on the object surface.

被写体面の3次元形状データを生成する生成装置の構成の一例を示す図。FIG. 2 is a diagram showing an example of the configuration of a generation device that generates three-dimensional shape data of an object plane; カメラ群を構成する各カメラの一例を示した図。FIG. 4 is a diagram showing an example of each camera that constitutes a camera group; 実施形態1の概念を説明するための図。FIG. 2 is a diagram for explaining the concept of the first embodiment; FIG. フィールドに描かれるラインの形状の模式図。Schematic diagram of the shape of the line drawn in the field. 実施形態1に係る生成装置の論理構成の一例を示すブロック図。FIG. 2 is a block diagram showing an example of the logical configuration of the generation device according to the first embodiment; FIG. 実施形態1に係る生成装置の処理の流れを示すフローチャート。4 is a flowchart showing the flow of processing of the generation device according to the first embodiment; 投影面の高さの違いによる投影画像上のラインの見え方の違いを表す模式図。4A and 4B are schematic diagrams showing how lines on a projected image appear differently depending on the height of the projection plane; FIG. カメラ信頼度を説明するための図。FIG. 4 is a diagram for explaining camera reliability; 投影面の高さ毎に、投影画像を合成した合成画像を表す模式図。FIG. 4 is a schematic diagram showing a composite image obtained by combining projection images for each height of a projection plane; 実施形態2に係る生成装置の論理構成の一例を示すブロック図。FIG. 10 is a block diagram showing an example of the logical configuration of a generation device according to the second embodiment; 実施形態2に係る生成装置の処理の流れを示すフローチャート。9 is a flow chart showing the flow of processing of the generating device according to the second embodiment; 実施形態3に係る画像処理システムの構成例を示す図。FIG. 11 is a diagram showing a configuration example of an image processing system according to a third embodiment;

以下、本発明の実施形態について、図面を参照して説明する。なお、以下の実施形態は本発明を限定するものではなく、また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明する。 BEST MODE FOR CARRYING OUT THE INVENTION Hereinafter, embodiments of the present invention will be described with reference to the drawings. It should be noted that the following embodiments do not limit the present invention, and not all combinations of features described in the embodiments are essential for the solution of the present invention. In addition, the same configuration will be described by attaching the same reference numerals.

また、以下の実施形態では、スタジアムのフィールド(グラウンド)の3次元形状データの生成を例に説明を行うが、本発明の適用はこれに限られない。本発明は、一般的な地形、道路の形状、壁面の形状、絵画の形状、壁画の形状についての3次元情報の取得にも応用することができる。 In addition, in the following embodiments, generation of three-dimensional shape data of a stadium field (ground) will be described as an example, but application of the present invention is not limited to this. The present invention can also be applied to obtain three-dimensional information on general topography, road shape, wall surface shape, painting shape, and wall painting shape.

本実施形態において、3次元形状データは、ほぼ平面である被写体面の3次元形状を表すデータであり、例えば、撮像対象となる撮像空間を一意に示す世界座標空間における3次元空間のx、y、zの位置情報を持った点群で表現されるものである。また、3次元形状データは、点群で表現されるものに限定されず、他のデータ形式で表現されてもよく、例えば、三角形や四角形などの単純な凸多角形(ポリゴンと呼ばれる)の面で構成されるポリゴンメッシュデータやボクセルなどで表現されてもよい。 In the present embodiment, the three-dimensional shape data is data representing the three-dimensional shape of a substantially planar object plane. , z with position information. In addition, the three-dimensional shape data is not limited to being represented by a point cloud, and may be represented by other data formats. may be represented by polygon mesh data, voxels, or the like.

また、本実施形態における画像は、画像データであって、必ずしもディスプレイ等の表示デバイスで表示させるために生成される、視認可能な画像でなくてもよい。 Also, the image in the present embodiment is image data, and does not necessarily have to be a visible image that is generated to be displayed on a display device such as a display.

[実施形態1]
図1は本実施形態における、3次元形状データを生成する生成装置100の構成の一例を示す図である。生成装置100は、CPU(Central Processing Unit)101、メインメモリ102、記憶部103、入力部104、表示部105、外部I/F部106を備え、各部がバス107を介して接続されている。まず、CPU101は、生成装置100を統括的に制御する演算処理装置であり、記憶部103等に格納された各種プログラムを実行して様々な処理を行う。メインメモリ102は、各種処理で用いるデータやパラメータなどを一時的に格納するほか、CPU101に作業領域を提供する。記憶部103は、各種プログラムやGUI(Graphical User Interface)表示に必要な各種データを記憶する大容量記憶装置で、例えばハードディスクやシリコンディスク等の不揮発性メモリが用いられる。
[Embodiment 1]
FIG. 1 is a diagram showing an example of the configuration of a generation device 100 that generates three-dimensional shape data according to this embodiment. The generation device 100 includes a CPU (Central Processing Unit) 101 , a main memory 102 , a storage section 103 , an input section 104 , a display section 105 and an external I/F section 106 , which are connected via a bus 107 . First, the CPU 101 is an arithmetic processing device that controls the generation device 100 in an integrated manner, and executes various programs stored in the storage unit 103 or the like to perform various processes. The main memory 102 temporarily stores data and parameters used in various processes, and also provides a work area to the CPU 101 . The storage unit 103 is a large-capacity storage device that stores various programs and various data necessary for GUI (Graphical User Interface) display, and uses a non-volatile memory such as a hard disk or a silicon disk.

入力部104は、キーボードやマウス、電子ペン、タッチパネル等の装置であり、ユーザからの操作入力を受け付ける。表示部105は、液晶パネルなどで構成され、分析結果のGUI表示などを行う。外部I/F部106は、カメラ群109を構成する各カメラとLAN108を介して接続され、映像データや制御信号データの送受信を行う。バス107は上述の各部を接続し、データ転送を行う。 The input unit 104 is a device such as a keyboard, mouse, electronic pen, touch panel, etc., and receives operation input from the user. A display unit 105 is configured by a liquid crystal panel or the like, and performs GUI display of analysis results. The external I/F unit 106 is connected to each camera constituting the camera group 109 via the LAN 108, and transmits and receives video data and control signal data. A bus 107 connects the above-described units and performs data transfer.

生成装置100は、LAN108経由でカメラ群109と接続されている。カメラ群109は、生成装置100からの制御信号をもとに、撮影の開始や停止、カメラ設定(シャッタースピード、絞りなど)の変更、撮影した映像データの転送を行う。 The generation device 100 is connected to the camera group 109 via the LAN 108 . Based on the control signal from the generation device 100, the camera group 109 starts and stops shooting, changes camera settings (shutter speed, aperture, etc.), and transfers captured image data.

なお、生成装置100の構成については、上記以外にも、様々な構成要素が存在するが、本実施形態の主眼ではないので、その説明は省略する。 Note that the configuration of the generation device 100 includes various components other than those described above, but they are not the main focus of the present embodiment, so description thereof will be omitted.

図2は、カメラ群109を構成する各カメラの配置例を示した図である。ここではスタジアムに10台のカメラを設置した例を示すが、カメラの台数や設置位置はこれに限られない。競技を行うフィールド201上に選手202やボールが存在し、10台のカメラ203a~203jがフィールド201の周りに配置されている。カメラ群109を構成する個々のカメラ203a~203jにおいて、フィールド201全体、或いはフィールド201の注目領域が画角内に収まるように、適切なカメラの向き、焦点距離、露出制御パラメータ等が設定されている。 FIG. 2 is a diagram showing an arrangement example of each camera constituting the camera group 109. As shown in FIG. Here, an example in which 10 cameras are installed in the stadium is shown, but the number and installation positions of the cameras are not limited to this. A player 202 and a ball are present on a field 201 on which a game is played, and ten cameras 203a to 203j are arranged around the field 201. FIG. In each of the cameras 203a to 203j that make up the camera group 109, appropriate camera orientation, focal length, exposure control parameters, etc. are set so that the entire field 201 or the attention area of the field 201 fits within the angle of view. there is

図3は本実施形態の概要を示す図である。本実施形態では、まずSTEP.1のように、フィールド201に描かれるラインの2次元的な位置や形状を基に、フィールドを複数の領域に分割する。図4には、フィールドに描かれたラインの形状を表す。このラインは、ある方向に延伸し、その方向に垂直な方向に有限の幅を持つパターンのことを指す。ラインの長さや幅は、競技の規格でその大きさが決められている。本実施形態では、ラインのような特定パターン(模様)を基に、領域毎にフィールドの高さを取得するため、このラインを含むように、フィールド201を仮想的に複数の分割領域に分割する。この分割は、カメラで撮影して得られた撮影画像において分割されてもよい。図3(a)においては、6つの分割領域(S1~S6)に分割される例を示す。なお、分割領域は、撮像画像に対して仮想的に設定されてもよいし、後述する投影画像に対して仮想的に設定されてもよい。 FIG. 3 is a diagram showing an outline of this embodiment. In this embodiment, STEP. 1, the field is divided into a plurality of regions based on the two-dimensional positions and shapes of the lines drawn in the field 201 . FIG. 4 shows the shape of lines drawn in the field. A line refers to a pattern that extends in a direction and has a finite width in the direction perpendicular to that direction. The length and width of the line are determined by competition standards. In this embodiment, in order to obtain the height of the field for each region based on a specific pattern such as lines, the field 201 is virtually divided into a plurality of divided regions so as to include the lines. . This division may be made in the photographed image obtained by photographing with a camera. FIG. 3(a) shows an example of division into six divided areas (S1 to S6). Note that the divided regions may be virtually set with respect to the captured image, or may be virtually set with respect to the projection image described later.

この特定パターンであるラインに関する情報(例えば、フィールド上の位置や、延伸方向の長さや延伸方向に垂直な方向の幅などの形状を示す情報)に関しては、事前に入力部104を介して生成装置100に入力される。ただし、撮影画像や、この後のSTEP.2で出力する投影画像から生成装置100が決定するようにしてもよい。本実施形態では、ラインに関する情報を事前に入力されて生成装置100が取得する場合について述べる。 Information about the line that is the specific pattern (for example, information indicating the shape such as the position on the field, the length in the extending direction, the width in the direction perpendicular to the extending direction, etc.) 100 is entered. However, the photographed image and the subsequent STEP. 2 may be determined by the generation device 100 from the projection image output in step 2. FIG. In this embodiment, a case will be described in which information about lines is input in advance and acquired by the generation device 100 .

次にSTEP.2のように、被写体面であるフィールドからの距離(高さ)が異なる投影面での投影画像を、カメラの撮影画像に基づき生成する。図3(b)では、分割領域S1については、カメラ1~10のすべてのカメラで撮影している例を示す。この場合、領域S1については、カメラ1により取得された撮影画像をフィールドからの高さが異なる複数の投影面へ投影し、複数の投影画像を生成する。例えば、高さを5cm刻みで、フィールドの中央点の高さを0cmとして、-15cmから+15cmまでの投影面に投影して投影画像を生成する場合、カメラ1により取得された撮影画像からは、7枚の投影画像が生成される。この投影画像を、分割領域S1を撮影しているカメラ1~10の10台から生成すると、分割領域S1で、被写体面の距離毎に、計70(=7×10)枚の投影画像が生成される。また、他の分割領域においても同様に、複数の投影画像が生成される。ただし、例えば、ある分割領域においては、カメラ3によって撮影されていなかった場合は、そのカメラ3以外のカメラの撮影画像から、投影画像を生成するようにする。 Next, STEP. 2, projection images on projection planes with different distances (heights) from the field, which is the object plane, are generated based on the images captured by the camera. FIG. 3B shows an example in which all the cameras 1 to 10 are used to capture the divided area S1. In this case, for the area S1, the photographed images acquired by the camera 1 are projected onto a plurality of projection planes having different heights from the field to generate a plurality of projected images. For example, when the height is set in increments of 5 cm and the height of the central point of the field is set to 0 cm, and the projection image is generated by projecting onto the projection plane from −15 cm to +15 cm, the captured image acquired by the camera 1 is: Seven projection images are generated. When this projected image is generated from the ten cameras 1 to 10 photographing the divided area S1, a total of 70 (=7×10) projected images are generated for each distance of the object plane in the divided area S1. be done. A plurality of projected images are similarly generated in other divided areas. However, for example, in a certain divided area, if the image is not captured by the camera 3, the projection image is generated from the image captured by the camera other than the camera 3.

また、この投影面の高さは、フィールド上における任意の点を基準としてもよい。例えば、フィールドの中央点を基準点として、このフィールドの基準点を含む平行な平面に平行な面を投影面として設定してもよい。具体的には、その基準点を3次元座標で(0,0,0)として、基準点近傍の被写体面上の領域をxy平面である基準平面として、その基準平面からのz方向の距離を変えて投影面を設定してもよい。 Also, the height of this projection plane may be based on an arbitrary point on the field. For example, the center point of the field may be used as a reference point, and a plane parallel to a parallel plane containing the reference point of the field may be set as the projection plane. Specifically, the reference point is set to (0, 0, 0) in three-dimensional coordinates, the region on the object plane near the reference point is set to a reference plane that is an xy plane, and the distance in the z direction from the reference plane is The projection plane may be set differently.

STEP.2によって、フィールドからの高さを変えることにより、図3(b)のカメラ1の複数の投影画像のように、投影画像内のラインの位置が変わる。これは、カメラ1がラインの延伸方向に垂直な方向から分割領域S1を撮影しているからである。そして、撮影画像をフィールドからの高さが異なる投影画像において、撮影画像の画素位置と投影面上の位置との対応関係から、投影面の高さが変わると、延伸方向と垂直な方向に対してそれぞれの投影画像内におけるラインの位置が変わる。 STEP. By 2, changing the height from the field changes the position of the line in the projected image, like the multiple projected images of camera 1 in FIG. 3(b). This is because the camera 1 photographs the divided area S1 in a direction perpendicular to the line extending direction. Then, in projected images with different heights from the field, when the height of the projection plane changes, from the correspondence relationship between the pixel positions of the captured image and the positions on the projection plane, changes the position of the line in each projection image.

一方、図3(b)のカメラ10の複数の投影画像では、投影画像内のラインの位置は変わらないように見える。これは、カメラ10がラインの延伸方向に平行な方向から分割領域S1を撮影しているからである。この場合は、撮影画像の画素位置と投影面上の位置との対応関係により、投影画像内のラインの位置は、投影面が変わると、延伸方向と平行な方向に変わるため、ラインの位置が変わらないように見える。 On the other hand, in the multiple projection images of the camera 10 in FIG. 3B, the positions of the lines in the projection images appear to be unchanged. This is because the camera 10 photographs the divided area S1 in a direction parallel to the direction in which the lines are extended. In this case, due to the correspondence relationship between the pixel positions of the captured image and the positions on the projection plane, the position of the line in the projected image changes in the direction parallel to the stretching direction when the projection plane changes. looks unchanged.

なお、STEP.1とSTEP.2の順番は入れ替えてもよい。具体的には、フィールドからの高さ毎に、カメラ203a~203jの投影画像を生成し、その高さ毎の投影画像を領域毎に分割するようにしてもよい。 It should be noted that STEP. 1 and STEP. The order of 2 can be changed. Specifically, projection images of the cameras 203a to 203j may be generated for each height from the field, and the projection images for each height may be divided into regions.

次に、本実施形態については、STEP.3のように投影画像を、設定領域毎に、及びフィールドからの高さ毎に合成し、合成画像を生成する。図3(b)、(c)に示すように、領域S1において、例えば高さ+15cmにおいて、カメラ1~10のそれぞれの撮影画像から生成された投影画像301Aa~301Ajの10枚の画像が合成されて、合成画像302Aが生成される。他の合成画像(例えば合成画像302D、302G)も同様に生成される。ここで、301Aaの“A”は、高さを表し、同じ“A”であれば、フィールドからの高さが同じであることを表している。また、“a”は、カメラ番号を指し、同じ“a”であれば同じカメラで取得された撮像画像に基づく投影画像であることを意味する。 Next, for this embodiment, STEP. 3, the projection images are synthesized for each set area and for each height from the field to generate a synthesized image. As shown in FIGS. 3B and 3C, in the region S1, for example, at a height of +15 cm, ten projection images 301Aa to 301Aj generated from the captured images of the cameras 1 to 10 are synthesized. Then, a composite image 302A is generated. Other synthetic images (for example, synthetic images 302D and 302G) are similarly generated. Here, "A" in 301Aa represents height, and the same "A" represents that the height from the field is the same. Also, "a" indicates a camera number, and the same "a" means that the projection image is based on the captured image acquired by the same camera.

次に、STEP.4のように、分割領域S1のフィールドからの高さ毎の合成画像302A~302Gの中から、ラインが最も鮮鋭となる合成画像を決定する。そして、決定された合成画像に対応するフィールドからの高さを、分割領域S1におけるフィールドからの高さと決定する。このSTEP.4の処理を設定領域毎に行うことで、各分割領域におけるフィールドからの高さが決定される。なお、画像の鮮鋭度ではなく、他の評価値に基づき、各分割領域におけるフィールドからの高さを決定するようにしてもよい。 Next, STEP. 4, the synthesized image with the sharpest line is determined from the synthesized images 302A to 302G for each height from the field of the divided area S1. Then, the determined height from the field corresponding to the synthesized image is determined as the height from the field in the divided area S1. This STEP. 4 is performed for each set area, the height from the field in each divided area is determined. Note that the height from the field in each divided area may be determined based on another evaluation value instead of the sharpness of the image.

最後にSTEP.5のように、決定された各分割領域におけるフィールドからの高さを基に、フィールドの3次元形状データを生成する。以下で、生成装置100が行う処理について詳細に説明する。 Finally STEP. 5, the three-dimensional shape data of the field is generated based on the determined height from the field in each divided area. Processing performed by the generation device 100 will be described in detail below.

図5は、生成装置100の機能構成を示すブロック図である。本実施形態では、生成装置100によりスタジアムのフィールドの3次元形状データを生成する。生成装置100は、画像取得部501、カメラパラメータ取得部502、投影部503、領域設定部504、信頼度算出部505、合成部506、距離決定部507、生成部508、及び特定パターン取得部509を有する。 FIG. 5 is a block diagram showing the functional configuration of the generation device 100. As shown in FIG. In this embodiment, the generation device 100 generates three-dimensional shape data of a stadium field. The generation device 100 includes an image acquisition unit 501, a camera parameter acquisition unit 502, a projection unit 503, an area setting unit 504, a reliability calculation unit 505, a synthesis unit 506, a distance determination unit 507, a generation unit 508, and a specific pattern acquisition unit 509. have

画像取得部501は、カメラ群109で撮影された複数の撮影画像を取得する。カメラ群109は、図2で示すカメラ203a~203jの10台のカメラで構成される。そして、画像取得部501は、カメラ203a~203jそれぞれから撮影画像を取得する。画像取得部501は、カメラパラメータ取得部502及び投影部503に、撮影画像を出力する。 An image acquisition unit 501 acquires a plurality of captured images captured by the camera group 109 . The camera group 109 is composed of ten cameras 203a to 203j shown in FIG. Then, the image acquisition unit 501 acquires captured images from each of the cameras 203a to 203j. The image acquisition unit 501 outputs the captured image to the camera parameter acquisition unit 502 and the projection unit 503 .

カメラパラメータ取得部502は、画像取得部501から出力された撮影画像からカメラキャリブレーションを行い、カメラの外部パラメータ、内部パラメータ、歪曲パラメータを含むカメラパラメータを取得する。外部パラメータは、カメラの位置姿勢を表すパラメータであり、回転行列及び位置ベクトル等である。内部パラメータは、カメラ固有のパラメータであり、焦点距離、及び画像中心等である。カメラパラメータ取得部502は、投影部503及び信頼度算出部505に、カメラパラメータを出力する。 A camera parameter acquisition unit 502 performs camera calibration from the captured image output from the image acquisition unit 501, and acquires camera parameters including extrinsic parameters, intrinsic parameters, and distortion parameters of the camera. The extrinsic parameters are parameters representing the position and orientation of the camera, such as rotation matrices and position vectors. Intrinsic parameters are camera-specific parameters such as focal length and image center. The camera parameter acquisition unit 502 outputs camera parameters to the projection unit 503 and reliability calculation unit 505 .

投影部503は、画像取得部501から出力された複数の撮影画像と、カメラパラメータ取得部502から出力されたカメラパラメータと、後述する領域設定部504から出力される設定領域を示す情報を基に、投影画像を生成する。投影画像は、撮影画像それぞれを被写体面からの距離が異なる投影面に投影し、設定領域毎及び被写体面からの距離毎に投影画像を生成する。投影部503は、合成部506に、設定領域毎及び被写体面からの距離毎の投影画像を出力する。 The projection unit 503 projects images based on a plurality of captured images output from the image acquisition unit 501, camera parameters output from the camera parameter acquisition unit 502, and information indicating a set area output from an area setting unit 504, which will be described later. , to generate the projection image. A projection image is generated by projecting each photographed image onto a projection plane having a different distance from the object plane, and generating a projection image for each set area and for each distance from the object plane. The projection unit 503 outputs a projection image for each set area and for each distance from the object plane to the synthesis unit 506 .

特定パターン取得部509は、外部から特定パターンに関する情報を取得する。特定パターンに関する情報は、特定パターンの被写体面上の位置情報、特定パターンの形状を示す情報、被写体面の他の領域と特定パターンとの色差を示す情報などを含む。特定パターンがフィールドに描かれたラインの場合、ラインの延伸方向やその長さ、ラインの延伸方向に垂直な方向の幅がラインの形状を示す情報である。特定パターン取得部509は、特定パターンに関する情報を領域設定部504及び距離決定部507に出力する。 A specific pattern acquisition unit 509 acquires information about a specific pattern from the outside. The information about the specific pattern includes information about the position of the specific pattern on the object plane, information indicating the shape of the specific pattern, information indicating the color difference between the specific pattern and another area on the object plane, and the like. In the case of a line in which a specific pattern is drawn in a field, the information indicating the shape of the line is the extending direction of the line, its length, and the width in the direction perpendicular to the extending direction of the line. Specific pattern acquisition section 509 outputs information about the specific pattern to area setting section 504 and distance determination section 507 .

領域設定部504は、特定パターン取得部509から出力された特定パターンに関する情報を基に、被写体面の3次元位置情報を決定するための被写体面上に仮想的に複数の領域を設定する。具体的には、領域設定部504は、特定パターンの少なくとも一部が、複数の設定領域それぞれに含まれるように仮想的に領域を設定する。なお、設定される領域は、ここでは投影画像上で設定する例を示すが、撮像画像で領域を設定してもよい。領域設定部504は、投影部503及び信頼度算出部505に、被写体面の基準点の距離を決定するための複数の設定領域を示す情報を出力する。 Based on the information about the specific pattern output from the specific pattern acquisition unit 509, the area setting unit 504 virtually sets a plurality of areas on the object plane for determining the three-dimensional position information of the object plane. Specifically, the region setting unit 504 virtually sets regions such that at least part of the specific pattern is included in each of the plurality of set regions. Here, an example of setting the area to be set on the projected image is shown, but the area may be set on the captured image. The area setting unit 504 outputs to the projection unit 503 and the reliability calculation unit 505 information indicating a plurality of setting areas for determining the distance of the reference point on the object plane.

信頼度算出部505は、領域設定部504が設定した領域毎、及びカメラ毎(投影画像毎)のカメラ信頼度を算出する。カメラ信頼度は、カメラパラメータ取得部502から出力されたカメラパラメータと、領域設定部504から出力された複数の設定領域を示す情報と、特定パターン取得部509から出力された特定パターンの位置及び形状を示す情報に基づき算出される。カメラ信頼度は、後述する合成部506が投影画像を合成する際に利用される。信頼度算出部505は、合成部506に、カメラ信頼度を出力する。 The reliability calculation unit 505 calculates camera reliability for each region set by the region setting unit 504 and for each camera (each projection image). The camera reliability is calculated using the camera parameters output from the camera parameter acquisition unit 502, information indicating a plurality of set areas output from the area setting unit 504, and the position and shape of the specific pattern output from the specific pattern acquisition unit 509. is calculated based on the information indicating The camera reliability is used when the synthesizing unit 506, which will be described later, synthesizes projected images. The reliability calculation unit 505 outputs camera reliability to the combining unit 506 .

合成部506は、信頼度算出部505から出力されたカメラ信頼度を基に、被写体面からの距離が同じ投影面における、設定領域毎の投影画像を合成し、合成画像を生成する。このカメラ信頼度は、重み付き平均化処理により合成を行う際に、各投影画像の重みとして利用される。ここでいう重み付き平均化処理とは、複数の投影画像それぞれの対応する画素の画素値どうしを重み付きで平均化して画素値を算出することをいう。合成部506は、設定領域毎及び被写体面からの距離毎の合成画像を、距離決定部507に出力する。 Based on the camera reliability output from the reliability calculation unit 505, the synthesizing unit 506 synthesizes projection images for each set area on a projection plane having the same distance from the object plane to generate a synthetic image. This camera reliability is used as a weight for each projection image when synthesizing by weighted averaging processing. The weighted averaging process referred to here means calculating a pixel value by weighting and averaging pixel values of corresponding pixels of each of a plurality of projection images. The synthesizing unit 506 outputs the synthetic image for each set area and for each distance from the object plane to the distance determining unit 507 .

距離決定部507は、合成部506から出力された、設定領域毎及び被写体面からの距離毎の合成画像と、特定パターン取得部509から出力された特定パターンの位置及び形状を示す情報とに基づいて、被写体面からの距離を決定する。具体的には、距離決定部507は、設定領域毎及び被写体面からの距離毎の合成画像において、特定パターンの評価値を計算し、その評価値を基に被写体面からの距離を決定する。例えば、距離決定部507は、評価値として鮮鋭度を用いることができる。この場合、ある設定領域の、被写体面からの距離毎の合成画像において、特定パターンの鮮鋭度が最も高い合成画像に対応する被写体面からの距離を、その設定領域における被写体面からの距離と決定する。距離決定部507は、生成部508に、設定領域毎に決定された被写体面の基準点からの距離を出力する。この距離決定部507により、設定領域の3次元位置情報が決定される。つまり、設定領域のxy座標は領域設定部504に基づく座標であり、距離決定部507が決定した被写体面の基準点からの距離は、z座標に対応する。 The distance determining unit 507 is based on the synthesized image for each set area and for each distance from the object plane output from the synthesizing unit 506 and the information indicating the position and shape of the specific pattern output from the specific pattern acquiring unit 509. to determine the distance from the object plane. Specifically, the distance determination unit 507 calculates the evaluation value of the specific pattern in the composite image for each set area and each distance from the object plane, and determines the distance from the object plane based on the evaluation value. For example, the distance determination unit 507 can use sharpness as the evaluation value. In this case, the distance from the subject plane corresponding to the composite image in which the sharpness of the specific pattern is the highest is determined as the distance from the subject plane in the set area in the synthesized images for each distance from the subject plane in a certain set area. do. The distance determination unit 507 outputs to the generation unit 508 the distance from the reference point on the object plane determined for each set area. The distance determination unit 507 determines three-dimensional position information of the set area. That is, the xy coordinates of the set area are coordinates based on the area setting unit 504, and the distance from the reference point on the object plane determined by the distance determination unit 507 corresponds to the z coordinate.

生成部508は、距離決定部507から出力された設定領域毎に決定された被写体面の基準点からの距離、つまり、設定領域毎に決定された3次元位置情報を基に、被写体面の3次元形状データを生成する。生成部508は、被写体面の3次元形状データを出力する。 Based on the distance from the reference point of the object plane determined for each set area output from the distance determination unit 507, that is, based on the three-dimensional position information determined for each set area, the generating unit 508 generates 3D images of the object plane. Generate dimensional shape data. A generation unit 508 outputs three-dimensional shape data of the object plane.

次に、生成装置100で行われる処理について、図6に示すフローチャートを参照して、詳細に説明する。この一連の処理は、CPU101が、所定のプログラムを記憶部103から読み込んでメインメモリ102に展開し、これをCPU101が実行することで実現される。 Next, the processing performed by the generation device 100 will be described in detail with reference to the flowchart shown in FIG. This series of processing is realized by the CPU 101 reading a predetermined program from the storage unit 103, developing it in the main memory 102, and executing the program by the CPU 101. FIG.

S601において、キャリブレーション処理により、カメラパラメータを取得する。まず、画像取得部501がLAN108経由でカメラ群109に撮影指示を送る。撮影された画像は、画像取得部501で取得される。カメラ群109は、図2で示すように、撮影方向が異なる複数のカメラ203a~203jで構成されている。カメラパラメータ取得部502が、画像取得部501が取得した画像からカメラ群109の各カメラのパラメータを算出する。カメラパラメータは、カメラの撮影位置が異なる複数の画像を入力とした、カメラキャリブレーション処理によって算出する。以下、簡単なカメラキャリブレーションの手順の例を示す。 In S601, camera parameters are obtained through calibration processing. First, the image acquisition unit 501 sends a photographing instruction to the camera group 109 via the LAN 108 . The captured image is obtained by the image obtaining unit 501 . The camera group 109, as shown in FIG. 2, is composed of a plurality of cameras 203a to 203j with different photographing directions. A camera parameter acquisition unit 502 calculates parameters of each camera of the camera group 109 from the image acquired by the image acquisition unit 501 . The camera parameters are calculated by camera calibration processing using a plurality of images captured by different camera positions as input. Below is an example of a simple camera calibration procedure.

第一に、スクエアグリッド等の平面パターンを多視点から撮影する。第二に、撮影画像の特徴点を検出し、画像座標系において特徴点の座標を求める。ここで、スクエアグリッドの特徴点とは、直線の交点のことである。第三に、算出した特徴点座標を用いてカメラの内部パラメータの初期値を算出する。ここでカメラの内部パラメータとは焦点距離や、主点と呼ばれる光学的中心を表すパラメータである。また、カメラの内部パラメータの初期値は必ずしも、画像中の特徴点から算出する必要はなく、カメラの設計値を用いてもよい。第四に、バンドル調整と呼ばれる非線形最適化処理によって、カメラの内部パラメータ、外部パラメータ、歪曲収差係数を算出する。ここでカメラの外部パラメータとは、カメラの位置、視線方向、視線方向を軸とする回転角を表すパラメータのことである。また、歪曲収差係数とは、レンズの屈折率の違いによって生じる半径方向の画像の歪みや、レンズとイメージプレーンが平行にならないことによって生じる円周方向の歪みを表す係数のことである。カメラキャリブレーションの手法は他にも多く存在するが、本実施形態の主眼でないため詳細は省略する。 First, a planar pattern such as a square grid is photographed from multiple viewpoints. Second, the feature points of the captured image are detected, and the coordinates of the feature points are obtained in the image coordinate system. Here, the feature points of the square grid are points of intersection of straight lines. Third, the initial values of the internal parameters of the camera are calculated using the calculated feature point coordinates. Here, the internal parameters of the camera are parameters representing the focal length and the optical center called the principal point. Also, the initial values of the internal parameters of the camera do not necessarily have to be calculated from the feature points in the image, and the design values of the camera may be used. Fourthly, the camera's intrinsic parameters, extrinsic parameters, and distortion aberration coefficients are calculated by nonlinear optimization processing called bundle adjustment. Here, the extrinsic parameters of the camera are parameters representing the position of the camera, the line-of-sight direction, and the angle of rotation about the line-of-sight direction. The distortion aberration coefficient is a coefficient that expresses radial image distortion caused by the difference in refractive index of the lens and circumferential distortion caused by non-parallelism between the lens and the image plane. There are many other methods of camera calibration, but they are not the focus of this embodiment, so the details are omitted.

S602において、画像取得部501がカメラ群109に対してフィールドを撮影するように撮影指示を送る。カメラ群109を構成する撮影方向が異なる複数のカメラ203a~203jが被写体面を撮影して取得した撮影画像を画像取得部501が受け取る。 In S602, the image acquisition unit 501 sends a photographing instruction to the camera group 109 so as to photograph the field. The image acquiring unit 501 receives the captured images acquired by capturing the object plane by the plurality of cameras 203a to 203j that configure the camera group 109 and have different capturing directions.

S603において、特定パターン取得部509は、特定パターンに関する情報を取得する。具体的には、特定パターン取得部509は、特定パターンであるラインの形状やそのラインの被写体面上の位置を含む情報を、S602で取得した撮影画像に基づき、抽出する。 In S603, the specific pattern acquisition unit 509 acquires information about the specific pattern. Specifically, the specific pattern acquisition unit 509 extracts information including the shape of the line that is the specific pattern and the position of the line on the object plane based on the captured image acquired in S602.

S604において、S603で取得された特定パターンに関する情報に基づいて、領域設定部504が被写体面について、距離を決定するための複数の所定の領域を設定する。具体的には、領域設定部504は、各設定領域に特定パターンの少なくとも一部が含まれるように領域を設定する。また、領域設定部504は、特定パターンである1つのラインを均等に分割するように領域を分割してもよい。分割する場合は、投影面の高さが変化した際に、ラインが一つの領域に含まれるように領域幅を決定するようにするのが好ましい。複数の設定領域により被写体面がすべて覆われるように設定領域が設定されればよい。つまり、より密に高さを算出するために、設定領域が重なるように設定してもよい。また、設定領域は、被写体面を重複なく分割するように設定されてもよい。設定された領域は、互いに同じ大きさや同じ形状でなくてもよく、特定パターンであるラインを含むのであれば領域の大きさや形状が異なっていてもよい。 In S604, based on the information about the specific pattern acquired in S603, the area setting unit 504 sets a plurality of predetermined areas for determining the distance on the object plane. Specifically, the region setting unit 504 sets regions such that each set region includes at least part of the specific pattern. Also, the area setting unit 504 may divide the area so that one line of the specific pattern is equally divided. When dividing, it is preferable to determine the area width so that the line is included in one area when the height of the projection plane changes. The set areas may be set so that the entire object plane is covered by the plurality of set areas. That is, in order to calculate the height more densely, the set areas may be set so as to overlap. Also, the set regions may be set so as to divide the object plane without overlapping. The set regions may not have the same size or the same shape, and may have different sizes and shapes as long as they include lines of a specific pattern.

S605において、投影部503が、S601で取得したカメラパラメータを基に、S604で設定された複数の設定領域毎に、複数の撮影画像を用いて、被写体面からの距離が異なる複数の投影面に投影した投影画像を生成する。なお、投影部503は、撮像画像を異なる投影面に投影して投影画像を生成した後、その投影画像に対して設定領域に対応する投影画像を抽出してもよい。また、投影部503は、撮像画像から設定領域毎で画像を抽出した後、その画像を投影面に投影して設定領域に対応する投影画像を生成するようにしてもよい。 In S605, based on the camera parameters acquired in S601, the projection unit 503 uses a plurality of captured images for each of the plurality of set regions set in S604 to project images onto a plurality of projection planes having different distances from the object plane. Generate a projected projection image. Note that the projection unit 503 may generate a projection image by projecting the captured image onto a different projection plane, and then extract a projection image corresponding to the set region from the projection image. Alternatively, the projection unit 503 may extract an image for each set area from the captured image, and then project the image onto the projection plane to generate a projection image corresponding to the set area.

また、カメラキャリブレーションを行う際、図2のフィールド201を高さがおおよそ0mとなる平面の基準とし、フィールドの直軸方向をx軸、短軸方向をy軸、フィールドの鉛直方向をz軸と設定し、原点をフィールド中心に設定する。投影面は、被写体面であるフィールドに水平な面である。投影面に投影する水平方向の範囲に関して、フィールド全体を網羅できるように、ラインの位置や形状を示す情報を用いて決定する。例えば、図4のラインの形状に基づくと、縦80m、横120mの範囲に対して投影を行う。もちろん、実際のフィールドとラインの形状との誤差を考慮して、数%の余剰を持たして投影を行ってもよい。 When performing camera calibration, the field 201 in FIG. 2 is used as a reference for a plane with a height of approximately 0 m. and set the origin to the center of the field. The projection plane is a plane horizontal to the field, which is the object plane. The horizontal range to be projected onto the projection plane is determined using information indicating the position and shape of the line so as to cover the entire field. For example, based on the shape of the line in FIG. 4, projection is performed over a range of 80 m long and 120 m wide. Of course, the projection may be performed with a margin of a few percent to account for the error between the actual field and the shape of the line.

フィールド全体の高さを算出できるように、高さの異なる複数の投影面に対して行うが、投影する高さの範囲に関して、競技場のフィールド勾配に関する規格に合わせて決定する。例えば、フィールド規格として、フィールド中心に対して、フィールドの端までの勾配が0.3%までなどの規格があるとする。この場合、フィールドの原点からフィールド端までの距離が40mであれば、許容される高さの変動は、12cmまでとなる。そのため、投影する高さの範囲は、これを網羅するように、-15cm~+15cmなどに設定する。この範囲の中で、高さの刻みは任意に設定することが可能である。この刻みの数、つまり投影面の数を多くすれば、精度の高い3次元形状データが得られる。 In order to calculate the height of the entire field, multiple projection planes with different heights are used, but the range of heights to be projected is determined in accordance with the field gradient standards of the stadium. For example, as a field standard, there is a standard such as a maximum gradient of 0.3% from the center of the field to the edge of the field. In this case, if the distance from the origin of the field to the edge of the field is 40 m, the allowable height variation is up to 12 cm. Therefore, the range of projection height is set to -15 cm to +15 cm to cover this range. Within this range, the height increments can be set arbitrarily. By increasing the number of increments, that is, the number of projection planes, highly accurate three-dimensional shape data can be obtained.

投影画像を生成する際に、まずカメラの内部パラメータと歪みパラメータに合わせて各カメラの撮影画像の歪み補正を行う。画像の歪み補正に用いるパラメータはS601で算出した内部パラメータ、及び歪曲パラメータである。 When generating projection images, distortion correction is first performed on images captured by each camera in accordance with the camera's internal parameters and distortion parameters. The parameters used for image distortion correction are the internal parameters calculated in S601 and the distortion parameters.

次に、投影画像の座標と撮像画像の座標との変換行列を算出する。投影面が存在するワールド座標系からカメラ座標系への変換行列をVと定義する。ここでカメラ座標系とは、座標系の原点を始点とし、x軸、y軸をそれぞれ画像の水平方向、垂直方向とし、z軸をカメラの視線方向になるように設定する。さらに、カメラ座標系からスクリーン座標系への変換行列をPと定義する。これはカメラ座標系に対して存在する3次元座標を有する被写体面を2次元平面上に対して射影する変換行列である。すなわち投影画像上の点Xの同次座標(x、y、z、w)の撮影画像上の点Uの同次座標(x’、y’、z’、w’)に射影する式(1)は、以下のとおりである。 Next, a conversion matrix between the coordinates of the projected image and the coordinates of the captured image is calculated. Let V be a transformation matrix from the world coordinate system in which the projection plane exists to the camera coordinate system. Here, the camera coordinate system is set so that the origin of the coordinate system is the starting point, the x-axis and y-axis are the horizontal and vertical directions of the image, respectively, and the z-axis is the line-of-sight direction of the camera. Further, P is defined as a transformation matrix from the camera coordinate system to the screen coordinate system. This is a transformation matrix that projects an object plane having three-dimensional coordinates existing with respect to the camera coordinate system onto a two-dimensional plane. That is, the equation (1 ) are as follows:

Figure 0007278720000001
Figure 0007278720000001

ここで、並進変換を加えるため、座標w及びw’を追加し、4次元座標とした。この式(1)を用いて、各カメラの撮像画像をそれぞれ、異なる高さzの投影面に対して、投影して、投影画像を生成する。具体的には、撮像画像の各座標の画素値を、撮像画像の座標それぞれに対応する投影画像の座標の画素値とすることで投影画像が生成される。 Here, in order to apply a translational transformation, the coordinates w and w' were added to make the four-dimensional coordinates. Using this equation (1), the images captured by each camera are projected onto projection planes with different heights z to generate projection images. Specifically, the projection image is generated by setting the pixel values of the coordinates of the captured image to the pixel values of the coordinates of the projection image corresponding to the coordinates of the captured image.

S606において、信頼度算出部505は、S604で設定された設定領域毎に、S601で取得されたカメラパラメータと、S603で取得された特定パターンから、カメラ信頼度を算出する。ここでカメラ信頼度とは、設定領域毎に被写体面の距離を決定する際に、各カメラから取得された撮影画像が、どの程度距離の決定に有用かを示す指標となる。簡単な例を図7に示す。 In S606, the reliability calculation unit 505 calculates camera reliability from the camera parameters obtained in S601 and the specific pattern obtained in S603 for each set area set in S604. Here, the camera reliability is an index indicating how useful the photographed images obtained from each camera are for determining the distance to the object plane for each set area. A simple example is shown in FIG.

図7は、カメラ4台(701~704)でフィールドを撮影している模式図である。ここでは、フィールド中央に設定された矩形領域705の高さを求めるものとする。矩形領域705の高さが変化したとき、ラインの延伸方向に対して垂直な視線ベクトル(光軸)を持つカメラ701、703の撮影画像から投影画像を生成した場合、各投影画像におけるラインの位置が大きく変化する。一方、ラインの延伸方向に対して平行な視線ベクトル(光軸)を持つカメラ702、704の撮影画像から投影面の高さを変えて投影画像を生成した場合、各投影画像におけるラインの位置はほとんど変化しない。 FIG. 7 is a schematic diagram of shooting a field with four cameras (701 to 704). Here, it is assumed that the height of the rectangular area 705 set in the center of the field is obtained. When the height of the rectangular area 705 changes, when projection images are generated from images captured by the cameras 701 and 703 having a line-of-sight vector (optical axis) perpendicular to the extending direction of the line, the position of the line in each projection image is changes significantly. On the other hand, when projection images are generated by changing the height of the projection plane from the captured images of the cameras 702 and 704 having line-of-sight vectors (optical axes) parallel to the extending direction of the lines, the position of the line in each projection image is little change.

本実施形態では、後述するように、設定領域毎に及びフィールド面からの高さ毎に、各カメラの投影画像を合成して合成画像を生成する。その合成画像において、ラインのずれやボケ度合いといった評価値を算出するため、合成画像にそのような特徴が表れやすい画像を選択的に用いる、もしくは重みづけをしてから合成するなどの処理を行うことが望ましい。その画像の選択や合成の際の重みの算出のために、カメラ信頼度を定義する。 In the present embodiment, as will be described later, a synthesized image is generated by synthesizing projection images of each camera for each set area and for each height from the field surface. In order to calculate evaluation values such as line displacement and degree of blur in the composite image, the composite image is processed by selectively using images in which such characteristics are likely to appear, or weighting the composite image before compositing. is desirable. A camera reliability is defined for weight calculation when selecting and combining images.

従って、図8に示すように、ライン801に対してカメラ802が設置されているとき、ラインの中心に対するカメラの位置を水平角φ、仰角θで定義すると、例えばカメラ信頼度ωは、式(2)で表される。 Therefore, as shown in FIG. 8, when a camera 802 is installed with respect to a line 801, and the position of the camera with respect to the center of the line is defined by a horizontal angle φ and an elevation angle θ, for example, the camera reliability ω can be expressed by the formula ( 2).

Figure 0007278720000002
Figure 0007278720000002

これは、カメラの視線ベクトルがラインの向きに対して垂直に近く、かつ仰角θが小さいカメラの方が、カメラ信頼度が高くなることを表す。つまり、矩形領域705の高さを決定する際には、図7で示す、カメラ701、703のカメラ信頼度が高くなる。式(2)から明らかなように、設定領域毎に、各カメラのカメラ信頼度は変わるため、設定領域毎、及びカメラ毎にカメラ信頼度を算出する。また、カメラ信頼度は、被写体面からの距離、つまり被写体面の3次元位置情報を決定するために各カメラと対応する撮影画像又は投影画像がどれくらい有用か否かを示す信頼度であると言える。また、カメラ信頼度は、設定領域毎に被写体面の基準点からの距離、つまり被写体面の3次元位置情報を決定するための指標であり、設定領域毎の、各撮影画像又は各投影画像の距離決定時の有用性の度合いを示す指標である。 This means that a camera whose line-of-sight vector is nearly perpendicular to the direction of the line and whose elevation angle θ is small has a higher camera reliability. That is, when determining the height of the rectangular area 705, the camera reliability of the cameras 701 and 703 shown in FIG. 7 is increased. As is clear from Equation (2), the camera reliability of each camera changes for each set area, so the camera reliability is calculated for each set area and for each camera. In addition, the camera reliability can be said to be a reliability indicating how useful the photographed image or projected image corresponding to each camera is for determining the distance from the object plane, that is, the three-dimensional position information of the object plane. . The camera reliability is an index for determining the distance from the reference point of the object plane for each set area, that is, the three-dimensional position information of the object plane. This is an index that indicates the degree of usefulness when determining the distance.

式(2)からわかるように、特定パターンがラインのようなものであれば、ラインの延伸方向と、カメラの光軸をラインの延伸方向の面内に射影したときの直線方向とのなす角度(90°-φ)が大きいカメラほど、カメラ信頼度が大きくなる。また、仰角θが小さいカメラほどカメラ信頼度が大きくなる。 As can be seen from equation (2), if the specific pattern is like a line, the angle formed by the extending direction of the line and the direction of a straight line when the optical axis of the camera is projected onto the plane in the extending direction of the line. A camera with a larger (90°-φ) has a higher camera reliability. Also, the camera having a smaller elevation angle θ has a higher camera reliability.

カメラ信頼度の決定方法は、上記の方法に限られない。カメラからラインまでの物理的な距離d、焦点距離f、画素数pなどによって、ラインを明瞭にカメラで撮影できているかどうかに違いが出るため、それらのパラメータに応じてカメラの信頼度を大きくしてもよい。また、明瞭にラインを撮影できているカメラかつ、水平角、仰角が小さいカメラの信頼度を大きくするなどを組み合わせてカメラ信頼度ωを算出してもよい。この組み合わせによるカメラ信頼度ωは、式(3)のとおりである。ここでα、βは重みパラメータである。 The camera reliability determination method is not limited to the above method. Depending on the physical distance d from the camera to the line, the focal length f, the number of pixels p, etc., there is a difference in whether or not the line is clearly captured by the camera, so the reliability of the camera is increased according to these parameters. You may Alternatively, the camera reliability ω may be calculated by combining a camera capable of clearly capturing a line and increasing the reliability of a camera with a small horizontal angle and elevation angle. The camera reliability ω obtained by this combination is given by Equation (3). where α and β are weighting parameters.

Figure 0007278720000003
Figure 0007278720000003

また、カメラ信頼度が所定の閾値より低いカメラ信頼度を0とするなどの、閾値処理を行ってもよい。 Threshold processing may also be performed, such as setting camera reliability lower than a predetermined threshold to 0, for example.

S607において、合成部506が、S606で取得したカメラ信頼度を基に、S605で取得した複数の投影画像を、設定領域毎に、同じ投影面の複数の投影画像を合成する。具体的にはまず、各カメラで撮影できている領域は異なるため、設定領域を各カメラが撮影できているかどうかを判定する。具体的には、設定領域毎の投影画像において、各領域の全ての画素に撮影画像を投影した画素値が存在すれば、その設定領域を該当のカメラで撮影できているとする。この判定は、S604において、領域設定部504が行うようにしてもよいし、S605で投影部503が行うようにしてもよい。 In S<b>607 , based on the camera reliability obtained in S<b>606 , the synthesizing unit 506 synthesizes the plurality of projection images obtained in S<b>605 on the same projection plane for each set region. Specifically, since the areas captured by each camera are different, it is determined whether or not each camera can capture the set area. Specifically, in the projected image for each set area, if there is a pixel value obtained by projecting the captured image on all the pixels in each area, it is assumed that the set area can be captured by the corresponding camera. This determination may be performed by the region setting unit 504 in S604, or may be performed by the projection unit 503 in S605.

次に、設定領域毎に、撮影できている複数のカメラのそれぞれの投影画像を用いて、投影面毎に投影画像を合成する。具体的には、S606で算出した、設定領域毎のカメラ信頼度ωに基づいた重み付きの平均化処理を行い、合成画像を生成する。すなわち、投影画像をrgb画像として、投影面の高さhにおける各設定領域Bjの合成画像は式(4)で表される。なお、カメラ番号をkとする。 Next, for each set area, projected images are synthesized for each projection plane using the projected images captured by each of the plurality of cameras. Specifically, a weighted averaging process based on the camera reliability ω for each set area calculated in S606 is performed to generate a composite image. That is, the projected image is an rgb image, and the synthesized image of each set area Bj at the height h of the projection plane is expressed by Equation (4). Note that the camera number is k.

Figure 0007278720000004
Figure 0007278720000004

S606の処理で述べたように、必ずしもカメラ信頼度を全て用いて重み付き平均画像を生成しなくてもよい。例えば、カメラ信頼度が所定の閾値以下のカメラに対応する投影画像を用いない、もしくは所定の閾値以上のカメラに対応する投影画像だけを用いて平均化処理を行い、合成画像を生成するようにしてもよい。また、カメラ信頼度を用いて平均化処理を行って合成画像を生成しなくても、投影画像の対応する画素どうしの画素値の単純な平均化値や中間値を用いて、合成画像を生成してもよい。 As described in the processing of S606, it is not necessary to generate the weighted average image using all the camera reliability. For example, the projected image corresponding to the camera whose camera reliability is equal to or less than a predetermined threshold is not used, or only the projected image corresponding to the camera whose reliability is equal to or greater than the predetermined threshold is used to perform the averaging process to generate a composite image. may In addition, even if a synthetic image is not generated by performing averaging processing using the camera reliability, a synthetic image can be generated using a simple average value or an intermediate value of the pixel values of corresponding pixels in the projected image. You may

S607において、距離決定部507は、S607にて合成された、設定領域毎及び投影面毎の合成画像に基づいて、設定領域毎の被写体面の基準点からの距離、つまり、設定領域毎の3次元位置情報を決定する。被写体面の基準点からの距離を決定する際は、合成画像の設定領域毎の特定パターンの評価値を評価する。評価値とは、具体的には、以下では鮮鋭度を用いて説明するが、これに限られない。 In S607, the distance determination unit 507 determines the distance from the reference point of the object plane for each set area, that is, the distance of 3 Determine dimensional position information. When determining the distance from the reference point of the object plane, the evaluation value of the specific pattern for each set area of the synthesized image is evaluated. The evaluation value is specifically described below using sharpness, but is not limited to this.

ある設定領域における、被写体面の基準点からの距離(高さ)毎の合成画像の例を図9に示す。具体的には、図9では、被写体面に対して-15cm~+15cmまで、0.5cm刻みで高さを変えて投影面を設定し、それぞれの高さで合成画像が生成された例を示している。図9に示すように、この合成画像のうち、適切な高さ(0cm)における合成画像では、ラインが鮮明に見える。これは、合成に使用された複数の投影画像それぞれに含まれるラインの位置がほぼ同じ位置で重なるからである。位置が重なるということは、実際のラインの高さがその投影面にあることを意味する。一方、それ以外の高さにおける合成画像では、合成に使用された複数の投影画像それぞれに含まれるラインの位置はずれるため、ラインがぼやけてしまっている。 FIG. 9 shows an example of a composite image for each distance (height) from a reference point on the object plane in a certain set area. Specifically, FIG. 9 shows an example in which the projection plane is set by changing the height from −15 cm to +15 cm with respect to the object plane in increments of 0.5 cm, and the composite image is generated at each height. ing. As shown in FIG. 9, in the synthesized image at an appropriate height (0 cm), lines are clearly visible. This is because the lines included in each of the plurality of projection images used for synthesis overlap at substantially the same positions. Overlapping position means that the actual line height is in its projection plane. On the other hand, in the synthesized images at other heights, the lines included in each of the plurality of projection images used for synthesis are out of alignment, and the lines are blurred.

このため、ラインの鮮鋭度を評価することで、ラインの実際の高さを決定することができる。画像の鮮鋭度を評価するため、例えばラプラシアンフィルタL等のフィルタを使用する。高さhにおける、ある設定領域Bjの合成画像の鮮鋭度Sj,hは式(5)で表される。 Therefore, the actual height of the line can be determined by evaluating the sharpness of the line. A filter such as the Laplacian filter L is used to evaluate the sharpness of the image. The sharpness Sj,h of the synthesized image of a certain set area Bj at the height h is represented by Equation (5).

Figure 0007278720000005
Figure 0007278720000005

なお、画像の鮮鋭度を評価するフィルタは、ラプラシアンフィルタに限定されず、一次微分フィルタ、Prewittフィルタ、Sobelフィルタ等を用いてもよい。また、平滑化フィルタをかけた合成画像とフィルタをかけない元の合成画像との差分を算出して、差分が大きくなるような高さの合成画像を、設定領域の適切な高さとして決定するようにしもよい。 Note that the filter for evaluating the sharpness of an image is not limited to the Laplacian filter, and a primary differential filter, Prewitt filter, Sobel filter, or the like may be used. Also, the difference between the synthesized image to which the smoothing filter is applied and the original synthesized image to which the filter is not applied is calculated, and the synthesized image having a height that makes the difference large is determined as the appropriate height of the setting area. You can do it.

鮮鋭度を評価した後、高さを決定する方法もいくつか存在する。例えば、鮮鋭度が最大となるような高さHjを、設定領域Bjの適切な高さとして決定する(式(6)参照)。 There are also several ways to determine height after evaluating sharpness. For example, the height Hj that maximizes the sharpness is determined as the appropriate height of the setting area Bj (see equation (6)).

Figure 0007278720000006
Figure 0007278720000006

適切な高さが正しく算出できているかどうかの指標として、例えば、高さを変化させた時に鮮鋭度が滑らかに変化しているかどうかを判定するようにしてもよい。具体的には、鮮鋭度が最大となる高さの周辺で、鮮鋭度が滑らかに変化しているか否かについて式(7)を用いて判定する。ここで投影画像を生成している高さ幅(刻み)をaとする。式(7)を満たしていれば。その高さを設定領域Bjの適切な高さであると判断し、満たしていなければ、その次に鮮鋭度が大きい合成画像に対応する高さについて同様の判定を行う。 As an index of whether or not the appropriate height is calculated correctly, for example, it may be determined whether or not the sharpness changes smoothly when the height is changed. Specifically, it is determined using equation (7) whether or not the sharpness changes smoothly around the height at which the sharpness is maximized. Here, let a be the height width (increment) at which the projection image is generated. If the expression (7) is satisfied. The height is judged to be an appropriate height for the setting region Bj, and if it does not satisfy the height, the height corresponding to the synthesized image with the next highest sharpness is similarly judged.

Figure 0007278720000007
Figure 0007278720000007

また、最大の鮮鋭度に近い鮮鋭度が複数算出されたときに、それらの鮮鋭度に対応する投影面の高さを平均して、設定領域の適切な高さとして算出してもよい。 Further, when a plurality of sharpnesses close to the maximum sharpness are calculated, the height of the projection plane corresponding to the sharpnesses may be averaged to calculate the appropriate height of the set area.

さらに、隣接する設定領域との高さの連続性を拘束条件としてもよい。被写体面の高さは滑らかに変化するため、隣接する設定領域との高さの差は小さくなるはずである。この拘束条件と上記の鮮鋭度を組み合わせて、領域Bjにおける高さhjの尤度Mj,hは、式(8)で算出できる。ここで、α、βは重みパラメータである。そして、この尤度が最も大きくなる高さを設定領域の最適な高さと決定するようにしてもよい。 Further, the constraint condition may be the continuity of the height of adjacent set areas. Since the height of the object plane changes smoothly, the height difference between adjacent set areas should be small. By combining this constraint condition and the above sharpness, the likelihood Mj,h of the height hj in the region Bj can be calculated by Equation (8). where α and β are weighting parameters. Then, the height at which this likelihood is maximized may be determined as the optimum height of the set area.

Figure 0007278720000008
Figure 0007278720000008

式(8)の右辺第1項は、被写体面からの距離の連続性を示す、隣り合う2つの設定領域の被写体面からの距離の変化を示す指標である。 The first term on the right side of Equation (8) is an index that indicates the continuity of the distance from the object plane and indicates the change in the distance from the object plane to two adjacent set areas.

このようにして、合成画像を用いて、各設定領域における適切な高さが決定される。また、距離決定部507は、領域設定部504で設定された、設定領域が互いに重複する部分を含む設定領域においては、まず、それぞれの設定領域の頂点の被写体面の基準点からの距離を、上記の方法で決定する。そして、距離決定部507は、それぞれの設定領域の頂点の被写体面の基準点からの距離の中間値や平均値を、重複部分の頂点における被写体面の基準点からの距離と決定するようにしてもよい。 In this way, the composite image is used to determine the appropriate height for each set area. In addition, the distance determination unit 507 first determines the distance from the reference point of the object plane to the apex of each set area in the set area set by the area setting unit 504 and including the portions where the set areas overlap each other. Determined by the method above. Then, the distance determination unit 507 determines the median value or the average value of the distances of the vertices of the respective set regions from the reference point of the object plane as the distances of the vertices of the overlapping portion from the reference point of the object plane. good too.

S609において、生成部508が、S608で決定された各設定領域の高さに合わせて、被写体面の3次元形状データを生成する。具体的には、設定領域の幾何学的中心位置に頂点が存在するとして、その頂点座標をS608で決定された高さに合わせて変更する。この場合、信頼度の低いカメラしか高さ算出に用いられていない領域については、3次元形状データを生成する際の頂点として用いないなどの処理を行ってもよい。また、ライン上以外の領域については、ライン部分の頂点座標を用いて頂点座標を生成できる。例えば、ライン上ではない領域の頂点vの高さvzは、その頂点の近傍領域Ωに存在する頂点v’との距離に関する重み付き平均で算出することができる(式(9)、式(10)、式(11)参照)。 In S609, the generation unit 508 generates three-dimensional shape data of the object plane according to the height of each set area determined in S608. Specifically, assuming that a vertex exists at the geometric center position of the set area, the vertex coordinates are changed according to the height determined in S608. In this case, processing may be performed such as not using a region in which only a camera with a low reliability is used for height calculation as a vertex when generating three-dimensional shape data. For areas other than the line, the vertex coordinates of the line portion can be used to generate the vertex coordinates. For example, the height vz of a vertex v in an area not on a line can be calculated by a weighted average of the distances from the vertex v' existing in the neighborhood area Ω of the vertex (equation (9), equation (10 ), see formula (11)).

Figure 0007278720000009
Figure 0007278720000009

3次元形状データの表現方法は、算出した頂点だけを用いて、点群として形状を表現してもよい。この場合、撮像空間を一意に示す世界座標空間における3次元空間のx、y、zの位置情報を持った点群で表現される。また、3次元形状データは、設定領域の幾何学的な中心位置を結ぶ面を生成して、複数の面の集合としてポリゴンメッシュデータとして表現されてもよい。また、3次元形状データは、ボクセルで表現されてもよい。 As a method of expressing three-dimensional shape data, the shape may be expressed as a point group using only the calculated vertices. In this case, it is represented by a point group having x, y, and z positional information in a three-dimensional space in the world coordinate space that uniquely indicates the imaging space. Also, the three-dimensional shape data may be expressed as polygon mesh data as a set of a plurality of planes by generating planes connecting the geometric center positions of the set regions. Also, the three-dimensional shape data may be represented by voxels.

以上のように、本実施形態では、領域設定部504において、特定パターン(模様)の少なくとも一部を含むように、3次元位置情報を決定する領域を設定し、特定パターン(模様)を利用して被写体面の3次元位置情報を決定している。そのため、精度よく3次元形状データを生成することができる。 As described above, in the present embodiment, the area setting unit 504 sets an area for determining the three-dimensional position information so as to include at least part of the specific pattern (pattern), and uses the specific pattern (pattern). determines the three-dimensional position information of the object plane. Therefore, three-dimensional shape data can be generated with high accuracy.

本実施形態における模様は、フィールドに描かれたラインを例に説明したが、これに限られない。例えば模様は、図形、標識、絵画などを含んでもよい。また、模様は、人工的な作られた模様でもいいし、自然にできた模様でもよい。また、模様は、被写体面において、模様とは異なる他の領域の色とは、異なる色であることが望ましい。 Although the pattern in the present embodiment has been described as an example of lines drawn on the field, it is not limited to this. For example, patterns may include graphics, signs, paintings, and the like. Moreover, the pattern may be an artificial pattern or a naturally formed pattern. In addition, it is desirable that the pattern has a different color from the colors of other regions different from the pattern on the subject plane.

[実施形態2]
実施形態1では投影画像を合成した後に、設定領域毎の高さを決定した。本実施形態では、投影画像を合成せずに、設定領域毎の高さを決定する形態について説明する。図10は、本実施形態に係る生成装置1000の機能構成を示すブロック図である。また、図11は、生成装置1000で行われる処理のフローチャートである。図10、11において、実施形態1と同じ構成については、同じ符号を付す。
[Embodiment 2]
In the first embodiment, the height of each set area is determined after synthesizing the projection images. In the present embodiment, a configuration will be described in which the height of each set area is determined without synthesizing projection images. FIG. 10 is a block diagram showing the functional configuration of the generation device 1000 according to this embodiment. FIG. 11 is a flow chart of processing performed by the generation device 1000 . 10 and 11, the same reference numerals are given to the same configurations as in the first embodiment.

生成装置1000は、画像取得部501、カメラパラメータ取得部502、投影部503、領域設定部504、信頼度算出部1001、合成部506、距離決定部1002、生成部508、及び特定パターン取得部509を有する。実施形態1の信頼度算出部505は、合成部506にカメラ信頼度を出力していたが、本実施形態の信頼度算出部1001は、距離決定部1002にカメラ信頼度を出力する点のみが異なる。 The generation device 1000 includes an image acquisition unit 501, a camera parameter acquisition unit 502, a projection unit 503, an area setting unit 504, a reliability calculation unit 1001, a synthesis unit 506, a distance determination unit 1002, a generation unit 508, and a specific pattern acquisition unit 509. have The reliability calculation unit 505 of the first embodiment outputs the camera reliability to the synthesizing unit 506, but the reliability calculation unit 1001 of the present embodiment outputs the camera reliability to the distance determination unit 1002. different.

図11において、カメラ信頼度を算出するまでの処理(S601~S606)及び、3次元形状データを生成する処理(S609)は、実施形態1と同様であるため、説明を省略する。以下ではS1101の処理について具体的に説明する。 In FIG. 11, the processing (S601 to S606) up to calculation of the camera reliability and the processing (S609) for generating the three-dimensional shape data are the same as those in the first embodiment, so description thereof will be omitted. The processing of S1101 will be specifically described below.

S1101において、距離決定部1002は、S605で算出されたカメラ信頼度と、S605で取得された設定領域毎及び被写体面からの距離毎の投影画像から、適切な距離を決定する。まずは実施形態1で述べたように、各カメラで撮影できている領域は異なるため、設定領域を各カメラが撮影できているかどうかを判定する。 In S1101, the distance determination unit 1002 determines an appropriate distance from the camera reliability calculated in S605 and the projection image for each set area and each distance from the object plane acquired in S605. First, as described in the first embodiment, since the areas captured by each camera are different, it is determined whether or not each camera can capture the set area.

次に、設定領域に存在するラインを検出する。ラインは、芝生や地面の上に、所定の規格で明瞭に描かれているため、色検出や輝度が大きい領域を抽出する処理によって容易に抽出可能である。投影面の高さを変更した場合、カメラ信頼度が高いカメラに対応する投影画像間では、ラインの位置が大きく変化する。しかし、適切な投影面の高さに投影した場合、どのカメラに対応する投影画像であってもラインの位置もほぼ一致する。すなわち高さhについて、カメラiの投影画像の任意の領域Bi,j,hのラインの存在領域Wi,jの積集合が最大になるような投影面の高さHを、設定領域の最適な高さと決定することができる(式(12)参照)。なお、設定領域の適切な高さを決定する方法は、この方法に限られない。例えば、ラインの存在領域の和集合が最小となるような高さを算出してもよい(式(13)参照)。なお、ラインの存在領域とは、投影画像内のラインが描画される領域のことである。 Next, lines existing in the set area are detected. Since the lines are clearly drawn on the lawn or the ground according to a predetermined standard, they can be easily extracted by color detection or processing for extracting areas with high brightness. When the height of the projection plane is changed, the position of the line greatly changes between projection images corresponding to cameras with high camera reliability. However, when projected onto an appropriate height of the projection plane, the positions of the lines of the projected images corresponding to any cameras are substantially the same. That is, for the height h, the height H of the projection plane that maximizes the intersection of the existing regions Wi,j of the lines in the arbitrary regions Bi,j,h of the projection image of the camera i is set to the optimum height of the set region. height (see equation (12)). Note that the method for determining the appropriate height of the setting area is not limited to this method. For example, the height that minimizes the union of the line existence areas may be calculated (see equation (13)). Note that the line existence area is an area where the line is drawn in the projection image.

Figure 0007278720000010
Figure 0007278720000010

また隣接する設定領域の連続性を拘束条件とする場合、カメラ信頼度が高い投影画像のラインの存在領域の連続性を考慮すればよい。例えば、領域の一部重複するように領域分割されている場合、隣接するラインの存在領域の積集合が最大となる高さを採用するような拘束条件を加えればよい。 When the continuity of adjacent set regions is a constraint condition, it is sufficient to consider the continuity of the existing regions of the lines of the projection image with high camera reliability. For example, when the regions are divided so that the regions partially overlap, a constraint condition may be added such that the height that maximizes the intersection of existing regions of adjacent lines is adopted.

[実施形態3]
以下では、本実施形態の仮想視点画像を生成する画像処理システムについて説明する。上述した実施形態で生成されたフィールドの3次元形状データは、仮想視点画像を生成する際に利用される。
[Embodiment 3]
An image processing system for generating a virtual viewpoint image according to this embodiment will be described below. The 3D shape data of the field generated in the above-described embodiment is used when generating a virtual viewpoint image.

競技場(スタジアム)やコンサートホールなどの施設に複数のカメラ及びマイクを設置し撮影及び集音を行うシステムについて、図12のシステム構成図を用いて説明する。画像処理システム1200は、センサシステム1210a~1210j、画像コンピューティングサーバ1300、コントローラ1400、スイッチングハブ1280、及びエンドユーザ端末1290を有する。 A system in which a plurality of cameras and microphones are installed in a facility such as a stadium or a concert hall to photograph and collect sound will be described with reference to the system configuration diagram of FIG. 12 . Image processing system 1200 includes sensor systems 1210 a - 1210 j , image computing server 1300 , controller 1400 , switching hub 1280 and end user terminal 1290 .

コントローラ1400は、制御ステーション1410と仮想カメラ操作UI1430を有する。制御ステーション1410は、画像処理システム1200を構成するそれぞれのブロックに対してネットワーク1410a~1410c、1391、1280a、1280b、及び1270a~1270iを通じて動作状態の管理及びパラメータ設定制御などを行う。ここで、ネットワークはEthernet(登録商標、以下省略)であるIEEE標準準拠のGbE(ギガビットイーサーネット)や10GbEでもよいし、インターコネクトInfiniband、産業用イーサーネット等を組合せて構成されてもよい。また、これらに限定されず、他の種別のネットワークであってもよい。 Controller 1400 has control station 1410 and virtual camera operation UI 1430 . The control station 1410 manages the operation state and controls parameter setting for each block constituting the image processing system 1200 through the networks 1410a to 1410c, 1391, 1280a, 1280b, and 1270a to 1270i. Here, the network may be GbE (gigabit Ethernet) or 10GbE conforming to the IEEE standard, which is Ethernet (registered trademark, hereinafter omitted), or may be configured by combining interconnect Infiniband, industrial Ethernet, and the like. Moreover, it is not limited to these, and other types of networks may be used.

最初に、センサシステム1210a~1210jの10セットの画像及び音声をセンサシステム1210jから画像コンピューティングサーバ1300へ送信する動作を説明する。本実施形態の画像処理システム1200は、センサシステム1210a~1210jがデイジーチェーンにより接続される。 First, the operation of transmitting ten sets of images and sounds for sensor systems 1210a-1210j from sensor system 1210j to image computing server 1300 will be described. In the image processing system 1200 of this embodiment, sensor systems 1210a to 1210j are connected by a daisy chain.

本実施形態において、特別な説明がない場合は、センサシステム1210a~1210jまでの10セットのシステムを区別せずセンサシステム1210と記載する。各センサシステム1210内の装置についても同様に、特別な説明がない場合は区別せず、マイク1211、カメラ1212、雲台1213、外部センサ1214、及びカメラアダプタ1220と記載する。なお、センサシステムの台数として6セットと記載しているが、あくまでも一例であり、台数をこれに限定するものではない。撮像システムのカメラ1212a~1212jそれぞれは、異なるカメラの対称位置以外の位置に配置されている。 In this embodiment, the ten sets of sensor systems 1210a to 1210j are referred to as the sensor system 1210 without distinction unless otherwise specified. Similarly, devices in each sensor system 1210 will be referred to as a microphone 1211, a camera 1212, a camera platform 1213, an external sensor 1214, and a camera adapter 1220 without distinction unless otherwise specified. Although the number of sensor systems is described as 6 sets, it is only an example and the number is not limited to this. Each camera 1212a-1212j of the imaging system is located at a position other than the symmetrical position of the different cameras.

また、複数のセンサシステム1210は同一の構成でなくてもよく、例えばそれぞれが異なる機種の装置で構成されていてもよい。なお、本実施形態では、特に断りがない限り、画像という文言が、動画と静止画の概念を含むものとして説明する。すなわち、本実施形態の画像処理システム1200は、静止画及び動画の何れについても処理可能である。また、本実施形態では、画像処理システム1200により提供される仮想視点コンテンツには、仮想視点画像と仮想聴収点音響が含まれる例を中心に説明するが、これに限らない。例えば、仮想視点コンテンツに音声が含まれていなくてもよい。また例えば、仮想視点コンテンツに含まれる音声が、仮想視点に最も近いマイクにより集音された音響であってもよい。また、本実施形態では、説明の簡略化のため、部分的に音声についての記載を省略しているが、基本的に画像と音声は共に処理されるものとする。 Also, the plurality of sensor systems 1210 may not have the same configuration, and for example, may be composed of different models of devices. In this embodiment, unless otherwise specified, the term "image" will be described as including the concepts of moving images and still images. That is, the image processing system 1200 of this embodiment can process both still images and moving images. Also, in the present embodiment, an example in which the virtual viewpoint content provided by the image processing system 1200 includes the virtual viewpoint image and the virtual listening point sound will be mainly described, but the present invention is not limited to this. For example, virtual viewpoint content does not have to include audio. Further, for example, the sound included in the virtual viewpoint content may be sound collected by a microphone closest to the virtual viewpoint. In addition, in this embodiment, for the sake of simplification of explanation, the description of audio is partially omitted, but it is assumed that basically both images and audio are processed.

センサシステム1210a~1210jは、それぞれ1台ずつのカメラ1212a~1212jを有する。すなわち、画像処理システム1200は、被写体を複数の方向から撮影するための複数のカメラ1212を有する。なお、複数のカメラ1212は同一符号を用いて説明するが、性能や機種が異なっていてもよい。複数のセンサシステム1210同士はデイジーチェーンにより接続される。この接続形態により、撮影画像の4Kや8Kなどへの高解像度化及び高フレームレート化に伴う画像データの大容量化において、接続ケーブル数の削減や配線作業の省力化ができる効果があることをここに明記しておく。 Sensor systems 1210a-1210j each have one camera 1212a-1212j. That is, the image processing system 1200 has a plurality of cameras 1212 for photographing a subject from a plurality of directions. Note that the plurality of cameras 1212 will be described using the same reference numerals, but may differ in performance and model. A plurality of sensor systems 1210 are connected by a daisy chain. With this connection configuration, it is possible to reduce the number of connection cables and save wiring work when the resolution of captured images is increased to 4K or 8K and the capacity of image data is increased due to the increase in frame rate. I will mention it here.

なおこれに限らず、接続形態として、各センサシステム1210a~1210jがスイッチングハブ1280に接続されて、スイッチングハブ1280を経由してセンサシステム1210間のデータ送受信を行うスター型のネットワーク構成としてもよい。 Note that the connection configuration is not limited to this, and a star-shaped network configuration in which the sensor systems 1210a to 1210j are connected to the switching hub 1280 and data is transmitted and received between the sensor systems 1210 via the switching hub 1280 may be used.

また、図12では、デイジーチェーンとなるようセンサシステム1210a~1210jの全てがカスケード接続されている構成を示したがこれに限定するものではない。例えば、複数のセンサシステム1210をいくつかのグループに分割して、分割したグループ単位でセンサシステム1210間をデイジーチェーン接続してもよい。そして、分割単位の終端となるカメラアダプタ1220がスイッチングハブに接続されて画像コンピューティングサーバ1300へ画像の入力を行うようにしてもよい。このような構成は、スタジアムにおいて特に有効である。例えば、スタジアムが複数階で構成され、フロア毎にセンサシステム1210を配備する場合が考えられる。この場合、フロア毎、又はスタジアムの半周毎に画像コンピューティングサーバ1300への入力を行うことができ、全センサシステム1210を1つのデイジーチェーンで接続する配線が困難な場所でも設置の簡便化及びシステムの柔軟化を図ることができる。 Also, FIG. 12 shows a configuration in which all of the sensor systems 1210a to 1210j are cascaded to form a daisy chain, but this is not a limitation. For example, the plurality of sensor systems 1210 may be divided into several groups, and the sensor systems 1210 may be daisy-chained for each divided group. Then, the camera adapter 1220 that is the end of the division unit may be connected to the switching hub to input the image to the image computing server 1300 . Such a configuration is particularly effective in stadiums. For example, a stadium may have multiple floors and the sensor system 1210 may be deployed on each floor. In this case, it is possible to input to the image computing server 1300 for each floor or for each half circumference of the stadium. flexibility can be achieved.

また、デイジーチェーン接続されて画像コンピューティングサーバ1300へ画像入力を行うカメラアダプタ1220が1つであるか2つ以上であるかに応じて、画像コンピューティングサーバ1300での画像処理の制御が切り替えられる。すなわち、センサシステム1210が複数のグループに分割されているかどうかに応じて制御が切り替えられる。画像入力を行うカメラアダプタ1220が1つの場合は、デイジーチェーン接続で画像伝送を行いながら競技場全周画像が生成されるため、画像コンピューティングサーバ1300において全周の画像データが揃うタイミングは同期がとられている。すなわち、センサシステム1210がグループに分割されていなければ、同期はとれる。 In addition, control of image processing in the image computing server 1300 is switched depending on whether one or more camera adapters 1220 are daisy-chained to input images to the image computing server 1300. . That is, control is switched depending on whether the sensor system 1210 is divided into multiple groups. When there is one camera adapter 1220 for image input, an image of the entire circumference of the stadium is generated while performing image transmission through a daisy chain connection. is taken. That is, if the sensor system 1210 is not divided into groups, it will be synchronized.

しかし、画像入力を行うカメラアダプタ1220が複数になる場合は、画像が撮影されてから画像コンピューティングサーバ1300に入力されるまでの遅延がデイジーチェーンのレーン(経路)毎に異なる場合が考えられる。すなわち、センサシステム1210がグループに分割される場合は、画像コンピューティングサーバ1300に全周の画像データが入力されるタイミングは同期がとられないことがある。そのため、画像コンピューティングサーバ1300において、全周の画像データが揃うまで待って同期をとる同期制御によって、画像データの集結をチェックしながら後段の画像処理を行う必要があることを明記しておく。 However, when there are a plurality of camera adapters 1220 that perform image input, it is conceivable that the delay from when an image is captured to when it is input to the image computing server 1300 differs for each lane (path) of the daisy chain. That is, if the sensor system 1210 is divided into groups, the timing at which the image data for the entire circumference is input to the image computing server 1300 may not be synchronized. Therefore, in the image computing server 1300, it is necessary to check the collection of the image data and perform the subsequent image processing by synchronizing control that waits until all the image data are collected.

本実施形態では、センサシステム1210aはマイク1211a、カメラ1212a、雲台1213a、外部センサ1214a、及びカメラアダプタ1220aを有する。なお、この構成に限定するものではなく、少なくとも1台のカメラアダプタ1220aと、1台のカメラ1212aまたは1台のマイク1211aを有していればよい。また例えば、センサシステム1210aは1台のカメラアダプタ1220aと、複数のカメラ1212aで構成されてもよいし、1台のカメラ1212aと複数のカメラアダプタ1220aで構成されてもよい。すなわち、画像処理システム1200内の複数のカメラ1212と複数のカメラアダプタ1220はN対M(NとMは共に1以上の整数)で対応する。また、センサシステム1210は、マイク1211a、カメラ1212a、雲台1213a、及びカメラアダプタ1220a以外の装置を含んでいてもよい。さらに、カメラアダプタ1220の機能の少なくとも一部をフロントエンドサーバ1330が有していてもよい。本実施形態では、センサシステム1210b~1210jについては、センサシステム1210aと同様の構成なので省略する。なお、センサシステム1210aと同じ構成に限定されるものではなく、其々のセンサシステム1210が異なる構成でもよい。 In this embodiment, sensor system 1210a includes microphone 1211a, camera 1212a, camera platform 1213a, external sensor 1214a, and camera adapter 1220a. Note that the configuration is not limited to this, and at least one camera adapter 1220a and one camera 1212a or one microphone 1211a may be provided. Further, for example, the sensor system 1210a may be configured with one camera adapter 1220a and multiple cameras 1212a, or may be configured with one camera 1212a and multiple camera adapters 1220a. That is, the plurality of cameras 1212 and the plurality of camera adapters 1220 in the image processing system 1200 correspond to N to M (both N and M are integers equal to or greater than 1). Also, the sensor system 1210 may include devices other than the microphone 1211a, the camera 1212a, the platform 1213a, and the camera adapter 1220a. Furthermore, at least a portion of the functionality of camera adapter 1220 may reside in front-end server 1330 . In this embodiment, the sensor systems 1210b to 1210j have the same configuration as the sensor system 1210a, so description thereof will be omitted. Note that the configuration is not limited to the same configuration as the sensor system 1210a, and each sensor system 1210 may have a different configuration.

マイク1211aにて集音された音声と、カメラ1212aにて撮影された画像は、カメラアダプタ1220aにおいて、様々な処理などが施された後、デイジーチェーン1270aを通してセンサシステム1210bのカメラアダプタ1220bに伝送される。同様にセンサシステム1210bは、集音された音声と撮影された画像を、センサシステム1210aから取得した画像及び音声と合わせてセンサシステム1210cに伝送する。 The sound collected by the microphone 1211a and the image captured by the camera 1212a are subjected to various processing in the camera adapter 1220a, and then transmitted to the camera adapter 1220b of the sensor system 1210b through the daisy chain 1270a. be. Similarly, sensor system 1210b transmits the collected sound and the captured image together with the image and sound obtained from sensor system 1210a to sensor system 1210c.

カメラアダプタ1220は、カメラ1212が撮影した画像データ及び他のカメラアダプタ1220から受取った画像データに対して、前景背景分離処理、前景3次元形状データ情報生成処理、動的キャリブレーションなどの処理を行う。カメラアダプタ1220により、撮像画像に対する前景背景分離処理に基づき、動的オブジェクトのシルエット画像が生成される。また、他のカメラアダプタ1220から受け取った複数のシルエット画像に基づき、視体積交差法などにより、動的オブジェクトに対応する3次元形状データを生成する。後述する画像コンピューティングサーバ1300により複数の3次元形状データが統合される。なお、カメラアダプタ1220では、動的オブジェクトに対応する3次元形状データを生成せずに、画像コンピューティングサーバ1300により、一括で複数の動的オブジェクトに対応する3次元形状データを生成するようにしてもよい。なお、ここでいう3次元形状データは、上述した実施形態1,2で生成される3次元形状データとは異なり、動的オブジェクトに対応する3次元形状データである。動的オブジェクトとは、時系列で同じ方向から撮影を行った場合において動きのある(その絶対位置が変化し得る)オブジェクト、つまり、動体を指す。動的オブジェクトは、例えば、人物や球技におけるボールを指す。 The camera adapter 1220 performs processes such as foreground/background separation processing, foreground three-dimensional shape data information generation processing, and dynamic calibration on image data captured by the camera 1212 and image data received from other camera adapters 1220. . A silhouette image of the dynamic object is generated by the camera adapter 1220 based on foreground/background separation processing on the captured image. Also, based on a plurality of silhouette images received from other camera adapters 1220, three-dimensional shape data corresponding to the dynamic object is generated by the visual volume intersection method or the like. A plurality of three-dimensional shape data are integrated by an image computing server 1300, which will be described later. Note that the camera adapter 1220 does not generate three-dimensional shape data corresponding to dynamic objects, and the image computing server 1300 collectively generates three-dimensional shape data corresponding to a plurality of dynamic objects. good too. Note that the three-dimensional shape data referred to here is three-dimensional shape data corresponding to dynamic objects, unlike the three-dimensional shape data generated in the first and second embodiments described above. A dynamic object refers to an object that moves (its absolute position can change) when photographed from the same direction in time series, that is, a moving object. A dynamic object refers to, for example, a person or a ball in a ball game.

前述した動作を続けることにより、センサシステム1210a~1210jが取得した画像及び音声は、センサシステム1210jから1280bを用いてスイッチングハブ1280に伝わり、その後、画像コンピューティングサーバ1300へ伝送される。 Continuing with the operations described above, images and sounds acquired by sensor systems 1210 a - 1210 j are transmitted to switching hub 1280 using sensor systems 1210 j - 1280 b and then to image computing server 1300 .

なお、本実施形態では、カメラ1212a~1212jとカメラアダプタ1220a~1220jが分離された構成にしているが、同一筺体で一体化されていてもよい。その場合、マイク1211a~1211jは一体化されたカメラ1212に内蔵されてもよいし、カメラ1212の外部に接続されていてもよい。 Although the cameras 1212a to 1212j and the camera adapters 1220a to 1220j are separated in this embodiment, they may be integrated in the same housing. In that case, the microphones 1211 a to 1211 j may be built into the integrated camera 1212 or may be connected to the outside of the camera 1212 .

次に、画像コンピューティングサーバ1300の構成及び動作について説明する。本実施形態の画像コンピューティングサーバ1300は、センサシステム1210jから取得したデータの処理を行う。画像コンピューティングサーバ1300はフロントエンドサーバ1330、データベース1350(以下、DBとも記載する。)、バックエンドサーバ1370、タイムサーバ1390を有する。なお、実施形態1,2で生成される被写体面であるフィールドに対応する3次元形状データは、このDB1350に予め格納されている。 Next, the configuration and operation of image computing server 1300 will be described. The image computing server 1300 of this embodiment processes the data obtained from the sensor system 1210j. The image computing server 1300 has a front end server 1330 , a database 1350 (hereinafter also referred to as DB), a back end server 1370 and a time server 1390 . The three-dimensional shape data corresponding to the field, which is the object plane generated in the first and second embodiments, is stored in the DB 1350 in advance.

タイムサーバ1390は時刻及び同期信号を配信する機能を有し、スイッチングハブ1280を介してセンサシステム1210a~1210jに時刻及び同期信号を配信する。時刻と同期信号を受信したカメラアダプタ1220a~1220jは、カメラ1212a~1212jを時刻と同期信号をもとにGenlockさせ画像フレーム同期を行う。すなわち、タイムサーバ1390は、複数のカメラ1212の撮影タイミングを同期させる。これにより、画像処理システム1200は同じタイミングで撮影された複数の撮影画像に基づいて仮想視点画像を生成できるため、撮影タイミングのずれによる仮想視点画像の品質低下を抑制できる。なお、本実施形態ではタイムサーバ1390が複数のカメラ1212の時刻同期を管理するものとするが、これに限らず、時刻同期のための処理を各カメラ1212又は各カメラアダプタ1220が独立して行ってもよい。 The time server 1390 has a function of distributing time and synchronization signals, and distributes the time and synchronization signals to the sensor systems 1210a to 1210j via the switching hub 1280. FIG. The camera adapters 1220a to 1220j that have received the time and synchronization signal Genlock the cameras 1212a to 1212j based on the time and the synchronization signal to perform image frame synchronization. That is, the time server 1390 synchronizes the shooting timings of the multiple cameras 1212 . As a result, since the image processing system 1200 can generate a virtual viewpoint image based on a plurality of captured images captured at the same timing, it is possible to suppress deterioration in the quality of the virtual viewpoint image due to the deviation of the capturing timing. In this embodiment, the time server 1390 manages the time synchronization of a plurality of cameras 1212, but this is not limitative, and each camera 1212 or each camera adapter 1220 independently performs time synchronization processing. may

フロントエンドサーバ1330は、センサシステム1210jから取得した画像及び音声から、セグメント化された伝送パケットを再構成してデータ形式を変換した後に、カメラの識別子やデータ種別、フレーム番号に応じてDB1350に書き込む。 The front-end server 1330 reconstructs segmented transmission packets from the images and sounds acquired from the sensor system 1210j, converts the data format, and writes them to the DB 1350 according to the camera identifier, data type, and frame number. .

次に、バックエンドサーバ1370では、仮想カメラ操作UI1430から視点の指定を受け付け、受け付けられた視点に基づいて、DB1350から対応する画像及び音声データ等のデータを読み出し、レンダリング処理を行って仮想視点画像を生成する。この読みだされるデータとしては、スタジアムに対応する3次元形状データや、フィールドに対応する3次元形状データなども含まれる。 Next, the back-end server 1370 receives a viewpoint designation from the virtual camera operation UI 1430, reads data such as corresponding image and audio data from the DB 1350 based on the received viewpoint, and performs rendering processing to generate a virtual viewpoint image. to generate The read data includes three-dimensional shape data corresponding to stadiums, three-dimensional shape data corresponding to fields, and the like.

なお、画像コンピューティングサーバ1300の構成はこれに限らない。例えば、フロントエンドサーバ1330、データベース1350、及びバックエンドサーバ1370のうち少なくとも2つが一体となって構成されていてもよい。また、フロントエンドサーバ1330、データベース1350、及びバックエンドサーバ1370の少なくとも何れかが複数含まれていてもよい。また、画像コンピューティングサーバ1300内の任意の位置に上記の装置以外の装置が含まれていてもよい。さらに、画像コンピューティングサーバ1300の機能の少なくとも一部をエンドユーザ端末1290や仮想カメラ操作UI1430が有していてもよい。 Note that the configuration of the image computing server 1300 is not limited to this. For example, at least two of the front-end server 1330, database 1350, and back-end server 1370 may be integrated. Also, at least one of the front-end server 1330, the database 1350, and the back-end server 1370 may be included in multiple numbers. Additionally, devices other than those described above may be included at any location within the Image Computing Server 1300 . Furthermore, at least part of the functions of the image computing server 1300 may be included in the end-user terminal 1290 or the virtual camera operation UI 1430 .

レンダリング処理された画像は、バックエンドサーバ1370からエンドユーザ端末1290に送信され、エンドユーザ端末1290を操作するユーザは視点の指定に応じた画像閲覧及び音声視聴ができる。すなわち、バックエンドサーバ1370は、複数のカメラ1212により撮影された撮影画像(複数視点画像)と視点情報とに基づく仮想視点コンテンツを生成する。より具体的には、バックエンドサーバ1370は、例えば複数のカメラアダプタ1220により複数のカメラ1212による撮影画像から抽出された所定領域の画像データと、ユーザ操作により指定された視点に基づいて、仮想視点コンテンツを生成する。そしてバックエンドサーバ1370は、生成した仮想視点コンテンツをエンドユーザ端末1290に提供する。なお、本実施形態において仮想視点コンテンツは画像コンピューティングサーバ1300により生成されるものであり、特にバックエンドサーバ1370により生成される場合を中心に説明する。ただしこれに限らず、仮想視点コンテンツは、画像コンピューティングサーバ1300に含まれるバックエンドサーバ1370以外の装置により生成されてもよいし、コントローラ1400やエンドユーザ端末1290により生成されてもよい。 The rendered image is transmitted from the back-end server 1370 to the end-user terminal 1290, and the user operating the end-user terminal 1290 can view images and listen to audio according to the specified viewpoint. That is, the backend server 1370 generates virtual viewpoint content based on captured images (multi-viewpoint images) captured by a plurality of cameras 1212 and viewpoint information. More specifically, the back-end server 1370 generates a virtual viewpoint based on image data of a predetermined region extracted from images captured by the cameras 1212 by the camera adapters 1220 and a viewpoint specified by user operation. Generate content. The backend server 1370 then provides the generated virtual viewpoint content to the end user terminal 1290 . Note that in the present embodiment, the virtual viewpoint content is generated by the image computing server 1300, and the case where it is generated by the backend server 1370 will be mainly described. However, not limited to this, the virtual viewpoint content may be generated by a device other than the backend server 1370 included in the image computing server 1300 , or may be generated by the controller 1400 or the end user terminal 1290 .

本実施形態における仮想視点コンテンツは、仮想的な視点から被写体を撮影した場合に得られる画像としての仮想視点画像を含むコンテンツである。言い換えると、仮想視点画像は、指定された視点における見えを表す画像であるとも言える。仮想的な視点(仮想視点)は、ユーザにより指定されてもよいし、画像解析の結果等に基づいて自動的に指定されてもよい。すなわち仮想視点画像には、ユーザが任意に指定した視点に対応する任意視点画像(自由視点画像)が含まれる。また、複数の候補からユーザが指定した視点に対応する画像や、装置が自動で指定した視点に対応する画像も、仮想視点画像に含まれる。 The virtual viewpoint content in this embodiment is content that includes a virtual viewpoint image as an image obtained when a subject is photographed from a virtual viewpoint. In other words, it can also be said that the virtual viewpoint image is an image representing the appearance at the designated viewpoint. A virtual viewpoint (virtual viewpoint) may be specified by the user, or may be automatically specified based on the result of image analysis or the like. That is, the virtual viewpoint image includes an arbitrary viewpoint image (free viewpoint image) corresponding to a viewpoint arbitrarily designated by the user. The virtual viewpoint image also includes an image corresponding to a viewpoint specified by the user from among a plurality of candidates and an image corresponding to a viewpoint automatically specified by the device.

なお、本実施形態では、仮想視点コンテンツに音声データ(オーディオデータ)が含まれる場合の例を中心に説明するが、必ずしも音声データが含まれていなくてもよい。また、バックエンドサーバ1370は、仮想視点画像を例えばH.264やHEVCなどの符号化方式に従って圧縮符号化したうえで、MPEG-DASHプロトコルを使ってエンドユーザ端末1290へ送信してもよい。また、仮想視点画像は、非圧縮でエンドユーザ端末1290へ送信されてもよい。とくに圧縮符号化を行う前者はエンドユーザ端末1290としてスマートフォンやタブレットを想定しており、後者は非圧縮画像を表示可能なディスプレイを想定している。すなわち、エンドユーザ端末1290の種別に応じて画像フォーマットが切り替え可能であることを明記しておく。また、画像の送信プロトコルはMPEG-DASHに限らず、例えば、HLS(HTTP Live Streaming)やその他の送信方法を用いてもよい。 In this embodiment, an example in which voice data (audio data) is included in the virtual viewpoint content will be mainly described, but voice data does not necessarily have to be included. Also, the back-end server 1370 may store virtual viewpoint images in H.264, for example. 264 or HEVC, and then transmitted to the end user terminal 1290 using the MPEG-DASH protocol. The virtual viewpoint images may also be sent to the end user terminal 1290 uncompressed. In particular, the former that performs compression encoding assumes a smartphone or tablet as the end user terminal 1290, and the latter assumes a display capable of displaying uncompressed images. That is, it should be clearly stated that the image format can be switched according to the type of end user terminal 1290 . Also, the image transmission protocol is not limited to MPEG-DASH, and for example, HLS (HTTP Live Streaming) or other transmission methods may be used.

このように、画像処理システム1200は、映像収集ドメイン、データ保存ドメイン、及び映像生成ドメインという3つの機能ドメインを有する。映像収集ドメインはセンサシステム1210~1210jを含む。また、データ保存ドメインはデータベース1350、フロントエンドサーバ1330及びバックエンドサーバ1370を含む。また、映像生成ドメインは仮想カメラ操作UI1430及びエンドユーザ端末1290を含む。なお本構成に限らず、例えば、仮想カメラ操作UI1430が直接センサシステム1210a~1210jから画像を取得する事も可能である。しかしながら、本実施形態では、センサシステム1210a~1210jから直接画像を取得する方法ではなくデータ保存機能を中間に配置する方法をとる。具体的には、フロントエンドサーバ1330がセンサシステム1210a~1210jが生成した画像データや音声データ及びそれらのデータのメタ情報をデータベース1350の共通スキーマ及びデータ型に変換している。これにより、センサシステム1210a~1210jのカメラ1212が他機種のカメラに変化しても、変化した差分をフロントエンドサーバ1330が吸収し、データベース1350に登録することができる。このことによって、カメラ1212が他機種カメラに変わった場合に、仮想カメラ操作UI1430が適切に動作しないおそれを低減できる。 Thus, the image processing system 1200 has three functional domains: an image collection domain, a data storage domain, and an image generation domain. The image collection domain includes sensor systems 1210-1210j. Also, the data storage domain includes database 1350 , front-end server 1330 and back-end server 1370 . Also, the image generation domain includes a virtual camera operation UI 1430 and an end user terminal 1290 . For example, the virtual camera operation UI 1430 can directly acquire images from the sensor systems 1210a to 1210j without being limited to this configuration. However, in this embodiment, the data storage function is placed in the middle rather than acquiring images directly from the sensor systems 1210a-1210j. Specifically, the front-end server 1330 converts the image data and audio data generated by the sensor systems 1210a to 1210j and the meta information of these data into the common schema and data type of the database 1350. FIG. As a result, even if the cameras 1212 of the sensor systems 1210a to 1210j are changed to cameras of other models, the front-end server 1330 can absorb the differences and register them in the database 1350. FIG. This reduces the risk that the virtual camera operation UI 1430 will not operate properly when the camera 1212 is changed to a camera of another model.

また、仮想カメラ操作UI1430は、直接データベース1350にアクセスせずにバックエンドサーバ1370を介してアクセスする構成である。バックエンドサーバ1370で画像生成処理に係わる共通処理を行い、操作UIに係わるアプリケーションの差分部分を仮想カメラ操作UI1430で行っている。このことにより、仮想カメラ操作UI1430の開発において、UI操作デバイスや、生成したい仮想視点画像を操作するUIの機能要求に対する開発に注力する事ができる。また、バックエンドサーバ1370は、仮想カメラ操作UI1430の要求に応じて画像生成処理に係わる共通処理を追加又は削除する事も可能である。このことによって仮想カメラ操作UI1430の要求に柔軟に対応する事ができる。 Also, the virtual camera operation UI 1430 is configured to access via the backend server 1370 without directly accessing the database 1350 . The backend server 1370 performs common processing related to image generation processing, and the virtual camera operation UI 1430 performs the difference part of the application related to the operation UI. As a result, in the development of the virtual camera operation UI 1430, it is possible to focus on the development of the functional requirements of the UI operation device and the UI for operating the virtual viewpoint image to be generated. Also, the backend server 1370 can add or delete common processing related to image generation processing in response to a request from the virtual camera operation UI 1430 . This makes it possible to flexibly respond to requests from the virtual camera operation UI 1430 .

このように、画像処理システム1200においては、被写体を複数の方向から撮影するための複数のカメラ1212による撮影に基づく画像データに基づいて、バックエンドサーバ1370により仮想視点画像が生成される。なお、本実施形態における画像処理システム1200は、上記で説明した物理的な構成に限定される訳ではなく、論理的に構成されていてもよい。 As described above, in the image processing system 1200, the backend server 1370 generates a virtual viewpoint image based on image data captured by a plurality of cameras 1212 for capturing images of a subject from a plurality of directions. Note that the image processing system 1200 in this embodiment is not limited to the physical configuration described above, and may be configured logically.

<その他の実施形態>
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
<Other embodiments>
The present invention supplies a program that implements one or more functions of the above-described embodiments to a system or device via a network or a storage medium, and one or more processors in the computer of the system or device reads and executes the program. It can also be realized by processing to It can also be implemented by a circuit (for example, ASIC) that implements one or more functions.

100 生成装置
501 画像取得部
504 領域設定部
507 決定部
508 生成部
509 特定パターン取得部
100 generation device 501 image acquisition unit 504 area setting unit 507 determination unit 508 generation unit 509 specific pattern acquisition unit

Claims (12)

被写体面を複数の方向から撮影して取得される複数の撮影画像を取得する第1取得手段と、
前記被写体面における模様の位置及び形状を示す情報を取得する第2取得手段と、
前記第1取得手段により取得された前記複数の撮影画像と、前記第2取得手段により取得された前記模様の位置及び形状を示す情報とに基づき、前記被写体面における複数の領域毎に3次元位置情報を決定する決定手段と、
前記決定手段により決定された前記領域毎の3次元位置情報に基づき、前記被写体面に対応する3次元形状データを生成する生成手段と、
前記第1取得手段により取得された複数の撮影画像に基づき、前記領域毎及び前記被写体面からの距離毎に、前記被写体面からの距離が異なる投影面における投影画像を生成する投影手段と、
前記領域毎及び前記被写体面からの距離毎に、前記被写体面からの距離が同じである複数の投影画像を合成して合成画像を生成する合成手段とを有し、
前記決定手段は、前記合成手段により生成された、前記領域毎及び前記被写体面からの距離毎の合成画像に基づいて、前記領域毎に3次元位置情報を決定する
ことを特徴とする3次元形状データの生成装置。
a first obtaining means for obtaining a plurality of photographed images obtained by photographing an object plane from a plurality of directions;
a second acquiring means for acquiring information indicating the position and shape of the pattern on the object plane;
a three-dimensional position of each of the plurality of areas on the object plane based on the plurality of photographed images acquired by the first acquisition means and the information indicating the position and shape of the pattern acquired by the second acquisition means; a determining means for determining information;
generating means for generating three-dimensional shape data corresponding to the object plane based on the three-dimensional position information for each region determined by the determining means;
Projection means for generating projection images on projection planes having different distances from the subject plane for each region and for each distance from the subject plane, based on the plurality of captured images acquired by the first acquisition means;
synthesizing means for synthesizing a plurality of projection images having the same distance from the object plane to generate a synthetic image for each region and each distance from the object plane;
The determining means determines three-dimensional position information for each area based on the synthesized image for each area and for each distance from the object plane generated by the synthesizing means. Data generator.
前記第2取得手段により取得された前記模様の位置及び形状を示す情報に基づき、前記被写体面における複数の領域を設定する設定手段を、さらに有し、
前記決定手段は、前記設定手段により設定された前記被写体面における複数の領域毎に3次元位置情報を決定することを特徴とする請求項1に記載の生成装置。
further comprising setting means for setting a plurality of areas on the subject plane based on the information indicating the position and shape of the pattern acquired by the second acquisition means;
2. The generating apparatus according to claim 1, wherein said determining means determines three-dimensional position information for each of a plurality of areas on said object plane set by said setting means.
前記設定手段は、前記複数の領域のそれぞれに、前記模様の少なくとも一部が含まれるように前記複数の領域を設定することを特徴とする請求項2に記載の生成装置。 3. The generating apparatus according to claim 2, wherein said setting means sets said plurality of areas such that each of said plurality of areas includes at least part of said pattern. 前記決定手段は、前記合成手段により生成された、前記領域毎及び前記被写体面からの距離毎の前記合成画像のうち、前記模様が鮮鋭となる合成画像に対応する3次元位置情報を、前記領域の3次元位置情報と決定することを特徴とする請求項1乃至3のいずれか1項に記載の生成装置。 The determination means determines three-dimensional position information corresponding to a composite image in which the pattern is sharp among the composite images for each region and for each distance from the object plane generated by the composite device. 4. The generation device according to claim 1, wherein the three-dimensional position information is determined as . 撮像装置のパラメータを取得する第3取得手段をさらに有し、
前記第2取得手段により取得された前記模様の位置及び形状を示す情報と、前記第3取得手段により取得された前記パラメータと、に基づいて、前記複数の領域の3次元位置情報を決定するための指標を算出する算出手段をさらに有し、
前記合成手段は、前記算出手段により算出された前記指標に基づき、前記被写体面からの距離が同じである前記複数の投影画像を合成することを特徴とする請求項1乃至4のいずれか1項に記載の生成装置。
further comprising third acquisition means for acquiring parameters of the imaging device;
for determining three-dimensional position information of the plurality of regions based on the information indicating the position and shape of the pattern acquired by the second acquiring means and the parameters acquired by the third acquiring means; further comprising calculating means for calculating the index of
5. The synthesizing unit, based on the index calculated by the calculating unit, synthesizes the plurality of projection images having the same distance from the object plane. The generator according to .
前記合成手段は、前記被写体面からの距離が同じである前記複数の投影画像を合成する際に、前記算出手段により算出された前記指標を重みとして、各投影画像で対応する画素の画素値に対して重み付き平均化処理を行うことを特徴とする請求項5に記載の生成装置。 When synthesizing the plurality of projected images having the same distance from the object plane, the synthesizing means uses the index calculated by the calculating means as a weight to determine the pixel value of the corresponding pixel in each projected image. 6. The generator according to claim 5, wherein weighted averaging is performed on the data. 前記模様は、競技を行うためのフィールドに描かれるラインであることを特徴とする請求項1乃至6のいずれか1項に記載の生成装置。 7. The generator according to any one of claims 1 to 6, wherein the pattern is a line drawn on a field for playing a game. 前記模様は、被写体面上において他の領域の色と異なる色であることを特徴とする請求項1乃至7のいずれか1項に記載の生成装置。 8. The generation device according to claim 1, wherein the pattern has a color different from that of other areas on the object plane. 被写体面を複数の方向から撮影して取得される複数の撮影画像を取得する第1取得工程と、
前記被写体面における模様の位置及び形状を示す情報を取得する第2取得工程と、
前記第1取得工程により取得された前記複数の撮影画像と、前記第2取得工程により取得された前記模様の位置及び形状を示す情報とに基づき、前記被写体面における前記複数の領域毎に3次元位置情報を決定する決定工程と、
前記決定工程により決定された前記領域毎の3次元位置情報に基づき、前記被写体面に対応する3次元形状データを生成する生成工程と、
前記第1取得工程により取得された複数の撮影画像に基づき、前記領域毎及び前記被写体面からの距離毎に、前記被写体面からの距離が異なる投影面における投影画像を生成する投影工程と、
前記領域毎及び前記被写体面からの距離毎に、前記被写体面からの距離が同じである複数の投影画像を合成して合成画像を生成する合成とを有し、
前記決定工程では、前記合成工程において生成された、前記領域毎及び前記被写体面からの距離毎の合成画像に基づいて、前記領域毎に3次元位置情報を決定する
ことを特徴とする3次元形状データの生成方法。
a first obtaining step of obtaining a plurality of photographed images obtained by photographing an object plane from a plurality of directions;
a second acquisition step of acquiring information indicating the position and shape of the pattern on the object plane;
three-dimensionally for each of the plurality of regions on the object plane based on the plurality of photographed images obtained by the first obtaining step and the information indicating the position and shape of the pattern obtained by the second obtaining step; a determining step of determining location information;
a generation step of generating three-dimensional shape data corresponding to the object plane based on the three-dimensional position information for each region determined by the determination step;
a projecting step of generating a projection image on a projection plane having a different distance from the subject plane for each region and for each distance from the subject plane, based on the plurality of captured images acquired by the first acquiring step;
synthesizing a plurality of projected images having the same distance from the object plane to generate a synthetic image for each region and each distance from the object plane;
The determination step determines three-dimensional position information for each region based on the synthesized image for each region and for each distance from the object plane generated in the synthesis step. How the data is generated.
前記第2取得工程により取得された前記模様の位置及び形状を示す情報に基づき、前記被写体面における複数の領域を設定する設定工程を、さらに有し、
前記決定工程は、前記設定工程により設定された前記被写体面における複数の領域毎に3次元位置情報を決定することを特徴とする請求項9に記載の生成方法。
further comprising a setting step of setting a plurality of areas on the subject plane based on the information indicating the position and shape of the pattern acquired in the second acquiring step;
10. The generating method according to claim 9, wherein said determining step determines three-dimensional position information for each of a plurality of areas on said object plane set by said setting step.
前記設定工程は、前記複数の領域のそれぞれに、前記模様の少なくとも一部が含まれるように前記複数の領域を設定することを特徴とする請求項10に記載の生成方法。 11. The generating method according to claim 10, wherein in the setting step, the plurality of areas are set such that each of the plurality of areas includes at least part of the pattern. コンピュータに、請求項1乃至8のいずれか1項に記載の生成装置の各手段を機能させるためのプログラム。 A program for causing a computer to function each means of the generation device according to any one of claims 1 to 8.
JP2018122424A 2018-06-27 2018-06-27 Generation device, generation method and program Active JP7278720B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018122424A JP7278720B2 (en) 2018-06-27 2018-06-27 Generation device, generation method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018122424A JP7278720B2 (en) 2018-06-27 2018-06-27 Generation device, generation method and program

Publications (2)

Publication Number Publication Date
JP2020004053A JP2020004053A (en) 2020-01-09
JP7278720B2 true JP7278720B2 (en) 2023-05-22

Family

ID=69100845

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018122424A Active JP7278720B2 (en) 2018-06-27 2018-06-27 Generation device, generation method and program

Country Status (1)

Country Link
JP (1) JP7278720B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7464134B2 (en) * 2020-08-27 2024-04-09 三菱電機株式会社 Shape modeling device and shape modeling method

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002063580A (en) 2000-08-22 2002-02-28 Asia Air Survey Co Ltd Inter-image expansion image matching method using indefinite shape window
JP2002157576A (en) 2000-11-22 2002-05-31 Nec Corp Device and method for processing stereo image and recording medium for recording stereo image processing program
JP2018055644A (en) 2016-09-30 2018-04-05 キヤノン株式会社 Image processing apparatus and control method thereof

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002063580A (en) 2000-08-22 2002-02-28 Asia Air Survey Co Ltd Inter-image expansion image matching method using indefinite shape window
JP2002157576A (en) 2000-11-22 2002-05-31 Nec Corp Device and method for processing stereo image and recording medium for recording stereo image processing program
JP2018055644A (en) 2016-09-30 2018-04-05 キヤノン株式会社 Image processing apparatus and control method thereof

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Jae-Hong Yom,外3名,"Automatic Recovery of Building Heights from Aerial Digital Images",IGARSS 2004. 2004 IEEE International Geoscience and Remote Sensing Symposium,2004年09月20日,pp. 4765-4768

Also Published As

Publication number Publication date
JP2020004053A (en) 2020-01-09

Similar Documents

Publication Publication Date Title
US10867430B2 (en) Method and system of 3D reconstruction with volume-based filtering for image processing
JP7159057B2 (en) Free-viewpoint video generation method and free-viewpoint video generation system
US11869205B1 (en) Techniques for determining a three-dimensional representation of a surface of an object from a set of images
WO2021077720A1 (en) Method, apparatus, and system for acquiring three-dimensional model of object, and electronic device
US20200219301A1 (en) Three dimensional acquisition and rendering
JP7002056B2 (en) 3D model generator and 3D model generation method
TW201915944A (en) Image processing method, apparatus, and storage medium
TWI451358B (en) Banana codec
JP5966256B2 (en) Image processing apparatus and method, program, and recording medium
JP2019511016A (en) Stitching into a frame panorama frame
CN107798702B (en) Real-time image superposition method and device for augmented reality
CN107798704B (en) Real-time image superposition method and device for augmented reality
JP2015022510A (en) Free viewpoint image imaging device and method for the same
JP2019083402A (en) Image processing apparatus, image processing system, image processing method, and program
CN105809729B (en) A kind of spherical panorama rendering method of virtual scene
US11812154B2 (en) Method, apparatus and system for video processing
JP2019022151A (en) Information processing apparatus, image processing system, control method, and program
WO2018052100A1 (en) Image processing device, image processing method, and image processing program
JP2019003428A (en) Image processing device, image processing method, and program
WO2020184174A1 (en) Image processing device and image processing method
JP2008217593A (en) Subject area extraction device and subject area extraction program
JP7278720B2 (en) Generation device, generation method and program
CN107798703B (en) Real-time image superposition method and device for augmented reality
JP2016114445A (en) Three-dimensional position calculation device, program for the same, and cg composition apparatus
US20200134779A1 (en) Method and system for providing at least a portion of content having six degrees of freedom motion

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210617

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220527

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220607

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220804

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230411

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230510

R151 Written notification of patent or utility model registration

Ref document number: 7278720

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151