JP2023016187A - Image processing method, computer program, and image processing device - Google Patents

Image processing method, computer program, and image processing device Download PDF

Info

Publication number
JP2023016187A
JP2023016187A JP2021120338A JP2021120338A JP2023016187A JP 2023016187 A JP2023016187 A JP 2023016187A JP 2021120338 A JP2021120338 A JP 2021120338A JP 2021120338 A JP2021120338 A JP 2021120338A JP 2023016187 A JP2023016187 A JP 2023016187A
Authority
JP
Japan
Prior art keywords
dimensional
image
frame
dimensional coordinates
bounding box
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021120338A
Other languages
Japanese (ja)
Other versions
JP7031047B1 (en
Inventor
アブドゥルラーマン アブドゥルガニ
Abdul Rahman Abdulgani
勝 永安
Masaru Nagayasu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Exa Wizards Inc
Original Assignee
Exa Wizards Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Exa Wizards Inc filed Critical Exa Wizards Inc
Priority to JP2021120338A priority Critical patent/JP7031047B1/en
Application granted granted Critical
Publication of JP7031047B1 publication Critical patent/JP7031047B1/en
Publication of JP2023016187A publication Critical patent/JP2023016187A/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

To provide an image processing method, a computer program and an image processing device for generating a bounding box that encloses an object shown in a distorted image.SOLUTION: An image processing method pertaining to the present embodiment includes: acquiring a distorted image which is photographed by a camera and includes distortion; detecting an object shown in the acquired distorted image; converting the two-dimensional coordinates of the object in the distorted image to three-dimensional coordinates in a virtual three-dimensional space; generating a solid frame that encloses the object in the three-dimensional space; inversely converting the three-dimensional coordinates of the generated sold frame to two-dimensional coordinates in the distorted image; and superimposing a planar frame obtained by converting the solid frame to two-dimensional coordinates on top of the distorted image.SELECTED DRAWING: Figure 4

Description

本発明は、カメラが撮影した画像に写された対象物を検出する処理を行う画像処理方法、コンピュータプログラム及び画像処理装置に関する。 The present invention relates to an image processing method, a computer program, and an image processing apparatus for detecting an object captured in an image captured by a camera.

近年、機械学習及び深層学習等の技術が進歩し、カメラで撮影した画像から特定の対象物、例えば人又は車等を検出することが可能となっている。この技術は、監視カメラ及び車載カメラ等に用いられ、例えばカメラの撮影範囲内に人が存在するか否か、人がどのような行動を行っているか等の判断が可能である。監視カメラ等では、できるだけ広い範囲を撮影できることが望まれ、画角の広いレンズ(いわゆる広角レンズ)を用いた撮影が行われる場合が多い。広角レンズを用いて撮影される画像は、周辺部分ほど大きなゆがみが生じた画像となる。 In recent years, advances in techniques such as machine learning and deep learning have made it possible to detect a specific object, such as a person or a vehicle, from an image captured by a camera. This technology is used in surveillance cameras, in-vehicle cameras, etc., and can determine, for example, whether or not a person exists within the imaging range of the camera, and what kind of behavior the person is taking. 2. Description of the Related Art Surveillance cameras and the like are desired to be capable of photographing as wide a range as possible, and are often photographed using a lens with a wide angle of view (so-called wide-angle lens). An image captured using a wide-angle lens is an image in which distortion is more pronounced toward the periphery.

特許文献1においては、物体を撮影して生成された画像の歪み補正を行う画像処理システムが提案されている。この画像処理システムは、物体を照明する照明部と、物体上に所定パターンを投写する投写部と、照明部により照明された物体を所定パターンを含まずに撮影して第1画像データを生成し、照明部により照明された物体を所定パターンと共に撮影して第2画像データを生成する撮像部と、照明部及び撮像部を物体に対して相対的に移動させる駆動部とを有する撮像装置を備える。また画像処理システムは、第2画像データが示す第2画像における所定パターンに対応したパターン画像の歪み量を検出し、検出した歪み量に基づいて第1画像データが示す第1画像の歪み補正を行う画像処理装置を備える。 Japanese Unexamined Patent Application Publication No. 2002-200002 proposes an image processing system that corrects distortion of an image generated by photographing an object. This image processing system includes an illumination unit that illuminates an object, a projection unit that projects a predetermined pattern onto the object, and an image of the object illuminated by the illumination unit that does not include the predetermined pattern to generate first image data. an imaging device that has an imaging unit that captures an image of an object illuminated by the illumination unit together with a predetermined pattern to generate second image data; and a driving unit that relatively moves the illumination unit and the imaging unit with respect to the object. . Further, the image processing system detects the distortion amount of the pattern image corresponding to the predetermined pattern in the second image indicated by the second image data, and corrects the distortion of the first image indicated by the first image data based on the detected distortion amount. and an image processing device that performs

特開2019-192949号公報JP 2019-192949 A

カメラが撮影した画像から対象物を検出する処理を行った場合、検出結果をユーザに提示するために、検出した対象物を囲む長方形状の枠、いわゆるバウンディングボックスを撮影画像に重畳して表示することが行われる。しかしながら、カメラが撮影した歪みのある画像に対してバウンディングボックスを表示する場合、対象物が歪んでいることからそれを囲むバウンディングボックスのサイズが大きくなり、バウンディングボックス内に対象物以外のものが入り込むなど、バウンディングボックスの精度が低下する場合があった。カメラが例えば通常のレンズを通して撮影を行う場合にも撮影画像に歪みが生じる可能性があり、特に広角レンズを通して撮影を行う場合には画像に大きな歪みが生じる可能性がある。 When an object is detected from an image captured by a camera, a rectangular frame surrounding the detected object, a so-called bounding box, is displayed superimposed on the captured image in order to present the detection results to the user. is done. However, when a bounding box is displayed for a distorted image captured by a camera, the size of the bounding box surrounding the object becomes large because the object is distorted, and objects other than the object enter the bounding box. In some cases, the precision of the bounding box was degraded. The captured image may also be distorted when the camera takes a picture, for example, through a normal lens, and in particular when the camera takes a picture through a wide-angle lens, the image may be greatly distorted.

本発明は、斯かる事情に鑑みてなされたものであって、その目的とするところは、歪みのある画像に写された対象物を囲むバウンディングボックスを生成することが期待できる画像処理方法、コンピュータプログラム及び画像処理装置を提供することにある。 SUMMARY OF THE INVENTION The present invention has been made in view of such circumstances, and aims to provide an image processing method capable of generating a bounding box surrounding an object captured in a distorted image. It is to provide a program and an image processing device.

一実施形態に係る画像処理方法は、カメラが撮影した歪みを含む歪曲画像を取得し、取得した前記歪曲画像に写された対象物を検出し、前記歪曲画像における前記対象物の2次元座標を、仮想の3次元空間における3次元座標に変換し、前記3次元空間において前記対象物を囲む立体枠を生成し、生成した前記立体枠の3次元座標を、前記歪曲画像における2次元座標に逆変換し、前記立体枠を2次元座標に変換して得られた平面枠を、前記歪曲画像に重畳する。 An image processing method according to one embodiment acquires a distorted image captured by a camera and includes distortion, detects an object appearing in the acquired distorted image, and calculates two-dimensional coordinates of the object in the distorted image. , transforming into three-dimensional coordinates in a virtual three-dimensional space, generating a three-dimensional frame surrounding the object in the three-dimensional space, and inverting the three-dimensional coordinates of the generated three-dimensional frame to the two-dimensional coordinates in the distorted image; A planar frame obtained by transforming the three-dimensional frame into two-dimensional coordinates is superimposed on the distorted image.

一実施形態による場合は、歪みのある画像に対して対象物を囲むバウンディングボックスを生成することが期待できる。 According to one embodiment, it is expected to generate a bounding box around the object for the distorted image.

本実施の形態に係る情報処理システムの概要を説明するための模式図である。1 is a schematic diagram for explaining an overview of an information processing system according to an embodiment; FIG. 本実施の形態に係るサーバ装置の構成を示すブロック図である。1 is a block diagram showing the configuration of a server device according to an embodiment; FIG. 本実施の形態に係る端末装置の構成を示すブロック図である。2 is a block diagram showing the configuration of a terminal device according to this embodiment; FIG. 本実施の形態に係るサーバ装置が行うバウンディングボックス生成処理を説明するための模式図である。FIG. 4 is a schematic diagram for explaining bounding box generation processing performed by the server device according to the present embodiment; 本実施の形態に係るサーバ装置が行うバウンディングボックス調整処理を説明するための模式図である。FIG. 4 is a schematic diagram for explaining bounding box adjustment processing performed by the server device according to the present embodiment; 本実施の形態に係るサーバ装置が行うバウンディングボックス調整処理を説明するための模式図である。FIG. 4 is a schematic diagram for explaining bounding box adjustment processing performed by the server device according to the present embodiment; 端末装置による画像の表示例を示す模式図である。FIG. 4 is a schematic diagram showing an example of image display by a terminal device; 本実施の形態に係るサーバ装置が行う処理の手順を示すフローチャートである。4 is a flow chart showing the procedure of processing performed by the server device according to the present embodiment; 本実施の形態に係るサーバ装置が行う画像抽出用のバウンディングボックス生成処理を説明するための模式図である。FIG. 5 is a schematic diagram for explaining bounding box generation processing for image extraction performed by the server device according to the present embodiment; バウンディングボックスに基づく画像抽出を説明するための模式図である。FIG. 4 is a schematic diagram for explaining image extraction based on bounding boxes; 本実施の形態に係るサーバ装置が行う画像抽出処理の手順を示すフローチャートである。5 is a flow chart showing the procedure of image extraction processing performed by the server device according to the present embodiment;

本発明の実施形態に係る情報処理システムの具体例を、以下に図面を参照しつつ説明する。なお、本発明はこれらの例示に限定されるものではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。 A specific example of an information processing system according to an embodiment of the present invention will be described below with reference to the drawings. The present invention is not limited to these examples, but is indicated by the scope of the claims, and is intended to include all modifications within the scope and meaning equivalent to the scope of the claims.

<システム構成>
図1は、本実施の形態に係る情報処理システムの概要を説明するための模式図である。本実施の形態に係る情報処理システムは、例えば商業施設又は公共施設等に設置されたカメラ1が周辺の撮影を行い、撮影した画像からサーバ装置3が人を検出し、検出した人を囲むバウンディングボックスを撮影画像に重畳して端末装置5に表示するシステムである。
<System configuration>
FIG. 1 is a schematic diagram for explaining an outline of an information processing system according to this embodiment. In the information processing system according to the present embodiment, for example, a camera 1 installed in a commercial facility or a public facility takes pictures of the surroundings, a server device 3 detects a person from the taken image, and a bounding image surrounding the detected person is detected. This system superimposes a box on a photographed image and displays it on the terminal device 5 .

本実施の形態に係るカメラ1は、画角が広い広角レンズを通して撮影を行うカメラであり、例えば水平方向の画角が約180°のカメラである。カメラ1は、1秒間に数回~数十回の頻度で撮影を行い、撮影により得られた画像をサーバ装置3へ送信する。カメラ1は、例えばLAN(Local Area Network)、無線LAN、携帯電話通信網又はインターネット等の有線又は無線のネットワークを介して、サーバ装置3との通信を行い、撮影画像をサーバ装置3へ送信する。なお本実施の形態においてカメラ1は広角レンズを通して撮影を行うものとするが、これに限るものではなく、広角レンズとは異なるレンズを通して撮影を行ってもよい。 The camera 1 according to the present embodiment is a camera that takes pictures through a wide-angle lens with a wide angle of view, for example, a camera with a horizontal angle of view of about 180°. The camera 1 shoots several times to several tens of times per second, and transmits the images obtained by the shooting to the server device 3 . The camera 1 communicates with a server device 3 via a wired or wireless network such as a LAN (Local Area Network), a wireless LAN, a mobile phone communication network, or the Internet, and transmits captured images to the server device 3. . In the present embodiment, the camera 1 takes pictures through a wide-angle lens, but the invention is not limited to this, and pictures may be taken through a lens different from the wide-angle lens.

サーバ装置3は、一又は複数のカメラ1から送信される撮影画像を受信して、受信した撮影画像に写された人を検出する処理を行う。サーバ装置3は、撮影画像から検出した人に対して、この人を囲むバウンディングボックス101を生成し、元の撮影画像に生成したバウンディングボックス101を重畳した表示用の画像を生成する。サーバ装置3は、生成した表示用の画像を端末装置5へ送信する。 The server device 3 receives captured images transmitted from one or a plurality of cameras 1 and performs processing for detecting a person appearing in the received captured images. The server device 3 generates a bounding box 101 surrounding the person detected from the captured image, and generates a display image in which the generated bounding box 101 is superimposed on the original captured image. The server device 3 transmits the generated display image to the terminal device 5 .

端末装置5は、カメラ1を用いた監視等を行うユーザが使用する装置であり、例えばPC(パーソナルコンピュータ)、スマートフォン又はタブレット型端末装置等の汎用の情報処理装置を用いて構成され得る。端末装置5は、サーバ装置3から送信される画像を受信し、受信した画像を表示部に表示する。サーバ装置3から端末装置5へ送信されて表示部に表示される画像は、カメラ1が撮影した画像であり、画像中に人が存在する場合には、この人を囲むバウンディングボックス101が重畳された画像である。 The terminal device 5 is a device used by a user who performs monitoring using the camera 1, and may be configured using a general-purpose information processing device such as a PC (personal computer), a smart phone, or a tablet terminal device. The terminal device 5 receives the image transmitted from the server device 3 and displays the received image on the display unit. The image transmitted from the server device 3 to the terminal device 5 and displayed on the display unit is the image captured by the camera 1. If a person exists in the image, a bounding box 101 surrounding the person is superimposed. This is an image.

なお本実施の形態においては、撮影画像に写された人を検出する処理、及び、検出した人を囲むバウンディングボックス101を生成する処理等をサーバ装置3が行うものとするが、これに限るものではない。例えば、カメラ1が人を検出する処理及びバウンディングボックス101を生成する処理等を行い、バウンディングボックス101を重畳した撮影画像を、サーバ装置3を介して又はサーバ装置3を介さず直接的に、端末装置5へ送信してもよい。また本実施の形態においては、サーバ装置3がバウンディングボックス101を重畳した撮影画像を端末装置5へ送信し、これを受信した端末装置5が表示部に表示するものとするが、これに限るものではない。例えば、サーバ装置3が表示部を備える場合に、サーバ装置3の表示部にバウンディングボックス101を重畳した撮影画像を表示してもよい。また例えば、カメラ1が表示部を備える場合に、カメラ1がバウンディングボックス101の生成及び重畳を行って、自身の表示部にバウンディングボックス101を重畳した撮影画像を表示してもよい。 In the present embodiment, the server device 3 performs the process of detecting a person in the captured image, the process of generating the bounding box 101 surrounding the detected person, and the like, but the present invention is limited to this. isn't it. For example, the camera 1 performs processing for detecting a person, processing for generating the bounding box 101, and the like, and the photographed image superimposed with the bounding box 101 is directly transmitted to the terminal via the server device 3 or not via the server device 3. It may be sent to device 5 . In the present embodiment, the server device 3 transmits the photographed image on which the bounding box 101 is superimposed to the terminal device 5, and the terminal device 5 receives it and displays it on the display unit. isn't it. For example, if the server device 3 has a display unit, the captured image with the bounding box 101 superimposed thereon may be displayed on the display unit of the server device 3 . Further, for example, when the camera 1 has a display unit, the camera 1 may generate and superimpose the bounding box 101 and display the photographed image with the bounding box 101 superimposed on its own display unit.

<装置構成>
図2は、本実施の形態に係るサーバ装置3の構成を示すブロック図である。本実施の形態に係るサーバ装置3は、処理部31、記憶部(ストレージ)32及び通信部(トランシーバ)33等を備えて構成されている。なお本実施の形態においては、1つのサーバ装置にて処理が行われるものとして説明を行うが、複数のサーバ装置が分散して処理を行ってもよい。
<Device configuration>
FIG. 2 is a block diagram showing the configuration of the server device 3 according to this embodiment. The server device 3 according to this embodiment includes a processing unit 31, a storage unit (storage) 32, a communication unit (transceiver) 33, and the like. In this embodiment, the explanation is given assuming that the processing is performed by one server device, but the processing may be performed by a plurality of server devices in a distributed manner.

処理部31は、CPU(Central Processing Unit)、MPU(Micro-Processing Unit)又はGPU(Graphics Processing Unit)等の演算処理装置、ROM(Read Only Memory)及びRAM(Random Access Memory)等を用いて構成されている。処理部31は、記憶部32に記憶されたサーバプログラム32aを読み出して実行することにより、カメラ1が撮影した画像を取得する処理、画像に写されている人を検出する処理、検出した人を囲むバウンディングボックスを生成する処理、及び、バウンディングボックスを撮影画像に重畳して端末装置5へ送信する処理等の種々の処理を行う。 The processing unit 31 is configured using an arithmetic processing unit such as a CPU (Central Processing Unit), an MPU (Micro-Processing Unit) or a GPU (Graphics Processing Unit), a ROM (Read Only Memory) and a RAM (Random Access Memory). It is By reading and executing the server program 32a stored in the storage unit 32, the processing unit 31 performs processing for acquiring an image captured by the camera 1, processing for detecting a person in the image, processing for detecting the detected person. Various processes such as a process of generating a surrounding bounding box and a process of superimposing the bounding box on the captured image and transmitting the captured image to the terminal device 5 are performed.

記憶部32は、例えばハードディスク等の大容量の記憶装置を用いて構成されている。記憶部32は、処理部31が実行する各種のプログラム、及び、処理部31の処理に必要な各種のデータを記憶する。本実施の形態において記憶部32は、処理部31が実行するサーバプログラム32aを記憶すると共に、カメラ1が撮影した画像から人を検出する処理に用いられる学習済のYOLO(You Only Look Once)学習モデル32bを記憶している。 The storage unit 32 is configured using, for example, a large-capacity storage device such as a hard disk. The storage unit 32 stores various programs executed by the processing unit 31 and various data required for processing by the processing unit 31 . In the present embodiment, the storage unit 32 stores a server program 32a executed by the processing unit 31, and a learned YOLO (You Only Look Once) used for processing for detecting a person from an image captured by the camera 1. It stores the model 32b.

本実施の形態においてサーバプログラム(プログラム製品)32aは、メモリカード又は光ディスク等の記録媒体99に記録された態様で提供され、サーバ装置3は記録媒体99からサーバプログラム32aを読み出して記憶部32に記憶する。ただし、サーバプログラム32aは、例えばサーバ装置3の製造段階において記憶部32に書き込まれてもよい。また例えばサーバプログラム32aは、遠隔の他のサーバ装置等が配信するものをサーバ装置3が通信にて取得してもよい。例えばサーバプログラム32aは、記録媒体99に記録されたものを書込装置が読み出してサーバ装置3の記憶部32に書き込んでもよい。サーバプログラム32aは、ネットワークを介した配信の態様で提供されてもよく、記録媒体99に記録された態様で提供されてもよい。 In the present embodiment, the server program (program product) 32a is provided in a form recorded in a recording medium 99 such as a memory card or an optical disk, and the server device 3 reads the server program 32a from the recording medium 99 and stores it in the storage unit 32. Remember. However, the server program 32a may be written in the storage unit 32 during the manufacturing stage of the server device 3, for example. Further, for example, the server program 32a may be distributed by another remote server device or the like and acquired by the server device 3 through communication. For example, the server program 32 a may be recorded in the recording medium 99 and read by a writing device and written in the storage unit 32 of the server device 3 . The server program 32 a may be provided in the form of distribution via a network, or may be provided in the form of being recorded on the recording medium 99 .

YOLO学習モデル32bは、CNN(Convolutional Neural Network)をベースとする学習モデルであり、入力した画像から特定の対象物を検出し、検出した物体の種別、及び、検出した対象物を囲むバウンディングボックス等の情報を出力するように機械学習がなされた学習モデルである。本実施の形態に係るYOLO学習モデル32bは、画像に写された人の頭部を検出し、検出した人の頭部を囲むバウンディングボックスの情報を出力するように予め機械学習がなされている。なおYOLOの学習モデルは既存の技術であるため、その構造及びアルゴリズム等の詳細な説明は省略する。また本実施の形態ではYOLOの学習モデルを用いて人の頭部を検出するものとするが、これに限るものではなく、例えばR-CNN(Regions with Convolutional Neural Networks)、Faster R-CNN又はSSD(Single Shot multibox Detector)等の学習モデルが用いられてもよい。記憶部32には、YOLO学習モデル32bを構成する学習モデルの構造に関する情報、及び、機械学習により決定された内部のパラメータの情報等が記憶される。 The YOLO learning model 32b is a learning model based on CNN (Convolutional Neural Network), detects a specific object from the input image, and determines the type of the detected object, the bounding box surrounding the detected object, etc. It is a learning model that has undergone machine learning so as to output the information of The YOLO learning model 32b according to the present embodiment is machine-learned in advance so as to detect a person's head in an image and output information about a bounding box surrounding the detected person's head. Since the YOLO learning model is an existing technology, detailed descriptions of its structure, algorithms, etc. will be omitted. In this embodiment, the YOLO learning model is used to detect the human head, but the present invention is not limited to this. A learning model such as (Single Shot multibox Detector) may be used. The storage unit 32 stores information on the structure of the learning model that constitutes the YOLO learning model 32b, information on internal parameters determined by machine learning, and the like.

通信部33は、携帯電話通信網、無線LAN及びインターネット等を含むネットワークNを介して、種々の装置との間で通信を行う。本実施の形態において通信部33は、ネットワークNを介して、カメラ1及び端末装置5との間で通信を行う。通信部33は、処理部31から与えられたデータを他の装置へ送信すると共に、他の装置から受信したデータを処理部31へ与える。 The communication unit 33 communicates with various devices via a network N including a mobile phone communication network, a wireless LAN, the Internet, and the like. In this embodiment, the communication unit 33 communicates with the camera 1 and the terminal device 5 via the network N. FIG. The communication unit 33 transmits data received from the processing unit 31 to other devices, and provides the processing unit 31 with data received from other devices.

なお記憶部32は、サーバ装置3に接続された外部記憶装置であってよい。またサーバ装置3は、複数のコンピュータを含んで構成されるマルチコンピュータであってよく、ソフトウェアによって仮想的に構築された仮想マシンであってもよい。またサーバ装置3は、上記の構成に限定されず、例えば可搬型の記憶媒体に記憶された情報を読み取る読取部、操作入力を受け付ける入力部、又は、画像を表示する表示部等を含んでもよい。 Note that the storage unit 32 may be an external storage device connected to the server device 3 . The server device 3 may be a multicomputer including a plurality of computers, or may be a virtual machine virtually constructed by software. The server device 3 is not limited to the above configuration, and may include, for example, a reading unit that reads information stored in a portable storage medium, an input unit that receives operation inputs, or a display unit that displays images. .

また本実施の形態に係るサーバ装置3には、記憶部32に記憶されたサーバプログラム32aを処理部31が読み出して実行することにより、画像取得部31a、人検出部31b、座標変換部31c、バウンディングボックス(図2においてBBoxと略示する)生成部31d、座標逆変換部31e、バウンディングボックス調整部31f、画像重畳部31g及び画像送信部31h等が、ソフトウェア的な機能部として処理部31に実現される。なお本図においては、処理部31の機能部として、カメラ1が撮影した画像に対する処理を行う機能部を図示し、これ以外の処理に関する機能部は図示を省略している。 Further, in the server device 3 according to the present embodiment, the processing unit 31 reads out and executes the server program 32a stored in the storage unit 32, so that the image acquisition unit 31a, the human detection unit 31b, the coordinate conversion unit 31c, A bounding box (abbreviated as BBox in FIG. 2) generation unit 31d, coordinate inverse transformation unit 31e, bounding box adjustment unit 31f, image superimposition unit 31g, image transmission unit 31h, etc. are included in the processing unit 31 as software functional units. Realized. In the figure, as the functional units of the processing unit 31, the functional units that perform processing on the image captured by the camera 1 are illustrated, and the functional units related to other processing are omitted.

画像取得部31aは、カメラ1が送信する画像を通信部33にて受信することで、カメラ1が撮影した画像(撮影画像)を取得する。なお本実施の形態においてカメラ1は広角レンズを通して撮影を行うものであり、画像取得部31aが取得する撮影画像は、周辺部分に歪みがある画像(歪曲画像)である。画像取得部31aは、取得した撮影画像を記憶部32に一時的に記憶する。なお画像取得部31aにより記憶部32に一時的に記憶された撮影画像は、後続の画像処理によりバウンディングボックスが重畳されて端末装置5へ送信された後、適宜のタイミングで記憶部32から消去されてよい。 The image acquisition unit 31 a acquires an image (captured image) captured by the camera 1 by receiving an image transmitted by the camera 1 through the communication unit 33 . In the present embodiment, the camera 1 shoots through a wide-angle lens, and the shot image acquired by the image acquisition unit 31a is an image with distortion in the peripheral portion (distorted image). The image acquisition unit 31a temporarily stores the acquired captured image in the storage unit 32 . Note that the captured image temporarily stored in the storage unit 32 by the image acquisition unit 31a is deleted from the storage unit 32 at an appropriate timing after the bounding box is superimposed by subsequent image processing and transmitted to the terminal device 5. you can

人検出部31bは、画像取得部31aがカメラ1から取得した撮影画像に写された人の頭部を検出する処理を行う。本実施の形態において人検出部31bは、記憶部32に記憶されたYOLO学習モデル32bを用いて検出処理を行う。人検出部31bは、画像取得部31aがカメラ1から取得した歪みのある撮影画像をYOLO学習モデル32bへ入力する。YOLO学習モデル32bは、入力画像に写された人の頭部を検出し、検出した人の頭部を囲むバウンディングボックスを生成し、生成したバウンディングボックスの情報を出力する。 The human detection unit 31b performs a process of detecting the head of a person in the photographed image acquired by the image acquisition unit 31a from the camera 1 . In the present embodiment, the human detection unit 31b uses the YOLO learning model 32b stored in the storage unit 32 to perform detection processing. The human detection unit 31b inputs the distorted shot image acquired from the camera 1 by the image acquisition unit 31a to the YOLO learning model 32b. The YOLO learning model 32b detects a human head in the input image, generates a bounding box surrounding the detected human head, and outputs information about the generated bounding box.

本実施の形態においてYOLO学習モデル32bが出力するバウンディングボックスは、検出した人の身体を囲む長方形状の枠体である。この枠体は、例えば撮影画像の2次元平面における2点の座標を用いて表される。例えば枠体は、左上角部分の座標(x1、y1)と、右下角部分の座標(x2、y2)とで表され、YOLO学習モデル32bは、この(x1、y1)及び(x2、y2)の座標をバウンディングボックスの情報として出力する。なお撮影画像に複数の人が写されている場合、YOLO学習モデル32bは、各人について頭部を囲むバウンディングボックスを生成し、各バウンディングボックスの座標を出力する。 In this embodiment, the bounding box output by the YOLO learning model 32b is a rectangular frame that surrounds the detected human body. This frame is represented, for example, by using the coordinates of two points on the two-dimensional plane of the captured image. For example, the frame is represented by the coordinates (x1, y1) of the upper left corner and the coordinates (x2, y2) of the lower right corner, and the YOLO learning model 32b uses these (x1, y1) and (x2, y2) Output the coordinates of as bounding box information. Note that when a plurality of people are shown in the captured image, the YOLO learning model 32b generates a bounding box surrounding the head of each person and outputs the coordinates of each bounding box.

人検出部31bは、撮影画像の入力に対してYOLO学習モデル32bが出力するバウンディングボックスの情報を取得する。また本実施の形態において人検出部31bは、YOLO学習モデル32bから取得したバウンディングボックスの情報に基づいて、撮影画像に写された人の頭部の中心の座標を算出する。例えば、YOLO学習モデル32bがバウンディングボックスの左上角部分の座標(x1、y1)及び右下角部分の座標(x2、y2)を出力する場合、人検出部はこの2点の中点の座標を算出することで、人の頭部の中心の座標を算出する。人検出部31bは、算出した人の頭部の中心の座標を座標変換部31cへ与える。 The human detection unit 31b acquires bounding box information output by the YOLO learning model 32b in response to the input of the captured image. Further, in the present embodiment, the human detection unit 31b calculates the coordinates of the center of the head of the person captured in the captured image based on the bounding box information acquired from the YOLO learning model 32b. For example, when the YOLO learning model 32b outputs the coordinates (x1, y1) of the upper left corner and the coordinates (x2, y2) of the lower right corner of the bounding box, the human detection unit calculates the coordinates of the midpoint of these two points. By doing so, the coordinates of the center of the person's head are calculated. The person detection unit 31b provides the calculated coordinates of the center of the person's head to the coordinate conversion unit 31c.

座標変換部31cは、人検出部31bが検出した人の頭部の中心の座標に対して、所定の座標変換処理を行う。人検出部31bから座標変換部31cへ与えられる座標は、カメラ1が撮影した歪みのある撮影画像における2次元の座標である。座標変換部31cは、この2次元の座標を、3次元仮想空間における3次元の座標に変換する処理を行う。座標変換部31cが行う座標変換処理の詳細は、後述する。 The coordinate transformation unit 31c performs predetermined coordinate transformation processing on the coordinates of the center of the person's head detected by the person detection unit 31b. The coordinates given from the human detection unit 31b to the coordinate transformation unit 31c are two-dimensional coordinates in the distorted captured image captured by the camera 1. FIG. The coordinate transformation unit 31c performs a process of transforming the two-dimensional coordinates into three-dimensional coordinates in a three-dimensional virtual space. The details of the coordinate conversion processing performed by the coordinate conversion section 31c will be described later.

バウンディングボックス生成部31dは、座標変換部31cにより変換された人の頭部の中心(重心)の3次元仮想空間における3次元の座標に基づいて、この人の頭部を囲む3次元のバウンディングボックスを生成する。本実施の形態においてバウンディングボックス生成部31dが生成する3次元のバウンディングボックスは、例えば直方体又は立方体の形状である。また更に本実施の形態に係るバウンディングボックス生成部31dは、この人の身体(首より下の部分)を囲む3次元のバウンディングボックスを生成する。即ちバウンディングボックス生成部31dは、撮影された画像から検出された人に対して、頭部と頭部以外の身体とをそれぞれ囲む2つの3次元のバウンディングボックスを生成する。なおバウンディングボックス生成部31dは、身体を囲むバウンディングボックスを生成する際に、対象となる人の身長が所定値(例えば160cm、170cmなど)と仮定して、バウンディングボックスの高さ(長さ)を決定する。 The bounding box generation unit 31d generates a three-dimensional bounding box surrounding the person's head based on the three-dimensional coordinates in the three-dimensional virtual space of the center (center of gravity) of the person's head transformed by the coordinate transformation unit 31c. to generate The three-dimensional bounding box generated by the bounding box generator 31d in the present embodiment has, for example, a rectangular parallelepiped or cube shape. Furthermore, the bounding box generator 31d according to the present embodiment generates a three-dimensional bounding box surrounding the body of this person (the part below the neck). That is, the bounding box generator 31d generates two three-dimensional bounding boxes respectively surrounding the head and the body other than the head for the person detected from the photographed image. When generating the bounding box surrounding the body, the bounding box generation unit 31d assumes that the height of the target person is a predetermined value (for example, 160 cm, 170 cm, etc.), and sets the height (length) of the bounding box to decide.

座標逆変換部31eは、バウンディングボックス生成部31dが生成したバウンディングボックスの3次元の座標を、2次元の座標へ変換する処理を行う。座標逆変換部31eが行う3次元座標から2次元座標への変換処理は、座標変換部31cによる2次元座標から3次元座標への変換処理の逆変換に相当する。座標逆変換部31eにより変換処理がなされたバウンディングボックスは、カメラ1が撮影した撮影画像の2次元平面に対して、3次元のバウンディングボックスを投影して2次元化した者に相当する。座標逆変換部31eが行う座標変換処理の詳細は、後述する。 The coordinate inverse transformation unit 31e performs a process of transforming the three-dimensional coordinates of the bounding box generated by the bounding box generation unit 31d into two-dimensional coordinates. The conversion processing from three-dimensional coordinates to two-dimensional coordinates performed by the coordinate inverse conversion unit 31e corresponds to the inverse conversion of the conversion processing from two-dimensional coordinates to three-dimensional coordinates by the coordinate conversion unit 31c. The bounding box transformed by the coordinate inverse transformation unit 31e corresponds to a two-dimensional image obtained by projecting a three-dimensional bounding box onto the two-dimensional plane of the captured image captured by the camera 1. FIG. The details of the coordinate conversion processing performed by the coordinate inverse conversion unit 31e will be described later.

バウンディングボックス調整部31fは、座標逆変換部31eによる3次元のバウンディングボックスの2次元座標への変換結果に基づいて、バウンディングボックスのサイズを調整する処理を行う。上述のようにバウンディングボックス生成部31dは、撮影画像に写る人の身体を囲むバウンディングボックスを生成する際に、この人の身長が所定値であると仮定してバウンディングボックスの高さを決定するが、実際の身長は仮定した身長とは異なる場合がある。このため、バウンディングボックス調整部31fは、バウンディングボックスの高さを調整する。本実施の形態においてバウンディングボックス調整部31fは、座標逆変換部31eにより2次元座標に変換された頭部を囲むバウンディングボックスと、人検出部31bがYOLO学習モデル32bを用いて生成した頭部を囲むバウンディングボックスとの大きさを比較し、この比較結果に基づいて身体を囲むバウンディングボックスの高さを調整する。 The bounding box adjustment unit 31f performs processing for adjusting the size of the bounding box based on the result of conversion of the three-dimensional bounding box into two-dimensional coordinates by the coordinate inverse conversion unit 31e. As described above, when the bounding box generator 31d generates a bounding box surrounding the body of the person in the captured image, the height of the bounding box is determined on the assumption that the height of the person is a predetermined value. , the actual height may differ from the assumed height. Therefore, the bounding box adjuster 31f adjusts the height of the bounding box. In the present embodiment, the bounding box adjustment unit 31f combines the bounding box surrounding the head converted into two-dimensional coordinates by the coordinate inverse conversion unit 31e and the head generated by the human detection unit 31b using the YOLO learning model 32b. The size of the bounding box surrounding the body is compared, and the height of the bounding box surrounding the body is adjusted based on the result of this comparison.

画像重畳部31gは、画像取得部31aが取得したカメラ1の撮影画像に対して、バウンディングボックス調整部31fが高さを調整した最終的なバウンディングボックスを重畳する画像処理を行う。画像重畳部31gは、撮影画像にバウンディングボックスを重畳した画像を、画像送信部31hへ与える。 The image superimposing unit 31g performs image processing to superimpose the final bounding box whose height is adjusted by the bounding box adjusting unit 31f on the captured image of the camera 1 acquired by the image acquiring unit 31a. The image superimposing unit 31g supplies the image obtained by superimposing the bounding box on the captured image to the image transmitting unit 31h.

画像送信部31hは、画像重畳部31gから与えられた画像を、通信部33にて所定の端末装置5へ送信する処理を行うことにより、端末装置5にこの画像を表示させる。なお本実施の形態においては、撮影画像にバウンディングボックスを重畳する画像処理をサーバ装置3が行っているが、これに限るものではなく、例えばサーバ装置3は撮影画像及びバウンディングボックスの情報を端末装置5へ送信し、端末装置5が撮影画像にバウンディングボックスを重畳して表示してもよい。 The image transmission unit 31h causes the communication unit 33 to transmit the image given from the image superimposition unit 31g to the predetermined terminal device 5, thereby causing the terminal device 5 to display the image. In the present embodiment, the server device 3 performs image processing for superimposing the bounding box on the captured image, but the present invention is not limited to this. 5, and the terminal device 5 may superimpose the bounding box on the captured image and display it.

図3は、本実施の形態に係る端末装置5の構成を示すブロック図である。本実施の形態に係る端末装置5は、処理部51、記憶部(ストレージ)52、通信部(トランシーバ)53、表示部(ディスプレイ)54及び操作部55等を備えて構成されている。端末装置5は、例えばカメラ1が撮影した画像に基づいて監視等の業務を行うユーザが使用する装置であり、例えばパーソナルコンピュータ、スマートフォン又はタブレット型端末装置等の情報処理装置を用いて構成され得る。 FIG. 3 is a block diagram showing the configuration of the terminal device 5 according to this embodiment. The terminal device 5 according to the present embodiment includes a processing unit 51, a storage unit (storage) 52, a communication unit (transceiver) 53, a display unit (display) 54, an operation unit 55, and the like. The terminal device 5 is, for example, a device used by a user who performs tasks such as monitoring based on images captured by the camera 1, and can be configured using an information processing device such as a personal computer, a smartphone, or a tablet terminal device. .

処理部51は、CPU又はMPU等の演算処理装置、ROM及び等を用いて構成されている。処理部51は、記憶部52に記憶されたプログラム52aを読み出して実行することにより、サーバ装置3から送信されるカメラ1の撮影画像を受信して表示部に表示する等の種々の処理を行う。 The processing unit 51 is configured using an arithmetic processing unit such as a CPU or MPU, a ROM, and the like. By reading and executing the program 52a stored in the storage unit 52, the processing unit 51 receives an image captured by the camera 1 transmitted from the server device 3 and performs various processes such as displaying the image on the display unit. .

記憶部52は、例えばハードディスク又はフラッシュメモリ等の記憶装置を用いて構成されている。記憶部52は、処理部51が実行する各種のプログラム、及び、処理部51の処理に必要な各種のデータを記憶する。本実施の形態において記憶部52は、処理部51が実行するプログラム52aを記憶している。本実施の形態においてプログラム52aは遠隔のサーバ装置等により配信され、これを端末装置5が通信にて取得し、記憶部52に記憶する。ただしプログラム52aは、例えば端末装置5の製造段階において記憶部52に書き込まれてもよい。例えばプログラム52aは、メモリカード又は光ディスク等の記録媒体98に記録されたプログラム52aを端末装置5が読み出して記憶部52に記憶してもよい。例えばプログラム52aは、記録媒体98に記録されたものを書込装置が読み出して端末装置5の記憶部52に書き込んでもよい。プログラム52aは、ネットワークを介した配信の態様で提供されてもよく、記録媒体98に記録された態様で提供されてもよい。 The storage unit 52 is configured using a storage device such as a hard disk or flash memory. The storage unit 52 stores various programs executed by the processing unit 51 and various data necessary for the processing of the processing unit 51 . In the present embodiment, the storage unit 52 stores a program 52a executed by the processing unit 51. FIG. In this embodiment, the program 52a is distributed by a remote server device or the like, and the terminal device 5 acquires it through communication and stores it in the storage unit 52. FIG. However, the program 52a may be written in the storage unit 52 during the manufacturing stage of the terminal device 5, for example. For example, the program 52a may be stored in the storage unit 52 after the terminal device 5 reads the program 52a recorded in the recording medium 98 such as a memory card or an optical disk. For example, the program 52 a may be recorded in the recording medium 98 and read by a writing device and written in the storage unit 52 of the terminal device 5 . The program 52 a may be provided in the form of distribution via a network, or may be provided in the form of being recorded on the recording medium 98 .

通信部53は、携帯電話通信網、無線LAN及びインターネット等を含むネットワークNを介して、種々の装置との間で通信を行う。本実施の形態において通信部53は、ネットワークNを介して、サーバ装置3との間で通信を行う。通信部53は、処理部51から与えられたデータを他の装置へ送信すると共に、他の装置から受信したデータを処理部51へ与える。 The communication unit 53 communicates with various devices via a network N including a mobile phone communication network, a wireless LAN, the Internet, and the like. In the present embodiment, the communication unit 53 communicates with the server device 3 via the network N. FIG. The communication unit 53 transmits the data given from the processing unit 51 to other devices, and gives the data received from the other devices to the processing unit 51 .

表示部54は、液晶ディスプレイ等を用いて構成されており、処理部51の処理に基づいて種々の画像及び文字等を表示する。操作部55は、ユーザの操作を受け付け、受け付けた操作を処理部51へ通知する。例えば操作部55は、機械式のボタン又は表示部54の表面に設けられたタッチパネル等の入力デバイスによりユーザの操作を受け付ける。また例えば操作部55は、マウス及びキーボード等の入力デバイスであってよく、これらの入力デバイスは端末装置5に対して取り外すことが可能な構成であってもよい。 The display unit 54 is configured using a liquid crystal display or the like, and displays various images, characters, etc. based on the processing of the processing unit 51 . The operation unit 55 receives user operations and notifies the processing unit 51 of the received operations. For example, the operation unit 55 accepts user operations through input devices such as mechanical buttons or a touch panel provided on the surface of the display unit 54 . Further, for example, the operation unit 55 may be an input device such as a mouse and a keyboard, and these input devices may be detachable from the terminal device 5 .

また本実施の形態に係る端末装置5は、記憶部52に記憶されたプログラム52aを処理部51が読み出して実行することにより、画像受信部51a及び表示処理部51b等がソフトウェア的な機能部として処理部51に実現される。なおプログラム52aは、本実施の形態に係る情報処理システムに専用のプログラムであってもよく、インターネットブラウザ又はウェブブラウザ等の汎用のプログラムであってもよい。 In the terminal device 5 according to the present embodiment, the processing unit 51 reads out and executes the program 52a stored in the storage unit 52, so that the image receiving unit 51a, the display processing unit 51b, and the like function as software functional units. It is implemented in the processing unit 51 . The program 52a may be a program dedicated to the information processing system according to the present embodiment, or may be a general-purpose program such as an Internet browser or web browser.

画像受信部51aは、サーバ装置3が送信する画像を、通信部53にて受信する処理を行う。画像受信部51aは、受信した画像を例えば記憶部52に一時的に記憶する。本実施の形態において画像受信部51aがサーバ装置3から受信する画像は、カメラ1の撮影画像にバウンディングボックスが重畳された画像である。 The image receiving unit 51 a performs processing for receiving an image transmitted by the server device 3 at the communication unit 53 . The image receiving unit 51a temporarily stores the received image in the storage unit 52, for example. In the present embodiment, the image received by the image receiving unit 51a from the server device 3 is an image obtained by superimposing a bounding box on the captured image of the camera 1. FIG.

表示処理部51bは、表示部54に対して種々の文字又は画像等を表示する処理を行う。本実施の形態において表示処理部51bは、画像受信部51aがサーバ装置3から受信した画像、カメラ1の撮影画像にバウンディングボックスが重畳された画像を、表示部54に表示する。なお、本実施の形態においてカメラ1は1秒間に数十回程度の頻度で撮影を繰り返し行っている、即ち動画像の撮影を行っている。サーバ装置3は、カメラ1が1秒間に数十回程度の頻度で撮影した各撮影画像に対してバウンディングボックス重畳して端末装置5へ送信し、端末装置5の表示処理部51bはサーバ装置3から受信した画像を1秒間に数十回程度の頻度で表示することにより、バウンディングボックスが重畳された動画像を表示する。 The display processing unit 51b performs processing for displaying various characters or images on the display unit 54. FIG. In the present embodiment, the display processing unit 51b displays on the display unit 54 the image received by the image receiving unit 51a from the server device 3, or the image obtained by superimposing the bounding box on the captured image of the camera 1. FIG. In this embodiment, the camera 1 repeats photographing at a frequency of about several tens of times per second, that is, photographing moving images. The server device 3 superimposes a bounding box on each captured image captured by the camera 1 at a frequency of about several tens of times per second, and transmits the bounding box to the terminal device 5 . By displaying the image received from the terminal at a frequency of about several tens of times per second, a moving image on which the bounding box is superimposed is displayed.

<バウンディングボックス生成処理>
図4は、本実施の形態に係るサーバ装置3が行うバウンディングボックス生成処理を説明するための模式図である。本図において符号110を付した四角形は、カメラ1が撮影した撮影画像を示している。本実施の形態に係るカメラ1は広角レンズを通して撮影を行うものであり、撮影画像110は、レンズによる歪みを含む画像(歪曲画像)である。カメラ1から撮影画像110を取得したサーバ装置3は、YOLO学習モデル32bを用いて、この撮影画像110に含まれる人の頭部を検出する処理を行う。YOLO学習モデル32bを用いた検出処理を行うことによってサーバ装置3は、撮影画像110に含まれる人の頭部を囲むバウンディングボックス111の座標等の情報を検出結果として取得することができる。サーバ装置3は、YOLO学習モデル32bから取得したバウンディングボックス111の座標等の情報に基づいて、人の頭部の中心点112(バウンディングボックスの中心点)の座標(2次元座標)を算出する。
<Bounding box generation processing>
FIG. 4 is a schematic diagram for explaining bounding box generation processing performed by the server device 3 according to the present embodiment. A rectangle denoted by reference numeral 110 in the drawing indicates an image captured by the camera 1 . The camera 1 according to the present embodiment shoots through a wide-angle lens, and the shot image 110 is an image including distortion due to the lens (distorted image). The server device 3 that has acquired the photographed image 110 from the camera 1 uses the YOLO learning model 32b to perform processing for detecting a person's head included in this photographed image 110 . By performing detection processing using the YOLO learning model 32b, the server device 3 can acquire information such as the coordinates of the bounding box 111 surrounding the person's head included in the captured image 110 as a detection result. The server device 3 calculates the coordinates (two-dimensional coordinates) of the center point 112 of the human head (the center point of the bounding box) based on information such as the coordinates of the bounding box 111 obtained from the YOLO learning model 32b.

次いでサーバ装置3は、撮影画像110に含まれる人の頭部の中心点112の座標を、撮影画像110から歪みを取り除いた2次元平面において対応する点113の2次元の座標に変換する。レンズによる歪みを含む画像を補正する画像処理は、従来技術であるため詳細な説明は省略するが、例えばレンズ歪みモデルを用いた以下の近似式に基づいて、歪みのある画像の点(xd,yd)と歪みのない画像の点(x,y)とを相互に変換することができる。 Next, the server device 3 converts the coordinates of the center point 112 of the person's head included in the photographed image 110 into the two-dimensional coordinates of the corresponding point 113 on the two-dimensional plane from which the distortion is removed from the photographed image 110 . Image processing for correcting an image including distortion due to a lens is a conventional technique, so a detailed description thereof will be omitted. yd) and points (x,y) of the undistorted image and back.

Figure 2023016187000002
Figure 2023016187000002

サーバ装置3は、歪みを含む撮影画像110に含まれる人の頭部の中心に相当する点112の2次元座標を、上記の(1)式に基づいて、歪みを取り除いた2次元平面における点113の2次元座標に変換する。なお本実施の形態においてサーバ装置3は、撮影画像110に含まれる全ての点について座標変換を行う必要はなく、人の頭部の中心に相当する点112の座標のみを変換すればよい。 The server device 3 calculates the two-dimensional coordinates of the point 112 corresponding to the center of the person's head included in the captured image 110 including distortion, based on the above equation (1), as a point on the two-dimensional plane from which the distortion has been removed. 113 two-dimensional coordinates. In this embodiment, the server device 3 does not need to perform coordinate conversion for all points included in the captured image 110, and only needs to convert the coordinates of the point 112 corresponding to the center of the person's head.

次いでサーバ装置3は、人の頭部の中心に相当する点113の2次元座標を、3次元仮想空間における3次元座標に変換する処理を行う。この際に行われる2次元座標から3次元座標への変換は、一般的に3次元仮想空間に仮想カメラを設定して2次元画像を生成する際に行われる変換処理の逆変換処理に相当するものである。このため、まず3次元座標から2次元座標への変換処理を説明し、その後にこの変換処理を逆方向へ適用した2次元座標から3次元座標への変換処理を説明する。 Next, the server device 3 converts the two-dimensional coordinates of the point 113 corresponding to the center of the person's head into three-dimensional coordinates in the three-dimensional virtual space. The conversion from two-dimensional coordinates to three-dimensional coordinates performed at this time corresponds to inverse conversion processing of the conversion processing generally performed when generating a two-dimensional image by setting a virtual camera in a three-dimensional virtual space. It is. For this reason, the conversion processing from three-dimensional coordinates to two-dimensional coordinates will be described first, and then the conversion processing from two-dimensional coordinates to three-dimensional coordinates will be described by applying this conversion processing in the opposite direction.

3次元座標には、ワールド座標系とカメラ座標系との2種類が存在する。ワールド座標系は、3次元仮想空間の特定位置を原点としてXYZの座標を定めたものである。カメラ座標系は、3次元仮想空間に配置されたカメラを原点としてXYZの座標を定めたものである。ワールド座標系の座標を(Xw,Yw,Zw)とし、カメラ座標系の座標を(Xc,Yc,Zc)とすると、ワールド座標系からカメラ座標系への変換は、カメラの外部変数(extrinsic parameters)と呼ばれる定数を用いて、以下の(2)式で行うことができる。 There are two types of three-dimensional coordinates: a world coordinate system and a camera coordinate system. The world coordinate system defines XYZ coordinates with a specific position in the three-dimensional virtual space as the origin. The camera coordinate system defines XYZ coordinates with a camera arranged in a three-dimensional virtual space as an origin. Let the coordinates of the world coordinate system be (Xw, Yw, Zw) and the coordinates of the camera coordinate system be (Xc, Yc, Zc). ), it can be performed by the following equation (2).

Figure 2023016187000003
Figure 2023016187000003

更に、2次元平面における点の座標を(u,v)とすると、カメラ座標系から2次元座標への変換は、カメラの内部変数(intrinsic parameters)と呼ばれる定数を用いて、以下の(3)式で行うことができる。 Further, if the coordinates of a point on a two-dimensional plane are (u, v), the transformation from the camera coordinate system to the two-dimensional coordinates is performed using constants called intrinsic parameters of the camera, as follows (3) can be done with the formula

Figure 2023016187000004
Figure 2023016187000004

なお、上記の(2)式及び(3)式において、カメラの内部変数及び外部変数は、カメラの特性及びカメラの位置等に基づいて決定される定数である。また(3)式の定数cは、スケール又は比率等を表す数値であり、システムの構成等に応じて決定される。上記の(2)式及び(3)式に基づいて、ワールド座標系の3次元座標から2次元平面の2次元座標への変換は、以下の(4)式で行うことができる。 In the above equations (2) and (3), the internal and external variables of the camera are constants determined based on the characteristics of the camera, the position of the camera, and the like. Also, the constant c in the formula (3) is a numerical value representing a scale or a ratio, and is determined according to the system configuration and the like. Based on the above formulas (2) and (3), the conversion from the three-dimensional coordinates of the world coordinate system to the two-dimensional coordinates of the two-dimensional plane can be performed by the following formula (4).

Figure 2023016187000005
Figure 2023016187000005

ワールド座標系の任意の点(Xw,Yw,Zw)を上記の(4)式へ代入することで、対応する2次元座標(u,v)を一意に特定することができる。(4)式の逆演算、即ちカメラの内部変数及び外部変数の行列の逆行列と2次元座標との積を算出する演算を行う事で、2次元座標を3次元座標へ変換することが期待できるが、2次元座標から3次元座標への変換は次元数が増加するため、3次元座標を一意に特定するには情報が不足している。そこで本実施の形態に係る情報処理システムでは、撮影画像110から検出される人の身長が所定値(例えば175cm)であると仮定する。即ち、本実施の形態に係るサーバ装置3は、(4)式においてZwの値を所定値と仮定し、2次元座標(u,v)から3次元座標のXw及びYwの値を算出することで、2次元座標を3次元座標への変換を行う。 By substituting an arbitrary point (Xw, Yw, Zw) in the world coordinate system into the above equation (4), the corresponding two-dimensional coordinates (u, v) can be uniquely specified. It is expected that the two-dimensional coordinates will be converted to three-dimensional coordinates by performing the inverse operation of the equation (4), that is, the operation of calculating the product of the inverse matrix of the matrix of the internal and external variables of the camera and the two-dimensional coordinates. However, since the number of dimensions increases when converting from two-dimensional coordinates to three-dimensional coordinates, information is insufficient to uniquely identify the three-dimensional coordinates. Therefore, in the information processing system according to the present embodiment, it is assumed that the height of a person detected from captured image 110 is a predetermined value (for example, 175 cm). That is, the server device 3 according to the present embodiment assumes that the value of Zw in the equation (4) is a predetermined value, and calculates the values of Xw and Yw of the three-dimensional coordinates from the two-dimensional coordinates (u, v). , the two-dimensional coordinates are converted into three-dimensional coordinates.

サーバ装置3は、歪みが取り除かれた2次元平面上の点113の2次元座標を、上記の(4)式に基づいて、ワールド座標系の対応する点114の3次元座標へ変換する。なお図4においては、2次元座標からカメラ座標系の3次元座標への変換と、カメラ座標系の3次元座標からワールド座標系の3次元座標への変換とを分けて図示しているが、サーバ装置3はこの2段階の座標変換を一括して行ってよい。 The server device 3 transforms the two-dimensional coordinates of the point 113 on the two-dimensional plane from which the distortion has been removed into the three-dimensional coordinates of the corresponding point 114 in the world coordinate system based on the above equation (4). In FIG. 4, conversion from two-dimensional coordinates to three-dimensional coordinates in the camera coordinate system and conversion from three-dimensional coordinates in the camera coordinate system to three-dimensional coordinates in the world coordinate system are shown separately. The server device 3 may collectively perform these two stages of coordinate transformation.

次いでサーバ装置3は、ワールド座標系の3次元空間において、撮影画像110から検出された人の頭部を囲む3次元のバウンディングボックス115と、頭部より下の身体を囲む3次元のバウンディングボックス116とを生成する処理を行う。まずサーバ装置3は、上記の座標変換により得られた点114を人の頭部の中心(重心)であると見なし、点114を中心に所定サイズの直方体型の枠を生成することで、頭部を囲む3次元のバウンディングボックス115を生成する。本例では、頭部を囲む3次元のバウンディングボックス115を、20cm×20cm×20cmの立方体型としている。 Next, the server device 3 creates a three-dimensional bounding box 115 surrounding the head of the person detected from the captured image 110 and a three-dimensional bounding box 116 surrounding the body below the head in the three-dimensional space of the world coordinate system. Perform processing to generate and First, the server device 3 considers the point 114 obtained by the coordinate transformation described above to be the center (center of gravity) of the person's head, and generates a rectangular parallelepiped frame of a predetermined size around the point 114 so that the head Generate a three-dimensional bounding box 115 that encloses the part. In this example, the three-dimensional bounding box 115 surrounding the head is a cubic shape of 20 cm×20 cm×20 cm.

サーバ装置3は、頭部を囲む3次元のバウンディングボックス115の下方に、所定サイズの直方体型の枠を生成することで、身体を囲む3次元のバウンディングボックス116を生成する。本例では、人の身長を175cmとし、頭部を囲む3次元のバウンディングボックス115との間に5cmの隙間を設けて、身体を囲む3次元のバウンディングボックス116を50cm×50cm×150cmの直方体型としている。 The server device 3 generates a three-dimensional bounding box 116 surrounding the body by generating a rectangular parallelepiped frame of a predetermined size below the three-dimensional bounding box 115 surrounding the head. In this example, the height of a person is 175 cm, the three-dimensional bounding box 116 surrounding the body is a 50 cm × 50 cm × 150 cm rectangular parallelepiped with a gap of 5 cm between it and the three-dimensional bounding box 115 surrounding the head. and

次いでサーバ装置3は、ワールド座標系の3次元空間において生成した3次元のバウンディングボックス115及び116を、カメラ座標系の3次元空間の3次元のバウンディングボックス117及び118へ変換し、更に2次元平面におけるバウンディングボックス119及び120へ変換する。このときにサーバ装置3は、上記の(4)式を用いて、ワールド座標系の3次元のバウンディングボックス115及び116、2次元平面におけるバウンディングボックス119及び120へ直接的に変換してよい。サーバ装置3は、3次元のバウンディングボックス115及び116に含まれる複数の頂点に対して(4)式の座標変換を行い、座標変換後の2次元平面上の複数の頂点を結んでバウンディングボックス119及び120を生成してもよく、3次元のバウンディングボックス115及び116を構成する頂点及び枠線等の全ての点について座標変換を行ってバウンディングボックス119及び120を生成してもよい。 Next, the server device 3 converts the three-dimensional bounding boxes 115 and 116 generated in the three-dimensional space of the world coordinate system into three-dimensional bounding boxes 117 and 118 in the three-dimensional space of the camera coordinate system, and further converts them into two-dimensional planes. to bounding boxes 119 and 120 in . At this time, the server device 3 may directly convert to the three-dimensional bounding boxes 115 and 116 in the world coordinate system and the bounding boxes 119 and 120 in the two-dimensional plane using the above equation (4). The server device 3 performs the coordinate transformation of formula (4) on a plurality of vertices contained in the three-dimensional bounding boxes 115 and 116, and connects the plurality of vertices on the two-dimensional plane after the coordinate transformation to create a bounding box 119. , and 120 may be generated, or the bounding boxes 119 and 120 may be generated by performing coordinate transformation on all points such as the vertices and frame lines forming the three-dimensional bounding boxes 115 and 116 .

次いでサーバ装置3は、歪みのない2次元平面上のバウンディングボックス119及び120を、広角レンズの歪みを含む画像上のバウンディングボックス121及び122に変換する処理を行う。このときにサーバ装置3は、上記の(1)式に基づいて、バウンディングボックスの座標を変換する。サーバ装置3は、歪みのない2次元平面上のバウンディングボックス119及び120に含まれる複数の頂点に対して(1)式の座標変換を行い、座標変換後の歪みのある画像上の複数の頂点を結んでバウンディングボックス121及び122を生成してもよく、バウンディングボックス119及び120を構成する頂点及び枠線等の全ての点について座標変換を行ってバウンディングボックス121及び122を生成してもよい。図4に示す例では、バウンディングボックスの全ての点について座標変換を行っており、これにより歪んだ線を含むバウンディングボックス121及び122が得られている。 Next, the server device 3 converts the bounding boxes 119 and 120 on the two-dimensional plane without distortion into the bounding boxes 121 and 122 on the image including the distortion of the wide-angle lens. At this time, the server device 3 transforms the coordinates of the bounding box based on the above equation (1). The server device 3 performs the coordinate transformation of formula (1) on a plurality of vertices contained in the bounding boxes 119 and 120 on the undistorted two-dimensional plane, and converts the vertices on the distorted image after the coordinate transformation. may be connected to generate the bounding boxes 121 and 122 , or the coordinate transformation may be performed for all points such as the vertices and frame lines forming the bounding boxes 119 and 120 to generate the bounding boxes 121 and 122 . In the example shown in FIG. 4, coordinate transformation is performed on all points of the bounding box, resulting in bounding boxes 121 and 122 containing distorted lines.

なお、上述の処理により生成されるバウンディングボックス121及び122は、立方体及び直方体等の立体形状の3次元のバウンディングボックス115及び116を2次元平面に投影した形状である。サーバ装置3は、この立方体及び直方体等の立体形状のバウンディングボックスを、例えば正方形又は長方形等の平面形状のバウンディングボックスに整形してもよい。 It should be noted that the bounding boxes 121 and 122 generated by the above-described processing have shapes obtained by projecting the three-dimensional bounding boxes 115 and 116, such as cubes and rectangular parallelepipeds, onto a two-dimensional plane. The server device 3 may shape the bounding box having a three-dimensional shape such as a cube or rectangular parallelepiped into a bounding box having a planar shape such as a square or a rectangle, for example.

<バウンディングボックス調整処理>
上述のバウンディングボックス生成処理にて生成されるバウンディングボックスは、撮影画像から検出された人が立っているものとし、その身長を所定値(例えば175cm)と仮定して生成したものである。人毎の身長の差異は数10cm以内に収まると考えられるが、人が座っている場合には地面から頭部までの高さは身長よりも50cm以上低くなる可能性があり、座っている人に対して生成したバウンディングボックスの高さが不適切なものとなる可能性がある。そこで本実施の形態に係るサーバ装置3は、バウンディングボックス(身体を囲むバウンディングボックス)の高さを調整する処理を行う。
<Bounding box adjustment processing>
The bounding box generated by the bounding box generation process described above is generated by assuming that the person detected from the captured image is standing and has a predetermined height (for example, 175 cm). The difference in height between people is considered to be within a few tens of centimeters, but when a person is sitting, the height from the ground to the head may be 50 cm or more lower than the height of the person sitting. The height of the bounding box generated for may be incorrect. Therefore, the server device 3 according to the present embodiment performs processing for adjusting the height of the bounding box (the bounding box surrounding the body).

図5及び図6は、本実施の形態に係るサーバ装置3が行うバウンディングボックス調整処理を説明するための模式図である。サーバ装置3は、カメラ1が撮影した撮影画像110に写された人の頭部に対してYOLO学習モデル32bが付与したバウンディングボックス111のサイズ(第2サイズ)と、ワールド座標系において人の頭部を囲む3次元のバウンディングボックス115に基づいて生成したバウンディングボックス121のサイズ(第1サイズ)とを比較し、比較結果に基づいて人の身体を囲むバウンディングボックス122の高さを調整する。 5 and 6 are schematic diagrams for explaining bounding box adjustment processing performed by the server device 3 according to the present embodiment. The server device 3 stores the size (second size) of the bounding box 111 given by the YOLO learning model 32b to the human head captured in the captured image 110 captured by the camera 1, and the human head in the world coordinate system. The size (first size) of the bounding box 121 generated based on the three-dimensional bounding box 115 surrounding the body is compared with the size (first size) of the bounding box 121, and the height of the bounding box 122 surrounding the human body is adjusted based on the comparison result.

図5に示す示の例では、カメラ1が撮影対象となる人よりも高い位置に設置されており、カメラ1が俯瞰する態様で周囲の撮影を行っている。カメラ1の撮影により得られる撮影画像110は、カメラ1の光軸に垂直な平面に投影された像とみなすことができ、図中では符号110を付した直線で示している。図示の状況において、カメラ1から近い位置Aに立っている人の頭部と、カメラ1から遠い位置Bに座っている人の頭部とは、撮影画像110において同じ位置に写されることとなる。ただし、カメラ1に近い位置Aの人の頭部の方が、カメラ1から遠い位置Bの人の頭部より、撮影画像110において大きく写される。 In the example shown in FIG. 5, the camera 1 is installed at a position higher than the person to be photographed, and photographs the surroundings in a bird's-eye view. A photographed image 110 obtained by photographing by the camera 1 can be regarded as an image projected onto a plane perpendicular to the optical axis of the camera 1, and is indicated by a straight line with reference numeral 110 in the figure. In the illustrated situation, the head of a person standing at a position A close to the camera 1 and the head of a person sitting at a position B far from the camera 1 appear at the same position in the captured image 110. Become. However, the person's head at position A closer to camera 1 appears larger in captured image 110 than the person's head at position B farther from camera 1 .

本実施の形態に係る情報処理システムでは、バウンディングボックスを生成する際に撮影画像110から検出した人が所定の身長で立っているものと仮定している。このため撮影画像110に写された人に対して生成したバウンディングボックスは、図5の位置Aに立っている人に適したものとなるが、実際には位置Bに座っている人が撮影画像110に写されている可能性がある。 In the information processing system according to the present embodiment, it is assumed that the person detected from the captured image 110 is standing with a predetermined height when the bounding box is generated. Therefore, the bounding box generated for the person in the captured image 110 is suitable for the person standing at position A in FIG. There is a possibility that it is photographed on 110.

撮影画像110に写された人が位置Bに座っている人である場合、図6上段に示すように、撮影画像110からYOLO学習モデル32bが検出した人の頭部を囲むバウンディングボックス111は、3次元のバウンディングボックス115に基づいて生成したバウンディングボックス121より小さい。これに対して、撮影画像110に写された人が位置Aに立っている人である場合、図6下段に示すように、撮影画像110からYOLO学習モデル32bが検出した人の頭部を囲むバウンディングボックス111と、3次元のバウンディングボックス115に基づいて生成したバウンディングボックス121とは、略同じ大きさとなる。 When the person photographed in the photographed image 110 is a person sitting at position B, as shown in the upper part of FIG. It is smaller than the bounding box 121 generated based on the 3D bounding box 115 . On the other hand, if the person photographed in the photographed image 110 is a person standing at position A, as shown in the lower part of FIG. The bounding box 111 and the bounding box 121 generated based on the three-dimensional bounding box 115 have approximately the same size.

本実施の形態に係るサーバ装置3は、3次元のバウンディングボックス115に基づいて撮影画像110に重畳する2次元のバウンディングボックス121を生成した後、このバウンディングボックス121のサイズ(第1サイズ)と、YOLO学習モデル32bが検出した人の頭部を囲むバウンディングボックス111のサイズ(第2サイズ)とを比較する。サイズの比較は、例えば面積、最も長い辺の長さ、又は、対角線の長さ等の比較により行われ得る。なおサーバ装置3は、バウンディングボックス121は立体形状であるため、これを平面形状(長方形又は正方形)のバウンディングボックスに変換してサイズを比較してもよい。サーバ装置3は、例えばバウンディングボックス121を内包する最小の正方形又は長方形の枠体を生成することで、立体形状のバウンディングボックス121を平面形状へ変換することができる。2つのバウンディングボックス111,121のサイズが略同じである場合、サーバ装置3は、生成したバウンディングボックス121,122が適切なものであると判断し、これを採用する。 After generating the two-dimensional bounding box 121 superimposed on the captured image 110 based on the three-dimensional bounding box 115, the server device 3 according to the present embodiment generates the size (first size) of the bounding box 121, The size (second size) of the bounding box 111 surrounding the human head detected by the YOLO learning model 32b is compared. Size comparisons can be made, for example, by comparing areas, longest side lengths, or diagonal lengths. Since the bounding box 121 has a three-dimensional shape, the server device 3 may convert it into a planar bounding box (rectangular or square) and compare the sizes. The server device 3 can convert the three-dimensional bounding box 121 into a planar shape, for example, by generating a minimum square or rectangular frame that encloses the bounding box 121 . If the two bounding boxes 111 and 121 have approximately the same size, the server device 3 determines that the generated bounding boxes 121 and 122 are appropriate and adopts them.

3次元のバウンディングボックス115に基づいて生成したバウンディングボックス121のサイズよりYOLO学習モデル32bのバウンディングボックス111のサイズが小さい場合、サーバ装置3は、生成したバウンディングボックス121,122が不適切なものであると判断し、バウンディングボックスの調整を行う。サーバ装置3は、撮影画像110に写された人の身長(地面から頭部までの高さ)を、立っている人の所定の身長(例えば170cm)から、座っている人の地面から頭部までの所定の高さ(例えば100cm)へ変更し、上述のバウンディングボックスの生成処理を行う事で、座っている人に適した撮影画像110上のバウンディングボックス121,122を生成する。 If the size of the bounding box 111 of the YOLO learning model 32b is smaller than the size of the bounding box 121 generated based on the three-dimensional bounding box 115, the server device 3 determines that the generated bounding boxes 121 and 122 are inappropriate. and adjust the bounding box. The server device 3 calculates the height (the height from the ground to the head) of the person photographed in the photographed image 110 from the predetermined height (for example, 170 cm) of the standing person, and the height from the ground to the head of the sitting person. By changing the height to a predetermined height (for example, 100 cm) and performing the above-described bounding box generation processing, bounding boxes 121 and 122 on the photographed image 110 suitable for a sitting person are generated.

なお、頭部の高さの推定値を変更することによって、(4)式にて算出されるワールド座標系での3次元座標のXw,Ywの値も変化する。このため、上述のバウンディングボックスを調整する処理は、ワールド座標系における人の位置を調整する処理でもある。このため、サーバ装置3は、例えば撮影画像110に写された人の頭部の高さの推定値を増減させ、3次元のバウンディングボックス115から生成したバウンディングボックス121のサイズと、YOLO学習モデル32bのバウンディングボックス111のサイズとが一致する(差が閾値以下となる)場合の頭部の高さを探索することで、ワールド座標系における人の身長(地面から頭部までの高さ)を精度よく推定することができると共に、ワールド座標系における人の位置を精度よく推定することができる。 By changing the estimated value of the height of the head, the values of the three-dimensional coordinates Xw and Yw in the world coordinate system calculated by the equation (4) also change. Therefore, the process of adjusting the bounding box described above is also the process of adjusting the position of the person in the world coordinate system. For this reason, the server device 3 increases or decreases, for example, the estimated value of the height of the person's head captured in the captured image 110, the size of the bounding box 121 generated from the three-dimensional bounding box 115, and the size of the YOLO learning model 32b. By searching for the height of the head when the size of the bounding box 111 matches (the difference is less than the threshold), the height of the person (the height from the ground to the head) in the world coordinate system can be obtained with accuracy It is possible to estimate well and accurately estimate the position of a person in the world coordinate system.

また人の身長及び位置の推定は、高さの推定値の増減を繰り返して2つのバウンディングボックス121,111のサイズが一致する値を探索する方法の他に、例えば機械学習により学習がなされた学習モデルを用いる方法が採用され得る。学習モデルは、例えば2つのバウンディングボックス121,111のサイズ又は2つのバウンディングボックス121、111が付された画像を入力として受け付けて、対象となる人の高さを出力するように、予め機械学習がなされたものとすることができる。 In addition, the height and position of a person can be estimated by repeating the increase and decrease of the estimated height value to search for a value that matches the sizes of the two bounding boxes 121 and 111. For example, machine learning can be used to estimate the height and position of the person. A method using a model may be employed. The learning model accepts, for example, the size of the two bounding boxes 121 and 111 or the image with the two bounding boxes 121 and 111 as input, and machine learning is performed in advance so that the height of the target person is output. can be made.

本実施の形態においては、地面から頭部までの高さについて170cm又は100cm等の数値を用いて演算を行っているが、これらの数値は一例であって、これに限るものではない。これらの数値は、本実施の形態に係る情報処理システムの設計者等により予め決定されて、サーバプログラム32aと共に処理のデフォルト値としてサーバ装置3の記憶部32に記憶されてよい。またこれらの数値については、サーバ装置3が処理を実施する際にユーザからの入力を受け付けてもよい。サーバ装置3は、例えばユーザが数値を入力した場合にはこの数値を用いて処理を行い、数値が入力されない場合にはデフォルト値を用いて処理を行うことができる。 In this embodiment, the height from the ground to the head is calculated using numerical values such as 170 cm or 100 cm, but these numerical values are examples and are not limited to these. These numerical values may be determined in advance by a designer or the like of the information processing system according to the present embodiment, and stored in the storage unit 32 of the server device 3 as default values for processing together with the server program 32a. Further, these numerical values may be input by the user when the server device 3 executes processing. For example, if the user inputs a numerical value, the server apparatus 3 can use this numerical value for processing, and if no numerical value is input, use a default value for processing.

バウンディングボックス121,122の調整を終えたサーバ装置3は、得られたバウンディングボックス121,122をカメラ1による撮影画像110に重畳した画像を生成する。サーバ装置3は、生成した画像を所定の端末装置5へ送信し、この画像を端末装置5の表示部54に表示させる。これにより端末装置5を使用するユーザは、カメラ1の撮影画像110に写された人がバウンディングボックス121,122で囲まれた画像を端末装置5にて確認することができる。 After adjusting the bounding boxes 121 and 122 , the server device 3 generates an image in which the obtained bounding boxes 121 and 122 are superimposed on the image 110 captured by the camera 1 . The server device 3 transmits the generated image to the predetermined terminal device 5 and causes the display section 54 of the terminal device 5 to display this image. As a result, the user using the terminal device 5 can confirm, on the terminal device 5 , an image in which the person captured in the captured image 110 of the camera 1 is surrounded by the bounding boxes 121 and 122 .

図7は、端末装置5による画像の表示例を示す模式図である。図示の表示例では、カメラ1が撮影する部屋の中に2人の人がおり、各人に対して頭部を囲むバウンディングボックスと、身体を囲むバウンディングボックスとが各人に重畳して表示されている。カメラ1は例えば1秒間に数十回程度の頻度で撮影を繰り返し行っており、端末装置5が表示する画像も同程度の頻度で更新される。即ち、本実施の形態においてカメラ1は動画像を撮影し、端末装置5は動画像を表示する。各人を囲むバウンディングボックスは、画像中において人が移動した場合に、この人の移動に追従して移動する。 FIG. 7 is a schematic diagram showing an example of image display by the terminal device 5. As shown in FIG. In the illustrated display example, there are two people in the room photographed by the camera 1, and a bounding box surrounding the head of each person and a bounding box surrounding the body are superimposed on each person. ing. The camera 1 repeatedly takes images, for example, at a frequency of about several tens of times per second, and the image displayed by the terminal device 5 is also updated at about the same frequency. That is, in this embodiment, the camera 1 captures moving images, and the terminal device 5 displays the moving images. A bounding box surrounding each person moves to follow the movement of the person when the person moves in the image.

また図示の例では、端末装置5の表示部54に表示される画面の右下に設けられた正方形の領域に、検出した2人の位置関係を示す点が2つ示されている。本例においてサーバ装置3は、上述のバウンディングボックスのサイズ比較に基づく人の位置推定を行い、推定の結果得られた各人のワールド座標系における3次元座標からXYの2次元についての座標(Xw,Yw)を取得する。サーバ装置3は、各人の2次元座標(Xw,Yw)に基づいて、正方形領域に各人に対応する点をプロットすることにより、撮影画像から検出された人の位置の推定結果をユーザに提示することができる。 In the illustrated example, two points indicating the detected positional relationship of two persons are shown in a square area provided at the lower right of the screen displayed on the display unit 54 of the terminal device 5 . In this example, the server device 3 estimates the positions of people based on the size comparison of the bounding boxes described above, and uses the two-dimensional coordinates (Xw , Yw). Based on the two-dimensional coordinates (Xw, Yw) of each person, the server device 3 plots the points corresponding to each person in a square area, and informs the user of the estimation result of the position of the person detected from the captured image. can be presented.

<フローチャート>
図8は、本実施の形態に係るサーバ装置3が行う処理の手順を示すフローチャートである。本実施の形態に係るサーバ装置3の処理部31の画像取得部31aは、通信部33にてカメラ1との通信を行い、カメラ1が撮影した撮影画像を取得する(ステップS1)。処理部31の人検出部31bは、記憶部32に記憶されたYOLO学習モデル32bを用いて、ステップS1にて取得した撮影画像に写された人を検出する(ステップS2)。人検出部31bは、YOLO学習モデル32bが出力する人の頭部を囲むバウンディングボックスの位置等の情報に基づいて、人の頭部の中心点の座標を算出する(ステップS3)。
<Flowchart>
FIG. 8 is a flow chart showing the procedure of processing performed by the server device 3 according to the present embodiment. The image acquisition unit 31a of the processing unit 31 of the server device 3 according to the present embodiment communicates with the camera 1 through the communication unit 33 and acquires the captured image captured by the camera 1 (step S1). The person detection unit 31b of the processing unit 31 uses the YOLO learning model 32b stored in the storage unit 32 to detect the person appearing in the captured image acquired in step S1 (step S2). The person detection unit 31b calculates the coordinates of the center point of the person's head based on the information such as the position of the bounding box surrounding the person's head output by the YOLO learning model 32b (step S3).

処理部31の座標変換部31cは、ステップS3にて算出した撮影画像における頭部の中心点の座標を、上述の(1)式を用いた歪みを除去する演算を行うことにより、歪みが除去された2次元平面における2次元座標に変換する(ステップS4)。座標変換部31cは、検出された人が立っており且つ身長が所定値(例えば170cm)であると仮定し、上述の(4)式に基づいて、ステップS4にて変換した2次元座標をワールド座標系の3次元座標へ変換する(ステップS5)。 The coordinate transformation unit 31c of the processing unit 31 removes the distortion from the coordinates of the center point of the head in the captured image calculated in step S3 using the above equation (1). are converted into two-dimensional coordinates on the two-dimensional plane (step S4). The coordinate transformation unit 31c assumes that the detected person is standing and has a predetermined height (for example, 170 cm), and transforms the two-dimensional coordinates transformed in step S4 into the world based on the above equation (4). Convert to three-dimensional coordinates of the coordinate system (step S5).

処理部31のバウンディングボックス生成部31dは、ワールド座標系の3次元仮想空間において、ステップS5にて変換した3次元座標を中心として、所定サイズ(例えば20cm×20cm×20cm)の立方体形の枠体を生成することにより、検出された人の頭部を囲む3次元のバウンディングボックスを生成する(ステップS6)。バウンディングボックス生成部31dは、ステップS6にて生成した頭部を囲むバウンディングボックスの下方に、所定サイズ(例えば50cm×50cm×150cm)の直方体形の枠体を生成することにより、検出された人の身体(頭部より下の部分)を囲むバウンディングボックスを生成する(ステップS7)。 The bounding box generation unit 31d of the processing unit 31 generates a cubic frame of a predetermined size (for example, 20 cm×20 cm×20 cm) around the three-dimensional coordinates converted in step S5 in the three-dimensional virtual space of the world coordinate system. to generate a three-dimensional bounding box surrounding the detected human head (step S6). The bounding box generation unit 31d generates a rectangular parallelepiped frame of a predetermined size (for example, 50 cm x 50 cm x 150 cm) below the bounding box surrounding the head generated in step S6. A bounding box surrounding the body (the part below the head) is generated (step S7).

処理部31の座標逆変換部31eは、上述の(4)式に基づいて、生成した2つのバウンディングボックスを2次元平面におけるバウンディングボックスに変換する(ステップS8)。座標逆変換部31eは、ステップS8にて変換された歪みのない2次元平面上のバウンディングボックスを、上述の(1)式を用いた歪みを付与する演算を行うことにより、歪みのある2次元平面(撮影画像)上のバウンディングボックスに変換する(ステップS9)。 The coordinate inverse transforming unit 31e of the processing unit 31 transforms the two generated bounding boxes into bounding boxes on a two-dimensional plane based on the above equation (4) (step S8). The coordinate inverse transforming unit 31e converts the undistorted two-dimensional plane bounding box transformed in step S8 into a distorted two-dimensional plane by performing an operation for imparting distortion using the above equation (1). It is converted into a bounding box on a plane (photographed image) (step S9).

処理部31のバウンディングボックス調整部31fは、ステップS9にて変換したバウンディングボックスのうち、検出した人の頭部を囲むバウンディングボックスのサイズが、ステップS2にてYOLO学習モデル32bが出力した人の頭部を囲むバウンディングボックスのサイズと略同じ(差異が閾値以内)であるか否かを判定する(ステップS10)。両バウンディングボックスのサイズが異なる(差異が閾値を超える)場合(S10:NO)、バウンディングボックス調整部31fは、検出した人の身長、即ち地面から頭部までの高さを所定値(例えば170cm)から別の値へ変更し(ステップS11)、ステップS4へ処理を戻す。 The bounding box adjustment unit 31f of the processing unit 31 adjusts the size of the bounding box surrounding the detected human head among the bounding boxes converted in step S9 to the size of the human head output by the YOLO learning model 32b in step S2. It is determined whether or not the size is substantially the same as the size of the bounding box surrounding the part (the difference is within a threshold) (step S10). If both bounding boxes have different sizes (the difference exceeds the threshold) (S10: NO), the bounding box adjuster 31f sets the height of the detected person, that is, the height from the ground to the head, to a predetermined value (for example, 170 cm). to another value (step S11), and the process returns to step S4.

なお、検出した人が立っているか又は座っているかの判定ができ、高さの精度が、立っている場合と座っている場合との二通りの精度でよい場合は、ステップS11においてバウンディングボックス調整部31fは、人が座っている場合の頭部の高さとして予め定められた値(例えば100cm)に変更する。この場合に処理部31は、高さを変更してステップS4~S9の処理を行った後、ステップS10の判定は行わずに、ステップS12へ処理を進めてよい。 If it is possible to determine whether the detected person is standing or sitting, and if two types of height accuracy are sufficient for standing and sitting, bounding box adjustment is performed in step S11. The part 31f changes the height of the head of a person sitting down to a predetermined value (for example, 100 cm). In this case, the processing section 31 may proceed to step S12 without performing the determination of step S10 after performing the processing of steps S4 to S9 after changing the height.

これに対して、検出した人の身長及び座標等をより詳細に推定する場合には、ステップS11においてバウンディングボックス調整部31fは、人の身長の推定値を所定値(例えば1cm)ずつ増加又は減少させ、ステップS10の判定により両バウンディングボックスのサイズが略同じになるまでステップS4~S11の処理を繰り返し行う。バウンディングボックス調整部31fは、例えばステップS9にて変換したバウンディングボックスのサイズが、YOLO学習モデル32bによるバウンディングボックスのサイズより大きい場合、人の身長の推定値を減少させる。これに対してバウンディングボックス調整部31fは、ステップS9にて変換したバウンディングボックスのサイズが、YOLO学習モデル32bによるバウンディングボックスのサイズより大きい場合、人の身長の推定値を増加させる。 On the other hand, when estimating the height and coordinates of the detected person in more detail, in step S11, the bounding box adjustment unit 31f increases or decreases the estimated value of the person's height by a predetermined value (for example, 1 cm). Then, the processing of steps S4 to S11 is repeated until the sizes of both bounding boxes are substantially the same as determined in step S10. For example, when the size of the bounding box converted in step S9 is larger than the size of the bounding box obtained by the YOLO learning model 32b, the bounding box adjuster 31f reduces the estimated height of the person. On the other hand, if the size of the bounding box converted in step S9 is larger than the size of the bounding box obtained by the YOLO learning model 32b, the bounding box adjuster 31f increases the estimated height of the person.

両バウンディングボックスのサイズが略同じであると判定した場合(S10:YES)、処理部31の画像重畳部31gは、ステップS1にて取得した撮影画像に、ステップS9にて変換したバウンディングボックスを重畳した画像を生成する(ステップS12)。処理部31の画像送信部31hは、ステップS12にて生成した画像を、通信部33にて所定の端末装置5へ送信し(ステップS13)、処理を終了する。 When it is determined that both bounding boxes have approximately the same size (S10: YES), the image superimposing unit 31g of the processing unit 31 superimposes the bounding box converted in step S9 on the captured image acquired in step S1. The resulting image is generated (step S12). The image transmission unit 31h of the processing unit 31 transmits the image generated in step S12 to the predetermined terminal device 5 through the communication unit 33 (step S13), and ends the process.

<画像抽出>
本実施の形態に係る情報処理システムでは、カメラ1の撮影画像からサーバ装置3が生成したバウンディングボックスについて、撮影画像に重畳して端末装置5に表示させる処理以外にも、種々の処理に用いることが期待できる。例えばサーバ装置3は、生成したバウンディングボックスに基づいて、撮影画像から人を含む画像領域を抽出する処理を行うことができる。
<Image extraction>
In the information processing system according to the present embodiment, the bounding box generated by the server device 3 from the captured image of the camera 1 is used for various processes other than the process of superimposing it on the captured image and displaying it on the terminal device 5. can be expected. For example, the server device 3 can perform processing for extracting an image region including a person from the captured image based on the generated bounding box.

なお、上述のバウンディングボックスの生成処理では、サーバ装置3は、撮影画像に写された人の頭部を囲むバウンディングボックスと、身体を囲むバウンディングボックスとの2つを生成した。本実施の形態に係るサーバ装置3は、画像抽出を行う際には、上記の2つのバウンディングボックスではなく、人の全身を囲む1つのバウンディングボックスを生成する。まず、この画像抽出用のバウンディングボックスの生成処理について説明する。 In the bounding box generation process described above, the server device 3 generates two bounding boxes, one surrounding the head of the person captured in the captured image, and the other bounding box surrounding the body of the person. When extracting an image, the server device 3 according to the present embodiment generates one bounding box surrounding the whole body of a person instead of the two bounding boxes described above. First, the process of generating a bounding box for image extraction will be described.

図9は、本実施の形態に係るサーバ装置3が行う画像抽出用のバウンディングボックス生成処理を説明するための模式図である。サーバ装置3は、カメラ1から取得した撮影画像110について、YOLO学習モデル32bを用いた人の頭部の検出を行う。サーバ装置3は、歪みのある撮影画像における人の頭部の座標を、歪みを取り除いた2次元平面上の2次元座標、カメラ座標系の3次元空間における3次元座標、ワールド座標系の3次元空間における3次元座標へ順に変換する。なお、ここまでの座標変換処理は、図4において説明した処理と同じであるため、詳細な説明は省略する。 FIG. 9 is a schematic diagram for explaining bounding box generation processing for image extraction performed by the server device 3 according to the present embodiment. The server device 3 detects a person's head using the YOLO learning model 32b for the captured image 110 acquired from the camera 1 . The server device 3 converts the coordinates of the human head in the distorted photographed image into two-dimensional coordinates on a two-dimensional plane from which distortion is removed, three-dimensional coordinates in the three-dimensional space of the camera coordinate system, and three-dimensional coordinates in the world coordinate system. Transform in order to three-dimensional coordinates in space. Note that the coordinate conversion processing up to this point is the same as the processing described with reference to FIG. 4, so detailed description thereof will be omitted.

サーバ装置3は、ワールド座標系の3次元空間において、上記の座標変換処理により得られた頭部に対応する点114を囲むように、2つの長方形の平面状のバウンディングボックス141,142を生成する。1つ目のバウンディングボックス141は、例えば3次元座標のx方向に50cm、y方向に0cm、z方向に175cmの長方形の枠体とし、x方向の中心位置且つz方向の上から10cmの位置に点114が含まれるよう3次元空間に配置される。2つ目のバウンディングボックス142は、例えば3次元座標のx方向に0cm、y方向に50cm、z方向に175cmの長方形の枠体とし、y方向の中心位置且つz方向の上から10cmの位置に点114が含まれるよう3次元空間に配置される。この配置により、2つのバウンディングボックス141,142は交差(直交)する。 In the three-dimensional space of the world coordinate system, the server device 3 generates two rectangular planar bounding boxes 141 and 142 so as to enclose the point 114 corresponding to the head obtained by the coordinate transformation process described above. . The first bounding box 141 is, for example, a rectangular frame 50 cm in the three-dimensional coordinate x direction, 0 cm in the y direction, and 175 cm in the z direction. It is placed in three-dimensional space so that the point 114 is included. The second bounding box 142 is, for example, a rectangular frame with three-dimensional coordinates of 0 cm in the x direction, 50 cm in the y direction, and 175 cm in the z direction. It is placed in three-dimensional space so that the point 114 is included. With this arrangement, the two bounding boxes 141 and 142 intersect (perpendicular).

なお上記の2つのバウンディングボックス141,142の形状及びサイズ等は一例であって、これに限るものではない。バウンディングボックス141,142の形状は、四角形でなくてよく、例えば三角形又は五角形以上の多角形であってよい。またバウンディングボックス141,142に関する50cm及び175cm等の数値は、適宜に変更され得る。これらの数値は、本実施の形態に係る情報処理システムの設計者等により予め決定されて、サーバプログラム32aと共に処理のデフォルト値としてサーバ装置3の記憶部32に記憶されてよい。またこれらの数値については、サーバ装置3が処理を実施する際にユーザからの入力を受け付けてもよい。サーバ装置3は、例えばユーザが数値を入力した場合にはこの数値を用いて処理を行い、数値が入力されない場合にはデフォルト値を用いて処理を行うことができる。 The shape, size, etc. of the two bounding boxes 141 and 142 described above are merely examples, and are not limited to these. The shape of the bounding boxes 141 and 142 may not be square, but may be, for example, a triangle or a polygon with pentagons or more. Numerical values such as 50 cm and 175 cm for the bounding boxes 141 and 142 can be changed as appropriate. These numerical values may be determined in advance by a designer or the like of the information processing system according to the present embodiment, and stored in the storage unit 32 of the server device 3 as default values for processing together with the server program 32a. Further, these numerical values may be input by the user when the server device 3 executes processing. For example, if the user inputs a numerical value, the server apparatus 3 can use this numerical value for processing, and if no numerical value is input, use a default value for processing.

またサーバ装置3は、図5及び図6等に示した方法で人の身長(地面から頭部まの高さ)を推定する処理を行っている場合、2つのバウンディングボックス141,142の高さ(z方向の長さ)を、推定された身長とすることができる。 When the server apparatus 3 performs processing for estimating a person's height (the height from the ground to the head) by the method shown in FIGS. (z-direction length) can be the estimated height.

サーバ装置3は、ワールド座標系の3次元空間において生成したバウンディングボックス141,142を、カメラ座標系の3次元空間の3次元のバウンディングボックス143,144へ変換し、更に2次元平面におけるバウンディングボックス145,146へ変換する。このときにサーバ装置3は、上記の(4)式を用いて、ワールド座標系のバウンディングボックス141,142を、2次元平面におけるバウンディングボックス145,146へ直接的に変換してよい。 The server device 3 transforms the bounding boxes 141 and 142 generated in the three-dimensional space of the world coordinate system into three-dimensional bounding boxes 143 and 144 in the three-dimensional space of the camera coordinate system, and furthermore, the bounding box 145 in the two-dimensional plane. , 146. At this time, the server device 3 may directly transform the bounding boxes 141 and 142 of the world coordinate system into the bounding boxes 145 and 146 on the two-dimensional plane using the above equation (4).

サーバ装置3は、歪みのない2次元平面上のバウンディングボックス145,146を、広角レンズの歪みを含む画像上のバウンディングボックスに変換する。このときにサーバ装置3は、上記の(1)式に基づいて、バウンディングボックスの座標を変換することができる。次いでサーバ装置3は、座標変換により得られた2つのバウンディングボックスのうち、いずれか一方のバウンディングボックスを選択し、選択した一方を画像抽出用のバウンディングボックス147とする。サーバ装置3は、例えば歪みを含む画像上の2つのバウンディングボックスの幅又は面積等を比較し、幅又は面積等が大きいバウンディングボックスを選択することができる。 The server device 3 converts the bounding boxes 145 and 146 on the two-dimensional plane without distortion into bounding boxes on the image including the distortion of the wide-angle lens. At this time, the server device 3 can transform the coordinates of the bounding box based on the above equation (1). Next, the server device 3 selects one of the two bounding boxes obtained by the coordinate transformation, and uses the selected one as the bounding box 147 for image extraction. The server device 3 can, for example, compare the width or area of two bounding boxes on an image including distortion, and select the bounding box with the larger width or area.

サーバ装置3は、上記の手順で生成した画像抽出用のバウンディングボックス147を用いて、カメラ1から取得した歪みを含む撮影画像から、この画像に写された人を含む画像領域を抽出する処理を行う。なおサーバ装置3は、図9に示した手順で画像抽出用のバウンディングボックス147を生成するのではなく、図4に示した手順で生成した2つのバウンディングボックス121,122に基づいて、画像抽出用のバウンディングボックスを生成してもよい。この場合、サーバ装置3は、人の頭部を囲むバウンディングボックス121と、身体を囲むバウンディングボックス122とを統合して、画像抽出用の1つの2次元(長方形)のバウンディングボックスを生成することができる。サーバ装置3は、例えば頭部を囲むバウンディングボックス121と身体を囲むバウンディングボックス122とを内包する最小の長方形の枠体を生成することで、画像抽出用のバウンディングボックスを生成することができる。 The server device 3 uses the bounding box 147 for image extraction generated by the above procedure to extract an image area including a person in the captured image including the distortion acquired from the camera 1. conduct. Note that the server device 3 does not generate the image extraction bounding box 147 by the procedure shown in FIG. 9, but based on the two bounding boxes 121 and 122 generated by the procedure shown in FIG. may generate a bounding box for In this case, the server device 3 can integrate the bounding box 121 surrounding the person's head and the bounding box 122 surrounding the person's body to generate one two-dimensional (rectangular) bounding box for image extraction. can. The server device 3 can generate a bounding box for image extraction by generating a minimum rectangular frame including, for example, a bounding box 121 surrounding the head and a bounding box 122 surrounding the body.

図10は、バウンディングボックスに基づく画像抽出を説明するための模式図である。図10の上部には、カメラ1が撮影した撮影画像に写された人及びその周辺を拡大した画像が図示されている。カメラ1が広角レンズを通して撮影を行ったことで、図示の画像では人が地面に対して直立しておらず、斜めに傾いた(歪んだ)状態で人が画像中に写されている。この画像には、実線の長方形で示したバウンディングボックス131と、破線の長方形で示したバウンディングボックス132とが重ねて示されている。実線のバウンディングボックス131は、本実施の形態に係るサーバ装置3が、図9に示した手順により生成した画像抽出用のバウンディングボックス131である。破線のバウンディングボックス132は、YOLOの手法により人の全体を検出してバウンディングボックスを付した場合のバウンディングボックス132である。 FIG. 10 is a schematic diagram for explaining image extraction based on bounding boxes. The upper part of FIG. 10 shows an enlarged image of a person and its surroundings captured in the captured image captured by the camera 1 . Since the camera 1 has taken a picture through a wide-angle lens, in the illustrated image, the person is not standing upright with respect to the ground, but is obliquely tilted (distorted) in the image. In this image, a bounding box 131 indicated by a solid-line rectangle and a bounding box 132 indicated by a dashed-line rectangle are superimposed. A solid-line bounding box 131 is a bounding box 131 for image extraction generated by the server device 3 according to the present embodiment according to the procedure shown in FIG. A dashed bounding box 132 is a bounding box 132 obtained by detecting the whole person and attaching a bounding box by the YOLO technique.

サーバ装置3は、撮影画像に対して生成したバウンディングボックス131内の画像を抽出することで、歪みのある撮影画像から人が写された画像領域を抽出することができる。バウンディングボックス131に基づいて抽出された画像を、図10の左下に示している。サーバ装置3は、撮影画像に対して傾いたバウンディングボックス131から抽出した画像に対して、傾きを補正する処理(例えば画像の回転処理など)を行う。図10の左下には、抽出した画像に対する傾き補正後の画像が示されている。本実施の形態に係るサーバ装置3が生成したバウンディングボックス131に基づいて抽出される画像は、検出された人が画像の縦横方向(垂直方向及び水平方向)に沿って立つ画像となる。なお抽出した画像の傾きを補正する処理は、画像の回転以外の方法で行われてもよい。 By extracting the image within the bounding box 131 generated for the captured image, the server device 3 can extract an image area in which a person is shown from the distorted captured image. An image extracted based on the bounding box 131 is shown in the lower left of FIG. The server device 3 performs a tilt correction process (for example, an image rotation process) on the image extracted from the bounding box 131 that is tilted with respect to the captured image. The bottom left of FIG. 10 shows an image after tilt correction for the extracted image. The image extracted based on the bounding box 131 generated by the server device 3 according to the present embodiment is an image in which the detected person stands along the vertical and horizontal directions of the image. Note that the process of correcting the tilt of the extracted image may be performed by a method other than image rotation.

これに対してYOLOのバウンディングボックス132は、歪みのある撮影画像に対して、画像の縦横方向に沿う長方形のバウンディングボックスとなる。撮影画像からYOLOのバウンディングボックス132に基づいて画像領域を抽出した場合の画像を、図10の右下に示している。YOLOのバウンディングボックス132に基づいて抽出される画像は、検出された人が画像内で傾いている(歪んでいる)ものとなる。また抽出された画像には、人以外のもの(例えば背景など)に属する画素の数が(バウンディングボックス131に基づいて抽出された画像と比較して)多く、人以外のものに関する情報を多く含む画像となる。 On the other hand, the YOLO bounding box 132 is a rectangular bounding box along the vertical and horizontal directions of the distorted photographed image. An image obtained by extracting an image area based on the YOLO bounding box 132 from the captured image is shown in the lower right of FIG. The image extracted based on the YOLO bounding box 132 is one in which the detected person is tilted (distorted) in the image. Also, the extracted image has more pixels (compared to the image extracted based on the bounding box 131) belonging to non-human objects (e.g. background) and contains more information about non-human objects. becomes an image.

サーバ装置3は、バウンディングボックス131に基づいて抽出した画像を、例えばこの画像に写された人が誰であるかを特定する処理、この画像に写された人の行動を認識する処理、又は、画像に写された人を追跡する処理等の種々の処理に対しての入力情報として用いることができる。本実施の形態に係るサーバ装置3が生成するバウンディングボックス131に基づいて抽出された画像は、YOLOのバウンディングボックス132に基づいて抽出された画像よりも、全画素数に対して検出された人が占める画素数の割合が高くなることが期待でき、より後続の処理の精度を高めることが期待できる。 The server device 3 extracts the image extracted based on the bounding box 131, for example, a process of identifying who the person shown in this image is, a process of recognizing the behavior of the person shown in this image, or It can be used as input information for various processes such as the process of tracking a person in an image. The image extracted based on the bounding box 131 generated by the server device 3 according to the present embodiment has more people detected than the image extracted based on the bounding box 132 of YOLO. It can be expected that the ratio of the number of pixels occupied will increase, and it can be expected that the accuracy of subsequent processing will be improved.

図11は、本実施の形態に係るサーバ装置3が行う画像抽出処理の手順を示すフローチャートである。本実施の形態に係るサーバ装置3の処理部31は、画像取得部31aにてカメラ1が撮影した撮影画像を取得し(ステップS31)、人検出部31bにてYOLO学習モデル32bを用いた人検出を行う(ステップS32)。人検出部31bは、YOLO学習モデル32bが出力する人の頭部を囲むバウンディングボックスの位置等の情報に基づいて、人の頭部の中心点の座標を算出する(ステップS33)。処理部31の座標変換部31cは、算出した頭部の中心点の座標を、歪みが除去された2次元平面における2次元座標に変換し(ステップS34)、2次元座標をワールド座標系の3次元座標へ変換する(ステップS35)。 FIG. 11 is a flow chart showing the procedure of image extraction processing performed by the server device 3 according to the present embodiment. The processing unit 31 of the server device 3 according to the present embodiment acquires the captured image captured by the camera 1 with the image acquisition unit 31a (step S31), and the human detection unit 31b detects a person using the YOLO learning model 32b. Detection is performed (step S32). The person detection unit 31b calculates the coordinates of the central point of the person's head based on the information such as the position of the bounding box surrounding the person's head output by the YOLO learning model 32b (step S33). The coordinate transformation unit 31c of the processing unit 31 transforms the calculated coordinates of the center point of the head into two-dimensional coordinates on the two-dimensional plane from which the distortion has been removed (step S34), and converts the two-dimensional coordinates to 3 Convert to dimensional coordinates (step S35).

処理部31のバウンディングボックス生成部31dは、ワールド座標系の3次元仮想空間において、ステップS35にて変換した頭部の中心点の3次元座標を含む2つの長方形の平面状のバウンディングボックスを生成する(ステップS36)。2つのバウンディングボックスは、例えば50cm×0cm×175cmの長方形の平面形状の枠体、及び、0cm×50cm×175cmの長方形の平面形状の枠体とすることができる。 The bounding box generation unit 31d of the processing unit 31 generates two rectangular planar bounding boxes containing the three-dimensional coordinates of the center point of the head transformed in step S35 in the three-dimensional virtual space of the world coordinate system. (Step S36). The two bounding boxes can be, for example, a rectangular planar frame of 50 cm×0 cm×175 cm and a rectangular planar frame of 0 cm×50 cm×175 cm.

処理部31の座標逆変換部31eは、生成した2つのバウンディングボックスを2次元平面におけるバウンディングボックスに変換する(ステップS37)。座標逆変換部31eは、ステップS37にて変換された歪みのない2次元平面上の2つのバウンディングボックスを、歪みのある2次元平面(撮影画像)上の2つのバウンディングボックスに変換する(ステップS38)。 The coordinate inverse transformation unit 31e of the processing unit 31 transforms the two generated bounding boxes into bounding boxes on a two-dimensional plane (step S37). The coordinate inverse transformation unit 31e transforms the two bounding boxes on the undistorted two-dimensional plane transformed in step S37 into two bounding boxes on the distorted two-dimensional plane (captured image) (step S38). ).

処理部31は、ステップS38にて生成した撮影画像上の2つのバウンディングボックスのうち、幅又は面積等が大きい一方のバウンディングボックスを画像抽出用に選択し、撮影画像から画像抽出用のバウンディングボックスで囲まれた画像領域を抽出する(ステップS39)。処理部31は、抽出した画像領域に対して、例えば回転等の処理を行う事で、傾きを補正し(ステップS40)、画像抽出処理を終了する。 The processing unit 31 selects, for image extraction, one of the two bounding boxes on the captured image generated in step S38, which has a larger width or area, and extracts the bounding box from the captured image using the bounding box for image extraction. The enclosed image area is extracted (step S39). The processing unit 31 performs processing such as rotation on the extracted image region to correct the tilt (step S40), and ends the image extraction processing.

<まとめ>
以上の構成の本実施の形態に係る情報処理システムでは、広角レンズを通してカメラ1が撮影した歪みを含む撮影画像(歪曲画像)をサーバ装置3が取得し、取得した撮影画像に写された対象物(人)を検出する。サーバ装置3は、検出した人の2次元座標を仮想の3次元空間における3次元座標に変換し、3次元空間において対象物を囲む立体枠(立体形状のバウンディングボックス)を生成する。サーバ装置3は、生成した立体枠の3次元座標をカメラ1が撮影した撮影画像における2次元座標へ逆変換する。サーバ装置3は、これらにより得られた平面枠(平面形状のバウンディングボックス)を、カメラ1が撮影した歪みのある撮影画像に重畳して、端末装置5等に表示させる。これによりサーバ装置3は、歪みのある撮影画像に適したバウンディングボックスを重畳して、撮影画像からの対象物の検出結果をユーザへ提示することが期待できる。
<Summary>
In the information processing system according to the present embodiment having the above configuration, the server device 3 acquires a photographed image including distortion (distorted image) photographed by the camera 1 through a wide-angle lens, and the object photographed in the acquired photographed image to detect (a person) The server device 3 converts the two-dimensional coordinates of the detected person into three-dimensional coordinates in a virtual three-dimensional space, and generates a three-dimensional frame (a three-dimensional bounding box) surrounding the object in the three-dimensional space. The server device 3 inversely transforms the generated three-dimensional coordinates of the three-dimensional frame into two-dimensional coordinates in the captured image captured by the camera 1 . The server device 3 superimposes the obtained planar frame (planar bounding box) on the distorted photographed image photographed by the camera 1 and displays it on the terminal device 5 or the like. As a result, the server device 3 can be expected to superimpose a bounding box suitable for a distorted photographed image and present the detection result of the object from the photographed image to the user.

また本実施の形態に係るサーバ装置3は、カメラ1が撮影した歪みのある撮影画像における対象物の2次元座標を、歪みを取り除いた画像における2次元座標へ変換する。サーバ装置3は、歪みを取り除いた画像における2次元座標をカメラ1を中心とするカメラ座標系の3次元座標へ変換し、カメラ座標系の3次元座標をワールド座標系の3次元座標へ変換して、ワールド座標系において対象物を囲む立体枠を生成する。これによりサーバ装置3は、広角レンズを通して撮影された歪みのある撮影画像から、この撮影画像に写された対象物を囲む立体枠を精度よく生成することが期待できる。なお本実施の形態においてサーバ装置3は、2次元座標からカメラ座標系の3次元座標への変換と、カメラ座標系の3次元座標からワールド座標系の3次元座標への変換とを(4)式に基づいて一括して行っているが、これに限るものではなく、各座標変換を個別に行ってもよい。 In addition, the server device 3 according to the present embodiment converts the two-dimensional coordinates of the object in the distorted captured image captured by the camera 1 into the two-dimensional coordinates in the image from which the distortion is removed. The server device 3 transforms the two-dimensional coordinates in the image from which the distortion has been removed into three-dimensional coordinates in a camera coordinate system centered on the camera 1, and transforms the three-dimensional coordinates in the camera coordinate system into three-dimensional coordinates in the world coordinate system. to generate a three-dimensional frame surrounding the object in the world coordinate system. As a result, the server device 3 can be expected to accurately generate a three-dimensional frame that encloses the object in the photographed image from the distorted photographed image photographed through a wide-angle lens. In the present embodiment, the server device 3 performs transformation from two-dimensional coordinates to three-dimensional coordinates in the camera coordinate system and transformation from three-dimensional coordinates in the camera coordinate system to three-dimensional coordinates in the world coordinate system (4). Although it is collectively performed based on the formula, it is not limited to this, and each coordinate transformation may be performed individually.

また本実施の形態に係るサーバ装置3は、歪みを含む撮影画像に写された人の頭部を検出し、人の頭部の2次元座標を3次元座標へ変換し、3次元仮想空間において人の頭部を囲む第1の立体枠を生成し、人の身体を囲む第2の立体枠を生成し、第1の立体枠及び第2の立体枠を結合して人を囲む立体枠を生成する。これにより、サーバ装置3が行う座標変換の処理負荷を低減することが期待できる。 In addition, the server device 3 according to the present embodiment detects the human head captured in the photographed image including distortion, converts the two-dimensional coordinates of the human head into three-dimensional coordinates, and converts the coordinates in the three-dimensional virtual space. A first three-dimensional frame surrounding a person's head is generated, a second three-dimensional frame surrounding a person's body is generated, and the first three-dimensional frame and the second three-dimensional frame are combined to form a three-dimensional frame surrounding the person. Generate. As a result, it can be expected that the processing load of the coordinate conversion performed by the server device 3 can be reduced.

また本実施の形態に係るサーバ装置3は、人の頭部を囲む所定サイズの第1の立体枠を生成し、人の身体を囲む所定サイズの第2の立体枠を生成し、第1の立体枠及び第2の立体枠を結合して人を囲む立体枠を生成し、この立体枠の3次元座標を撮影画像の2次元平面における2次元座標へ変換する。サーバ装置3は、2次元座標へ変換された平面枠のうち第1の立体枠に相当する部分のサイズを算出し、歪みを含む撮影画像からの人の頭部の検出結果に基づく平面枠のサイズとの比較を行い、比較結果に基づいて第2の立体枠の高さを調整する。これによりサーバ装置3は、所定サイズとして生成した第2の立体枠を、検出した人の身長又は姿勢等に適したサイズに調整することが期待できる。 Further, the server device 3 according to the present embodiment generates a first three-dimensional frame of a predetermined size surrounding a person's head, generates a second three-dimensional frame of a predetermined size surrounding a person's body, and generates a first three-dimensional frame. The 3D frame and the second 3D frame are combined to generate a 3D frame surrounding the person, and the 3D coordinates of this 3D frame are transformed into the 2D coordinates on the 2D plane of the captured image. The server device 3 calculates the size of the portion corresponding to the first three-dimensional frame in the planar frame converted into the two-dimensional coordinates, and calculates the size of the planar frame based on the detection result of the human head from the photographed image including distortion. A size comparison is performed, and the height of the second three-dimensional frame is adjusted based on the comparison result. As a result, the server device 3 can be expected to adjust the second stereoscopic frame generated as a predetermined size to a size suitable for the height or posture of the detected person.

また本実施の形態に係るサーバ装置3は、立体枠から変換された2次元の平面枠のうち第1の立体枠に相当する部分のサイズが、撮影画像からの人の頭部の検出結果に基づく平面枠のサイズより大きい場合、3次元仮想空間における第2の立体枠の高さを低減する。これによりサーバ装置3は、所定サイズとして生成した第2の立体枠を、検出した人の身長又は姿勢等に適したサイズに精度よく調整することが期待できる。 Further, in the server device 3 according to the present embodiment, the size of the portion corresponding to the first three-dimensional frame in the two-dimensional plane frame converted from the three-dimensional frame is determined according to the detection result of the human head from the captured image. If the size is larger than the size of the base frame, the height of the second solid frame in the three-dimensional virtual space is reduced. As a result, the server device 3 can be expected to accurately adjust the second stereoscopic frame generated as a predetermined size to a size suitable for the height or posture of the detected person.

また本実施の形態に係るサーバ装置3は、歪みを含む撮影画像に写された対象物の検出を、YOLOのアルゴリズムを用いて行う。YOLOのアルゴリズムは、画像から対象物を検出するアルゴリズムとして精度よく実績のあるものであり、検出した対象物にバウンディングボックスを付すことができるものであるため、本実施の形態に係るサーバ装置3が行う処理に適したアルゴリズムである。ただし、サーバ装置3はYOLO以外のアルゴリズムを利用して、撮影画像から対象物を検出してもよい。 In addition, the server device 3 according to the present embodiment uses the YOLO algorithm to detect an object appearing in a photographed image including distortion. The YOLO algorithm has a proven track record as an algorithm for detecting an object from an image with high accuracy, and can attach a bounding box to the detected object. It is an algorithm suitable for the processing to be performed. However, the server device 3 may use an algorithm other than YOLO to detect the object from the captured image.

また本実施の形態に係る情報処理システムでは、広角レンズを通してカメラ1が撮影した歪みを含む撮影画像(歪曲画像)をサーバ装置3が取得し、取得した撮影画像に写された対象物(人)を囲む立体形状の枠(バウンディングボックス)を生成し、生成した立体形状の枠撮影画像に重畳して端末装置5の表示部54に表示させる。これにより情報処理システムは、歪みのある撮影画像に適したバウンディングボックスを重畳して、撮影画像に写された対象物の存在をユーザへ提示することが期待できる。 Further, in the information processing system according to the present embodiment, the server device 3 acquires a photographed image including distortion (distorted image) photographed by the camera 1 through a wide-angle lens, and the object (person) photographed in the acquired photographed image is obtained. is generated and displayed on the display unit 54 of the terminal device 5 so as to be superimposed on the generated stereoscopic frame captured image. As a result, the information processing system can be expected to superimpose a bounding box suitable for the distorted captured image and present the existence of the target object captured in the captured image to the user.

また本実施の形態に係る情報処理システムは、生成した立体形状の枠に基づいて、歪みを含む撮影画像から対象物を含む部分画像を抽出する。これにより、抽出した部分画像に基づいて、例えば顔認証又は行動認識等の処理を精度よく行うことが期待できる。 Further, the information processing system according to the present embodiment extracts a partial image including the target object from the captured image including distortion based on the generated three-dimensional frame. As a result, it can be expected that processing such as face recognition or action recognition can be performed with high accuracy based on the extracted partial images.

また本実施の形態に係る情報処理システムが生成する立体形状の枠には、対象物として撮影画像に写された人を検出し、人の頭部を囲む第1の枠と、この人の身体を囲む第2の枠とを含む。このような複数の枠を含む立体形状の枠を生成することによって、例えば顔認証又は行動認識等の処理に対して適した画像を抽出して用いることが可能となる。 Further, the three-dimensional frame generated by the information processing system according to the present embodiment includes a first frame surrounding the person's head and a body of the person, which is detected as an object in the photographed image. and a second frame surrounding the . By generating such a three-dimensional frame including a plurality of frames, it becomes possible to extract and use an image suitable for processing such as face recognition or action recognition.

また本実施の形態に係る情報処理システムでは、サーバ装置3は、ワールド座標系の3次元の仮想空間で生成した立体のバウンディングボックスに基づいて撮影画像の2次元平面における平面枠を生成し、撮影画像からYOLO等のアルゴリズムにより直接的に生成した平面枠とのサイズ比較を行う。サーバ装置3は、この比較結果に基づいて対象物の地面からの高さ、3次元仮想空間における位置等を推定することができる。 Further, in the information processing system according to the present embodiment, the server device 3 generates a plane frame on a two-dimensional plane of the photographed image based on the solid bounding box generated in the three-dimensional virtual space of the world coordinate system. A size comparison is made with a plane frame directly generated from the image by an algorithm such as YOLO. The server device 3 can estimate the height of the object from the ground, the position in the three-dimensional virtual space, etc. based on the comparison result.

今回開示された実施形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。 The embodiments disclosed this time are illustrative in all respects and should be considered not restrictive. The scope of the present invention is indicated by the scope of the claims rather than the above-described meaning, and is intended to include all modifications within the scope and meaning equivalent to the scope of the claims.

1 カメラ
3 サーバ装置
5 端末装置
31 処理部
31a 画像取得部
31b 人検出部
31c 座標変換部
31d バウンディングボックス生成部
31e 座標逆変換部
31f バウンディングボックス調整部
31g 画像重畳部
31h 画像送信部
32 記憶部
32a サーバプログラム
32b YOLO学習モデル
33 通信部
51 処理部
51a 画像受信部
51b 表示処理部
52 記憶部
52a プログラム
53 通信部
54 表示部
55 操作部
98,99 記録媒体
101 バウンディングボックス
N ネットワーク
1 camera 3 server device 5 terminal device 31 processing unit 31a image acquisition unit 31b human detection unit 31c coordinate transformation unit 31d bounding box generation unit 31e coordinate reverse transformation unit 31f bounding box adjustment unit 31g image superimposition unit 31h image transmission unit 32 storage unit 32a Server program 32b YOLO learning model 33 communication unit 51 processing unit 51a image reception unit 51b display processing unit 52 storage unit 52a program 53 communication unit 54 display unit 55 operation unit 98, 99 recording medium 101 bounding box N network

一実施形態に係る画像処理方法は、カメラが撮影した歪みを含む歪曲画像を取得し、取得した前記歪曲画像に写された対象物を検出し、前記歪曲画像における前記対象物の2次元座標を、前記歪曲画像から歪みを取り除いた画像における2次元座標に変換し、前記歪みを取り除いた画像における前記対象物の2次元座標を、前記カメラを中心とするカメラ座標系の3次元座標に変換し、前記カメラ座標系における前記対象物の3次元座標を、ワールド座標系の3次元座標に変換し、前記ワールド座標系の3次元空間において前記対象物を囲む立体枠を生成し、生成した前記立体枠の3次元座標を、前記歪曲画像における2次元座標に逆変換し、前記立体枠を2次元座標に変換して得られた平面枠を、前記歪曲画像に重畳する。 An image processing method according to one embodiment acquires a distorted image captured by a camera and includes distortion, detects an object appearing in the acquired distorted image, and calculates two-dimensional coordinates of the object in the distorted image. transforming the distorted image into two-dimensional coordinates in the distortion-removed image, and transforming the two-dimensional coordinates of the object in the distortion-removed image into three-dimensional coordinates in a camera coordinate system centered on the camera; transforming the three-dimensional coordinates of the object in the camera coordinate system into three-dimensional coordinates in the world coordinate system , generating a three-dimensional frame surrounding the object in the three-dimensional space of the world coordinate system; The three-dimensional coordinates of the frame are inversely transformed into two-dimensional coordinates in the distorted image, and the planar frame obtained by transforming the three-dimensional frame into two-dimensional coordinates is superimposed on the distorted image.

Claims (10)

カメラが撮影した歪みを含む歪曲画像を取得し、
取得した前記歪曲画像に写された対象物を検出し、
前記歪曲画像における前記対象物の2次元座標を、仮想の3次元空間における3次元座標に変換し、
前記3次元空間において前記対象物を囲む立体枠を生成し、
生成した前記立体枠の3次元座標を、前記歪曲画像における2次元座標に逆変換し、
前記立体枠を2次元座標に変換して得られた平面枠を、前記歪曲画像に重畳する、
画像処理方法。
Acquire a distorted image containing the distortion captured by the camera,
Detecting an object appearing in the acquired distorted image,
transforming the two-dimensional coordinates of the object in the distorted image into three-dimensional coordinates in a virtual three-dimensional space;
generating a three-dimensional frame surrounding the object in the three-dimensional space;
inversely transforming the generated three-dimensional coordinates of the three-dimensional frame into two-dimensional coordinates in the distorted image;
superimposing a plane frame obtained by transforming the three-dimensional frame into two-dimensional coordinates on the distorted image;
Image processing method.
前記歪曲画像における前記対象物の2次元座標を、前記歪曲画像から歪みを取り除いた画像における2次元座標に変換し、
前記歪みを取り除いた画像における前記対象物の2次元座標を、前記カメラを中心とするカメラ座標系の3次元座標に変換し、
前記カメラ座標系における前記対象物の3次元座標を、ワールド座標系の3次元座標に変換し、
前記ワールド座標系において前記対象物を囲む立体枠を生成する、
請求項1に記載の画像処理方法。
converting the two-dimensional coordinates of the object in the distorted image into two-dimensional coordinates in an image obtained by removing the distortion from the distorted image;
transforming the two-dimensional coordinates of the object in the image from which the distortion has been removed into three-dimensional coordinates in a camera coordinate system centered on the camera;
transforming the three-dimensional coordinates of the object in the camera coordinate system into three-dimensional coordinates in the world coordinate system;
generating a three-dimensional frame surrounding the object in the world coordinate system;
The image processing method according to claim 1.
前記対象物は人であり、
前記歪曲画像に写された人の頭部を検出し、
前記人の頭部の2次元座標を3次元座標に変換し、
前記3次元空間において前記人の頭部を囲む第1の立体枠を生成し、
前記3次元空間において前記人の身体を囲む第2の立体枠を生成し、
前記第1の立体枠及び前記第2の立体枠を結合して、前記人を囲む立体枠を生成する、
請求項1又は請求項2に記載の画像処理方法。
the object is a person,
detecting a person's head in the distorted image;
transforming the two-dimensional coordinates of the person's head into three-dimensional coordinates;
generating a first three-dimensional frame surrounding the person's head in the three-dimensional space;
generating a second three-dimensional frame surrounding the human body in the three-dimensional space;
combining the first three-dimensional frame and the second three-dimensional frame to generate a three-dimensional frame surrounding the person;
3. The image processing method according to claim 1 or 2.
前記人の頭部を囲む所定サイズの前記第1の立体枠を生成し、
前記人の身体を囲む所定サイズの前記第2の立体枠を生成し、
前記第1の立体枠及び前記第2の立体枠を結合して、前記人を囲む立体枠を生成し、
前記立体枠の3次元座標を、前記歪曲画像における2次元座標に逆変換し、
前記立体枠を2次元座標に変換して得られた平面枠のうち、前記第1の立体枠に相当する部分のサイズである第1サイズを算出し、
前記歪曲画像から検出した人の頭部を囲む平面枠を生成し、
生成した平面枠のサイズである第2サイズを算出し、
前記第1サイズ及び前記第2サイズの比較結果に基づいて、前記第2の立体枠の高さを調整する、
請求項3に記載の画像処理方法。
generating the first three-dimensional frame of a predetermined size surrounding the person's head;
generating the second three-dimensional frame of a predetermined size surrounding the person's body;
combining the first three-dimensional frame and the second three-dimensional frame to generate a three-dimensional frame surrounding the person;
inversely transforming the three-dimensional coordinates of the three-dimensional frame into two-dimensional coordinates in the distorted image;
calculating a first size, which is the size of a portion corresponding to the first three-dimensional frame, of a plane frame obtained by converting the three-dimensional frame into two-dimensional coordinates;
generating a planar frame surrounding the human head detected from the distorted image;
Calculate the second size, which is the size of the generated plane frame,
adjusting the height of the second three-dimensional frame based on the comparison result of the first size and the second size;
4. The image processing method according to claim 3.
前記第1サイズが前記第2サイズより大きい場合、前記第2の立体枠の高さを低減する、
請求項4に記載の画像処理方法。
reducing the height of the second three-dimensional frame when the first size is larger than the second size;
5. The image processing method according to claim 4.
前記第1サイズ及び前記第2サイズの比較結果に基づいて、前記対象物の位置を推定する、
請求項4又は請求項5に記載の画像処理方法。
estimating the position of the object based on a comparison result of the first size and the second size;
6. The image processing method according to claim 4 or 5.
前記平面枠が重畳された歪曲画像と共に、推定した前記対象物の位置を表示部に表示する、
請求項6に記載の画像処理方法。
displaying the estimated position of the object on a display together with the distorted image on which the plane frame is superimposed;
7. The image processing method according to claim 6.
前記歪曲画像に写された対象物の検出を、YOLO(You Only Look Once)のアルゴリズムで行う、
請求項1から請求項7までのいずれか1つに記載の画像処理方法。
Detecting the object in the distorted image with a YOLO (You Only Look Once) algorithm;
The image processing method according to any one of claims 1 to 7.
コンピュータに、
カメラが撮影した歪みを含む歪曲画像を取得し、
取得した前記歪曲画像に写された対象物を検出し、
前記歪曲画像における前記対象物の2次元座標を、仮想の3次元空間における3次元座標に変換し、
前記3次元空間において前記対象物を囲む立体枠を生成し、
生成した前記立体枠の3次元座標を、前記歪曲画像における2次元座標に逆変換し、
前記立体枠を2次元座標に変換して得られた平面枠を、前記歪曲画像に重畳する
処理を実行させる、コンピュータプログラム。
to the computer,
Acquire a distorted image containing the distortion captured by the camera,
Detecting an object appearing in the acquired distorted image,
transforming the two-dimensional coordinates of the object in the distorted image into three-dimensional coordinates in a virtual three-dimensional space;
generating a three-dimensional frame surrounding the object in the three-dimensional space;
inversely transforming the generated three-dimensional coordinates of the three-dimensional frame into two-dimensional coordinates in the distorted image;
A computer program for superimposing a plane frame obtained by transforming the three-dimensional frame into two-dimensional coordinates on the distorted image.
カメラが撮影した歪みを含む歪曲画像を取得する取得部と、
取得した前記歪曲画像に写された対象物を検出する検出部と、
前記歪曲画像における前記対象物の2次元座標を、仮想の3次元空間における3次元座標に変換する変換部と、
前記3次元空間において前記対象物を囲む立体枠を生成する生成部と、
生成した前記立体枠の3次元座標を、前記歪曲画像における2次元座標に逆変換する逆変換部と
前記立体枠を2次元座標に変換して得られた平面枠を、前記歪曲画像に重畳する重畳部と
を備える、画像処理装置。
an acquisition unit that acquires a distorted image captured by a camera and containing distortion;
a detection unit that detects an object appearing in the acquired distorted image;
a transformation unit that transforms the two-dimensional coordinates of the object in the distorted image into three-dimensional coordinates in a virtual three-dimensional space;
a generation unit that generates a three-dimensional frame surrounding the object in the three-dimensional space;
an inverse transformation unit for inversely transforming the generated three-dimensional coordinates of the three-dimensional frame into two-dimensional coordinates in the distorted image; An image processing device comprising: a superimposing unit;
JP2021120338A 2021-07-21 2021-07-21 Image processing methods, computer programs and image processing equipment Active JP7031047B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021120338A JP7031047B1 (en) 2021-07-21 2021-07-21 Image processing methods, computer programs and image processing equipment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021120338A JP7031047B1 (en) 2021-07-21 2021-07-21 Image processing methods, computer programs and image processing equipment

Publications (2)

Publication Number Publication Date
JP7031047B1 JP7031047B1 (en) 2022-03-07
JP2023016187A true JP2023016187A (en) 2023-02-02

Family

ID=81215058

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021120338A Active JP7031047B1 (en) 2021-07-21 2021-07-21 Image processing methods, computer programs and image processing equipment

Country Status (1)

Country Link
JP (1) JP7031047B1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115297315A (en) * 2022-07-18 2022-11-04 北京城市网邻信息技术有限公司 Correction method and device for shooting central point in circular shooting and electronic equipment

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017094626A1 (en) * 2015-11-30 2017-06-08 住友重機械工業株式会社 Periphery monitoring system for work machine

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017094626A1 (en) * 2015-11-30 2017-06-08 住友重機械工業株式会社 Periphery monitoring system for work machine

Also Published As

Publication number Publication date
JP7031047B1 (en) 2022-03-07

Similar Documents

Publication Publication Date Title
JP6330987B2 (en) Image processing apparatus, image processing method, and storage medium
CN109690620B (en) Three-dimensional model generation device and three-dimensional model generation method
US10777002B2 (en) 3D model generating system, 3D model generating method, and program
JP4473754B2 (en) Virtual fitting device
JP5093053B2 (en) Electronic camera
WO2014064870A1 (en) Image processing device and image processing method
US10607405B2 (en) 3D model generating system, 3D model generating method, and program
WO2019035155A1 (en) Image processing system, image processing method, and program
JP2015534637A (en) System and method for obtaining accurate body size measurements from a two-dimensional image sequence
JP2014106732A (en) Information processor and information processing method
CN109247068A (en) Method and apparatus for rolling shutter compensation
JP2005326247A (en) Calibrator, calibration method, and calibration program
US9558406B2 (en) Image processing apparatus including an object setting section, image processing method, and program using the same
CN112083403B (en) Positioning tracking error correction method and system for virtual scene
CN113538587A (en) Camera coordinate transformation method, terminal and storage medium
JP4631973B2 (en) Image processing apparatus, image processing apparatus control method, and image processing apparatus control program
CN107330974B (en) Commodity display method and device and mobile equipment
CN114581986A (en) Image processing method, image processing device, electronic equipment and storage medium
US11138743B2 (en) Method and apparatus for a synchronous motion of a human body model
JP7031047B1 (en) Image processing methods, computer programs and image processing equipment
CN113763544A (en) Image determination method, image determination device, electronic equipment and computer-readable storage medium
US20230410361A1 (en) Image processing system, processing method, and non-transitory storage medium
JP2013196388A (en) Image processor, image processing method and image processing program
CN110288707B (en) Three-dimensional dynamic modeling method and system
JP7031048B1 (en) Image processing methods, computer programs and image processing equipment

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210721

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210721

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211102

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220222

R150 Certificate of patent or registration of utility model

Ref document number: 7031047

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150