JP2017055397A - Image processing apparatus, image composing device, image processing system, image processing method and program - Google Patents

Image processing apparatus, image composing device, image processing system, image processing method and program Download PDF

Info

Publication number
JP2017055397A
JP2017055397A JP2016167289A JP2016167289A JP2017055397A JP 2017055397 A JP2017055397 A JP 2017055397A JP 2016167289 A JP2016167289 A JP 2016167289A JP 2016167289 A JP2016167289 A JP 2016167289A JP 2017055397 A JP2017055397 A JP 2017055397A
Authority
JP
Japan
Prior art keywords
video
image processing
image
processing apparatus
movement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016167289A
Other languages
Japanese (ja)
Other versions
JP6768416B2 (en
Inventor
小林 正明
Masaaki Kobayashi
正明 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to US15/256,956 priority Critical patent/US10535193B2/en
Publication of JP2017055397A publication Critical patent/JP2017055397A/en
Application granted granted Critical
Publication of JP6768416B2 publication Critical patent/JP6768416B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Processing Or Creating Images (AREA)
  • Studio Circuits (AREA)
  • Studio Devices (AREA)
  • Image Analysis (AREA)

Abstract

PROBLEM TO BE SOLVED: To enable an MR (Mixed Reality) device to perform highly accurate position and posture estimation, by the combination of an imaging system, which has a small deterioration with respect to movement, with an imaging system which can image a high definition video though having a large deterioration with respect to movement, enabling high definition video viewing.SOLUTION: An image processing apparatus outputs a first video using first imaging means, having a relatively small image deterioration when a subject moves, and also outputs a second video using second imaging means having a relatively large image deterioration when a subject moves. The image processing apparatus analyzes the first video to generate the position and the posture information of the image processing apparatus. The image processing apparatus then draws a CG object on the second video in a superposed manner at a position determined based on the position and the posture information.SELECTED DRAWING: Figure 1

Description

本発明は、画像処理装置、画像合成装置、画像処理システム、画像処理方法、及びプログラムに関する。   The present invention relates to an image processing device, an image composition device, an image processing system, an image processing method, and a program.

近年、Visual SLAM(Simultaneous Localization and Mapping)とよばれる移動するカメラの映像から三次元的な位置姿勢を推定する技術が実用化されている。この応用として、カメラの位置姿勢に基づいて、仮想的に存在する三次元コンピュータグラフィックオブジェクトを、映像上に描画として表示するMR(MixedReality)/AR(Argumeneted Reality)がある。映像からカメラの位置姿勢推定を行う技術にはマーカーを利用するものと利用しないものがある。双方ともマーカー、あるいは、自然の被写体をフレーム間で同定し、その動きを追跡する(以降、この追跡をトラッキングと呼ぶ)ことによって、三次元空間上のカメラの位置姿勢を推定するものである。マーカーを利用した位置姿勢推定方法の一つには、特許文献1がある。マーカーを利用しない位置姿勢推定方法の一つには、非特許文献2(通称:PTAM)がある。MRでは、推定したカメラの位置姿勢から環境マップと呼ばれるマーカーや被写体の三次元的な位置を示すマップを生成し、この環境マップを使って、CGオブジェクトの位置と向きを決定し、入力した映像に重畳する。これにより、実空間内にCGオブジェクトが存在するような映像を得ることができる。このとき、正しい位置にCGを重畳できるか否かはトラッキング精度に依存し、トラッキング精度は映像のフレーム画像一枚一枚の特性に大きく依存する。   In recent years, a technique for estimating a three-dimensional position and orientation from a moving camera image called Visual SLAM (Multiple Localization and Mapping) has been put into practical use. As this application, there is MR (Mixed Reality) / AR (Arranged Reality) that displays a virtually existing three-dimensional computer graphic object on a video based on the position and orientation of the camera. Some techniques for estimating the position and orientation of a camera from an image include those that use markers and those that do not. In both cases, a marker or a natural object is identified between frames and its movement is tracked (hereinafter, this tracking is referred to as tracking) to estimate the position and orientation of the camera in the three-dimensional space. One position / orientation estimation method using markers is disclosed in Patent Document 1. One of the position and orientation estimation methods that do not use a marker is Non-Patent Document 2 (common name: PTAM). In MR, a map that indicates the three-dimensional position of a marker or subject called an environment map is generated from the estimated position and orientation of the camera, the position and orientation of the CG object are determined using this environment map, and the input video Superimpose on. Thereby, it is possible to obtain an image in which a CG object exists in the real space. At this time, whether or not the CG can be superimposed at the correct position depends on the tracking accuracy, and the tracking accuracy greatly depends on the characteristics of each frame image of the video.

フレーム画像の特性は、センサやセンサの駆動条件に依存する。例えば、CMOSセンサでよく使われる方式であるローリングシャッターセンサを利用すると、シーンに動きのある被写体が存在する、あるいは、カメラがパンする場合などに、ローリングシャッター歪と呼ばれる歪が生じる。この歪はフレーム間でマーカーや被写体を同定精度を低下させ、結果としてトラキング精度、位置姿勢推定精度を低下させてしまう。一方CCDに代表されるグローバルシャッターセンサを用いるとローリングシャッター歪は生じない。しかし、一般にグローバルシャッターセンサは一般に高い駆動電圧を必要とし高解像度化や高フレームレート化は難しいとされる。また、同じローリングシャッターセンサでも、センサの駆動速度を向上させると、ローリングシャッター歪を大幅に減少させることができる。   The characteristics of the frame image depend on the sensor and the driving condition of the sensor. For example, when a rolling shutter sensor, which is a method often used in CMOS sensors, is used, distortion called rolling shutter distortion occurs when there is a moving subject in the scene or when the camera pans. This distortion reduces the accuracy of identifying markers and subjects between frames, and as a result, reduces tracking accuracy and position / orientation estimation accuracy. On the other hand, when a global shutter sensor typified by a CCD is used, rolling shutter distortion does not occur. However, in general, a global shutter sensor generally requires a high driving voltage, and it is difficult to achieve high resolution and high frame rate. Further, even with the same rolling shutter sensor, rolling shutter distortion can be greatly reduced by increasing the sensor driving speed.

Hirokazu Kato and Mark Billinghurst、「Marker Tracking and HMD Calibration for a Video−based Augmented Reality Conferencing System」、Proceedings. 2nd IEEE and ACM International Workshop on Augmented Reality ’99Hirokazu Kato and Mark Billinghurst, “Marker Tracking and HMD Calibration for a Video-based Augmented Reality Conferencing System”, Proceedings. 2nd IEEE and ACM International Workshop on Augmented Reality '99 Georg Klein and David Murray、「Parallel Tracking and Mapping on a Camera Phone」、In Proc.International Symposium on Mixed and Augmented Reality (ISMAR’09, Orlando)Georg Klein and David Murray, “Parallel Tracking and Mapping on a Camera Phone”, In Proc. International Symposium on Mixed and Augmented Reality (ISMAR'09, Orlando)

MR装置において、ローリングシャッターセンサの映像は、映像にローリングシャッター歪が発生し、位置姿勢推定精度が低下する。グローバルシャッターセンサを使う場合には、低コストで十分な解像度や高いフレームの画像を扱うことが難しい。   In the MR apparatus, a rolling shutter distortion occurs in the image of the rolling shutter sensor, and the position / orientation estimation accuracy decreases. When using a global shutter sensor, it is difficult to handle images with sufficient resolution and high frame at low cost.

本発明の目的を達成するために、例えば、本発明の画像処理装置は以下の構成を備える。すなわち、
第1の映像を出力する、被写体が動くことによる画像劣化が相対的に少ない第1の撮像手段と、
第2の映像を出力する、被写体が動くことによる画像劣化が相対的に多い第2の撮像手段と、
前記第1の映像を解析して前記画像処理装置の位置姿勢情報を生成する推定手段と、
前記位置姿勢情報に基づいて決定された位置に重畳されるように、前記第2の映像上にCGオブジェクトを描画する描画手段と、
を備えることを特徴とする。
In order to achieve the object of the present invention, for example, an image processing apparatus of the present invention comprises the following arrangement. That is,
A first imaging means for outputting a first video and relatively less image degradation caused by movement of the subject;
A second imaging means for outputting a second video, wherein image degradation due to movement of the subject is relatively large;
Estimating means for analyzing the first video and generating position and orientation information of the image processing device;
Drawing means for drawing a CG object on the second video so as to be superimposed on a position determined based on the position and orientation information;
It is characterized by providing.

高精度な位置姿勢推定と高精細な視聴映像の生成を両立する。   Both high-precision position and orientation estimation and high-definition viewing video generation are compatible.

実施形態1におけるMR装置構成を説明する図FIG. 3 is a diagram illustrating the configuration of an MR apparatus according to the first embodiment. 実施形態2におけるMR装置構成を説明する図The figure explaining MR apparatus composition in Embodiment 2. 実施形態3におけるMR装置構成を説明する図The figure explaining MR apparatus composition in Embodiment 3. 実施形態3における動き量を検出する方法を説明する図FIG. 10 is a diagram for explaining a method of detecting a motion amount in the third embodiment. フレーム画像の幾何的な変換を説明する図Diagram explaining geometric transformation of frame image 実施形態3における動き量を検出する方法の変形例を説明する図FIG. 10 is a diagram for explaining a modification of the method for detecting a motion amount in the third embodiment. 実施形態4におけるMR装置構成を説明する図The figure explaining MR apparatus composition in Embodiment 4. 実施形態5におけるMRシステム構成を説明する図FIG. 6 is a diagram for explaining an MR system configuration according to a fifth embodiment. 実施形態6におけるMR装置構成を説明する図The figure explaining MR apparatus structure in Embodiment 6. FIG. 実施形態6におけるMR処理方法を説明する図FIG. 10 is a diagram for explaining an MR processing method according to a sixth embodiment. 実施形態6におけるMR処理方法の変形例を説明する図FIG. 10 is a diagram for explaining a modification of the MR processing method according to the sixth embodiment. 実施形態7にMRシステム構成を説明する図であるFIG. 10 is a diagram for explaining an MR system configuration according to a seventh embodiment. 実施形態7におけるMR処理方法を説明する図FIG. 10 is a diagram illustrating an MR processing method according to a seventh embodiment.

[実施形態1]
本発明の実施形態1に係る画像処理装置であるMR装置100について説明する。本実施形態では、撮像部と表示部とを備えるMR装置上で処理が実行されるものとする。以下、MR装置の構成と各モジュールの動作について、図1を参照して説明する。図1は、実施形態1に係るMR装置(例えば、ヘッドマウントディスプレイ)の構成を説明する図である。
[Embodiment 1]
An MR apparatus 100 that is an image processing apparatus according to the first embodiment of the present invention will be described. In the present embodiment, it is assumed that processing is executed on an MR apparatus including an imaging unit and a display unit. Hereinafter, the configuration of the MR apparatus and the operation of each module will be described with reference to FIG. FIG. 1 is a diagram illustrating a configuration of an MR apparatus (for example, a head mounted display) according to the first embodiment.

第1のセンサ101は、第1の映像を撮像する。本実施形態において、第1のセンサ101は、縦960画素、横540画素、60fps撮像可能なグローバルシャッターセンサである。本実施形態において、センサにはレンズユニットが接続されており、連続する画像で構成される映像を撮像してセンサ信号を得ることができる。解像度やフレームレートはこの値には限定されない。   The first sensor 101 captures the first video. In the present embodiment, the first sensor 101 is a global shutter sensor capable of imaging 960 pixels vertically, 540 pixels horizontally, and 60 fps. In the present embodiment, a lens unit is connected to the sensor, and a sensor signal can be obtained by capturing an image composed of continuous images. The resolution and frame rate are not limited to these values.

第1のISP(イメージシグナルプロセッサ)102は、第1のセンサ101により得られたセンサ信号を映像に変換する。本実施形態において、第1のISP102は、画像データ又は画像データを符号化して得られた符号化ストリームを出力する機能を有するモジュールである。具体的には、第1のISP102は、センサ信号からRGB画像を生成したり、画像の拡大縮小を行ったり、映像を符号化したりするなど、複合的な画像処理機能を有している。これらの処理のために必要さとれるRAMは、第1のISP102に内蔵されているものとするが、第1のISP102にはさらに外部RAMが接続されていてもよい。   A first ISP (image signal processor) 102 converts a sensor signal obtained by the first sensor 101 into an image. In the present embodiment, the first ISP 102 is a module having a function of outputting image data or an encoded stream obtained by encoding image data. Specifically, the first ISP 102 has a complex image processing function such as generating an RGB image from the sensor signal, enlarging or reducing the image, and encoding a video. The RAM required for these processes is built in the first ISP 102, but an external RAM may be further connected to the first ISP 102.

位置姿勢推定部103は、第1のISP102により得られた映像を用いてMR装置100の位置姿勢を推定する。位置姿勢推定部103は、例えば、MR装置100に搭載された第2のセンサ104の位置姿勢を推定することができる。本実施形態において、位置姿勢推定部103はROM(リードオンリーメモリ)及びRAM(ランダムアクセスメモリ)を内蔵するCPUである。CPUは、ROMに記憶された位置姿勢推定プログラムに従って、RAMをワークエリアとして使いながら動作することにより、位置姿勢推定処理を行う。位置姿勢推定プログラムとしては、非特許文献1に記載された方式に従うプログラムを用いることができる。なお、位置姿勢推定部103は専用HW(ハードウェア)であってもよい。また、位置姿勢推定処理は非特許文献1の方式に従うものには限定されず、例えば非特許文献2に記載されているようなVisualSLAM方式に従って行うこともできる。   The position / orientation estimation unit 103 estimates the position / orientation of the MR apparatus 100 using the video obtained by the first ISP 102. The position / orientation estimation unit 103 can estimate the position / orientation of the second sensor 104 mounted on the MR apparatus 100, for example. In the present embodiment, the position / orientation estimation unit 103 is a CPU incorporating a ROM (read-only memory) and a RAM (random access memory). The CPU performs position and orientation estimation processing by operating while using the RAM as a work area according to the position and orientation estimation program stored in the ROM. As the position / orientation estimation program, a program according to the method described in Non-Patent Document 1 can be used. Note that the position / orientation estimation unit 103 may be a dedicated HW (hardware). Further, the position / orientation estimation processing is not limited to the one according to the method of Non-Patent Document 1, and can be performed according to the Visual SLAM method as described in Non-Patent Document 2, for example.

第1のセンサ101は、第2の映像を撮像する。本実施形態において、第2のセンサ104は、縦1920画素、横1080画素、60fps撮像可能なローリングシャッターセンサである。本実施形態において、センサにはレンズユニットが接続されており、連続する画像で構成される映像を撮像してセンサ信号を得ることができる。解像度やフレームレートはこの値には限定されない。   The first sensor 101 captures the second video. In the present embodiment, the second sensor 104 is a rolling shutter sensor that can capture 1920 pixels vertically, 1080 pixels horizontally, and 60 fps. In the present embodiment, a lens unit is connected to the sensor, and a sensor signal can be obtained by capturing an image composed of continuous images. The resolution and frame rate are not limited to these values.

第2のISP105は、第2のセンサ104により得られたセンサ信号を映像に変換する。第2のISP105は第1のISP102と同様の機能を有することができる。   The second ISP 105 converts the sensor signal obtained by the second sensor 104 into an image. The second ISP 105 can have the same function as the first ISP 102.

CG描画部106は、第2のISP105から出力された画像を用いて合成画像を生成する。本実施形態において、CG描画部106は、三次元(コンピュータグラフィック)オブジェクト情報を保持し、画像上に仮想CGオブジェクトを重ねて描画することにより合成画像を生成する。例えば、CG描画部106は、CGオブジェクト情報に従って仮想CGオブジェクトをレンダリングし、得られた仮想CGオブジェクトを画像に重畳することができる。この際に、重畳される仮想CGオブジェクト及び仮想CGオブジェクトが重畳される位置は、位置姿勢推定部103により推定されたMR装置100の位置姿勢に従って制御される。例えば、CG描画部106は、推定されたMR装置100の位置姿勢に従う位置に視点を配置して仮想CGオブジェクトをレンダリングし、得られた仮想画像を第2のISP105から出力された画像に重畳することにより合成画像を生成することができる。   The CG drawing unit 106 generates a composite image using the image output from the second ISP 105. In the present embodiment, the CG drawing unit 106 holds three-dimensional (computer graphic) object information, and generates a composite image by drawing a virtual CG object on the image. For example, the CG drawing unit 106 can render a virtual CG object according to the CG object information and superimpose the obtained virtual CG object on the image. At this time, the superimposed virtual CG object and the position at which the virtual CG object is superimposed are controlled according to the position and orientation of the MR apparatus 100 estimated by the position and orientation estimation unit 103. For example, the CG rendering unit 106 renders a virtual CG object by placing a viewpoint at a position according to the estimated position and orientation of the MR apparatus 100, and superimposes the obtained virtual image on the image output from the second ISP 105. Thus, a composite image can be generated.

表示部107は、CG描画部106により生成された合成画像を表示する。MR装置100のユーザは、表示部107を介して映像を見ることができる。   The display unit 107 displays the composite image generated by the CG drawing unit 106. A user of the MR apparatus 100 can view an image via the display unit 107.

本実施形態において、センサ101,102は、同一画角の画像を撮像できるように十分に近い位置に固定して配置されているものとする。また、センサ101,102が同一画角の画像を撮像できるように、光路にハーフミラーを挿入してもよい。なお、画角が同じであることは必須ではない。画角が異なる場合には、例えば位置姿勢推定部103が画角の違いを補正してもよいし、又は、ISP102,105が、それぞれが出力する画像の画角が合うように幾何補正処理を行ってから画像を出力してもよい。   In the present embodiment, it is assumed that the sensors 101 and 102 are fixedly arranged at positions close enough to capture an image with the same angle of view. Further, a half mirror may be inserted in the optical path so that the sensors 101 and 102 can capture images with the same angle of view. It is not essential that the angle of view is the same. When the angle of view is different, for example, the position / orientation estimation unit 103 may correct the difference in the angle of view, or the ISPs 102 and 105 perform geometric correction processing so that the angle of view of the images output from each of them matches. The image may be output after this is done.

以下、MR装置100全体の動作について説明する。図1において、矢印は主要データの流れを示すものとする。各部の間では制御信号等を双方向に通信することができるが、このような制御信号等の説明は省略する。   Hereinafter, the operation of the entire MR apparatus 100 will be described. In FIG. 1, arrows indicate the flow of main data. Although control signals and the like can be communicated bidirectionally between the respective units, description of such control signals and the like is omitted.

センサ101の信号はISP102へ出力される。ISP102はRGB画像を生成し、RGB画像を信号として位置姿勢推定部103へ出力する。本明細書においては、センサとISPの組を撮像系と呼ぶ。また、センサ101とISP102を備える撮像系を解析映像撮像系と呼ぶ。さらに、解析映像撮像系で生成された映像を解析映像と呼ぶ。   A signal from the sensor 101 is output to the ISP 102. The ISP 102 generates an RGB image and outputs the RGB image as a signal to the position / orientation estimation unit 103. In this specification, a combination of a sensor and an ISP is called an imaging system. An imaging system including the sensor 101 and the ISP 102 is referred to as an analytic video imaging system. Furthermore, a video generated by the analysis video imaging system is called an analysis video.

位置姿勢推定部103は、解析画像を解析して位置姿勢情報を生成する。本実施形態において、位置姿勢推定部103は、三次元空間におけるMR装置100の位置姿勢を示す位置姿勢情報を生成し、位置姿勢情報に基づいて環境マップを生成し、位置姿勢情報と環境マップとをCG描画部106へ出力する。   The position and orientation estimation unit 103 analyzes the analysis image and generates position and orientation information. In the present embodiment, the position / orientation estimation unit 103 generates position / orientation information indicating the position / orientation of the MR apparatus 100 in a three-dimensional space, generates an environment map based on the position / orientation information, Is output to the CG rendering unit 106.

センサ104の信号はISP105へ出力される。ISP105はRGB画像を生成し、RGB画像を信号としてCG描画部106へ出力する。本明細書においては、センサ104とISP105とを備える撮像系を視聴映像撮像系と呼ぶ。また、視聴映像撮像系で生成された映像を視聴映像と呼ぶ。   A signal from the sensor 104 is output to the ISP 105. The ISP 105 generates an RGB image and outputs the RGB image as a signal to the CG drawing unit 106. In this specification, an imaging system including the sensor 104 and the ISP 105 is referred to as a viewing video imaging system. A video generated by the viewing video imaging system is referred to as a viewing video.

CG描画部106は、位置姿勢情報に基づいて、仮想的に存在する三次元コンピュータグラフィックオブジェクトを、視聴映像の画面に射影した像として視聴映像上に描画する。本実施形態において、CG描画部106は、視聴映像上に、仮想CGオブジェクトを描画し、生成された合成映像を信号として表示部107へ出力する。このとき、CG描画部106は、位置姿勢推定部103から位置姿勢情報及び環境マップ情報を得て、仮想的な三次元空間内の定位置にあたかもCGオブジェクトが存在するかのように、視聴映像上に仮想CGオブジェクトを描画する。表示部107は、CG描画部106から得た映像を表示する。これらの動作は、画像を連続的に撮像及び処理しながら行われる。   Based on the position and orientation information, the CG drawing unit 106 draws a virtually existing three-dimensional computer graphic object on the viewing video as an image projected onto the viewing video screen. In the present embodiment, the CG drawing unit 106 draws a virtual CG object on the viewing video and outputs the generated composite video to the display unit 107 as a signal. At this time, the CG rendering unit 106 obtains the position / orientation information and the environment map information from the position / orientation estimation unit 103, and the viewing video is as if a CG object exists at a fixed position in the virtual three-dimensional space. A virtual CG object is drawn on top. The display unit 107 displays the video obtained from the CG drawing unit 106. These operations are performed while continuously capturing and processing images.

本実施形態では、MR装置100は解析映像撮像系(101,102)、視聴映像撮像系(104,105)、及び表示部107を有している。しかしながら、MR装置100はこれらの処理部を二重に持っていてもよく、このようなMR装置100は左目及び右目の映像を撮像及び表示するHMD(ヘッドマウントディスプレイ)として用いることができる。また、図1では各部が直結されているように図示されているが、このような構成には限定されず、各部をバスを介して接続してもよく、この場合各部はバス経由で信号を送受信することができる。   In the present embodiment, the MR apparatus 100 includes an analysis video imaging system (101, 102), a viewing video imaging system (104, 105), and a display unit 107. However, the MR apparatus 100 may have these processing units doubly, and such an MR apparatus 100 can be used as an HMD (head mounted display) that captures and displays images of the left eye and the right eye. Further, in FIG. 1, each part is illustrated as being directly connected, but the present invention is not limited to such a configuration, and each part may be connected via a bus. In this case, each part receives a signal via the bus. You can send and receive.

従来のMR装置は、撮像系を1つだけ有しており、撮像系により得られた映像に基づいてMR装置の位置姿勢が推定されるとともに、同じ撮像系により得られた映像に仮想CGオブジェクトが描画された。このため、撮像系のセンサにローリングシャッターを採用するとローリングシャッター歪が発生するため、MR装置の位置姿勢推定が困難になっていた。一方でCCD等のグローバルシャッターセンサを採用すると、高解像度化や高フレームレート化した際に著しく消費電力が増えてしまうという課題があった。   The conventional MR apparatus has only one imaging system, and the position and orientation of the MR apparatus are estimated based on the video obtained by the imaging system, and the virtual CG object is added to the video obtained by the same imaging system. Was drawn. For this reason, when a rolling shutter is used as an image sensor, rolling shutter distortion occurs, making it difficult to estimate the position and orientation of the MR apparatus. On the other hand, when a global shutter sensor such as a CCD is adopted, there is a problem that power consumption increases remarkably when resolution is increased or a frame rate is increased.

本実施形態に係るMR装置100は、解析映像撮像系と視聴映像撮像系の2系統の撮像系を持つ。ここで、センサ101を備える解析映像撮像系は、動体の画質劣化特性が相対的に低く、センサ104を備える視聴映像撮像系は、動体の画質劣化特性が相対的に高い。すなわち、解析映像撮像系は、視聴映像撮像系よりも、動体を撮像した際の画質劣化がより少ない。一方で、一実施形態において、視聴映像撮像系は、解析映像撮像系よりも良好な画質を有している。例えば、視聴映像撮像系は、解析映像撮像系よりも解像度が高い。例えば、より低い解像度を有するグローバルシャッターセンサが解析映像撮像系に用いられ、より高い解像度を有するローリングシャッターセンサが視聴映像撮像系に用いられる。このため、位置姿勢推定性能と視聴画質との両立を図ることができる。   The MR apparatus 100 according to the present embodiment has two imaging systems, an analysis video imaging system and a viewing video imaging system. Here, the analysis video imaging system including the sensor 101 has relatively low image quality degradation characteristics of moving objects, and the viewing video imaging system including the sensor 104 has relatively high image quality degradation characteristics of moving objects. That is, the analysis video imaging system has less image quality degradation when a moving object is imaged than the viewing video imaging system. On the other hand, in one embodiment, the viewing video imaging system has better image quality than the analytic video imaging system. For example, the viewing video imaging system has a higher resolution than the analytic video imaging system. For example, a global shutter sensor having a lower resolution is used for the analysis video imaging system, and a rolling shutter sensor having a higher resolution is used for the viewing video imaging system. For this reason, it is possible to achieve both the position / orientation estimation performance and the viewing image quality.

もっとも、解析映像撮像系のセンサ101として、グローバルシャッターセンサの代わりに高速駆動可能なローリングシャッターセンサを使用してもよい。例えば、垂直走査時間が4ms(240fpsに相当)で駆動可能なセンサを用いてフレーム画像を取得すると、垂直走査時間が16ms(60fpsに相当)の場合に比べてローリングシャッター歪量が四分の一になる。このように、低速駆動するローリングシャッターセンサと比べて、ローリングシャッター歪量が少ない解析映像を得ることができるので、位置姿勢推定性能を向上させることができる。センサ101はセンサ104と比較して画素数が少なくてもよいため、高速駆動可能なセンサを採用することは容易である。   However, a rolling shutter sensor that can be driven at a high speed may be used as the sensor 101 of the analysis video imaging system instead of the global shutter sensor. For example, when a frame image is acquired using a sensor that can be driven with a vertical scanning time of 4 ms (corresponding to 240 fps), the rolling shutter distortion amount is a quarter of that when the vertical scanning time is 16 ms (corresponding to 60 fps). become. As described above, since an analysis image with a small amount of rolling shutter distortion can be obtained as compared with a rolling shutter sensor driven at a low speed, the position / orientation estimation performance can be improved. Since the sensor 101 may have a smaller number of pixels than the sensor 104, it is easy to employ a sensor that can be driven at high speed.

また、センサ101とセンサ104とが共にグローバルシャッターセンサであってもよい。一般に、高速なシャッタースピードで撮像するとモーションブラー(動きによるボケ)の少ない鮮鋭な画像を撮像することができる。モーションブラーは映像解析を難しくする要因であるため、モーションブラーが少ない映像は位置姿勢推定に用いるのに適している。しかし、高速なシャッタースピードで撮像した映像はジャーキネスとよばれる動きの不連続性が発生するため、視聴する際には違和感が感じられる。そこで、センサ101を高速なシャッタースピード(例えば開口時間4ms)で駆動し、センサ104を低速なシャッタースピード(例えば開口時間16ms)で駆動することができる。このような構成であっても、位置姿勢推定性能と視聴画質との両立を図ることができる。センサ101はセンサ104と比較して画素数が少なくてもよいため、高速なシャッタースピードで駆動することは容易である。   Further, both the sensor 101 and the sensor 104 may be global shutter sensors. In general, when an image is captured at a high shutter speed, a sharp image with less motion blur (blur due to movement) can be captured. Since motion blur is a factor that makes video analysis difficult, videos with little motion blur are suitable for use in position and orientation estimation. However, since a discontinuity of motion called jerkiness occurs in a video imaged at a high shutter speed, a sense of incongruity is felt when viewing. Therefore, the sensor 101 can be driven at a high shutter speed (for example, an opening time of 4 ms), and the sensor 104 can be driven at a low shutter speed (for example, an opening time of 16 ms). Even with such a configuration, it is possible to achieve both position and orientation estimation performance and viewing image quality. Since the sensor 101 may have fewer pixels than the sensor 104, it can be easily driven at a high shutter speed.

解析映像と視聴映像とは異なるフレームレートであってもよい。一実施形態において、位置姿勢推定性能を高めるために、センサ101では高速駆動及び高速シャッターが採用される。この場合、解析映像のフレームレートは視聴映像のフレームレートよりも高くなる。   The analysis video and the viewing video may have different frame rates. In one embodiment, in order to improve the position and orientation estimation performance, the sensor 101 employs high-speed driving and a high-speed shutter. In this case, the frame rate of the analysis video is higher than the frame rate of the viewing video.

一実施形態において、センサ101は相対的にフレームレートが高いセンサであり、センサ104は相対的にフレームレートが低いセンサである。また、一実施形態において、センサ101は相対的にシャッター速度が高速なセンサであり、センサ104は相対的にシャッター速度が低速なセンサである。一実施形態において、解析映像の解像度は視聴映像の解像度よりも低い。一実施形態において、解析映像のフレームレートは視聴映像のフレームレートよりも高い。   In one embodiment, sensor 101 is a relatively high frame rate sensor and sensor 104 is a relatively low frame rate sensor. In one embodiment, the sensor 101 is a sensor having a relatively high shutter speed, and the sensor 104 is a sensor having a relatively low shutter speed. In one embodiment, the resolution of the analysis video is lower than the resolution of the viewing video. In one embodiment, the frame rate of the analysis video is higher than the frame rate of the viewing video.

以上のように、本実施形態に係る画像処理装置は、第1の映像を出力する、被写体が動くことによる画像劣化が相対的に少ない第1の撮像部と、第2の映像を出力する、被写体が動くことによる画像劣化が相対的に多い第2の撮像部と、を備える。そして、位置姿勢推定部103は第1の映像を解析して画像処理装置の位置姿勢情報を生成し、CG描画部106は位置姿勢情報に基づいて決定された位置に重畳されるように、第2の映像上にCGオブジェクトを描画する。このとき、画像処理装置の動きが所定の閾値より大きい場合は第1の映像を解析して位置姿勢情報が生成され、画像処理装置の動きが前記所定の閾値より小さい場合は第2の映像を解析して位置姿勢情報が生成される。   As described above, the image processing apparatus according to the present embodiment outputs the first video, the first imaging unit that relatively reduces image degradation due to the movement of the subject, and the second video. A second imaging unit that is relatively subject to image degradation caused by movement of the subject. Then, the position / orientation estimation unit 103 analyzes the first video to generate position / orientation information of the image processing apparatus, and the CG drawing unit 106 superimposes the position on the position determined based on the position / orientation information. The CG object is drawn on the second video. At this time, if the movement of the image processing apparatus is larger than the predetermined threshold, the first video is analyzed to generate position and orientation information, and if the movement of the image processing apparatus is smaller than the predetermined threshold, the second video is The position and orientation information is generated by analysis.

[実施形態2]
本発明の実施形態2に係る画像処理装置であるMR装置200について、図2を使って説明する。MR装置200は、MR装置100と比較して、慣性センサ201とセレクタ202とが追加されている。特別な説明がない限り、MR装置200の動作は、実施形態1に係るMR装置100(例えば、ヘッドマウントディスプレイ)の動作と同様である。
[Embodiment 2]
An MR apparatus 200 that is an image processing apparatus according to the second embodiment of the present invention will be described with reference to FIG. In comparison with the MR apparatus 100, the MR apparatus 200 includes an inertial sensor 201 and a selector 202. Unless otherwise specified, the operation of the MR apparatus 200 is the same as the operation of the MR apparatus 100 (for example, a head mounted display) according to the first embodiment.

慣性センサ201は、MR装置200の速度情報を出力する。慣性センサ201としては、ジャイロセンサ又は加速度センサ等を用いることができる。これらは加速度を検出するセンサであり、計算により加速度から速度を算出することができる。本実施形態において慣性センサ201は、ジャイロセンサ、加速度センサ、及び計算処理部を備えており、MR装置200の速度情報を出力することができる。本実施形態において、慣性センサ201は装置のセンサ面に対して水平方向及び垂直方向の速度、及び角速度を出力する。加速度情報から速度情報を算出する方法としては広く知られている方法を採用することができ、本明細書では詳細な説明を省略する。速度情報を算出する処理は、必ずしも慣性センサ201内で行う必要はなく、外部に設置された演算ユニットが行ってもよい。   The inertial sensor 201 outputs speed information of the MR apparatus 200. As the inertial sensor 201, a gyro sensor or an acceleration sensor can be used. These are sensors for detecting acceleration, and the velocity can be calculated from the acceleration by calculation. In this embodiment, the inertial sensor 201 includes a gyro sensor, an acceleration sensor, and a calculation processing unit, and can output speed information of the MR apparatus 200. In the present embodiment, the inertial sensor 201 outputs horizontal and vertical velocities and angular velocities with respect to the sensor surface of the apparatus. A widely known method can be adopted as a method for calculating velocity information from acceleration information, and detailed description thereof is omitted in this specification. The processing for calculating the speed information is not necessarily performed in the inertial sensor 201, and may be performed by an arithmetic unit installed outside.

セレクタ202は、2つの入力のうち一方を出力する機能を有する。セレクタ202は、例えば、プログラム可能な演算ユニットを持ち、演算結果に応じて1つの入力を選択して出力することができる。セレクタ202の動作については後述する。   The selector 202 has a function of outputting one of the two inputs. The selector 202 has, for example, a programmable calculation unit, and can select and output one input according to the calculation result. The operation of the selector 202 will be described later.

実施形態2におけるMR装置200の動作について説明する。本実施形態では、ISP102は内部で生成したRGB画像を縦横2倍に拡大してから出力する。慣性センサ201はMR装置200自体に固定され、MR装置200の速度情報を検出してセレクタ202に出力する。セレクタ202は、速度情報からMR装置200の動き量を算出し、動き量が閾値以上であると判定された場合、ISP102からの映像信号を位置姿勢推定部103へ出力する。一方で、動き量が閾値より小さいと判定された場合、セレクタ202はISP105からの映像信号を位置姿勢推定部103へ出力する。   The operation of the MR apparatus 200 in the second embodiment will be described. In the present embodiment, the ISP 102 enlarges the internally generated RGB image twice vertically and horizontally and then outputs it. The inertial sensor 201 is fixed to the MR apparatus 200 itself, detects speed information of the MR apparatus 200, and outputs it to the selector 202. The selector 202 calculates the motion amount of the MR apparatus 200 from the speed information, and outputs the video signal from the ISP 102 to the position / orientation estimation unit 103 when it is determined that the motion amount is equal to or greater than the threshold value. On the other hand, when it is determined that the motion amount is smaller than the threshold value, the selector 202 outputs the video signal from the ISP 105 to the position / orientation estimation unit 103.

閾値は、視聴映像からのMR装置200の位置姿勢推定が困難なほどにMR装置の動き量が大きい場合にISP102からの映像信号が、そうではない場合にISP105からの映像信号が、位置姿勢推定部103へ出力されるように設定することができる。動き量は、センササイズ、解像度、レンズ焦点距離又は被写体の距離等によって異なる。本実施形態では、MR装置200の動き量を、画像中央部、カメラから30cmの位置にある被写体の1フレーム間(例えば16ms)における動きで表現する。よって動き量の画素を単位として表現でき、この動き量が例えば4画素以上の場合にISP102からの入力映像か採用される。なお、4画素という大きさに限定はない。これらの動作は画像を連続的に撮像、処理しながら行われるため、セレクタ202による切り替えも、フレーム画像単位で行われる。   The threshold value is calculated based on the position and orientation of the video signal from the ISP 102 when the MR apparatus has a large amount of motion such that it is difficult to estimate the position and orientation of the MR apparatus 200 from the viewing video, and the video signal from the ISP 105 otherwise. It can be set to be output to the unit 103. The amount of movement varies depending on the sensor size, resolution, lens focal length, subject distance, and the like. In the present embodiment, the amount of movement of the MR apparatus 200 is represented by the movement of one frame (for example, 16 ms) of a subject located 30 cm from the camera at the center of the image. Therefore, the motion amount pixels can be expressed in units, and when the motion amount is, for example, 4 pixels or more, the input video from the ISP 102 is adopted. The size of 4 pixels is not limited. Since these operations are performed while images are continuously captured and processed, switching by the selector 202 is also performed in units of frame images.

本実施形態では、慣性センサ201とセレクタ202とを追加することにより、MR装置200が静止している又は小さく動いている場合には、より解像度の高い視聴映像を使ってより精度の高い位置姿勢推定を行うことができる。また、MR装置200が動いている場合には実施形態1で説明したようにローリングシャッター歪の少ない解析映像を使って正確性の高い位置姿勢推定が可能となる。一実施形態では、フレーム画像の撮像時点におけるMR装置200の動き量に従ってフレーム画像の出力先を切り替えることができる。しかしながら、フレーム画像の撮像時点以前又は以後におけるMR装置200の動き量に従ってフレーム画像の出力先を切り替えてもよく、この場合でも前述の効果を得ることができる。   In the present embodiment, by adding the inertial sensor 201 and the selector 202, when the MR apparatus 200 is stationary or moving small, the position and orientation with higher accuracy can be obtained using a viewing image with higher resolution. Estimation can be performed. In addition, when the MR apparatus 200 is moving, it is possible to perform highly accurate position and orientation estimation using an analysis image with little rolling shutter distortion as described in the first embodiment. In one embodiment, the output destination of a frame image can be switched according to the amount of movement of the MR apparatus 200 at the time of capturing the frame image. However, the output destination of the frame image may be switched in accordance with the amount of motion of the MR apparatus 200 before or after the frame image is captured.

このように、本実施形態に係る画像処理装置は、画像処理装置の動きを検出する慣性センサ201を備える。   As described above, the image processing apparatus according to the present embodiment includes the inertial sensor 201 that detects the movement of the image processing apparatus.

[実施形態3]
本発明の実施形態3に係る画像処理装置であるMR装置300について、図3〜6を使って説明する。図3は実施形態3に係るMR装置300の構成を説明する図である。MR装置300は、MR装置100と比較して、動き検出部301及びセレクタ302が追加されている。特別な説明がない限り、MR装置300の動作は、実施形態1に係るMR装置100の動作と同様である。
[Embodiment 3]
An MR apparatus 300 that is an image processing apparatus according to the third embodiment of the present invention will be described with reference to FIGS. FIG. 3 is a diagram illustrating the configuration of the MR apparatus 300 according to the third embodiment. Compared to the MR apparatus 100, the MR apparatus 300 has a motion detection unit 301 and a selector 302 added thereto. Unless otherwise specified, the operation of the MR apparatus 300 is the same as the operation of the MR apparatus 100 according to the first embodiment.

動き検出部301は、センサ101が撮像した画像間の動きを検出し、セレクタ302へと出力する。本実施形態において、動き検出部301はROM、RAM及びCPUを備えており、CPUは、ROMに組み込まれた後述の動作を行うプログラムを、RAMをワークエリアとして使いながら実行する。動き検出部301がCPUを備えることは必須ではなく、同等の機能を備える専用HWを動き検出部301として用いることもできる。   The motion detection unit 301 detects a motion between images captured by the sensor 101 and outputs the motion to the selector 302. In the present embodiment, the motion detection unit 301 includes a ROM, a RAM, and a CPU, and the CPU executes a program that performs an operation described below that is incorporated in the ROM while using the RAM as a work area. It is not essential that the motion detection unit 301 includes a CPU, and a dedicated HW having an equivalent function can also be used as the motion detection unit 301.

セレクタ302は、実施形態2に係るセレクタ202と同様の機能を有し、その動作については後述する。   The selector 302 has the same function as the selector 202 according to the second embodiment, and the operation will be described later.

以下、MR装置300(例えば、ヘッドマウントディスプレイ)の全体の動作について説明する。動き検出部301は、ISP102から画像を取得し、画像間の動き量を検出してセレクタ302へと出力する。動き量の算出方法は後述する。セレクタ302は、動き量が閾値以上であると判定された場合、ISP102からの映像信号を位置姿勢推定部103へ出力する。また、セレクタ302は、小さいと判定された場合、ISP105からの入力映像信号を位置姿勢推定部103へ出力する。閾値は実施形態2と同様に設定することができ、ここでは、動き量が4画素以上の場合に、ISP102からの入力映像が採用するものとする。   Hereinafter, the overall operation of the MR apparatus 300 (for example, a head mounted display) will be described. The motion detection unit 301 acquires an image from the ISP 102, detects the amount of motion between images, and outputs the detected amount to the selector 302. A method for calculating the amount of movement will be described later. The selector 302 outputs the video signal from the ISP 102 to the position / orientation estimation unit 103 when it is determined that the amount of motion is equal to or greater than the threshold. If the selector 302 is determined to be small, the selector 302 outputs the input video signal from the ISP 105 to the position / orientation estimation unit 103. The threshold value can be set in the same manner as in the second embodiment. Here, it is assumed that the input video from the ISP 102 is employed when the amount of motion is 4 pixels or more.

以下、動き検出部301によるフレーム間の動き量の検出方法について、図4を使って説明する。ステップS4010において動き検出部301は、複数のフレーム画像間での、画像上の物体の動きベクトルを検出する。例えば、ISP102から出力された連続する2つのフレーム画像を用いて、複数の物体についての複数の動きベクトルを検出することができる。ステップS4020において動き検出部301は、検出された複数の動きベクトルのそれぞれについて長さを算出する。ステップS4030において動き検出部301は、検出された複数の動きベクトルの長さの平均を算出する。こうして得られた平均値が動き量として用いられる。   Hereinafter, a method of detecting the amount of motion between frames by the motion detection unit 301 will be described with reference to FIG. In step S4010, the motion detection unit 301 detects a motion vector of an object on the image between a plurality of frame images. For example, a plurality of motion vectors for a plurality of objects can be detected using two consecutive frame images output from the ISP 102. In step S4020, the motion detection unit 301 calculates a length for each of the detected plurality of motion vectors. In step S4030, the motion detection unit 301 calculates the average length of the detected plurality of motion vectors. The average value thus obtained is used as the amount of movement.

動き量を検出する方法は、図4に示す方法に限定されない。例えば、図5,6に示す方法を用いて動き量を検出することもできる。次に示す方法であってもよい。図5はフレーム画像の幾何的な変換を説明する図である。網掛けのない矩形が現フレームを表し、網掛けされた領域は時間的に直前のフレームを表す。図5からは、直前のフレームと原フレームとの間で、水平方向及び垂直方向の平行移動に加えて、MR装置300のアオリの動きが発生していることがわかる。このような3次元空間上の平面の動きは、ホモグラフィ行列で表現できる。以下、ホモグラフィ行列を算出してから動き量を算出する方法について、図6を使って説明する。   The method for detecting the amount of motion is not limited to the method shown in FIG. For example, the amount of motion can be detected using the method shown in FIGS. The following method may be used. FIG. 5 is a diagram for explaining the geometric transformation of the frame image. The rectangle without shading represents the current frame, and the shaded area represents the previous frame in time. From FIG. 5, it can be seen that a tilt movement of the MR apparatus 300 occurs between the immediately preceding frame and the original frame in addition to the horizontal and vertical translations. Such plane movement in the three-dimensional space can be expressed by a homography matrix. Hereinafter, a method for calculating a motion amount after calculating a homography matrix will be described with reference to FIG.

ステップS6010で動き検出部301は、ステップS4010と同様に複数の動きベクトルを検出する。ステップS6020で動き検出部301は、検出された動きベクトルに従ってホモグラフィ行列を算出する。ホモグラフィ行列の算出には、RANSACやM推定等のロバスト推定を用いることができるが、算出方式に限定はない。ステップS6030において動き検出部301は、画面4隅の点の動きベクトルの始点と終点とをホモグラフィ行列を用いて射影する。ステップS6040において動き検出部301は、射影により得られた4本の動きベクトルの始点と終点とから、射影により得られたそれぞれの動きベクトルの長さを算出する。ステップS6050において動き検出部301は、射影により得られた動きベクトルのうち、長さが最も長い動きベクトルを選択する。本実施形態では、こうして選択された動きベクトルの長さが動き量として用いられる。この説明においては画面の4隅の点の動きベクトルが射影されたが、別の点の動きベクトルを射影してもよいし、動きベクトルが射影される点の数がより多くまたはより少なくてもよい。   In step S6010, the motion detection unit 301 detects a plurality of motion vectors in the same manner as in step S4010. In step S6020, the motion detection unit 301 calculates a homography matrix according to the detected motion vector. For the calculation of the homography matrix, robust estimation such as RANSAC or M estimation can be used, but the calculation method is not limited. In step S6030, the motion detection unit 301 projects the start and end points of the motion vectors at the four corners of the screen using the homography matrix. In step S6040, the motion detection unit 301 calculates the length of each motion vector obtained by projection from the start and end points of the four motion vectors obtained by projection. In step S6050, the motion detection unit 301 selects the motion vector having the longest length from among the motion vectors obtained by the projection. In the present embodiment, the length of the motion vector thus selected is used as the motion amount. In this description, the motion vectors of the four corner points of the screen are projected. However, the motion vector of another point may be projected, or the number of points to which the motion vector is projected may be larger or smaller. Good.

本実施形態では、実施形態2で用いられた慣性センサ201の代わりに、電子的に動きを検出する動き検出部301を用いることで、慣性センサ201を省略することができる。本実施形態では、動き検出部301は専用のCPUを有しているが、1つのCPUを用いて動き検出部301及びセレクタ302等の複数のユニットの処理を、例えば時分割処理等を用いて、実現することもできる。この場合には、複数のユニットの処理を実現するのに十分な演算能力を有するCPUが用いられる。   In the present embodiment, the inertial sensor 201 can be omitted by using the motion detection unit 301 that electronically detects motion instead of the inertial sensor 201 used in the second embodiment. In this embodiment, the motion detection unit 301 has a dedicated CPU. However, the processing of a plurality of units such as the motion detection unit 301 and the selector 302 is performed using one CPU, for example, using time division processing or the like. Can also be realized. In this case, a CPU having a computing capacity sufficient to realize processing of a plurality of units is used.

このように、本実施形態に係る画像処理装置は、第1の映像を解析して画像処理装置の動きを検出する動き検出部301を備える。   As described above, the image processing apparatus according to the present embodiment includes the motion detection unit 301 that analyzes the first video and detects the motion of the image processing apparatus.

[実施形態4]
本発明の実施形態4に係る画像処理装置であるMR装置700(例えば、ヘッドマウントディスプレイ)について、図7を使って説明する。本実施形態では、位置姿勢推定部103が動き情報を算出する機能を有している。特別な説明がない限り、MR装置700の動作は、実施形態2に係るMR装置200の動作と同様である。
[Embodiment 4]
An MR apparatus 700 (for example, a head mounted display) that is an image processing apparatus according to Embodiment 4 of the present invention will be described with reference to FIG. In the present embodiment, the position / orientation estimation unit 103 has a function of calculating motion information. Unless otherwise specified, the operation of the MR apparatus 700 is the same as the operation of the MR apparatus 200 according to the second embodiment.

以下、MR装置700全体の動作について説明する。位置姿勢推定部103が計算する位置姿勢情報を用いれば、MR装置700の三次元空間上の相対位置を計算することができる。本実施形態において位置姿勢推定部103は、この相対位置のフレーム間の変化量、つまりMR装置700の動き量を算出する。動き量は、実施形態2と同様に表現することができる。   The overall operation of the MR apparatus 700 will be described below. By using the position / orientation information calculated by the position / orientation estimation unit 103, the relative position of the MR apparatus 700 in the three-dimensional space can be calculated. In the present embodiment, the position / orientation estimation unit 103 calculates the amount of change in the relative position between frames, that is, the amount of motion of the MR apparatus 700. The amount of movement can be expressed in the same manner as in the second embodiment.

位置姿勢推定部103はこの動き量をセレクタ302へフィードバックする。セレクタ302は、この動き量が視聴映像からの映像解析が困難なほど大きいと判定された場合にはISP102からの入力映像信号を、小さいと判定された場合にはISP105からの入力映像信号を位置姿勢推定部103へ出力する。これは、実施形態3における302の動作と同様である。   The position / orientation estimation unit 103 feeds back this amount of motion to the selector 302. The selector 302 positions the input video signal from the ISP 102 when it is determined that the amount of motion is so large that video analysis from the viewed video is difficult, and the input video signal from the ISP 105 when it is determined to be small. Output to the posture estimation unit 103. This is the same as the operation 302 in the third embodiment.

これらの動作は画像を連続的に撮像、処理しながら行われるため、セレクタによる切り替えも、フレーム画像単位で行われる。ただし、セレクタによる切り替えが、動きが発生したフレームの次のフレームから実施されることになる。慣性センサのような追加モジュールなしに、実施形態2と同様の効果を得ることができる。   Since these operations are performed while images are continuously captured and processed, switching by the selector is also performed in units of frame images. However, switching by the selector is performed from the frame next to the frame in which the motion has occurred. The same effect as in the second embodiment can be obtained without an additional module such as an inertial sensor.

このように、位置姿勢推定部103は、第1の映像を解析して位置姿勢情報を生成するとともに画像処理装置の動きを検出し、検出された動きが所定の閾値より大きい場合、位置姿勢情報を生成する際に解析する映像を第2の映像に切り替える。
[実施形態5]
As described above, the position / orientation estimation unit 103 analyzes the first video to generate position / orientation information and detects the movement of the image processing apparatus. When the detected movement is larger than the predetermined threshold, the position / orientation information The video to be analyzed when generating is switched to the second video.
[Embodiment 5]

MRシステムに関する第五の実施形態について図8を使って説明する。本実施形態では、HMDとホストコンピュータから構成され、HMDとホストコンピュータはネットーワークを介して接続されているものとして説明する。特別な説明がない限り、その動作は、図2を使って説明した実施形態2の動作と同様とする。   A fifth embodiment relating to the MR system will be described with reference to FIG. In the present embodiment, it is assumed that the HMD and the host computer are connected, and the HMD and the host computer are connected via a network. Unless otherwise specified, the operation is the same as that of the second embodiment described with reference to FIG.

図8は、実施形態5におけるMR装置構成を説明する図である。801は信号の出力の有無を制御するセレクタである。802はNW(ネットーワークシステム)である。HMD側とホストコンピュータ側にパケタイザー回路、ベースバンドエンジン、RF部、アンテナをそれぞれを持ち、各主データをHMD、ホストコンピュータ間で自由に伝送できるものとする。803と805と811は映像復号部である。804は信号を選択するセレクタである。807はCPUである。808はRAMである。809は不揮発ストレージである。807は不揮発ストレージ809にあるプログラムをRAM808に読み込みプログラムを実行する。810はバスであり、各モジュールはバスでつながれ、バスでつながれたモジュールは特別な記述がなければ、データのやり取りがなされるものとする。   FIG. 8 is a diagram for explaining an MR apparatus configuration according to the fifth embodiment. A selector 801 controls the presence / absence of signal output. Reference numeral 802 denotes an NW (network system). Assume that the HMD side and the host computer side each have a packetizer circuit, a baseband engine, an RF unit, and an antenna, and each main data can be freely transmitted between the HMD and the host computer. Reference numerals 803, 805, and 811 denote video decoding units. Reference numeral 804 denotes a selector for selecting a signal. Reference numeral 807 denotes a CPU. Reference numeral 808 denotes a RAM. Reference numeral 809 denotes a nonvolatile storage. Reference numeral 807 reads the program in the nonvolatile storage 809 into the RAM 808 and executes the program. Reference numeral 810 denotes a bus. Each module is connected by a bus, and the modules connected by the bus are assumed to exchange data unless there is a special description.

本実施形態では実施形態1と異なりISP102とISP105が映像を符号化して出力するものとする。102、105、803、805、806、811が扱う符号化方式はH.264であるものとして説明するがこれに限定はない。102は符号化ストリームを801に出力する。801は入力された動き量が視聴映像からの映像解析が困難なほど大きいと判定された場合には入力映像信号をNW802を介して803へ出力し、小さいと判定された場合には出力を停止する。なお映像信号の出力を停止している間、セレクタ801はISP102へ停止信号を出力し続ける。H.264などのインターフレームを用いる符号化形式はでは、イントラフレームを復号して初めて後続のインタフレームを符号化できる。そこでISP102は停止信号受信中、映像をイントラフレームのみで符号化し、停止信号を受信終了後からインターフレーム符号化を始める。これによりインターフレームを使った高圧縮な符号化を実現しつつ、符号化ストリームの伝送が再開されたときにはイントラフレームが伝送されるため、速やかに復号が再開できる。   In this embodiment, unlike the first embodiment, the ISP 102 and the ISP 105 encode and output a video. 102, 105, 803, 805, 806, 811 are handled by H.264. However, the present invention is not limited to this. 102 outputs the encoded stream to 801. When it is determined that the input motion amount is so large that it is difficult to analyze the video from the viewing video, the input video signal is output to 803 via the NW 802, and the output is stopped when it is determined that the input video signal is small. To do. While the output of the video signal is stopped, the selector 801 continues to output a stop signal to the ISP 102. H. In an encoding format using an inter frame such as H.264, a subsequent inter frame can be encoded only after the intra frame is decoded. Therefore, the ISP 102 encodes the video only with the intra frame while receiving the stop signal, and starts inter-frame encoding after the stop signal is received. As a result, high-compression encoding using inter frames is realized, and when transmission of an encoded stream is resumed, an intra frame is transmitted, so that decoding can be resumed promptly.

803は符号化ストリームを復号して映像信号を生成し804へ出力する。ISP105はNW802を介して符号化ストリームを映像復号器805に出力する。映像復号器805は符号化ストリームを復号して映像信号を生成する。セレクタ804は、801がデータを送信した場合には803から入力された映像信号を807へ、送信しなかった場合には805から入力された映像信号を807へ出力する。出力とはRAMを介しなされてもよい。CPU807は位置姿勢推定を行い位置姿勢情報と環境マップをCG描画部106へ出力する。CG描画部106は、実施形態1で説明した動作を行い生成した映像を映像符号化部806へ出力する。映像符号化部806は、映像を符号化して得られた符号化ストリームをNW802を介して映像復号部811へ出力する。映像復号部811は符号化ストリームを復号して生成された映像信号を表示部107へ出力する。これらの動作は画像を連続的に撮像、処理しながら行われるため、セレクタによる切り替えも、フレーム画像単位で行われる。   803 decodes the encoded stream to generate a video signal and outputs it to 804. The ISP 105 outputs the encoded stream to the video decoder 805 via the NW 802. The video decoder 805 generates a video signal by decoding the encoded stream. The selector 804 outputs the video signal input from 803 to 807 when the data 801 transmits data, and outputs the video signal input from 805 to 807 when the data is not transmitted. The output may be performed via a RAM. The CPU 807 performs position / orientation estimation and outputs position / orientation information and an environment map to the CG drawing unit 106. The CG rendering unit 106 outputs the video generated by performing the operation described in the first embodiment to the video encoding unit 806. The video encoding unit 806 outputs the encoded stream obtained by encoding the video to the video decoding unit 811 via the NW 802. The video decoding unit 811 outputs the video signal generated by decoding the encoded stream to the display unit 107. Since these operations are performed while images are continuously captured and processed, switching by the selector is also performed in units of frame images.

このように、本実施形態によれば、解析映像と視聴映像との双方がHMDからホストコンピュータに送られ、ホストコンピュータは解析映像と視聴映像との双方を用いて合成映像を生成するため、実施形態1と同様の効果が得られる。また、本実施形態においては、動き量に応じた解析映像の送信制御が行われる。すなわち、本実施形態によれば、実施形態2で示した効果に加えて、映像の動き量が小さい場合に解析映像のNW伝送を抑制し、NW帯域を削減可能となる。また、削減した分の符号量を視聴映像の符号化の際の符号量に割りあてて、より高精細な映像の視聴映像を生成させる動作をさせてもよい。一方で、実施形態1と同様の効果を得るためには、動き量に応じた解析映像の送信制御を行うことは必須ではない。   Thus, according to the present embodiment, both the analysis video and the viewing video are sent from the HMD to the host computer, and the host computer generates the composite video using both the analysis video and the viewing video. The same effect as in the first mode can be obtained. In this embodiment, analysis video transmission control is performed in accordance with the amount of motion. That is, according to the present embodiment, in addition to the effects shown in the second embodiment, NW transmission of the analysis video can be suppressed and the NW band can be reduced when the video motion amount is small. Further, the code amount corresponding to the reduced amount may be assigned to the code amount at the time of encoding the viewing video, and an operation for generating a higher-definition viewing video may be performed. On the other hand, in order to obtain the same effect as in the first embodiment, it is not essential to perform transmission control of the analysis video according to the amount of motion.

本実施形態において、HMDは画像処理装置として働き、ホストコンピュータは画像合成装置として働く。そして、HMD及びホストコンピュータは画像処理システムを構成する。   In this embodiment, the HMD functions as an image processing device, and the host computer functions as an image composition device. The HMD and the host computer constitute an image processing system.

[実施形態6]
MRシステムに関する第6の実施形態について図9、図10を使って説明する。図9は実施形態6におけるMR装置構成を説明する図である。図9では図2に対し901から904が追加されている。特別な説明がない場合、その動作は図2を使って説明した実施形態2と同様とする。
[Embodiment 6]
A sixth embodiment relating to the MR system will be described with reference to FIGS. FIG. 9 is a diagram for explaining an MR apparatus configuration according to the sixth embodiment. In FIG. 9, 901 to 904 are added to FIG. When there is no special description, the operation is the same as that of the second embodiment described with reference to FIG.

901はバスである。902はCPUである。903はRAMである。904は不揮発ストレージである。不揮発ストレージに格納されたプログラムはバスを介してRAMに読み込まれCPUが実行する構成となる。本実施形態では位置姿勢推定プログラムが実行され、位置姿勢情報と環境マップ情報が生成される。また、慣性センサ201が出力する動き量、ISP102、105が出力する映像データはバスを介してRAM903に格納されプログラムの入力データとなる。CG描画部106はRAM903に格納された画像データをバスを介して取得し、コンピュータグラフィックオブジェクトを描画して、表示部107へ出力する。また、CPU902は各モジュールを制御する。特別な記述がない限りバスにつながれたモジュールは、バス経由でデータを入出力するものとする。   Reference numeral 901 denotes a bus. Reference numeral 902 denotes a CPU. Reference numeral 903 denotes a RAM. Reference numeral 904 denotes a nonvolatile storage. The program stored in the non-volatile storage is read into the RAM via the bus and executed by the CPU. In this embodiment, a position / orientation estimation program is executed to generate position / orientation information and environment map information. Further, the motion amount output from the inertial sensor 201 and the video data output from the ISPs 102 and 105 are stored in the RAM 903 via the bus and become program input data. The CG drawing unit 106 acquires the image data stored in the RAM 903 via the bus, draws a computer graphic object, and outputs the computer graphic object to the display unit 107. The CPU 902 controls each module. Unless otherwise specified, modules connected to the bus shall input and output data via the bus.

以下CPU902が実行する位置姿勢推定プログラムの動作について図10を使って説明する。図10は、実施形態6における位置姿勢推定方法を説明する図である。S10000では、動き量を取得する。本実施形態では、慣性センサ201から出力される動き量を取得する。S10010では、視聴映像を取得する。S10020では、動き量の大きさを判定する。動き量が視聴映像からの映像解析が困難なほど大きいと判定された場合にはS10030が実行される。小さいと判定される場合にはS10040が実行される。S10030では、解析映像を取得する映像Aとする。前述の通り、解析映像は視聴映像に比べ動きによる画質劣化の少ない映像である。S10035では、解析映像を映像Aとする。S10040では、視聴映像を映像Aとする。S10050では、映像Aを利用して、位置姿勢情報と環境マップを生成する。   The operation of the position / orientation estimation program executed by the CPU 902 will be described below with reference to FIG. FIG. 10 is a diagram for explaining a position and orientation estimation method according to the sixth embodiment. In S10000, the amount of movement is acquired. In this embodiment, the amount of motion output from the inertial sensor 201 is acquired. In S10010, a viewing video is acquired. In S10020, the amount of motion is determined. If it is determined that the amount of motion is so large that video analysis from the viewed video is difficult, S10030 is executed. If it is determined that the value is smaller, S10040 is executed. In S10030, the video A for acquiring the analysis video is used. As described above, the analysis video is a video with less image quality degradation due to movement than the viewing video. In S10035, the analysis video is video A. In S10040, the viewing video is video A. In S10050, using the video A, position and orientation information and an environment map are generated.

S10060では、位置姿勢情報と環境マップを利用して、視聴映像上にコンピュータグラフィックオブジェクトを描画する。これにより仮想的な三次元空間内の定位置のあたかもコンピュータグラフィックオブジェクトが存在するかのような映像を生成される。なお、本実施形態ではCPU902がCG描画部106に指示を出す形で実行されるものとするが、これに限定されず、重畳処理をCPU902が担ってもよい。これらの動作は画像を連続的に撮像、処理しながら行われるため、条件判定もフレーム画像単位で行われる。   In S10060, a computer graphic object is drawn on the viewing video using the position and orientation information and the environment map. As a result, an image is generated as if a computer graphic object exists at a fixed position in a virtual three-dimensional space. In the present embodiment, the CPU 902 is executed in such a manner as to issue an instruction to the CG drawing unit 106, but the present invention is not limited to this, and the CPU 902 may be responsible for superimposition processing. Since these operations are performed while images are continuously captured and processed, condition determination is also performed in units of frame images.

本実施形態の構成であっても実施形態2と同様の効果が得られる。なお、本実施形態では慣性センサから出力を動き量としたが、実施形態3、実施形態4で示したように、ソフトウェア処理により算出した値を取得する構成であってもよい。本実施形態では、動き量を取得する例を示したが、動き量を用いない構成をとることもできる。以下、この変形例を図11を使って説明する。   Even if it is the structure of this embodiment, the effect similar to Embodiment 2 is acquired. In the present embodiment, the output from the inertial sensor is used as the amount of movement, but as shown in the third and fourth embodiments, a value calculated by software processing may be acquired. In the present embodiment, an example in which the amount of motion is acquired has been described, but a configuration in which the amount of motion is not used may be employed. Hereinafter, this modification will be described with reference to FIG.

図11は、実施形態6の変形例を説明する図である。S11000では、解析映像を取得する。S11010では、視聴映像を取得する。S11020では、解析映像を利用して、位置姿勢情報と環境マップを生成する。S10030では、位置姿勢情報と環境マップを利用して、視聴映像上にコンピュータグラフィックオブジェクトを描画する。   FIG. 11 is a diagram illustrating a modification of the sixth embodiment. In S11000, an analysis video is acquired. In S11010, a viewing video is acquired. In S11020, position and orientation information and an environment map are generated using the analysis video. In S10030, a computer graphic object is drawn on the viewing video using the position and orientation information and the environment map.

これにより仮想的な三次元空間内の定位置のあたかもコンピュータグラフィックオブジェクトが存在するかのような映像を生成される。このような構成であっても、実施形態1と同様の効果を得ることができる。   As a result, an image is generated as if a computer graphic object exists at a fixed position in a virtual three-dimensional space. Even if it is such a structure, the effect similar to Embodiment 1 can be acquired.

[実施形態7]
MRシステムに関する第7の実施形態について図12、図13を使って説明する。図12は、実施形態7におけるMR装置構成を説明する図である。特別な説明がない限り、その動作は図8を使って説明した実施形態5の動作と同様とする。
[Embodiment 7]
A seventh embodiment relating to the MR system will be described with reference to FIGS. FIG. 12 is a diagram for explaining an MR apparatus configuration according to the seventh embodiment. Unless otherwise specified, the operation is the same as that of the fifth embodiment described with reference to FIG.

図12は、実施形態7にMRシステム構成を説明する図である。実施形態5では、ホストコンピュータの構成を専用HWが存在しモジュールが直結する構成で示した。本実施形態では、各モジュールがバスに接続され、映像復号機能、映像符号化機能もCPUが行うものとする。図11には、実施形態5で説明したセレクタ機能がないため、CPU807がデータフローを制御して位置姿勢推定を行う。このときの制御フローを図13を使って説明する。図12は、実施形態7における位置姿勢推定方法を説明する図である。図13は図10に対して、S10010がS13000に、S10020がS13020に置き換わっている。その他のステップの動作は、図10の説明と同様とする。   FIG. 12 is a diagram illustrating the MR system configuration according to the seventh embodiment. In the fifth embodiment, the configuration of the host computer is shown as a configuration in which a dedicated HW exists and modules are directly connected. In this embodiment, each module is connected to a bus, and the video decoding function and the video encoding function are also performed by the CPU. In FIG. 11, since there is no selector function described in the fifth embodiment, the CPU 807 controls the data flow and performs position and orientation estimation. The control flow at this time will be described with reference to FIG. FIG. 12 is a diagram for explaining a position and orientation estimation method according to the seventh embodiment. FIG. 13 is different from FIG. 10 in that S10010 is replaced with S13000 and S10020 is replaced with S13020. The operation of other steps is the same as that described in FIG.

S13000では、ホストコンピュータが解析映像を受信したか否かの状態を取得する。解析映像受信の動作はフレーム毎に行われる。S13020では、解析映像を受信していたらS10030を、S10040を実行させる。これらの動作は画像を連続的に撮像、処理しながら行われるため、条件判定も、フレーム画像単位で行われる。本実施形態で示した構成であっても、実施形態5と同様の効果を得ることができる。   In S13000, the status of whether or not the host computer has received the analysis video is acquired. The analysis video reception operation is performed for each frame. In S13020, if an analysis video is received, S10030 is executed, and S10040 is executed. Since these operations are performed while images are continuously captured and processed, condition determination is also performed in units of frame images. Even with the configuration shown in the present embodiment, the same effect as in the fifth embodiment can be obtained.

本実施形態によれば、画像処理装置は第1の映像の受信状態を判定する構成をさらに備える。第1の映像を受信している場合は第1の映像を解析して位置姿勢情報が生成され、第1の映像を受信していない場合は第2の映像を解析して位置姿勢情報が生成される。   According to this embodiment, the image processing apparatus further includes a configuration for determining the reception state of the first video. If the first video is received, the first video is analyzed to generate position / orientation information. If the first video is not received, the second video is analyzed to generate position / orientation information. Is done.

上記MR装置の例であるヘッドマウントディスプレイは撮像画像にCGオブジェクトを重畳した合成画像を表示部に表示してユーザに観察させるビデオシースルータイプで説明した。しかしながら、本願明細書に係るヘッドマウントディスプレイは現実空間を透過して観察可能なディスプレイにCGオブジェクトを重畳して表示する光学シースルータイプを適用してもかまわない。   The head mounted display as an example of the MR apparatus has been described as a video see-through type in which a composite image obtained by superimposing a CG object on a captured image is displayed on a display unit to allow a user to observe. However, the head-mounted display according to the present specification may be an optical see-through type in which a CG object is superimposed and displayed on a display that can be observed through the real space.

(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
(Other examples)
The present invention supplies a program that realizes one or more functions of the above-described embodiments to a system or apparatus via a network or a storage medium, and one or more processors in a computer of the system or apparatus read and execute the program This process can be realized. It can also be realized by a circuit (for example, ASIC) that realizes one or more functions.

101 センサ;102 ISP;103 位置姿勢推定部;104 センサ;105 ISP;106 CG描画部;107 表示部;201 慣性センサ;209 セレクタ;301 動き検出部;302 セレクタ;801 セレクタ;802 NW;803 映像復号部;804 セレクタ;805 映像復号部;806 映像符号化部;807 CPU;808 RAM;809 不揮発ストレージ;810 バス;811 映像復号部;901 バス;902 CPU;903 RAM;904 不揮発ストレージ 101 sensor; 102 ISP; 103 position and orientation estimation unit; 104 sensor; 105 ISP; 106 CG rendering unit; 107 display unit; 201 inertia sensor; 209 selector; 301 motion detection unit; 302 selector; 801 selector; 804 selector; 805 video decoding unit; 806 video encoding unit; 807 CPU; 808 RAM; 809 non-volatile storage; 810 bus; 811 video decoding unit; 901 bus; 902 CPU; 903 RAM;

Claims (18)

画像処理装置であって、
第1の映像を出力する、被写体が動くことによる画像劣化が相対的に少ない第1の撮像手段と、
第2の映像を出力する、被写体が動くことによる画像劣化が相対的に多い第2の撮像手段と、
前記第1の映像を解析して前記画像処理装置の位置姿勢情報を生成する推定手段と、
前記位置姿勢情報に基づいて決定された位置に重畳されるように、前記第2の映像上にCGオブジェクトを描画する描画手段と、
を備えることを特徴とする画像処理装置。
An image processing apparatus,
A first imaging means for outputting a first video and relatively less image degradation caused by movement of the subject;
A second imaging means for outputting a second video, wherein image degradation due to movement of the subject is relatively large;
Estimating means for analyzing the first video and generating position and orientation information of the image processing device;
Drawing means for drawing a CG object on the second video so as to be superimposed on a position determined based on the position and orientation information;
An image processing apparatus comprising:
前記推定手段は、前記画像処理装置の動きが所定の閾値より大きい場合は前記第1の映像を解析して前記位置姿勢情報を生成し、前記画像処理装置の動きが前記所定の閾値より小さい場合は前記第2の映像を解析して前記位置姿勢情報を生成することを特徴とする、請求項1に記載の画像処理装置。   When the movement of the image processing apparatus is larger than a predetermined threshold, the estimating means analyzes the first video to generate the position and orientation information, and when the movement of the image processing apparatus is smaller than the predetermined threshold The image processing apparatus according to claim 1, wherein the position and orientation information is generated by analyzing the second video. 慣性センサを用いて前記画像処理装置の動きを検出する動き検出手段をさらに備えることを特徴とする、請求項2に記載の画像処理装置。   The image processing apparatus according to claim 2, further comprising a motion detection unit that detects a motion of the image processing apparatus using an inertial sensor. 前記第1の映像を解析して前記画像処理装置の動きを検出する動き検出手段をさらに備えることを特徴とする、請求項2に記載の画像処理装置。   The image processing apparatus according to claim 2, further comprising a motion detection unit that analyzes the first video and detects a motion of the image processing apparatus. 前記推定手段は、前記第1の映像を解析して前記位置姿勢情報を生成するとともに前記画像処理装置の動きを検出し、前記検出された動きが所定の閾値より大きい場合、前記位置姿勢情報を生成する際に解析する映像を前記第2の映像に切り替えることを特徴とする、請求項1乃至4の何れか1項に記載の画像処理装置。   The estimation means analyzes the first video to generate the position / orientation information and detects the movement of the image processing apparatus. When the detected movement is greater than a predetermined threshold, 5. The image processing apparatus according to claim 1, wherein an image to be analyzed at the time of generation is switched to the second image. 6. 前記第1の撮像手段はグローバルシャッターセンサであり、前記第2の撮像手段はローリングシャッターセンサであることを特徴とする、請求項1乃至5の何れか1項に記載の画像処理装置。   The image processing apparatus according to claim 1, wherein the first imaging unit is a global shutter sensor, and the second imaging unit is a rolling shutter sensor. 前記第1の撮像手段は相対的にフレームレートが高いセンサであり、前記第2の撮像手段は相対的にフレームレートが低いセンサであることを特徴とする、請求項1乃至6の何れか1項に記載の画像処理装置。   The first imaging means is a sensor with a relatively high frame rate, and the second imaging means is a sensor with a relatively low frame rate. The image processing apparatus according to item. 前記第1の撮像手段は相対的にシャッター速度が高速なセンサであり、前記第2の撮像手段は相対的にシャッター速度が低速なセンサであることを特徴とする、請求項1乃至7の何れか1項に記載の画像処理装置。   The first image pickup means is a sensor having a relatively high shutter speed, and the second image pickup means is a sensor having a relatively low shutter speed. The image processing apparatus according to claim 1. 前記第1の映像の解像度は前記第2の映像の解像度よりも低いことを特徴とする、請求項1乃至8の何れか1項に記載の画像処理装置。   The image processing apparatus according to claim 1, wherein a resolution of the first video is lower than a resolution of the second video. 前記第1の映像のフレームレートは前記第2の映像のフレームレートよりも高いことを特徴とする、請求項1乃至9の何れか1項に記載の画像処理装置。   The image processing apparatus according to claim 1, wherein a frame rate of the first video is higher than a frame rate of the second video. 被写体が動くことによる画像劣化が相対的に少ない第1の映像を画像処理装置から受信する第1の取得手段と、
被写体が動くことによる画像劣化が相対的に多い第2の映像を前記画像処理装置から受信する第2の取得手段と、
前記第1の映像を解析して前記画像処理装置の位置姿勢情報を生成する推定手段と、
前記位置姿勢情報に基づいて決定された位置に重畳されるように、前記第2の映像上にCGオブジェクトを描画する描画手段と、
を備えることを特徴とする画像合成装置。
First acquisition means for receiving, from the image processing apparatus, a first video that has relatively little image degradation due to movement of the subject;
Second acquisition means for receiving, from the image processing device, a second video that has relatively high image degradation due to movement of the subject;
Estimating means for analyzing the first video and generating position and orientation information of the image processing device;
Drawing means for drawing a CG object on the second video so as to be superimposed on a position determined based on the position and orientation information;
An image composition apparatus comprising:
前記第1の映像の受信状態を判定する判定手段をさらに備え、
前記推定手段は、前記第1の映像を受信している場合は前記第1の映像を解析して前記位置姿勢情報を生成し、前記第1の映像を受信していない場合は前記第2の映像を解析して前記位置姿勢情報を生成する
ことを特徴とする、請求項11に記載の画像合成装置。
A determination unit for determining a reception state of the first video;
The estimation means generates the position and orientation information by analyzing the first video when the first video is received, and generates the position and orientation information when the first video is not received. The image synthesizing apparatus according to claim 11, wherein the position and orientation information is generated by analyzing a video.
画像処理装置と画像合成装置とを備える画像処理システムであって、
前記画像処理装置は、
第1の映像を出力する、被写体が動くことによる画像劣化が相対的に少ない第1の撮像手段と、
第2の映像を出力する、被写体が動くことによる画像劣化が相対的に多い第2の撮像手段と、
画像合成装置に前記第1の映像及び前記第2の映像を送信する送信手段と、を備え、
前記画像合成装置は、
前記第1の映像を画像処理装置から受信する第1の取得手段と、
前記第2の映像を前記画像処理装置から受信する第2の取得手段と、
前記第1の映像を解析して前記画像処理装置の位置姿勢情報を生成する推定手段と、
前記位置姿勢情報に基づいて決定された位置に重畳されるように、前記第2の映像上にCGオブジェクトを描画する描画手段と、を備える
ことを特徴とする画像処理システム。
An image processing system comprising an image processing device and an image composition device,
The image processing apparatus includes:
A first imaging means for outputting a first video and relatively less image degradation caused by movement of the subject;
A second imaging means for outputting a second video, wherein image degradation due to movement of the subject is relatively large;
Transmission means for transmitting the first video and the second video to an image composition device,
The image composition device includes:
First acquisition means for receiving the first video from an image processing device;
Second acquisition means for receiving the second video from the image processing device;
Estimating means for analyzing the first video and generating position and orientation information of the image processing device;
An image processing system comprising: drawing means for drawing a CG object on the second video so as to be superimposed on a position determined based on the position and orientation information.
前記送信手段は、前記画像処理装置の動きが所定の閾値より大きい場合は前記第1の映像と前記第2の映像との双方を送信し、前記画像処理装置の動きが前記所定の閾値より小さい場合は前記第1の映像を送信せずに前記第2の映像を送信する、請求項13に記載の画像処理システム。   The transmission means transmits both the first video and the second video when the movement of the image processing apparatus is larger than a predetermined threshold, and the movement of the image processing apparatus is smaller than the predetermined threshold. The image processing system according to claim 13, wherein the second video is transmitted without transmitting the first video. 画像処理装置が行う画像処理方法であって、
第1の撮像手段を用いて、被写体が動くことによる画像劣化が相対的に少ない第1の映像を取得する工程と、
第2の撮像手段を用いて、被写体が動くことによる画像劣化が相対的に多い第2の映像を取得する工程と、
前記第1の映像を解析して前記画像処理装置の位置姿勢情報を生成する工程と、
前記位置姿勢情報に基づいて決定された位置に重畳されるように、前記第2の映像上にCGオブジェクトを描画する工程と、
を有することを特徴とする画像処理方法。
An image processing method performed by an image processing apparatus,
Using the first imaging means to obtain a first video with relatively little image degradation due to movement of the subject;
Using the second imaging means to obtain a second video that has a relatively large image degradation due to movement of the subject;
Analyzing the first video to generate position and orientation information of the image processing device;
Drawing a CG object on the second video so as to be superimposed on a position determined based on the position and orientation information;
An image processing method comprising:
画像合成装置が行う画像処理方法であって、
被写体が動くことによる画像劣化が相対的に少ない第1の映像を画像処理装置から受信する工程と、
被写体が動くことによる画像劣化が相対的に多い第2の映像を前記画像処理装置から受信する工程と、
前記第1の映像を解析して前記画像処理装置の位置姿勢情報を生成する工程と、
前記位置姿勢情報に基づいて決定された位置に重畳されるように、前記第2の映像上にCGオブジェクトを描画する工程と、
を有することを特徴とする画像処理方法。
An image processing method performed by an image composition device,
Receiving a first image from the image processing apparatus with relatively little image degradation caused by movement of the subject;
Receiving from the image processing device a second video image that is relatively image-degraded due to movement of the subject;
Analyzing the first video to generate position and orientation information of the image processing device;
Drawing a CG object on the second video so as to be superimposed on a position determined based on the position and orientation information;
An image processing method comprising:
画像処理装置と画像合成装置とを備える画像処理システムが行う画像処理方法であって、
前記画像処理装置が、第1の撮像手段を用いて、被写体が動くことによる画像劣化が相対的に少ない第1の映像を取得する工程と、
前記画像処理装置が、第2の撮像手段を用いて、被写体が動くことによる画像劣化が相対的に多い第2の映像を取得する工程と、
前記画像処理装置が、前記画像合成装置に前記第1の映像及び前記第2の映像を送信する工程と、
前記画像合成装置が、前記第1の映像を前記画像処理装置から受信する工程と、
前記画像合成装置が、前記第2の映像を前記画像処理装置から受信する工程と、
前記画像合成装置が、前記第1の映像を解析して前記画像処理装置の位置姿勢情報を生成する工程と、
前記画像合成装置が、前記位置姿勢情報に基づいて決定された位置に重畳されるように、前記第2の映像上にCGオブジェクトを描画する工程と、
を有することを特徴とする画像処理方法。
An image processing method performed by an image processing system including an image processing device and an image composition device,
The image processing apparatus using the first imaging means to obtain a first video that has relatively little image degradation due to movement of the subject;
The image processing apparatus using the second imaging means to acquire a second video image that is relatively largely deteriorated due to movement of the subject;
The image processing device transmitting the first video and the second video to the image synthesis device;
The image synthesizing device receiving the first video from the image processing device;
The image synthesizing device receiving the second video from the image processing device;
The image synthesizing device analyzing the first video to generate position and orientation information of the image processing device;
Drawing the CG object on the second video so that the image synthesizing device is superimposed on the position determined based on the position and orientation information;
An image processing method comprising:
コンピュータに、
画像処理装置によって撮像された、被写体が動くことによる画像劣化が相対的に少ない第1の映像を取得する工程と、
前記画像処理装置によって撮像された、被写体が動くことによる画像劣化が相対的に多い第2の映像を取得する工程と、
前記第1の映像を解析して前記画像処理装置の位置姿勢情報を生成する工程と、
前記位置姿勢情報に基づいて決定された位置に重畳されるように、前記第2の映像上にCGオブジェクトを描画する工程と、
を実行させるためのプログラム。
On the computer,
Obtaining a first video imaged by the image processing apparatus, with relatively little image degradation due to movement of the subject;
Obtaining a second video imaged by the image processing device, the image of which is relatively deteriorated due to movement of a subject;
Analyzing the first video to generate position and orientation information of the image processing device;
Drawing a CG object on the second video so as to be superimposed on a position determined based on the position and orientation information;
A program for running
JP2016167289A 2015-09-08 2016-08-29 Image processing device, image compositing device, image processing system, image processing method, and program Active JP6768416B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US15/256,956 US10535193B2 (en) 2015-09-08 2016-09-06 Image processing apparatus, image synthesizing apparatus, image processing system, image processing method, and storage medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015177095 2015-09-08
JP2015177095 2015-09-08

Publications (2)

Publication Number Publication Date
JP2017055397A true JP2017055397A (en) 2017-03-16
JP6768416B2 JP6768416B2 (en) 2020-10-14

Family

ID=58317694

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016167289A Active JP6768416B2 (en) 2015-09-08 2016-08-29 Image processing device, image compositing device, image processing system, image processing method, and program

Country Status (1)

Country Link
JP (1) JP6768416B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021511699A (en) * 2018-01-18 2021-05-06 バルブ コーポレーション Position tracking system for head-mounted displays including sensor integrated circuits
WO2022224732A1 (en) * 2021-04-22 2022-10-27 ソニーグループ株式会社 Information processing device and information processing method
JP2022548441A (en) * 2020-08-17 2022-11-21 チョーチアン センスタイム テクノロジー デベロップメント カンパニー,リミテッド POSITION AND ATTITUDE DETERMINATION METHOD, APPARATUS, ELECTRONIC DEVICE, STORAGE MEDIUM AND COMPUTER PROGRAM
JP7379217B2 (en) 2020-03-06 2023-11-14 株式会社日立国際電気 Imaging system

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005165974A (en) * 2003-12-05 2005-06-23 Canon Inc Image processing method and image processing device
US20070248283A1 (en) * 2006-04-21 2007-10-25 Mack Newton E Method and apparatus for a wide area virtual scene preview system
JP2008039611A (en) * 2006-08-07 2008-02-21 Canon Inc Device and method for measuring position and attitude, compound real feeling presentation system, computer program and storage medium
JP2011135185A (en) * 2009-12-22 2011-07-07 Sanyo Electric Co Ltd Imaging device
WO2012001755A1 (en) * 2010-07-02 2012-01-05 株式会社ソニー・コンピュータエンタテインメント Information processing system, information processing device, and information processing method
JP2015069548A (en) * 2013-09-30 2015-04-13 Kddi株式会社 Attitude parameter estimation device, attitude parameter estimation method, and program
JP2016122975A (en) * 2014-12-25 2016-07-07 セイコーエプソン株式会社 Display device and display device control method
JP2017072560A (en) * 2015-10-09 2017-04-13 ソニー株式会社 Information processing apparatus, position and/or attitude estimation method, and computer program

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005165974A (en) * 2003-12-05 2005-06-23 Canon Inc Image processing method and image processing device
US20070248283A1 (en) * 2006-04-21 2007-10-25 Mack Newton E Method and apparatus for a wide area virtual scene preview system
JP2008039611A (en) * 2006-08-07 2008-02-21 Canon Inc Device and method for measuring position and attitude, compound real feeling presentation system, computer program and storage medium
JP2011135185A (en) * 2009-12-22 2011-07-07 Sanyo Electric Co Ltd Imaging device
WO2012001755A1 (en) * 2010-07-02 2012-01-05 株式会社ソニー・コンピュータエンタテインメント Information processing system, information processing device, and information processing method
JP2015069548A (en) * 2013-09-30 2015-04-13 Kddi株式会社 Attitude parameter estimation device, attitude parameter estimation method, and program
JP2016122975A (en) * 2014-12-25 2016-07-07 セイコーエプソン株式会社 Display device and display device control method
JP2017072560A (en) * 2015-10-09 2017-04-13 ソニー株式会社 Information processing apparatus, position and/or attitude estimation method, and computer program

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021511699A (en) * 2018-01-18 2021-05-06 バルブ コーポレーション Position tracking system for head-mounted displays including sensor integrated circuits
JP7207809B2 (en) 2018-01-18 2023-01-18 バルブ コーポレーション Position tracking system for head-mounted displays containing sensor integrated circuits
JP7379217B2 (en) 2020-03-06 2023-11-14 株式会社日立国際電気 Imaging system
JP2022548441A (en) * 2020-08-17 2022-11-21 チョーチアン センスタイム テクノロジー デベロップメント カンパニー,リミテッド POSITION AND ATTITUDE DETERMINATION METHOD, APPARATUS, ELECTRONIC DEVICE, STORAGE MEDIUM AND COMPUTER PROGRAM
JP7236565B2 (en) 2020-08-17 2023-03-09 チョーチアン センスタイム テクノロジー デベロップメント カンパニー,リミテッド POSITION AND ATTITUDE DETERMINATION METHOD, APPARATUS, ELECTRONIC DEVICE, STORAGE MEDIUM AND COMPUTER PROGRAM
WO2022224732A1 (en) * 2021-04-22 2022-10-27 ソニーグループ株式会社 Information processing device and information processing method

Also Published As

Publication number Publication date
JP6768416B2 (en) 2020-10-14

Similar Documents

Publication Publication Date Title
US10535193B2 (en) Image processing apparatus, image synthesizing apparatus, image processing system, image processing method, and storage medium
JP5859958B2 (en) Image processing apparatus, image processing method, and program
US10600157B2 (en) Motion blur simulation
JP5694300B2 (en) Image processing apparatus, image processing method, and program
US9773333B2 (en) Information processing device, information processing method, and program
US11086395B2 (en) Image processing apparatus, image processing method, and storage medium
EP2815569B1 (en) Video image stabilization
CN110322542B (en) Reconstructing views of a real world 3D scene
JP5359783B2 (en) Image processing apparatus and method, and program
US10027949B2 (en) Image processing apparatus, image processing method, and recording medium
JP5725953B2 (en) Imaging apparatus, control method therefor, and information processing apparatus
US20120019614A1 (en) Variable Stereo Base for (3D) Panorama Creation on Handheld Device
JP2018524832A (en) Omnidirectional stereo capture and rendering of panoramic virtual reality content
JP6768416B2 (en) Image processing device, image compositing device, image processing system, image processing method, and program
CN106997579B (en) Image splicing method and device
US20190342537A1 (en) Image processing apparatus, image processing method, and storage medium
US20120169840A1 (en) Image Processing Device and Method, and Program
CN107833237B (en) Method and apparatus for blurring virtual objects in video
US20130162786A1 (en) Image processing apparatus, imaging apparatus, image processing method, and program
JP2012129689A (en) Video processing apparatus, camera device, and video processing method
JP5531603B2 (en) Image processing apparatus and method, and program
JP2017207818A (en) Image processing apparatus, image processing method and program
TW202040425A (en) Method of pose change notification and related interactive image processing system
KR101947799B1 (en) 360 degrees Fisheye Rendering Method for Virtual Reality Contents Service
WO2018084051A1 (en) Information processing device, head-mounted display, information processing system, and information processing method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190821

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200423

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200622

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200804

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200824

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200923

R151 Written notification of patent or utility model registration

Ref document number: 6768416

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151