JP2024002745A - Information processing device, area division method, and program - Google Patents
Information processing device, area division method, and program Download PDFInfo
- Publication number
- JP2024002745A JP2024002745A JP2022102136A JP2022102136A JP2024002745A JP 2024002745 A JP2024002745 A JP 2024002745A JP 2022102136 A JP2022102136 A JP 2022102136A JP 2022102136 A JP2022102136 A JP 2022102136A JP 2024002745 A JP2024002745 A JP 2024002745A
- Authority
- JP
- Japan
- Prior art keywords
- area
- image
- information processing
- module
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 title claims abstract description 13
- 238000004364 calculation method Methods 0.000 claims abstract description 32
- 238000012545 processing Methods 0.000 claims abstract description 17
- 230000011218 segmentation Effects 0.000 claims description 37
- 238000003062 neural network model Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 6
- 230000004927 fusion Effects 0.000 description 5
- 238000011176 pooling Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Abstract
Description
本発明は、空中写真の画像から道路情報を抽出する技術に関連するものである。 The present invention relates to technology for extracting road information from aerial photographic images.
空中写真の画像から交通渋滞を検知したり、交通密度を推定したりすることで、リアルタイムの交通状態情報を都市モニタリングシステムや運転者に提供することができる。このような交通状態情報により、例えば、適切な走行経路を決定することができる。 By detecting traffic congestion and estimating traffic density from aerial photographic images, real-time traffic status information can be provided to city monitoring systems and drivers. With such traffic condition information, for example, an appropriate driving route can be determined.
渋滞を検知する従来技術である非特許文献2に開示された技術では、交差点に設置したカメラで撮影した画像から交通密度を推定することにより、渋滞検知を分類問題として扱う技術が開示されている。 The technology disclosed in Non-Patent Document 2, which is a conventional technology for detecting traffic congestion, discloses a technology that treats traffic congestion detection as a classification problem by estimating traffic density from images taken with cameras installed at intersections. .
また、非特許文献3に開示された技術では、LTA(Land Transport Authority(陸上交通庁))が提供するオープンソースのアプリケーションプログラミングインタフェース(API) を使ってデータを収集し、交通密度を推定するためのCNN(畳み込みニューラルネットワーク)を提案している。 In addition, the technology disclosed in Non-Patent Document 3 uses an open source application programming interface (API) provided by the Land Transport Authority (LTA) to collect data and estimate traffic density. proposed a CNN (convolutional neural network).
しかし、非特許文献2、3で使用された画像は交通カメラ(交差点等に設置されたカメラ)で撮影されたものであるため、非常に小さなエリアの道路状況情報しか提供できない。 However, since the images used in Non-Patent Documents 2 and 3 were taken by traffic cameras (cameras installed at intersections, etc.), they can only provide road condition information for a very small area.
また、セマンティックセグメンテーションに基づいて、空中写真の画像から道路を抽出するための多くの方法が提案されている。例えば非特許文献1には、道路抽出を、相互に関連する3つのサブタスク、すなわち、道路表面セグメンテーション、道路エッジ検出、および道路中心線抽出に分解して行う技術が開示されている。しかし、道路網を抽出できるものの、空中写真の画像から交通渋滞の領域をセグメント化(分割)することはできていない。 Also, many methods have been proposed for extracting roads from aerial photography images based on semantic segmentation. For example, Non-Patent Document 1 discloses a technique in which road extraction is divided into three interrelated subtasks: road surface segmentation, road edge detection, and road centerline extraction. However, although it is possible to extract the road network, it is not possible to segment (divide) areas of traffic congestion from aerial photographs.
本発明は上記の点に鑑みてなされたものであり、空中写真の画像から、道路における渋滞の領域を区分することを可能とする技術を提供することを目的とする。 The present invention has been made in view of the above points, and an object of the present invention is to provide a technique that makes it possible to classify areas of traffic congestion on a road from an aerial photographic image.
開示の技術によれば、上空から撮影された画像を取得する取得部と、
ニューラルネットワークのモデルを用いて、前記画像から道路領域と渋滞領域を同時に区分する計算部と、
前記計算部により得られた区分結果を出力する出力処理部と
を備える情報処理装置が提供される。
According to the disclosed technology, an acquisition unit that acquires an image taken from above;
a calculation unit that simultaneously divides the image into a road area and a traffic congestion area using a neural network model;
An information processing device is provided, comprising: an output processing section that outputs the classification results obtained by the calculation section.
開示の技術によれば、空中写真の画像から、道路における渋滞の領域を区分することを可能とする技術が提供される。 According to the disclosed technology, a technology is provided that makes it possible to classify congested areas on a road from an aerial photographic image.
以下、図面を参照して本発明の実施の形態(本実施の形態)を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。 DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of the present invention (this embodiment) will be described below with reference to the drawings. The embodiments described below are merely examples, and embodiments to which the present invention is applied are not limited to the following embodiments.
なお、本明細書及び請求の範囲において、「分割」、「セグメント化」、「抽出」、「区分」、「分類」、「セグメンテーション」は、互いに同義に使用されてもよい。つまり、明細書あるいは請求の範囲に記載された、「分割」、「セグメント化」、「抽出」、「区分」、「分類」、及び「セグメンテーション」はそれぞれ、これらのうちの他のいずれかに置き換えてもよい。 Note that in this specification and claims, "division," "segmentation," "extraction," "classification," "classification," and "segmentation" may be used interchangeably. In other words, "division," "segmentation," "extraction," "classification," "classification," and "segmentation" described in the specification or claims each refer to any other of these. May be replaced.
また、「空中写真」を「航空写真」に言い換えてもよい。空中写真の画像を「空中画像」あるいは「航空画像」と言い換えてもよい。空中写真/航空写真は、上空にある飛行体から地上を撮影した写真であり、当該飛行体は、特定のものに限定されない。例えば、飛行体は飛行機であってもよいし、衛星であってもよいし、ドローンであってもよい。 Furthermore, "aerial photograph" may be replaced with "aerial photograph." An aerial photo image may also be referred to as an "aerial image" or "aerial image." An aerial photograph/aerial photograph is a photograph taken of the ground from a flying object in the sky, and the flying object is not limited to a specific one. For example, the flying object may be an airplane, a satellite, or a drone.
また、「強化する(enhanceする)」とは、例えば、渋滞領域の区分の精度を高めること、あるいは、渋滞領域と渋滞以外の領域との境界を明確化すること、などの意味を有する。 Furthermore, "enhance" has the meaning of, for example, increasing the accuracy of classifying congested areas, or clarifying the boundaries between congested areas and non-congested areas.
(装置構成例、動作例)
図1に本実施の形態における情報処理装置100の構成例を示す。図1に示すように、情報処理装置100は、空中写真収集部110、アルゴリズム計算部120、出力処理部130、学習部140を有する。なお、空中写真収集部110を取得部と呼んでもよい。また、アルゴリズム計算部120を計算部と呼んでもよい。
(Equipment configuration example, operation example)
FIG. 1 shows a configuration example of an information processing apparatus 100 in this embodiment. As shown in FIG. 1, the information processing device 100 includes an aerial
図2のフローチャートを参照して、情報処理装置100による推論時(テスト時)の処理の流れを説明する。S101において、空中写真収集部110が、ドローン、衛星、あるいは航空機などが撮影した写真あるいはビデオ(動画)を取得する。これら写真とビデオを総称して「空中写真」と呼ぶことにする。空中写真収集部110により取得された空中写真の画像はアルゴリズム計算部120に入力される。
The flow of processing at the time of inference (during testing) by the information processing apparatus 100 will be described with reference to the flowchart of FIG. 2. In S101, the aerial
アルゴリズム計算部120は、後述するニューラルネットワークのモデル(エンドツーエンドのモデル)を有している。ここではモデルは学習済みであるとする。S102において、アルゴリズム計算部120は、モデルに空中写真の画像を入力することで、モデルからの出力として、道路領域と渋滞領域(道路領域における渋滞領域と渋滞領域以外を区分したもの)が分割(区分)された画像を取得する。
The
S103において、出力処理部130は、アルゴリズム計算部120に得られた画像(道路領域と渋滞領域とが分割された画像)をそのまま出力してもよいし、当該画像に対する処理を行って、処理後の画像を出力してもよい。例えば、出力処理部130は、アルゴリズム計算部120により得られた画像から、道路上の渋滞領域のみを抽出して出力することも可能である。
In S103, the
モデルの学習時においては、大量の空中写真の画像と、そのラベルデータ(例えば、画像に道路、渋滞、渋滞以外をラベル付けしたデータ)を用いる。学習部140は、モデルに空中写真の画像を入力し、モデルからの出力と正解との誤差が最小になるように、モデルのパラメータ(重み)を調整する。
When training the model, a large amount of aerial photographic images and their label data (for example, images labeled with roads, traffic jams, and other than traffic jams) are used. The
なお、学習を行う装置(学習部140を備える装置)と、推論を行う装置とが別々の装置であってもよい。この場合、学習を行う装置を学習装置と呼んでもよい。以降、アルゴリズム計算部120の構成と動作を詳細に説明する。また、推論を行う装置は学習部140を備えなくてもよい。
Note that the device that performs learning (the device that includes the learning section 140) and the device that performs inference may be separate devices. In this case, the device that performs learning may be called a learning device. Hereinafter, the configuration and operation of the
アルゴリズム計算部120は、ニューラルネットワークのモデルを有する。このモデルにより、空中写真の画像上で道路表面と、道路表面における渋滞領域を同時に分割(セグメント化)することが可能である。
The
空中写真の画像において、上空から見た車両の大きさ(スケール)は、上空から見た道路表面の大きさよりも小さいことから、車両のセグメント化は一般に非常に難しい。これは、スケール変動問題と呼ばれる。そのため、従来技術においては、渋滞領域と渋滞ではない領域との境界を正確にセグメント化することは非常に難しい。 In aerial photographic images, vehicle segmentation is generally very difficult because the size (scale) of a vehicle seen from above is smaller than the size of a road surface when seen from above. This is called the scale variation problem. Therefore, in the conventional technology, it is very difficult to accurately segment the boundary between a congested area and a non-congested area.
本実施の形態に係るアルゴリズム計算部120を構成するモデルは、上記の課題を解決し、空中写真の画像から渋滞領域を精度良くセグメント化することが可能である。
The model constituting the
以下、本実施の形態におけるコンテキスト強化交通セグメンテーションモデルの構成と動作を詳細に説明する。以下、記載の便宜上、コンテキスト強化交通セグメンテーションモデルを「モデル」と呼ぶ場合がある。 The configuration and operation of the context-enhanced traffic segmentation model in this embodiment will be described in detail below. Hereinafter, for convenience of description, the context-enhanced traffic segmentation model may be referred to as a "model".
(モデルの全体構成)
図3に、コンテキスト強化交通セグメンテーションモデルの全体構成例を示す。図3に示すように、本モデルは、特徴ピラミッドネットワーク(FPN:Feature Pyramid Network)210、オリジナル交通モジュール(Original Traffic Module)220、コンテキストアテンションモジュール230を有する。
(Overall configuration of model)
Figure 3 shows an example of the overall configuration of the context-enhanced traffic segmentation model. As shown in FIG. 3, this model includes a feature pyramid network (FPN) 210, an
コンテキストアテンションモジュール230は、グローバルコンテキスト生成器(Global Context Generator)240、アテンション計算ブロック(Attention Computation Block)250を有する。
The
マルチレベル予測はスケール変動問題に効果的であることから、まず、空中写真の画像が、マルチレベル予測を行う特徴ピラミッドネットワーク210に入力される。特徴ピラミッドネットワーク210は、入力画像から、異なるスケールの5つの特徴マップ(P2~P6)からなる特徴ピラミッドを生成する。P6の特徴マップは、最高(最上位)レベルの意味情報を含む。
Since multi-level prediction is effective for scale variation problems, an aerial photographic image is first input into a
5つの特徴マップ(P2~P6)は、オリジナル交通モジュール220に入力され、オリジナル交通モジュール220は、道路表面(Road Surface)と交通渋滞(Original Traffic Jam)のセグメンテーション結果を生成する。
The five feature maps (P2 to P6) are input to the
また、P6の特徴マップがグローバルコンテキスト生成器240に入力され、グローバルコンテキスト生成器240は、P6の特徴マップからグローバルコンテキスト特徴(Global Context Feature)を生成する。
Further, the feature map of P6 is input to the
グローバルコンテキスト特徴とオリジナル渋滞セグメンテーション結果がアテンション計算ブロック250に入力され、アテンション計算ブロック250は、強化された(質が高められた)渋滞セグメンテーション(渋滞している領域)を出力する。
The global context features and the original congestion segmentation results are input to the
強化された渋滞セグメンテーションと、オリジナル交通モジュール220により得られた道路表面のセグメンテーションを結合することで、最終的な出力を得ることができる。
By combining the enhanced traffic congestion segmentation and the road surface segmentation obtained by the
(オリジナル交通モジュール220)
次に、オリジナル交通モジュール220について説明する。道路上で渋滞領域を分割(セグメント化)するには、道路上で車両群をセグメント化する必要がある。しかし、上空から見た場合、道路に対する車両のスケールは小さく、スケール変動問題を引き起こす。オリジナル交通モジュール200は、この問題に対処するためにマルチスケール特徴融合ネットワークの構成を有する。
(Original transportation module 220)
Next, the
図4に、オリジナル交通モジュール220の構成例を示す。図4に示すように、オリジナル交通モジュール220は、畳み込み層(Convolution layers)221、融合層(Fusion Layer)222を含む。畳み込み層(Convolution layers)221は、特徴マップごとに、3つの連続する3×3畳み込み層を含む。
FIG. 4 shows an example of the configuration of the
図4に示すように、各特徴マップP∈R256×H×W(サイズ:256×H×W)が畳み込み層221に入力される。各特徴マップに対し、同じ畳み込み処理が行われる。畳み込み処理により、新たな特徴マップ~P∈R1×H×Wが生成される。なお、本明細書のテキストにおいて、記載の便宜上、文字の頭に記載される記号を、文字の前に記載している。「~P」はその例である。
As shown in FIG. 4, each feature map PεR 256×H×W (size: 256×H×W) is input to the
次に、バイリニア補間により、各特徴マップをオリジナルの入力Rh×wのスケールにサイズ変更する。その後、5つの特徴マップを連結により融合し、融合した特徴マップを1つの3×3畳み込み層(融合層222)に入力することで、交通渋滞マップA∈R1×h×wと道路表面マップB∈R1×h×wを有するオリジナルのセグメンテーション結果を取得する。 Next, each feature map is resized to the original input R h×w scale by bilinear interpolation. After that, the five feature maps are fused by concatenation, and the fused feature map is input to one 3×3 convolutional layer (fusion layer 222), thereby creating a traffic congestion map A∈R 1×h×w and a road surface map. Obtain the original segmentation result with B∈R 1×h×w .
(コンテキストアテンションモジュール230)
次に、コンテキストアテンションモジュール230について説明する。
(Context attention module 230)
Next, the
一般に、空中写真の画像において、道路上の渋滞領域とその他の領域との境界はあいまいであるため、渋滞領域と通行可能道路領域を明示的に分けることは困難である。コンテキストアテンションモジュール230は、この課題を解決し、渋滞領域と他の領域との境界を明確にする。コンテキストアテンションモジュール230は、グローバルコンテキスト特徴マップを用いることで、オリジナル交通モジュール220により得られたオリジナルの渋滞マップを改良して、上記境界を明確にする。
Generally, in an aerial photographic image, the boundary between a congested area on a road and other areas is ambiguous, so it is difficult to explicitly distinguish between a congested area and a passable road area.
グローバルコンテキストモジュール240は、ピラミッドプーリングモジュール(PPM)を含む。前述したとおり、特徴マップP6は、最も強力な意味情報を有しており、グローバルコンテキストモジュール240は、特徴マップP6を入力とする。
すなわち、まず、グローバルコンテキストモジュール240が、P6の特徴マップにピラミッドプーリングモジュール(PPM)を適用して、領域表現とコンテキスト依存関係をさらに活用している。グローバルコンテキストモジュール240により、グローバルコンテキスト特徴マップC∈R1×h×wを取得する。
That is, first, the
なお、ピラミッドプーリングモジュールにおいては、ピラミッド状のサイズ階層を有する複数グリッドを用いて、入力に対してプーリングを実施することで、どのグリッドに各クラスの特徴がどのくらい含まれているかを示した大域的(グローバル)な大まかなコンテキスト情報を得ることができる。 The pyramid pooling module uses multiple grids with pyramid-shaped size hierarchies to perform pooling on the input, thereby generating a global model that shows how many features of each class are included in which grid. (Global) rough context information can be obtained.
グローバルコンテキスト特徴マップとオリジナル渋滞マップはアテンション計算ブロック250に入力される。
The global context feature map and the original congestion map are input to the
図5に、アテンション計算ブロック250の処理構成を示す。この処理が可能なようにニューラルネットワークが構成されている。
FIG. 5 shows the processing configuration of the
図5に示すように、最初にオリジナル渋滞マップAとグローバルコンテキスト特徴マップCをそれぞれダウンサンプリングして、{-A,-C}∈R1×h/4×w/4を取得する。次に、これらをリシェープ(変形)して、2つの新たな特徴マップ{~A,~C}∈R1×nを得る。ここで、nはn=h/4×w/4であり、特徴マップのおけるピクセル数を示す。 As shown in FIG. 5, first, the original traffic congestion map A and the global context feature map C are each downsampled to obtain { −A , −C }∈R 1×h/4×w/4 . Next, these are reshaped (transformed) to obtain two new feature maps { ~ A, ~ C}∈R 1×n . Here, n is n=h/4×w/4 and indicates the number of pixels in the feature map.
図5及び下記の式(1)に示すように、~Aと、転置した~Cとの間で行列乗算を行い、ソフトマックス層によってコンテキストアテンションマップS∈Rn×nを計算する。 As shown in FIG. 5 and Equation (1) below, matrix multiplication is performed between ~ A and the transposed ~ C, and the context attention map S∈R n×n is calculated by the softmax layer.
S=Softmax(~CT×~A) (1)
コンテキスト情報を用いて渋滞領域を強化(明確化)するために、図5及び下記の式(2)に示すように、コンテキストアテンションマップSを~Aに乗算し、その積をR1×h/4×w/4にリシェープする。そして、-Aを加えて、コンテキストにより強化された渋滞マップ~AS∈R1×h/4×w/4を取得する。ここで、αは、0として初期化される学習可能な重みパラメータである。
S=Softmax( ~ C T × ~ A) (1)
In order to enhance (clarify) the congestion area using context information, as shown in FIG . Reshape to 4×w/4 . Then - add A to obtain the context-enhanced congestion map ~ A S ∈R 1×h/4×w/4 . Here, α is a learnable weight parameter initialized as 0.
~AS=α(Reshape(~A×S))+-A (2)
そして、~ASをサイズ変更して、最終的な強化された渋滞セグメンテーションの結果AS∈R1×h×wを得る。
~ A S = α (Reshape ( ~ A × S)) + - A (2)
Then resize ~ A S to obtain the final enhanced congestion segmentation result A S ∈R 1×h×w .
以上がコンテキストアテンションモジュール230の処理である。最後に、強化された渋滞セグメンテーションと、オリジナルの道路表面セグメンテーションとを結合(組み合わせ)し、それを3×3の畳み込み層に入力し、最終的な渋滞セグメンテーション結果を生成する。最終的な渋滞セグメンテーション結果において、例えば、空中写真の画像上で、道路領域が区分されて示されるととともに、その道路領域における渋滞領域及び渋滞以外の領域が区分して示される。
The above is the processing of the
(コンテキスト強化交通セグメンテーションモデルのまとめ)
以上説明したように、本実施の形態では、コンテキスト強化交通セグメンテーションモデルが、エンドツーエンドの手法で、空中写真の画像から交通渋滞と道路表面を分割(区分)する。「コンテキスト強化交通セグメンテーションモデル」は、コンテキストにより性能を強化した交通セグメンテーションモデルである。
(Summary of context-enhanced traffic segmentation model)
As described above, in this embodiment, the context-enhanced traffic segmentation model divides (classifies) traffic congestion and road surfaces from an aerial photographic image using an end-to-end method. The "context-enhanced traffic segmentation model" is a traffic segmentation model whose performance is enhanced by context.
本実施の形態におけるモデルは、明示的に交通渋滞と道路表面を分割することを可能にする2つのモジュール(オリジナル交通モジュール220とコンテキストアテンションモジュール230)から構成されている。
The model in this embodiment consists of two modules (
オリジナル交通モジュール220は、空中写真の画像におけるスケール変動問題を解決するためのモジュールである。すなわち、このモジュールでは、特徴ピラミッドに基づくマルチスケール特徴マップを利用して、畳み込み層221により更なる特徴を抽出する。そじて、融合層222によって異なるスケールの複数の特徴を融合し、交通渋滞と道路表面のオリジナル(初期)のセグメンテーションを得る。
The
コンテキストアテンションモジュール230は、交通渋滞の境界を強化する。コンテキストアテンションモジュール230は、アテンション計算ブロック250とそれに対応するグローバルコンテキスト生成器240から成る。特徴ピラミッドの最上位レベルの特徴マップは、最も強い意味情報を含んでいる。そこで、それをグローバルコンテキスト生成器240に入力し、ピラミッドプーリング演算を介してグローバルコンテキストマップを得る。その後、アテンション計算ブロック250において、グローバルコンテキストマップと交通渋滞のオリジナルセグメンテーションとの間のアテンションマップを計算する。最後に、アテンションマップを用いて交通渋滞の境界を強め(境界を明確化し)、最終的な交通渋滞セグメンテーション結果を得る。
これにより、道路表面と渋滞領域を同時にかつ正確に区分できる。また、空中写真の画像では、車両のスケールが空中から見た道路表面のスケールよりも小さく、車両のセグメント化が非常に困難であるというスケールの問題を解決する。
This allows the road surface and the congested area to be simultaneously and accurately classified. It also solves the problem of scale in aerial photographic images, where the scale of the vehicle is smaller than the scale of the road surface seen from the air, making segmentation of the vehicle very difficult.
(ハードウェア構成例)
情報処理装置100は、例えば、コンピュータにプログラムを実行させることにより実現できる。このコンピュータは、物理的なコンピュータであってもよいし、クラウド上の仮想マシンであってもよい。
(Hardware configuration example)
The information processing device 100 can be implemented, for example, by causing a computer to execute a program. This computer may be a physical computer or a virtual machine on the cloud.
すなわち、情報処理装置100は、コンピュータに内蔵されるCPUやメモリ等のハードウェア資源を用いて、情報処理装置100で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体(可搬メモリ等)に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。 That is, the information processing device 100 can be realized by using hardware resources such as a CPU and memory built into a computer to execute a program corresponding to the processing performed by the information processing device 100. . The above program can be recorded on a computer-readable recording medium (such as a portable memory) and can be stored or distributed. It is also possible to provide the above program through a network such as the Internet or e-mail.
図6は、上記コンピュータのハードウェア構成例を示す図である。図6のコンピュータは、それぞれバスBSで相互に接続されているドライブ装置1000、補助記憶装置1002、メモリ装置1003、CPU1004、インタフェース装置1005、表示装置1006、入力装置1007、出力装置1008等を有する。
FIG. 6 is a diagram showing an example of the hardware configuration of the computer. The computer in FIG. 6 includes a
当該コンピュータでの処理を実現するプログラムは、例えば、CD-ROM又はメモリカード等の記録媒体1001によって提供される。プログラムを記憶した記録媒体1001がドライブ装置1000にセットされると、プログラムが記録媒体1001からドライブ装置1000を介して補助記憶装置1002にインストールされる。但し、プログラムのインストールは必ずしも記録媒体1001より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置1002は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
A program for realizing processing by the computer is provided, for example, by a
メモリ装置1003は、プログラムの起動指示があった場合に、補助記憶装置1002からプログラムを読み出して格納する。CPU1004は、メモリ装置1003に格納されたプログラムに従って、情報処理装置100に係る機能を実現する。インタフェース装置1005は、ネットワークや各種計測装置、運動介入装置等に接続するためのインタフェースとして用いられる。表示装置1006はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置1007はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。出力装置1008は演算結果を出力する。
The
(実施の形態の効果)
本実施の形態に係る技術により、従来のように人の目で画像から道路と渋滞の情報を抽出するのではなく、自動的に道路の領域及び渋滞領域を出力することができる。また、従来の画像上のスケース変動問題(車が小さい、道路が大きいなど)を考慮して、高精度で画像から領域を分割できる。また、領域間を分割する境界線の部分も円滑に表示することができる。
(Effects of embodiment)
With the technology according to the present embodiment, road areas and congestion areas can be automatically output, instead of extracting road and congestion information from images with the human eye as in the past. In addition, it is possible to divide the image into regions with high precision, taking into account the problem of scale variation on conventional images (small cars, large roads, etc.). Furthermore, the boundary line that divides the regions can also be displayed smoothly.
また、本実施の形態に係る技術で得られるセグメンテーションマップにより、視覚的に、渋滞の場所と、渋滞している領域が占める道路領域に対する割合を把握できる。また、渋滞があっても通過可能な場所を把握できるので、例えば緊急車両が通過可能かどうかを判断できる。このような点は、従来技術における渋滞検知や密度推定よりも優れた点である。 Further, the segmentation map obtained by the technology according to the present embodiment allows visually understanding the location of traffic jams and the ratio of the area occupied by the traffic jam to the road area. Furthermore, even if there is traffic jam, it is possible to know which places are passable, so it can be determined, for example, whether an emergency vehicle can pass. These points are superior to conventional techniques for detecting traffic jams and estimating density.
(付記)
以上の実施形態に関し、更に以下の付記項を開示する。
(付記項1)
メモリと、
プロセッサと、を備え、
前記プロセッサは、
上空から撮影された画像を取得し、
ニューラルネットワークのモデルを用いて、前記画像から道路領域と渋滞領域を同時に区分し、
得られた区分結果を出力する
情報処理装置。
(付記項2)
前記モデルは、
前記画像から得られた複数の特徴マップを用いて、前記画像における道路領域と渋滞領域を区分する第1モジュールと、
前記複数の特徴マップのうちの特定の特徴マップを用いて、前記第1モジュールにより得られた渋滞領域を強化する第2モジュールと
を備える付記項1に記載の情報処理装置。
(付記項3)
前記複数の特徴マップは、前記モデルに含まれる特徴ピラミッドネットワークにより生成され、前記特定の特徴マップは、前記複数の特徴マップのうちの最上位レベルの特徴マップである
付記項2に記載の情報処理装置。
(付記項4)
前記第2モジュールは、
前記特定の特徴マップから大域的なコンテキストを生成するコンテキスト生成器と、
前記大域的なコンテキストと、前記第1モジュールにより得られた渋滞領域とを用いて、当該渋滞領域よりも精度の高い渋滞領域を生成するアテンション計算ブロックと
を備える付記項2又は3に記載の情報処理装置。
(付記項5)
情報処理装置が実行する領域区分方法であって、
上空から撮影された画像を取得する取得ステップと、
ニューラルネットワークのモデルを用いて、前記画像から道路領域と渋滞領域を同時に区分する計算ステップと、
前記計算ステップにより得られた区分結果を出力する出力ステップと
を備える領域区分方法。
(付記項6)
コンピュータを、付記項1ないし4のうちいずれか1項に記載の情報処理装置における各部として機能させるためのプログラムを記憶した非一時的記憶媒体。
(Additional note)
Regarding the above embodiments, the following additional notes are further disclosed.
(Additional note 1)
memory and
comprising a processor;
The processor includes:
Obtain images taken from above,
simultaneously classifying road areas and congestion areas from the image using a neural network model;
An information processing device that outputs the obtained classification results.
(Additional note 2)
The model is
a first module that classifies a road area and a traffic congestion area in the image using a plurality of feature maps obtained from the image;
The information processing device according to supplementary note 1, further comprising: a second module that enhances the congested area obtained by the first module using a specific feature map among the plurality of feature maps.
(Additional note 3)
The information processing according to appendix 2, wherein the plurality of feature maps are generated by a feature pyramid network included in the model, and the specific feature map is the highest level feature map among the plurality of feature maps. Device.
(Additional note 4)
The second module is
a context generator that generates a global context from the specific feature map;
the information according to supplementary note 2 or 3, comprising: an attention calculation block that uses the global context and the congestion area obtained by the first module to generate a congestion area with higher accuracy than the congestion area; Processing equipment.
(Additional note 5)
An area segmentation method executed by an information processing device, the method comprising:
an acquisition step of acquiring an image taken from above;
a calculation step of simultaneously classifying a road area and a traffic congestion area from the image using a neural network model;
An area segmentation method comprising: an output step of outputting the segmentation result obtained by the calculation step.
(Additional note 6)
A non-temporary storage medium storing a program for causing a computer to function as each part of the information processing apparatus according to any one of Supplementary Notes 1 to 4.
以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。 Although the present embodiment has been described above, the present invention is not limited to such specific embodiment, and various modifications and changes can be made within the scope of the gist of the present invention as described in the claims. It is possible.
100 情報処理装置
110 空中写真収集部
120 アルゴリズム計算部
130 出力処理部
140 学習部
210 特徴ピラミッドネットワーク
220 オリジナル交通モジュール
221 畳み込み層
222 融合層
230 コンテキストアテンションモジュール
240 グローバルコンテキスト生成器
250 アテンション計算ブロック
1000 ドライブ装置
1001 記録媒体
1002 補助記憶装置
1003 メモリ装置
1004 CPU
1005 インタフェース装置
1006 表示装置
1007 入力装置
1008 出力装置
100
1005
Claims (6)
ニューラルネットワークのモデルを用いて、前記画像から道路領域と渋滞領域を同時に区分する計算部と、
前記計算部により得られた区分結果を出力する出力処理部と
を備える情報処理装置。 an acquisition unit that acquires an image taken from the sky;
a calculation unit that simultaneously divides the image into a road area and a traffic congestion area using a neural network model;
An information processing device comprising: an output processing section that outputs the classification results obtained by the calculation section.
前記画像から得られた複数の特徴マップを用いて、前記画像における道路領域と渋滞領域を区分する第1モジュールと、
前記複数の特徴マップのうちの特定の特徴マップを用いて、前記第1モジュールにより得られた渋滞領域を強化する第2モジュールと
を備える請求項1に記載の情報処理装置。 The model is
a first module that classifies a road area and a traffic congestion area in the image using a plurality of feature maps obtained from the image;
The information processing apparatus according to claim 1, further comprising: a second module that uses a specific feature map among the plurality of feature maps to strengthen the congested area obtained by the first module.
請求項2に記載の情報処理装置。 The information processing according to claim 2, wherein the plurality of feature maps are generated by a feature pyramid network included in the model, and the specific feature map is a top-level feature map among the plurality of feature maps. Device.
前記特定の特徴マップから大域的なコンテキストを生成するコンテキスト生成器と、
前記大域的なコンテキストと、前記第1モジュールにより得られた渋滞領域とを用いて、当該渋滞領域よりも精度の高い渋滞領域を生成するアテンション計算ブロックと
を備える請求項2に記載の情報処理装置。 The second module includes:
a context generator that generates a global context from the specific feature map;
The information processing device according to claim 2, further comprising: an attention calculation block that uses the global context and the congestion area obtained by the first module to generate a congestion area with higher accuracy than the congestion area. .
上空から撮影された画像を取得する取得ステップと、
ニューラルネットワークのモデルを用いて、前記画像から道路領域と渋滞領域を同時に区分する計算ステップと、
前記計算ステップにより得られた区分結果を出力する出力ステップと
を備える領域区分方法。 An area segmentation method executed by an information processing device, the method comprising:
an acquisition step of acquiring an image taken from above;
a calculation step of simultaneously classifying a road area and a traffic congestion area from the image using a neural network model;
An area segmentation method comprising: an output step of outputting the segmentation result obtained by the calculation step.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022102136A JP2024002745A (en) | 2022-06-24 | 2022-06-24 | Information processing device, area division method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022102136A JP2024002745A (en) | 2022-06-24 | 2022-06-24 | Information processing device, area division method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024002745A true JP2024002745A (en) | 2024-01-11 |
Family
ID=89473032
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022102136A Pending JP2024002745A (en) | 2022-06-24 | 2022-06-24 | Information processing device, area division method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2024002745A (en) |
-
2022
- 2022-06-24 JP JP2022102136A patent/JP2024002745A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cortinhal et al. | Salsanext: Fast, uncertainty-aware semantic segmentation of lidar point clouds | |
CN108764063B (en) | Remote sensing image time-sensitive target identification system and method based on characteristic pyramid | |
US10430691B1 (en) | Learning method and learning device for object detector based on CNN, adaptable to customers' requirements such as key performance index, using target object merging network and target region estimating network, and testing method and testing device using the same to be used for multi-camera or surround view monitoring | |
CN105917354A (en) | Spatial pyramid pooling networks for image processing | |
US10423860B1 (en) | Learning method and learning device for object detector based on CNN to be used for multi-camera or surround view monitoring using image concatenation and target object merging network, and testing method and testing device using the same | |
US10387752B1 (en) | Learning method and learning device for object detector with hardware optimization based on CNN for detection at distance or military purpose using image concatenation, and testing method and testing device using the same | |
CN112734641A (en) | Training method and device of target detection model, computer equipment and medium | |
CN109886330B (en) | Text detection method and device, computer readable storage medium and computer equipment | |
CN111783779B (en) | Image processing method, apparatus and computer readable storage medium | |
CN115731533B (en) | Vehicle-mounted target detection method based on improved YOLOv5 | |
Pham et al. | Road damage detection and classification with yolov7 | |
US11443481B1 (en) | Reconstructing three-dimensional scenes portrayed in digital images utilizing point cloud machine-learning models | |
CN114612835A (en) | Unmanned aerial vehicle target detection model based on YOLOv5 network | |
US20220237896A1 (en) | Method for training a model to be used for processing images by generating feature maps | |
CN114066718A (en) | Image style migration method and device, storage medium and terminal | |
CN112115862B (en) | Congestion scene pedestrian detection method combined with density estimation | |
CN113052108A (en) | Multi-scale cascade aerial photography target detection method and system based on deep neural network | |
CN109919149A (en) | Object mask method and relevant device based on object detection model | |
CN112766409A (en) | Feature fusion method for remote sensing image target detection | |
EP3690735B1 (en) | Method and device for attention-driven resource allocation by using avm to thereby achieve safety of autonomous driving | |
CN116645592A (en) | Crack detection method based on image processing and storage medium | |
CN114519819B (en) | Remote sensing image target detection method based on global context awareness | |
WO2022199225A1 (en) | Decoding method and apparatus, and computer-readable storage medium | |
CN116670687A (en) | Method and system for adapting trained object detection models to domain offsets | |
CN112580656A (en) | End-to-end text detection method, system, terminal and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20220627 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20220627 |