JP2021527859A - Irregular shape segmentation in an image using deep region expansion - Google Patents

Irregular shape segmentation in an image using deep region expansion Download PDF

Info

Publication number
JP2021527859A
JP2021527859A JP2020556276A JP2020556276A JP2021527859A JP 2021527859 A JP2021527859 A JP 2021527859A JP 2020556276 A JP2020556276 A JP 2020556276A JP 2020556276 A JP2020556276 A JP 2020556276A JP 2021527859 A JP2021527859 A JP 2021527859A
Authority
JP
Japan
Prior art keywords
node
image
value
internal state
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020556276A
Other languages
Japanese (ja)
Inventor
デュフォール、ポール
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US16/014,801 external-priority patent/US10643092B2/en
Priority claimed from US16/014,785 external-priority patent/US10776923B2/en
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2021527859A publication Critical patent/JP2021527859A/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/187Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

画像内の対象の領域を決定するためのシステム。このシステムは、メモリおよび電子プロセッサを含む。システムに含まれる電子プロセッサは、メモリに接続され、空間格子のノードの内部状態を初期化するように構成される。空間格子の各ノードは、画像のピクセルに対応し、画像の隣のピクセルを表す少なくとも1つのノードに接続される。また、電子プロセッサは、ニューラル・ネットワークを使用し、空間的にゲーティングされる伝搬を使用して空間格子内の各ノードの内部状態を反復的に更新し、空間格子の収束でのノードの内部状態に基づいて画像内の対象の領域を識別するように構成される。一実施形態では、電子プロセッサは、画像の画像ピラミッドを作成するように構成される。 A system for determining the area of interest in an image. This system includes a memory and an electronic processor. The electronic processor included in the system is connected to memory and is configured to initialize the internal state of the nodes in the spatial grid. Each node in the spatial grid corresponds to a pixel in the image and is connected to at least one node that represents the pixel next to the image. The electronic processor also uses neural networks to iteratively update the internal state of each node in the spatial grid using spatially gated propagation, and the interior of the node in the convergence of the spatial grid. It is configured to identify the area of interest in the image based on the state. In one embodiment, the electronic processor is configured to create an image pyramid of images.

Description

本明細書に記載された実施形態は、生物医学画像などの画像のセグメント化に関連しており、特に、時間および空間の両方においてニューラル・ネットワークのゲーティング・データの伝搬を使用する画像のセグメント化に関連している。 The embodiments described herein relate to segmentation of images, such as biomedical images, and in particular, segments of images that use the propagation of neural network gating data both in time and space. It is related to the conversion.

本明細書に記載された実施形態は、回帰型ニューラル・ネットワーク(RNN:recurrent neural networks)および畳み込みニューラル・ネットワーク(CNN:convolutional neural networks)において使用される原理を結合する、新しいタイプのニューラル・ネットワーク・ユニットに関連している。RNNは、入力シーケンスを受信し、一度にシーケンスの1つの要素を読み取って処理する。RNNがシーケンス内の各要素を処理するときに、RNNは、シーケンスに関する知識を変更し、この知識は、RNNの内部状態に格納される。RNNは、入力シーケンスのすべてを読み取った後に、内部状態の一部または全部を使用して第2のシーケンスを出力するか、または単一の予測を行う。RNNの例は、1つまたは複数のLSTMセルを含んでいる長短期記憶(LSTM:Long Short-Term Memory)ニューラル・ネットワークである。各LSTMセルは、セルの前の状態を格納し、この前の状態は、LSTMニューラル・ネットワークの他のコンポーネントに提供され得る。各LSTMセルは、入力ゲート、忘却ゲート、および出力ゲートを含んでいる。LSTMは、消失する勾配に関連するRNNのトレーニングに伴う問題を解決するために導入された。 The embodiments described herein combine principles used in recurrent neural networks (RNNs) and convolutional neural networks (CNNs), a new type of neural network. -Related to the unit. The RNN receives the input sequence and reads and processes one element of the sequence at a time. As the RNN processes each element in the sequence, the RNN changes its knowledge about the sequence, and this knowledge is stored in the internal state of the RNN. After reading the entire input sequence, the RNN uses some or all of the internal state to output a second sequence or make a single prediction. An example of an RNN is a Long Short-Term Memory (LSTM) neural network containing one or more LSTM cells. Each LSTM cell stores the previous state of the cell, and this previous state may be provided to other components of the LSTM neural network. Each LSTM cell contains an input gate, an oblivion gate, and an output gate. LSTMs have been introduced to solve the problems associated with RNN training associated with disappearing gradients.

CNNは、フィルタ(カーネル)を入力(例えば、画像)に適用し、入力に関する予測を行う。1つの例では、この予測は、画像が一連のカテゴリのうちのどれに属するかである。フィルタは、入力画像内で検出されることがある特徴に対応する。例えば、画像がCNNに入力される場合、入力画像内の隣接するピクセルのブロックにフィルタが適用されて中間画像を生成し、この中間画像は、画像内の各位置で各特徴がどの程度強く表されるかを示す。特徴の内容は、特徴に関連付けられたフィルタの重みによって示される。この重みは、隣接するピクセルの各ブロックに含まれているピクセルに掛け合わされる。例えば、CNNへの入力が手書き数字である場合、CNNは、手書き数字を複数のカテゴリ(この場合、カテゴリは数字1〜9である)のうちの1つに属しているとして分類する。手書き数字のCNNの分類は、数字に関連付けられているとCNNが検出した画像の特徴、およびそれらの特徴が、手書き数字が数字1〜9のうちの1つであるということをどの程度強く示しているかに基づく。 The CNN applies a filter (kernel) to the input (eg, an image) to make predictions about the input. In one example, this prediction is which of a series of categories the image belongs to. Filters correspond to features that may be detected in the input image. For example, when an image is input to a CNN, a filter is applied to blocks of adjacent pixels in the input image to generate an intermediate image, which shows how strongly each feature is represented at each position in the image. Indicates whether it will be done. The content of a feature is indicated by the weight of the filter associated with the feature. This weight is multiplied by the pixels contained in each block of adjacent pixels. For example, if the input to the CNN is a handwritten digit, the CNN classifies the handwritten digit as belonging to one of a plurality of categories (in this case, the categories are numbers 1-9). The CNN classification of handwritten numbers indicates the features of the image that CNN has detected as being associated with the number, and how strongly those features indicate that the handwritten number is one of numbers 1-9. Based on what you are doing.

本明細書に記載された実施形態は、生物医学画像のセグメント化に関連している。生物医学画像のセグメント化は、画像(特に、医用画像)内の物体の境界を識別することを含む。以前は、画像内の物体を識別するために、領域拡張が使用された。領域拡張では、対象の物体内のどこかに、シード・ピクセルが配置される。シード・ピクセルは、画像内に配置された後に、類似する強度または明度の隣接するピクセルに、繰り返し広げられる。物体の境界に達したときに、ピクセルの拡張が止まる。領域拡張では、強度しきい値または明度しきい値を下回る低下によって、境界が定義されてよい。 The embodiments described herein relate to segmentation of biomedical images. Segmentation of a biomedical image involves identifying the boundaries of an object within the image (particularly a medical image). Previously, area expansion was used to identify objects in an image. Region expansion places seed pixels somewhere within the object of interest. Seed pixels are placed in the image and then repeatedly spread to adjacent pixels of similar intensity or brightness. When the boundary of the object is reached, the pixel expansion stops. For region expansion, boundaries may be defined by a drop below the intensity or lightness threshold.

領域拡張に伴う1つの問題は、医用画像内の隣接する明るいピクセルとのわずかな接続でさえ、対象の物体の外側への領域の拡張を引き起こす可能性があるということである。例えば、図1に示されているように、2つの明るい組織領域(肺の内部に位置する1つの組織領域および肺の外部に位置する1つの組織領域)が、小さい明るい組織の断片によって接続されている場合、領域拡張は、2つの明るい組織領域を同じ塊または物体に属しているとして誤って示す。したがって、多くの場合、領域拡張は破棄され、等位集合、条件付き確率場(CRF:conditional random fields)、能動輪郭、およびグラフ・カットなどの、より洗練された方法が好まれる。 One problem with region expansion is that even the slightest connection with adjacent bright pixels in a medical image can cause region expansion to the outside of the object of interest. For example, as shown in FIG. 1, two bright tissue regions (one tissue region located inside the lung and one tissue region located outside the lung) are connected by a small piece of bright tissue. If so, region expansion incorrectly indicates two bright tissue regions as belonging to the same mass or object. Therefore, region extensions are often discarded and more sophisticated methods such as stage sets, conditional random fields (CRFs), active contours, and graph cuts are preferred.

CNNは、ピクセルの隣接性の優位性を破棄する。むしろCNNは、規則性を有する物体を識別する。規則性を有している物体を使用して、ある種類の物体として物体を分類するように、CNNをトレーニングすることができる。しかしCNNは、腫瘤、病変などの、規則的でない形状を正確に認識してセグメント化することが、できないことがある。したがってCNNは、多くの場合、配列、強度などにおいて変化する形状などの、医用画像内の不規則な形状の境界を正確に決定することができない。 CNN discards the pixel adjacency advantage. Rather, the CNN identifies objects that have regularity. Objects that have regularity can be used to train CNNs to classify objects as a type of object. However, CNNs may not be able to accurately recognize and segment irregular shapes such as masses and lesions. Therefore, CNNs are often unable to accurately determine the boundaries of irregular shapes in medical images, such as shapes that vary in alignment, intensity, and so on.

したがって、本明細書に記載された実施形態は、不規則な形状の対象の物体の境界を識別するための以前の解決策に対応する、前述した問題に対する技術的解決策を提供する。具体的には、本明細書に記載された実施形態は、CNNの空間的接続性を、RNNにおいて使用される時間的ゲーティングと組み合わせ、画像内の不規則な構造をセグメント化するためのより高性能な方法を提供する。特に、本明細書に記載された実施形態は、前の内部状態、および分類されているピクセルに隣接するピクセルを表すノードの現在の値に基づいて画像内のピクセルを分類する、新しいタイプのユニットを提供する。この新しいタイプのユニットは、本明細書ではゲート付き時空間ユニット(gated spatiotemporal unit)と呼ばれ、通常はCNNに関連付けられる空間認識を含むゲート付き回帰型ユニットである。例えば、各時間ステップで、各ノードが、それ自体の前の内部状態または隣のノードのうちの1つの内部状態の値でその内部状態を更新するかどうかを決定する。 Accordingly, the embodiments described herein provide technical solutions to the aforementioned problems, corresponding to previous solutions for identifying boundaries of objects of irregular shape. Specifically, the embodiments described herein combine the spatial connectivity of CNNs with the temporal gating used in RNNs to better segment irregular structures within an image. Provides a high performance method. In particular, the embodiments described herein are a new type of unit that classifies pixels in an image based on its previous internal state and the current values of nodes that represent pixels adjacent to the pixel being classified. I will provide a. This new type of unit, referred to herein as a gated spatiotemporal unit, is a gated recurrent unit that includes spatial cognition, usually associated with a CNN. For example, at each time step, each node determines whether to update its internal state with the value of its previous internal state or one of its neighboring nodes.

したがって、本明細書に記載された方法およびシステムは、時間および空間の両方にわたって情報を伝搬するニューラル・ネットワークを提供する。単に時間にわたって情報の流れをゲーティングすることと比較して、時間および空間の両方にわたってゲーティングすることは、回帰型ユニットが、内部状態および画像内の周囲のピクセルの値に基づいて、ピクセルの内部状態に関する決定を行えるようにする。また、一部の実施形態では、ニューラル・ネットワークは、時間および空間の両方にわたって画像解像度間で情報を伝搬することができる。 Therefore, the methods and systems described herein provide a neural network that propagates information both in time and space. Gating over time and space, as opposed to simply gating the flow of information over time, allows the regression unit to be based on the internal state and the values of the surrounding pixels in the image. Allows you to make decisions about the internal state. Also, in some embodiments, the neural network can propagate information between image resolutions both in time and space.

下で詳細に説明されているように、本明細書に記載された実施形態は、機械学習を使用してアルゴリズムを学習する。具体的には、ネットワークは、内部状態に関連付けられた値が収束するまで更新される。これに対して、シングル・パス・ネットワークは関数を学習する。前述したように、本明細書における実施形態は、ピクセル間に広がる情報の量を制御するゲート付き時空間ユニットを提供する。下で詳細に説明されているように、一部の実施形態では、画像がシステムに入力され、システムが、複数の層を含んでいる画像ピラミッドを作成する。画像ピラミッドの各層は、入力画像を表す異なる数の変数を含む。ピラミッドの基部は、画像を表す多数の値を含む(言い換えると、基層は、高解像度で画像を表す)。ピラミッドの連続する各レベルで、画像を表すために、次第により少ない値が使用される(言い換えると、連続する各層は、直前の層より低い解像度で画像を表す)。画像ピラミッドは、システムが画像ピラミッドを利用しなかった場合より少ない反復回数で、画像の一部からの情報をより低い解像度に伝搬し、次に、画像の異なる部分においてより高い解像度に逆に情報を伝搬することを可能にする。これは、例えば、数千のピクセルを含む画像がシステムに入力される場合に有益である。そのような入力は、システムが予測を生成する前に、数千回の反復の実行を必要とすることがある。システムは、前の時間ステップからのシステムの内部状態および画像ピラミッド内の画像の表現を使用して、畳み込みを実行する。ネットワーク内のノードの現在の内部状態に含める値を決定するために、ゲート付き時空間ユニットによって畳み込み層の結果が使用される。ネットワーク内のノードの内部状態が収束するまで、ゲート付き時空間ユニット上で反復が実行される。システム内のノードの内部状態が収束したときに、各ピクセルが対象の物体に属する確率が計算される。具体的には、本明細書に記載された実施形態は、医用画像内の不規則な構造をセグメント化するためのネットワークを提供し、このネットワークは、データが格子上をどのように流れるかに関してインテリジェントであり、均質性などのその他の要因を学習して、ピクセルを広げる方法を決定する。しかし、これらの実施形態は、例えば気象予測、石油およびガスのモデル化などを含む、医用画像のセグメント化以外の領域において適用可能であってよい。 As described in detail below, the embodiments described herein use machine learning to learn algorithms. Specifically, the network is updated until the values associated with the internal state converge. Single-path networks, on the other hand, learn functions. As mentioned above, embodiments herein provide a gated spatiotemporal unit that controls the amount of information spread between pixels. As described in detail below, in some embodiments, an image is input to the system, which creates an image pyramid containing multiple layers. Each layer of the image pyramid contains a different number of variables that represent the input image. The base of the pyramid contains a number of values that represent the image (in other words, the base layer represents the image in high resolution). At each successive level of the pyramid, lesser values are used to represent the image (in other words, each successive layer represents the image at a lower resolution than the previous layer). The image pyramid propagates information from one part of the image to a lower resolution and then reverses to a higher resolution in different parts of the image with fewer iterations than if the system did not utilize the image pyramid. Allows to propagate. This is useful, for example, when an image containing thousands of pixels is input to the system. Such inputs may require thousands of iterations before the system can generate predictions. The system uses the internal state of the system from the previous time step and the representation of the image in the image pyramid to perform the convolution. The result of the convolution layer is used by the gated spatiotemporal unit to determine the values to include in the current internal state of the nodes in the network. Iterations are performed on the gated spatiotemporal unit until the internal state of the nodes in the network converges. When the internal states of the nodes in the system converge, the probability that each pixel belongs to the object of interest is calculated. Specifically, the embodiments described herein provide a network for segmenting irregular structures in medical images, which network relates to how data flows over a grid. Be intelligent and learn other factors such as homogeneity to determine how to spread pixels. However, these embodiments may be applicable in areas other than medical image segmentation, including, for example, weather forecasting, oil and gas modeling, and the like.

例えば、一実施形態は、医用画像内の対象の物体を識別するための方法を提供する。この方法は、空間格子のノードの内部状態を初期化することを含む。空間格子内の各ノードは、医用画像のピクセルに対応し、医用画像の隣のピクセルを表す少なくとも1つのノードに接続される。この方法は、ニューラル・ネットワークを使用し、空間的にゲーティングされる伝搬(spatially gated propagation)を使用して空間格子内のノードの内部状態を反復的に更新することも含む。各反復で、各ノードが、前の反復からのノードの値、前の反復からの隣のノードの値、およびノードの新しい値から成る群から選択された少なくとも1つに基づいて、その内部状態を更新する。この方法は、空間格子の収束でのノードの値に基づいて、医用画像内の対象の物体を識別することをさらに含む。 For example, one embodiment provides a method for identifying an object of interest in a medical image. This method involves initializing the internal state of the nodes in the spatial grid. Each node in the spatial grid corresponds to a pixel in the medical image and is connected to at least one node that represents the pixel next to the medical image. This method also involves using neural networks to iteratively update the internal state of nodes in a spatial lattice using spatially gated propagation. At each iteration, each node has its internal state based on at least one selected from the group consisting of the value of the node from the previous iteration, the value of the adjacent node from the previous iteration, and the new value of the node. To update. This method further comprises identifying the object of interest in the medical image based on the values of the nodes in the convergence of the spatial grid.

別の実施形態も、医用画像内の対象の物体を識別するための方法を提供する。しかし、この実施形態によって提供される方法は、医用画像の画像ピラミッドを作成することを含む。作成された画像ピラミッドは複数の層を含んでおり、各層は複数の値を含んでおり、各値は、医用画像内の1つまたは複数のピクセルのブロックを表す。画像ピラミッド内の連続する各層は、直前の層より少ない値を含む。この方法は、画像ピラミッドの層ごとに、空間格子のノードの内部状態を初期化することも含む。空間格子内の各ノードは、医用画像内の1つまたは複数のピクセルのブロックを表しており、医用画像内の1つまたは複数のピクセルの隣のブロックを表す少なくとも1つのノードに接続される。この方法は、画像ピラミッドの層ごとに、ニューラル・ネットワークを使用し、空間的にゲーティングされる伝搬を使用して空間格子内のノードの内部状態を反復的に更新することも含む。各反復で、各ノードが、前の反復からのノードの値、前の反復からの隣のノードの値、およびノードの新しい値から成る群から選択された少なくとも1つに基づいて、その内部状態を更新する。この方法は、画像ピラミッドの第1の層に含まれる値を表すノードを含んでいる空間格子の収束でのノードの値に基づいて、医用画像内の対象の物体を識別することをさらに含む。 Another embodiment also provides a method for identifying an object of interest in a medical image. However, the method provided by this embodiment involves creating an image pyramid of medical images. The image pyramid created contains multiple layers, each layer containing multiple values, each value representing a block of one or more pixels in a medical image. Each contiguous layer in the image pyramid contains fewer values than the previous layer. This method also includes initializing the internal state of the nodes of the spatial grid for each layer of the image pyramid. Each node in the spatial grid represents a block of one or more pixels in the medical image and is connected to at least one node that represents the block next to the one or more pixels in the medical image. This method also includes using neural networks for each layer of the image pyramid to iteratively update the internal state of the nodes in the spatial lattice using spatially gated propagation. At each iteration, each node has its internal state based on at least one selected from the group consisting of the value of the node from the previous iteration, the value of the adjacent node from the previous iteration, and the new value of the node. To update. The method further comprises identifying the object of interest in the medical image based on the values of the nodes in the convergence of the spatial grid containing the nodes representing the values contained in the first layer of the image pyramid.

一実施形態は、画像内の対象の領域を決定するためのシステムを提供する。このシステムは、メモリおよび電子プロセッサを含む。システムに含まれる電子プロセッサは、メモリに接続され、空間格子のノードの内部状態を初期化するように構成される。空間格子の各ノードは、画像のピクセルに対応し、画像の隣のピクセルを表す少なくとも1つのノードに接続される。また、電子プロセッサは、ニューラル・ネットワークを使用し、空間的にゲーティングされる伝搬を使用して空間格子内の各ノードの内部状態を反復的に更新し、空間格子の収束でのノードの内部状態に基づいて画像内の対象の領域を識別するように構成される。 One embodiment provides a system for determining a region of interest in an image. This system includes a memory and an electronic processor. The electronic processor included in the system is connected to memory and is configured to initialize the internal state of the nodes in the spatial grid. Each node in the spatial grid corresponds to a pixel in the image and is connected to at least one node that represents the pixel next to the image. The electronic processor also uses neural networks to iteratively update the internal state of each node in the spatial grid using spatially gated propagation, and the interior of the node in the convergence of the spatial grid. It is configured to identify the area of interest in the image based on the state.

別の実施形態も、画像内の対象の領域を決定するためのシステムを提供する。前述した実施形態のシステムと同様に、この実施形態において説明されるシステムも、メモリおよびメモリに接続された電子プロセッサを含む。しかし、この実施形態によって提供されるシステムの電子プロセッサは、画像の画像ピラミッドを作成するように構成される。画像ピラミッドは、複数の層を含む。画像ピラミッドの層ごとに、電子プロセッサは、空間格子のノードの内部状態を初期化し、ニューラル・ネットワークを使用し、空間的にゲーティングされる伝搬を使用して空間格子内の各ノードの内部状態を反復的に更新するように構成される。空間格子内の各ノードは、画像内の1つまたは複数のピクセルのブロックを表しており、画像内の1つまたは複数のピクセルの隣のブロックを表す少なくとも1つのノードに接続される。また、電子プロセッサは、画像ピラミッドの第1の層に含まれる値を表すノードを含んでいる空間格子の収束でのノードの内部状態に基づいて、画像内の対象の領域を識別するように構成される。 Another embodiment also provides a system for determining a region of interest in an image. Like the systems of the embodiments described above, the systems described in this embodiment also include memory and an electronic processor connected to the memory. However, the electronic processor of the system provided by this embodiment is configured to create an image pyramid of images. The image pyramid contains multiple layers. For each layer of the image pyramid, the electronic processor initializes the internal state of the nodes in the spatial grid, uses a neural network, and uses spatially gated propagation to create the internal state of each node in the spatial grid. Is configured to be updated iteratively. Each node in the spatial grid represents a block of one or more pixels in the image and is connected to at least one node that represents the next block of one or more pixels in the image. The electronic processor is also configured to identify a region of interest in the image based on the internal state of the node at the convergence of the spatial grid containing the node representing the values contained in the first layer of the image pyramid. Will be done.

一実施形態は、一連の機能を実行するために電子プロセッサによって実行できる命令を含んでいる非一時的なコンピュータ可読媒体を提供する。一連の機能は、空間格子のノードの内部状態を初期化することを含む。各ノードは、画像のピクセルを表しており、画像の少なくとも1つの隣のピクセルに接続される。一連の機能は、ニューラル・ネットワークを使用し、空間的にゲーティングされる伝搬を使用して空間格子内のノードの内部状態を反復的に更新することも含む。各反復で、各ノードが、前の反復からのノードの値、前の反復からの隣のノードの値、またはノードの新しい値から成る群から選択された少なくとも1つに基づいて、その内部状態を更新する。一連の機能は、空間格子の収束でのノードの値に基づいて、画像内の対象の物体を識別することをさらに含む。 One embodiment provides a non-transitory computer-readable medium containing instructions that can be executed by an electronic processor to perform a set of functions. The set of functions involves initializing the internal state of the nodes in the spatial grid. Each node represents a pixel in the image and is connected to at least one adjacent pixel in the image. A set of functions also includes using neural networks to iteratively update the internal state of nodes in a spatial lattice using spatially gated propagation. At each iteration, each node has its internal state based on at least one selected from the group consisting of the value of the node from the previous iteration, the value of the adjacent node from the previous iteration, or the new value of the node. To update. The set of functions further includes identifying objects of interest in the image based on the values of the nodes in the convergence of the spatial grid.

別の実施形態も、一連の機能を実行するために電子プロセッサによって実行できる命令を含んでいる非一時的なコンピュータ可読媒体を提供する。しかし、前述した実施形態における一連の機能とは異なり、この実施形態の電子プロセッサによって実行される一連の機能は、画像の画像ピラミッドを作成することを含む。作成された画像ピラミッドは複数の層を含んでおり、各層は複数の値を含んでおり、各値は、画像内の1つまたは複数のピクセルのブロックを表す。画像ピラミッド内の連続する各層は、直前の層より少ない値を含む。一連の機能は、画像ピラミッドの層ごとに、空間格子のノードの内部状態を初期化することも含む。画像ピラミッドの各ノードは、画像内の1つまたは複数のピクセルのブロックを表しており、画像内の1つまたは複数のピクセルの隣のブロックを表す少なくとも1つのノードに接続される。一連の機能は、画像ピラミッドの層ごとに、ニューラル・ネットワークを使用し、空間的にゲーティングされる伝搬を使用して空間格子内のノードの内部状態を反復的に更新することも含む。各反復で、各ノードが、前の反復からのノードの値、前の反復からの隣のノードの値、またはノードの新しい値から成る群から選択された少なくとも1つに基づいて、その内部状態を更新する。一連の機能は、画像ピラミッドの第1の層に含まれる値を表すノードを含んでいる空間格子の収束でのノードの値に基づいて、画像内の対象の物体を識別することをさらに含む。 Another embodiment also provides a non-transitory computer-readable medium containing instructions that can be executed by an electronic processor to perform a set of functions. However, unlike the set of functions in the embodiments described above, the set of functions performed by the electronic processor of this embodiment involves creating an image pyramid of images. The image pyramid created contains multiple layers, each layer containing multiple values, each value representing a block of one or more pixels in the image. Each contiguous layer in the image pyramid contains fewer values than the previous layer. The set of functions also includes initializing the internal state of the nodes of the spatial grid for each layer of the image pyramid. Each node in the image pyramid represents a block of one or more pixels in the image and is connected to at least one node that represents the next block of one or more pixels in the image. The set of functions also includes using neural networks for each layer of the image pyramid to iteratively update the internal state of the nodes in the spatial lattice using spatially gated propagation. At each iteration, each node has its internal state based on at least one selected from the group consisting of the value of the node from the previous iteration, the value of the adjacent node from the previous iteration, or the new value of the node. To update. The set of functions further includes identifying objects of interest in the image based on the values of the nodes in the convergence of the spatial grid containing the nodes representing the values contained in the first layer of the image pyramid.

対象の物体を識別するために領域拡張が適用された医用画像を示す図である。It is a figure which shows the medical image which the area expansion was applied to identify the object of interest. 画像内の対象の領域を決定するためのシステムを示す図である。It is a figure which shows the system for determining the area of interest in an image. 図2のシステムに含まれているニューラル・ネットワークを示す図である。It is a figure which shows the neural network included in the system of FIG. ゲート付き時空間ユニット内のノードへの入力の例を示す図である。It is a figure which shows the example of the input to the node in the space-time unit with a gate. 図4のニューラル・ネットワークが入力として受信する医用画像の例を示す図である。It is a figure which shows the example of the medical image which the neural network of FIG. 4 receives as an input. 図4のニューラル・ネットワークが図5の医用画像内で検出する対象の領域の例を示す図である。It is a figure which shows the example of the area of interest which the neural network of FIG. 4 detects in the medical image of FIG.

以下の説明および添付の図面では、1つまたは複数の実施形態が説明され、図示される。これらの実施形態は、本明細書において提供される特定の詳細に限定されず、さまざまな方法で変更されてよい。さらに、本明細書に記載されていない他の実施形態が存在してよい。また、1つのコンポーネントによって実行されるとして本明細書において説明された機能が、複数のコンポーネントによって分散方式で実行されてよい。同様に、複数のコンポーネントによって実行される機能が、単一のコンポーネントによって統合されて実行されてよい。同様に、特定の機能を実行するとして説明されたコンポーネントが、本明細書に記載されていない追加の機能を実行してもよい。例えば、特定の方法で「構成された」デバイスまたは構造は、少なくともその方法で構成されるが、示されていない方法で構成されてもよい。さらに、本明細書に記載された一部の実施形態は、非一時的なコンピュータ可読媒体に格納された命令を実行することによって、説明された機能を実行するように構成された1つまたは複数の電子プロセッサを含んでよい。同様に、本明細書に記載された実施形態は、説明された機能を実行するために1つまたは複数の電子プロセッサによって実行できる命令を格納する非一時的なコンピュータ可読媒体として実装されてよい。本出願において使用されるとき、「非一時的なコンピュータ可読媒体」は、すべてのコンピュータ可読媒体を含むが、一過性の伝搬信号では構成されない。したがって、非一時的なコンピュータ可読媒体は、例えば、ハード・ディスク、CD−ROM、光ストレージ・デバイス、磁気ストレージ・デバイス、ROM(Read Only Memory:読み取り専用メモリ)、RAM(Random Access Memory:ランダム・アクセス・メモリ)、レジスタ・メモリ、プロセッサのキャッシュ、またはこれらの任意の組み合わせを含んでよい。 In the following description and accompanying drawings, one or more embodiments will be described and illustrated. These embodiments are not limited to the particular details provided herein and may be modified in various ways. In addition, there may be other embodiments not described herein. Also, the functions described herein as being performed by one component may be performed by a plurality of components in a distributed manner. Similarly, functions performed by multiple components may be integrated and performed by a single component. Similarly, a component described as performing a particular function may perform additional functions not described herein. For example, a device or structure "configured" in a particular way may be constructed in at least that way, but in a manner not shown. In addition, some embodiments described herein are configured to perform the functions described by executing instructions stored on a non-transitory computer-readable medium. Electronic processor may be included. Similarly, the embodiments described herein may be implemented as a non-transitory computer-readable medium containing instructions that can be executed by one or more electronic processors to perform the functions described. As used in this application, "non-transitory computer-readable medium" includes all computer-readable media, but does not consist of transient propagating signals. Therefore, non-temporary computer-readable media include, for example, hard disks, CD-ROMs, optical storage devices, magnetic storage devices, ROMs (Read Only Memory), RAMs (Random Access Memory). It may include access memory), register memory, processor cache, or any combination thereof.

加えて、本明細書において使用される表現および用語は、説明を目的としており、制限と見なされるべきではない。例えば、本明細書における「含んでいる」、「包含している」、「備えている」、「有している」、およびこれらの変形の使用は、その後に示された項目およびそれらと同等のものに加えて、追加の項目を包含するよう意図されている。「接続された」および「結合された」という用語は、広範囲に使用され、直接的および間接的に接続することおよび結合することの両方を包含する。さらに、「接続された」および「結合された」は、物理的または機械的接続または結合に制限されず、直接的または間接的のいずれであろうと、電気的接続または電気的結合を含むことができる。加えて、有線接続、無線接続、またはこれらの組み合わせを使用して、電子通信および電子通知が実行されてよく、さまざまな種類のネットワーク、通信チャネル、および接続を経由して、直接的に、または1つまたは複数の仲介デバイスを介して送信されてよい。さらに、本明細書では、第1および第2、上部および下部などの関係を示す用語が、そのような実体または動作の間のそのような実際の関係または順序を必ずしも必要としないか、または意味せずに、ある実体または動作を別の実体または動作と区別するために、単独で使用されることがある。 In addition, the expressions and terms used herein are for illustration purposes only and should not be considered restrictions. For example, the use of "includes", "includes", "provides", "has", and variations thereof herein are the items and equivalents set forth thereafter. It is intended to include additional items in addition to those of. The terms "connected" and "bonded" are widely used and include both direct and indirect connection and connection. Furthermore, "connected" and "bonded" are not limited to physical or mechanical connections or connections and may include electrical connections or electrical connections, whether direct or indirect. can. In addition, wire and wireless connections, or combinations thereof, may be used to perform electronic communications and electronic notifications, either directly or via various types of networks, communication channels, and connections. It may be transmitted via one or more intermediary devices. Moreover, as used herein, terms indicating relationships such as first and second, top and bottom do not necessarily require or mean such an actual relationship or order between such entities or actions. Instead, it may be used alone to distinguish one entity or action from another.

前述したように、生物医学画像のセグメント化は、対象の物体を表す画像内のピクセルを識別しようとし、物体に対するさまざまな計算およびデータ処理(例えば、体積計算など)を実行できるようにする。しかし、画像のセグメント化を実行するための多くの手法は、一貫性のある形状および状況を識別することに頼る。例えば、前述したように、CNNは、CNNが認識するようにトレーニングされている画像内の形状および物体を認識することにおいて優れているが、CNNは、画像内の不規則な形状を認識するのが不得意である。したがって、一貫性のある形状および状況を識別することに頼る手法は、腫瘤、病変などの不規則な物体の識別においては、効果的でないことがある。 As mentioned above, segmentation of biomedical images attempts to identify pixels in an image that represent an object of interest, allowing various calculations and data processing (eg, volumetric calculations) to be performed on the object. However, many techniques for performing image segmentation rely on identifying consistent shapes and situations. For example, as mentioned above, CNNs are good at recognizing shapes and objects in images that are trained to be recognized by CNNs, whereas CNNs recognize irregular shapes in images. Is not good at. Therefore, techniques that rely on identifying consistent shapes and situations may not be effective in identifying irregular objects such as tumors and lesions.

他の手法は、画像内の対象の物体の境界を決定するために、ピクセルが広がることに頼る。前述したように、領域拡張は、規則性に頼らず、境界が識別されるまで、シード・ピクセルを隣接するピクセルに広げる。したがって、対象の物体の形状は、領域拡張の性能に影響を与えない。しかし、図1に示されているように、物体が明確に定義された境界を有していない場合(小さい接続によってであっても、物体が隣接する明るい組織に接続されている場合など)、領域拡張は、真の境界の外側に、物体を不適切に拡張することがある。 Other techniques rely on pixel expansion to determine the boundaries of the object of interest in the image. As mentioned above, region expansion does not rely on regularity and extends seed pixels to adjacent pixels until a boundary is identified. Therefore, the shape of the object of interest does not affect the performance of region expansion. However, as shown in FIG. 1, if the object does not have well-defined boundaries (for example, if the object is connected to adjacent bright tissue, even by a small connection). Region expansion can improperly extend an object outside its true boundaries.

前述した手法の欠陥を解決するために、本明細書に記載された実施形態は、CNNおよびRNNの利点を時空間ユニットにおいて組み合わせ、画像内の不規則な物体の識別を改善する。具体的には、下で詳細に説明されているように、本明細書に記載された実施形態は、空間的にゲーティングされる伝搬を採用する。ゲーティングは、(前の状態および新たに受信された情報に基づいて)システムの新しい状態を生成するネットワークの1つの部分と、この新しい状態をゲーティングし、新しい状態が使用されて時間において前方に伝搬されるかどうかを決定する、ネットワークの別の部分とを含む。本明細書において説明されているように、ピクセルおよびピクセルの最も近い隣の直前の内部状態が、ゲーティングされ、現在の時間ステップでのピクセルの内部状態を決定するために使用される。したがって、本明細書に記載されたシステムおよび方法は、空間および時間の両方にわたって値を伝搬する。さらに、前述した画像ピラミッドの作成によって、異なる画像解像度にわたる値の伝搬を可能にする。 To solve the deficiencies of the methods described above, the embodiments described herein combine the advantages of CNNs and RNNs in a spatiotemporal unit to improve the identification of irregular objects in an image. Specifically, as described in detail below, the embodiments described herein employ spatially gated propagation. Gating is a part of the network that creates a new state of the system (based on the previous state and newly received information) and gating this new state, and the new state is used forward in time. Includes another part of the network that determines if it is propagated to. As described herein, the pixel and the nearest immediately preceding internal state of the pixel are gated and used to determine the internal state of the pixel at the current time step. Therefore, the systems and methods described herein propagate values over both space and time. In addition, the creation of the image pyramid described above allows the propagation of values across different image resolutions.

図2は、ニューラル・ネットワークを実装するためのシステム200を示している。ニューラル・ネットワークは、受信された入力に関する出力を予測するために非線形ユニットの1つまたは複数の層を採用する機械学習モデルである。一部のニューラル・ネットワークは、入力層および出力層に加えて、1つまたは複数の隠れ層を含む。各隠れ層の出力は、ネットワーク内の次の層(次の隠れ層または出力層)への入力として使用される。ネットワークの各層は、パラメータの各セットの現在の値に従って、受信された入力から出力を生成する。 FIG. 2 shows a system 200 for implementing a neural network. A neural network is a machine learning model that employs one or more layers of nonlinear units to predict the output for a received input. Some neural networks include one or more hidden layers in addition to the input and output layers. The output of each hidden layer is used as an input to the next layer (next hidden or output layer) in the network. Each layer of the network produces an output from the received input according to the current value of each set of parameters.

図2に示されているように、システム200は、電子プロセッサ204およびメモリ206を含んでいるコンピューティング・デバイス202を含んでいる。電子プロセッサ204およびメモリ206は、無線によって、有線通信チャネルもしくはバスを経由して、またはこれらの組み合わせによって、通信する。コンピューティング・デバイス202は、さまざまな構成において、図2に示されているコンポーネント以外の追加のコンポーネントを含んでよい。例えば、一部の実施形態では、コンピューティング・デバイス202は、複数の電子プロセッサ、複数のメモリ・モジュール、またはこれらの組み合わせを含む。また、一部の実施形態では、コンピューティング・デバイス202は、コンピューティング・デバイス202がネットワーク、周辺機器などと通信できるようにする、1つまたは複数の入出力インターフェイスを含む。 As shown in FIG. 2, the system 200 includes a computing device 202 that includes an electronic processor 204 and a memory 206. The electronic processor 204 and the memory 206 communicate wirelessly, via a wired communication channel or bus, or by a combination thereof. The computing device 202 may include additional components in various configurations other than those shown in FIG. For example, in some embodiments, the computing device 202 includes a plurality of electronic processors, a plurality of memory modules, or a combination thereof. Also, in some embodiments, the computing device 202 includes one or more input / output interfaces that allow the computing device 202 to communicate with a network, peripherals, and the like.

コンピューティング・デバイス202によって実行されるとして本明細書において説明されている機能が、さまざまな地理的位置にある複数のコンピューティング・デバイスによって分散的に実行されてよいということが、理解されるべきである。例えば、コンピューティング・デバイス202によって実行されるとして本明細書において説明されている機能は、クラウド・コンピューティング環境に含まれている複数のコンピューティング・デバイス202によって実行されてよい。電子プロセッサ204は、マイクロプロセッサ、特定用途向け集積回路(ASIC:application-specific integrated circuit)などであってよい。電子プロセッサ204は、通常、本明細書に記載された機能を含む一連の機能を実行するためのソフトウェア命令を実行するように構成される。メモリ206は、非一時的なコンピュータ可読媒体を含み、電子プロセッサ204によって実行できる命令を含むデータを格納する。例えば、図2に示されているように、メモリ206は、電子プロセッサ204によって実行されるコンピュータ・プログラムを含んでいるニューラル・ネットワーク208を格納する。 It should be understood that the functions described herein as being performed by computing device 202 may be performed in a distributed manner by multiple computing devices at different geographic locations. Is. For example, a function described herein as being performed by a computing device 202 may be performed by a plurality of computing devices 202 included in a cloud computing environment. The electronic processor 204 may be a microprocessor, an application-specific integrated circuit (ASIC), or the like. The electronic processor 204 is typically configured to execute software instructions for performing a set of functions, including the functions described herein. The memory 206 includes a non-transitory computer-readable medium and stores data including instructions that can be executed by the electronic processor 204. For example, as shown in FIG. 2, memory 206 stores a neural network 208 containing a computer program executed by electronic processor 204.

図3は、電子プロセッサ204が本明細書に記載された方法を実行するために実行する、ニューラル・ネットワーク208の例の視覚的表現を示している。図3に示されているように、電子プロセッサ204によって実行されたときに、ニューラル・ネットワーク208は、入力を受信して出力305を生成する機械学習システムを提供する。1つの例として、入力は、生物医学画像などの画像(入力画像300)、または別の種類の多次元データを含み、出力305は、同様に、画像または別の種類の多次元データを含む。 FIG. 3 shows a visual representation of an example of a neural network 208 that the electronic processor 204 performs to perform the methods described herein. As shown in FIG. 3, the neural network 208 provides a machine learning system that receives inputs and produces outputs 305 when executed by electronic processor 204. As one example, the input includes an image such as a biomedical image (input image 300), or another type of multidimensional data, and the output 305 also contains an image or another type of multidimensional data.

図3に示されているように、入力画像300が、ニューラル・ネットワーク208の第1の層310に入力される。単一の層として第1の層310が示されているが、これは単に例示を目的としており、第1の層310が任意の数の層を含んでよいということが、理解されるべきである。第1の層310では、ニューラル・ネットワーク208が、各ピクセルの明るさを表す値に対して、複数の畳み込みを実行してよい。他の実施形態では、下で説明されているように、ニューラル・ネットワーク208が、第1の層310内で複数の畳み込みを実行し、入力画像300(I)から画像ピラミッド315を作成してよい。 As shown in FIG. 3, the input image 300 is input to the first layer 310 of the neural network 208. Although the first layer 310 is shown as a single layer, it is for illustration purposes only and it should be understood that the first layer 310 may include any number of layers. be. In the first layer 310, the neural network 208 may perform a plurality of convolutions on a value representing the brightness of each pixel. In another embodiment, the neural network 208 performs a plurality of convolutions within the first layer 310 to create an image pyramid 315 from the input image 300 (I 0), as described below. good.

画像ピラミッド315は、入力画像300から畳み込まれたテンソル(I−I)のシーケンスである。l=1の場合に生成されたテンソルは、入力画像300(I)と同じ空間的次元を有するが、その後の畳み込み/縮小ごとに、テンソルのサイズが半分になる。したがって、lの値ごとに、テンソルは異なる解像度を有し、テンソルIが最高の解像度を有しており、テンソルIが最低の解像度を有している。次の方程式は、第1の層310において実行される、画像ピラミッド315を作成するプロセスを示している。 The image pyramid 315 is a sequence of tensors (I 1- I l ) convoluted from the input image 300. The tensor generated when l = 1 has the same spatial dimension as the input image 300 (I 0 ), but the size of the tensor is halved with each subsequent convolution / reduction. Therefore, for each value of l, the tensor has a different resolution, the tensor I 1 has the highest resolution, and the tensor Il has the lowest resolution. The following equation shows the process of creating the image pyramid 315, which is performed in the first layer 310.

Figure 2021527859
Figure 2021527859

Figure 2021527859


Figure 2021527859


Figure 2021527859
Figure 2021527859

演算子*は、畳み込み演算を表している。例えば、方程式A*Bは、入力BとカーネルAの間の畳み込みを表す。 The operator * represents a convolution operation. For example, equation A * B represents a convolution between input B and kernel A.

は、元の入力画像300を表す変数である。Iは次元N×N×1を有する。言い換えると、入力画像300は、N個の行、N個の列、および(この実施形態例では、入力画像300がグレースケール画像であるため)1つのチャネルを有する。 I 0 is a variable representing the original input image 300. I 0 has dimensions N 0 × N 0 × 1. In other words, the input image 300 has N 0 rows, N 0 columns, and one channel (because the input image 300 is a grayscale image in this embodiment).

は、入力画像300(I)に対して1つまたは複数の縮小が実行された後に生成された画像データ(テンソル)の中間形態を表す変数である。前述したように、l>1である場合、Iは入力画像300(I)より低い解像度を有する。Iは次元N×N×Cを有し、N=2−(l−1)であり、Cはチャネルの数である。 Il is a variable representing an intermediate form of image data (tensor) generated after one or more reductions have been performed on the input image 300 (I 0). As described above, if a l> 1, I l has a lower than the input image 300 (I 0) resolution. Il has dimensions N l × N l × C, N l = 2- (l-1) N 0 , and C is the number of channels.

Figure 2021527859
は、入力画像データの次元を維持する畳み込み演算子(カーネル)を表す変数である。入力画像データは次元N×N×Cを有し、一方、出力画像データは次元N×N×Cを有する。Kは、例えばAlexNet、DenseNet、またはある範囲の他のアーキテクチャにおけるように配置された複数の連続的な畳み込み演算の組み合わせ、および畳み込み演算子の学習可能なパラメータを表してよい。
Figure 2021527859
Is a variable that represents a convolution operator (kernel) that maintains the dimensions of the input image data. Input image data has a dimension N l × N l × C I , while the output image data has a dimension N l × N l × C 0 . K may represent a combination of multiple consecutive convolution operations arranged, for example in AlexNet, DenseNet, or some other architecture in a range, and the learnable parameters of the convolution operator.

Figure 2021527859
は、入力画像データの次元を半分に縮小する畳み込み演算子を表す変数である。入力画像データは次元Nl−1×Nl−1×Cを有し、一方、出力画像データは次元N×N×Cを有する。Kと同様に、Dは、例えばAlexNet、DenseNet、またはある範囲の他のアーキテクチャにおけるように配置された複数の連続的な畳み込み演算、および畳み込み演算子の学習可能なパラメータを表してよい。しかし、畳み込み演算子Dは、入力画像データの次元を半分に縮小する最大プーリング層またはストライド畳み込み層も表す。
Figure 2021527859
Is a variable representing a convolution operator that reduces the dimension of the input image data in half. Input image data has a dimension N l-1 × N l- 1 × C I, while the output image data has a dimension N l × N l × C 0 . Like K, D may represent a number of consecutive convolution operations arranged, such as in AlexNet, DenseNet, or some other architecture, and the learnable parameters of the convolution operator. However, the convolution operator D also represents a maximum pooling layer or stride convolution layer that reduces the dimension of the input image data in half.

画像ピラミッド315のレベルごとに計算されたテンソルが、第2の層320に供給される。第2の層320において実行される動作を示す方程式は、次のとおりである。 A tensor calculated for each level of the image pyramid 315 is supplied to the second layer 320. The equation indicating the operation performed in the second layer 320 is as follows.

Figure 2021527859
Figure 2021527859

やはり、演算子*は畳み込み演算子を表し、Iは、入力画像300(I)に対して1つまたは複数の縮小が実行された後に生成された画像データ(テンソル)の中間形態を表す変数である。 Again, operator * represents a convolution operator, I l represents an intermediate form of the input image 300 image data that is generated after one or more reduced is performed on (I 0) (tensor) It is a variable.

[A、B]は、テンソル(例えば、AおよびB)間の連結動作である。2つのテンソルに対して実行される連結動作は、テンソルの各々に含まれているチャネルを結合する。例えば、テンソルAが次元M×M×Cを有しており、テンソルBが次元M×M×Cを有している場合、[A、B]の出力は次元M×M×(C+C)を有する。 [A, B] is a connection operation between tensors (for example, A and B). The concatenation operation performed on the two tensors joins the channels contained in each of the tensors. For example, if the tensor A has the dimension M × M × C 1 and the tensor B has the dimension M × M × C 2 , the output of [A, B] is the dimension M × M × (C). It has 1 + C 2 ).

Figure 2021527859
は、解像度lおよび時間ステップtでの空間格子内のノードごとに内部状態を保持するテンソル322である。前述したように、空間格子内の各ノードの内部状態が、各時間ステップで更新される。テンソル322は、次元N×N×Cを有する。したがって、解像度lで画像の1つまたは複数のピクセルの各ブロックを表すC個の変数が存在する。
Figure 2021527859
Is a tensor 322 that holds an internal state for each node in the spatial grid at resolution l and time step t. As mentioned above, the internal state of each node in the spatial grid is updated at each time step. Tensor 322 has a dimension N l × N l × C H . Therefore, C H number of variables representing each block of one or more pixels of the image at a resolution l is present.

Figure 2021527859
は、入力画像データの次元を維持する畳み込み演算子を表す変数である。入力画像データは次元N×N×Cを有し、一方、出力画像データは次元N×N×Cを有する。Kは、例えばAlexNet、DenseNet、またはある範囲の他のアーキテクチャにおけるように配置された複数の連続的な畳み込み演算の組み合わせ、および畳み込み演算子の学習可能なパラメータを表してよい。
Figure 2021527859
Is a variable that represents a convolution operator that maintains the dimensions of the input image data. Input image data has a dimension N l × N l × C I , while the output image data has a dimension N l × N l × C 0 . K may represent a combination of multiple consecutive convolution operations arranged, for example in AlexNet, DenseNet, or some other architecture in a range, and the learnable parameters of the convolution operator.

Figure 2021527859
は、方程式(4)の実行結果323を表す変数である。
Figure 2021527859
は、次元N×N×Cを有しており、ニューラル・ネットワーク208の第3の層325に入力される。
Figure 2021527859
Is a variable representing the execution result 323 of the equation (4).
Figure 2021527859
Has dimensions N l × N l × C X and is input to the third layer 325 of the neural network 208.

要約すると、方程式(4)は、テンソル(I)をテンソル322(

Figure 2021527859
)に連結し(第1の連結を実行し)、畳み込み演算子
Figure 2021527859
をこの連結に適用し(画像ピラミッドの現在の層に対して第1の畳み込みを実行し)、結果323をテンソル
Figure 2021527859
に保存する。 In summary, equation (4) translates the tensor (I l ) into a tensor 322 (
Figure 2021527859
) (Performs the first concatenation) and the convolution operator
Figure 2021527859
Is applied to this concatenation (performing the first convolution on the current layer of the image pyramid) and the result 323 is a tensor.
Figure 2021527859
Save to.

第3の層325において実行される動作を示す方程式は、次のとおりである。 The equation indicating the operation performed in the third layer 325 is as follows.

Figure 2021527859
Figure 2021527859

やはり、前述したように、演算子*は畳み込み演算を表し、[A、B]は、テンソル(例えば、テンソルAおよびB)間の連結動作である。同様に、

Figure 2021527859
は、入力画像データの次元を維持する畳み込み演算子(カーネル)を表す変数であり、
Figure 2021527859
は、入力画像データの次元を半分に縮小する畳み込み演算子(カーネル)を表す変数であり、
Figure 2021527859
は、テンソルI、内部状態
Figure 2021527859
、およびカーネル
Figure 2021527859
から計算された方程式(4)の結果を表す変数である。 Again, as described above, the operator * represents a convolution operation, and [A, B] is a concatenation operation between tensors (eg, tensors A and B). Similarly
Figure 2021527859
Is a variable that represents the convolution operator (kernel) that maintains the dimensions of the input image data.
Figure 2021527859
Is a variable that represents the convolution operator (kernel) that reduces the dimension of the input image data in half.
Figure 2021527859
Is the tensor Il , internal state
Figure 2021527859
, And kernel
Figure 2021527859
It is a variable representing the result of the equation (4) calculated from.

Figure 2021527859
は、テンソルIl+1、内部状態
Figure 2021527859
、およびカーネル
Figure 2021527859
から計算された方程式(5)の結果を表す変数であり、
Figure 2021527859
は、テンソルIl−1、内部状態
Figure 2021527859
、およびカーネル
Figure 2021527859
から計算された方程式(5)の結果を表す変数である。
Figure 2021527859
Is the tensor Il + 1 , internal state
Figure 2021527859
, And kernel
Figure 2021527859
It is a variable that represents the result of equation (5) calculated from
Figure 2021527859
Is the tensor Il-1 , internal state
Figure 2021527859
, And kernel
Figure 2021527859
It is a variable representing the result of the equation (5) calculated from.

Figure 2021527859
は、次元を2倍にすることによって入力画像データの次元をアップサンプリングする畳み込み演算子(カーネル)を表す変数である。例えば、入力画像データは次元Nl+1×Nl+1×Cを有し、出力画像データは次元N×N×Cを有する。畳み込み演算子Kと同様に、畳み込み演算子Uは、AlexNet、DenseNet、またはある範囲の他のアーキテクチャにおけるように配置された複数の連続的な畳み込み演算、および畳み込み演算の学習可能なパラメータの組み合わせを表してよい。しかし、畳み込み演算子Uは、画像の次元を2倍にするための転置された畳み込み層を表してもよい。
Figure 2021527859
Is a variable representing a convolution operator (kernel) that upsamples the dimension of the input image data by doubling the dimension. For example, the input image data has a dimension N l + 1 × N l + 1 × C I, the output image data has a dimension N l × N l × C 0 . Like the convolution operator K, the convolution operator U combines multiple continuous convolution operations arranged as in AlexNet, DenseNet, or some other architecture, and a combination of learnable parameters for the convolution operation. May be represented. However, the convolution operator U may represent a transposed convolution layer for doubling the dimensions of the image.

Figure 2021527859
は、方程式(5)の実行結果を含むテンソルである。
Figure 2021527859
は、ゲート付き時空間ユニットに渡される情報を含む。要約すると、方程式(5)は、より高い解像度(Il−1)で入力画像300を表すテンソル(画像ピラミッドの現在の層の真下にある画像ピラミッドの層)を使用する方程式(4)の計算結果(
Figure 2021527859
)を縮小することと、より低い解像度(Il+1)で入力画像300を表すテンソル(画像ピラミッドの現在の層の真上にある画像ピラミッドの層)からの方程式(4)の計算結果(
Figure 2021527859
)をアップサンプリングこととを含む。方程式(5)は、アップサンプリングの結果をダウンサンプリングの結果と連結し、解像度Iで入力画像300を表すテンソルからの方程式(4)の計算結果と連結する(第2の連結を実行する)ことも含む。この方程式は、連結の結果およびカーネル
Figure 2021527859
の畳み込みを実行し(第2の畳み込みを実行し)、その結果を変数
Figure 2021527859
に保存する。
Figure 2021527859
Is a tensor containing the execution result of equation (5).
Figure 2021527859
Contains information passed to the gated spatiotemporal unit. In summary, equation (5) is a calculation of equation (4) using a tensor (the layer of the image pyramid beneath the current layer of the image pyramid) representing the input image 300 at a higher resolution (I l-1). result(
Figure 2021527859
) And the calculation result of equation (4) from the tensor (the layer of the image pyramid directly above the current layer of the image pyramid) representing the input image 300 at a lower resolution ( Il + 1) (
Figure 2021527859
) Includes upsampling. Equation (5), the result of upsampling coupled with the results of downsampling, (executes the second connection) the calculation result to coupling equation (4) from tensor representing the input image 300 at a resolution I l Including that. This equation is the result of the concatenation and the kernel
Figure 2021527859
Performs a convolution of (performs a second convolution) and sets the result as a variable
Figure 2021527859
Save to.

ニューラル・ネットワーク208の第1の反復では、第3の層325からの出力を使用して、ゲート付き時空間ユニット330の空間格子に含まれているノードごとに、内部状態を単に初期化する。各ノードは、ノードの内部状態を表す値のベクトル、およびそのノードの中心にある1つまたは複数のピクセルのブロックの明るさから画像ピラミッド内で導出された値を含む。連続する各反復で、前の反復からの各ノードの内部状態が、テンソル322(

Figure 2021527859
)を介してニューラル・ネットワーク208の第2の層320に入力される。その後、第2の層320から開始して、前述したプロセスが繰り返される。 The first iteration of the neural network 208 uses the output from the third layer 325 to simply initialize the internal state for each node contained in the spatial grid of the gated spatiotemporal unit 330. Each node contains a vector of values that represent the internal state of the node, and values derived within the image pyramid from the brightness of the block of one or more pixels in the center of the node. In each successive iteration, the internal state of each node from the previous iteration is tensor 322 (
Figure 2021527859
) Is input to the second layer 320 of the neural network 208. The process described above is then repeated, starting with the second layer 320.

前述したように、ニューラル・ネットワーク208は、複数のノードが空間格子内に配置されているゲート付き時空間ユニット330を含む。この格子内の各ノードは、入力画像300内のピクセルに対応する。ゲート付き時空間ユニット330は、複数の時間ステップの各々でデータ処理を実行する。各時間ステップで、ゲート付き時空間ユニット330が複数の値を受信する。受信された値、および前の時間ステップでゲーティングされた各ノードの内部状態を表す値に基づいて、ゲート付き時空間ユニット330が、現在の時間ステップでの各ノードの内部状態の更新方法を決定する。下で詳細に説明されているように、ゲート付き時空間ユニット330は、格子内のノードごとに、前の時間ステップでのノードの内部状態を維持するか、ノードの内部状態を、前の時間ステップからの隣のノードの内部状態を表す値に設定するか、またはノードの新しい内部状態を生成するかを決定することによって、各ノードの内部状態を更新する方法を決定する。 As mentioned above, the neural network 208 includes a gated spatiotemporal unit 330 in which a plurality of nodes are arranged in a spatial grid. Each node in this grid corresponds to a pixel in the input image 300. The gated spatiotemporal unit 330 performs data processing in each of the plurality of time steps. At each time step, the gated spatiotemporal unit 330 receives multiple values. Based on the value received and the value representing the internal state of each node gated in the previous time step, the gated spatiotemporal unit 330 determines how to update the internal state of each node in the current time step. decide. As described in detail below, the gated spatiotemporal unit 330 maintains the internal state of the node in the previous time step, or changes the internal state of the node to the previous time, for each node in the grid. Determine how to update the internal state of each node by deciding whether to set it to a value that represents the internal state of the next node from the step or to generate a new internal state for the node.

以下の方程式は、現在の時間ステップでのゲート付き時空間ユニット330の格子に含まれているノードの内部状態

Figure 2021527859
327を決定するために使用される計算の例であり、解釈を容易にするために、7行に分けられている(I〜VIIのラベルが付けられている)。 The following equation shows the internal state of the nodes contained in the grid of gated spatiotemporal unit 330 at the current time step.
Figure 2021527859
An example of the calculation used to determine 327, which is divided into 7 lines (labeled I-VII) for ease of interpretation.

Figure 2021527859
Figure 2021527859

Figure 2021527859
Figure 2021527859

Figure 2021527859
Figure 2021527859

Figure 2021527859
Figure 2021527859

Figure 2021527859
Figure 2021527859

Figure 2021527859
Figure 2021527859

Figure 2021527859
Figure 2021527859

σ(A)は、テンソルのすべての要素aへのシグモイド関数1/(1+e−a)の要素ごとの適用を表す。シグモイド関数は、「スカッシング」関数と呼ばれることがある。シグモイド関数は、+∞〜−∞の任意の入力値を受け取り、その入力値を0〜1の出力値に押しつぶす。 σ (A) represents the application of the sigmoid function 1 / (1 + e −a) to all the elements a of the tensor for each element. The sigmoid function is sometimes referred to as the "squashing" function. The sigmoid function receives an arbitrary input value from + ∞ to −∞ and crushes the input value to an output value of 0 to 1.

tanhも、スカッシング関数である。tanh関数は、+∞〜−∞の任意の入力値を受け取るが、この関数は、その入力値を−1〜1の出力値に押しつぶす。 tanh is also a squashing function. The tanh function receives an arbitrary input value from + ∞ to −∞, but this function crushes the input value to an output value of -1 to 1.

演算子

Figure 2021527859
は、アダマール積演算を表している。例えば、方程式A
Figure 2021527859
Bが与えられた場合、入力Bと入力Aの間のアダマール積演算が実行される。アダマール積は、2つの同一サイズの入力からの要素の各対の、要素ごとの乗算である。 operator
Figure 2021527859
Represents the Hadamard product operation. For example, equation A
Figure 2021527859
Given B, the Hadamard product operation between input B and input A is performed. The Hadamard product is an element-by-element multiplication of each pair of elements from two identically sized inputs.

Figure 2021527859
は、解像度lおよび時間ステップtでの第3の層325で実行される計算の結果326を含んでいるテンソルである。
Figure 2021527859
は次元N×N×7×Cを有する。第3の次元の7つの要素の各々は、時空間ゲーティング・プロセスにおいて特定の役割を有している。方程式内の変数の
Figure 2021527859

Figure 2021527859
は、7つの要素のうちの1つが選択されたときに得られるテンソルを参照している。7つの要素の各々に関連付けられた各テンソルは、次元N×N×Cを有する。
Figure 2021527859
Is a tensor containing 326 results of calculations performed on the third layer 325 at resolution l and time step t.
Figure 2021527859
Has a dimension N l × N l × 7 × C H. Each of the seven elements of the third dimension has a specific role in the spatiotemporal gating process. Of the variables in the equation
Figure 2021527859
~
Figure 2021527859
Refers to the tensor obtained when one of the seven elements is selected. Each tensor associated with each of the seven elements have a dimension N l × N l × C H .

Figure 2021527859
は、解像度lおよび時間ステップtでの空間格子内のノードごとに内部状態を保持するテンソル322である。前述したように、内部状態は、各時間ステップで動的に更新される。テンソルは、次元N×N×Cを有する。したがって、解像度lで各ノードを表すC個の変数が存在する。
Figure 2021527859
Is a tensor 322 that holds an internal state for each node in the spatial grid at resolution l and time step t. As mentioned above, the internal state is dynamically updated at each time step. Tensor has dimension N l × N l × C H . Therefore, C H number of variables to represent each node in the resolution l is present.

Δx,Δyは、空間変位畳み込み演算子(spatial shifting convolution operator)である。この演算子は、学習可能なパラメータを含んでいない。SΔx,Δyは、ノードの現在の内部状態を決定するときに、最も近い隣のノードの内部状態からの情報を考慮できるようにする。 S Δx and Δy are spatial shifting convolution operators. This operator contains no learnable parameters. S Δx, Δy allow information from the internal state of the nearest adjacent node to be taken into account when determining the current internal state of the node.

上の方程式に戻ると、テンソル

Figure 2021527859
に格納される結果326が、7つの部分に分けられている。各部分は、前述したように、テンソル
Figure 2021527859
の第3の次元内の要素を表している。方程式(6)の行(I)は、tanhスカッシング関数を方程式(6)の行II〜VIIの合計に適用し、現在の反復でのノードの内部状態を決定する。方程式(6)の行(II)は、ゲーティングされた値に応じて、前のタイムスタンプからのノードの内部状態を現在のタイムスタンプにコピーする可能性に対応する。次の4つの行(III〜VI)(
Figure 2021527859

Figure 2021527859

Figure 2021527859

Figure 2021527859
)は、前の反復からの最も近い隣のうちの1つの内部状態を現在の反復でのノードの内部状態にコピーする可能性にそれぞれ対応する。最後の行(VII)は、全く新しい値を生成し、場合によっては現在の反復でのノードの内部状態を新しい値に設定することに対応する。 Returning to the above equation, the tensor
Figure 2021527859
The result 326 stored in is divided into seven parts. Each part is a tensor as described above
Figure 2021527859
Represents an element in the third dimension of. Row (I) of equation (6) applies the tanh scavenging function to the sum of rows II-VII of equation (6) to determine the internal state of the node at the current iteration. Row (II) of equation (6) corresponds to the possibility of copying the internal state of the node from the previous timestamp to the current timestamp, depending on the gated value. The next four lines (III-VI) (
Figure 2021527859
,
Figure 2021527859
,
Figure 2021527859
,
Figure 2021527859
) Corresponds to the possibility of copying the internal state of one of the closest neighbors from the previous iteration to the internal state of the node in the current iteration. The last line (VII) corresponds to generating a whole new value and possibly setting the internal state of the node at the current iteration to the new value.

図4は、現在の反復で決定されている内部状態を有するノード400と、前の反復で決定された内部状態を有するノードとの間の接続を示している。各ノードは、ゲート付き時空間ユニット330の直前の反復で計算された内部状態を有するノードに接続されている。具体的には、各ノードは、ゲート付き時空間ユニット330の直前の反復でのそれ自身の内部状態を表すノードに加え、ゲート付き時空間ユニット330の直前の反復での隣のノードの内部状態を表すノードに接続されている。図4では、グループ405内のノードは、ニューラル・ネットワーク208の直前の反復で決定された内部状態にそれぞれ関連付けられているノードである。グループ410内のノードは、ニューラル・ネットワーク208の現在の反復で決定された内部状態に関連付けられているノードである。前述したように、各ノードは、入力画像300内のピクセル(または1つまたは複数のピクセルのブロック)に対応する。あるノードの隣の各ノードは、このノードによって表されるピクセル(または1つまたは複数のピクセルのブロック)に隣接するピクセル(または1つまたは複数のピクセルのブロック)を表す。例えば、ノード400が座標(i、j)での画像内のピクセルを表している場合、(i、j)でのピクセルを表しているノード400は、((i、j)でのピクセルのすぐ左にある)座標(i−1、j)を表しているノード415、((i、j)でのピクセルのすぐ右にある)座標(i+1、j)でのピクセルを表しているノード420、((i、j)でのピクセルのすぐ上にある)座標(i、j+1)でのピクセルを表しているノード425、および((i、j)でのピクセルのすぐ下にある)座標(i、j−1)でのピクセルを表しているノード430に接続される。ピクセル(i、j)を表しているノード400に接続されているとして説明された上記のノードの各々は、ノード400の隣のノードである。したがって、ゲート付き時空間ユニット330は、ノード400の内部状態を、グループ405内のノードのうちの1つの内部状態に設定するかどうかを決定する。 FIG. 4 shows the connection between the node 400 having the internal state determined in the current iteration and the node having the internal state determined in the previous iteration. Each node is connected to a node that has the internal state calculated in the previous iteration of the gated spatiotemporal unit 330. Specifically, each node represents the internal state of its own in the previous iteration of the gated spatiotemporal unit 330, as well as the internal state of the adjacent node in the previous iteration of the gated spatiotemporal unit 330. Is connected to the node that represents. In FIG. 4, the nodes in group 405 are the nodes associated with the internal states determined in the previous iteration of the neural network 208, respectively. The nodes in group 410 are the nodes associated with the internal state determined by the current iteration of neural network 208. As mentioned above, each node corresponds to a pixel (or a block of one or more pixels) in the input image 300. Each node next to a node represents a pixel (or a block of one or more pixels) adjacent to the pixel (or a block of one or more pixels) represented by this node. For example, if node 400 represents a pixel in the image at coordinates (i, j), node 400 representing a pixel at (i, j) is immediately after the pixel at (i, j). Node 415 representing the (left) coordinate (i-1, j), node 420 representing the pixel at the coordinate (i + 1, j) (immediately to the right of the pixel at (i, j)), Node 425 representing the pixel at coordinate (i, j + 1) (just above the pixel at (i, j)), and coordinate (i just below the pixel at (i, j)) , J-1) is connected to the node 430 representing the pixel. Each of the above nodes described as being connected to a node 400 representing a pixel (i, j) is a node next to the node 400. Therefore, the gated spatiotemporal unit 330 determines whether to set the internal state of the node 400 to the internal state of one of the nodes in group 405.

ゲート付き時空間ユニット330の空間格子内のノードの内部状態が収束した(既定の量より少なく変化した)ときに、最高の解像度で入力画像300を表すノードの内部状態が、ニューラル・ネットワーク208の最終的な層335に出力される。最終的な層335は、各ノードの内部状態に含まれている1つの値を使用して、そのノードが表しているピクセルが入力画像300内の対象の物体に属している確率(例えば、0と1の間の値)を計算する。次の方程式は、各ピクセルが対象の物体の一部である確率を決定するために最終的な層335において実行される動作を表している。 When the internal state of the node in the spatial grid of the gated spatiotemporal unit 330 converges (changes less than the default amount), the internal state of the node representing the input image 300 at the highest resolution is the neural network 208. It is output to the final layer 335. The final layer 335 uses one value contained in the internal state of each node and the probability that the pixels represented by that node belong to the object of interest in the input image 300 (eg 0). And the value between 1) is calculated. The following equation represents the action performed in the final layer 335 to determine the probability that each pixel is part of the object of interest.

Figure 2021527859
Figure 2021527859

は、時間ステップtでのニューラル・ネットワーク208の出力305を表す変数であり、次元N×N×1(入力と同じ次元)を有する。 Y t is a variable representing the output 305 of the neural network 208 in the time step t and has dimensions N 0 × N 0 × 1 (same dimension as the input).

Figure 2021527859
は、解像度1および時間ステップtでの空間格子内のノードごとに内部状態を保持するテンソルである。
Figure 2021527859
Is a tensor that holds an internal state for each node in the spatial grid at resolution 1 and time step t.

Figure 2021527859
は、入力画像データの次元を維持する畳み込み演算子を表す変数である。入力画像データは次元N×N×Cを有し、一方、出力画像データは次元N×N×1を有する。Kは、例えばAlexNet、DenseNet、またはある範囲の他のアーキテクチャにおけるように配置された複数の連続的な畳み込み演算の組み合わせ、および畳み込み演算子の学習可能なパラメータを表してよい。
Figure 2021527859
Is a variable that represents a convolution operator that maintains the dimensions of the input image data. Input image data has a dimension N 0 × N 0 × C I , while the output image data has a dimension N 0 × N 0 × 1. K may represent a combination of multiple consecutive convolution operations arranged, for example in AlexNet, DenseNet, or some other architecture in a range, and the learnable parameters of the convolution operator.

要約すると、方程式(7)は、

Figure 2021527859
を使用する最後の畳み込みを、最高の解像度の内部状態
Figure 2021527859
に適用し、それによって、入力チャネルの数(C)を1つの出力チャネルに減らす。この方程式は、
Figure 2021527859
を使用する最後の畳み込みを、最高の解像度の内部状態
Figure 2021527859
に適用した結果に、シグモイド関数を適用し、それによって、Yに含まれている各値を0〜1の範囲内の値に押しつぶす。Yに含まれている0〜1の範囲内の各値は、画像のピクセルが入力画像300内の対象の物体内にある確率に対応する。例えば、単一のピクセルに対してシグモイド関数によって生成された値が0.5である場合、このピクセルが対象の物体内にある50%の確率が存在する。 In summary, equation (7)
Figure 2021527859
Use the last convolution, the highest resolution internal state
Figure 2021527859
Apply to, thereby reducing the number of input channels ( CH ) to one output channel. This equation is
Figure 2021527859
Use the last convolution, the highest resolution internal state
Figure 2021527859
A sigmoid function is applied to the result applied to, thereby crushing each value contained in Y t to a value in the range of 0 to 1. Each value in the range 0 to 1 contained in Y t corresponds to the probability that the pixels of the image are within the target object in the input image 300. For example, if the value generated by the sigmoid function for a single pixel is 0.5, then there is a 50% probability that this pixel is within the object of interest.

ニューラル・ネットワーク208は、生成された出力305(各ノードに対して計算された確率)を出力データ・リポジトリ(例えば、メモリ206)に格納するか、または生成された出力305を、ディスプレイ・デバイス上でユーザに表示することなどによって、使用または消費するために提供してよい。いずれにせよ、電子プロセッサ204は、ピクセルが対象の物体に含まれているピクセルごとの確率を、既定のしきい値と比較する。ピクセルが対象の物体の一部である確率が既定のしきい値より高い場合、電子プロセッサ204は、このピクセルが対象の物体の一部であるということを決定する。 The neural network 208 stores the generated output 305 (probability calculated for each node) in an output data repository (eg, memory 206), or stores the generated output 305 on a display device. May be provided for use or consumption, such as by displaying to the user at. In any case, the electronic processor 204 compares the pixel-by-pixel probabilities that the pixels are contained in the object of interest with a default threshold. If the probability that a pixel is part of the object of interest is higher than a predetermined threshold, the electronic processor 204 determines that the pixel is part of the object of interest.

一部の実施形態では、前述したニューラル・ネットワーク208内で、画像ピラミッド315に含まれている入力画像300の表現のレベル(I〜I)ごとに方程式(4〜6)が実行されるということが、理解されるべきである。ニューラル・ネットワーク208は、時間、空間、および解像度にわたって値を伝搬するとして、上で説明されたが、ニューラル・ネットワーク208が、時間および空間のみにわたって値を伝搬するように変更されてよいということも、理解されるべきである。 In some embodiments, equations (4-6) are executed for each level of representation (I 1- I l ) of the input image 300 contained in the image pyramid 315 within the neural network 208 described above. That should be understood. The neural network 208 has been described above as propagating values over time, space, and resolution, but it is also possible that the neural network 208 may be modified to propagate values over time and space only. , Should be understood.

各反復で各ノードの内部状態を決定するために使用されるゲートの値は、0または1のいずれかである必要はなく、0〜1の範囲内の任意の値であってよいということも、理解されるべきである(上の方程式(6)を参照)。したがって、一部の実施形態では、ノードの更新された内部状態は、前述した選択肢(前の反復からのノードの値、前の反復からの1つまたは複数の隣のノードの値、およびノードの新しい値)のうちの2つ以上の混合(または、より数学的には、線形結合)であってよい。 The value of the gate used to determine the internal state of each node in each iteration need not be either 0 or 1, and may be any value in the range 0 to 1. , Should be understood (see equation (6) above). Therefore, in some embodiments, the updated internal state of a node is the value of the node from the previous iteration, the value of one or more adjacent nodes from the previous iteration, and the node's updated internal state. It may be a mixture (or, more mathematically, a linear combination) of two or more of the new values.

図5および図6は、ニューラル・ネットワーク208の実際の適用の例を示している。図5は、ニューラル・ネットワーク208が入力として受信できる医用画像500の例を示している。画像500内の対象の物体は、左肺510内の腫瘍505である。図6は、ニューラル・ネットワーク208が対象の物体(腫瘍505)として識別する医用画像500の領域を示している。領域拡張手法が使用される場合(図1を参照)と異なり、対象の物体の境界が左肺510の外側に広がっていない。 5 and 6 show examples of actual applications of neural network 208. FIG. 5 shows an example of a medical image 500 that the neural network 208 can receive as an input. The object of interest in image 500 is tumor 505 in the left lung 510. FIG. 6 shows a region of the medical image 500 that the neural network 208 identifies as the object of interest (tumor 505). Unlike when the region expansion technique is used (see FIG. 1), the boundaries of the object of interest do not extend outside the left lung 510.

したがって、本明細書に記載された実施形態は、時空間ユニットを含んでいるニューラル・ネットワークを提供する。時空間ユニットは、空間的に拡張されたノードの格子である。例えば、各ノードは、画像内のピクセルに対応する。ニューラル・ネットワークは、ノードごとに初期内部状態を決定し、ノードごとに内部状態を反復的に更新し、時間または空間あるいはその両方にわたって値を伝搬することによって、およびノードごとに内部状態を表すための新しい値を計算することによって、何度も繰り返して新しい内部状態を生成する。したがって、文字または単語の1次元のシーケンスに対して反復する長短期記憶(LSTM)ネットワークおよびゲート付き回帰型ユニット(GRU:gated recurrent unit)ネットワークなどの、他の種類のRNNと比較して、本明細書に記載された実施形態は、各ノードの内部状態を更新するときに、隣のノードの決定を考慮する。具体的には、本明細書に記載された実施形態は、空間的次元および時間的次元の両方を適用する。したがって、時間次元は前方にのみ反復するが、空間的ゲーティングは、画像の1つの部分において新しい結論に達し、その結論が画像の他の部分に伝搬され、それらの部分での意思決定に情報を与えるというように、空間的情報が、必要な長さにわたって空間格子上を後方および前方に共鳴できるようにする。さらに、本明細書に記載された一部の実施形態では、ニューラル・ネットワーク208内の値が、画像の異なる解像度間で伝搬されてよい。 Therefore, the embodiments described herein provide a neural network that includes spatiotemporal units. A spatiotemporal unit is a grid of spatially extended nodes. For example, each node corresponds to a pixel in the image. A neural network determines the initial internal state on a node-by-node basis, updates the internal state iteratively on a node-by-node basis, propagates values over time and / or space, and represents the internal state on a node-by-node basis. Generate a new internal state over and over again by calculating a new value for. Therefore, compared to other types of RNNs, such as long short-term memory (LSTM) networks and gated recurrent unit (GRU) networks that iterate over one-dimensional sequences of letters or words. The embodiments described herein take into account the determination of neighboring nodes when updating the internal state of each node. Specifically, the embodiments described herein apply both spatial and temporal dimensions. Thus, although the time dimension repeats only forward, spatial gating reaches new conclusions in one part of the image, which conclusions are propagated to other parts of the image, informing decisions in those parts. Allows spatial information to resonate backwards and forwards on the spatial grid over the required length, such as giving. Moreover, in some embodiments described herein, values within the neural network 208 may be propagated between different resolutions of the image.

本明細書に記載された実施形態は、閉じている。具体的には、本明細書に記載されたニューラル・ネットワーク208には、外部の世界に関する情報のすべてが初期入力(処理を必要とする画像)として与えられ、その時点以降、ニューラル・ネットワーク208は、外部からさらに情報を受け取らずに、それ自身の内部状態およびルールのみに従って、時間と共に進化する。そのようにして、内部状態がそれ以上変化しなくなって収束するまで、反復が継続する。これによって、ニューラル・ネットワーク208を、関数ではなくアルゴリズムのようなものにする。これに対して、RNNには、各時間ステップで新しい1つの問題(例えば、1つの単語)が与えられるため、新しい情報が使用可能である場合にのみ、反復が継続する。 The embodiments described herein are closed. Specifically, the neural network 208 described herein is given all of the information about the outside world as an initial input (an image that needs to be processed), and from that point on, the neural network 208 Evolves over time, only according to its own internal state and rules, without receiving further information from the outside. In that way, the iteration continues until the internal state no longer changes and converges. This makes the neural network 208 more like an algorithm than a function. In contrast, the RNN is given one new question (eg, one word) at each time step, so the iteration continues only if new information is available.

以下の特許請求の範囲では、一部の実施形態のさまざまな特徴および利点が示される。 The following claims show various features and advantages of some embodiments.

Claims (46)

医用画像内の対象の物体を識別するための方法であって、
空間格子のノードの内部状態を初期化することであって、各ノードが、前記医用画像のピクセルに対応し、前記医用画像の隣のピクセルを表す少なくとも1つのノードに接続される、前記初期化することと、
ニューラル・ネットワークを使用し、空間的にゲーティングされる伝搬を使用して前記空間格子内の前記ノードの前記内部状態を反復的に更新することであって、各反復で、各ノードが、前の反復からの前記ノードの値、前記前の反復からの隣のノードの値、および前記ノードの新しい値から成る群から選択された少なくとも1つに基づいて、その内部状態を更新する、前記更新することと、
前記空間格子の収束での前記ノードの前記値に基づいて、前記医用画像内の前記対象の物体を識別することとを含んでいる、方法。
A method for identifying an object of interest in a medical image,
Initializing the internal state of the nodes in the spatial grid, wherein each node is connected to at least one node that corresponds to a pixel in the medical image and represents a pixel next to the medical image. To do and
Using a neural network to iteratively update the internal state of the node in the spatial lattice using spatially gated propagation, at each iteration, each node prepends. Updates its internal state based on at least one selected from the group consisting of the value of the node from the iteration of, the value of the adjacent node from the previous iteration, and the new value of the node. To do and
A method comprising identifying the object of interest in the medical image based on the value of the node in the convergence of the spatial grid.
ニューラル・ネットワークを使用して前記ノードの前記内部状態を反復的に更新することが、前記ノードの前記内部状態に関連付けられた値のベクトル内の値を更新することを含んでいる、請求項1に記載の方法。 Claim 1 that iteratively updating the internal state of the node using a neural network comprises updating a value in a vector of values associated with the internal state of the node. The method described in. 前記値のベクトル内の前記値が、前記ノードに対応する前記ピクセルの明るさを表す値、および前記ノードの前記内部状態を表す値を含んでいる、請求項2に記載の方法。 The method of claim 2, wherein the value in the vector of values includes a value representing the brightness of the pixel corresponding to the node and a value representing the internal state of the node. 前記ノードの前の内部状態を含む畳み込みが反復ごとに実行される、請求項1に記載の方法。 The method of claim 1, wherein the convolution including the internal state in front of the node is performed on an iterative basis. 前記方法が、第1の反復において、各ピクセルの明るさを表す各値に対して畳み込みを実行することをさらに含んでいる、請求項1に記載の方法。 The method of claim 1, wherein the method further comprises performing a convolution on each value representing the brightness of each pixel in the first iteration. 前記空間格子の収束での前記ノードの前記値に基づいて前記医用画像内の対象の物体を識別することが、前記ニューラル・ネットワークの最終的な層を使用して、各ピクセルに関連付けられた値のベクトルに含まれている値に基づいて、各ピクセルが前記対象の物体に含まれている確率を計算することと、
ピクセルごとに、前記計算された確率が既定のしきい値より高いかどうかを判定することとを含んでいる、請求項1に記載の方法。
Identifying an object of interest in the medical image based on the value of the node in the convergence of the spatial grid is the value associated with each pixel using the final layer of the neural network. To calculate the probability that each pixel is contained in the object of interest, based on the values contained in the vector of
The method of claim 1, comprising determining, for each pixel, whether the calculated probability is higher than a predetermined threshold.
各ノードが、スカッシング関数を使用して、前の反復からの前記ノードの値、前記前の反復からの隣のノードの値、および前記ノードの新しい値から成る群から選択された少なくとも1つに基づいて、その内部状態を更新する、請求項1に記載の方法。 Each node uses a squashing function to select at least one from the group consisting of the value of the node from the previous iteration, the value of the adjacent node from the previous iteration, and the new value of the node. The method according to claim 1, wherein the internal state is updated based on the above. 前記隣のノードが、前記ノードによって表されたピクセルの真上、真下、右、および左にあるピクセルを表すノードから成る群から選択されたノードである、請求項1に記載の方法。 The method of claim 1, wherein the adjacent node is a node selected from a group of nodes representing pixels directly above, below, to the right, and to the left of the pixel represented by the node. 前記方法が、複数の層を含む画像ピラミッドを生成することをさらに含んでおり、各連続する層が、より少ない値を含む前記医用画像を表す、請求項1に記載の方法。 The method of claim 1, wherein the method further comprises generating an image pyramid comprising a plurality of layers, wherein each contiguous layer represents the medical image containing fewer values. 前記方法が、各反復において、前記画像ピラミッドの複数の層からの値を連結することをさらに含んでいる、請求項9に記載の方法。 9. The method of claim 9, wherein the method further comprises concatenating values from multiple layers of the image pyramid at each iteration. 画像内の対象の領域を決定するためのシステムであって、
メモリと、
前記メモリに接続された電子プロセッサとを含み、前記電子プロセッサは、
空間格子のノードの内部状態を初期化することであって、各ノードが、前記画像のピクセルに対応し、前記画像の隣のピクセルを表す少なくとも1つのノードに接続される、前記初期化することと、
ニューラル・ネットワークを使用し、空間的にゲーティングされる伝搬を使用して前記空間格子内の各ノードの前記内部状態を反復的に更新することと、
前記空間格子の収束での前記ノードの前記内部状態に基づいて、前記画像内の前記対象の領域を識別することとを実行するように構成されている、システム。
A system for determining the area of interest in an image
Memory and
The electronic processor includes an electronic processor connected to the memory.
Initializing the internal state of the nodes of the spatial grid, wherein each node is connected to at least one node that corresponds to a pixel in the image and represents a pixel next to the image. When,
Using a neural network to iteratively update the internal state of each node in the spatial lattice using spatially gated propagation,
A system configured to identify a region of interest in an image based on the internal state of the node in the convergence of the spatial grid.
前記電子プロセッサが、各反復で、前の反復からの前記ノードの値、前記前の反復からの隣のノードの値、または前記ノードの新しい値から成る群から選択された少なくとも1つに基づいて前記内部状態を更新することによって、前記ノードの前記内部状態を更新するように構成されている、請求項11に記載のシステム。 Based on at least one selected from the group consisting of the value of the node from the previous iteration, the value of the adjacent node from the previous iteration, or the new value of the node at each iteration. The system according to claim 11, wherein the internal state of the node is updated by updating the internal state. 前記電子プロセッサが、ニューラル・ネットワークを使用して、前記ノードの前記内部状態に関連付けられた値のベクトル内の値を更新することによって、前記ノードの前記内部状態を反復的に更新するように構成されている、請求項11に記載のシステム。 The electronic processor is configured to iteratively update the internal state of the node by using a neural network to update the values in the vector of values associated with the internal state of the node. The system according to claim 11. 前記値のベクトル内の前記値が、前記ノードに対応するピクセルの明るさを表す値、および前記ノードの前記内部状態を表す値を含んでいる、請求項13に記載のシステム。 13. The system of claim 13, wherein the value in the vector of values includes a value representing the brightness of the pixel corresponding to the node and a value representing the internal state of the node. 前記電子プロセッサが、各反復で、前記ノードの前の内部状態を含む畳み込みを実行するようにさらに構成されている、請求項11に記載のシステム。 11. The system of claim 11, wherein the electronic processor is further configured to perform a convolution that includes an internal state in front of the node at each iteration. 前記電子プロセッサが、第1の反復において、各ピクセルの明るさを表す各値に対して畳み込みを実行するようにさらに構成されている、請求項11に記載のシステム。 11. The system of claim 11, wherein the electronic processor is further configured to perform a convolution for each value representing the brightness of each pixel in the first iteration. 前記電子プロセッサが、前記ニューラル・ネットワークの最終的な層を使用して、各ピクセルに関連付けられた前記ベクトルに基づいて、各ピクセルが前記画像内の対象の物体に含まれている確率を計算することと、
ピクセルごとに、前記計算された確率が既定のしきい値より高いかどうかを判定することとによって、前記空間格子の収束での前記ノードの前記値に基づいて前記画像内の前記対象の物体を識別するように構成されている、請求項11に記載のシステム。
The electronic processor uses the final layer of the neural network to calculate the probability that each pixel is contained in the object of interest in the image, based on the vector associated with each pixel. That and
For each pixel, by determining whether the calculated probability is higher than a predetermined threshold, the object of interest in the image is based on the value of the node at the convergence of the spatial grid. The system according to claim 11, which is configured to identify.
前記電子プロセッサが、スカッシング関数を使用することによって、前の反復からの前記ノードの値、前記前の反復からの隣のノードの値、または前記ノードの新しい値から成る群から選択された少なくとも1つに基づいて前記内部状態を更新するように構成されている、請求項12に記載のシステム。 The electronic processor is selected by using a squashing function from a group consisting of the value of the node from the previous iteration, the value of the adjacent node from the previous iteration, or the new value of the node. The system according to claim 12, which is configured to update the internal state based on one. 前記隣のノードが、前記ノードによって表された前記ピクセルの真上、真下、右、および左にあるピクセルを表すノードから成る群から選択されたノードである、請求項12に記載のシステム。 12. The system of claim 12, wherein the adjacent node is a node selected from a group of nodes representing pixels directly above, below, to the right, and to the left of the pixel represented by the node. 電子プロセッサを使用して実行された場合に一連の機能を実行する命令を格納している非一時的なコンピュータ可読媒体であって、前記一連の機能が、
空間格子のノードの内部状態を初期化することであって、各ノードが、画像のピクセルを表しており、前記画像の少なくとも1つの隣のピクセルに接続される、前記初期化することと、
ニューラル・ネットワークを使用し、空間的にゲーティングされる伝搬を使用して前記空間格子内の前記ノードの前記内部状態を反復的に更新することであって、各反復で、各ノードが、前の反復からの前記ノードの値、前記前の反復からの隣のノードの値、または前記ノードの新しい値から成る群から選択された少なくとも1つに基づいて、その内部状態を更新する、前記更新することと、
前記空間格子の収束での前記ノードの前記値に基づいて、前記画像内の対象の物体を識別することとを含んでいる、非一時的なコンピュータ可読媒体。
A non-transitory computer-readable medium that stores instructions that perform a set of functions when executed using an electronic processor.
Initializing the internal state of the nodes in the spatial grid, where each node represents a pixel in the image and is connected to at least one adjacent pixel in the image.
Using a neural network to iteratively update the internal state of the node in the spatial lattice using spatially gated propagation, at each iteration, each node prepends. Update its internal state based on at least one selected from the group consisting of the value of the node from the iteration of, the value of the adjacent node from the previous iteration, or the new value of the node. To do and
A non-transitory computer-readable medium comprising identifying an object of interest in the image based on the value of the node in the convergence of the spatial grid.
ニューラル・ネットワークを使用して前記ノードの前記内部状態を反復的に更新することが、前記ノードの前記内部状態に関連付けられた値のベクトル内の値を更新することを含んでいる、請求項20に記載の非一時的なコンピュータ可読媒体。 20. Claim 20 that iteratively updating the internal state of the node using a neural network comprises updating a value in a vector of values associated with the internal state of the node. Non-temporary computer-readable medium described in. 前記空間格子の収束での前記ノードの前記値に基づいて前記画像内の対象の物体を識別することが、前記ニューラル・ネットワーク内の最終的な層を使用して、各ピクセルに関連付けられた前記ベクトルに基づいて、各ピクセルが前記対象の物体に含まれている確率を計算することと、
ピクセルごとに、前記計算された確率が既定のしきい値より高いかどうかを判定することとを含んでいる、請求項20に記載の非一時的なコンピュータ可読媒体。
Identifying an object of interest in the image based on the value of the node at the convergence of the spatial lattice is associated with each pixel using the final layer in the neural network. To calculate the probability that each pixel is contained in the object of interest based on the vector,
The non-transitory computer-readable medium of claim 20, comprising determining, on a pixel-by-pixel basis, whether the calculated probability is higher than a predetermined threshold.
医用画像内の対象の物体を識別するための方法であって、
前記医用画像の画像ピラミッドを作成することであって、前記画像ピラミッドが複数の層を含んでおり、各層が複数の値を含んでおり、各値が前記医用画像内の1つまたは複数のピクセルのブロックを表し、各連続する層が、直前の層より少ない値を含んでいる、前記作成することと、
前記画像ピラミッドの層ごとに、
空間格子のノードの内部状態を初期化することであって、前記空間格子内の各ノードが、前記医用画像内の1つまたは複数のピクセルのブロックを表しており、前記医用画像内の1つまたは複数のピクセルの隣のブロックを表す少なくとも1つのノードに接続される、前記初期化することと、
ニューラル・ネットワークを使用し、空間的にゲーティングされる伝搬を使用して前記空間格子内の前記ノードの前記内部状態を反復的に更新することであって、各反復で、各ノードが、前の反復からの前記ノードの値、前記前の反復からの隣のノードの値、および前記ノードの新しい値から成る群から選択された少なくとも1つに基づいて、その内部状態を更新する、前記更新することと、
前記画像ピラミッドの第1の層に含まれる前記値を表すノードを含む前記空間格子の収束での前記ノードの前記値に基づいて、前記医用画像内の前記対象の物体を識別することとを含んでいる、方法。
A method for identifying an object of interest in a medical image,
Creating an image pyramid of the medical image, wherein the image pyramid contains a plurality of layers, each layer contains a plurality of values, each value being one or more pixels in the medical image. Representing a block of, each contiguous layer contains less value than the previous layer, the creation and
For each layer of the image pyramid,
Initializing the internal state of the nodes in the spatial grid, where each node in the spatial grid represents a block of one or more pixels in the medical image, one in the medical image. Or the initialization, which is connected to at least one node that represents the block next to multiple pixels.
Using a neural network to iteratively update the internal state of the node in the spatial lattice using spatially gated propagation, at each iteration, each node prepends. Updates its internal state based on at least one selected from the group consisting of the value of the node from the iteration of, the value of the adjacent node from the previous iteration, and the new value of the node. To do and
Including identifying the object of interest in the medical image based on the value of the node in the convergence of the spatial grid containing the node representing the value contained in the first layer of the image pyramid. How to be.
ニューラル・ネットワークを使用して前記ノードの前記内部状態を反復的に更新することが、前記ノードの前記内部状態に関連付けられた値のベクトル内の値を更新することを含んでいる、請求項23に記載の方法。 23. Claim 23 that iteratively updating the internal state of the node using a neural network comprises updating a value in a vector of values associated with the internal state of the node. The method described in. 前記方法が、
前記画像ピラミッドの層ごとの各反復で、前記画像ピラミッドの層に含まれている前記値および前記画像ピラミッドの前記層に含まれている前記値を表す前記ノードの前の内部状態の第1の連結を含む第1の畳み込みを実行することと、
前記第1の畳み込みの実行結果を格納することとをさらに含んでいる、請求項23に記載の方法。
The above method
At each layer-by-layer iteration of the image pyramid, the first internal state before the node that represents the value contained in the layer of the image pyramid and the value contained in the layer of the image pyramid. Performing the first convolution, including concatenation,
23. The method of claim 23, further comprising storing the execution result of the first convolution.
前記方法が、前記画像ピラミッドの層ごとの各反復で、前記画像ピラミッドの現在の層、前記画像ピラミッドの前記現在の層の真上の前記画像ピラミッドの層、および前記画像ピラミッドの前記現在の層の真下の前記画像ピラミッドの層に対する前記第1の畳み込みの実行結果の第2の連結を含む第2の畳み込みを実行することをさらに含んでいる、請求項25に記載の方法。 The method is at each iteration of each layer of the image pyramid, the current layer of the image pyramid, the layer of the image pyramid directly above the current layer of the image pyramid, and the current layer of the image pyramid. 25. The method of claim 25, further comprising performing a second convolution, including a second concatenation of the results of performing the first convolution on the layer of the image pyramid beneath. 前記画像ピラミッドを作成することが、前記医用画像内の1つまたは複数のピクセルの各ブロックの明るさを表す各値に対する畳み込みを実行することを含んでおり、入力医用画像データの次元の縮小を含む各畳み込みが、前記画像ピラミッドの次の層内の前記医用画像を表すために使用される値を生成する、請求項23に記載の方法。 Creating the image pyramid involves performing a convolution on each value representing the brightness of each block of one or more pixels in the medical image, reducing the dimension of the input medical image data. 23. The method of claim 23, wherein each convolution that includes produces a value that is used to represent the medical image within the next layer of the image pyramid. 前記画像ピラミッドの前記第1の層内の前記医用画像を表す各値が、前記医用画像内のピクセルに対応する、請求項23に記載の方法。 23. The method of claim 23, wherein each value representing the medical image in the first layer of the image pyramid corresponds to a pixel in the medical image. 前記画像ピラミッドの第1の層に含まれる前記値を表すノードを含んでいる前記空間格子の収束での前記ノードの前記値に基づいて前記医用画像内の前記対象の物体を識別することが、前記ニューラル・ネットワークの最終的な層を使用して、前記画像ピラミッドの第1の層に含まれる前記値を表すノードに関連付けられた値の各ベクトルに含まれている値に基づいて、前記医用画像内の各ピクセルが前記対象の物体に含まれている確率を計算することと、
ピクセルごとに、前記計算された確率が既定のしきい値より高いかどうかを判定することとを含んでいる、請求項28に記載の方法。
Identifying the object of interest in the medical image based on the value of the node in the convergence of the spatial lattice containing the node representing the value contained in the first layer of the image pyramid. Using the final layer of the neural network, the medical use is based on the values contained in each vector of values associated with the node representing the value contained in the first layer of the image pyramid. To calculate the probability that each pixel in the image is included in the object of interest,
28. The method of claim 28, comprising determining, for each pixel, whether the calculated probability is higher than a predetermined threshold.
各ノードが、前の反復からの前記ノードの値、前記前の反復からの隣のノードの値、および前記ノードの新しい値から成る群から選択された少なくとも1つに基づいて、その内部状態を更新することが、スカッシング関数および前記第2の畳み込みの実行結果を使用することを含んでいる、請求項26に記載の方法。 Each node determines its internal state based on at least one selected from the group consisting of the value of the node from the previous iteration, the value of the adjacent node from the previous iteration, and the new value of the node. 26. The method of claim 26, wherein updating comprises using a squashing function and the result of performing the second convolution. 前記隣のノードが、前記ノードによって表された1つまたは複数のピクセルのブロックの真上、真下、右、および左にある1つまたは複数のピクセルのブロックを表すノードから成る群から選択されたノードである、請求項23に記載の方法。 The adjacent node was selected from a group of nodes representing the block of one or more pixels directly above, below, to the right, and to the left of the block of one or more pixels represented by the node. The method of claim 23, which is a node. より少ない値を含んでいる前記医用画像を表すことによって、より低い解像度を有する医用画像を作成する、請求項23に記載の方法。 23. The method of claim 23, wherein a medical image having a lower resolution is created by representing the medical image containing less value. 画像内の対象の領域を決定するためのシステムであって、
メモリと、
前記メモリに接続された電子プロセッサとを備え、前記電子プロセッサは、
前記画像の画像ピラミッドを作成することであって、前記画像ピラミッドが複数の層を含んでいる、前記作成することと、
前記画像ピラミッドの層ごとに、
空間格子のノードの内部状態を初期化することであって、各ノードが、前記画像内の1つまたは複数のピクセルのブロックを表しており、前記画像内の1つまたは複数のピクセルの隣のブロックを表す少なくとも1つのノードに接続される、前記初期化することと、
ニューラル・ネットワークを使用し、空間的にゲーティングされる伝搬を使用して前記空間格子内の前記ノードの前記内部状態を反復的に更新することと、
前記画像ピラミッドの第1の層に含まれる値を表すノードを含んでいる前記空間格子の収束での前記ノードの前記内部状態に基づいて、前記画像内の前記対象の領域を識別することとを実行するように構成されている、システム。
A system for determining the area of interest in an image
Memory and
The electronic processor includes an electronic processor connected to the memory.
Creating an image pyramid of the image, wherein the image pyramid contains a plurality of layers.
For each layer of the image pyramid,
Initializing the internal state of the nodes in the spatial grid, where each node represents a block of one or more pixels in the image, next to one or more pixels in the image. That initialization, which is connected to at least one node that represents the block,
Using a neural network to iteratively update the internal state of the node in the spatial lattice using spatially gated propagation,
Identifying the area of interest in the image based on the internal state of the node in the convergence of the spatial grid containing the node representing the values contained in the first layer of the image pyramid. A system that is configured to run.
前記画像ピラミッドに含まれている前記複数の層の各連続する層が、前記画像ピラミッドの直前の層で表される画像より低い解像度で前記画像を表す、請求項33に記載のシステム。 33. The system of claim 33, wherein each contiguous layer of the plurality of layers included in the image pyramid represents the image at a lower resolution than the image represented by the layer immediately preceding the image pyramid. 前記電子プロセッサが、より少ない値を含む前記画像を表すことによって、より低い解像度で前記画像を表すように構成されている、請求項34に記載のシステム。 34. The system of claim 34, wherein the electronic processor is configured to represent the image at a lower resolution by representing the image with less value. 前記電子プロセッサが、各反復で、ノードごとに、前の反復からの前記ノードの値を維持するのか、前記ノードの値を前の反復からの隣のノードの値に設定するのか、または前記ノードの新しい値を設定するのかを決定することによって、前記ノードの前記内部状態を更新するように構成されている、請求項33に記載のシステム。 For each node, the electronic processor maintains the value of the node from the previous iteration, sets the value of the node to the value of the adjacent node from the previous iteration, or the node. 33. The system of claim 33, which is configured to update the internal state of the node by determining whether to set a new value for. 前記電子プロセッサが、ニューラル・ネットワークを使用して、前記ノードの前記内部状態に関連付けられた値のベクトル内の値を更新することによって、前記ノードの前記内部状態を反復的に更新するように構成されている、請求項33に記載のシステム。 The electronic processor is configured to iteratively update the internal state of the node by using a neural network to update the values in the vector of values associated with the internal state of the node. 33. The system according to claim 33. 前記電子プロセッサが、前記画像ピラミッドの層ごとの各反復で、前記画像ピラミッドの前記層に含まれている前記値および前記画像ピラミッドの前記層に含まれている前記値を表す前記ノードの前の内部状態の第1の連結を含む第1の畳み込みを実行することと、前記第1の畳み込みの実行結果を格納することとを実行するように構成されている、請求項35に記載のシステム。 In each iteration of the image pyramid layer by layer, the electronic processor in front of the node representing the value contained in the layer of the image pyramid and the value contained in the layer of the image pyramid. 35. The system of claim 35, which is configured to perform a first convolution that includes a first concatenation of the internal state and to store the execution result of the first convolution. 前記電子プロセッサが、前記画像ピラミッドの層ごとの各反復で、前記画像ピラミッドの現在の層、前記画像ピラミッドの前記現在の層の真上の前記画像ピラミッドの層、および前記画像ピラミッドの前記現在の層の真下の前記画像ピラミッドの層に対する前記第1の畳み込みの実行結果の第2の連結を含む第2の畳み込みを実行するように構成されている、請求項38に記載のシステム。 At each iteration of each layer of the image pyramid, the electronic processor comprises the current layer of the image pyramid, the layer of the image pyramid directly above the current layer of the image pyramid, and the current layer of the image pyramid. 38. The system of claim 38, wherein a second convolution is configured to perform a second concatenation of the result of performing the first convolution on the layer of the image pyramid beneath the layer. 前記電子プロセッサが、前記第1の反復において、前記画像内の1つまたは複数のピクセルの各ブロックの明るさを表す各値に対する畳み込みを実行するようにさらに構成されており、入力画像データの次元の縮小を含む各畳み込みが、前記画像ピラミッドの次の層内の前記画像を表すために使用される値を生成する、請求項34に記載のシステム。 The electronic processor is further configured to perform a convolution on each value representing the brightness of each block of one or more pixels in the image in the first iteration, the dimension of the input image data. 34. The system of claim 34, wherein each convolution, including a reduction of the image, produces a value used to represent the image in the next layer of the image pyramid. 前記電子プロセッサが、前記ニューラル・ネットワークの最終的な層を使用して、前記画像ピラミッドの第1の層に含まれる前記値を表すノードに関連付けられた各ベクトルに基づいて、前記画像内の各ピクセルが前記画像内の対象の物体に含まれている確率を計算することと、
ピクセルごとに、前記計算された確率が既定のしきい値より高いかどうかを判定することとによって、前記画像ピラミッドの第1の層に含まれる値を表すノードを含む前記空間格子の収束での前記ノードの前記値に基づいて前記画像内の前記対象の物体を識別するように構成されている、請求項33に記載のシステム。
Each of the electronic processors in the image uses the final layer of the neural network, based on each vector associated with a node representing the value contained in the first layer of the image pyramid. To calculate the probability that a pixel is included in the target object in the image,
At the convergence of the spatial grid containing nodes representing the values contained in the first layer of the image pyramid, by determining for each pixel whether the calculated probability is higher than a predetermined threshold. 33. The system of claim 33, which is configured to identify the object of interest in the image based on the value of the node.
前記電子プロセッサが、スカッシング関数および前記第2の畳み込みの実行結果を使用することによって、前の反復からの前記ノードの値、前記前の反復からの隣のノードの値、または前記ノードの新しい値から成る群から選択された少なくとも1つに基づいて前記内部状態を更新するように構成されている、請求項39に記載のシステム。 By using the squashing function and the execution result of the second convolution, the electronic processor uses the value of the node from the previous iteration, the value of the adjacent node from the previous iteration, or the new value of the node. 39. The system of claim 39, which is configured to update the internal state based on at least one selected from the group consisting of values. 前記隣のノードが、前記ノードによって表された前記画像内の1つまたは複数のピクセルの前記ブロックの真上、真下、右、および左にある前記画像内の1つまたは複数のピクセルのブロックを表すノードから成る群から選択されたノードである、請求項36に記載のシステム。 The adjacent node is a block of one or more pixels in the image that is directly above, below, to the right, and to the left of the block of one or more pixels in the image represented by the node. 36. The system of claim 36, which is a node selected from the group consisting of representing nodes. 電子プロセッサを使用して実行された場合に一連の機能を実行する命令を格納している非一時的なコンピュータ可読媒体であって、前記一連の機能が、
画像の画像ピラミッドを作成することであって、前記画像ピラミッドが複数の層を含んでおり、各層が複数の値を含んでおり、各値が前記画像内の1つまたは複数のピクセルのブロックを表し、各連続する層が、直前の層より少ない値を含んでいる、前記作成することと、
前記画像ピラミッドの層ごとに、
空間格子のノードの内部状態を初期化することであって、各ノードが、前記画像内の1つまたは複数のピクセルのブロックを表しており、前記画像内の1つまたは複数のピクセルの隣のブロックを表す少なくとも1つのノードに接続される、前記初期化することと、
ニューラル・ネットワークを使用し、空間的にゲーティングされる伝搬を使用して前記空間格子内の前記ノードの前記内部状態を反復的に更新することであって、各反復で、各ノードが、前の反復からの前記ノードの値、前記前の反復からの隣のノードの値、または前記ノードの新しい値から成る群から選択された少なくとも1つに基づいて、その内部状態を更新する、前記更新することと、
前記画像ピラミッドの第1の層に含まれる前記値を表すノードを含む前記空間格子の収束での前記ノードの前記値に基づいて、前記画像内の対象の物体を識別することとを含んでいる、非一時的なコンピュータ可読媒体。
A non-transitory computer-readable medium that stores instructions that perform a set of functions when executed using an electronic processor.
Creating an image pyramid of an image, wherein the image pyramid contains multiple layers, each layer contains multiple values, each value containing a block of one or more pixels in the image. Representing that each contiguous layer contains less value than the previous layer, as described above.
For each layer of the image pyramid,
Initializing the internal state of the nodes in the spatial grid, where each node represents a block of one or more pixels in the image, next to one or more pixels in the image. That initialization, which is connected to at least one node that represents the block,
Using a neural network to iteratively update the internal state of the node in the spatial lattice using spatially gated propagation, at each iteration, each node prepends. Update its internal state based on at least one selected from the group consisting of the value of the node from the iteration of, the value of the adjacent node from the previous iteration, or the new value of the node. To do and
Includes identifying an object of interest in the image based on the value of the node in the convergence of the spatial grid containing the node representing the value contained in the first layer of the image pyramid. , A non-temporary computer-readable medium.
ニューラル・ネットワークを使用して前記ノードの前記内部状態を反復的に更新することが、前記ノードの前記内部状態に関連付けられた値のベクトル内の値を更新することを含んでいる、請求項44に記載の非一時的なコンピュータ可読媒体。 44. Claim 44 that iteratively updating the internal state of the node using a neural network comprises updating the value in the vector of values associated with the internal state of the node. Non-temporary computer-readable medium described in. 前記画像ピラミッドの第1の層に含まれる前記値を表すノードを含む前記空間格子の収束での前記ノードの前記値に基づいて前記画像内の対象の物体を識別することが、前記ニューラル・ネットワーク内の最終的な層を使用して、前記画像ピラミッドの第1の層に含まれる前記値を表すノードに関連付けられた前記ベクトルに基づいて、前記画像内の各ピクセルが前記対象の物体に含まれている確率を計算することと、
ピクセルごとに、前記計算された確率が既定のしきい値より高いかどうかを判定することとを含んでいる、請求項44に記載の非一時的なコンピュータ可読媒体。
Identifying a target object in the image based on the value of the node at the convergence of the spatial lattice containing the node representing the value contained in the first layer of the image pyramid is the neural network. Each pixel in the image is included in the object of interest, based on the vector associated with the node representing the value contained in the first layer of the image pyramid, using the final layer in the image. To calculate the probability of being
The non-transitory computer-readable medium of claim 44, comprising determining, on a pixel-by-pixel basis, whether the calculated probability is higher than a predetermined threshold.
JP2020556276A 2018-06-21 2019-05-13 Irregular shape segmentation in an image using deep region expansion Pending JP2021527859A (en)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US16/014,801 US10643092B2 (en) 2018-06-21 2018-06-21 Segmenting irregular shapes in images using deep region growing with an image pyramid
US16/014,785 US10776923B2 (en) 2018-06-21 2018-06-21 Segmenting irregular shapes in images using deep region growing
US16/014,785 2018-06-21
US16/014,801 2018-06-21
PCT/IB2019/053923 WO2019243910A1 (en) 2018-06-21 2019-05-13 Segmenting irregular shapes in images using deep region growing

Publications (1)

Publication Number Publication Date
JP2021527859A true JP2021527859A (en) 2021-10-14

Family

ID=68983773

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020556276A Pending JP2021527859A (en) 2018-06-21 2019-05-13 Irregular shape segmentation in an image using deep region expansion

Country Status (5)

Country Link
JP (1) JP2021527859A (en)
CN (1) CN112189217A (en)
DE (1) DE112019001959T5 (en)
GB (1) GB2589478B (en)
WO (1) WO2019243910A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116894841A (en) * 2023-09-08 2023-10-17 山东天鼎舟工业科技有限公司 Visual detection method for quality of alloy shell of gearbox

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116546340B (en) * 2023-07-05 2023-09-19 华中师范大学 High-speed CMOS pixel detector

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170372475A1 (en) * 2016-06-23 2017-12-28 Siemens Healthcare Gmbh Method and System for Vascular Disease Detection Using Recurrent Neural Networks
US20180025257A1 (en) * 2016-01-25 2018-01-25 Google Inc. Generating images using neural networks
JP2018513398A (en) * 2015-11-25 2018-05-24 バイドゥ ユーエスエー エルエルシーBaidu USA LLC Deployed end-to-end speech recognition

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103236058B (en) * 2013-04-25 2016-04-13 内蒙古科技大学 Obtain the method for volume of interest of four-dimensional heart image
US9972093B2 (en) * 2015-03-30 2018-05-15 Siemens Healthcare Gmbh Automated region of interest detection using machine learning and extended Hough transform
US10417788B2 (en) * 2016-09-21 2019-09-17 Realize, Inc. Anomaly detection in volumetric medical images using sequential convolutional and recurrent neural networks
CN107832807B (en) * 2017-12-07 2020-08-07 上海联影医疗科技有限公司 Image processing method and system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018513398A (en) * 2015-11-25 2018-05-24 バイドゥ ユーエスエー エルエルシーBaidu USA LLC Deployed end-to-end speech recognition
US20180025257A1 (en) * 2016-01-25 2018-01-25 Google Inc. Generating images using neural networks
US20170372475A1 (en) * 2016-06-23 2017-12-28 Siemens Healthcare Gmbh Method and System for Vascular Disease Detection Using Recurrent Neural Networks

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116894841A (en) * 2023-09-08 2023-10-17 山东天鼎舟工业科技有限公司 Visual detection method for quality of alloy shell of gearbox
CN116894841B (en) * 2023-09-08 2023-11-28 山东天鼎舟工业科技有限公司 Visual detection method for quality of alloy shell of gearbox

Also Published As

Publication number Publication date
CN112189217A (en) 2021-01-05
WO2019243910A1 (en) 2019-12-26
GB2589478A (en) 2021-06-02
GB202019774D0 (en) 2021-01-27
DE112019001959T5 (en) 2021-01-21
GB2589478B (en) 2022-05-25

Similar Documents

Publication Publication Date Title
Upadhyay et al. Kapur’s entropy based optimal multilevel image segmentation using crow search algorithm
US20220108546A1 (en) Object detection method and apparatus, and computer storage medium
JP6504590B2 (en) System and computer implemented method for semantic segmentation of images and non-transitory computer readable medium
CN112613581B (en) Image recognition method, system, computer equipment and storage medium
CN109754078A (en) Method for optimization neural network
CN110826596A (en) Semantic segmentation method based on multi-scale deformable convolution
CN109741341B (en) Image segmentation method based on super-pixel and long-and-short-term memory network
CN108171663B (en) Image filling system of convolutional neural network based on feature map nearest neighbor replacement
US20130177235A1 (en) Evaluation of Three-Dimensional Scenes Using Two-Dimensional Representations
Rahaman et al. An efficient multilevel thresholding based satellite image segmentation approach using a new adaptive cuckoo search algorithm
JP6865889B2 (en) Learning devices, methods and programs
US11568212B2 (en) Techniques for understanding how trained neural networks operate
CN111008631B (en) Image association method and device, storage medium and electronic device
CN112529069B (en) Semi-supervised node classification method, system, computer equipment and storage medium
Xu et al. Unsupervised color image segmentation with color-alone feature using region growing pulse coupled neural network
US10643092B2 (en) Segmenting irregular shapes in images using deep region growing with an image pyramid
CN114897728A (en) Image enhancement method and device, terminal equipment and storage medium
JP2021527859A (en) Irregular shape segmentation in an image using deep region expansion
CN113158970B (en) Action identification method and system based on fast and slow dual-flow graph convolutional neural network
US10776923B2 (en) Segmenting irregular shapes in images using deep region growing
Seo et al. Graph neural networks and implicit neural representation for near-optimal topology prediction over irregular design domains
WO2024078112A1 (en) Method for intelligent recognition of ship outfitting items, and computer device
CN112330697A (en) Image segmentation method and device, electronic equipment and readable storage medium
WO2023273934A1 (en) Method for selecting hyper-parameter of model, and related apparatus
CN116258877A (en) Land utilization scene similarity change detection method, device, medium and equipment

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210927

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220502

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221006

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230509

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20230710