JP2020112937A - 計算機および画像処理方法 - Google Patents

計算機および画像処理方法 Download PDF

Info

Publication number
JP2020112937A
JP2020112937A JP2019001991A JP2019001991A JP2020112937A JP 2020112937 A JP2020112937 A JP 2020112937A JP 2019001991 A JP2019001991 A JP 2019001991A JP 2019001991 A JP2019001991 A JP 2019001991A JP 2020112937 A JP2020112937 A JP 2020112937A
Authority
JP
Japan
Prior art keywords
model information
learning data
image
learning
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019001991A
Other languages
English (en)
Inventor
影山 昌広
Masahiro Kageyama
昌広 影山
英恵 吉田
Hanae Yoshida
英恵 吉田
昌宏 荻野
Masahiro Ogino
昌宏 荻野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2019001991A priority Critical patent/JP2020112937A/ja
Priority to US16/736,847 priority patent/US20200218942A1/en
Publication of JP2020112937A publication Critical patent/JP2020112937A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Apparatus For Radiation Diagnosis (AREA)

Abstract

【課題】画像から高い精度で真のオブジェクトを検出し、かつ、誤ったオブジェクトの検出率が低い画像処理を実現する。【解決手段】画像からオブジェクトを検出するための画像処理を実行する計算機であって、演算装置および前記演算装置に接続される記憶装置を備え、前記画像処理を実現するためのモデルを定義するモデル情報を複数格納するモデル情報データベースを保持し、前記演算装置は、評価画像が入力された場合、前記複数のモデル情報の各々に基づいて、前記評価画像から前記オブジェクトを検出するための識別処理を実行し、前記複数のモデル情報の各々に基づく前記識別処理によって得られた出力結果を統合することによって、オブジェクトの検出結果を出力する。【選択図】 図2

Description

本発明は、ニューラルネットワークを用いた画像処理に関する。
近年、ディープラーニングの中核技術の一つである畳み込みニューラルネットワーク(以下、CNNと記載する)が様々な分野で用いられている。CNNは、1つ以上のノードから構成される層を含み、各層のノードの接続がネットワークを形成する構造のモデルである。なお、CNNに含まれる層には、畳み込み演算が実行される層を少なくとも1つ含む。
例えば、医用分野では、CT(Computer Tomography)画像、MRI(Magnetic Resonance Imaging)画像、X線画像、超音波画像等を処理するためのCNNを利用して、精度の高い病変の検出、病変の自動計測、病変のレポート生成等を実現してきている。また、監視カメラ、家庭用ビデオカメラ、および携帯電話端末等の画像を処理するCNNを利用して、画像の中から人物等の被写体を検出し、画像から文書、文字、グラフ、図形等を認識することが行われている。
画像からオブジェクトを検出するためのCNNを用いた画像の処理結果には、目的とするオブジェクト以外のオブジェクトが検出される場合がある。オブジェクトの検出精度を低下させることなく、誤ったオブジェクトの検出率を低減させるための技術として、例えば、特許文献1に記載の技術が知られている。
特許文献1には、「教師あり画像分類器により検証用画像の分類をする情報処理システムであって、検証用画像の入力をする画像入力手段と、前記画像入力手段により入力された検証用画像と類似する画像を抽出する類似画像抽出手段と、前記類似画像抽出手段により抽出した画像にラベルを付与することで教師データを作成する教師データ作成手段と、前記教師データ作成手段により作成された教師データを用いて、前記教師あり画像分類器を学習させる学習手段と、を備える」ことが記載されている。
特開2017−111731号公報
Armato SG III, McLennan G, Bidaut L, McNitt-Gray MF, Meyer CR, Reeves AP, Zhao B, Aberle DR, Henschke CI, Hoffman EA, Kazerooni EA, MacMahon H, van Beek EJR, Yankelevitz D, et al.: The Lung Image Database Consortium (LIDC) and Image Database Resource Initiative (IDRI): A completed reference database of lung nodules on CT scans. Medical Physics, 38: 915--931, 2011
特許文献1に記載のように、誤検出結果をフィードバックするための学習処理を実行した場合、誤ったオブジェクトの検出率が低減する。しかし、手動で誤検出結果を入力する必要がある。また、当該学習処理によって、オブジェクトの検出精度に影響を与える可能性がある。
本発明は、真のオブジェクトの検出精度が高く、かつ、誤ったオブジェクトの検出率が低い画像処理を実現する技術を提供する。
本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、次のとおりである。すなわち、画像からオブジェクトを検出するための画像処理を実行する計算機であって、演算装置および前記演算装置に接続される記憶装置を備え、前記画像処理を実現するためのモデルを定義するモデル情報を複数格納するモデル情報データベースを保持し、前記演算装置は、評価画像が入力された場合、前記複数のモデル情報の各々に基づいて、前記評価画像から前記オブジェクトを検出するための識別処理を実行し、前記複数のモデル情報の各々に基づく前記識別処理によって得られた出力結果を統合することによって、前記オブジェクトの検出結果を出力する。
本発明によれば、真のオブジェクトの検出精度が高く、かつ、誤ったオブジェクトの検出率が低い画像処理を実現できる。上記した以外の課題、構成および効果は、以下の実施例の説明により明らかにされる。
実施例1の計算機の構成例を示す図である。 実施例1の計算機が実行する処理の概要を説明する図である。 実施例1におけるCNNの構造の一例を示す図である。 実施例1におけるCNNの構造の一例を示す図である。 実施例1の学習部が実行する第1データ変換処理を説明するフローチャートである。 実施例1の第1データ変換処理の流れを説明する図である。 実施例1の学習部が実行する学習処理を説明するフローチャートである。 実施例1の学習処理の流れを示す図である。 実施例1の画像処理部が実行する第2データ変換処理を説明するフローチャートである。 実施例1の画像処理部が実行する検出処理を説明するフローチャートである。 実施例1の第2データ変換処理および検出処理の流れを示す図である。 実施例1の画像処理部が実行する第3データ変換処理を説明するフローチャートである。 実施例1の画像処理部が実行する統合処理を説明するフローチャートである。 実施例1の第3データ変換処理および統合処理の流れを示す図である。 実施例1の統合処理の流れのバリエーションを示す図である。 実施例1の論理演算子の構造例を示す図である。 実施例1の画像処理部が実行する処理の流れを示す図である。 実施例1の画像処理部が実行する処理の流れを示す図である。 実施例2の学習部が実行する学習処理を説明するフローチャートである。 実施例2の変換学習データの一例を示す図である。 実施例2の変換学習データの一例を示す図である。 実施例2の変換学習データの一例を示す図である。 実施例2の変換学習データの一例を示す図である。 実施例2の変換学習データの一例を示す図である。 実施例2の変換学習データの一例を示す図である。 実施例2の変換学習データの一例を示す図である。 実施例3の学習部が実行する学習処理を説明するフローチャートである。 実施例3の画像処理部が実行する検出処理を説明するフローチャートである。 実施例4のシステムの構成例を示す図である。
本発明は、画像からオブジェクトを検出する処理を含む画像処理を実現するCNNを用いたオブジェクトの検出技術を提供する。
ここで、CNNは、後述のように、複数のノードから構成される複数の層をネットワーク状に接続する。ノードとは、人工ニューロン単体のことであり、ユニットとも呼ばれる。
以下、添付図面を参照して本発明の実施例について説明する。なお、添付図面は本発明の原理に則った具体的な実装例を示しているが、これらは本発明の理解のためのものであり、決して本発明を限定的に解釈するために用いられるものではない。
本実施例では、当業者が本発明を実施するのに十分詳細にその説明がなされているが、他の実装および形態も可能で、本発明の技術的思想の範囲と精神を逸脱することなく構成および構造の変更および多様な要素の置き換えが可能であることを理解する必要がある。したがって、以降の記述をこれに限定して解釈してはならない。
実施例を説明するための図において、同一の構成には原則として同一の符号を付し、その繰り返しの説明は省略する。
図1は、実施例1の計算機100の構成例を示す図である。
計算機100は、演算装置101、メモリ102、ストレージ装置103、通信インタフェース104、出力インタフェース105、および入力インタフェース106を備える。前述の各ハードウェアはバス107を介して互いに接続される。
演算装置101は、計算機100全体を制御する装置であって、例えば、CPU(Central Processing Unit)である。演算装置101は、メモリ102に格納されるプログラムを実行する。演算装置101がプログラムにしたがって処理を実行することによって、特定の機能を実現する機能部として動作する。以下の説明では、機能部を主語に処理を説明する場合、演算装置101が当該機能部を実現するプログラムを実行していることを示す。
メモリ102は、演算装置101が実行するプログラムおよびプログラムが使用する情報を格納する。また、メモリ102はプログラムが一時的に使用するワークエリアを含む。メモリ102は、設定部110、学習部111、および画像処理部112を実現するプログラムを格納する。
設定部110は、学習対象のCNN200(図2参照)を構築する。学習部111は、学習データDB120に格納される学習データ121を用いてCNN200の学習処理を実行する。学習部111は、学習結果としてCNN200の定義情報であるモデル情報131を生成し、モデル情報DB130に格納する。画像処理部112は、複数のモデル情報131を用いて、入力された画像に対して任意の画像処理を実行する。
実施例1のCNN200は、画像からオブジェクトを検出するための識別処理を実現するためのモデルである。また、画像処理部112は、入力された画像からオブジェクトを検出するための画像処理を実行する。
ストレージ装置103は、データを永続的に格納する記憶装置であり、例えば、HDD(Hard Disk Drive)およびSSD(Solid State Drive)である。ストレージ装置103は、学習データDB120およびモデル情報DB130を格納する。
学習データDB120は、入力データ500(図5参照)および正解データ510(図5参照)から構成される学習データ121を格納するデータベースである。モデル情報DB130は、CNN200の構造を管理するための情報であるモデル情報131を格納するデータベースである。モデル情報131には、ハイパーパラメータおよびネットワーク構造等が格納される。
なお、メモリ102に格納されるプログラムおよび情報は、ストレージ装置103に格納されてもよい。この場合、演算装置101がストレージ装置103からプログラムおよび情報を読み出し、メモリ102にロードし、さらに、メモリ102にロードされたプログラムを実行する。
通信インタフェース104は、ネットワーク150を介して、画像取得装置等の外部装置と通信するためのインタフェースである。計算機100は、通信インタフェース104を介して、各種画像、CNN200の構造に関する情報、外部装置を制御するためのコマンド等を送受信する。
ネットワーク150は、例えば、LAN(Local Area Network)、WAN(Wide Area Network)、イントラネットワーク、インターネット、携帯電話網、固定電話網等である。接続方式は有線および無線のいずれでもよい。なお、計算機100は、通信インタフェース104を介して、外部装置と直接接続してもよい。
出力インタフェース105は、ディスプレイ160等の出力装置と接続するためのインタフェースである。ディスプレイ160には、各種画像、CNN200の構造に関する情報、学習処理および画像処理の進捗状況等が表示される。
入力インタフェース106は、キーボード170およびマウス180等の入力装置に接続するためのインタフェースである。CNN200の設計者(以下、ユーザと記載する。)は、入力装置を用いて各種値を設定し、また、各種コマンドを入力する。
図2は、実施例1の計算機100が実行する処理の概要を説明する図である。
学習部111は、学習データ121を用いて、学習に使用する拡張学習データ210を生成するための第1データ変換処理を実行する(ステップS100)。第1データ変換処理は、学習データ121を水増しするために実行される。
学習部111は、複数の拡張学習データ210を用いて、複数のモデル情報131を生成するための学習処理を実行する(ステップS200)。これによって、複数のモデル情報131が生成される。
画像処理部112は、評価データ220が入力された場合、モデル情報131によって定義されるCNN200に入力する拡張評価データ230を生成するための第2データ変換処理を実行する(ステップS300)。第2データ変換処理は、評価データ220を水増しするために実行される。
画像処理部112は、複数の拡張評価データ230のオブジェクトを検出するための検出処理を実行する(ステップS400)。検出処理では、複数のCNN200による識別処理がシーケンシャルまたはパラレルに実行される。各CNN200からは、オブジェクトの検出結果を含む出力データ240が生成される。
画像処理部112は、複数の出力データ240に対して第3データ変換処理を実行し(ステップS500)、第3データ変換処理が実行された出力データ240を用いて統合処理を実行する(ステップS600)。後述するように、統合処理では、論理積および論理和等の論理演算が行われる。
各モデル情報131に対応するCNN200は、同一の学習データ121から生成された拡張学習データ210を用いて生成される。したがって、各CNN200に基づく識別処理では、真のオブジェクトは、画像(拡張評価データ230)の同じ位置に検出される。一方、誤ったオブジェクトは、画像(拡張評価データ230)のランダムな位置に検出される。したがって、複数のCNN200から出力された出力データ240の論理演算を実行することによって、誤ったオブジェクトを除去し、かつ、真のオブジェクトを高い精度で検出することができる。
図3Aおよび図3Bは、実施例1におけるCNN200の構造の一例を示す図である。
実施例1では、CNN200による画像処理を利用した肺がんCAD(Computer Aided Detection/Diagnosis)システムを一例として説明する。
CADシステムは、画像処理を実行することによって、病変の検出、病変の正常/異常の識別、サイズ計測、病変種類の区別等を、自動または半自動で行うシステムである。当該システムは、複数の医師がボリュームデータを読影するのと並行して、CADがボリュームデータを解析し、解析結果を医師に提示する。これによって、病変見落としを防止できる。
画像処理部112には、CT装置等によって撮影された胸部断層画像(ボリュームデータ)が評価データ220として入力される。評価データ220には、胸部断層画像を構成する複数の評価スライス画像300を含む。画像処理部112は、評価スライス画像300に映っている結節を検出するための画像処理を実行し、評価スライス画像300における結節の位置を示す出力スライス画像330を含む出力データ240を出力する。
結節が映っている評価スライス画像300からは、結節に対応する位置にROI(Region Of Interest)350を含む出力スライス画像330が出力される。図3Aでは、矩形領域340にROI350を含む出力スライス画像330が出力される。なお、矩形領域340は説明のために追加したものであり、実際の画像には表示されない。
以下の説明では、結節に対応するROI350をTP−ROI(True positive−resion of interest)351と記載し、結節以外の物体に対応するROI350をFP−ROI(False positive−resion of interest)352と記載する。
実施例1の出力スライス画像330は二値化された画像として出力されるものとする。具体的には、ROI350は白(輝度値=1)、その他の部分は黒(輝度値=0)となる画像とする。なお、出力スライス画像330は二値化された画像でなくてもよい。例えば、結節である確率に応じて輝度値を連続的に変化させた画像でもよい。この場合、結節である確率が高い場合、輝度を大きくし、結節である確率が低い場合、輝度値を小さくする表示方法が考えられる。
前述のような画像処理を実現するCNN200の構造について説明する。
実施例1のCNN200は、3つの層から構成される。第1層は境界検出層310であり、第2層は移動層311であり、また、第3層は結合層312である。各層310、311、312は少なくとも1つのノード320から構成される。ここで、図3Bを用いてノード320の構造について説明する。
ノード320は、畳み込み演算321、加算演算322、および活性化関数323から構成される。
畳み込み演算321では、水平方向がi画素、垂直方向がj画素であるk枚のスライス画像から構成されるn個の3次元ブロックから構成される入力画素群x_aに対して3次元畳み込み演算が実行される。なお、nは整数であり、添字aは0から(k−1)までの整数である。3次元畳み込み演算は、3次元ブロックと同じサイズであるk個の重み係数群を用意し、ブロック中の各画素に対して対応する係数を乗算し、その値の総和を算出する演算である。
加算演算322では、畳み込み演算321の結果にバイアスを加算する。
活性化関数323は、加算演算322から入力された値に基づいて、1画素の出力yを算出する。活性化関数323は、例えば、ReLU(Rectified Linear Unit)、Clipped ReLU、Leaky ReLU、シグモイド関数、ステップ関数、ハイパボリックタンジェント(tanh)関数等を用いる。
評価データ220の全ての画素に対して、前述の3次元ブロック処理を実行することによって3次元の画像を得ることができる。
なお、水平方向、垂直方向、スライス方向のそれぞれの端でパディングを行って、統合出力データ250のサイズを評価データ220と一致させる処理が行われてもよい。
なお、人物、動物、自動車、二輪車、放置物、危険物等を検出するCNN200も同様の構造で実現できる。また、入力される画像は静止画でもよし、動画でもよい。
次に、CNN200に含まれる境界検出層310、移動層311、および結合層312の構造について説明する。
境界検出層310は、オブジェクトの輪郭に対応する境界を検出する。評価データ220に結節が含まれている場合、結節の近似形状である立体であるROI350が含まれる出力データ240が出力される。
移動層311は、境界検出層310によって検出されたオブジェクトの境界に基づいて、任意の形状の結節を検出する。
移動層311は、オブジェクトの境界を画像上に設定した基準点に移動させ、境界に対応する値を加算する畳み込み演算が行われる。なお、基準点は任意に設定された点であり、ここでは「おおむね結節の中心あたりの点」とする。
結合層312は、基準点に移動させた境界線分の値の合計値を算出し、ROI350の検出結果を出力する。具体的には、結合層312のノード320では、移動層311の出力に重み係数を乗算した値の総和を算出する演算が行われる。すなわち、移動層311の各ノードの出力を受け付け、1(=1×1)画素の畳み込み演算を行う1つのノード320から構成される。
実施例1のCNN200は以下のような特性を有する。境界検出層310において、結節の境界上からは正値が出力され、境界以外の部分ではゼロが出力される。そのため、境界を基準点に移動させ、境界の値を加算した結果、基準点では極めて大きな正値が出力され、基準点以外の点では、ゼロまたは小さい値が出力される。したがって、境界検出層310がM種類の境界線分を検出し、移動層311がN個の方向に境界を移動する畳み込み演算を実行する場合、CNN200は(M×N)個の境界の組合せによって定まる形状の結節を検出できる。すなわち、CNN200は任意の形状のオブジェクトを検出する識別器として機能する。
次に、CNN200を構築するために学習部111が実行する処理について説明する。
図4は、実施例1の学習部111が実行する第1データ変換処理を説明するフローチャートである。図5は、実施例1の第1データ変換処理の流れを説明する図である。図6は、実施例1の学習部111が実行する学習処理を説明するフローチャートである。図7は、実施例1の学習処理の流れを示す図である。
実施例1の学習データ121は、ボリュームデータである入力データ500およびボリュームデータである正解データ510から構成される。入力データ500は、2次元(xy平面)の入力スライス画像501が当該平面に垂直な軸(z軸)方向に複数枚並べられたデータである。正解データ510は、2次元(xy平面)の正解スライス画像511が当該平面に垂直な軸(z軸)方向に複数枚並べられたデータである。
入力データ500には、結節が映っている入力スライス画像501が少なくとも1つ含まれる。結節を含む入力スライス画像501に対応づけられた正解スライス画像511には、ROI350に対応するマスク512が含まれる。
まず、第1データ変換処理について説明する。学習部111は、学習データDB120から学習データ121を読み出し、拡張学習データ210を生成する(ステップS101)。具体的には、以下のような処理が実行される。
(処理A1)学習部111は、1つの学習データ121に含まれる入力データ500および正解データ510に対して、等方性補間処理を実行する。入力スライス画像501間の間隔が入力スライス画像501の画素の間隔より大きい場合、また、正解スライス画像511間の間隔が正解スライス画像511の画素の間隔より大きい場合、画素の間隔とスライスが間の間隔をそろえるために、入力スライス画像501および正解スライス画像511の補間を行う等方性補間処理(スライス間のポリフェーズフィルタ処理)が実行される。
(処理A2)学習部111は、補間された入力スライス画像501を含む入力データ500に対して縮小処理を実行し、サイズが異なる複数の拡張スライス画像(拡張入力データ550および拡張正解データ560)を生成する。
なお、等方性補間処理は実行されなくてもよい。以上がステップS101の処理の説明である。
次に、学習部111は、縮小率に応じて入力グループを設定し、拡張学習データ210を各入力グループに分類する(ステップS102)。その後、学習部111は、第1データ変換処理を終了し、学習処理を開始する。
学習部111は、初期のCNN200を構築するための初期設定を実行する(ステップS201)。これによって、学習前のCNN200の構造を定義するモデル情報131が生成される。
次に、学習部111は、ターゲット入力グループを選択し(ステップS202)、ターゲット入力グループに含まれる拡張学習データ210を用いて順伝播処理を実行する(ステップS203)。順伝播処理とは、入力されたデータがCNN等のネットワークを伝播し、出力結果を得る処理をいう。具体的には、以下のような処理が実行される。
(処理B1)学習部111は、拡張入力データ550に含まれる結節の大きさを計測し、結節の大きさが所定の範囲の拡張入力データ550を選択する。学習部111は、選択された拡張入力データ550および対応する拡張正解データ560から構成される拡張学習データ210を画像処理部112に入力する。
(処理B2)画像処理部112は、モデル情報131に基づいて、拡張入力データ550に含まれる拡張入力スライス画像700を処理することによって、拡張出力スライス画像720から構成される拡張出力データ710を生成する。結節が映っている拡張入力スライス画像700が入力された場合、ROI350を含む拡張出力スライス画像720が生成される。
なお、(処理B1)および(処理B2)を所定回数実行してもよい。以上が順伝播処理の説明である。
次に、学習部111は逆伝播処理を実行する(ステップS204)。逆伝播処理とは、出力側から入力側に向けて、CNN等のネットワークの各層のパラメータの更新結果が伝播し、全ての層のパラメータを更新する処理をいう。具体的には、以下のような処理が実行される。
学習部111は、拡張出力データ710および拡張学習データ210の誤差の大きさを評価するロス値を算出する。学習部111は、ロス値に基づいて、CNN200の出力側から入力側に向けて、各層の重み係数およびバイアス等のパラメータを更新する。
パラメータの総数を次元数とする多次元空間において、パラメータを更新するアルゴリズム(オプティマイザ)としては、最急降下法、SGD(Stochastic Gradient Descent:確率的勾配降下法)、Momentum SDG、Adam、AdaGrad、AdaDelta、RMSProp、SMORMS3等がある。実施例1では、オプティマイザに限定されない。最急降下法を採用した場合、学習部111は、1回学習する度に、誤差が小さくなる方向および度合いを示す勾配を算出し、当該勾配に基づいてパラメータを更新する。
以上が逆伝播処理の説明である。
次に、学習部111は、逆伝播処理の結果に基づいて、モデル情報131を更新する(ステップS205)。
次に、学習部111は、終了条件を満たすか否かを判定する(ステップS206)。
例えば、学習部111は、モデル情報131の更新回数(世代数)が所定の閾値より大きい場合、終了条件を満たすと判定する。また、学習部111は、ロス値が所定の閾値以下である場合、終了条件を満たすと判定する。
終了条件を満たさないと判定された場合、学習部111はステップS203に戻り、同様の処理を実行する。
終了条件を満たすと判定された場合、学習部111は、全ての入力グループの処理が完了したか否かを判定する(ステップS207)。
全ての入力グループの処理が完了していないと判定された場合、学習部111は、ステップS202に戻り、同様の処理を実行する。
全ての入力グループの処理が完了したと判定された場合、学習部111は、学習処理を終了する。
ここで、具体例を用いて、縮小率および入力グループについて説明する。実施例1では、NCI(National Cancer Institute)により提供される胸部CT画像データベース(非特許文献1参照)を用いて、結節を検出するためのCNN200を生成した。当該データベースには、ボリュームデータ(入力データ500)および医師の所見(正解データ510)から構成される1018症例のデータ(学習データ121)が格納される。以下、データベースに格納されるデータを実験データとも記載する。
実験データを分析した結果、実験データに含まれる結節の長径は、5.4画素から76.7画素の範囲であることが分かった。検出するオブジェクトのサイズの範囲が大きい場合、オブジェクトの検出精度を高くすることは難しい。
そこで、結節の長径を、一例として、「5画素から10画素」、「7画素から14画素」、「10画素から20画素」、「14画素から28画素」、「20画素から40画素」、「28画素から56画素」、「40画素から80画素」に区分し、各区分に属する結節の長径が5画素から10画素の範囲に入るように縮小率を設定した。なお、本発明は、これらの画素数や縮小率に限定されるものではない。
すなわち、実施例1では、学習部111は、入力データ500および正解データ510を、一例として、1倍、1/1.4倍、1/2倍、1/2.8倍、1/4倍、5.6倍、または1/8倍に縮小することによって、拡張入力データ550および拡張正解データ560を生成する。すなわち、一つの学習データ121から7つの拡張学習データ210が生成される。なお、本発明は、これらの縮小率に限定されるものではない。
また、学習部111は、一例として、「5画素から10画素」、「10画素から20画素」、「20画素から40画素」、「40画素から80画素」を1つのグループ(第1学習グループ)に設定し、また、「7画素から14画素」、「14画素から28画素」、「28画素から56画素」を1つのグループ(第2学習グループ)に設定する。なお、本発明は、これらの画素数に限定されるものではない。
学習部111は、第1学習グループに含まれる拡張学習データ210を用いて学習処理を実行し、また、第2学習グループに含まれる拡張学習データ210を用いて学習処理を実行する。
前述した一例の画素数に縮小した画像を用いた学習処理によって、5画素から10画素の結節を検出するCNN200が2つ生成される。このように生成された2つのCNN200は、異なるサイズの結節を検出する識別器として機能する。
2つのCNN200によって検出される結節のサイズは、互いに、オーバーラップするように設定されている。検出可能な結節のサイズに2画素から3画素のマージンがある場合、2つのCNN200から得られる出力データ240には、同じ位置に結節を示すTP−ROI351が含まれる。そのため、2つの出力データ240を統合することによって、高い精度で結節を検出できる。
一方、誤ったオブジェクトを示すFP−ROI352は、ランダムな位置に出現することから、2つのCNN200によって検出されるFP−ROI352の位置は異なることが期待される。そのため、2つの出力データ240を統合することによって、効率的に、FP−ROI352を取り除くことができる。
次に、画像処理部112が実行する処理について説明する。
図8は、実施例1の画像処理部112が実行する第2データ変換処理を説明するフローチャートである。図9は、実施例1の画像処理部112が実行する検出処理を説明するフローチャートである。図10は、実施例1の第2データ変換処理および検出処理の流れを示す図である。
まず、第2データ変換処理について説明する。画像処理部112は、評価データ220に対して等方性補間処理および縮小処理を実行することによって拡張評価データ230を生成する(ステップS301)。
等方性補間処理は、第1データ変換処理において実行される処理と同一である。縮小処理では、第1データ変換処理において実行される処理と同一である。すなわち、画像処理部112は1個の評価データ220から7個の拡張評価データ230を生成する。なお、等方性補間処理は実行されなくてもよい。
次に、画像処理部112は、縮小率に応じて評価グループを設定し、拡張評価データ230を各評価グループに分類する(ステップS302)。その後、画像処理部112は、第2データ変換処理を終了し、検出処理を開始する。
画像処理部112は、モデル情報DB130からターゲットモデル情報131を選択する(ステップS401)。
次に、画像処理部112は、ターゲットモデル情報131に対応する評価グループを特定し、特定された評価グループに含まれる拡張評価データ230を取得する(ステップS402)。
次に、画像処理部112は、ターゲットモデル情報131に基づいて、拡張評価データ230に対する識別処理を実行する(ステップS403)。これによって、出力データ240が生成される。評価データ220に含まれる結節の大きさは未知であるが、大きさが異なる拡張評価データ230をCNN200に入力することによって、いずれかの大きさの結節を検出することができる。
次に、画像処理部112は、モデル情報DB130に格納される全てのモデル情報131に対応する識別処理が完了したか否かを判定する(ステップS404)。
モデル情報DB130に格納される全てのモデル情報131に対応する識別処理が完了していないと判定された場合、画像処理部112は、ステップS401に戻り、同様の処理を実行する。
モデル情報DB130に格納される全てのモデル情報131に対応する識別処理が完了したと判定された場合、画像処理部112は検出処理を終了する。
図11は、実施例1の画像処理部112が実行する第3データ変換処理を説明するフローチャートである。図12は、実施例1の画像処理部112が実行する統合処理を説明するフローチャートである。図13は、実施例1の第3データ変換処理および統合処理の流れを示す図である。図14は、実施例1の統合処理の流れのバリエーションを示す図である。図15は、実施例1の論理演算子の構造例を示す図である。
画像処理部112は、各CNN200から出力された出力データ240の拡大処理を実行する(ステップS501)。
出力データ240の拡大率は、出力データ240を出力したCNN200に入力された拡張評価データ230の縮小率に基づいて決定される。具体的には、拡大率および縮小率の積が1となるように拡大率が設定される。
次に、画像処理部112は、拡大された出力データ240のサンプリングを実行する(ステップS502)。
具体的には、画像処理部112は、出力データ240のデータサイズ(スライス画像の数)が評価データ220のデータサイズ(スライス画像の数)と同一となるように、等方性補間処理において追加されたスライス画像を削除する。このとき、単純にスライス画像を間引くだけではなく、スライス補間処理(スライス間のポリフェーズフィルタ処理)を行ってもよい。以下、このスライス補間処理についても、サンプリングと称して説明する。なお、等方性補間処理が実行されていない場合、サンプリングは実行されなくてもよい。
次に、画像処理部112は、サンプリングが行われた出力データ240を二値画像に変化するための二値化処理を実行し(ステップS503)、第3データ変換処理を終了する。
具体的には、画像処理部112は、画像中の結節部分が白または黒となるように画像を二値化する。実施例1では、結節の部分が白(輝度値が1)となるように画像が二値化される。なお、二値化処理は実行されなくてもよい。
次に、画像処理部112は、第3データ変換処理が実行された複数の出力データ240を統合するための論理演算を実行することによって統合出力データ250を生成する(ステップS601)。その後、画像処理部112は統合処理を終了する。
実施例1では、図13に示すように、画像処理部112は、縮小率の小さい順に出力データ240のペアを形成し、各ペアの第3データ変換処理後の出力データ240の論理積の演算を行って第1出力データを生成する。さらに、画像処理部112は、各ペアの第1出力データの論理和の演算を行って統合出力データ250を生成する。
なお、図13に示す論理演算は一例であってこれに限定されない。例えば、図14に示すような論理演算でもよい。
ここで、論理積および論理和は、図15に示すような論理演算子1500を用いて実現できる。論理演算子1500は、2つの乗算器1510、1511、加算器1512、および活性化関数1513から構成される。
論理演算子1500に入力値x_0および入力値x_1が入力された場合、乗算器1510は、重みw_0および入力値x_0の積を算出し、乗算器1511は、重みw_1および入力値x_1の積を算出する。加算器1512は、乗算器1510および乗算器1511が算出した値と、バイアスとを加算する。活性化関数1513は、加算器1512によって算出された値に基づいて値を出力する。
論理積を実現する場合、重みw_0および重みw_1を「0.3」とし、バイアスを「0」とし、活性化関数1513は、加算器1512によって算出された値が「0.5」より大きい場合、出力値「1」を出力し、それ以外は「0」を出力するように設定すればよい。前述の設定が行われた論理演算子1500は、縮小率がkの画像の画素および縮小率がk’の画像の画素の各々の輝度値が「1」である場合、出力値として「1」を出力する。すなわち、2つの画像の同じ位置の画素にROI350が存在する場合、第1出力データには結節を示すROI350が含まれる。これによって、FP−ROI352を効率的に除去することができる。
なお、論理演算子1500に入力値が3つ以上入力される場合、全ての入力値が「1」の場合にのみ出力値が「1」となる。
論理和を実現する場合、重みw_0および重みw_1を「0.7」とし、バイアスを「0」とし、活性化関数1513は、加算器1512によって算出された値が「0.5」より大きい場合、出力値「1」を出力し、それ以外は「0」を出力するように設定すればよい。前述の設定が行われた論理演算子1500は、縮小率がkの画像の画素および縮小率がk’の画像の画素のいずれかの輝度値が1である場合、出力値として「1」を出力する。すなわち、各画像にROI350を含む出力データが生成される。これによって、各種サイズの結節の検出結果を含む出力データを提示することができる。
なお、論理演算子1500に入力値が3つ以上入力される場合、いずれか入力値が「1」の場合、出力値が「1」となる。
以上で説明したように、計算機100は、評価データ220を入力した複数のCNN200から出力された結果を統合することによって、TP−ROI351の検出精度が高く、かつ、FP−ROI352の検出率が低い画像処理を実現できる。
(変形例1)
図16は、実施例1の画像処理部112が実行する処理の流れを示す図である。
画像処理部112は、各CNN200に全ての拡張評価データ230を入力する。画像処理部112は、同じ縮小率の拡張評価データ230の識別結果の論理積の演算を行って第2出力データを算出する。また、画像処理部112は、縮小率の小さい順に出力データ240のペアを形成し、各ペアの第2出力データの論理積の演算を行って第3出力データを算出する。さらに、画像処理部112は、各ペアの第3出力データの論理和の演算を行って統合出力データ250を生成する。
(変形例2)
図17は、実施例1の画像処理部112が実行する処理の流れを示す図である。
画像処理部112は、各CNN200に全ての拡張評価データ230を入力する。画像処理部112は、同じ縮小率の拡張評価データ230の識別結果を混合する。例えば、CNN200が2つである場合、式(1)にしたがった処理が実行される。
ここで、y1、y2は、CNN200から出力された画像の画素の特徴量を表す。また、k1は任意の係数を表す。k1が1の場合、y1が出力され、k1が1/2の場合、y1およびy2の平均値が出力される。
画像処理部112は、縮小率の小さい順に出力データ240のペアを形成し、各ペアの混合出力の論理積の演算を行って第4出力データを算出する。さらに、画像処理部112は、各ペアの第4出力データの論理和の演算を行って統合出力データ250を生成する。
実施例2では、学習処理で用いる学習データ121に特徴がある。以下、実施例1との差異を中心に実施例2について説明する。
実施例2の計算機100の構成は実施例1と同一であるため、説明を省略する。実施例2の学習部111が実行する第1データ変換処理は実施例1と同一であるため、説明を省略する。画像処理部112が実行する第2データ変換処理、検出処理、第3データ変換処理、および統合処理は実施例1と同一であるため、説明を省略する。また、実施例2のCNN200の構造は実施例1と同一であるため、説明を省略する。
実施例2では、学習部111が実行する学習処理が異なる。
図18は、実施例2の学習部111が実行する学習処理を説明するフローチャートである。図19A、図19B、図19C、図19D、図19E、図19F、および図19Gは、実施例2の変換学習データ1900の一例を示す図である。
実施例2では、学習部111は、入力グループを選択した後(ステップS202)、拡張学習データ210から、変換入力データ1910および変換正解データ1920から構成される変換学習データ1900を生成する(ステップS251)。変換学習データ1900は、効率的な学習処理を実行するために、データ長およびデータ形式等が調整された学習データである。具体的には、以下のような処理が実行される。
学習部111は、入力グループに含まれる拡張学習データ210の中から、5画素から10画素の大きさの結節を含む拡張学習データ210(第1拡張学習データ)を所定の数だけ選択する。また、学習部111は、入力グループに含まれる拡張学習データ210の中から拡張学習データ210(第2拡張学習データ)を所定の数だけ選択する。なお、結節を含まない拡張学習データ210を第2拡張学習データに選択することが望ましいが、結節が含まれる拡張学習データ210が第2拡張学習データとして選択されてもよい。
学習部111は、第1拡張学習データおよび第2拡張学習データから、任意のデータサイズのスライス画像を含む変換学習データ1900を生成する。データサイズは、学習データグループ毎に設定される。
ここで、図19Aから図19Gを用いて、変換学習データ1900の具体的な生成方法について説明する。
第1学習グループに含まれる変換学習データ1900の変換入力データ1910および変換正解データ1920は、一例として、水平方向が1024画素および垂直方向が512画素であるスライス画像を32枚含むものとする。また、第2学習グループに含まれる変換学習データ1900の変換入力データ1910および変換正解データ1920は、一例として、水平方向が720画素および垂直方向が360画素であるスライス画像を30枚含むものとする。なお、本発明は、これらの画素数に限定されるものではない。
変換入力データ1910の右側のデータ領域には、結節以外の組織を学習するための画像が設定され、変換入力データ1910の左側のデータ領域には、結節を学習するための画像が設定される。
学習部111は、第2拡張学習データの拡張入力データ550を変換入力データ1910の右側のデータ領域に設定する。また、学習部111は、第2拡張学習データの拡張正解データ560を変換正解データ1920の右側のデータ領域に設定する。なお、学習部111は、必要に応じて、拡張入力データ550を縮小してもよい。
学習部111は、第1拡張学習データの拡張入力データ550から結節を含む所定のサイズの部分入力画像を切り出し、変換入力データ1910の左側のデータ領域に設定する。また、学習部111は、第1拡張学習データの拡張正解データ560のROI350を含む所定のサイズの部分正解画像を切り出し、変換正解データ1920の左側のデータ領域に設定する。
実施例1では、第1学習グループから選択された第1拡張学習データからは、一例として、32×32のサイズの部分入力画像および部分正解画像が切り出される。したがって、変換入力データ1910および変換正解データ1920に設定される部分入力画像および部分正解画像の数はそれぞれ256個である。また、第2学習グループから選択された第1拡張学習データからは、30×30のサイズの部分入力画像および部分正解画像が切り出される。したがって、変換入力データ1910および変換正解データ1920に設定される部分入力画像および部分正解画像の数はそれぞれ144個である。なお、本発明は、これらの画像サイズに限定されるものではなく、以下の説明においても同様である。
図19Aは、縮小率が1である拡張学習データ210から生成された変換学習データ1900を表す。変換入力データ1910の右側には、512×512のサイズの第2拡張学習データが1個含まれる。変換入力データ1910の吹出は部分入力画像を表し、変換正解データ1920の吹出は部分入力画像に対応する部分正解画像を表す。
図19Bは、縮小率が1/2である拡張学習データ210から生成された変換学習データ1900を表す。変換入力データ1910の右側には、256×256のサイズの第2拡張学習データが4個含まれる。
図19Cは、縮小率が1/4である拡張学習データ210から生成された変換学習データ1900を表す。変換入力データ1910の右側には、128×128のサイズの第2拡張学習データが16個含まれる。
図19Dは、縮小率が1/8である拡張学習データ210から生成された変換学習データ1900を表す。変換入力データ1910の右側には、64×64のサイズの第2拡張学習データが64個含まれる。
図19Eは、縮小率が1/1.4である拡張学習データ210から生成された変換学習データ1900を表す。変換入力データ1910の右側には、360×360のサイズの第2拡張学習データが1個含まれる。
図19Fは、縮小率が1/2.8である拡張学習データ210から生成された変換学習データ1900を表す。変換入力データ1910の右側には、180×180のサイズの第2拡張学習データが4個含まれる。
図19Gは、縮小率が1/5.6である拡張学習データ210から生成された変換学習データ1900を表す。変換入力データ1910の右側には、90×90のサイズの第2拡張学習データが16個含まれる。
実施例2によれば、データフォーマットを整えた学習データを生成することによって、異なるデータサイズの画像を用いた学習処理を効率的かつ高速に実行できる。
実施例3では生成する学習部111および画像処理部112が実行する処理が異なる。以下、実施例1との差異を中心に実施例3について説明する。
実施例3の計算機100の構成は実施例1と同一であるため、説明を省略する。また、実施例3のCNN200の構造は実施例1と同一であるため、説明を省略する。
実施例3の学習部111は、第1データ変換処理を実行せずに、学習データ121を用いた学習処理を実行する。
図20は、実施例3の学習部111が実行する学習処理を説明するフローチャートである。
実施例3では、学習部111は学習回数(世代数)を管理するためのカウンタを保持する。また、現在のモデル情報131をモデル情報DB130に格納するタイミングを示す格納条件が予め設定される。例えば、400世代毎にモデル情報131を格納することが考えられる。なお、本発明は設定される格納条件に限定されない。
第1データ変換処理が実行されないため、入力データは設定されない。そのため、ステップS203およびステップS208の処理が実行されない。
ステップS205では、学習部111はカウンタを更新する。その後、学習部111は、カウンタの値に基づいて、格納条件を満たすか否かを判定する(ステップS261)。
格納条件を満たさないと判定された場合、学習部111はステップS206に進む。
格納条件を満たすと判定された場合、学習部111は、ステップS205において更新されたモデル情報131をモデル情報DB130に格納する(ステップS262)。その後、学習部111はステップS206に進む。
このように、実施例3のモデル情報DB130には、世代が異なるモデル情報131が格納される。
実施例3の画像処理部112は、第2データ変換処理および第3データ変換処理を実行しない。実施例3では、評価データ220に対して検出処理が実行される。
図21は、実施例3の画像処理部112が実行する検出処理を説明するフローチャートである。
画像処理部112は、モデル情報DB130からターゲットモデル情報131を選択する(ステップS401)。
次に、画像処理部112は、ターゲットモデル情報131に基づいて、評価データ220に対する識別処理を実行する(ステップS451)。これによって、出力データ240が生成される。
次に、画像処理部112は、モデル情報DB130に格納される全てのモデル情報131に対応する識別処理が完了したか否かを判定する(ステップS404)。
モデル情報DB130に格納される全てのモデル情報131に対応する識別処理が完了していないと判定された場合、画像処理部112は、ステップS401に戻り、同様の処理を実行する。
モデル情報DB130に格納される全てのモデル情報131に対応する識別処理が完了したと判定された場合、画像処理部112は検出処理を終了する。
実施例3の統合処理は、実施例1と同一である。
実施例3によれば、評価データ220を入力した複数のCNN200から出力された結果を統合することによって、TP−ROI351の検出精度が高く、かつ、FP−ROI352の検出率が低い画像処理を実現できる。
実施例4では、実施例1、実施例2、および実施例3で説明したCNN200の学習および評価データ220に含まれる結節の検出を実現するシステムを説明する。
図22は、実施例4のシステムの構成例を示す図である。
システムは、画像取得装置2200、学習装置2210、画像処理装置2220、およびデータ管理装置2230から構成される。各装置はネットワーク2240を介して接続される。
画像取得装置2200は画像を取得する装置である。画像取得装置2200が取得した画像は、学習データ121または評価データ220として扱われる。画像取得装置2200は、例えば、CT装置、X線透視撮像装置、MRI装置、および超音波プローブ(探触子)等の医療用装置、監視カメラ、ビデオカメラ、デジタルカメラ、並びに、スマートフォン等である。
学習装置2210は、学習部111に対応する機能を有し、CNN200の学習処理を実行する。画像処理装置2220は、画像処理部112に対応する機能を有し、入力された画像を用いて画像処理を実行する。
学習装置2210および画像処理装置2220は、汎用計算機を用いて実現できる。
データ管理装置2230は、学習データ121、評価データ220、統合出力データ250、およびモデル情報131等を管理する。データ管理装置2230は、例えば、複数の記憶媒体を有するストレージシステムを用いて実現できる。データ管理装置2230は、外部から入力された指示にしたがって、データの読み出し、およびデータの格納等を行う。
なお、学習装置2210および画像処理装置2220は1つの装置にまとめてもよい。
なお、各装置が実行する処理は実施例1、実施例2、および実施例3で説明した処理と同一であるため説明を省略する。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。また、例えば、上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。
また、上記の各構成、機能、処理部、処理手段等は、それらの一部または全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、およびそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD−ROM、DVD−ROM、ハードディスク、SSD(Solid State Drive)、光ディスク、光磁気ディスク、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、C/C++、perl、Shell、PHP、Python、Java(登録商標)等の広範囲のプログラムまたはスクリプト言語で実装できる。
さらに、実施例の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することによって、それをコンピュータのハードディスクやメモリ等の記憶手段またはCD−RW、CD−R等の記憶媒体に格納し、コンピュータが備えるプロセッサが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。
上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。
100 計算機
101 演算装置
102 メモリ
103 ストレージ装置
104 通信インタフェース
105 出力インタフェース
106 入力インタフェース
107 バス
110 設定部
111 学習部
112 画像処理部
120 学習データDB
121 学習データ
130 モデル情報DB
131 モデル情報
150、224 ネットワーク
160 ディスプレイ
170 キーボード
180 マウス
200 CNN
210 拡張学習データ
220 評価データ
230 拡張評価データ
240 出力データ
250 統合出力データ
300 評価スライス画像
310 境界検出層
311 移動層
312 結合層
320 ノード
321 畳み込み演算
322 加算演算
323 活性化関数
330 出力スライス画像
340 矩形領域
350 ROI
351 TP−ROI
352 FP−ROI
500 入力データ
501 入力スライス画像
510 正解データ
511 正解スライス画像
512 マスク
550 拡張入力データ
560 拡張正解データ
700 拡張入力スライス画像
710 拡張出力データ
720 拡張出力スライス画像
1500 論理演算子
1510、1511 乗算器
1512 加算器
1513 活性化関数
1900 変換学習データ
1910 変換入力データ
1920 変換正解データ
2200 画像取得装置
2210 学習装置
2220 画像処理装置
2230 データ管理装置

Claims (14)

  1. 画像からオブジェクトを検出するための画像処理を実行する計算機であって、
    演算装置および前記演算装置に接続される記憶装置を備え、
    前記画像処理を実現するためのモデルを定義するモデル情報を複数格納するモデル情報データベースを保持し、
    前記演算装置は、
    評価画像が入力された場合、前記複数のモデル情報の各々に基づいて、前記評価画像から前記オブジェクトを検出するための識別処理を実行し、
    前記複数のモデル情報の各々に基づく前記識別処理によって得られた出力結果を統合することによって、前記オブジェクトの検出結果を出力することを特徴とする計算機。
  2. 請求項1に記載の計算機であって、
    前記演算装置は、前記出力結果に関する論理積の演算を実行する第1論理演算、および前記出力結果に関する論理和の演算を実行する第2論理演算を実行することによって、前記複数の出力結果を統合することを特徴とする計算機。
  3. 請求項2に記載の計算機であって、
    前記モデル情報は、任意の大きさの前記オブジェクトを検出するためのモデルを定義する情報であり、
    前記演算装置は、
    前記評価画像のサイズを任意のサイズに縮小することによって、拡張評価画像を生成し、
    前記拡張評価画像に対して、少なくとも一つの前記モデル情報に基づく前記識別処理を実行することを特徴とする計算機。
  4. 請求項3に記載の計算機であって、
    前記演算装置は、一つの前記評価画像に対して、異なるサイズの前記拡張評価画像を複数生成することを特徴とする計算機。
  5. 請求項2に記載の計算機であって、
    前記モデル情報を生成するための学習処理に用いる学習データを格納する学習データデータベースを保持し、
    前記演算装置は、
    前記学習データを任意のサイズに縮小して拡張学習データを生成し、
    前記複数の学習データの各々から生成された拡張学習データのグループを設定し、
    前記グループに含まれる前記複数の拡張学習データを用いた学習処理を実行することによって前記モデル情報を生成し、
    前記モデル情報データベースに前記生成されたモデル情報を格納することを特徴とする計算機。
  6. 請求項5に記載の計算機であって、
    前記演算装置は、
    前記オブジェクトを含む前記拡張学習データを選択し、前記選択された拡張学習データから前記オブジェクトを包含する所定の大きさの部分画像を生成し、
    複数の前記部分画像および少なくとも一つの前記オブジェクトを含まない前記拡張学習データから構成される変換学習データを生成し、
    前記変換学習データを用いた学習処理を実行することを特徴とする計算機。
  7. 請求項2に記載の計算機であって、
    前記モデル情報を生成するための学習処理に用いる学習データを格納する学習データデータベースを保持し、
    前記演算装置は、
    初期の前記モデル情報を生成し、
    終了条件が満たされるまで、前記学習データを用いた学習処理を繰り返し実行することによって前記モデル情報を更新し、
    前記モデル情報の格納条件を満たすか否かを判定し、
    前記モデル情報の格納条件が満たされたと判定された場合、前記学習処理の実行回数を示す値が付与された前記モデル情報を前記学習データデータベースに格納することを特徴とする計算機。
  8. 計算機が実行する、画像からオブジェクトを検出するための画像処理方法をであって、
    前記計算機は、
    演算装置および前記演算装置に接続される記憶装置を有し、
    前記画像からオブジェクトを検出するための画像処理を実現するためのモデルを定義するモデル情報を複数格納するモデル情報データベースを保持し、
    前記画像処理方法は、
    前記演算装置が、評価画像が入力された場合、前記複数のモデル情報の各々に基づいて、前記評価画像から前記オブジェクトを検出するための識別処理を実行する第1のステップと、
    前記演算装置が、前記複数のモデル情報の各々に基づく前記識別処理によって得られた出力結果を統合することによって、前記オブジェクトの検出結果を出力する第2のステップと、を含むことを特徴とする画像処理方法。
  9. 請求項8に記載の画像処理方法であって、
    前記第2のステップは、前記演算装置が、前記出力結果に関する論理積の演算を実行する第1論理演算、および前記出力結果に関する論理和の演算を実行する第2論理演算を実行することによって、前記複数の出力結果を統合するステップを含むことを特徴とする画像処理方法。
  10. 請求項9に記載の画像処理方法であって、
    前記モデル情報は、任意の大きさの前記オブジェクトを検出するためのモデルを定義する情報であり、
    前記第1のステップは、
    前記演算装置が、前記評価画像のサイズを任意のサイズに縮小することによって、拡張評価画像を生成する第3のステップと、
    前記演算装置が、前記拡張評価画像に対して、少なくとも一つの前記モデル情報に基づく前記識別処理を実行する第4のステップと、を含むことを特徴とする画像処理方法。
  11. 請求項10に記載の画像処理方法であって、
    前記第3のステップは、前記演算装置が、一つの前記評価画像に対して、異なるサイズの前記拡張評価画像を複数生成するステップを含むことを特徴とする画像処理方法。
  12. 請求項9に記載の画像処理方法であって、
    前記計算機は、前記モデル情報を生成するための学習処理に用いる学習データを格納する学習データデータベースを保持し、
    前記画像処理方法は、
    前記演算装置が、前記学習データを任意のサイズに縮小して拡張学習データを生成する第5のステップと、
    前記演算装置が、前記複数の学習データの各々から生成された拡張学習データのグループを設定する第6のステップと、
    前記演算装置が、前記グループに含まれる前記複数の拡張学習データを用いた学習処理を実行することによって前記モデル情報を生成する第7のステップと、
    前記演算装置が、前記モデル情報データベースに前記生成されたモデル情報を格納する第8のステップと、を含むことを特徴とする画像処理方法。
  13. 請求項12に記載の画像処理方法であって、
    前記第7のステップは、
    前記演算装置が、前記オブジェクトを含む前記拡張学習データを選択し、前記選択された拡張学習データから前記オブジェクトを包含する所定の大きさの部分画像を生成するステップと、
    前記演算装置が、複数の前記部分画像および少なくとも一つの前記オブジェクトを含まない前記拡張学習データから構成される変換学習データを生成するステップと、
    前記演算装置が、前記変換学習データを用いた学習処理を実行するステップと、を含むことを特徴とする画像処理方法。
  14. 請求項9に記載の画像処理方法であって、
    前記モデル情報を生成するための学習処理に用いる学習データを格納する学習データデータベースを保持し、
    前記画像処理方法は、
    前記演算装置が、初期の前記モデル情報を生成するステップと、
    前記演算装置が、終了条件が満たされるまで、前記学習データを用いた学習処理を繰り返し実行することによって前記モデル情報を更新するステップと、
    前記演算装置が、前記モデル情報の格納条件を満たすか否かを判定するステップと、
    前記モデル情報の格納条件が満たされたと判定された場合、前記演算装置が、前記学習処理の実行回数を示す値が付与された前記モデル情報を前記学習データデータベースに格納するステップと、を含むことを特徴とする画像処理方法。
JP2019001991A 2019-01-09 2019-01-09 計算機および画像処理方法 Pending JP2020112937A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019001991A JP2020112937A (ja) 2019-01-09 2019-01-09 計算機および画像処理方法
US16/736,847 US20200218942A1 (en) 2019-01-09 2020-01-08 Computer and image processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019001991A JP2020112937A (ja) 2019-01-09 2019-01-09 計算機および画像処理方法

Publications (1)

Publication Number Publication Date
JP2020112937A true JP2020112937A (ja) 2020-07-27

Family

ID=71405146

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019001991A Pending JP2020112937A (ja) 2019-01-09 2019-01-09 計算機および画像処理方法

Country Status (2)

Country Link
US (1) US20200218942A1 (ja)
JP (1) JP2020112937A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022045449A (ja) * 2020-09-09 2022-03-22 株式会社東芝 学習装置、方法およびプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006018707A (ja) * 2004-07-05 2006-01-19 Nippon Telegr & Teleph Corp <Ntt> 被写体識別装置、その識別方法とその識別プログラム、および被写体識別器設定装置、その設定方法とその設定プログラム
JP2013210968A (ja) * 2012-03-30 2013-10-10 Canon Inc 物体検出装置及びその方法、プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006018707A (ja) * 2004-07-05 2006-01-19 Nippon Telegr & Teleph Corp <Ntt> 被写体識別装置、その識別方法とその識別プログラム、および被写体識別器設定装置、その設定方法とその設定プログラム
JP2013210968A (ja) * 2012-03-30 2013-10-10 Canon Inc 物体検出装置及びその方法、プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022045449A (ja) * 2020-09-09 2022-03-22 株式会社東芝 学習装置、方法およびプログラム
JP7408515B2 (ja) 2020-09-09 2024-01-05 株式会社東芝 学習装置、方法およびプログラム

Also Published As

Publication number Publication date
US20200218942A1 (en) 2020-07-09

Similar Documents

Publication Publication Date Title
US10600185B2 (en) Automatic liver segmentation using adversarial image-to-image network
EP3236418B1 (en) Image processing apparatus, image processing method, and storage medium
US10395380B2 (en) Image processing apparatus, image processing method, and storage medium
US20140241606A1 (en) Apparatus and method for lesion segmentation in medical image
US10706534B2 (en) Method and apparatus for classifying a data point in imaging data
US10949698B2 (en) Image processing apparatus, image processing system, image processing method, and storage medium
JP5566299B2 (ja) 医用画像処理装置、及び医用画像処理方法
JP5608726B2 (ja) 臓器の区分けのための相互作用的なicpアルゴリズム
US20200380365A1 (en) Learning apparatus, method, and program
US20100150413A1 (en) Abnormal shadow candidate detecting method and abnormal shadow candidate detecting device
JP2021056995A (ja) 医用情報処理装置、医用情報処理システム及び医用情報処理方法
JP2013051988A (ja) 画像処理装置、画像処理方法、及び画像処理プログラム
JP2011526508A (ja) 医療用画像の領域分割
KR102149369B1 (ko) 의료 영상을 시각화하는 방법 및 이를 이용한 장치
JP2013111125A (ja) 画像処理装置、画像処理方法、及び画像処理プログラム
EP2528039A1 (en) Image processing method and image processing apparatus
US11406340B2 (en) Method for converting tone of chest X-ray image, storage medium, image tone conversion apparatus, server apparatus, and conversion method
JP6643821B2 (ja) 画像処理装置
US20200160118A1 (en) Computer, neural network construction method, and computer system
KR102046240B1 (ko) 병변 스크리닝 장치 및 방법
JP2020112937A (ja) 計算機および画像処理方法
CN114693642B (zh) 一种结节匹配方法、装置、电子设备及存储介质
JP2017162034A (ja) 画像処理装置、画像処理方法、画像処理システムおよびプログラム
US20230368913A1 (en) Uncertainty Estimation in Medical Imaging
JP2019025240A (ja) 画像処理装置、画像処理方法、画像処理システム及びプログラム

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20210226

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20210311

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210617

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20211027

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220530

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220607

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20221129