JP7322358B2

JP7322358B2 - 情報処理プログラム、情報処理方法、及び情報処理装置

Info

Publication number: JP7322358B2
Application number: JP2020014107A
Authority: JP
Inventors: 彬酒井; 正明小松; 愛同前
Original assignee: Fujitsu Ltd; RIKEN Institute of Physical and Chemical Research; National Cancer Center Japan
Current assignee: Fujitsu Ltd; RIKEN Institute of Physical and Chemical Research; National Cancer Center Japan
Priority date: 2020-01-30
Filing date: 2020-01-30
Publication date: 2023-08-08
Anticipated expiration: 2040-01-30
Also published as: US20210241452A1; EP3859607A1; US11508064B2; JP2021120816A; EP3859607B1

Description

本発明は、情報処理プログラム、情報処理方法、及び情報処理装置に関する。

入力される画像に含まれる対象物の異常検知を行なう手法として、オートエンコーダ（自己符号化器）を用いた異常検知手法が知られている。

オートエンコーダを用いた異常検知手法では、対象物が正常である正常データを入力とし、当該正常データを復元して出力するようにオートエンコーダを学習させる。

学習済みのオートエンコーダは、対象物が異常である異常データが入力される場合であっても、当該データを正常データに復元するため、正常データが入力される場合と比較して、入力データと出力データとの間の差分が大きい。

このように、オートエンコーダを用いた異常検知手法は、正常及び異常データのうちの正常データのみを用いた学習により、異常データにおける正常データからの逸脱を用いて対象物の異常を検知できるため、汎用性の高い手法である。

Simon Hawkins et al., "Outlier Detection Using Replicator Neural Networks", "Data Warehousing and Knowledge Discovery: 4th International Conference", 公開日: 2002年9月2日

一方で、オートエンコーダを用いた異常検知手法は、正常データに含まれる背景やノイズを異常と区別することが困難な場合があり、背景やノイズの変動に弱い場合がある。

従って、例えば、対象物の位置及び背景等の少なくとも１つについて様々なバリエーションがある対象物の異常検知に上述した異常検知手法を用いる場合、異常検知精度が低下する可能性がある。

１つの側面では、本発明は、対象物の異常検知精度の向上を図ることを目的とする。

１つの側面では、情報処理プログラムは、コンピュータに以下の処理を実行させてよい。前記処理は、訓練対象物を撮影した画像と、前記画像において前記訓練対象物を含む矩形領域を示す第１アノテーションデータと、前記画像中の前記訓練対象物に対応するピクセルを示す第２アノテーションデータと、をそれぞれに含む訓練データの訓練データセットを取得してよい。また、前記処理は、前記画像の入力に応じて前記画像における前記訓練対象物を含む矩形領域を特定する物体検知モデルと、前記画像の入力に応じて前記画像中の前記訓練対象物に対応すると推定されたピクセルを出力とするニューラルネットワークとを含む推定モデルについて、前記訓練データセットの前記画像と前記第１アノテーションデータとに基づいて前記物体検知モデルを訓練するとともに、前記訓練データセットの前記画像と前記第２アノテーションデータとに基づいて前記ニューラルネットワークを訓練してよい。さらに、前記処理は、前記第１アノテーションデータにより特定される前記訓練対象物を含む矩形領域に対応するピクセル数と前記第２アノテーションデータにより特定される前記訓練対象物に対応するピクセル数との間の、ピクセル数の関係性についての第１指標値を算出してよい。また、訓練後の前記推定モデル及び算出された前記第１指標値は、判定対象の対象物を含む対象画像の入力に応じて訓練後の前記推定モデルから出力される出力結果における、訓練後の前記物体検知モデルによる推定結果により特定される矩形領域に対応するピクセル数と訓練後の前記ニューラルネットワークによる推定結果により特定される前記対象物に対応するピクセル数との間の第２指標値と、算出された前記第１指標値と、に基づいて、前記対象画像に含まれる前記対象物が正常状態であるか否かを判定する判定処理に利用されてよい。

１つの側面では、対象物の異常検知精度を向上させることができる。

比較例の第１の手法に係る異常検知処理を説明するための図である。比較例の第２の手法に係る異常検知処理を説明するための図である。異なる背景及び異なる位置に置かれた正常な釘及び異常な釘の例を示す図である。一実施形態に係る情報処理装置による学習処理の一例を説明するための図である。第１指標値の算出例を説明するための図である。一実施形態に係る情報処理装置による判定処理の一例を説明するための図である。第２指標値の算出例を説明するための図である。正常な心室中隔の超音波画像の一例を示す図である。異常な心室中隔の超音波画像の一例を示す図である。一実施形態に係るサーバの機能構成例を示すブロック図である。訓練データセットの一例を示す図である。入力データの一例を示す図である。学習部による物体検知部及びセグメンテーション部の機械学習処理の一例を説明するための図である。閾値算出部による下限及び上限の閾値の決定処理の一例を説明するための図である。実行部による推定処理の一例を説明するための図である。実行部による推定処理の一例を説明するための図である。出力データの一例を示す図である。学習フェーズの動作例を説明するためのフローチャートである。判定フェーズの動作例を説明するためのフローチャートである。一実施形態に係るコンピュータのハードウェア構成例を示すブロック図である。

以下、図面を参照して本発明の実施の形態を説明する。ただし、以下に説明する実施形態は、あくまでも例示であり、以下に明示しない種々の変形や技術の適用を排除する意図はない。例えば、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。なお、以下の実施形態で用いる図面において、同一符号を付した部分は、特に断らない限り、同一若しくは同様の部分を表す。

〔１〕一実施形態
〔１－１〕比較例
まず、一実施形態の比較例について説明する。図１及び図２は、それぞれ、比較例に係る異常検知処理を説明するための図である。

図１に示すように、比較例の第１の手法では、サーバは、学習時に、オートエンコーダ１００に対して、対象物を含む画像２１０を入力し、画像２１０を再構築（復元）した画像２２０を出力するように教師なし学習を行なう。

サーバは、学習後の運用時に、入力画像２３０と、入力画像２３０を入力としたオートエンコーダ１００から出力された出力画像２４０との差分を比較し、入力と出力との差分が大きい場合に入力画像２３０に含まれる対象物を異常と判定する。

例えば、サーバは、正常値である対象物を含む入力画像２３１とその出力画像２４１との差分は比較的小さいため、入力画像２３１に含まれる対象物を正常と判定する。一方、サーバは、異常値である対象物を含む入力画像２３２とその出力画像２４２との差分は比較的大きいため、入力画像２３２に含まれる対象物を異常と判定する。

しかし、比較例の第１の手法では、入力画像２３０に含まれる対象物のみの正常又は異常を判定したい場合であっても、入力画像２３０に含まれる背景及び位置等の変化、換言すればノイズを異常と判別する場合があり、異常検出の精度が低下することがある。

第１の手法の改良手法として、例えば、図２に示す第２の手法が考えられる。図２に示すように、比較例の第２の手法では、サーバは、正常データから学習したセグメンテーション用の学習済みニューラルネットワーク（ＮＮＷ）３００を用いて、入力画像から検査対象の物体（対象物）のマスクをピクセル単位で検出する。そして、サーバは、ピクセル単位で検出された検査対象の物体のマスクに対して、第１の手法を適用することで、マスクの元の対象物の正常又は異常を判別する。

例えば、サーバは、学習時に、対象物を含む画像４１０を入力したＮＮＷ３００から出力された、対象物のマスクを含むマスク画像４２０を取得する。そして、サーバは、オートエンコーダ１００に対して、入力されるマスク画像４２０を再構築して出力マスク画像４３０を出力するように教師なし学習を行なう。

また、サーバは、学習後の運用時に、画像４４０を入力としたＮＮＷ３００から出力されたマスク画像４５０と、マスク画像４５０を入力としたオートエンコーダ１００から出力された出力マスク画像４６０との差分を比較する。

例えば、サーバは、正常値である対象物を含むマスク画像４５１及び４５２とそれらの出力マスク画像４６１及び４６２との各差分は比較的小さいため、画像４４１及び４４２に含まれる対象物を正常と判定する。一方、サーバは、異常値である対象物を含むマスク画像４５３とその出力マスク画像４６３との差分は比較的大きいため、画像４４３に含まれる対象物を異常と判定する。

ここで、比較例の第２の手法では、セグメンテーション用のＮＮＷ３００は、データ量の多い正常データから学習される。従って、図２に点線枠４７０で示すように、異常な対象物を含む画像４４４が入力された場合、ＮＮＷ３００から出力されるマスク画像４５４には対象物のマスクが出力されない、換言すれば、何も映っていないマスク画像４５４が出力されることがある。

しかしながら、オートエンコーダ１００は、何も映っていない画像を正常として学習し得るため、点線枠４７０で示すように、マスク画像４５４と、学習済みオートエンコーダ１００から出力された出力マスク画像４６４との差分が比較的小さくなる場合がある。この場合、サーバでは、画像４４４に含まれる対象物のような異常が検知されない場合がある。

なお、対象物の「異常」とは、例えば、対象物が、学習済みＮＮＷ３００によりセグメンテーション対象の対象物であると検出できない程度に、正常な対象物の本来の形状と異なることを意味してよい。例えば、このような状態としては、対象物の一部の欠損、又は、対象物の少なくとも一部の変形等により、対象物の形状が正常な対象物と異なった状態であり、一例として、図３に示す折れた状態の釘５１０ｂが挙げられる。

図３は、異なる背景及び異なる位置に置かれた正常な釘及び異常な釘の例を示す図である。図３に示すように、互いに背景が異なる画像５００ａ及び５００ｂのそれぞれに、正常な釘５１０ａ及び異常な釘５１０ｂが互いに異なる位置に配置されている。

そこで、一実施形態では、図３に例示するように、対象物の背景のパターンが複数存在し、及び／又は、対象物が折れる等により元の形状と比較して変形し得る場合（異常な対象物である場合）において、対象物の異常検知の精度向上を図る手法を説明する。

〔１－２〕情報処理装置による情報処理の説明
図４は、一実施形態に係る情報処理装置１による情報処理のうちの学習処理の一例を説明するための図である。なお、以下の説明では、「対象物」は、例えば、釘等の物体であるものとする。また、「画像」は、対象物及び背景を含む画像であるものとする。

図４に例示するように、情報処理装置１は、学習フェーズの処理機能として、学習実行部３、物体検知部４及びセグメンテーション部５を備えてよい。

学習実行部３は、例えば、以下の（ａ）～（ｃ）の処理を実行することで、物体検知部４及びセグメンテーション部５を含む推定モデルの学習（訓練）を行なってよい。

（ａ）学習実行部３は、複数の訓練データ２を含むデータセットを取得する。

訓練データ２は、画像２１と、第１アノテーション画像２２と、第２アノテーション画像２３とを含んでよい。

画像２１は、訓練対象物を撮影した画像の一例であり、訓練対象となる１つ以上の対象物２１ａを含んでよい。対象物２１ａは、例えば正常な物体であってよい。第１アノテーション画像２２は、第１アノテーションデータの一例であり、画像２１において対象物２１ａを含む矩形領域２２ａを示す画像である。第２アノテーション画像２３は、第２アノテーションデータの一例であり、画像２１中の対象物２１ａに対応するピクセル２３ａを示す画像である。

（ｂ）学習実行部３は、データセットの画像２１と第１アノテーション画像２２とに基づいて物体検知部４を訓練するとともに、データセットの画像２１と第２アノテーション画像２３とに基づいてセグメンテーション部５を訓練する。

物体検知部４は、物体検知モデルの一例であり、画像２１の入力に応じて画像２１における対象物２１ａを含む矩形領域を特定する。物体検知部４としては、種々の物体検知用のＮＮＷが挙げられるが、一実施形態では、例えば、YOLOが用いられるものとする。

セグメンテーション部５は、ＮＮＷの一例であり、画像２１の入力に応じて画像２１中の対象物２１ａに対応すると推定されたピクセルを出力とする。セグメンテーション部５としては、種々のセグメンテーション用のＮＮＷが挙げられるが、一実施形態では、例えば、U-Netが用いられるものとする。なお、セグメンテーション部５は、U-Netに限定されるものではなく、Semantic Segmentationを実行する他のニューラルネットワークであってもよく、Semantic Segmentation以外のセグメンテーション手法を用いるニューラルネットワークであってもよい。

例えば、学習実行部３は、データセットに含まれる訓練データ２ごとに、物体検知部４に画像２１を入力し、第１アノテーション画像２２を教師データとして物体検知部４の機械学習を実行してよい。また、例えば、学習実行部３は、データセットに含まれる訓練データ２ごとに、セグメンテーション部５に画像２１を入力し、第２アノテーション画像２３を教師データとしてセグメンテーション部５の機械学習を実行してよい。

（ｃ）学習実行部３は、第１アノテーション画像２２により特定される対象物２１ａを含む矩形領域２２ａに対応するピクセル数と第２アノテーション画像２３により特定される対象物２１ａに対応するピクセル２３ａの数（ピクセル数）との間の、ピクセル数の関係性についての第１指標値を算出する。

上記（ｂ）の処理において訓練された推定モデル、及び、上記（ｃ）の処理において算出された第１指標値は、訓練後の推定モデルを利用した、対象画像に含まれる判定対象の対象物が正常状態であるか否かを判定する判定処理に利用される。

図５は、第１指標値の算出例を説明するための図である。学習実行部３は、一例として、第１アノテーション画像２２に含まれる矩形領域２２ａ内のピクセル数を、対象物２１ａごとに算出してよい。図５の例では、ピクセル数Ａ～Ｄが算出されてよい。ピクセル数Ａ～Ｄのそれぞれは、第１アノテーション画像２２における矩形領域２２ａの面積の一例である。

また、学習実行部３は、一例として、第２アノテーション画像２３に含まれるピクセル２３ａのピクセル数を、対象物２１ａごとに算出してよい。図５の例では、ピクセル数Ｅ～Ｈが算出されてよい。ピクセル数Ｅ～Ｈのそれぞれは、第２アノテーション画像２３におけるピクセル２３ａの面積の一例である。

そして、学習実行部３は、矩形領域２２ａのピクセル数Ａ～Ｄと、ピクセル２３ａのピクセル数Ｅ～Ｈとの間の、ピクセル数の関係性についての第１指標値を算出してよい。

なお、学習実行部３は、対象物２１ａごとに、第１指標値を算出してよい。例えば、学習実行部３は、ピクセル数Ａとピクセル数Ｅとの間の第１指標値、ピクセル数Ｂとピクセル数Ｆとの間の第１指標値、ピクセル数Ｃとピクセル数Ｇとの間の第１指標値、及び、ピクセル数Ｄとピクセル数Ｈとの間の第１指標値、をそれぞれ算出してよい。

学習実行部３は、第１指標値の算出を、データセットに含まれる訓練データ２ごとに実行してよい。

以上のように、第１指標値を算出することで、例えば、対象物２１ａを含む矩形領域２２ａと、対象物２１ａに対応するピクセル２３ａとの間の、ピクセル数の関係性を、正規化することができる。従って、例えば、正常な対象物２１ａの画像２１が入力された物体検知部４及びセグメンテーション部５のそれぞれからの出力結果の相関値（期待値）を、画像２１内の対象物２１ａのサイズによらずに、定量的に捉えることが可能となる。

図６は、一実施形態に係る情報処理装置１による情報処理のうちの判定処理の一例を説明するための図である。

図６に例示するように、情報処理装置１は、判定フェーズでの判定処理において、学習済みの物体検知部４、学習済みのセグメンテーション部５、及び、判定処理部９を備えてよい。

図６に示すように、画像６は、判定対象の１つ以上の対象物６ａを含む対象画像の一例である。画像６には、例えば、折れた釘のように異常な対象物６ｂが含まれ得る。

判定処理部９は、画像６の入力に応じて訓練後の推定モデルから出力される出力結果に基づく第２指標値と、学習実行部３により算出された第１指標値と、に基づいて、画像６に含まれる対象物６ａが正常状態であるか否かを判定する判定処理を実行する。

例えば、判定処理部９は、物体検知部４による推定結果７により特定される矩形領域７ａに対応するピクセル数と訓練後のセグメンテーション部５による推定結果８により特定される対象物６ａに対応するピクセル８ａのピクセル数との間の第２指標値を算出する。

図７は、第２指標値の算出例を説明するための図である。判定処理部９は、一例として、物体検知部４による推定結果７に含まれる矩形領域７ａ内のピクセル数を、対象物６ａごとに算出してよい。図７の例では、ピクセル数ａ～ｄが算出されてよい。ピクセル数ａ～ｄのそれぞれは、推定結果７における矩形領域７ａの面積の一例である。

また、判定処理部９は、一例として、セグメンテーション部５による推定結果８に含まれるピクセル８ａのピクセル数を、対象物６ａごとに算出してよい。図７の例では、ピクセル数ｅ～ｈが算出されてよい。ピクセル数ｅ～ｈのそれぞれは、推定結果８におけるピクセル８ａの面積の一例である。

そして、判定処理部９は、例えば、画像６ごとに、矩形領域７ａのピクセル数ａ～ｄと、ピクセル８ａのピクセル数ｅ～ｈとの間の、ピクセル数の関係性についての第２指標値を算出してよい。

なお、判定処理部９は、対象物６ａごとに、第２指標値を算出してよい。例えば、判定処理部９は、ピクセル数ａとピクセル数ｅとの間の第２指標値、ピクセル数ｂとピクセル数ｆとの間の第２指標値、ピクセル数ｃとピクセル数ｇとの間の第２指標値、及び、ピクセル数ｄとピクセル数ｈとの間の第２指標値、をそれぞれ算出してよい。

以上のように、第２指標値を算出することで、例えば、対象物６ａを含む矩形領域７ａと、対象物６ａに対応するピクセル８ｂとの間の、ピクセル数の関係性を、正規化することができる。従って、例えば、対象物６ａの画像６が入力された物体検知部４及びセグメンテーション部５のそれぞれからの出力結果の相関値を、画像６内の対象物６ａのサイズによらずに、定量的に捉えることが可能となる。

これにより、例えば、物体検知部４及びセグメンテーション部５のそれぞれからの出力結果について、正常な対象物２１ａの画像２１が入力された場合の相関値（期待値）と、異常な対象物６ｂの画像６が入力された場合の相関値とで有意な差を出すことができる。

従って、例えば、判定処理部９は、複数の第１指標値と、第２指標値とに基づくことで、画像６に含まれる対象物６ａが正常状態であるか否かを判定することができる。

第１及び第２指標値に基づく判定ロジックの一例については、後述する。

以上のように、一実施形態に係る情報処理装置１によれば、物体検知部４の推定結果に関するピクセル数とセグメンテーション部５の推定結果に関するピクセル数との間の、ピクセル数の関係性についての指標値に基づき、判定処理が行なわれる。

物体検知部４は、入力される画像における対象物を含む矩形領域を出力し、セグメンテーション部５は、入力される画像中の対象物に対応すると推定されたピクセルを出力する。このように、物体検知部４及びセグメンテーション部５は、画像に含まれる背景の影響が小さい推定結果をそれぞれ出力する。

従って、情報処理装置１は、第１及び第２指標値に基づく判定処理において、画像６に含まれる対象物６ａと対象物６ａの背景とを区別して、対象物６ａ（例えば対象物６ｂ）の異常を検知することができる。

また、YOLO等の物体検知部４、及び、U-Net等のセグメンテーション部５は、いずれも、対象物の異常検知を目的としたアルゴリズムではなく、これらが単体で、上述した異常検知に利用される可能性は低い。これに対して、一実施形態に係る情報処理装置１は、これらのアルゴリズムを組み合わせた上で、各アルゴリズムの出力を利用した判定処理を加えることで、画像に含まれる物体の異常検知の精度向上を実現している。

例えば、物体検知部４を含む物体検知用ＡＩ（Artificial Intelligence）は、物体検知用ＡＩは、対象物が欠損又は変形等していても、適切な矩形領域を出力できる。換言すれば、物体検知用ＡＩは、対象物の形状の変化に対してロバストに対象物を検知できる。

一方、セグメンテーション部５を含むセグメンテーション用ＡＩは、対象物の形状の変化に対して相対的に敏感である。例えば、セグメンテーション用ＡＩは、対象物が欠損又は変形等した場合、当該対象物を検出できなくなる場合がある。セグメンテーション用ＡＩが、正常及び異常な形状の対象物のうち、正常な形状の対象物のみを用いて訓練されているためである。

一実施形態に係る情報処理装置１は、上記のような異常状態である対象物に対する感度が相互に異なる物体検知用ＡＩ及びセグメンテーション用ＡＩによる、それぞれの推定能力の差を用いることで、対象物の本来の形状から変形した対象物の異常を検知できる。

以上のように、一実施形態に係る情報処理装置１によれば、対象物の異常検知の精度を向上させることができる。

〔１－３〕一実施形態の構成例
以下の説明では、情報処理装置１による判定処理が、超音波画像診断における胎児心臓の心室中隔と呼ばれる部位の異常検知に利用される場合を例に挙げる。

胎児心臓の超音波検査において、心室中隔の欠損の有無を判定することが重要である。図８は、正常な心室中隔の超音波画像の一例を示す図であり、図９は、異常な心室中隔の超音波画像の一例を示す図である。図８の例では、心室中隔に欠損はないが、図９の例では、心室中隔に欠損があり、変形していることがわかる。

図９に例示する心室中隔の欠損を検知する際に、以下の（Ａ）～（Ｃ）のうちの少なくともいずれか１つに記載の不都合が生じる場合がある。

（Ａ）超音波画像にはノイズが多く含まれることがあり、これらのノイズが心室中隔の異常として検出される可能性がある。
（Ｂ）超音波画像内における心室中隔の位置がプローブの操作に応じて変化する。
（Ｃ）心室中隔に異常がある場合、心室中隔の形状が大きく変形する。

そこで、以下、情報処理装置１が上述した不都合を解消する場合の一例を説明する。なお、以下の説明において、対象物は、心室中隔であり、判定対象の画像は、胎児の胸郭を撮像した、エコー画像等の超音波画像であるものとする。

図１０は、一実施形態に係るサーバ１０の機能構成例を示すブロック図である。サーバ１０は、画像に含まれる対象物が正常状態であるか否かを判定する装置の一例であり、図４～図７に示す情報処理装置１の一例である。

図１０に示すように、サーバ１０は、例示的に、メモリ部１１、物体検知部１２、セグメンテーション部１３、取得部１４、学習部１５、閾値算出部１６、実行部１７、判定部１８及び出力部１９を備えてよい。

メモリ部１１は、記憶領域の一例であり、物体検知部１２及びセグメンテーション部１３の学習、実行（推定）及び出力等に用いられる種々の情報を記憶する。図１０に示すように、メモリ部１１は、例示的に、複数のモデル情報１１ａ、訓練データセット１１ｂ、入力データ１１ｃ及び出力データ１１ｄを記憶可能であってよい。

物体検知部１２は、図１に示す物体検知部４の一例であり、例えば、画像の入力に応じて画像における対象物を含む矩形領域を特定する。物体検知部１２としては、例えば、YOLO等の物体検出ＮＮＷであってよい。

セグメンテーション部１３は、図１に示すセグメンテーション部５の一例であり、例えば、画像の入力に応じて画像中の対象物に対応すると推定されたピクセルを出力とする。セグメンテーション部１３としては、例えば、機械学習手法を用いて画像のセグメンテーションを行なうＮＮＷであってよく、一例として、U-Netが挙げられる。なお、セグメンテーション部１３は、U-Netに限定されるものではなく、Semantic Segmentationを実行する他のニューラルネットワークであってもよく、Semantic Segmentation以外のセグメンテーション手法を用いるニューラルネットワークであってもよい。

物体検知部１２及びセグメンテーション部１３を実現するためのネットワーク構造や各種パラメータ等の情報は、例えば、物体検知部１２及びセグメンテーション部１３別にモデル情報１１ａとしてメモリ部１１に記憶されてよい。

取得部１４は、物体検知部１２及びセグメンテーション部１３を含む推定モデルの学習及び実行に用いる情報を、例えば図示しないコンピュータから取得する。

例えば、取得部１４は、推定モデルの学習に用いる訓練データセット１１ｂを取得し、メモリ部１１に格納してよい。

訓練データセット１１ｂは、訓練対象物を撮影した画像と、当該画像において訓練対象物を含む矩形領域を示す第１アノテーションデータと、当該画像中の訓練対象物に対応するピクセルを示す第２アノテーションデータと、をそれぞれに含む訓練データのデータセットの一例である。

例えば、訓練データセット１１ｂは、図１１に示すように、ｎ個（ｎは２以上の整数）の訓練データ１１０を含んでよい。各訓練データ１１０は、訓練対象物を撮影した画像１１１と、当該画像１１１において訓練対象物を含む矩形領域を示す第１アノテーション画像１１２と、当該画像１１１中の訓練対象物に対応するピクセルを示す第２アノテーション画像１１３とを含んでよい。

画像１１１は、例えば、図１１に示すように、訓練対象物の一例である心室中隔を撮像したエコー画像であってよい。複数の訓練データ１１０における各エコー画像は、一連のエコー映像から時系列（例えばｔ＝０～（ｎ－１））に切り出されたフレームでもよいし、互いに異なる動画像から切り出されたフレームでもよく、或いは、静止画像として撮影された画像でもよい。

第１アノテーション画像１１２は、第１アノテーションデータの一例であり、例えば、図１１に示すように、訓練データ１１０の画像１１１における心室中隔を含む矩形情報のアノテーションを示す画像である。矩形情報としては、例えば、図１１に示すように、白破線で囲った領域を示す画像であってよい。

第２アノテーション画像１１３は、第２アノテーションデータの一例であり、例えば、図１１に示すように、訓練データ１１０の画像１１１中の心室中隔のピクセル単位のアノテーションを示す画像である。例えば、第２アノテーション画像１１３は、心室中隔をマスクした画像であってよい。

なお、「マスク」とは、例えば、マスク対象の領域を、マスク対象ではない領域と区別可能な態様で表示することを意味し、一例として、マスク対象の領域を所定の色で塗り潰す、換言すればマスク対象の領域のピクセルに所定の色を設定することであってよい。図１１の例では、マスクされた領域、換言すれば心室中隔に対応する領域を白塗りで示す。なお、第２アノテーション画像１１３では、心室中隔以外の領域が、例えば黒塗り等で示されてもよい。

また、取得部１４は、物体検知部１２及びセグメンテーション部１３による判定処理に用いる入力データ１１ｃを取得し、メモリ部１１に格納してよい。

入力データ１１ｃは、判定対象の１以上の対象画像を含む画像セットであり、例えば、複数のフレームを含む映像等の動画像であってよい。一実施形態では、入力データ１１ｃは、図１２に示すように、エコー画像等である画像１１４を複数含むエコー映像であってよい。画像１１４は、判定処理において物体検知部１２及びセグメンテーション部１３に入力される対象画像の一例である。

学習部１５は、物体検知部１２及びセグメンテーション部１３の訓練を行なう訓練実行部の一例であり、取得部１４が取得した訓練データセット１１ｂを用いて、物体検知部１２及びセグメンテーション部１３のそれぞれの学習を行なう。

図１３は、学習部１５による物体検知部１２及びセグメンテーション部１３の機械学習処理の一例を説明するための図である。図１３に示すように、学習部１５は、対象物１１１ａとしての心室中隔を含む画像１１１を物体検知部１２及びセグメンテーション部１３のそれぞれに入力する。

そして、学習部１５は、画像１１１の入力に応じて取得される、物体検知部１２が出力した推定結果と、矩形領域１１２ａのアノテーションを含む第１アノテーション画像１１２とに基づいて、物体検知部１２の機械学習を実行する。

また、学習部１５は、画像１１１の入力に応じて取得される、セグメンテーション部１３が出力した推定結果と、対象物１１１ａに対応するピクセル１１３ａを含む第２アノテーション画像１１３とに基づいて、セグメンテーション部１３の機械学習を実行する。

学習部１５による推定モデルの機械学習処理により、物体検知部１２は、入力される画像に対して、第１アノテーション画像１１２と同様に、対象物を含む矩形領域を特定する（出力する）ように学習される。また、セグメンテーション部１３は、入力される画像に対して、第２アノテーション画像１１３と同様に、対象物に対応すると推定したピクセルを出力する、換言すれば対象物のセグメンテーションを行なうように学習される。

第１及び第２アノテーション画像１１２及び１１３を教師データとして用いた、推定モデル、すなわち物体検知部１２及びセグメンテーション部１３の機械学習手法としては、既知の種々の手法が採用されてよい。

例えば、画像１１１の入力に応じて物体検知部１２の順伝播処理により得られる推定結果と、第１アノテーション画像１１２とに基づき得られる誤差関数の値を小さくするために、順伝播方向の処理で使用するパラメータを決定する逆伝播処理が実行されてよい。

また、例えば、画像１１１の入力に応じてセグメンテーション部１３の順伝播処理により得られる推定結果と、第２アノテーション画像１１３とに基づき得られる誤差関数の値を小さくするために、順伝播方向の処理で使用するパラメータを決定する逆伝播処理が実行されてよい。

そして、機械学習処理では、逆伝播処理の結果に基づいて重み等の変数を更新する更新処理が実行されてよい。

これらのパラメータや変数等は、モデル情報１１ａに含まれてよく、学習部１５は、機械学習処理の実行に応じて、モデル情報１１ａを更新してよい。

学習部１５は、例えば、訓練データセット１１ｂに含まれる複数の訓練データ１１０を用いて、繰り返し回数又は精度等が閾値に達するまで、物体検知部１２及びセグメンテーション部１３の各々の機械学習処理を繰り返し実行してよい。なお、学習が終了した物体検知部１２及びセグメンテーション部１３は、訓練済みモデルの一例である。

閾値算出部１６は、画像１１４に含まれる対象物が正常状態であると判定するための、後述する第２指標値の上限及び下限の一方又は双方の閾値を算出する。例えば、閾値算出部１６は、以下の（ｉ）～（iii）の手順により、閾値を算出してよい。

（ｉ）閾値算出部１６は、矩形領域１１２ａに対応するピクセル数とピクセル１１３ａのピクセル数との間の、ピクセル数の関係性についての第１指標値を算出する。

第１指標値は、例えば、第１アノテーション画像１１２により特定される対象物１１１ａを含む矩形領域１１２ａに対応するピクセル数と、第２アノテーション画像１１３により特定される対象物１１１ａに対応するピクセル１１３ａの数との比であってよい。

第１指標値算出部の一例としての閾値算出部１６は、例えば、第２アノテーション画像１１３の対象物１１１ａ（図１３参照）のピクセル数が、第１アノテーション画像１１２の矩形領域１１２ａ（図１３参照）に占める面積の割合を、第１指標値として算出する。

例えば、閾値算出部１６は、訓練データセット１１ｂに含まれる複数の画像１１１のそれぞれについて、且つ、各画像１１１に含まれる１以上の対象物１１１ａのそれぞれについて、第１指標値を算出してよい。このとき、閾値算出部１６は、訓練データ１１０ごとに、訓練データ１１０内の第１及び第２アノテーション画像１１２及び１１３の矩形領域１１２ａ及びピクセル１１３ａの各ピクセル数を用いてよい。

上述のように、物体検知部１２及びセグメンテーション部１３には、対象物１１１ａの形状の変化に対する感度に差がある。すなわち、第１指標値は、対象物１１１ａの形状の変化に対する、物体検知部１２及びセグメンテーション部１３の感度の差を反映した指標値であるといえる。このため、第１指標値として割合を算出することで、対象物１１１ａが正常状態であるときの第１指標値を、複数の対象物１１１ａに亘って正規化することができ、物体検知部１２及びセグメンテーション部１３の各出力結果の相関値を容易に取得することができる。

なお、第１指標値としては、割合（比）に限定されるものではなく、物体検知部１２及びセグメンテーション部１３からそれぞれ出力される出力結果間の相関値を得ることのできる種々の情報が用いられてもよい。

（ii）閾値算出部１６は、複数の第１指標値の平均及び分散を算出する。

閾値算出部１６は、訓練データセット１１ｂに含まれる複数の第１アノテーション画像１１２及び複数の第２アノテーション画像１１３に基づき算出された複数の第１指標値の、平均及び分散を算出する算出部の一例である。

（iii）閾値算出部１６は、算出した平均及び分散に基づき、１以上の閾値を決定する。

一例として、第１指標値が正規分布に従う場合を想定する。なお、算出した平均をμ、分散をσ＾２とする。この場合、閾値算出部１６は、図１４に例示するように、算出した分散σ＾２の平方根である標準偏差σを算出し、２σ区間、すなわち、平均μを中心とした前後±２σの第１指標値の値を、それぞれ下限及び上限の閾値に決定してよい。図１４の例では、閾値算出部１６は、（μ－２σ）を下限の閾値Ｔｈ１に決定し、（μ＋２σ）を上限の閾値Ｔｈ２に決定する。

以上のように、閾値算出部１６は、対象物１１１ａが正常状態であるときの複数の第１指標値の平均及び分散を算出し、算出した平均及び分散に基づき、閾値Ｔｈ１及びＴｈ２を決定する。閾値Ｔｈ１及びＴｈ２は、複数の第１指標値が集中する範囲（例えば２σ区間等）の境界を示す。このため、閾値Ｔｈ１及びＴｈ２を決定することで、後述する第２指標値が、複数の第１指標値が集中する範囲に含まれるか否かを容易に判定できる。

なお、閾値算出部１６は、図１４に例示するように、１σ区間、すなわち、平均μを中心とした前後±σの第１指標値の値を用いて、（μ－σ）を下限の閾値Ｔｈ１に決定し、（μ＋σ）を上限の閾値Ｔｈ２に決定してもよい。

上述した例では、第１指標値が正規分布に従う場合を想定したが、これに限定されるものではない。閾値算出部１６は、第１指標値が従う種々の分布に応じて、閾値を決定してもよい。また、閾値算出部１６は、複数の第１指標値の四分位数を算出してもよい。例えば、閾値算出部１６は、第１指標値の第１四分位を下限の閾値に決定してもよく、第１指標値の第３四分位を上限の閾値に決定してもよい。

実行部１７は、学習部１５による訓練済みの物体検知部１２及びセグメンテーション部１３を用いて、入力データ１１ｃに対する対象物の推定処理を実行する。

図１５は、実行部１７による推定処理の一例を説明するための図である。図１５に示すように、実行部１７は、推定処理において、入力データ１１ｃに含まれる画像１１４を抽出する。

そして、実行部１７は、推定処理において、画像１１４を物体検知部１２に入力し、物体検知部１２から出力される推定結果画像である検知画像１２ａを取得する物体検知処理を実行する。また、実行部１７は、推定処理において、画像１１４をセグメンテーション部１３に入力し、セグメンテーション部１３から出力される推定結果画像であるセグメンテーション画像１３ａを取得するセグメンテーション処理を実行する。

検知画像１２ａは、訓練後の物体検知部１２による推定結果により特定される矩形領域１２０ａを含んでよい。矩形領域１２０ａは、画像１１４に含まれる対象物１１４ａに対応する矩形領域１２０ａである。セグメンテーション画像１３ａは、訓練後のセグメンテーション部１３による推定結果により特定される、画像１１４に含まれる対象物１１４ａに対応するピクセル１３０ａを含んでよい。

また、実行部１７は、推定処理において、取得した検知画像１２ａ及びセグメンテーション画像１３ａを合成して、合成画像１７ａを生成する合成処理を実行してもよい。合成画像１７ａは、検知画像１２ａに含まれる矩形領域１２０ａと、セグメンテーション画像１３ａに含まれるピクセル１３０ａとを少なくとも含む画像データであってよい。なお、合成画像１７ａの背景は、図１５に例示するように黒塗り等の単一色であってもよいし、画像１１４の背景が用いられてもよい。

判定部１８は、検知画像１２ａ及びセグメンテーション画像１３ａ、又は、合成画像１７ａに含まれる、矩形領域１２０ａ及びピクセル１３０ａに基づき、画像１１４に含まれる対象物１１４ａが正常状態であるか否かを判定する判定処理を実行する。

例えば、判定部１８は、判定対象の対象物１１４ａを含む画像１１４の入力に応じて訓練後の推定モデルから出力される出力結果における、矩形領域１２０ａに対応するピクセル数と対象物１１４ａに対応するピクセル１３０ａの数との間の第２指標値を算出する。

第２指標値は、例えば、物体検知部１２による推定結果により特定される矩形領域１２０ａに対応するピクセル数と、セグメンテーション部１３による推定結果により特定される対象物１１４ａに対応するピクセル１３０ａの数との比であってよい。

判定部１８は、例えば、合成画像１７ａ又はセグメンテーション画像１３ａのピクセル１３０ａ（図１５参照）のピクセル数が、合成画像１７ａ又は検知画像１２ａの矩形領域１２０ａ（図１５参照）に占める面積の割合を、第２指標値として算出する。判定部１８は、第２指標値算出部の一例である。

例えば、判定部１８は、入力データ１１ｃに含まれる複数の画像１１４のそれぞれについて、且つ、各画像１１４に含まれる１以上の対象物１１４ａのそれぞれについて、第２指標値を算出してよい。

そして、判定部１８は、算出された第２指標値と、閾値算出部１６が算出した第１指標値とに基づいて、画像１１４に含まれる対象物１１４ａが正常状態であるか否かを判定してよい。例えば、判定部１８は、第２指標値と、第１指標値に基づき決定された閾値Ｔｈ１及びＴｈ２とを比較し、対象物１１４ａの正常又は異常を判定してよい。

一例として、判定部１８は、図１５に示すように、算出された第２指標値が、下限の閾値Ｔｈ１以上、且つ、上限の閾値Ｔｈ２以下である場合、対象物１１４ａが正常状態であると判定してよい。

一方、判定部１８は、図１６に示すように、算出された第２指標値が、上限の閾値Ｔｈ２よりも大きい場合、又は、下限の閾値Ｔｈ１よりも小さい場合、対象物１１４ａが異常状態であると判定してよい。

このように、判定部１８は、第２指標値と、閾値Ｔｈ１及び／又は閾値Ｔｈ２との比較により、対象物１１４ａが正常状態であるか否かを容易に判定できる。

出力部１９は、実行部１７から入力される合成画像１７ａ、又は／及び、検知画像１２ａ及びセグメンテーション画像１３ａをメモリ部１１に出力（蓄積）し、蓄積した複数の画像に基づき、出力データ１１ｄを作成してよい。

出力データ１１ｄは、矩形領域１２０ａ、及び、ピクセル１３０ａの一方又は双方を含む、１以上の出力画像１１５を含む画像セットであってよい。出力画像１１５は、例えば、合成画像１７ａ、又は／及び、検知画像１２ａ及びセグメンテーション画像１３ａのセット、であってもよく、一例として、複数のフレームを含む映像等の動画像であってよい。一実施形態では、出力部１９は、図１７に例示するように、合成画像１７ａとしての出力画像１１５をフレームとして時系列に結合した映像であってよい。

また、出力部１９は、判定部１８による判定結果、例えば、対象物１１４ａが正常状態又は異常状態であることを出力してよい。判定結果は、例えば、出力画像１１５中に示されてもよいし、出力画像１１５とは別のデータとして出力されてもよい。図１７では、出力部１９が、異常状態である旨のメッセージ１１６を出力画像１１５上にオーバレイ表示する例を示している。

なお、出力部１９は、出力データ１１ｄを、例えば図示しないコンピュータに送信してもよい。

以上のように、実行部１７、判定部１８及び出力部１９は、訓練済みの推定モデルを用いて、画像１１４に含まれる対象物１１４ａが正常状態であるか否かを判定する判定処理を実行する判定処理部の一例である。また、判定処理部の一例としての実行部１７、判定部１８及び出力部１９は、判定処理を実行し、判定結果を出力してよい。

〔１－４〕動作例
次に、図１８及び図１９を参照して、上述の如く構成されたサーバ１０の動作例を説明する。

〔１－４－１〕学習フェーズの動作例
図１８は、物体検知部１２及びセグメンテーション部１３の学習フェーズの動作例を説明するためのフローチャートである。

図１８に例示するように、取得部１４は、訓練データセット１１ｂを取得し（ステップＳ１）、メモリ部１１に格納する。

学習部１５は、訓練データセット１１ｂ内の各訓練データ１１０に含まれる画像１１１を、物体検知部１２及びセグメンテーション部１３のそれぞれに入力し、機械学習を実行する（ステップＳ２）。機械学習では、学習部１５は、物体検知部１２に対して第１アノテーション画像１１２を教師データとして与え、セグメンテーション部１３に対して第２アノテーション画像１１３を教師データとして与える。

なお、学習部１５は、訓練データセット１１ｂ内の複数の訓練データ１１０を用いて物体検知部１２及びセグメンテーション部１３のそれぞれの機械学習を行なう。

次いで、閾値算出部１６は、訓練データセット１１ｂ内の複数の第１及び第２アノテーション画像１１２及び１１３に基づき、複数の第１指標値を算出する（ステップＳ３）。

そして、閾値算出部１６は、複数の第１指標値に基づき、下限の閾値Ｔｈ１及び上限の閾値Ｔｈ２を算出し（ステップＳ４）、処理が終了する。

〔１－４－２〕判定フェーズの動作例
図１９は、物体検知部１２及びセグメンテーション部１３の判定フェーズの動作例を説明するためのフローチャートである。

図１９に例示するように、取得部１４は、入力データ１１ｃを取得し（ステップＳ１１）、メモリ部１１に格納する。

実行部１７は、入力データ１１ｃ内の画像１１４を物体検知部１２及びセグメンテーション部１３のそれぞれに入力する（ステップＳ１２）。また、実行部１７は、物体検知部１２から出力される検知画像１２ａと、セグメンテーション部１３から出力されるセグメンテーション画像１３ａとを合成して合成画像１７ａを生成する。

判定部１８は、検知画像１２ａ内の矩形領域１２０ａのピクセル数と、セグメンテーション画像１３ａ内の、対象物１１４ａに対応するピクセル１３０ａの数とに基づき、第２指標値を算出する（ステップＳ１３）。

そして、判定部１８は、第２指標値と、閾値算出部１６が算出した下限の閾値Ｔｈ１及び上限の閾値Ｔｈ２とに基づき、対象物１１４ａが正常状態であるのか、異常状態であるのかを判定する（ステップＳ１４）。

出力部１９は、合成画像１７ａを出力画像１１５として蓄積し、蓄積した出力画像１１５を統合した出力データ１１ｄと、判定部１８による判定結果とを出力し（ステップＳ１５）、処理が終了する。なお、出力データ１１ｄの出力先としては、例えば、メモリ部１１の他に、図示しないコンピュータ等が挙げられる。

〔１－５〕ハードウェア構成例
図２０は、情報処理装置１及びサーバ１０の機能を実現するコンピュータ２０のハードウェア（ＨＷ）構成例を示すブロック図である。情報処理装置１及びサーバ１０の機能を実現するＨＷリソースとして、複数のコンピュータが用いられる場合は、各コンピュータが図２０に例示するＨＷ構成を備えてよい。

図２０に示すように、コンピュータ２０は、ＨＷ構成として、例示的に、プロセッサ２０ａ、メモリ２０ｂ、記憶部２０ｃ、ＩＦ（Interface）部２０ｄ、Ｉ／Ｏ（Input / Output）部２０ｅ、及び読取部２０ｆを備えてよい。

プロセッサ２０ａは、種々の制御や演算を行なう演算処理装置の一例である。プロセッサ２０ａは、コンピュータ２０内の各ブロックとバス２０ｉで相互に通信可能に接続されてよい。なお、プロセッサ２０ａは、複数のプロセッサを含むマルチプロセッサであってもよいし、複数のプロセッサコアを有するマルチコアプロセッサであってもよく、或いは、マルチコアプロセッサを複数有する構成であってもよい。

プロセッサ２０ａとしては、例えば、ＣＰＵ、ＭＰＵ、ＧＰＵ、ＡＰＵ、ＤＳＰ、ＡＳＩＣ、ＦＰＧＡ等の集積回路（ＩＣ：Integrated Circuit）が挙げられる。なお、プロセッサ２０ａとして、これらの集積回路の２以上の組み合わせが用いられてもよい。

例えば、情報処理装置１の少なくとも一部、サーバ１０の取得部１４、閾値算出部１６、実行部１７の少なくとも一部、判定部１８、及び、出力部１９の処理機能は、プロセッサ２０ａとしてのＣＰＵ又はＭＰＵ等により実現されてもよい。また、情報処理装置１の少なくとも一部、サーバ１０の物体検知部１２、セグメンテーション部１３、学習部１５、及び、実行部１７の少なくとも一部の処理機能は、プロセッサ２０ａのうちのＧＰＵ又はＡＳＩＣ（例えばＴＰＵ）等のアクセラレータにより実現されてもよい。

ＣＰＵはCentral Processing Unitの略称であり、ＭＰＵはMicro Processing Unitの略称である。ＧＰＵはGraphics Processing Unitの略称であり、ＡＰＵはAccelerated Processing Unitの略称である。ＤＳＰはDigital Signal Processorの略称であり、ＡＳＩＣはApplication Specific ICの略称であり、ＦＰＧＡはField-Programmable Gate Arrayの略称である。ＴＰＵはTensor Processing Unitの略称である。

メモリ２０ｂは、種々のデータやプログラム等の情報を格納するＨＷの一例である。メモリ２０ｂとしては、例えばＤＲＡＭ（Dynamic Random Access Memory）等の揮発性メモリ、及び、ＰＭ（Persistent Memory）等の不揮発性メモリ、の一方又は双方が挙げられる。

記憶部２０ｃは、種々のデータやプログラム等の情報を格納するＨＷの一例である。記憶部２０ｃとしては、ＨＤＤ（Hard Disk Drive）等の磁気ディスク装置、ＳＳＤ（Solid State Drive）等の半導体ドライブ装置、不揮発性メモリ等の各種記憶装置が挙げられる。不揮発性メモリとしては、例えば、フラッシュメモリ、ＳＣＭ（Storage Class Memory）、ＲＯＭ（Read Only Memory）等が挙げられる。

また、記憶部２０ｃは、コンピュータ２０の各種機能の全部若しくは一部を実現するプログラム２０ｇ（情報処理プログラム）を格納してよい。例えば、情報処理装置１のプロセッサ２０ａは、記憶部２０ｃに格納されたプログラム２０ｇをメモリ２０ｂに展開して実行することにより、図４及び図６に例示する情報処理装置１としての機能を実現できる。また、サーバ１０のプロセッサ２０ａは、記憶部２０ｃに格納されたプログラム２０ｇをメモリ２０ｂに展開して実行することにより、図１０に例示するサーバ１０としての機能を実現できる。

なお、メモリ２０ｂ及び記憶部２０ｃの少なくとも１つが有する記憶領域は、図１０に示す各情報１１ａ～１１ｄを記憶可能であってよい。換言すれば、図１０に示すメモリ部１１は、メモリ２０ｂ及び記憶部２０ｃの少なくとも１つが有する記憶領域により実現されてよい。

ＩＦ部２０ｄは、ネットワークとの間の接続及び通信の制御等を行なう通信ＩＦの一例である。例えば、ＩＦ部２０ｄは、イーサネット（登録商標）等のＬＡＮ（Local Area Network）、或いは、ＦＣ（Fibre Channel）等の光通信等に準拠したアダプタを含んでよい。当該アダプタは、無線及び有線の一方又は双方の通信方式に対応してよい。例えば、サーバ１０は、ＩＦ部２０ｄを介して、他の装置と相互に通信可能に接続されてよい。また、例えば、プログラム２０ｇは、当該通信ＩＦを介して、ネットワークからコンピュータ２０にダウンロードされ、記憶部２０ｃに格納されてもよい。

Ｉ／Ｏ部２０ｅは、入力装置、及び、出力装置、の一方又は双方を含んでよい。入力装置としては、例えば、キーボード、マウス、タッチパネル等が挙げられる。出力装置としては、例えば、モニタ、プロジェクタ、プリンタ等が挙げられる。

読取部２０ｆは、記録媒体２０ｈに記録されたデータやプログラムの情報を読み出すリーダの一例である。読取部２０ｆは、記録媒体２０ｈを接続可能又は挿入可能な接続端子又は装置を含んでよい。読取部２０ｆとしては、例えば、ＵＳＢ（Universal Serial Bus）等に準拠したアダプタ、記録ディスクへのアクセスを行なうドライブ装置、ＳＤカード等のフラッシュメモリへのアクセスを行なうカードリーダ等が挙げられる。なお、記録媒体２０ｈにはプログラム２０ｇが格納されてもよく、読取部２０ｆが記録媒体２０ｈからプログラム２０ｇを読み出して記憶部２０ｃに格納してもよい。

記録媒体２０ｈとしては、例示的に、磁気／光ディスクやフラッシュメモリ等の非一時的なコンピュータ読取可能な記録媒体が挙げられる。磁気／光ディスクとしては、例示的に、フレキシブルディスク、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ブルーレイディスク、ＨＶＤ（Holographic Versatile Disc）等が挙げられる。フラッシュメモリとしては、例示的に、ＵＳＢメモリやＳＤカード等の半導体メモリが挙げられる。

上述したコンピュータ２０のＨＷ構成は例示である。従って、コンピュータ２０内でのＨＷの増減（例えば任意のブロックの追加や削除）、分割、任意の組み合わせでの統合、又は、バスの追加若しくは削除等は適宜行なわれてもよい。例えば、情報処理装置１及びサーバ１０において、Ｉ／Ｏ部２０ｅ及び読取部２０ｆの少なくとも一方は、省略されてもよい。

〔２〕その他
上述した一実施形態に係る技術は、以下のように変形、変更して実施することができる。

例えば、図１０に示すサーバ１０が備える各処理機能１２～１９は、それぞれ任意の組み合わせで併合してもよく、分割してもよい。

なお、一実施形態では、対象物及び画像が、それぞれ、心室中隔及びエコー画像であるものとしたが、これらに限定されるものではない。一実施形態に係る手法は、下記のように、種々の対象物及び画像についても適用可能である。

対象物としては、例えば、人体の部位の他、形状が変化する可能性のある種々の物体が挙げられる。画像としては、対象物を含む領域を撮影した種々の画像が挙げられる。例えば、画像としては、エコー画像以外の超音波画像、磁気共鳴画像、Ｘ線画像、温度又は電磁波等を捉えるセンサによる検出画像、並びに、可視光又は非可視光を捉えるイメージセンサによる撮像画像、等の種々の画像が挙げられる。

また、図１０に示すサーバ１０は、複数の装置がネットワークを介して互いに連携することにより、各処理機能を実現する構成であってもよい。一例として、取得部１４及び出力部１９はＷｅｂサーバ、物体検知部１２及びセグメンテーション部１３、学習部１５、閾値算出部１６、実行部１７並びに判定部１８はアプリケーションサーバ、メモリ部１１はＤＢ（Database）サーバ、であってもよい。この場合、Ｗｅｂサーバ、アプリケーションサーバ及びＤＢサーバが、ネットワークを介して互いに連携することにより、サーバ１０としての各処理機能を実現してもよい。

さらに、物体検知部１２及びセグメンテーション部１３の学習処理（物体検知部１２及びセグメンテーション部１３、取得部１４及び学習部１５）、並びに、判定処理（実行部１７、判定部１８及び出力部１９）に係る各処理機能が、互いに異なる装置により提供されてもよい。この場合においても、これらの装置がネットワークを介して互いに連携することにより、サーバ１０としての各処理機能を実現してもよい。

〔３〕付記
以上の実施形態に関し、さらに以下の付記を開示する。

（付記１）
訓練対象物を撮影した画像と、前記画像において前記訓練対象物を含む矩形領域を示す第１アノテーションデータと、前記画像中の前記訓練対象物に対応するピクセルを示す第２アノテーションデータと、をそれぞれに含む訓練データの訓練データセットを取得し、
前記画像の入力に応じて前記画像における前記訓練対象物を含む矩形領域を特定する物体検知モデルと、前記画像の入力に応じて前記画像中の前記訓練対象物に対応すると推定されたピクセルを出力とするニューラルネットワークとを含む推定モデルについて、前記訓練データセットの前記画像と前記第１アノテーションデータとに基づいて前記物体検知モデルを訓練するとともに、前記訓練データセットの前記画像と前記第２アノテーションデータとに基づいて前記ニューラルネットワークを訓練し、
前記第１アノテーションデータにより特定される前記訓練対象物を含む矩形領域に対応するピクセル数と前記第２アノテーションデータにより特定される前記訓練対象物に対応するピクセル数との間の、ピクセル数の関係性についての第１指標値を算出する、
処理をコンピュータに実行させ、
訓練後の前記推定モデル及び算出された前記第１指標値は、判定対象の対象物を含む対象画像の入力に応じて訓練後の前記推定モデルから出力される出力結果における、訓練後の前記物体検知モデルによる推定結果により特定される矩形領域に対応するピクセル数と訓練後の前記ニューラルネットワークによる推定結果により特定される前記対象物に対応するピクセル数との間の第２指標値と、算出された前記第１指標値と、に基づいて、前記対象画像に含まれる前記対象物が正常状態であるか否かを判定する判定処理に利用される、
情報処理プログラム。

（付記２）
前記第１指標値は、前記第１アノテーションデータにより特定される前記対象物を含む矩形領域に対応するピクセル数と、前記第２アノテーションデータにより特定される前記対象物に対応するピクセル数との比であり、
前記第２指標値は、前記訓練後の前記物体検知モデルによる推定結果により特定される矩形領域に対応するピクセル数と、前記訓練後の前記ニューラルネットワークによる推定結果により特定される前記対象物に対応するピクセル数との比である、
付記１に記載の情報処理プログラム。

（付記３）
前記訓練データセットに含まれる複数の前記第１アノテーションデータ及び複数の前記第２アノテーションデータに基づき算出された複数の前記第１指標値の、平均及び分散を算出し、
算出した前記平均及び前記分散に基づき、前記対象画像に含まれる対象物が正常状態であると判定するための前記第２指標値の上限及び下限の一方又は双方の閾値を決定する、
処理を前記コンピュータに実行させる、
付記１又は付記２に記載の情報処理プログラム。

（付記４）
前記判定処理において、前記第２指標値が、前記上限の閾値よりも大きい場合、又は、前記下限の閾値よりも小さい場合、前記対象画像に含まれる対象物が異常状態であることを出力する、
処理を前記コンピュータに実行させる、
付記３に記載の情報処理プログラム。

（付記５）
前記判定処理において、前記物体検知モデルによる推定結果により特定される矩形領域、及び、前記訓練後の前記ニューラルネットワークによる推定結果により特定される前記対象物に対応するピクセル、の一方又は双方を含む画像を出力する、
処理を前記コンピュータに実行させる、
付記１～付記４のいずれか１項に記載の情報処理プログラム。

（付記６）
前記訓練データセットに含まれる複数の前記画像及び前記対象画像のそれぞれは、超音波画像である、
付記１～付記５のいずれか１項に記載の情報処理プログラム。

（付記７）
訓練対象物を撮影した画像と、前記画像において前記訓練対象物を含む矩形領域を示す第１アノテーションデータと、前記画像中の前記訓練対象物に対応するピクセルを示す第２アノテーションデータと、をそれぞれに含む訓練データの訓練データセットを取得し、
前記画像の入力に応じて前記画像における前記訓練対象物を含む矩形領域を特定する物体検知モデルと、前記画像の入力に応じて前記画像中の前記訓練対象物に対応すると推定されたピクセルを出力とするニューラルネットワークとを含む推定モデルについて、前記訓練データセットの前記画像と前記第１アノテーションデータとに基づいて前記物体検知モデルを訓練するとともに、前記訓練データセットの前記画像と前記第２アノテーションデータとに基づいて前記ニューラルネットワークを訓練し、
前記第１アノテーションデータにより特定される前記訓練対象物を含む矩形領域に対応するピクセル数と前記第２アノテーションデータにより特定される前記訓練対象物に対応するピクセル数との間の、ピクセル数の関係性についての第１指標値を算出する、
処理をコンピュータが実行し、
訓練後の前記推定モデル及び算出された前記第１指標値は、判定対象の対象物を含む対象画像の入力に応じて訓練後の前記推定モデルから出力される出力結果における、訓練後の前記物体検知モデルによる推定結果により特定される矩形領域に対応するピクセル数と訓練後の前記ニューラルネットワークによる推定結果により特定される前記対象物に対応するピクセル数との間の第２指標値と、算出された前記第１指標値と、に基づいて、前記対象画像に含まれる前記対象物が正常状態であるか否かを判定する判定処理に利用される、
情報処理方法。

（付記８）
前記第１指標値は、前記第１アノテーションデータにより特定される前記対象物を含む矩形領域に対応するピクセル数と、前記第２アノテーションデータにより特定される前記対象物に対応するピクセル数との比であり、
前記第２指標値は、前記訓練後の前記物体検知モデルによる推定結果により特定される矩形領域に対応するピクセル数と、前記訓練後の前記ニューラルネットワークによる推定結果により特定される前記対象物に対応するピクセル数との比である、
付記７に記載の情報処理方法。

（付記９）
前記訓練データセットに含まれる複数の前記第１アノテーションデータ及び複数の前記第２アノテーションデータに基づき算出された複数の前記第１指標値の、平均及び分散を算出し、
算出した前記平均及び前記分散に基づき、前記対象画像に含まれる対象物が正常状態であると判定するための前記第２指標値の上限及び下限の一方又は双方の閾値を決定する、
処理を前記コンピュータが実行する、
付記７又は付記８に記載の情報処理方法。

（付記１０）
前記判定処理において、前記第２指標値が、前記上限の閾値よりも大きい場合、又は、前記下限の閾値よりも小さい場合、前記対象画像に含まれる対象物が異常状態であることを出力する、
処理を前記コンピュータが実行する、
付記９に記載の情報処理方法。

（付記１１）
前記判定処理において、前記物体検知モデルによる推定結果により特定される矩形領域、及び、前記訓練後の前記ニューラルネットワークによる推定結果により特定される前記対象物に対応するピクセル、の一方又は双方を含む画像を出力する、
処理を前記コンピュータが実行する、
付記７～付記１０のいずれか１項に記載の情報処理方法。

（付記１２）
前記訓練データセットに含まれる複数の前記画像及び前記対象画像のそれぞれは、超音波画像である、
付記７～付記１１のいずれか１項に記載の情報処理方法。

（付記１３）
訓練対象物を撮影した画像と、前記画像において前記訓練対象物を含む矩形領域を示す第１アノテーションデータと、前記画像中の前記訓練対象物に対応するピクセルを示す第２アノテーションデータと、をそれぞれに含む訓練データの訓練データセットを取得する取得部と、
前記画像の入力に応じて前記画像における前記訓練対象物を含む矩形領域を特定する物体検知モデルと、前記画像の入力に応じて前記画像中の前記訓練対象物に対応すると推定されたピクセルを出力とするニューラルネットワークとを含む推定モデルについて、前記訓練データセットの前記画像と前記第１アノテーションデータとに基づいて前記物体検知モデルを訓練するとともに、前記訓練データセットの前記画像と前記第２アノテーションデータとに基づいて前記ニューラルネットワークを訓練する訓練実行部と、
前記第１アノテーションデータにより特定される前記訓練対象物を含む矩形領域に対応するピクセル数と前記第２アノテーションデータにより特定される前記訓練対象物に対応するピクセル数との間の、ピクセル数の関係性についての第１指標値を算出する第１指標値算出部と、
判定対象の対象物を含む対象画像の入力に応じて訓練後の前記推定モデルから出力される出力結果における、訓練後の前記物体検知モデルによる推定結果により特定される矩形領域に対応するピクセル数と訓練後の前記ニューラルネットワークによる推定結果により特定される前記対象物に対応するピクセル数との間の第２指標値と、算出された前記第１指標値と、に基づいて、前記対象画像に含まれる前記対象物が正常状態であるか否かを判定する判定処理を実行する、判定処理部と、
を備える情報処理装置。

（付記１４）
前記第１指標値は、前記第１アノテーションデータにより特定される前記対象物を含む矩形領域に対応するピクセル数と、前記第２アノテーションデータにより特定される前記対象物に対応するピクセル数との比であり、
前記第２指標値は、前記訓練後の前記物体検知モデルによる推定結果により特定される矩形領域に対応するピクセル数と、前記訓練後の前記ニューラルネットワークによる推定結果により特定される前記対象物に対応するピクセル数との比である、
付記１３に記載の情報処理装置。

（付記１５）
前記訓練データセットに含まれる複数の前記第１アノテーションデータ及び複数の前記第２アノテーションデータに基づき算出された複数の前記第１指標値の、平均及び分散を算出する算出部と、
算出した前記平均及び前記分散に基づき、前記対象画像に含まれる対象物が正常状態であると判定するための前記第２指標値の上限及び下限の一方又は双方の閾値を決定する閾値算出部と、を備える、
付記１３又は付記１４に記載の情報処理装置。

（付記１６）
前記判定処理部は、前記第２指標値が、前記上限の閾値よりも大きい場合、又は、前記下限の閾値よりも小さい場合、前記対象画像に含まれる対象物が異常状態であることを出力する、
付記１５に記載の情報処理装置。

（付記１７）
前記判定処理部は、前記物体検知モデルによる推定結果により特定される矩形領域、及び、前記訓練後の前記ニューラルネットワークによる推定結果により特定される前記対象物に対応するピクセル、の一方又は双方を含む画像を出力する、
付記１３～付記１６のいずれか１項に記載の情報処理装置。

（付記１８）
前記訓練データセットに含まれる複数の前記画像及び前記対象画像のそれぞれは、超音波画像である、
付記１３～付記１７のいずれか１項に記載の情報処理装置。

１情報処理装置
２、１１０訓練データ
３学習実行部
４、１２物体検知部
５、１３セグメンテーション部
６、２１、１１１、１１４画像
６ａ、６ｂ、２１ａ、１１１ａ、１１４ａ対象物
７、８推定結果
７ａ、７ｂ、２２ａ、１１２ａ、１２０ａ矩形領域
８ａ、８ｂ、２３ａ、１１３ａ、１３０ａピクセル
９判定処理部
１０サーバ
１１メモリ部
１１ａモデル情報
１１ｂ訓練データセット
１１ｃ入力データ
１１ｄ出力データ
１２ａ検知画像
１３ａセグメンテーション画像
１４取得部
１５学習部
１６閾値算出部
１７実行部
１７ａ合成画像
１８判定部
１９出力部
２０コンピュータ
２２、１１２第１アノテーション画像
２３、１１３第２アノテーション画像
１１５出力画像
１１６メッセージ

Claims

訓練対象物を撮影した画像と、前記画像において前記訓練対象物を含む矩形領域を示す第１アノテーションデータと、前記画像中の前記訓練対象物に対応するピクセルを示す第２アノテーションデータと、をそれぞれに含む訓練データの訓練データセットを取得し、
前記画像の入力に応じて前記画像における前記訓練対象物を含む矩形領域を特定する物体検知モデルと、前記画像の入力に応じて前記画像中の前記訓練対象物に対応すると推定されたピクセルを出力とするニューラルネットワークとを含む推定モデルについて、前記訓練データセットの前記画像と前記第１アノテーションデータとに基づいて前記物体検知モデルを訓練するとともに、前記訓練データセットの前記画像と前記第２アノテーションデータとに基づいて前記ニューラルネットワークを訓練し、
前記第１アノテーションデータにより特定される前記訓練対象物を含む矩形領域に対応するピクセル数と前記第２アノテーションデータにより特定される前記訓練対象物に対応するピクセル数との間の、ピクセル数の関係性についての第１指標値を算出する、
処理をコンピュータに実行させ、
訓練後の前記推定モデル及び算出された前記第１指標値は、判定対象の対象物を含む対象画像の入力に応じて訓練後の前記推定モデルから出力される出力結果における、訓練後の前記物体検知モデルによる推定結果により特定される矩形領域に対応するピクセル数と訓練後の前記ニューラルネットワークによる推定結果により特定される前記対象物に対応するピクセル数との間の第２指標値と、算出された前記第１指標値と、に基づいて、前記対象画像に含まれる前記対象物が正常状態であるか否かを判定する判定処理に利用される、
情報処理プログラム。
前記第１指標値は、前記第１アノテーションデータにより特定される前記対象物を含む矩形領域に対応するピクセル数と、前記第２アノテーションデータにより特定される前記対象物に対応するピクセル数との比であり、
前記第２指標値は、前記訓練後の前記物体検知モデルによる推定結果により特定される矩形領域に対応するピクセル数と、前記訓練後の前記ニューラルネットワークによる推定結果により特定される前記対象物に対応するピクセル数との比である、
請求項１に記載の情報処理プログラム。
前記訓練データセットに含まれる複数の前記第１アノテーションデータ及び複数の前記第２アノテーションデータに基づき算出された複数の前記第１指標値の、平均及び分散を算出し、
算出した前記平均及び前記分散に基づき、前記対象画像に含まれる対象物が正常状態であると判定するための前記第２指標値の上限及び下限の一方又は双方の閾値を決定する、
処理を前記コンピュータに実行させる、
請求項１又は請求項２に記載の情報処理プログラム。
前記判定処理において、前記第２指標値が、前記上限の閾値よりも大きい場合、又は、前記下限の閾値よりも小さい場合、前記対象画像に含まれる対象物が異常状態であることを出力する、
処理を前記コンピュータに実行させる、
請求項３に記載の情報処理プログラム。
前記判定処理において、前記物体検知モデルによる推定結果により特定される矩形領域、及び、前記訓練後の前記ニューラルネットワークによる推定結果により特定される前記対象物に対応するピクセル、の一方又は双方を含む画像を出力する、
処理を前記コンピュータに実行させる、
請求項１～請求項４のいずれか１項に記載の情報処理プログラム。
前記訓練データセットに含まれる複数の前記画像及び前記対象画像のそれぞれは、超音波画像である、
請求項１～請求項５のいずれか１項に記載の情報処理プログラム。
訓練対象物を撮影した画像と、前記画像において前記訓練対象物を含む矩形領域を示す第１アノテーションデータと、前記画像中の前記訓練対象物に対応するピクセルを示す第２アノテーションデータと、をそれぞれに含む訓練データの訓練データセットを取得し、
前記画像の入力に応じて前記画像における前記訓練対象物を含む矩形領域を特定する物体検知モデルと、前記画像の入力に応じて前記画像中の前記訓練対象物に対応すると推定されたピクセルを出力とするニューラルネットワークとを含む推定モデルについて、前記訓練データセットの前記画像と前記第１アノテーションデータとに基づいて前記物体検知モデルを訓練するとともに、前記訓練データセットの前記画像と前記第２アノテーションデータとに基づいて前記ニューラルネットワークを訓練し、
前記第１アノテーションデータにより特定される前記訓練対象物を含む矩形領域に対応するピクセル数と前記第２アノテーションデータにより特定される前記訓練対象物に対応するピクセル数との間の、ピクセル数の関係性についての第１指標値を算出する、
処理をコンピュータが実行し、
訓練後の前記推定モデル及び算出された前記第１指標値は、判定対象の対象物を含む対象画像の入力に応じて訓練後の前記推定モデルから出力される出力結果における、訓練後の前記物体検知モデルによる推定結果により特定される矩形領域に対応するピクセル数と訓練後の前記ニューラルネットワークによる推定結果により特定される前記対象物に対応するピクセル数との間の第２指標値と、算出された前記第１指標値と、に基づいて、前記対象画像に含まれる前記対象物が正常状態であるか否かを判定する判定処理に利用される、
情報処理方法。
訓練対象物を撮影した画像と、前記画像において前記訓練対象物を含む矩形領域を示す第１アノテーションデータと、前記画像中の前記訓練対象物に対応するピクセルを示す第２アノテーションデータと、をそれぞれに含む訓練データの訓練データセットを取得する取得部と、
前記画像の入力に応じて前記画像における前記訓練対象物を含む矩形領域を特定する物体検知モデルと、前記画像の入力に応じて前記画像中の前記訓練対象物に対応すると推定されたピクセルを出力とするニューラルネットワークとを含む推定モデルについて、前記訓練データセットの前記画像と前記第１アノテーションデータとに基づいて前記物体検知モデルを訓練するとともに、前記訓練データセットの前記画像と前記第２アノテーションデータとに基づいて前記ニューラルネットワークを訓練する訓練実行部と、
前記第１アノテーションデータにより特定される前記訓練対象物を含む矩形領域に対応するピクセル数と前記第２アノテーションデータにより特定される前記訓練対象物に対応するピクセル数との間の、ピクセル数の関係性についての第１指標値を算出する第１指標値算出部と、
判定対象の対象物を含む対象画像の入力に応じて訓練後の前記推定モデルから出力される出力結果における、訓練後の前記物体検知モデルによる推定結果により特定される矩形領域に対応するピクセル数と訓練後の前記ニューラルネットワークによる推定結果により特定される前記対象物に対応するピクセル数との間の第２指標値と、算出された前記第１指標値と、に基づいて、前記対象画像に含まれる前記対象物が正常状態であるか否かを判定する判定処理を実行する、判定処理部と、
を備える情報処理装置。