JP2022061020A - デュアルエンコーダアテンションu-ネット - Google Patents

デュアルエンコーダアテンションu-ネット Download PDF

Info

Publication number
JP2022061020A
JP2022061020A JP2021162638A JP2021162638A JP2022061020A JP 2022061020 A JP2022061020 A JP 2022061020A JP 2021162638 A JP2021162638 A JP 2021162638A JP 2021162638 A JP2021162638 A JP 2021162638A JP 2022061020 A JP2022061020 A JP 2022061020A
Authority
JP
Japan
Prior art keywords
attention
computer
binary file
feature
calculated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021162638A
Other languages
English (en)
Other versions
JP7288488B2 (ja
Inventor
アビヒシェック バハダン
Vahadane Abhishek
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rakuten Group Inc
Original Assignee
Rakuten Group Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rakuten Group Inc filed Critical Rakuten Group Inc
Publication of JP2022061020A publication Critical patent/JP2022061020A/ja
Application granted granted Critical
Publication of JP7288488B2 publication Critical patent/JP7288488B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/695Preprocessing, e.g. image segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/58Extraction of image or video features relating to hyperspectral data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】画像、アニメーション、動画又は音声などのバイナリファイルの特徴を予測するための方法、コンピュータプログラム及びコンピュータシステムを提供する。【解決手段】方法は、バイナリファイルを受信し402、デュアルエンコーダのアテンションベースのU-ネットアーキテクチャに基づいて、バイナリファイルの潜在空間に対応する特徴値を算出し404、算出された特徴値に基づいて、新たなバイナリファイルを生成する406。【選択図】図4

Description

本開示は、一般に、機械学習の分野、より具体的にはニューラルネットワークに関する。
画像、アニメーション、及び音声などのバイナリファイルは、大量のデータの作成及び符号化を可能にした。例えば、医学の分野では、デジタルパソロジによってスライド画像全体から生物学的成分に関する情報を抽出することが可能になった。ヘマトキシリン及びエオシンは、世界の病理学研究室で使用されている一般的な染色技術である。典型的な実例として、ヘマトキシン染料は、核を青に染色し、エオシンは、細胞質と細胞外基質をピンクに染色する。細胞と核は、組織の基本要素であり、そのような構成要素の統計は、正確な診断とともに、新しいバイオマーカの開発に利用できる。核の大きさ、形状、密度、局所的なテクスチャ、核の近くの空間的特徴、及び局所的な組織構造(腺)は、スライド画像全体において癌の活動に関する重要な手がかりを提供する。あるいは、オーディオの分野では、声及び音声の認識は、集団の中から話者を識別する、あるいは話者が話している内容を識別することに使用され得る。
実施形態は、画像、アニメーション、動画、又は音声などのバイナリファイルの特徴を予測するための方法、システム、及びコンピュータにより読み取り可能な媒体に関する。ある形態は、バイナリファイルの特徴を予測するための方法である。この方法は、バイナリファイルを受信することを含み得る。バイナリファイルの潜在空間に対応する特徴値は、デュアルエンコーダのアテンションベースのU-ネットアーキテクチャに基づいて算出される。新しいバイナリファイルは、算出された特徴値に基づいて生成される。
別の形態は、バイナリファイルの特徴を分離するためのコンピュータシステムを提供する。コンピュータシステムは、1以上のプロセッサ、1以上のコンピュータ読み取り可能なメモリ、1以上のコンピュータ読み取り可能な有形記憶装置、及び1以上の記憶装置の少なくとも1つを介して1以上のプロセッサの少なくとも1つにより実行するための、1以上の記憶装置の少なくとも1つに保存されたプログラム命令、を含み得る。これにより、コンピュータシステムは、方法を実行することができる。この方法は、バイナリファイルを受信することを含み得る。バイナリファイルの潜在空間に対応する特徴値は、デュアルエンコーダのアテンションベースのU-ネットアーキテクチャに基づいて算出される。算出された特徴値に基づいて、新しいバイナリファイルが生成される。
さらに別の態様は、バイナリファイルの特徴を予想するコンピュータ読み取り可能な媒体を提供する。コンピュータ読み取り可能な媒体は、1以上のコンピュータ読み取り可能な記憶装置と、1以上の有形記憶装置のうちの少なくとも1つに記憶されたプログラム命令とを含み得、ブログラム命令は、プロセッサにより実行される。プログラム命令は、プロセッサにより実行され、それに応じてバイナリファイルの受信を含み得る方法を実行する。バイナリファイルの潜在空間に対応する特徴値は、デュアルエンコーダのアテンションベースのU-ネットアーキテクチャに基づいて算出される。算出された特徴値に基づいて、新たなバイナリファイルが掲載される。
これら及び他の目的、特徴、及び利点は、例示的な実施形態を詳述した以下の説明から明らかになるであろう。これらは、添付の図面を参照して読まれることになる。当業者が詳細な説明と併せて容易に理解できることを明確にするために、図の様々な特徴は縮尺通りではない。
本発明は、プロセッサにより実行可能なバイナリファイルの特徴を予測する方法であって、
バイナリファイルを受信し、
前記バイナリファイルの潜在空間に対応する特徴値を算出し、
算出された前記特徴値に基づいて、新たなバイナリファイルを生成する。
少なくとも1つの実施形態における、ネットワークコンピュータ環境を示す図である。 少なくとも1つの実施形態における、バイナリファイルの特徴予想システムのブロック図である。 少なくとも1つの実施形態における、図2に図示された、デュアルエンコーダアテンションユニット(DEAU)のブロック図である。 少なくとも1つの実施形態における、バイナリファイルにおける特徴を記載したプログラムにより実行されるステップを示した動作フローチャートである。 少なくとも1つの実施形態における、図1に図示されたコンピュータとサーバの内部及び外部の構成要素のブロック図である。 少なくとも1つの実施形態における、図1に図示されたコンピュータシステムを含む例示的クラウドコンピューティング環境のブロック図である。 少なくとも1つの実施形態における、図6の例示的クラウドコンピューティング環境の機能層のブロック図である。
請求された構造及び方法の詳細な実施形態をここに開示する。しかしながら、開示された実施形態は、請求された構造及び方法の単なる例示であると理解され得る。しかしながら、これらの構造及び方法は、多くの異なる形態で具体化され、本明細書に記載の例示的な実施形態に限定されると解釈すべきではない。むしろ、これらの例示的な実施形態は、本開示が完璧かつ完全であり、当業者にその範囲を完全に伝えるように提供される。本説明では、本実施形態を不必要に曖昧にすることを回避するため、周知の特徴及び技術は省略されてもよい。
実施形態は、一般的に、機械学習の分野、より具体的にはニューラルネットワークに関連する。以下に説明する例示的な実施形態は、とりわけ、バイナリファイルの特徴を予測するためのシステム、方法、及びコンピュータプログラムを提供する。したがって、いくつかの実施形態は、デュアルエンコーダアテンション機構を使用して、バイナリファイルの特徴の予測を可能にすることにより、コンピューティング分野を改善する可能性がある。さらに、いくつかの実施形態は、細胞の核及びそれらに対応する境界を予測するために、所定のヘマトキシリン及びエオシンの組織構造画像における核のインスタンスを正確に分類するエンドツーエンドの深層学習フレームワークを提供することにより、医学の分野を改善する可能性がある。
前述のように、画像、アニメーション、及び音声などのバイナリファイルは、大量データの作成及び符号化を可能にした。例えば、医学の分野では、デジタルパソロジによりスライド画像全体から生物学的成分に関する情報を抽出することが可能になった。ヘマトキシリン及びエオシンは、世界の病理学研究室で使用されている一般的な染色技術である。典型的な実例として、ヘマトキシン染料は、核を青に染色し、エオシンは、細胞質と細胞外基質をピンクに染色する。細胞と核は、組織の基本要素であり、そのような構成要素の統計は、新しいバイオマーカの開発と正確な診断に利用することができる。核の大きさ、形状、密度、局所的なテクスチャ、核の近くの空間的特徴、及び局所的な組織構造(腺)は、スライド画像全体における癌の活動に関する重要な手がかりを提供する。しかしながら、バイナリファイルを手動で調べることは面倒な場合がある。さらに、ファイルの多様性、例えば不透明度、大きさ、形状、及び色における多様性は、特徴における多様性として現れ、自動的な特徴予測を困難にする可能性がある。追加の技術的課題は、バイナリファイルにおいて特徴が接触又は重複することにより発生する。あるいは、オーディオの分野で、声及び音声の認識は、集団の中から話者を識別する、又は話者が話す内容を識別するために使用し得る。
しかしながら、例示的な実施形態は、バイナリファイルから特徴を予測及び分離するために、深層学習アプローチを使用する。疑似ハードアテンションゲートを備えたニューラルネットワークを使用して、ネットワーク全体のアテンション機構を即席で作成することにより、ネットワークのアテンションキャッチ能力を向上させることができる。デュアルエンコーダアーキテクチャを使用してアテンションプライヤ情報をエンコードすることができ、アテンションプライヤ情報は、入力画像から生成することができる。さらに、アテンションスキップモジュール(ASM)は、アテンションプライヤと入力特徴マップの双方を利用し、特徴予想パフォーマンスを向上させることができる。
本明細書には、様々な例示的な実施形態における方法、装置(システム)、及びコンピュータ読み取り可能な媒体のフローチャート図、及び/又はブロック図を参照して、形態が記載されている。フローチャート図及び/又はブロック図の各ブロック、及びフローチャート図及び/又はブロック図におけるブロックの組み合わせは、コンピュータ読み取り可能なプログラム命令により実行できると理解され得る。
ここで図1を参照すると、バイナリファイルの特徴を予測し、それらの対応する境界を決定するための特徴予測システム100(以下、「システム」という。)を示すネットワーク化されたコンピュータ環境の機能ブロック図が示されている。図1は、1つの実行の例示のみを提供し、異なる実施形態が実行され得る環境を制限する意図ではない、と理解すべきである。設計及び実装の要件に基づいて、記載された環境に対して多くの変更を加えることができる。
システム100は、コンピュータ102とサーバコンピュータ114を含み得る。コンピュータ102は、通信ネットワーク110(以下、「ネットワーク」という。)を介して、サーバコンピュータ114と通信できる。コンピュータ102は、プロセッサ104と、データ記憶装置106に記憶され、ユーザとインターフェイスにより接続することができ、サーバコンピュータ114と通信するソフトウェアプログラム108と、を含み得る。図5を参照して以下に説明するように、コンピュータ102は、内部構成要素800Aと外部構成要素900Aのそれぞれを含み得る。そして、サーバコンピュータ114は、内部構成要素800Bと外部構成要素900Bをそれぞれ含み得る。コンピュータ102は、例えば、モバイルデバイス、電話、パーソナルデジタルアシスタンス、ネットブック、ラップトップコンピュータ、タブレットコンピュータ、デスクトップコンピュータ、又は、プログラムを実行し、ネットワークにアクセスし、データベースにアクセスできるいかなるタイプのコンピューティング装置である。
サーバコンピュータ114は、図6、7を参照して以下に説明するように、サービスとしてのソフトウェア(SaaS)、サービスとしてのプラットフォーム(PaaS)、又は、サービスとしてのインフラストラクチャ(IaaS)等の、クラウドコンピューティングサービスモデルにおいて動作され得る。サーバコンピュータ114は、また、プライベートクラウド、コミュニティクラウド、パブリッククラウド、又はハイブリットクラウド等の、クラウドコンピューティングデプロイモデルに配置され得る。
バイナリファイルの特徴及び境界を予測するために使用され得るサーバコンピュータ114は、データベース112と相互作用し得る特徴予測プログラム(以下、「プログラム」という。)116を実行することができる。プログラムの方法は、以下の図4を参照してより詳細に説明する。一実施形態では、プログラム116は主にサーバコンピュータ114上で実行され、コンピュータ102は、ユーザインターフェイスを含む入力装置として動作し得る。他の実施形態では、サーバコンピュータ114は、プログラム116によって使用されるデータの処理及び記憶のために使用され得、プログラム116は、主に1つ以上のコンピュータ102上で実行され得る。プログラム116は、スタンドアロンプログラムであり得るか、又は統合されてより大きなプログラムになり得ることに留意すべきである。
しかしながら、プログラム116の処理は、いくつかの場合、コンピュータ102とサーは114との間で任意の比率で共有され得ることに留意すべきである。他の実施形態では、1以上のコンピュータ、サーバコンピュータ、又はコンピュータとサーバコンピュータのいくつかの組み合わせ、例えば、ネットワーク110を介して単一のサーバコンピュータ114と通信する複数のコンピュータ102において、プログラム116は、動作できる。さらに他の実施形態では、例えば、プログラム116は、ネットワーク110を介して、複数のクライアントコンピュータと通信する複数のサーバコンピュータ114上で動作できる。さらに他の実施形態では、システムは全体として、単一のコンピュータ装置に統合及び実装され得る。あるいは、プログラムは、ネットワークを介して、サーバ及び複数のクライアントコンピュータと通信するネットワークサーバ上で動作できる。
ネットワーク110は、有線接続、無線接続、光ファイバ接続、又はそれらの組み合わせを含み得る。一般に、ネットワーク110は、コンピュータ102とサーバコンピュータ114との間の通信をサポートする接続及びプロトコルの任意の組み合わせであり得る。ネットワーク110は、様々なタイプのネットワークを含み得る。例えば、ローカルエリアネットワーク(LAN)インターネット等の広域ネットワーク(WAN)、公衆交換電話ネットワーク(PSTN)などのテレコミュニケーションネットワーク、無線ネットワーク、公衆交換ネットワーク、衛星ネットワーク、セルラーネットワーク(例えば、第5世代(5G)ネットワーク、長期進化(LTE)ネットワーク、第3世代(3G)ネットワーク、符号分割多元接続(CDMA)ネットワーク等)、公衆陸上移動体通信網(PLMN)、メトロポリタンエリアネットワーク(MAN)、プライベートネットワーク、アドホックネットワーク、イントラネット、光ファイバベースのネットワークなど、及び/又は、これら又は他のタイプのネットワークの組み合わせである。
図1に示す装置とネットワークの数又は配置は、例として示す。実際には、図1に示す装置とネットワークと比べて、追加の装置及び/又はネットワーク、より少ない装置及び/又はネットワーク、異なる装置及び/又はネットワーク、又は異なる配置の装置及び/又はネットワークがあり得る。さらに、図1に示す2以上の装置は、単一の装置内に実装され得る、又は図1に示す単一の装置は、複数の分散された装置として実装され得る。さらに、あるいは代替として、システム100の装置のセット(1以上の装置)は、他のシステム100のセットの装置によって実行される1以上の機能を実行することができる。
ここで図2を参照すると、特徴データエンコーダシステム200のブロック図が示される。特徴データエンコーダシステム200は、とりわけ、前処理モジュール202、デュアルエンコーダアテンションU-ネット(DEAU)204、及び後処理モジュール206を含み得る。前処理モジュール202は、1つ以上の入力画像208を受信し、DEA204に渡される又は入力され得る1以上のアテンションプライヤ(例えば、ヘマトキシリンチャネル)を生成し得る。DEAU204は、アテンション機構と共働し得る深層学習アーキテクチャを含み得る。DEAU204を、図3を参照してより詳細に説明する。後処理モジュール206は、DEAU204の出力に基づいて、インスタンスマスクとして特徴予測データ210を出力し得る。
後処理モジュール206は、予測された特徴及び境界確率マップを使用して、特徴予測データ210をさらに改良することができる。DEAU204の生の出力は、特徴予測データI∈RH×W及び境界予測データI∈RH×Wを含み得る。後処理モジュール206は、接触特徴を分離すると同様に、特徴を意味に基づき分類することができる。IとIの閾値は、経験的に決定された閾値から算出することができる。バイナリ境界マップ
Figure 2022061020000002
は、バイナリ特徴マップ
Figure 2022061020000003
から差し引くことができ、その結果、特徴インスタンスマップZとなる。エネルギーランドスケープは、個別に接続された各構成要素の距離マップdの形式で生成される。距離マップは、背景までの各ピクセルの距離であり得る。特徴マーカIは、2ピクセル半径のディスク構造要素によりZをエンコードすることにより、Zから生成され得る。距離マップと分離された特徴マーカは、マーカコントロール付ウォータシェッド技術において使用され、特徴インスタンスのN-アレイマスクを取得する。
図3を参照して、図2に示されたデュアルエンコーダアテンションU-ネット(DEAU)204の例を説明する。DEAU204は、とりわけ、1以上の入力ノード302A-302X(例えば、H&E画像エンコードパス)、1以上のアテンションプライヤ処理ノード304A-304X(例えば、アテンションプライヤエンコードパス)、1以上のアテンションスキップモジュール(ASMs)306A-306X、1以上の出力ノード308A-308X、及び潜在空間310を含み得る。入力ノード302A-302X、アテンションプライヤ処理ノード304A-304X、及び出力ノード308A-308Xの各々は、1以上の畳み込みカーネルが含まれる(例えば、3×3畳み込みカーネル)。入力ノード302A-302Xの各々は、最大プーリング層(例えば、2×2最大プーリング層)により連続的に接続され得る。アテンションプライヤ処理ノード304A-304Xの各々も、最大プーリング層(例えば、2×2最大プーリング層)により連続的に接続され得る。入力ノード302A-302Xと、対応するアテンションプライヤ処理ノード304A-304Xの各々は、スキップ接続により対応するASMs306A-306Xに接続される。ASMs306A-306Xの各々も、スキップ接続により、対応する出力ノード308A-308Xに接続され得る。出力ノード308A-308Xは、アップサンプリング接続(例えば、アップサンプリング係数2)によって、逆の順序で互いに連続的に送り込むことができる。最終出力モードである出力ノード308Aは、例えば細胞核に対応する、特徴及び境界マップを含み得る2チャンネル出力を有し得る。
DEAU204は、U-ネットアーキテクチャ(すなわち、入力ノード302A-302X)及びアテンションエンコードパス(AEP)(すなわち、アテンションプライヤ処理ノード304A-304X)を使用することができ、入力としてアテンションプライヤを取得し、分類ための意味ある特徴を生成することができる。新しいエンコードパスの次元は、U-ネットアーキテクチャと同じでもよい。AEPへの入力は、1以上のアテンションプライヤであり得るが、U-ネットアーキテクチャへの入力は、1以上の入力画像208(図2)であり得る。U-ネットアーキテクチャ及びAEPから得られた特徴マップは、ネットワークの異なる深さにおいて、アテンションスキップモジュール306A-306Xに送られ得る。
1以上の実施形態によれば、医学の分野では、ヘマトキシリンチャネルを1以上のアテンションプライヤとして使用して、核を分類できる。疎非負値行列因数分解(SNMF)を使用して、WSIsで染色されたH&Eの色の正規化ができる。SNMFは、H&E画像を染色カラー行列と光密度に因数分解し、染色分離に使用できる。同じ技術は、H&E染色画像を、別々のHチャネルとEチャネルに分離することに使用できる。
1以上の実施形態によれば、音声データ処理の分野では、音声ファイルは、例えば、1以上の話者からの音声を含み得る。音声は、1以上の話者の中から話者を識別するために、又は、話者が話をしている可能性のある内容を識別するために、1以上のチャネルに分離され得る。
スキップ接続の各空間分解能において、対応するASM306A-306Xは、処理されたアテンション処理マップ
Figure 2022061020000004
と、特徴マップ
Figure 2022061020000005
を、2つの入力として受け取る。これらのベクトルは、カーネルWe1とWe2の1×1畳み込みにより、中間次元Fintに変換される。これに続いて、出力をシグモイド関数σ2に渡す前に、ReLU関数σ1及びカーネル(Wint)を使用した他の1×1畳み込みを介して、要素毎の加算と非線形変換が行われる。これによりアテンション係数α∈[0,1]が生成され得る。出力
Figure 2022061020000006
は、αlとxの要素毎の乗算と、それに続く1×1の畳み込みによって取得できる。各畳み込み演算には、傾きによる誤差逆伝搬中に更新される得るパラメータが関連付けられるため、アテンション機構は、疑似ハードアテンションゲートと呼ばれる場合がある。スキップ接続Iでは、アテンション係数は次の数1で得られる。ここで、b1とb2は、バイアス項である。
Figure 2022061020000007
ここで、図4を参照すると、バイナリファイルの特徴を予測するプログラムによって実行されるステップを示す動作フローチャート400が示される。図4を、図1-3を参照して説明する。前述したように、プログラム116(図1)は、バイナリファイルに存在する特徴及びそれらの境界を迅速かつ効果的に予想することができる。
動作402において、バイナリファイルを受信する。バイナリファイルは、画像、動画、アニメーション、及び音声に対応し得る。例えば、バイナリファイルは、ヘマトキシン及びエオシンにより染色された組織画像に対応し得る。動作中、サーバコンピュータ114(図1)のプログラム116(図1)は、ネットワーク110(図1)を介して、コンピュータ102(図1)から1以上の入力画像208(図2)を受け取ること、又はデータベース112(図1)から入力画像208を取り出すことができる。
動作404において、バイナリファイルの潜在空間に対応する特徴値が算出される。このことは、1以上のアテンションプライヤの決定は、受信された入力バイナリファイルから決定されることを含み得る。1以上の確率マップは、1以上の決定されたアテンションプライヤに基づいて算出できる。インスタンスマスクは、1以上の算出された確率マップから生成され得る。インスタントマスクは、1以上のバイナリファイルに関連付けられた分離された特徴に対応し得る。
例えば、アテンションプライヤは、染色されたスライド画像から抽出されたヘマトキシリンチャネルに対応し得る。アテンションプライヤは、染色されたスライド画像の色を正規化し、色が正規化されたスライド画像を染色カラー行列及び光学密度計数に因数分解し、因数分解された画像をヘマトキシリンチャネル及びエオシンチャネルに分離することにより決定される。確率マップは、処理されたアテンション特徴マップと受信した画像から抽出されたヘマトキシリン及びエオシン特徴マップに対応し得る。確率マップは、処理されたアテンション特徴マップとヘマトキシリン及びエオシン特徴マップを、1以上の第1の畳み込みカーネルを使用して、第1の中間値に変換し、第2の中間値を生成するために、正規化線形ユニットと1以上の第2の畳み込みカーネルを介して、第1の中間値に対して要素毎の加算と非線形変換を実行ことにより、算出される。1以上の係数は、シグモイド関数を使用して第2の中間値から生成することができる。1つ以上の確率マップは、ヘマトキシリン及びエオシン特徴マップと1以上の第3の畳み込みカーネルと、1以上の係数を、要素毎に乗算することを介して、生成することができる。
動作において、前処理モジュール202(図2)は、受信された入力画像208(図2)から、アテンションプライヤを生成することができる。DEAU204(図2)の入力ノード302A-302X(図3)は、入力画像208を受信する。DEAU204のアテンションプライヤ処理ノード304A-304X(図3)は、前処理モジュール202からアテンションプライヤを受信し得る。DEAU204のアテンションスキップモジュール306A-306X(図3)と出力ノード308A-308X(図3)は、特徴マップと境界マップを含む2チャネル出力を生成し得る。後処理モジュール206(図2)は、特徴マップと及び境界マップを、DEAU204から受信する。そして、特徴マップと境界マップに基づき、インスタンスマスクとして使用するために特徴予測データ210(図2)を出力し得る。
動作406では、算出された特徴値に基づいて、新たなバイナリファイルを生成する。新たなバイナリファイルは、入力バイナリフィアルに類似し得る。動作中、プログラム116(図1)は、特徴予測データ210(図2)から新たなファイルを作成し、ファイルをデータベース112(図1)に格納し、又はファイルを、ネットワーク110(図1)を介して、コンピュータ102(図1)に転送してもよい。
図4は、1つの実施形態の例示のみを提供し、異なる実施形態がどのように実行され得るかに関して制限することを意図するものではないと理解される。記載された環境に対して、設計及び実行の要件に基づき、多くの変更が可能である。
図5は、例示的な実施形態である図1に記載されたコンピュータの内部及び外部の構成要素のブロック図である。図5は、単に一実施形態の例示を示すものであり、異なる実施形態が実行され得る環境に関する制限を意図するものではないと、理解されるべきである。記載された環境に対して、設計及び実行の要件に基づき、多くの変更が可能である。
コンピュータ102(図1)とサーバコンピュータ114(図1)は、図4に示す内部構成要素800A、Bと外部構成要素900A、Bの各々のセットを含み得る。内部構成要素800のセットの各々は、1以上のプロセッサ820、1以上のバス826上の1以上のコンピュータ読み取り可能なRAM822と1以上のコンピュータ読み取り可能なROM824、1以上のオペレーティングシステム828、及び1以上のコンピュータ読み取り可能な有形記憶装置830を含む。
プロセッサ820は、ハードウェア、ファームウェア、又はハードウェアとソフトウェアの組み合わせにおいて、実行される。プロセッサ820は、中央処理装置(CPU)、グラフィック処理装置(GPU)、加速処理装置(APU)、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ(DSP)、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、又は他のタイプの処理要素である。いくつかの実施形態において、プロセッサ820は、機能を実行するようにプログラムされた1以上のプロセッサを含む。バス826は、内部構成要素800A、B内で通信を可能とする構成要素を含む。
1以上のオペレーティングシステム828、ソフトウェアプログラム108(図1)、及びサーバコンピュータ114(図1)上のプログラム116(図1)は、1以上のそれぞれのRAM822(典型的にはキャッシュメモリを含む。)を介して、1以上の各プロセッサ820により実行するため、1以上のコンピュータ読み取り可能な有形記憶装置830の各々に格納される。図5に図示された実施形態において、コンピュータ読み取り可能な有形記憶装置830の各々は、内蔵ハードドライブの磁気ディスク記憶装置である。あるいは、コンピュータ読み取り可能な有形記憶装置830の各々は、半導体記憶装置、例えば、ROM824、EPROM、フラッシュメモリ、光ディスク、磁気光学ディスク、ソリッドステートディスク、コンパクトディスク(CD)、デジタル多用途ディスク(DVD)、フロッピーディスク、カートリッジ、磁気テープ、及び/又は、コンピュータプログラム及びデジタル情報を格納できる別のタイプの非一時的なコンピュータ読み取り可能な有形記憶装置である。
内部構成要素800A、Bのセットの各々は、また、CD-ROM、DVD、メモリスティック、磁気テープ、磁気ディスク、光ディスク、又は半導体記憶装置などの1以上の携帯型コンピュータ読み取り可能な有形記憶装置から読み取り及び書き込みをするための、R/Wドライブ又はインターフェイス832を含む。ソフトウェアプログラム108(図1)及びプログラム116(図1)のようなソフトウェアプログラムは、1以上のそれぞれの携帯型コンピュータ読み取り可能な有形記装置936に記憶され、R/Wドライブ又はインターフェイスの各々を介して読み取られ、それぞれの有形記憶装置830にロードさせることができる。
内部構成要素800A、Bのセットの各々は、また、TCP/IPアダプタカード、ワイヤレスWi-Fiインターフェイスカード、3G、4G、5Gワイヤレスインターフェイスカード、又は、他の有線又は無線の通信リンクである、ネットワークアダプタ又はインターフェイスを含む。ソフトウェアプログラム108(図1)とサーバコンピュータ114(図1)上のプログラム116(図1)は、ネットワーク(例えば、インターネット、ローカルエリアネットワーク、又は他の広域ネットワーク)及びそれぞれのネットワークアダプタ又はインターフェイス836を介して外部コンピュータから、コンピュータ102(図1)及びサーバコンピュータ114にダウンロードすることができる。ソフトウェアプログラム108及びサーバコンピュータ114上のプログラム116は、ネットワークアダプタ又はインターフェイス836から、それぞれの有形記憶装置830にロードされる。ネットワークは、銅線、光ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ及び/又はエッジサーバを含み得る。
外部構成要素900A、Bのセットの各々は、コンピュータディスプレイモニタ920、キーボード930、及びコンピュータマウス934を含み得る。外部構成要素900A、Bは、また、タッチスクリーン、仮想キーボート、タッチパッド、ポインティングデバイス、及びその他のヒューマンインターフェイスデバイスを含み得る。内部構成要素800A、Bのセットの各々は、また、コンピュータディスプレイモニタ920、キーボード930、及びコンピュータマウス934にインターフェイスするためのディバイスドライバ840を含む。ディバイスドライバ840、R/Wドライブ又はインターフェイス832、及びネットワークアダプタ又はインターフェイス836は、ハードウェアとソフトウェア(有形記憶装置830及び/又はROM824に格納された)を備える。
本開示は、クラウドコンピューティングに関する詳細な説明を含むが、本明細書に記載された教示の実施は、クラウドコンピューティング環境に限定されないことは前もって理解される。むしろ、いくつかの実施形態は、現在知られている又は後で開発される他のタイプのコンピューティング環境と組み合わせて実行することができる。
クラウドコンピューティングは、サービス提供のモデルであり、構成可能なコンピューティングリソース(例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、及びサービス)の共通プールへの便利なオンデマンドネットワークアクセスを可能にする。コンピューティングリソースは、最小限の管理作業又はサービスのプロバイダとの対話により、迅速に提供されリリースされる。このクラウドモデルは、少なくとも5つの特性、少なくとも3つのサービスモデル、及び少なくとも4つのデプロイメントモデルが含まれ得る。
特性は以下の通りである。
オンデマンドセルフサービス:クラウド消費者は、サービスプロバイダと人間の対話を要求せずに、必要に応じて自動的に、サーバ時間、ネットワークストレージなどのコンピューティング能力を、一方的に提供できる。
広域ネットワークアクセス:能力は、ネットワーク上で利用可能であり、異種のシン又はシッククライアントプラットフォーム(携帯電話、ラップトップ、PDAなど)による使用を促進する標準メカニズムを介してアクセスされる。
リソースプーリング:マルチテナントモデルを使用して、複数の消費者に、需要に応じて動的に割り当てられ再割当される異なる物理的リソースと仮想リソースを提供するため、プロバイダのコンピューティングリソースはプールされる。消費者は、通常、提供されたリソースの正確な場所を制御又は知識を得ることはできないが、より高いレベルの抽象的概念(国、州、データセンタなど)において、場所を指定できる場合があるという点で、場所に依存しない感覚がある。
迅速な柔軟性:迅速にスケールアウトし、迅速にスケールインするようリリースするように、能力は、迅速かつ柔軟に、場合により自動的に、提供される。消費者にとって、提供のため利用可能な能力は、しばしば無制限に見え、いかなるときも、いかなる量も購入することができる。
測定されるサービス:クラウドシステムは、サービスのタイプ(例えば、ストレージ、処理、帯域幅、及びアクティブなユーザアカウント)に適した抽象化したあるレベルにおいて、計測能力を活用することにより、リソースの使用を自動的に制御及び最適化する。リソースの使用は、監視、制御、及び報告され、利用するサービスのプロバイダと消費者の双方に透明性を提供できる。
サービスモデルは、以下の通りである。
サービスとしてのソフトウェア(SaaS):消費者に提供される能力は、クラウドインフラストラクチャで動作しているプロバイダのアプリケーションを使用することである。アプリケーションは、Webブラウザ(例えば、Webベースの電子メールなど)などのシンクライアントインターフェイスを介して、さまざまなクライアントデバイスからアクセスできる。消費者は、限られたユーザ固有のアプリケーション構成設定という可能性のある例外はあるが、ネットワーク、サーバ、オペレーティングシステム、ストレージ、又は個々のアプリケーション能力を含む、基盤となるクラウドインフラストラクチャを管理又は制御しない。
サービスとしてのプラットフォーム(PaaS):消費者に提供される能力は、プロバイダがサポートするプログラミング言語とツールを使用して作成された、消費者の作成または取得したアプリケーションを、クラウドインフラストラクチャに配置することである。消費者は、ネットワーク、サーバ、オペレーティングシステム、ストレージを含む、基盤となるクラウドインフラストラクチャを管理又は制御しない。しかし、配置されたアプリケーションと、場合によってはアプリケーションホスティング環境の構成を制御する。
サービスとしてのインフラストラクチャ(IaaS):消費者に提供される能力は、消費者がオペレーティングシステム及びアプリケーションを含む任意のソフトウェアを配置し動作できる場合に、処理、ストレージ、ネットワーク、及びその他の基本的なコンピューティングリソースを提供することである。消費者は、基盤となるクラウドインフラストラクチャを管理又は制御しないが、オペレーティングシステム、ストレージ、配置されたアプリケーションを制御し、及び可能であれば、選択したネットワーク構成(例えば、ホストファイアウォール)の限定的な制御をする。
デプロイメントモデルは、以下の通りである。
プライベートクラウド:クラウドインフラストラクチャは、組織のためにのみ運用される。クラウドインフラストラクチャは、組織又は第三者により管理され、オンプレミス又はオフプレミスで存在する場合がある。
コミュニティクラウド:クラウドインフラストラクチャは、複数の組織で共有されており、共通の懸念事項(ミッション、セキュリティ要件、ポリシー、及びコンプライアンス考慮など)を有する特定のコミュニティをサポートする。クラウドインフラストラクチャは、組織又は第三者により管理され、オンプレミス又はオフプレミスで存在する場合がある。
パブリッククラウド:クラウドインフラストラクチャは、一般の人々又は大規模な産業団体が利用でき、クラウドサービスを販売する組織により所有されている。
ハイブリットクラウド:クラウドインフラストラクチャは、一意のエンティティで留まるが、標準化させることにより、又はデータ及びアプリケーションを移動可能にする(例えば、クラウド間のロードバランスのためのクラウド破壊)独自技術により、共に結束された2以上のクラウド(プライベート、コミュニティ、又はパブリック)の組み合わせである。
クラウドコンピューティング環境は、ステートレス、低結合度、モジュール性、及び意味相互運用性に焦点を合わせるように指向されたサービスである。クラウドコンピューティングの中心は、相互接続されたノードのネットワークで構成されるインフラストラクチャである。
図6を参照すると、例示的なクラウドコンピューティング環境600が示されている。図示するように、クラウドコンピューティング環境600は、例えば、携帯情報端末(PDA)又は携帯電話54A、デスクトップコンピュータ54B、ラップトップコンピュータ54C、及び/又は、自動車コンピュータシステム54N、などのクラウド消費者により使用されるローカルコンピューティング装置が通信できる、1以上のクラウドコンピューティングノード10により構成される。クラウドコンピューティングノード10は、互いに通信することができる。それらは、上述したプライベート、コミュニティ、パブリック、又はハイブリットクラウド、又はそれらの組み合わせである、1以上のネットワークにおいて、物理的又は仮想的に、グループ化できる(図示せず。)。これにより、クラウドコンピューティング環境600は、クラウド消費者がローカルコンピューティング装置上でリソースを維持する必要がないサービスとして、インフラストラクチャ、プラットフォーム、及び/又はソフトウェアを提供することができる。図6に示すコンピューティング装置54A-Nのタイプは、例示のみを意図しており、クラウドコンピューティングノード10及びクラウドコンピューティング環境600は、任意のタイプのネットワーク及び/又はネットワークアドレス可能接続を介して(例えば、ウェブブラウザを使用して)、任意のタイプのコンピュータ化されたデバイスと通信できると、理解される。
図7を参照すると、クラウドコンピューティング環境600(図6)により提供される機能的抽象化層700のセットが示される。図7に示す構成要素、層、及び機能は、例示のみを目的としており、実施形態はそれに限定されないと、事前に理解されるべきである。記載されるように、以下の層及び対応する機能が提供される。
ハードウェア及びソフトウェア層60は、ハードウェア及びソフトウェア構成要素を含む。ハードウェア構成要素の例として、メインフレーム61、サーバ62に基づくRISC(縮小命令セットコンピュータ)アーキテクチャ、サーバ63、ブレードサーバ64、記憶装置65、及びネットワークとネットワーキング構成要素66を含む。いくつかの実施形態では、ソフトウェア構成要素は、ネットワークアプリケーションサーバソフトウェア67及びデータベースソフトウェア68を含む。
仮想化層70は、以下の例で示す仮想エンティティが提供され得る抽象化層を提供する。例えば、仮想サーバ71、仮想ストレージ72、仮想プライベートネットワークを含む仮想ネットワーク73、仮想アプリケーション及びオペレーティングシステム74、及び、仮想クライアント75である。
一例において、管理層80は、以下に説明する機能を提供できる。リソース提供部81は、クラウドコンピューティング環境内でタスクを実行するために利用されるコンピューティングリソース及び他のリソースの動的な獲得を提供する。計測・値付部82は、リソースがクラウドコンピューティング環境内で利用されるときのコスト追跡、及びこれらのリソース消費に対する請求を提供する。一例では、これらのリソースは、アプリケーションソフトウェアライセンスを含み得る。セキュリティは、データ及びその他のリソースの保護と共に、クラウド消費者とタスクのID検証を提供する。ユーザポータル83は、消費者及びシステム管理者にクラウドコンピューティング環境へのアクセスを提供する。サービス品質管理部84は、要求されるサービスレベルが充足するように、クラウドコンピューティング割当及び管理を提供する。サービス品質保証(SLA)計画及び履行部85は、SLAに従って、将来の要件が予想されるクラウドコンピューティングリソースの事前準備と獲得を提供する。
ワークロード層90は、クラウドコンピューティング環境が利用され得る機能の例を提供する。この層から提供されるワークロード及び機能の例には、マッピング及びナビゲーション91、ソフトウェア開発及びライフサイクル管理92、仮想教室教育の提供93、データ分析処理94、トランザクション処理95、及び特徴予測96が含まれる。特徴予測96は、畳み込みニューラルネットワークを使用して、バイナリファイル(例えば、画像)から、特徴及び対応する境界を予測することができる。
いくつかの実施形態は、任意の可能な技術的詳細統合レベルにおける、システム、方法、及び/又はコンピュータ読み取り可能な媒体に関連し得る。コンピュータ読み取り可能な媒体は、プロセッサに動作を実行させるためのコンピュータ読み取り可能なプログラム命令を有するコンピュータ読み取り可能な非一時的記録媒体(又は複数の媒体)を含み得る。
コンピュータ読み取り可能な記録媒体は、命令実行デバイスによって使用されるための命令を保持及び記憶することができる有形装置であり得る。例えば、コンピュータ読み取り可能な記録媒体は、これらに限定されないが、電子記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置、又はこれらの任意の適切な組み合わせであり得る。コンピュータ読み取り可能な記録媒体のより具体的な非網羅的なリストには、以下が含まれる。携帯コンピュータディスケット、ハードドライブ、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能なプログラム可能な読み取り専用メモリ(EPROM又はフラッシュメモリ)、スタティックランダムアクセスメモリ(SRAM)、携帯コンパクトディスク読み取り専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、機械的エンコードされたデバイス、例えば、パンチカード、又は指示がその中に記録された溝における隆起構造、及びこれらの任意の適切な組み合わせである。本明細書で使用されるコンピュータ読み取り可能な記録媒体は、例えば、電波又は他の自由に伝播する電磁波、導波管又は他の伝送媒体を通って伝播する電磁波(例えば、光ファイバーケーブルを通過する光パルス)、又はワイヤーを介して送信される電気信号、のような一時的な信号自体であると解釈されない。
本明細書に記載のコンピュータ読み取り可能なプログラム命令は、コンピュータ読み取り可能な記録媒体から、それぞれのコンピューティング/処理デバイスに、又はネットワーク、例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、及び/又は、ワイヤレスネットワークを介して、外部コンピュータまたは外部記憶装置に、ダウンロードすることができる。ネットワークは、銅線伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ、及び/又エッジサーバで構成され得る。各コンピューティング/処理デバイス内のネットワークアダプタカード又はネットワークインターフェイスは、ネットワークからコンピュータ読み取り可能な命令を受信し、それぞれのコンピューティング/処理デバイス内のコンピュータ読み取り可能な記録媒体に記憶するために、コンピュータ読み取り可能な命令を転送する。
操作を実行するためのコンピュータ読み取り可能なプログラムコード/命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状況設定データ、集積回路の構成データ、又は、1以上のプログラム言語で記載されたソースコード又はオブジェクトコートの何れかである。プログラム言語は、Smalltalk、C++等のオブジェクト指向プログラム言語と、Cプログラム言語又は同様のプログラム言語である処理プログラム言語を含む。コンピュータ読み取り可能なプログラム命令は、全部がユーザのコンピュータ上で、一部がスタンドアローンのソフトウェアパッケージとしてユーザのコンピュータ上で、一部がユーザのコンピュータ上で一部がリモートコンピュータ上で、又は全てがリモートコンピュータ又はサーバ上で実行され得る。後者のシナリオでは、リモートコンピュータは、ローカルエリアネットワーク(LAN)又はワイドエリアネットワーク(WAN)を含む任意のタイプのネットワークを介して、ユーザのコンピュータに接続、又は外部コンピュータ(例えば、インターネットサービスプロバイダを使用したインターネット経由)と接続できる。いくつかの実施形態では、例えば、プログラマブル論理回路、フィールドプログラマブルケートアレイ(FPGA)、又はプログラマブル論理アレイ(PLA)を含む電子回路は、アスペクト又は操作を実行するために、コンピュータ読み取り可能なプログラム命令の状態情報を利用してパーソナライズすることにより、コンピュータ読み取り可能なプログラム命令を実行することができる。
これらのコンピュータ読み取り可能なプログラム命令は、汎用目的コンピュータ、特殊目的コンピュータ、又は他のプログラム可能なデータ処理装置のプロセッサに提供され、マシーンを形成し、それにより、コンピュータ又は他のプログラマブルデータ処理装置のプロセッサを介して実行される命令は、フローチャート及び/又はブロック図で特定された機能/行為を実行するための手段を作成する。これらのコンピュータ読み取り可能なプログラム命令は、また、コンピュータ、プログラム可能なデータ処理装置、及び/又は特定の方法で機能する他のデバイスで指示できる、コンピュータ読み取り可能な記録媒体に記憶される。それにより、その中に記憶された命令を有するコンピュータ読み取り可能な記録媒体は、フローチャート及び/又はブロック図において特定された機能/行為の態様を実行する命令を含む製品を備える。
コンピュータ読み取り可能なプログラム命令は、また、コンピュータ、他のプログラム可能なデータ処理装置、又は他の装置の上に搭載され、コンピュータ、他のプログラム可能なデータ処理装置、又は他の装置上で一連の操作ステップを実行させて、コンピュータ実行処理を生成し得る。それにより、コンピュータ、他のプログラム可能なデータ処理装置、又は他の装置で実行される命令は、フローチャート、及び/又はブロック図において特定される機能/行為を実施する。
図中のフローチャート及びブロック図は、さまざまな実施形態による、システム、方法、及び、コンピュータ読み取り可能な媒体の実装可能なアーキテクチャ、機能、及び動作を示す。これに関し、フローチャート及びブロック図の各ブロックは、モジュール、分類、又は命令の一部を表すことができ、これは、指定された論理機能を実行するための1つ以上の実行可能命令を含む。方法、コンピュータシステム、及びコンピュータ読み取り可能な媒体は、図に示されているより、追加のブロック、より少ないブロック、異なるブロック、又は異なる配置のブロックを含み得る。いくつかの代替の実装では、ブロックに示された機能は、図示されている順番とは異なる場合がある。例えば、連続して表示される2つのブロックは、実際には、同時に、又は実質的に同時に実行されることがあり、関連する機能に応じて、ブロックが逆の順序で実行される場合もある。ブロック図、及び/又はフローチャート図の各ブロック、及びブロック図及び/又はフローチャート図のブロックの組み合わせは、特定された機能又は動作を実行する特定目的のハードウェアベースのシステムにより、実装され、特定目的のハードウェアとコンピュータ命令の組み合わせを実装することに留意されたい。
本明細書の記載のシステム、及び/又は方法は、異なる形態のハードウェア、ファームウェア、又はハードウェアとソフトウェアの組み合わせにおいて、実装され得ることが明らかである。これらのシステム、及び/又は方法を実装するために使用される実際の特定の制御ハードウェア又はソフトウェアコードは、この実装を制限するものではない。従って、システム、及び/又は方法の操作又は動作は、特定のソフトウェアコードを参照せずに、本明細書において説明される。ソフトウェア及びハードウェアは、本明細書の説明に基づいて、システム及び/又は方法を実装するように設計され得ることが理解される。
本明細書で使用される要素、行為、又は命令は、そのように明示的に記載されていない限り、重要または必須であると解釈されるべきではない。さらに、本明細書で使用される場合、冠詞「a」及び「an」は、1以上の項目を含むことを意図しており、「1つ以上」と交換可能に使用することができる。さらに、本明細書で使用される場合、「セット」という用語は、1以上の項目(例えば、関連する項目、関連しない項目、関連項目と非関連項目の組み合わせなど)を含むことを意図し、「1つ以上」と交換可能に使用され得る。1つのみ項目を意図する場合には、「1」又は類似する言語を使用する。また、本明細書で使用される場合、「has」「have」「having」などの用語は、オープンエンドの用語を意図する。さらに、「基づく」という用語は、特に明記しない限り、「基づく、少なくとも部分的に基づく」を意味することを意図する。
様々な態様及び実施形態の説明は、例示の目的で提示されている。しかし、網羅的であることを意図するものでななく、開示された実施形態に限定されることを意図するものでもない。特徴の組み合わせがクレーム及び/又は明細書に開示されていても、これらの組み合わせは、可能な実施の開示を制限することを意図するものではない。実際、これらの特徴の多くは、特にクレームに記載された及び/又は明細書に開示され方法によらず、組み合わせることができる。以下に列挙した各従属クレームは、1つクレームにのみ直接従属するものであるが、実行可能な開示には、クレームセットにおける全ての他のクレームと組み合わせた各従属クレームを含む。説明された実施形態の範囲から逸脱することなく、多くの修正及び変形が、当業者にとって明らかであろう。本明細書で使用される用語は、実施形態の原理、市場で見られる技術に対する実施の適用又は技術的改善を最もよく説明するよう選択され、又は他の当業者が本明細書に開示される実施形態を理解できるように選択される。

Claims (20)

  1. プロセッサにより実行可能なバイナリファイルの特徴を予測する方法であって、
    バイナリファイルを受信し、
    前記バイナリファイルの潜在空間に対応する特徴値を算出し、
    算出された前記特徴値に基づいて、新たなバイナリファイルを生成する、
    方法。
  2. 前記特徴値は、デュアルエンコーダアテンションベースのU-ネットアーキテクチャによって算出される、
    請求項1に記載の方法。
  3. 前記デュアルエンコーダアテンションベースのU-ネットアーキテクチャは、
    前処理モジュールと、後処理モジュールと、デュアルエンコーダU-ネットを備え、
    前記デュアルエンコーダU-ネットは、
    1以上の入力ノードと、1以上のアテンションプライヤ処理ノードと、1以上のアテンションスキップノードと、1以上の出力ノードと、を備える、
    請求項2に記載の方法。
  4. 受信された前記バイナリファイルは、画像、アニメーション、動画、及び音声のうち少なくとも1つを含む、
    請求項1に記載の方法。
  5. 前記特徴値の算出は、
    受信した前記バイナリファイルから1以上のアテンションプライヤを決定し、
    1以上の決定された前記アテンションプライヤに基づいて、1以上の確率マップを算出し、
    算出された前記1以上の確率マップからインスタンスマスクを生成し、前記インスタンスマスクは、前記バイナリファイルに関連付けられた予測された特徴に対応する、
    請求項1に記載の方法。
  6. 前記バイナリファイルは、ヘマトキシリン色素及びエオシン色素で染色された1以上の細胞のスライド画像に対応する、
    請求項5に記載の方法。
  7. 前記1以上のアテンションプライヤは、前記スライド画像から抽出されたヘマトキシリンチャネルに対応する、
    請求項6に記載の方法。
  8. 前記アテンションプライヤの決定は、
    前記スライド画像の色を正規化し、
    色が正規化された前記スライド画像を染色カラー行列と光学濃度係数に因数分解し、
    因数分解された画像を前記ヘマトキシリンチャネルとエオシンチャネルに分離する、
    請求項7に記載の方法。
  9. 前記確率マップは、処理されたアテンション特徴マップとヘマトキシリン及びエオシン特徴マップに対応する、
    請求項5に記載の方法。
  10. 前記確率マップの算出は、
    前記処理されたアテンション特徴マップと前記ヘマトキシリン及びエオシン特徴マップを、1以上の第1の畳み込みカーネルを使用して、第1の中間値に変換し、
    正規化線形ユニット及び1以上の第2の畳み込みカーネルを介して、前記第1の中間値に対して、要素ごとの加算及び非線形変換を実行し、第2の中間値を生成し、
    シグモイド関数を使用して、前記第2の中間値から1以上の係数を生成し、
    前記1以上の係数を、前記ヘマトキシリン及びエオシン特徴マップ及び1以上の第3の畳み込みカーネルと、要素毎に乗算することにより、1以上の確率マップ値を生成する、
    請求項9に記載の方法。
  11. 前記1以上の係数と前記1以上の確率マップ値を、1以上の第1、第2、及び第3の畳み込みカーネルに誤差逆伝搬することをさらに含む、
    請求項10に記載の方法。
  12. バイナリファイルの特徴を予測するコンピュータシステムであって、
    コンピュータプログラムコードを格納するように構成された1以上のコンピュータ読み取り可能な非一時的記録媒体と、
    前記コンピュータプログラムコードにアクセスし、前記コンピュータプログラムコードによって指示された動作をするように構成された1以上のコンピュータプロセッサと、を備え、
    前記コンピュータプログラムコードは、
    1以上のコンピュータプロセッサがバイナリファイルを受信するように構成された受信コードと、
    前記1以上のコンピュータプロセッサが前記バイナリファイルの潜在空間に対応する特徴値を算出させるように構成された算出コードと、
    前記1以上のコンピュータプロセッサが算出された前記特徴値に基づき新たなバイナリファイルを生成するように構成された生成コードと、を含む、
    コンピュータシステム。
  13. 前記特徴値は、デュアルエンコーダアテンションベースのU-ネットアーキテクチャにより算出される、
    請求項12に記載のコンピュータシステム。
  14. 受信された前記バイナリファイルは、画像、アニメーション、動画、及び音声のうち少なくとも1つを含む、
    請求項12に記載のコンピュータシステム。
  15. 前記特徴値の算出は、
    受信した前記バイナリファイルから1以上のアテンションプライヤを決定し、
    1以上の決定された前記アテンションプライヤに基づいて、1以上の確率マップを算出し、
    1以上の算出された前記確率マップからインスタンスマスクを生成し、
    前記インスタンスマスクは、前記バイナリファイルに関連付けられた予測された特徴に対応する、
    請求項12に記載のコンピュータシステム。
  16. 前記バイナリファイルは、ヘマトキシリン色素及びエオシン色素で染色された1以上の細胞のスライド画像に対応する、
    請求項15に記載のコンピュータシステム。
  17. 前記1以上のアテンションプライヤは、前記スライド画像から抽出されたヘマトキシリンチャネルに対応する、
    請求項16に記載のコンピュータシステム。
  18. 前記アテンションプライヤの決定は、
    前記スライド画像の色を正規化し、
    色を正規化した前記スライド画像を染色カラー行列と光学濃度係数に因数分解し、
    因数分解された画像を前記ヘマトキシリンチャネルとエオシンチャネルに分離する、
    請求項17に記載のコンピュータシステム。
  19. 前記確率マップは、処理されたアテンション特徴マップとヘマトキシリン及びエオシン特徴マップに対応し、
    前記確率マップの算出は、
    前記処理されたアテンション特徴マップと前記ヘマトキシリン及びエオシン特徴マップを、1以上の第1の畳み込みカーネルを使用して第1の中間値に変換し、
    正規化線形ユニット及び1以上の第2の畳み込みカーネルを介して、前記第1の中間値に対して要素ごとの加算及び非線形変換を実行し、第2の中間値を生成し、
    シグモイド関数を使用して、前記第2の中間値から1以上の係数を生成し、
    前記1以上の係数を、前記ヘマトキシリン及びエオシン特徴マップ及び1以上の第3の畳み込みカーネルと、要素毎に乗算することにより、1以上の確率マップ値を生成する、
    請求項15に記載のコンピュータシステム。
  20. バイナリファイルの特徴を予測するコンピュータプログラムを格納した非一時的なコンピュータ読み取り可能な記録媒体であって、前記コンピュータプログラムは、1以上のコンピュータプロセッサに、
    バイナリファイルを受信させ、
    前記バイナリファイルの潜在空間に対応する特徴値を算出させ、
    算出された前記特徴値に基づいて、新たなバイナリファイルを生成させる、
    非一時的なコンピュータ読み取り可能な記録媒体。
JP2021162638A 2020-10-05 2021-10-01 デュアルエンコーダアテンションu-ネット Active JP7288488B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/063,668 2020-10-05
US17/063,668 US20220108097A1 (en) 2020-10-05 2020-10-05 Dual encoder attention u-net

Publications (2)

Publication Number Publication Date
JP2022061020A true JP2022061020A (ja) 2022-04-15
JP7288488B2 JP7288488B2 (ja) 2023-06-07

Family

ID=76829307

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021162638A Active JP7288488B2 (ja) 2020-10-05 2021-10-01 デュアルエンコーダアテンションu-ネット

Country Status (3)

Country Link
US (1) US20220108097A1 (ja)
EP (1) EP3979132A1 (ja)
JP (1) JP7288488B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115272196B (zh) * 2022-07-11 2024-01-09 东北林业大学 组织病理图像中病灶区域预测方法
CN115471734B (zh) * 2022-09-23 2023-04-25 中国农业大学 木质包装ippc标识的辩伪方法、装置及服务器
CN115648215B (zh) * 2022-11-04 2024-01-26 北京能创科技有限公司 基于注意力机制和孪生反卷积的服务机器人抓取检测方法
CN116797614B (zh) * 2023-03-23 2024-02-06 天津大学 基于CBAUnet的双注意力快速舌轮廓提取方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020081343A1 (en) * 2018-10-15 2020-04-23 Ventana Medical Systems, Inc. Systems and methods for cell classification
US20200286247A1 (en) * 2019-03-06 2020-09-10 Qualcomm Incorporated Radar-aided single image three-dimensional depth reconstruction
JP2020197797A (ja) * 2019-05-31 2020-12-10 株式会社東芝 画像処理装置及び画像処理方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3620983B1 (en) * 2018-09-05 2023-10-25 Sartorius Stedim Data Analytics AB Computer-implemented method, computer program product and system for data analysis
WO2020182710A1 (en) * 2019-03-12 2020-09-17 F. Hoffmann-La Roche Ag Multiple instance learner for prognostic tissue pattern identification
KR20210145778A (ko) * 2019-03-26 2021-12-02 템퍼스 랩스, 인크. 조직병리학 슬라이드 이미지로부터 바이오마커를 결정하는 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020081343A1 (en) * 2018-10-15 2020-04-23 Ventana Medical Systems, Inc. Systems and methods for cell classification
US20200286247A1 (en) * 2019-03-06 2020-09-10 Qualcomm Incorporated Radar-aided single image three-dimensional depth reconstruction
JP2020197797A (ja) * 2019-05-31 2020-12-10 株式会社東芝 画像処理装置及び画像処理方法

Also Published As

Publication number Publication date
US20220108097A1 (en) 2022-04-07
EP3979132A1 (en) 2022-04-06
JP7288488B2 (ja) 2023-06-07

Similar Documents

Publication Publication Date Title
JP2022061020A (ja) デュアルエンコーダアテンションu-ネット
US10541822B2 (en) Expected group chat segment duration
US20210117732A1 (en) Image Object Recognition Through Multimodal Conversation Templates
JP7276974B2 (ja) 点群コーディングのための方法、装置およびコンピュータプログラム
US20200409451A1 (en) Personalized content for augemented reality based on past user experience
US20210271978A1 (en) Sim-to-real learning of 2d multiple sound source localization
US10671891B2 (en) Reducing computational costs of deep reinforcement learning by gated convolutional neural network
US20210157768A1 (en) Modify Content Management Rules Based on Sentiment
US11164078B2 (en) Model matching and learning rate selection for fine tuning
US9916280B2 (en) Virtualizing TCP/IP services with shared memory transport
US20230177355A1 (en) Automated fairness-driven graph node label classification
US20230177385A1 (en) Federated machine learning based on partially secured spatio-temporal data
US11445198B2 (en) Multi-quality video super resolution with micro-structured masks
US11615554B2 (en) Object oriented image normalization
JP2019512768A (ja) 不確実性を含むユーザ・モバイル・データに基づく位置コンテキスト推定のための方法、非一時的製品、およびシステム
US20230169661A1 (en) System and method for instance segmentation in pathological images using object-guided framework
EP3931749B1 (en) 3d hand pose estimation based on depth-image guided adversarial network
US11222200B2 (en) Video-based 3D hand pose and mesh estimation based on temporal-aware self-supervised learning
US20220014795A1 (en) Extended maximum coding unit size
US20230410387A1 (en) Color replacement for the colorblind using an automatic image colorization artificial intelligence model
US20220189057A1 (en) Difference-guided video analysis
WO2022186875A1 (en) Robust dialogue utterance rewriting as sequence tagging
KR20210144901A (ko) 영형 대명사 복원 및 해소
JP2024505334A (ja) マルチパーティ対話における談話解析のための構造自己認識モデル
KR20210125087A (ko) 출력 서브픽처 계층 세트를 시그널링하기 위한 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211013

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220817

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220823

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221020

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230414

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230509

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230526

R150 Certificate of patent or registration of utility model

Ref document number: 7288488

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150