JP7148794B2 - 学習データ生成プログラム、学習データ生成装置及び学習データ生成方法 - Google Patents

学習データ生成プログラム、学習データ生成装置及び学習データ生成方法 Download PDF

Info

Publication number
JP7148794B2
JP7148794B2 JP2018212093A JP2018212093A JP7148794B2 JP 7148794 B2 JP7148794 B2 JP 7148794B2 JP 2018212093 A JP2018212093 A JP 2018212093A JP 2018212093 A JP2018212093 A JP 2018212093A JP 7148794 B2 JP7148794 B2 JP 7148794B2
Authority
JP
Japan
Prior art keywords
images
learning data
data generation
image
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018212093A
Other languages
English (en)
Other versions
JP2020079984A (ja
Inventor
正樹 石原
明燮 鄭
信浩 宮▲崎▼
康貴 森脇
昌彦 杉村
浩明 武部
孝之 馬場
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2018212093A priority Critical patent/JP7148794B2/ja
Publication of JP2020079984A publication Critical patent/JP2020079984A/ja
Application granted granted Critical
Publication of JP7148794B2 publication Critical patent/JP7148794B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、学習データ生成プログラム、学習データ生成装置及び学習データ生成方法に関する。
近年、CT(Computed Tomography)画像やMRI(Magnetic Resonance Imaging)画像等の時系列画像を用いた病名認識をサポートする情報処理システムの構築が求められている。時系列画像は、例えば、体内における所定の部位を連続して撮影した複数の画像である。
具体的に、上記のような情報処理システムを実現する場合、例えば、大量の学習データ(時系列画像を含む学習データ)を学習することにより、必要な学習モデルの獲得を行う機械学習方式の採用が考えられる。しかしながら、この場合、病名認識を行う体内の位置等によっては、必要な性能を有する学習モデルを獲得するために必要な量の学習データを用意することができない場合がある。
そこで、例えば、一般問題に関する学習データであって大量のサンプルを用意可能な学習データ(以下、ソースデータとも呼ぶ)を用いて学習を行った後、特化問題に関する学習データであって少量のサンプルのみを用意可能な学習データ(以下、ターゲットデータとも呼ぶ)を用いて再度学習を行うことにより、学習モデルを獲得する転移学習方式の採用が考えられる。
しかしながら、ソースデータが文字であってターゲットデータが画像である場合のように、ソースデータとターゲットデータとが異種データである場合、異種データ間における転移学習方式(以下、クロスモーダル転移学習方式とも呼ぶ)を採用した場合であっても、必要な性能を有する学習モデルの獲得が困難である場合がある。
そこで、例えば、ソースデータ及びターゲットデータだけでなく、ソースデータとターゲットデータとの橋渡し役になる学習データ(以下、中間データとも呼ぶ)についても学習を行うクロスモーダル転移学習方式の採用が考えられる。中間データは、ソースデータと同種のデータ(例えば、文字)と、ターゲットデータと同種のデータ(例えば、画像)とをペアにしたデータセットからなる学習データである。
この場合、例えば、文字と通常の画像とを含む中間データを文字と時系列画像とを含む中間データに変換することにより、クロスモーダル転移学習に必要な中間データの生成が行われる。具体的に、例えば、文献に含まれる図の中から、複数の画像をレイアウトした図(以下、複合図とも呼ぶ)を抽出し、抽出した複合図に含まれる画像を時系列画像として用いることによって、中間データの生成を行う。これにより、情報処理システムを構築する事業者は、時系列画像を用いた病名認識を行う際に用いられる学習モデルを獲得することが可能になる(例えば、特許文献1乃至4参照)。
国際公開第2017/109854号 特開2011-239843号公報 特表2011-524037号公報 特開2006-014928号公報
しかしながら、上記のような複合図に含まれる画像には、例えば、位置やアングルの違いを表す3次元画像等、時系列画像以外の画像が含まれる場合がある。そのため、事業者は、複合図から抽出した画像を時系列画像として用いる中間データの学習を行う場合、必要な性能を実現可能な学習モデルを獲得することができない可能性がある。
したがって、事業者は、必要な性能を実現可能な学習モデルを獲得するために、例えば、複合図に含まれる画像から時系列画像を精度良く抽出し、抽出した時系列画像が用いられた中間データの学習を行う必要がある。
そこで、一つの側面では、本発明は、時系列画像を精度良く抽出することを可能とする学習データ生成プログラム、学習データ生成装置及び学習データ生成方法を提供することを目的とする。
実施の形態の一態様では、機械学習に用いる学習データを生成する学習データ生成プログラムであって、所定の対応関係を有する複数の画像を文献から取得し、取得した前記複数の画像における特徴量の一致度合が所定の条件を満たすか否かを判定し、前記所定の条件を満たすと判定した場合、取得した前記複数の画像が時系列画像であると特定し、特定した前記複数の画像を含む学習データを生成する、処理をコンピュータに実行させる。
一つの側面によれば、時系列画像を精度良く抽出することを可能とする。
図1は、情報処理システム10の構成について説明する図である。 図2は、学習データ131の具体例を説明する図である。 図3は、学習データ131の具体例を説明する図である。 図4は、学習データ131の具体例を説明する図である。 図5は、文献に含まれる図から時系列画像を抽出する場合を説明する図である。 図6は、情報処理装置1のハードウエア構成を説明する図である。 図7は、情報処理装置1の機能のブロック図である。 図8は、第1の実施の形態における学習データ生成処理の概略を説明するフローチャート図である。 図9は、第1の実施の形態における学習データ生成処理の概略を説明する図である。 図10は、第1の実施の形態における学習データ生成処理の概略を説明する図である。 図11は、第1の実施の形態における学習データ生成処理の詳細を説明するフローチャート図である。 図12は、第1の実施の形態における学習データ生成処理の詳細を説明するフローチャート図である。 図13は、第1の実施の形態における学習データ生成処理の詳細を説明するフローチャート図である。 図14は、第1の実施の形態における学習データ生成処理の詳細を説明するフローチャート図である。 図15は、学習データ生成処理の具体例を説明する図である。 図16は、学習データ生成処理の具体例を説明する図である。 図17は、学習データ生成処理の具体例を説明する図である。 図18は、学習データ生成処理の具体例を説明する図である。 図19は、第2の実施の形態における学習データ生成処理を説明するフローチャート図である。 図20は、第2の実施の形態における学習データ生成処理を説明するフローチャート図である。 図21は、第2の実施の形態における学習データ生成処理を説明するフローチャート図である。 図22は、第3の実施の形態における学習データ生成処理を説明するフローチャート図である。 図23は、第3の実施の形態における学習データ生成処理を説明するフローチャート図である。 図24は、第3の実施の形態における学習データ生成処理を説明するフローチャート図である。 図25は、第3の実施の形態における学習データ生成処理を説明する図である。 図26は、第4の実施の形態における学習データ生成処理を説明するフローチャート図である。 図27は、第4の実施の形態における学習データ生成処理を説明するフローチャート図である。 図28は、第4の実施の形態における学習データ生成処理を説明するフローチャート図である。 図29は、第4の実施の形態における学習データ生成処理を説明する図である。
[情報処理システムの構成]
初めに、情報処理システム10の構成について説明を行う。図1は、情報処理システム10の構成について説明する図である。
具体的に、情報処理システム10は、図1に示すように、情報処理装置1と、事業者が情報の入力等を行う事業者端末2と、学習データ131を記憶する記憶部130(以下、情報格納領域130とも呼ぶ)とを有する。なお、記憶部130は、情報処理装置1の内部に設けられているものであってもよい。
事業者端末2は、例えば、目的に応じた学習モデル(図示しない)を獲得するために用いられる学習データ131の入力を受け付ける。ここでの学習モデルは、例えば、時系列画像を用いた病名認識を行う際に用いられる学習モデルである。そして、事業者端末2は、学習データ131の入力を受け付けた場合、その学習データ131を情報処理装置1に送信する。
情報処理装置1は、事業者端末2から送信された学習データ131を受け付けた場合、例えば、受け付けた学習データ131を情報格納領域130に記憶する。その後、情報処理装置1は、情報格納領域130に記憶した学習データ131の学習を行うことにより、例えば、時系列画像を用いた病名認識を行う際に用いられる学習モデルの獲得を行う。
ここで、上記のような学習モデルの獲得を行う場合、例えば、大量の学習データ131(時系列画像を含む学習データ131)を学習することにより、学習モデルの獲得を行う機械学習方式の採用が考えられる。しかしながら、病名認識を行う体内の位置等によっては、必要な性能を有する学習モデルを獲得するために必要な量の学習データ131を用意することができない場合がある。
そこで、例えば、一般問題に関する学習データ131であって大量のサンプルを用意可能な学習データ131であるソースデータ131aを用いて学習を行った後、特化問題に関する学習データ131であって少量のサンプルのみを用意可能な学習データ131であるターゲットデータ131bを用いて再度学習を行うことにより、学習モデルを獲得する転移学習方式の採用が考えられる。
具体的に、事業者は、この場合、例えば、図2に示すように、一般問題(例えば、一般的ながん)に関する画像IM1、画像IM2、画像IM3及び画像IM4を含むソースデータ131aを用いた学習を行った後、特化問題(例えば、肝がん)に関する画像IM4及び画像IM5を含むターゲットデータ131bを用いた学習を行う。
しかしながら、例えば、図3に示すように、ソースデータ131aが文字からなるデータであるのに対し、ターゲットデータ131bが画像IM6からなるデータである場合、すなわち、ソースデータ131aとターゲットデータ131bとが異種データである場合、異種データ間における転移学習方式(クロスモーダル転移学習方式)を採用した場合であっても、必要な性能を有する学習モデルの獲得が困難である場合がある。
そこで、例えば、図4に示すように、ソースデータ131a及びターゲットデータ131bだけでなく、文字からなるデータと画像IM7とを含む中間データ131c(ソースデータ131aとターゲットデータ131bとの橋渡し役になる中間データ131c)についても学習を行うクロスモーダル転移学習方式の採用が考えられる。
この場合、例えば、文字と通常の画像とを含む中間データ131cを文字と時系列画像とを含む中間データ131cに変換することにより、クロスモーダル転移学習に必要な中間データ131cの生成が行われる。具体的に、例えば、図5に示すように、文献に含まれる図の中から、複数の画像をレイアウトした図である複合図(図5の左側の図)を抽出し、抽出した複合図に対して二値化処理、矩形抽出処理及びラベリング処理等を行うことにより、画像IM01、画像IM02、画像IM03及び画像IM04を含む複数の画像(図5の真中の図)を抽出し、さらに、抽出した複数の画像に対応付けられたラベルをOCR処理等によって読み取って順序付けを行うことにより、文献に含まれる図から時系列画像(図5の右側の図)への変換を行う。
これにより、事業者は、時系列画像を用いた病名認識を行う際に用いられる学習モデルを獲得することが可能になる。
しかしながら、上記のような複合図に含まれる画像には、例えば、位置やアングルの違いを表す3次元画像等、時系列画像以外の画像が含まれる場合がある。そのため、事業者は、複合図から抽出した画像を時系列画像として用いた中間データ131cの学習を行う場合、必要な性能を実現可能な学習モデルを獲得することができない可能性がある。
したがって、事業者は、必要な性能を実現可能な学習モデルを獲得するために、例えば、複合図に含まれる画像から時系列画像を精度良く抽出し、抽出した時系列画像を用いた中間データ131cについての学習を行う必要がある。
そこで、本実施の形態における情報処理装置1は、所定の対応関係を有する複数の画像を文献(以下、文献データとも呼ぶ)から取得する。そして、情報処理装置1は、取得した複数の画像における特徴量の一致度合が所定の条件を満たすか否かを判定する。
その結果、所定の条件を満たすと判定した場合、情報処理装置1は、取得した複数の画像が時系列画像であると特定する。そして、情報処理装置1は、特定した時系列画像を含む学習データ131(中間データ131c)を生成する。
すなわち、本実施の形態における情報処理装置1は、文献に含まれる複数の画像のうち、所定の対応関係を有する複数の画像を時系列画像として特定し、所定の対応関係を有しない複数の画像を時系列画像以外の画像(例えば、3次元画像)として特定する。そして、情報処理装置1は、時系列画像として特定した画像を含むように中間データ131cの生成を行う。
これにより、情報処理装置1は、文献に含まれる複数の画像から、時系列画像を精度良く抽出することが可能になる。そのため、情報処理装置1は、時系列画像が高い確率で含まれる中間データ131cを生成することが可能になり、必要な性能を実現可能な学習モデルを獲得することが可能になる。
[情報処理システムのハードウエア構成]
次に、情報処理システム10のハードウエア構成について説明する。図6は、情報処理装置1のハードウエア構成を説明する図である。
情報処理装置1は、図6に示すように、プロセッサであるCPU101と、メモリ102と、外部インターフェース(I/Oユニット)103と、記憶媒体104とを有する。各部は、バス105を介して互いに接続される。
記憶媒体104は、例えば、学習データ131(中間データ131c)を生成する処理(以下、学習データ生成処理とも呼ぶ)を行うためのプログラム110を記憶するプログラム格納領域(図示しない)を有する。また、記憶媒体104は、例えば、学習データ生成処理を行う際に用いられる情報を記憶する情報格納領域130を有する。なお、記憶媒体104は、例えば、HDD(Hard Disk Drive)やSSD(Sokid State Drive)であってよい。
CPU101は、記憶媒体104からメモリ102にロードされたプログラム110を実行して学習データ生成処理を行う。
また、外部インターフェース103は、例えば、ネットワークNWを介することによって事業者端末2と通信を行う。
[情報処理システムの機能]
次に、情報処理システム10の機能について説明を行う。図7は、情報処理装置1の機能のブロック図である。
情報処理装置1は、図7に示すように、情報処理装置1のCPU101やメモリ102等のハードウエアとプログラム110とが有機的に協働することにより、データ受付部111と、文献受付部112と、情報管理部113と、画像取得部114と、条件判定部115と、基準値特定部116と、画像特定部117と、データ生成部118とを含む各種機能を実現する。
また、情報処理装置1は、図7に示すように、学習データ131と、文献データ132とを情報格納領域130に記憶する。
データ受付部111は、例えば、事業者端末2から送信された学習データ131を受け付ける。具体的に、データ受付部111は、例えば、事業者が事業者端末2を介して送信したソースデータ131a及びターゲットデータ131bを受け付ける。
文献受付部112は、例えば、事業者端末2から送信された文献データ132を受け付ける。文献データ132は、例えば、論文や教科書等であってよい。
情報管理部113は、データ受付部111が受け付けた学習データ131を情報格納領域130に記憶する。また、情報管理部113は、文献受付部112が受け付けた文献データ132を情報格納領域130に記憶する。
画像取得部114は、所定の対応関係を有する複数の画像を、情報格納領域130に記憶された文献データ132から取得する。具体的に、所定の対応関係を有する複数の画像は、例えば、文献データ132に含まれる複数の画像のうち、文献データ132に含まれる所定の範囲内において1以上の列を形成した状態で掲載されている複数の画像であってよい。また、所定の対応関係を有する複数の画像は、例えば、文献データ132に含まれる複数の画像のうち、文献データ132において同一の説明文に対応付けられている複数の画像であってよい。
条件判定部115は、画像取得部114が取得した複数の画像における特徴量の一致度合が所定の条件を満たすか否かを判定する。
具体的に、条件判定部115は、例えば、画像取得部114が取得した複数の画像から基準画像(以下、第1基準画像とも呼ぶ)を特定し、画像取得部114が取得した複数の画像のうちの第1基準画像以外の画像毎に、特定した第1基準画像と一致しない領域の第1割合を特定する。そして、条件判定部115は、例えば、特定した第1割合の大きさのそれぞれを特徴量として特定する。その後、条件判定部115は、例えば、特定した特徴量のうちの最大値が第1閾値を下回るか否かを判定する。第1閾値は、例えば、事業者によって予め定められた閾値であってよい。
基準値特定部116は、例えば、所定の時系列画像から基準画像(以下、第2基準画像とも呼ぶ)を特定し、所定の時系列画像のうちの第2基準画像以外の画像毎に、特定した第2基準画像と一致しない領域の第2割合を特定する。そして、基準値特定部116は、例えば、特定した第2割合の大きさのうちの最大値を基準値として特定する。基準値を用いた処理についての説明については後述する。
画像特定部117は、条件判定部115が所定の条件を満たすと判定した場合、画像取得部114が取得した複数の画像が時系列画像であると特定する。具体的に、画像特定部117は、例えば、条件判定部115が特定した特徴量のうちの最大値が第1閾値を下回ると判定した場合、画像取得部114が取得した複数の画像が時系列画像であると特定する。
データ生成部118は、画像特定部117が特定した時系列画像を含む学習データ131(中間データ131c)を生成する。
[第1の実施の形態の概略]
次に、第1の実施の形態の概略について説明する。図8は、第1の実施の形態における学習データ生成処理の概略を説明するフローチャート図である。また、図9及び図10は、第1の実施の形態における学習データ生成処理の概略を説明する図である。
情報処理装置1は、図8に示すように、例えば、データ生成タイミングになるまで待機する(S1のNO)。データ生成タイミングは、例えば、事業者が事業者端末2に対して中間データ131cの生成を開始する旨の入力を行ったタイミングであってよい。
そして、データ生成タイミングになった場合(S1のYES)、情報処理装置1は、図9に示すように、所定の対応関係を有する複数の画像を文献データ132から取得する(S2)。
続いて、情報処理装置1は、S2の処理で取得した複数の画像における特徴量の一致度合が所定の条件を満たすか否かを判定する(S3)。
その結果、所定の条件を満たすと判定した場合(S4のYES)、情報処理装置1は、図10に示すように、S2の処理で取得した複数の画像が時系列画像であると特定する(S5)。
その後、情報処理装置1は、図10に示すように、S5の処理で特定した時系列画像を含む学習データ131(中間データ131c)を生成する(S6)。そして、情報処理装置1は、例えば、生成した学習データ131を情報格納領域130に記憶する。
一方、所定の条件を満たさないと判定した場合(S4のNO)、情報処理装置1は、S5及びS6の処理を行わない。
これにより、情報処理装置1は、文献データ132に含まれる複数の画像から、時系列画像を精度良く抽出することが可能になる。そのため、情報処理装置1は、時系列画像が高い確率で含まれる中間データ131cを生成することが可能になり、必要な性能を実現可能な学習モデルを獲得することが可能になる。
したがって、情報処理装置1は、例えば、必要な量の学習データ131を用意することができない場合であっても、必要な性能を実現可能な学習モデルを獲得することが可能になる。
[第1の実施の形態の詳細]
次に、第1の実施の形態の詳細について説明する。図11から図14は、第1の実施の形態における学習データ生成処理の詳細を説明するフローチャート図である。また、図15から図18は、第1の実施の形態における学習データ生成処理の詳細を説明する図である。
[学習データ受付処理]
初めに、第1の実施の形態における学習データ生成処理のうち、事業者が入力した学習データ131(ソースデータ131a及びターゲットデータ131b)を受け付ける処理(以下、学習データ受付処理とも呼ぶ)について説明を行う。図11は、第1の実施の形態における学習データ受付処理について説明するフローチャート図である。
情報処理装置1のデータ受付部111は、図11に示すように、例えば、事業者が事業者端末2を介して行った学習データ131を受け付けるまで待機する(S11のNO)。
そして、学習データ131を受け付けた場合(S11のYES)、情報処理装置1の情報管理部113は、S11の処理で受け付けた学習データ131を情報格納領域130に記憶する(S12)。
[文献データ受付処理]
次に、第1の実施の形態における学習データ生成処理のうち、事業者が入力した文献データ132を受け付ける処理(以下、文献データ受付処理とも呼ぶ)について説明を行う。図12は、第1の実施の形態における文献データ受付処理について説明するフローチャート図である。
情報処理装置1の文献受付部112は、図12に示すように、例えば、事業者が事業者端末2を介して行った文献データ132を受け付けるまで待機する(S21のNO)。
そして、文献データ132を受け付けた場合(S21のYES)、情報管理部113は、S21の処理で受け付けた文献データ132を情報格納領域130に記憶する(S22)。
[学習データ生成処理の詳細]
次に、第1の実施の形態における学習データ生成処理の詳細について説明を行う。図13及び図14は、第1の実施の形態における学習データ生成処理の詳細について説明するフローチャート図である。
情報処理装置の画像取得部114は、図13に示すように、例えば、データ生成タイミングになるまで待機する(S31のNO)。
そして、データ生成タイミングになった場合(S31のYES)、画像取得部114は、所定の対応関係を有する複数の画像を、情報格納領域130に記憶された文献データ132から取得する(S32)。
具体的に、画像取得部114は、この場合、例えば、文献データ132において所定の配置関係に従って掲載されている複数の画像を取得する。所定の対応関係を有する複数の画像は、例えば、文献データ132に含まれる複数の画像のうち、文献データ132に含まれる所定の範囲内において1以上の列を形成した状態で掲載されている複数の画像である。
また、所定の対応関係を有する複数の画像は、この場合、例えば、文献データ132に含まれる複数の画像のうち、文献データ132において同一の説明文に対応付けられている複数の画像である。
その後、情報処理装置1の条件判定部115は、S32の処理で取得した複数の画像から第1基準画像を特定する(S33)。具体的に、条件判定部115は、例えば、S32の処理で取得した複数の画像からランダムに取得した画像を第1基準画像として特定する。
続いて、条件判定部115は、S32の処理で取得した複数の画像のうち、S33の処理で特定した第1基準画像以外の画像毎に、S33の処理で特定した第1基準画像と一致しない領域の第1割合を特定する(S34)。
そして、条件判定部115は、S34の処理で特定した第1割合のそれぞれを特徴量として特定する(S35)。
さらに、条件判定部115は、図14に示すように、S35の処理で特定した特徴量のうちの最大値が第1閾値を下回るか否かを判定する(S41)。
その結果、S35の処理で特定した特徴量のうちの最大値が第1閾値を下回ると判定した場合(S42のYES)、情報処理装置1の画像特定部117は、S32の処理で取得した複数の画像が時系列画像であると特定する(S43)。
続いて、情報処理装置1のデータ生成部118は、S43の処理で特定した時系列画像を含む学習データ131(中間データ131c)を生成する(S44)。
そして、情報管理部113は、例えば、S44の処理で生成した学習データ131を情報格納領域130に記憶する(S45)。
その後、情報処理装置1は、情報格納領域130に記憶された学習データ131(ソースデータ131a、ターゲットデータ131b及び中間データ131c)を学習することにより、例えば、医師による病名認識をサポートするための学習モデルを獲得する。
一方、S35の処理で特定した特徴量のうちの最大値が第1閾値を下回らないと判定した場合(S42のNO)、画像特定部117は、S43以降の処理を行わない。
これにより、情報処理装置1は、文献データ132に含まれる複数の画像から、時系列画像を精度良く抽出することが可能になる。そのため、情報処理装置1は、時系列画像が高い確率で含まれる中間データ131cを生成することが可能になり、必要な性能を実現可能な学習モデルを獲得することが可能になる。以下、学習データ生成処理の具体例について説明を行う。以下、学習データ生成処理の具体例について説明を行う。
[学習データ生成処理の具体例(1)]
図15及び図16は、学習データ生成処理の具体例を説明する図である。
図15に示す例は、S32の処理で取得した複数の画像の具体例であり、画像IM10、画像IM11、画像IM12及び画像IM13が含まれている。また、図15に示す例において、対応点POは、各画像が変化しているか否かを判定する際の基準となる対応点である。さらに、図16に示すグラフにおいて、横軸は、時系列画像に含まれる各画像を時系列順に並べた場合における各画像の配置位置を示しており、縦軸は、第1基準画像と各画像との間において一致する領域の割合を示している。以下、画像IM10が第1基準画像として特定されているものとして説明を行う。
この場合において、例えば、図16に示すように、画像IM10に含まれる対応点POのうち、画像IM11にも含まれる対応点POの割合が0.8であり、画像IM10に含まれる対応点POのうち、画像IM12にも含まれる対応点POの割合が0.9であり、画像IM10に含まれる対応点POのうち、画像IM13にも含まれる対応点POの割合が0.7である場合、条件判定部115は、S35の処理において、画像IM11、画像IM12及び画像IM13に対応する特徴量として、それぞれ0.2、0.1及び0.3を特定する。
そして、例えば、第1閾値が0.5である場合、条件判定部115は、S41の処理において、特徴量として特定した0.2、0.1及び0.3のうちの最大値である0.3が第1閾値を下回っていると判定する。そのため、条件判定部115は、この場合、S43の処理において、図15に示す複数の画像が時系列画像であると判定する。
[学習データ生成処理の具体例(2)]
図17及び図18は、学習データ生成処理の具体例を説明する図である。
図17に示す例は、S32の処理で取得した複数の画像の具体例であり、画像IM20、画像IM21、画像IM22及び画像IM23が含まれている。以下、画像IM20が第1基準画像として特定されているものとして説明を行う。
この場合において、例えば、図18に示すように、画像IM20に含まれる対応点POのうち、画像IM21にも含まれる対応点POの割合が0.7であり、画像IM20に含まれる対応点POのうち、画像IM22にも含まれる対応点POの割合が0.2であり、画像IM20に含まれる対応点POのうち、画像IM23にも含まれる対応点POの割合が0.1である場合、条件判定部115は、S35の処理において、画像IM21、画像IM22及び画像IM23に対応する特徴量として、それぞれ0.3、0.8及び0.9を特定する。
そして、例えば、第1閾値が0.5である場合、条件判定部115は、S41の処理において、特徴量として特定した0.3、0.8及び0.9のうちの最大値である0.9が第1閾値を下回っていないと判定する。そのため、条件判定部115は、この場合、S43の処理において、図17に示す複数の画像が時系列画像でないと判定する。
[第2の実施の形態]
次に、第2の実施の形態について説明する。図19から図21は、第2の実施の形態における学習データ生成処理を説明するフローチャート図である。なお、第2の実施の形態における学習データ受付処理及び文献データ受付処理については、第1の実施の形態で説明した場合の処理と同じ内容であるため説明を省略する。
[基準値特定処理]
初めに、第2の実施の形態における学習データ生成処理のうち、学習データ生成処理において用いられる基準値の特定を行う処理(以下、基準値特定処理とも呼ぶ)について説明を行う。図19は、第2の実施の形態における基準値特定処理について説明するフローチャート図である。
情報処理装置1の基準値特定部116は、図19に示すように、基準値特定タイミングまで待機する(S51のNO)。基準値特定タイミングは、例えば、事業者が事業者端末2を介して基準値の特定を行う旨の入力を行ったタイミングであってよい。
そして、基準値特定タイミングになった場合(S51のYES)、基準値特定部116は、複数の画像を含む所定の時系列画像(時系列画像であることが予め明らかになっている複数の画像)から第2基準画像を特定する(S52)。具体的に、基準値特定部116は、例えば、情報格納領域130に記憶されたターゲットデータ131bに含まれる時系列画像から第2基準画像の特定を行う。
続いて、基準値特定部116は、所定の時系列画像のうち、S52の処理で特定した第2基準画像以外の画像毎に、S52の処理で特定した第2基準画像と一致しない領域の第2割合を特定する(S53)。
その後、基準値特定部116は、S53の処理で特定した第2割合のうちの最大値を基準値として特定する(S54)。
[学習データ生成処理の詳細]
次に、第2の実施の形態における学習データ生成処理の詳細について説明を行う。図20及び図21は、第2の実施の形態における学習データ生成処理の詳細について説明するフローチャート図である。
画像取得部114は、図20に示すように、例えば、データ生成タイミングになるまで待機する(S61のNO)。
そして、データ生成タイミングになった場合(S61のYES)、画像取得部114は、所定の対応関係を有する複数の画像を、情報格納領域130に記憶された文献データ132から取得する(S62)。
その後、条件判定部115は、S62の処理で取得した複数の画像から第1基準画像を特定する(S63)。
続いて、条件判定部115は、S62の処理で取得した複数の画像のうち、S63の処理で特定した第1基準画像以外の画像毎に、S63の処理で特定した第1基準画像と一致しない領域の第1割合を特定する(S64)。
そして、条件判定部115は、S64の処理で特定した第1割合のそれぞれを特徴量として特定する(S65)。
さらに、条件判定部115は、図21に示すように、S65の処理で特定した特徴量のうちの最大値と、S54の処理で特定した基準値との差分が第2閾値を下回るか否かを判定する(S71)。第2閾値は、例えば、事業者によって予め定められた閾値であってよい。
その結果、S65の処理で特定した特徴量のうちの最大値と、S54の処理で特定した基準値との差分が第2閾値を下回ると判定した場合(S72のYES)、画像特定部117は、S62の処理で取得した複数の画像が時系列画像であると特定する(S73)。
続いて、データ生成部118は、S73の処理で特定した時系列画像を含む学習データ131(中間データ131c)を生成する(S74)。
そして、情報管理部113は、例えば、S74の処理で生成した学習データ131を情報格納領域130に記憶する(S75)。
その後、情報処理装置1は、情報格納領域130に記憶された学習データ131(ソースデータ131a、ターゲットデータ131b及び中間データ131c)を学習することにより、例えば、医師による病名認識をサポートするための学習モデルを獲得する。
一方、S65の処理で特定した特徴量のうちの最大値と、S54の処理で特定した基準値との差分が第2閾値を下回らないと判定した場合(S72のNO)、画像特定部117は、S73以降の処理を行わない。
すなわち、第2の実施の形態における学習データ生成処理では、文献データ132から取得した複数の画像から特定した特徴量の最大値と、所定の時系列画像から同じ方法によって特定した基準値とが近似しているか否かを判定する。そして、第2の実施の形態における学習データ生成処理では、これらの値が近似していると判定された場合、文献データ132から取得した複数の画像が時系列画像であると判定する。
これにより、情報処理装置1は、文献データ132に含まれる複数の画像から、時系列画像をより精度良く抽出することが可能になる。そのため、情報処理装置1は、時系列画像がより高い確率で含まれる中間データ131cを生成することが可能になり、必要な性能を実現可能な学習モデルを獲得することが可能になる。
[第3の実施の形態]
次に、第3の実施の形態について説明する。図22から図24は、第3の実施の形態における学習データ生成処理を説明するフローチャート図である。また、図25は、第3の実施の形態における学習データ生成処理を説明する図である。なお、第3の実施の形態における学習データ受付処理及び文献データ受付処理については、第1の実施の形態で説明した場合の処理と同じ内容であるため説明を省略する。
[基準値特定処理]
初めに、第3の実施の形態における基準値特定処理について説明を行う。図22は、第3の実施の形態における基準値特定処理について説明するフローチャート図である。
基準値特定部116は、図22に示すように、基準値特定タイミングまで待機する(S81のNO)。
そして、基準値特定タイミングになった場合(S81のYES)、基準値特定部116は、複数の画像を含む所定の時系列画像から第2基準画像を特定する(S82)。
続いて、基準値特定部116は、所定の時系列画像のうち、S82の処理で特定した第2基準画像以外の画像毎に、S82の処理で特定した第2基準画像と一致する領域の第4割合を特定する(S83)。
その後、基準値特定部116は、S83の処理で特定した第4割合に対応する平面上の点についての近似直線の傾きを基準値として特定する(S84)。
具体的に、基準値特定部116は、例えば、図25に示すように、図16で説明したグラフと同様のグラフ上において、第2基準画像に対応する点を通り、かつ、画像毎に特定された第4割合に対応する点のそれぞれに近似する近似直線STを生成する。そして、基準値特定部116は、例えば、生成した近似直線STの傾きを基準値として特定する。
[学習データ生成処理の詳細]
次に、第3の実施の形態における学習データ生成処理の詳細について説明を行う。図23及び図24は、第3の実施の形態における学習データ生成処理の詳細について説明するフローチャート図である。
画像取得部114は、図23に示すように、例えば、データ生成タイミングになるまで待機する(S91のNO)。
そして、データ生成タイミングになった場合(S91のYES)、画像取得部114は、所定の対応関係を有する複数の画像を、情報格納領域130に記憶された文献データ132から取得する(S92)。
その後、条件判定部115は、S92の処理で取得した複数の画像から第1基準画像を特定する(S93)。
続いて、条件判定部115は、S92の処理で取得した複数の画像のうち、S93の処理で特定した第1基準画像以外の画像毎に、S93の処理で特定した第1基準画像と一致する領域の第3割合を特定する(S94)。
そして、条件判定部115は、S94の処理で特定した第3割合の大きさのそれぞれを特徴量として特定する(S95)。
さらに、条件判定部115は、図24に示すように、S95の処理で特定した特徴量に対応する平面上の点についての近似直線の傾きと、S84の処理で特定した基準値との差分が第3閾値を下回るか否かを判定する(S101)。第3閾値は、例えば、事業者によって予め定められた閾値であってよい。
具体的に、基準値特定部116は、例えば、図25で説明した場合と同様に、第1基準画像に対応する点を通り、かつ、画像毎に特定された第3割合に対応する点のそれぞれに近似する近似直線を生成する。そして、基準値特定部116は、例えば、生成した近似直線の傾きを基準値として特定する。
その結果、S95の処理で特定した特徴量に対応する平面上の点についての近似直線の傾きと、S84の処理で特定した基準値との差分が第3閾値を下回ると判定した場合(S102のYES)、画像特定部117は、S92の処理で取得した複数の画像が時系列画像であると特定する(S103)。
続いて、データ生成部118は、S103の処理で特定した時系列画像を含む学習データ131(中間データ131c)を生成する(S104)。
そして、情報管理部113は、例えば、S104の処理で生成した学習データ131を情報格納領域130に記憶する(S105)。
その後、情報処理装置1は、情報格納領域130に記憶された学習データ131(ソースデータ131a、ターゲットデータ131b及び中間データ131c)を学習することにより、例えば、医師による病名認識をサポートするための学習モデルを獲得する。
一方、S95の処理で特定した特徴量に対応する平面上の点についての近似直線の傾きと、S84の処理で特定した基準値との差分が第3閾値を下回らないと判定した場合(S102のNO)、画像特定部117は、S103以降の処理を行わない。
すなわち、第3の実施の形態における学習データ生成処理では、文献データ132から取得した複数の画像から生成した近似直線の傾きと、時系列画像から生成した近似直線の傾きとが近似しているか否かを判定する。そして、第3の実施の形態における学習データ生成処理では、これらの値が近似していると判定された場合、文献データ132から取得した複数の画像が時系列画像であると判定する。
これにより、情報処理装置1は、文献データ132に含まれる複数の画像から、時系列画像をより精度良く抽出することが可能になる。そのため、情報処理装置1は、時系列画像がより高い確率で含まれる中間データ131cを生成することが可能になり、必要な性能を実現可能な学習モデルを獲得することが可能になる。
[第4の実施の形態]
次に、第4の実施の形態について説明する。図26から図28は、第4の実施の形態における学習データ生成処理を説明するフローチャート図である。また、図29は、第4の実施の形態における学習データ生成処理を説明する図である。なお、第4の実施の形態における学習データ受付処理及び文献データ受付処理については、第1の実施の形態で説明した場合の処理と同じ内容であるため説明を省略する。
[基準値特定処理]
初めに、第4の実施の形態における基準値特定処理について説明を行う。図26は、第4の実施の形態における基準値特定処理について説明するフローチャート図である。
基準値特定部116は、図26に示すように、基準値特定タイミングまで待機する(S111のNO)。
そして、基準値特定タイミングになった場合(S111のYES)、基準値特定部116は、複数の画像を含む所定の時系列画像から第2基準画像を特定する(S112)。
続いて、基準値特定部116は、所定の時系列画像のうち、S112の処理で特定した第2基準画像以外の画像毎に、S112の処理で特定した第2基準画像と一致する領域の第4割合を特定する(S113)。
その後、基準値特定部116は、S113の処理で特定した第4割合に対応する平面上の点についての二次元の近似曲線の二回微分値を基準値として特定する(S114)。
具体的に、基準値特定部116は、例えば、図29に示すように、図16で説明したグラフと同様のグラフ上において、第2基準画像に対応する点を通り、かつ、画像毎に特定された第4割合に対応する点のそれぞれに近似する二次元の近似曲線CUを生成する。そして、基準値特定部116は、例えば、生成した近似曲線CUの二回微分値を基準値として特定する。
[学習データ生成処理の詳細]
次に、第4の実施の形態における学習データ生成処理の詳細について説明を行う。図27及び図28は、第4の実施の形態における学習データ生成処理の詳細について説明するフローチャート図である。
画像取得部114は、図27に示すように、例えば、データ生成タイミングになるまで待機する(S121のNO)。
そして、データ生成タイミングになった場合(S121のYES)、画像取得部114は、所定の対応関係を有する複数の画像を、情報格納領域130に記憶された文献データ132から取得する(S122)。
その後、条件判定部115は、S122の処理で取得した複数の画像から第1基準画像を特定する(S123)。
続いて、条件判定部115は、S122の処理で取得した複数の画像のうち、S123の処理で特定した第1基準画像以外の画像毎に、S123の処理で特定した第1基準画像と一致する領域の第3割合を特定する(S124)。
そして、条件判定部115は、S124の処理で特定した第3割合のそれぞれを特徴量として特定する(S125)。
さらに、条件判定部115は、図28に示すように、S125の処理で特定した特徴量に対応する平面上の点についての二次元の近似曲線の二回微分値と、S114の処理で特定した基準値との差分が第4閾値を下回るか否かを判定する(S131)。第4閾値は、例えば、事業者によって予め定められた閾値であってよい。
具体的に、基準値特定部116は、例えば、図29で説明した場合と同様に、第1基準画像に対応する点を通り、かつ、画像毎に特定された第3割合に対応する点のそれぞれに近似する二次元の近似曲線を生成する。そして、基準値特定部116は、例えば、生成した近似曲線の二回微分値を基準値として特定する。
その結果、S125の処理で特定した特徴量に対応する平面上の点についての二次元の近似曲線の二回微分値と、S114の処理で特定した基準値との差分が第4閾値を下回ると判定した場合(S132のYES)、画像特定部117は、S122の処理で取得した複数の画像が時系列画像であると特定する(S133)。
続いて、データ生成部118は、S133の処理で特定した時系列画像を含む学習データ131(中間データ131c)を生成する(S134)。
そして、情報管理部113は、例えば、S134の処理で生成した学習データ131を情報格納領域130に記憶する。
その後、情報処理装置1は、情報格納領域130に記憶された学習データ131(ソースデータ131a、ターゲットデータ131b及び中間データ131c)を学習することにより、例えば、医師による病名認識をサポートするための学習モデルを獲得する。
一方、S125の処理で特定した特徴量に対応する平面上の点についての二次元の近似曲線の二回微分値と、S114の処理で特定した基準値との差分が第4閾値を下回らないと判定した場合(S132のNO)、画像特定部117は、S133以降の処理を行わない。
すなわち、第4の実施の形態における学習データ生成処理では、文献データ132から取得した複数の画像から生成した二次元の近似曲線の二回微分値と、時系列画像から生成した二次元の近似曲線の二回微分値とが近似しているか否かを判定する。そして、第3の実施の形態における学習データ生成処理では、これらの値が近似していると判定された場合、文献データ132から取得した複数の画像が時系列画像であると判定する。
これにより、情報処理装置1は、文献データ132に含まれる複数の画像から、時系列画像をより精度良く抽出することが可能になる。そのため、情報処理装置1は、時系列画像がより高い確率で含まれる中間データ131cを生成することが可能になり、必要な性能を実現可能な学習モデルを獲得することが可能になる。
以上の実施の形態をまとめると、以下の付記のとおりである。
(付記1)
機械学習に用いる学習データを生成する学習データ生成プログラムであって、
所定の対応関係を有する複数の画像を文献から取得し、
取得した前記複数の画像における特徴量の一致度合が所定の条件を満たすか否かを判定し、
前記所定の条件を満たすと判定した場合、取得した前記複数の画像が時系列画像であると特定し、
特定した前記複数の画像を含む学習データを生成する、
処理をコンピュータに実行させることを特徴とする学習データ生成プログラム。
(付記2)
付記1において、
前記所定の対応関係を有する複数の画像は、前記文献において所定の配置関係に従って掲載されている複数の画像である、
ことを特徴とする学習データ生成プログラム。
(付記3)
付記1において、
前記所定の対応関係を有する複数の画像は、前記文献において同一の説明文に対応付けられて掲載されている複数の画像である、
ことを特徴とする学習データ生成プログラム。
(付記4)
付記1において、
前記判定する処理では、
取得した前記複数の画像から第1基準画像を特定し、
前記複数の画像のうちの前記第1基準画像以外の画像毎に、特定した前記第1基準画像と一致しない領域の割合である第1割合を特定し、
特定した前記第1割合のそれぞれを前記特徴量として特定する、
ことを特徴とする学習データ生成プログラム。
(付記5)
付記4において、
前記判定する処理では、特定した前記特徴量のうちの最大値が第1閾値を下回るか否かを判定し、
前記複数の画像が時系列画像であると特定する処理では、前記特徴量のうちの最大値が前記第1閾値を下回ると判定した場合に、前記複数の画像が時系列画像であると特定する、
ことを特徴とする学習データ生成プログラム。
(付記6)
付記4において、さらに、
複数の画像を含む所定の時系列画像から第2基準画像を特定し、
前記所定の時系列画像のうちの前記第2基準画像以外の画像毎に、特定した前記第2基準画像と一致しない領域の割合である第2割合を特定し、
特定した前記第2割合のうちの最大値を基準値として特定する、
処理をコンピュータに実行させ、
前記判定する処理では、前記特徴量のうちの最大値と前記基準値との差分が第2閾値を下回るか否かを判定し、
前記複数の画像が時系列画像であると特定する処理では、前記差分が前記第2閾値を下回ると判定した場合に、前記複数の画像が時系列画像であると特定する、
ことを特徴とする学習データ生成プログラム。
(付記7)
付記1において、
前記判定する処理では、
取得した前記複数の画像から第1基準画像を特定し、
前記複数の画像のうちの前記第1基準画像以外の画像毎に、特定した前記第1基準画像と一致する領域の割合である第3割合を特定し、
特定した前記第3割合のそれぞれを前記特徴量として特定する、
ことを特徴とする学習データ生成プログラム。
(付記8)
付記7において、さらに
複数の画像を含む所定の時系列画像から第2基準画像を特定し、
前記所定の時系列画像のうちの前記第2基準画像以外の画像毎に、特定した前記第2基準画像と一致する領域の第4割合を特定し、
特定した前記第4割合に対応する平面上の点のそれぞれについての二次元の近似直線を生成し、
生成した前記近似直線の傾きを基準値として特定する、
処理をコンピュータに実行させ、
前記判定する処理では、
特定した前記特徴量のそれぞれについての近似直線を生成し、
生成した前記近似直線の傾きと前記基準値との差分が第3閾値を下回るか否かを判定し、
前記複数の画像が時系列画像であると特定する処理では、前記差分が前記第3閾値を下回ると判定した場合に、前記複数の画像が時系列画像であると特定する、
ことを特徴とする学習データ生成プログラム。
(付記9)
付記7において、さらに、
複数の画像を含む所定の時系列画像から第2基準画像を特定し、
前記所定の時系列画像のうちの前記第2基準画像以外の画像毎に、特定した前記第2基準画像と一致する領域の第4割合を特定し、
特定した前記第4割合に対応する平面上の点のそれぞれについての二次元の近似曲線を生成し、
生成した前記近似曲線の二回微分値を基準値として特定する、
処理をコンピュータに実行させ、
前記判定する処理では、
特定した前記特徴量のそれぞれについての二次元の近似曲線を生成し、
生成した前記近似曲線の二回微分値と前記基準値との差分が第4閾値を下回るか否かを判定し、
前記複数の画像が時系列画像であると特定する処理では、前記差分が前記第4閾値を下回ると判定した場合に、前記複数の画像が時系列画像であると特定する、
ことを特徴とする学習データ生成プログラム。
(付記10)
機械学習に用いる学習データを生成する学習データ生成装置であって、
所定の対応関係を有する複数の画像を文献から取得する画像取得部と、
取得した前記複数の画像における特徴量の一致度合が所定の条件を満たすか否かを判定する条件判定部と、
前記所定の条件を満たすと判定した場合、取得した前記複数の画像が時系列画像であると特定する画像特定部と、
特定した前記複数の画像を含む学習データを生成するデータ生成部と、を有する、
ことを特徴とする学習データ生成装置。
(付記11)
付記10において、
前記条件判定部は、
取得した前記複数の画像から第1基準画像を特定し、
前記複数の画像のうちの前記第1基準画像以外の画像毎に、特定した前記第1基準画像と一致しない領域の第1割合を特定し、
特定した前記第1割合のそれぞれを前記特徴量として特定する、
ことを特徴とする学習データ生成装置。
(付記12)
付記11において、
前記条件判定部は、特定した前記特徴量のうちの最大値が第1閾値を下回るか否かを判定し、
前記画像特定部は、前記特徴量のうちの最大値が前記第1閾値を下回ると判定した場合に、前記複数の画像が時系列画像であると特定する、
ことを特徴とする学習データ生成装置。
(付記13)
機械学習に用いる学習データを生成する学習データ生成方法であって、
所定の対応関係を有する複数の画像を文献から取得し、
取得した前記複数の画像における特徴量の一致度合が所定の条件を満たすか否かを判定し、
前記所定の条件を満たすと判定した場合、取得した前記複数の画像が時系列画像であると特定し、
特定した前記複数の画像を含む学習データを生成する、
ことを特徴とする学習データ生成方法。
(付記14)
付記13において、
前記判定する工程では、
取得した前記複数の画像から第1基準画像を特定し、
前記複数の画像のうちの前記第1基準画像以外の画像毎に、特定した前記第1基準画像と一致しない領域の第1割合を特定し、
特定した前記第1割合のそれぞれを前記特徴量として特定する、
ことを特徴とする学習データ生成方法。
(付記15)
付記14において、
前記判定する工程では、特定した前記特徴量のうちの最大値が第1閾値を下回るか否かを判定し、
前記複数の画像が時系列画像であると特定する工程では、前記特徴量のうちの最大値が前記第1閾値を下回ると判定した場合に、前記複数の画像が時系列画像であると特定する、
ことを特徴とする学習データ生成方法。
1:情報処理装置 2:事業者端末
130:情報格納領域 131:学習データ
NW:ネットワーク

Claims (11)

  1. 機械学習に用いる学習データを生成する学習データ生成プログラムであって、
    所定の対応関係を有する複数の画像を文献から取得し、
    取得した前記複数の画像における特徴量の一致度合が所定の条件を満たすか否かを判定し、
    前記所定の条件を満たすと判定した場合、取得した前記複数の画像が時系列画像であると特定し、
    特定した前記複数の画像を含む学習データを生成する、
    処理をコンピュータに実行させることを特徴とする学習データ生成プログラム。
  2. 請求項1において、
    前記所定の対応関係を有する複数の画像は、前記文献において所定の配置関係に従って掲載されている複数の画像である、
    ことを特徴とする学習データ生成プログラム。
  3. 請求項1において、
    前記所定の対応関係を有する複数の画像は、前記文献において同一の説明文に対応付けられて掲載されている複数の画像である、
    ことを特徴とする学習データ生成プログラム。
  4. 請求項1において、
    前記判定する処理では、
    取得した前記複数の画像から第1基準画像を特定し、
    前記複数の画像のうちの前記第1基準画像以外の画像毎に、特定した前記第1基準画像と一致しない領域の割合である第1割合を特定し、
    特定した前記第1割合のそれぞれを前記特徴量として特定する、
    ことを特徴とする学習データ生成プログラム。
  5. 請求項4において、
    前記判定する処理では、特定した前記特徴量のうちの最大値が第1閾値を下回るか否かを判定し、
    前記複数の画像が時系列画像であると特定する処理では、前記特徴量のうちの最大値が前記第1閾値を下回ると判定した場合に、前記複数の画像が時系列画像であると特定する、
    ことを特徴とする学習データ生成プログラム。
  6. 請求項4において、さらに、
    複数の画像を含む所定の時系列画像から第2基準画像を特定し、
    前記所定の時系列画像のうちの前記第2基準画像以外の画像毎に、特定した前記第2基準画像と一致しない領域の割合である第2割合を特定し、
    特定した前記第2割合のうちの最大値を基準値として特定する、
    処理をコンピュータに実行させ、
    前記判定する処理では、前記特徴量のうちの最大値と前記基準値との差分が第2閾値を下回るか否かを判定し、
    前記複数の画像が時系列画像であると特定する処理では、前記差分が前記第2閾値を下回ると判定した場合に、前記複数の画像が時系列画像であると特定する、
    ことを特徴とする学習データ生成プログラム。
  7. 請求項1において、
    前記判定する処理では、
    取得した前記複数の画像から第1基準画像を特定し、
    前記複数の画像のうちの前記第1基準画像以外の画像毎に、特定した前記第1基準画像と一致する領域の割合である第3割合を特定し、
    特定した前記第3割合のそれぞれを前記特徴量として特定する、
    ことを特徴とする学習データ生成プログラム。
  8. 請求項7において、さらに
    複数の画像を含む所定の時系列画像から第2基準画像を特定し、
    前記所定の時系列画像のうちの前記第2基準画像以外の画像毎に、特定した前記第2基準画像と一致する領域の第4割合を特定し、
    特定した前記第4割合に対応する平面上の点のそれぞれについての二次元の近似直線を生成し、
    生成した前記近似直線の傾きを基準値として特定する、
    処理をコンピュータに実行させ、
    前記判定する処理では、
    特定した前記特徴量のそれぞれについての近似直線を生成し、
    生成した前記近似直線の傾きと前記基準値との差分が第3閾値を下回るか否かを判定し、
    前記複数の画像が時系列画像であると特定する処理では、前記差分が前記第3閾値を下回ると判定した場合に、前記複数の画像が時系列画像であると特定する、
    ことを特徴とする学習データ生成プログラム。
  9. 請求項7において、さらに、
    複数の画像を含む所定の時系列画像から第2基準画像を特定し、
    前記所定の時系列画像のうちの前記第2基準画像以外の画像毎に、特定した前記第2基準画像と一致する領域の第4割合を特定し、
    特定した前記第4割合に対応する平面上の点のそれぞれについての二次元の近似曲線を生成し、
    生成した前記近似曲線の二回微分値を基準値として特定する、
    処理をコンピュータに実行させ、
    前記判定する処理では、
    特定した前記特徴量のそれぞれについての二次元の近似曲線を生成し、
    生成した前記近似曲線の二回微分値と前記基準値との差分が第4閾値を下回るか否かを判定し、
    前記複数の画像が時系列画像であると特定する処理では、前記差分が前記第4閾値を下回ると判定した場合に、前記複数の画像が時系列画像であると特定する、
    ことを特徴とする学習データ生成プログラム。
  10. 機械学習に用いる学習データを生成する学習データ生成装置であって、
    所定の対応関係を有する複数の画像を文献から取得する画像取得部と、
    取得した前記複数の画像における特徴量の一致度合が所定の条件を満たすか否かを判定する条件判定部と、
    前記所定の条件を満たすと判定した場合、取得した前記複数の画像が時系列画像であると特定する画像特定部と、
    特定した前記複数の画像を含む学習データを生成するデータ生成部と、を有する、
    ことを特徴とする学習データ生成装置。
  11. 機械学習に用いる学習データを生成する学習データ生成方法であって、
    所定の対応関係を有する複数の画像を文献から取得し、
    取得した前記複数の画像における特徴量の一致度合が所定の条件を満たすか否かを判定し、
    前記所定の条件を満たすと判定した場合、取得した前記複数の画像が時系列画像であると特定し、
    特定した前記複数の画像を含む学習データを生成する、
    ことを特徴とする学習データ生成方法。
JP2018212093A 2018-11-12 2018-11-12 学習データ生成プログラム、学習データ生成装置及び学習データ生成方法 Active JP7148794B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018212093A JP7148794B2 (ja) 2018-11-12 2018-11-12 学習データ生成プログラム、学習データ生成装置及び学習データ生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018212093A JP7148794B2 (ja) 2018-11-12 2018-11-12 学習データ生成プログラム、学習データ生成装置及び学習データ生成方法

Publications (2)

Publication Number Publication Date
JP2020079984A JP2020079984A (ja) 2020-05-28
JP7148794B2 true JP7148794B2 (ja) 2022-10-06

Family

ID=70801793

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018212093A Active JP7148794B2 (ja) 2018-11-12 2018-11-12 学習データ生成プログラム、学習データ生成装置及び学習データ生成方法

Country Status (1)

Country Link
JP (1) JP7148794B2 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017109854A1 (ja) 2015-12-22 2017-06-29 オリンパス株式会社 学習画像自動選別装置、学習画像自動選別方法および学習画像自動選別プログラム
JP2018124617A (ja) 2017-01-30 2018-08-09 三菱重工業株式会社 教師データ収集装置、教師データ収集方法、及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017109854A1 (ja) 2015-12-22 2017-06-29 オリンパス株式会社 学習画像自動選別装置、学習画像自動選別方法および学習画像自動選別プログラム
JP2018124617A (ja) 2017-01-30 2018-08-09 三菱重工業株式会社 教師データ収集装置、教師データ収集方法、及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
数藤 恭子,外3名,レシピのテキスト及び画像特徴の学習による画像からの素材・調理法の推定,電子情報通信学会技術研究報告,一般社団法人電子情報通信学会,2013年08月26日,第113巻,第197号,p.195-200

Also Published As

Publication number Publication date
JP2020079984A (ja) 2020-05-28

Similar Documents

Publication Publication Date Title
KR101861198B1 (ko) 디지털 이미지의 시맨틱 태그의 획득 방법 및 장치
Cliche et al. Scatteract: Automated extraction of data from scatter plots
US20160210749A1 (en) Method and system for cross-domain synthesis of medical images using contextual deep network
CN109886928B (zh) 一种目标细胞标记方法、装置、存储介质及终端设备
US11321559B2 (en) Document structure identification using post-processing error correction
US9501687B2 (en) Predictive modeling relating molecular imaging modalities
CN109086834B (zh) 字符识别方法、装置、电子设备及存储介质
CN113744394B (zh) 鞋楦三维建模方法、装置、设备及存储介质
Gutierrez-Becker et al. Guiding multimodal registration with learned optimization updates
CN112102294A (zh) 生成对抗网络的训练方法及装置、图像配准方法及装置
CN113095187A (zh) 一种基于图像特征匹配对齐的试卷批改方法
CN112819073A (zh) 分类网络训练、图像分类方法、装置和电子设备
GB2511686A (en) Medical-image retrieval method, device, and computer program
CN111914841B (zh) 一种ct图像处理方法和装置
CN107590806B (zh) 一种基于大脑医学成像的检测方法和系统
JP7148794B2 (ja) 学習データ生成プログラム、学習データ生成装置及び学習データ生成方法
CN111626313B (zh) 一种特征提取模型训练方法、图像处理方法及装置
CN109040781B (zh) 视频认证方法、装置、系统、电子设备及可读介质
CN116597246A (zh) 模型训练方法、目标检测方法、电子设备及存储介质
US20230130674A1 (en) Computer-readable recording medium storing learning program, learning method, and information processing apparatus
JP6017005B2 (ja) 画像検索装置、画像検索方法及びプログラム
CN114372970A (zh) 一种手术参考信息生成方法及装置
CN114241198A (zh) 获取局部影像组学特征的方法、装置、设备以及存储介质
JP5188290B2 (ja) アノテーション装置、アノテーション方法およびプログラム
Zhang et al. HiCPlus: resolution enhancement of Hi-C interaction heatmap

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210810

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220726

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220823

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220905

R150 Certificate of patent or registration of utility model

Ref document number: 7148794

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150