JP7364206B2 - 学習装置、学習方法、及び制御プログラム - Google Patents

学習装置、学習方法、及び制御プログラム Download PDF

Info

Publication number
JP7364206B2
JP7364206B2 JP2019074032A JP2019074032A JP7364206B2 JP 7364206 B2 JP7364206 B2 JP 7364206B2 JP 2019074032 A JP2019074032 A JP 2019074032A JP 2019074032 A JP2019074032 A JP 2019074032A JP 7364206 B2 JP7364206 B2 JP 7364206B2
Authority
JP
Japan
Prior art keywords
learning
cancer
urine
candidate data
cancer patient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019074032A
Other languages
English (en)
Other versions
JP2020173528A (ja
Inventor
聡 山田
力 江藤
純子 渡辺
正夫 宮下
真吏奈 後藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2019074032A priority Critical patent/JP7364206B2/ja
Priority to PCT/JP2020/015290 priority patent/WO2020209191A1/ja
Priority to US17/601,857 priority patent/US20220172843A1/en
Publication of JP2020173528A publication Critical patent/JP2020173528A/ja
Application granted granted Critical
Publication of JP7364206B2 publication Critical patent/JP7364206B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/60ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices
    • G16H40/63ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices for local operation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Description

本開示は、学習装置、学習方法、及び制御プログラムに関する。
被験者の尿サンプルから臭いを検出し、検出した臭い(つまり、センシング結果データ)から疾病を判別する判別モデルを作成する技術が提案されている(例えば、特許文献1)。
特表2004-531718号公報
しかしながら、特許文献1に開示されている技術では、センシング結果データを選別することなくすべてを判別モデルの作成に用いるデータ(つまり、学習対象データ)としているので、判別モデルの精度が所望レベルに達しない可能性がある。
本開示の目的は、判別モデルの精度向上を実現できる、学習装置、学習方法、及び制御プログラムを提供することにある。
第1の態様にかかる学習装置は、複数の癌患者及び複数の非癌患者から成る複数の被験者にそれぞれ対応し、且つ、各学習候補データユニットが、対応する被験者の尿から得られた尿臭データユニット、及び、前記対応する被験者が癌患者であるか又は非癌患者であるかを少なくとも示す癌ラベルを少なくとも含む、複数の学習候補データユニットから、選別ルールに基づいて、前記複数の学習候補データユニットの一部を、学習対象データセットとして選別する選別部と、
前記選別された学習対象データセットを用いて、判別対象尿臭データユニットが癌患者の尿及び非癌患者の尿のいずれに対応するかを判別するための判別モデルを形成する判別モデル形成部と、
を具備する。
第2の態様にかかる学習方法は、複数の癌患者及び複数の非癌患者から成る複数の被験者にそれぞれ対応し、且つ、各学習候補データユニットが、対応する被験者の尿から得られた尿臭データユニット、及び、前記対応する被験者が癌患者であるか又は非癌患者であるかを少なくとも示す癌ラベルを少なくとも含む、複数の学習候補データユニットから、選別ルールに基づいて、前記複数の学習候補データユニットの一部を、学習対象データセットとして選別し、
前記選別された学習対象データセットを用いて、判別対象尿臭データユニットが癌患者の尿及び非癌患者の尿のいずれに対応するかを判別するための判別モデルを形成する。
第3の態様にかかる制御プログラムは、複数の癌患者及び複数の非癌患者から成る複数の被験者にそれぞれ対応し、且つ、各学習候補データユニットが、対応する被験者の尿から得られた尿臭データユニット、及び、前記対応する被験者が癌患者であるか又は非癌患者であるかを少なくとも示す癌ラベルを少なくとも含む、複数の学習候補データユニットから、選別ルールに基づいて、前記複数の学習候補データユニットの一部を、学習対象データセットとして選別し、
前記選別された学習対象データセットを用いて、判別対象尿臭データユニットが癌患者の尿及び非癌患者の尿のいずれに対応するかを判別するための判別モデルを形成する、
処理を、学習装置に実行させる。
本開示により、判別モデルの精度向上を実現できる、学習装置、学習方法、及び制御プログラムを提供することができる。
第1実施形態における学習装置の一例を示すブロック図である。 第2実施形態における選別ルールの一例の説明に供する図である。 第3実施形態における選別ルールの一例の説明に供する図である。 第3実施形態における選別ルールの他の一例の説明に供する図である。 第4実施形態における学習装置の一例を示すブロック図である。 第5実施形態における癌診断システムの一例を示すブロック図である。 第5実施形態における収集データテーブルの一例を示す図である。 第6実施形態における学習装置の一例を示すブロック図である。 第6実施形態における学習対象データセットの形成方法の一例の説明に供する図である。 第9実施形態における学習装置の一例を示すブロック図である。 第10実施形態における癌診断システムの一例を示すブロック図である。 学習装置のハードウェア構成例を示す図である。
以下、図面を参照しつつ、実施形態について説明する。なお、実施形態において、同一又は同等の要素には、同一の符号を付し、重複する説明は省略される。
<第1実施形態>
図1は、第1実施形態における学習装置の一例を示すブロック図である。図1に示す学習装置10は、判別対象の尿臭データユニット(以下、「判別対象尿臭データユニット」と呼ぶ)が癌患者の尿及び非癌患者の尿のいずれに対応するかを判別するための「判別モデル」を学習する装置である。図1において学習装置10は、選別部11と、判別モデル形成部12とを有している。
選別部11は、複数の「学習候補データユニット」(つまり、学習候補データユニット群)を入力する。該複数の学習候補データユニットは、複数の癌患者及び複数の非癌患者から成る複数の被験者にそれぞれ対応する。また、各学習候補データユニットは、「尿臭データユニット」及び「癌ラベル」を少なくとも含んでいる。学習候補データユニットに含まれる尿臭データユニットは、対応する被験者の尿から検出された臭いに関するデータであり、その形式は、例えば臭いの特徴量から成るベクトル、又は、階数が2以上のテンソルであってもよい。また、「癌ラベル」は、対応する被験者が癌患者であるか又は非癌患者であるかを少なくとも示すラベルであり、例えば、対応する被験者が癌患者であるか又は非癌患者であるかを示すサブラベルを含んでいてもよい。すなわち、「癌ラベル」は、対応する被験者が癌患者であるか又は非癌患者であるかを示すサブラベルの他に、例えば、癌種別を示すサブラベル又は癌の進行度を示すサブラベル等を含んでいてもよい。
そして、選別部11は、入力された複数の学習候補データユニットから、「選別ルール」に基づいて、該複数の学習候補データユニットの一部を、「学習対象データセット」として選別する。
判別モデル形成部12は、選別部11にて選別された学習対象データセットを用いて、上記の「判別モデル」を形成する。このように形成された判別モデルは、対応する被験者が癌患者であるか非癌患者であるか判別されていない、判別対象尿臭データユニットが癌患者の尿及び非癌患者の尿のいずれに対応するかを判別するために、判別処理において用いられる。「判別モデル」を形成する学習方法は、特に限定されるものではなく、例えば、ロジスティック回帰(LR)、サポートベクターマシン(SVM)、ランダムフォレスト(RF)、ニューラルネットワーク(NN)等であってもよい。
以上のように第1実施形態によれば、学習装置10にて選別部11は、上記の複数の学習候補データユニットから、「選別ルール」に基づいて、該複数の学習候補データユニットの一部を、「学習対象データセット」として選別する。判別モデル形成部12は、選別部11にて選別された学習対象データセットを用いて、上記の「判別モデル」を形成する。
この学習装置10の構成により、実際に学習対象とする学習候補データユニットを選別することができるので、判別モデルの精度向上を実現できる。
<第2実施形態>
第2実施形態は、上記の「選別ルール」の具体例に関する。第2実施形態の学習装置の基本構成は、第1実施形態の学習装置10と同じなので、図1を参照して説明する。
第2実施形態の学習装置10にて選別部11は、第1実施形態と同様に、入力された複数の学習候補データユニットから、「選別ルール」に基づいて、該複数の学習候補データユニットの一部を、「学習対象データセット」として選別する。
第2実施形態における「選別ルール」は、「学習対象データセット」において癌患者を示す癌ラベルを有する学習候補データユニットの数と非癌患者を示す癌ラベルを有する学習候補データユニットの数とをバランスさせる、サブルール(以下では、「第1サブルール」と呼ぶことがある)を含んでいる。
図2は、第2実施形態における選別ルールの一例の説明に供する図である。図2の左図は、選別部11に入力される学習候補データユニット群の一例を示し、図2の右図は、選別部11にて選別された「学習対象データセット」の一例を示している。
図2の左図において各エントリは、学習候補データユニットに対応し、項目として、インデックス(Ind)と尿臭データユニットと癌ラベル(ガン/not)とを含んでいる。そして、図2の例では、上記の第1サブルールに従って、選別部11によって、エントリ1,4,5,6が学習対象データセットとして選択され、エントリ2,3が学習対象データセットから除外されている。なお、被験者が癌患者であることを示す癌ラベルを有するエントリ1~4のうちから学習対象データセットとして選択される2つのエントリは、ランダムに選択されてもよいし、所定のルールに基づいて選択されてもよい。
以上のように第2実施形態によれば、学習装置10にて選別部11は、入力された複数の学習候補データユニットから、「選別ルール」に基づいて、該複数の学習候補データユニットの一部を、「学習対象データセット」として選別する。「選別ルール」は、「学習対象データセット」において癌患者を示す癌ラベルを有する学習候補データユニットの数と非癌患者を示す癌ラベルを有する学習候補データユニットの数とをバランスさせる、サブルールを含む。
この学習装置10の構成により、「学習対象データセット」において癌患者を示す癌ラベルを有する学習候補データユニットの数と非癌患者を示す癌ラベルを有する学習候補データユニットの数とをバランスさせることができる。これにより、判別モデルの精度向上を実現できる。
<第3実施形態>
第3実施形態は、上記の「選別ルール」のバリエーションに関する。第3実施形態の学習装置の基本構成は、第1実施形態の学習装置10と同じなので、図1を参照して説明する。
第3実施形態において、各学習候補データユニットは、上記の「尿臭データユニット」及び「癌ラベル」の他に、被験者に関する「特性パラメータ」を含んでいる。「特性パラメータ」は、N(Nは、2以上の自然数)個の第k値(k=1,・・・,N)を取り得る。すなわち、「特性パラメータ」は、少なくとも第1値及び第2値を取り得る。例えば、「特性パラメータ」は、被験者についての、「性別」、「身長」、「体重」、「癌以外の並存病」、及び、「投薬種別」のうちのいずれか1つ又は任意の組み合わせであってもよい。
第3実施形態の学習装置10にて選別部11は、第1実施形態及び第2実施形態と同様に、入力された複数の学習候補データユニットから、「選別ルール」に基づいて、該複数の学習候補データユニットの一部を、「学習対象データセット」として選別する。
第3実施形態における「選別ルール」は、「学習対象データセット」において、各第k値を有する学習候補データユニットの数をバランスさせる、サブルール(以下では、「第2サブルール」と呼ぶことがある)を含む。すなわち、第2サブルールは、学習対象データセットにおいて上記の第1値を有する学習候補データユニットの数と上記の第2値を有する学習候補データユニットの数とをバランスさせる、ルールである。この第2サブルールは、上記の第1サブルールと共に用いられてもよいし、単独で用いられてもよい。
(サブルールの例1)
図3は、第3実施形態における選別ルールの一例の説明に供する図である。図3の左図は、選別部11に入力される学習候補データユニット群の一例を示し、図3の右図は、選別部11にて選別された「学習対象データセット」の一例を示している。
図3の左図において各エントリは、学習候補データユニットに対応し、項目として、インデックス(Ind)と尿臭データユニットと癌ラベル(ガン/not)と性別とを含んでいる。すなわち、図3の例では、上記の特性パラメータとして、性別が用いられている。そして、図3の例では、上記の第1サブルール及び第2サブルールに従って、選別部11によって、エントリ3,4,5,8が学習対象データセットとして選択され、エントリ1,2,6,7が学習対象データセットから除外されている。なお、被験者が癌患者であることを示す癌ラベルを有し且つ性別が男であるエントリ1~3のうちから学習対象データセットとして選択されるエントリは、ランダムに選択されてもよいし、所定のルールに基づいて選択されてもよい。また、被験者が非癌患者であることを示す癌ラベルを有し且つ性別が女であるエントリ6~8のうちから学習対象データセットとして選択されるエントリは、ランダムに選択されてもよいし、所定のルールに基づいて選択されてもよい。
(サブルールの例2)
図4は、第3実施形態における選別ルールの他の一例の説明に供する図である。図4の左図は、選別部11に入力される学習候補データユニット群の一例を示し、図4の右図は、選別部11にて選別された「学習対象データセット」の一例を示している。
図4の左図において各エントリは、学習候補データユニットに対応し、項目として、インデックス(Ind)と尿臭データユニットと癌ラベル(ガン/not)と年齢とを含んでいる。すなわち、図4の例では、上記の特性パラメータとして、年齢が用いられている。ここで、年齢のように連続的な値を取る特性パラメータである場合には、特性パラメータの値に関する複数の範囲が定義され、上記の第2サブルールは、「学習対象データセット」において各範囲の学習候補データユニットの数をバランスさせる、ルールであってもよい。例えば、上記の複数の範囲は、10歳未満、10代、20代、30代、40代、・・・である。図4の例では、上記の第1サブルール及び第2サブルールに従って、選別部11によって、エントリ1,2,4,5,7,8が学習対象データセットとして選択され、エントリ3,6が学習対象データセットから除外されている。
(サブルールの例3)
また、上記の特性パラメータとして、被験者に対して癌以外の並存病の治療のために投与された投薬種別が用いられてもよい。この場合、「選別ルール」は、学習対象データセットにおいて、被験者の尿に影響を及ぼす投薬を示す投薬種別及び癌患者を示す癌ラベルを有する学習候補データユニットの数と、被験者の尿に影響を及ぼす投薬を示す投薬種別及び非癌患者を示す癌ラベルを有する学習候補データユニットの数とをバランスさせる、サブルールを含んでいてもよい。このサブルールによって選別された学習対象データセットを判別モデルの学習に用いることにより、判別モデル形成部12にて形成された判別モデルが「被験者の尿に影響を及ぼす投薬種別を判別する判別モデル」になってしまう弊害を防止することができる。
そして、第3実施形態の判別モデル形成部12は、第1実施形態及び第2実施形態と同様に、選別部11にて選別された「学習対象データセット」を用いて、上記の「判別モデル」を形成する。ここで、判別モデル形成部12は、判別モデルの学習において用いる学習パラメータとして、学習対象データセットの各学習候補データユニットに含まれる特性パラメータを学習に用いずに尿臭データユニット及び癌ラベルを用いて、判別モデルを形成してもよい。これに代えて、判別モデル形成部12は、判別モデルの学習において用いる学習パラメータとして、学習対象データセットの各学習候補データユニットに含まれる特性パラメータ、尿臭データユニット、及び癌ラベルのすべてを用いて、判別モデルを形成してもよい。
以上のように第3実施形態によれば、学習装置10にて選別部11は、入力された複数の学習候補データユニットから、「選別ルール」に基づいて、該複数の学習候補データユニットの一部を、「学習対象データセット」として選別する。各学習候補データユニットは、少なくとも第1値及び第2値を取り得る、被験者に関する「特性パラメータ」をさらに含む。「選別ルール」は、学習対象データセットにおいて第1値を有する学習候補データユニットの数と第2値を有する学習候補データユニットの数とをバランスさせる、サブルールを含む。
この学習装置10の構成により、学習対象データセットにおいて各特性パラメータ値間の学習候補データユニットの数をバランスさせることができる。これにより、判別モデルの精度向上を実現できる。
<第4実施形態>
第4実施形態は、選別ルールに含まれる互いに異なる複数のサブルールのうちで使用対象のサブルールの指定を受付可能な学習装置に関する。
図5は、第4実施形態における学習装置の一例を示すブロック図である。図5において学習装置20は、選別部11と、判別モデル形成部12と、指定受付部21とを有している。
第4実施形態において「選別ルール」は、互いに異なる複数のサブルールを含んでいる。指定受付部21は、ユーザが操作部(不図示)を操作することにより指定した、1つのサブルール又は複数のサブルールの組み合わせを示す「指定信号」を受け付ける。そして、指定受付部21は、指定信号が示す、1つのサブルール又は複数のサブルールの組み合わせを「使用選別ルール」として、選別部11に対して設定する。これにより、選別部11は、入力された複数の学習候補データユニットから、指定受付部21によって設定された「使用選別ルール」に基づいて、該複数の学習候補データユニットの一部を、「学習対象データセット」として選別する。
以上のように第4実施形態によれば、学習装置20にて指定受付部21は、ユーザが操作部(不図示)を操作することにより指定した、1つのサブルール又は複数のサブルールの組み合わせを示す「指定信号」を受け付ける。そして、指定受付部21は、指定信号が示す、1つのサブルール又は複数のサブルールの組み合わせを「使用選別ルール」として、選別部11に対して設定する。
この学習装置20の構成により、ユーザのニーズにマッチした選別ルールを用いて、「学習対象データセット」を選別することができる。
<第5実施形態>
第5実施形態は、学習装置を含む癌検診システムに関する。
<癌検診システムの概要>
図6は、第5実施形態における癌診断システムの一例を示すブロック図である。図6において癌診断システム1は、データ取得装置30と、学習装置40と、判別装置50とを有している。例えば、データ取得装置30は、病院又は研究機関に配設されてもよい。また、例えば、学習装置40は、病院又は研究機関でも、クラウド上で構築されてもよい。また、判別装置50は、判別対象の尿が癌患者の尿及び非癌患者の尿のいずれであるかを判別する判別機関に配設されてもよく、判別機関は病院又は研究機関であってもよい。
<データ取得装置の構成例>
図6においてデータ取得装置30は、臭いセンサ31と、記憶部32と、通信部33とを有している。臭いセンサ31は、被験者の尿から臭いを検知して尿臭データユニットを形成し、形成した尿臭データユニットを記憶部32へ出力する。
記憶部32は、臭いセンサ31から受け取った尿臭データユニットを、テーブル(以下では、「収集データテーブル」と呼ぶことがある)の形式で記憶する。図7は、第5実施形態における収集データテーブルの一例を示す図である。図7に示す収集データテーブルにおいて各エントリは、項目として、インデックスと尿臭データユニットと癌ラベル(ガン/not)と「被験者情報」とを含んでいる。「被験者情報」は、例えば、被験者についての、「性別」、「身長」、「体重」、「癌以外の並存病」、及び、「投薬種別」、並びに、尿が採取されたときの採取条件(病院内又は外来等)及び採取日を含んでいてもよい。すなわち、「被験者情報」には、上記の「特性パラメータ」の情報が含まれている。なお、図7の例では、収集データテーブルを1つのテーブルの形式で表しているが、収集データテーブルは、複数のテーブルの集合として形成されてもよい。例えば、収集データテーブルは、尿サンプルIDと被験者IDとを対応づけた第1テーブルと、尿サンプルIDと尿臭データユニットとを対応づけた第2テーブルと、被験者IDと被験者情報とを対応づけた第3テーブルと、尿サンプルIDと癌ラベルとを対応づけた第4テーブルとから成る、テーブル集合であってもよい。
通信部33は、記憶部32に記憶されている収集データテーブルを学習装置40へ送信する。
<学習装置の構成例>
図6において学習装置40は、通信部41と、記憶部42と、選別部43と、判別モデル形成部44とを有している。
通信部41は、データ取得装置30から送信された収集データテーブルを受信して、記憶部42へ出力する。
記憶部42は、通信部41から受け取った収集データテーブルを記憶する。
選別部43は、記憶部42に記憶されている収集データテーブルの各エントリから学習候補データユニットを抽出して取得する。すなわち、収集データテーブルの各エントリには、選別部43における選別処理に必要のない項目も含まれているので、各エントリから必要な項目の情報を抽出して学習候補データユニットとして取得する。
そして、選別部43は、第1実施形態から第4実施形態のいずれかの選別部11と同様に、取得した複数の学習候補データユニットから、「選別ルール」に基づいて、該複数の学習候補データユニットの一部を、「学習対象データセット」として選別する。
判別モデル形成部44は、第1実施形態から第4実施形態の判別モデル形成部12と同様に、選別部43にて選別された学習対象データセットを用いて、上記の「判別モデル」を形成する。
<判別装置の構成例>
図6において判別装置50は、臭いセンサ51と、判別部52とを有している。
臭いセンサ51は、判別対象の被験者の尿から臭いを検知して判別対象尿臭データユニットを形成し、形成した判別対象尿臭データユニットを判別部52へ出力する。
判別部52は、学習装置40にて形成された判別モデルを用いて、臭いセンサ51から受け取った判別対象尿臭データユニットが癌患者の尿及び非癌患者の尿のいずれに対応するかを判別する。ここで、判別部52は、学習装置40において判別モデルの学習に特性パラメータが用いられずに尿臭データユニットが用いられている場合、臭いセンサ51から受け取った判別対象尿臭データユニットを用いて判別する。一方、学習装置40において判別モデルの学習に尿臭データユニットと共に特性パラメータが用いられている場合、判別部52には、判別対象の被験者に関する特性パラメータの値も入力される。そして、判別部52は、入力された判別対象尿臭データユニット及び特性パラメータ値と判別モデルとに基づいて、判別対象尿臭データユニットが癌患者の尿及び非癌患者の尿のいずれに対応するかを判別する。
なお、以上の説明では、判別装置50をデータ取得装置30及び学習装置40と独立した装置として説明したが、これに限定されるものではない。例えば、判別装置50は、データ取得装置30に含まれてもよい。この場合、臭いセンサ31と臭いセンサ51とは、1つの臭いセンサであってもよい。また、例えば、判別装置50の判別部52は、学習装置40に設けられてもよい。この場合、臭いセンサ51で形成された判別対象尿臭データユニットは、判別装置50の通信部(不図示)を介して学習装置40へ送信され、学習装置40に設けられた判別部52が、判別対象尿臭データユニットが癌患者の尿及び非癌患者の尿のいずれに対応するかを判別してもよい。
以上の第1実施形態から第5実施形態では、学習装置の選別部において、複数の学習候補データユニットから、「選別ルール」に基づいて、該複数の学習候補データユニットの一部を、「学習対象データセット」として選別する、実施形態について説明した。第6実施形態以降では、学習装置において、複数の学習候補データユニットの各々に対して、バランシングルールに基づいて、判別モデルを形成するために用いられる損失関数のウェイトを付与することにより、学習対象データセットを形成する、実施形態について説明する。
<第6実施形態>
図8は、第6実施形態における学習装置の一例を示すブロック図である。図8に示す学習装置60は、第1実施形態から第5実施形態の学習装置と同様に、判別対象尿臭データユニットが癌患者の尿及び非癌患者の尿のいずれに対応するかを判別するための「判別モデル」を学習する装置である。図8において学習装置60は、学習対象データセット形成部61と、判別モデル形成部62とを有している。
学習対象データセット形成部61は、第1実施形態から第5実施形態の学習装置の選別部と同様に、複数の学習候補データユニット(学習候補データユニット群)を入力する。
そして、学習対象データセット形成部61は、複数の学習候補データユニットの各々に対して、「バランシングルール」に基づいて、「ウェイト」を付与することにより、「学習対象データセット」を形成する。該ウェイトは、判別モデルを形成するために用いられる損失関数のウェイトである。ここで、ウェイトとしてゼロを学習候補データユニットに対して付与すれば該学習候補データユニットは判別モデル形成部62における学習に寄与しないことになる。従って、学習候補データユニットに対してゼロ値のウェイトを付与することは、第1実施形態から第5実施形態における「選別処理」において学習対象データセットから除外されることと同等である。
図8の説明に戻り、判別モデル形成部62は、学習対象データセット形成部61にて形成された学習対象データセットに基づいて、上記の判別モデルを形成する。
具体的には、判別モデル形成部62は、学習対象データセットの各学習候補データユニットの尿臭データユニットと癌ラベルと判別モデルfから得られる損失関数lossの値に対してウェイトwを乗算して得られた値を、すべての学習候補データユニットについてサマリした総和(下記の式(1)を参照)が最小となるように、判別モデルfを形成する。この損失関数は特に限定されるものではなく、例えばクロスエントロピー、ヒンジロス、指数ロス、0/1ロスなどであっても良い。
Figure 0007364206000001
式(1)において、Nは、学習対象データセットに含まれる学習候補データユニットの数を示す。また、iは、i番目の学習候補データユニットを示す。wは、i番目の学習候補データユニットのウェイトを表す。xは、i番目の学習候補データユニットの説明変数を示し、少なくともi番目の学習候補データユニットの尿臭データユニットを含む。また、yは、癌ラベルを示す。
以上のように第6実施形態によれば、学習装置60にて学習対象データセット形成部61は、入力された複数の学習候補データユニットの各々に対して、バランシングルールに基づいて、判別モデルを形成するために用いられる損失関数のウェイトを付与することにより、学習対象データセットを形成する。判別モデル形成部62は、学習対象データセット形成部61にて形成された学習対象データセットに基づいて、上記の判別モデルを形成する。
この学習装置60の構成により、判別モデル形成部62の学習に対する、各学習候補データユニットの寄与度を調整することができる。これにより、判別モデルの精度向上を実現できる。
<第7実施形態>
第7実施形態は、上記の「バランシングルール」の具体例に関する。第7実施形態の学習装置の基本構成は、第6実施形態の学習装置60と同じなので、図8を参照して説明する。
第7実施形態の学習装置60にて学習対象データセット形成部61は、第6実施形態と同様に、入力された複数の学習候補データユニットの各々に対して、「バランシングルール」に基づいて、「ウェイト」を付与することにより、「学習対象データセット」を形成する。
第7実施形態における「バランシングルール」は、「学習対象データセット」にて癌患者を示す癌ラベルを有する学習候補データユニットに付与されたウェイトの総和と非癌患者を示す癌ラベルを有する学習候補データユニットに付与されたウェイトの総和とをバランスさせる、サブルールA1を含む。
図9は、第6実施形態における学習対象データセットの形成方法の一例の説明に供する図である。図9の左図は、学習対象データセット形成部61に入力される学習候補データユニット群の一例を示し、図9の右図は、学習対象データセット形成部61にて選別された「学習対象データセット」の一例を示している。
図9の左図において各エントリは、学習候補データユニットに対応し、項目として、インデックス(Ind)と尿臭データユニットと癌ラベル(ガン/not)とを含んでいる。そして、図9の右図に示すように、「バランシングルール」に従って、学習対象データセット形成部61によって、各エントリに対してウェイト(重み)wが、付されている。図9に示す例では、癌患者を示す癌ラベルを有するエントリのウェイトの総和と、非癌患者を示す癌ラベルを有するエントリのウェイトの総和とが等しくなるように、各エントリに対してウェイトが付されている。また、図9に示す例では、癌患者を示す癌ラベルを有する学習候補データユニットのウェイトは、非癌患者を示す癌ラベルを有する学習候補データユニットのウェイトよりも小さくなっている。このため、癌患者を示す癌ラベルを有する学習候補データユニットは、非癌患者を示す癌ラベルを有する学習候補データユニットに比べて、判別モデル形成部62の学習に対する寄与度が低くなっている。なお、図9の例では、癌患者を示す癌ラベルを有する複数の学習候補データユニットのそれぞれに付されるウェイトが等しくなっているが、これに限定されるものではなく、異なっていてもよい。非癌患者を示す癌ラベルを有する複数の学習候補データユニットについても同様である。
第7実施形態の判別モデル形成部62は、第6実施形態と同様に、例えば上記の式(1)によって得られる値が最小となるように、判別モデルを形成する。図9の例では、式(1)におけるxは、i番目の学習候補データユニットの尿臭データユニットである。
以上のように第7実施形態によれば、学習装置60にて学習対象データセット形成部61は、入力された複数の学習候補データユニットの各々に対して、「バランシングルール」に基づいて、判別モデルを形成するために用いられる損失関数のウェイトを付与することにより、学習対象データセットを形成する。「バランシングルール」は、「学習対象データセット」において癌患者を示す癌ラベルを有する学習候補データユニットに付与されたウェイトの総和と非癌患者を示す癌ラベルを有する学習候補データユニットに付与されたウェイトの総和とをバランスさせる、サブルールを含む。
この学習装置60の構成により、判別モデル形成部62の学習に対する、「学習対象データセット」において癌患者を示す癌ラベルを有する学習候補データユニットの全体の寄与度と非癌患者を示す癌ラベルを有する学習候補データユニットの全体の寄与度とをバランスさせることができる。これにより、判別モデルの精度向上を実現できる。
<第8実施形態>
第8実施形態は、上記の「バランシングルール」のバリエーションに関する。第8実施形態の学習装置の基本構成は、第6実施形態の学習装置60と同じなので、図8を参照して説明する。
第8実施形態において、各学習候補データユニットは、上記の「尿臭データユニット」及び「癌ラベル」の他に、被験者に関する「特性パラメータ」を含んでいる。「特性パラメータ」は、N(Nは、2以上の自然数)個の第k値(k=1,・・・,N)を取り得る。すなわち、「特性パラメータ」は、少なくとも第1値及び第2値を取り得る。例えば、「特性パラメータ」は、被験者についての、「性別」、「身長」、「体重」、「癌以外の並存病」、及び、「投薬種別」のうちのいずれか1つ又は任意の組み合わせであってもよい。
第8実施形態の学習装置60にて学習対象データセット形成部61は、第6実施形態及び第7実施形態と同様に、入力された複数の学習候補データユニットの各々に対して、「バランシングルール」に基づいて、「ウェイト」を付与することにより、「学習対象データセット」を形成する。
第8実施形態における「バランシングルール」は、「学習対象データセット」において、各第k値を有する学習候補データユニットのウェイトの総和をバランスさせる、サブルールA2を含む。すなわち、サブルールA2は、学習対象データセットにおいて上記の第1値を有する学習候補データユニットのウェイトの総和と上記の第2値を有する学習候補データユニットのウェイトの総和とをバランスさせる、ルールである。サブルールA2は、上記のサブルールA1と共に用いられてもよいし、単独で用いられてもよい。
例えば、上記の特性パラメータとして、被験者に対して癌以外の並存病の治療のために投与された投薬種別が用いられてもよい。この場合、「バランシングルール」は、学習対象データセットにおいて、被験者の尿に影響を及ぼす投薬を示す投薬種別及び癌患者を示す癌ラベルを有する学習候補データユニットのウェイトの総和と被験者の尿に影響を及ぼす投薬を示す投薬種別及び非癌患者を示す癌ラベルを有する学習候補データユニットのウェイトの総和とをバランスさせる、サブルールを含んでいてもよい。
以上のように第8実施形態によれば、学習装置60にて学習対象データセット形成部61は、入力された複数の学習候補データユニットの各々に対して、「バランシングルール」に基づいて、判別モデルを形成するために用いられる損失関数のウェイトを付与することにより、学習対象データセットを形成する。各学習候補データユニットは、少なくとも第1値及び第2値を取り得る、被験者に関する「特性パラメータ」をさらに含む。「バランシングルール」は、学習対象データセットにおいて、上記の第1値を有する学習候補データユニットのウェイトの総和と上記の第2値を有する学習候補データユニットのウェイトの総和とをバランスさせる、サブルールを含む。
この学習装置60の構成により、学習対象データセットにおいて各特性パラメータ値間のウェイトの総和をバランスさせることができる。これにより、判別モデルの精度向上を実現できる。
<第9実施形態>
第9実施形態は、バランシングルールに含まれる互いに異なる複数のサブルールのうちで使用対象のサブルールの指定を受付可能な学習装置に関する。
図10は、第9実施形態における学習装置の一例を示すブロック図である。図10において学習装置70は、学習対象データセット形成部61と、判別モデル形成部62と、指定受付部71とを有している。
第9実施形態において「バランシングルール」は、互いに異なる複数のサブルールを含んでいる。指定受付部71は、ユーザが操作部(不図示)を操作することにより指定した、1つのサブルール又は複数のサブルールの組み合わせを示す「指定信号」を受け付ける。そして、指定受付部71は、指定信号が示す、1つのサブルール又は複数のサブルールの組み合わせを「使用バランシングルール」として、学習対象データセット形成部61に対して設定する。これにより、学習対象データセット形成部61は、入力された各学習候補データユニットに対して、指定受付部71によって設定された「使用バランシングルール」に基づき、判別モデルを形成するために用いられる損失関数のウェイトを付与することにより、学習対象データセットを形成できる。
以上のように第9実施形態によれば、学習装置70にて指定受付部71は、ユーザが操作部(不図示)を操作することにより指定した、1つのサブルール又は複数のサブルールの組み合わせを示す「指定信号」を受け付ける。そして、指定受付部71は、指定信号が示す、1つのサブルール又は複数のサブルールの組み合わせを「使用バランシングルール」として、学習対象データセット形成部61に対して設定する。
この学習装置70の構成により、ユーザのニーズにマッチしたバランシングルールを用いて、「学習対象データセット」を形成することができる。
<第10実施形態>
第10実施形態は、学習装置を含む癌検診システムに関する。
<癌検診システムの概要>
図11は、第10実施形態における癌診断システムの一例を示すブロック図である。図10において癌診断システム2は、データ取得装置30と、学習装置80と、判別装置50とを有している。例えば、学習装置80は、病院又は研究機関でも、クラウド上で構築されてもよい。なお、データ取得装置30及び判別装置50は、第5実施形態と同じである。
<学習装置の構成例>
図11において学習装置80は、通信部41と、記憶部42と、学習対象データセット形成部81と、判別モデル形成部82とを有している。
学習対象データセット形成部81は、記憶部42に記憶されている収集データテーブルの各エントリから学習候補データユニットを抽出して取得する。すなわち、収集データテーブルの各エントリには、選別部43における選別処理に必要のない項目も含まれているので、各エントリから必要な項目の情報を抽出して学習候補データユニットとして取得する。
そして、学習対象データセット形成部81は、第6実施形態から第9実施形態のいずれかの学習対象データセット形成部61と同様に、複数の学習候補データユニットの各々に対して、「バランシングルール」に基づいて、「ウェイト」を付与することにより、「学習対象データセット」を形成する。
判別モデル形成部82は、第6実施形態から第9実施形態の判別モデル形成部62と同様に、学習対象データセット形成部81にて形成された学習対象データセットを用いて、上記の「判別モデル」を形成する。
<他の実施形態>
図12は、学習装置のハードウェア構成例を示す図である。図12において学習装置100は、プロセッサ101と、メモリ102と、通信回路103とを有している。プロセッサ101は、例えば、マイクロプロセッサ、MPU(Micro Processing Unit)、又はCPU(Central Processing Unit)であってもよい。プロセッサ101は、複数のプロセッサを含んでもよい。メモリ102は、揮発性メモリ及び不揮発性メモリの組み合わせによって構成される。メモリ102は、プロセッサ101から離れて配置されたストレージを含んでもよい。この場合、プロセッサ101は、図示されていないI/Oインタフェースを介してメモリ102にアクセスしてもよい。
第1実施形態から第10実施形態の学習装置10,20,40,60,70,80は、それぞれ、図12に示したハードウェア構成を有することができる。第1実施形態から第10実施形態の学習装置10,20,40,60,70,80の選別部11,43と、判別モデル形成部12,44と、指定受付部21と、学習対象データセット形成部61,81と、判別モデル形成部62,82と、指定受付部71とは、プロセッサ101がメモリ102に記憶されたプログラムを読み込んで実行することにより実現されてもよい。また、記憶部42は、メモリ102によって実現されてもよい。また、通信部41は、通信回路103によって実現されてもよい。プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、学習装置10,20,40,60,70,80に供給することができる。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)を含む。さらに、非一時的なコンピュータ可読媒体の例は、CD-ROM(Read Only Memory)、CD-R、CD-R/Wを含む。さらに、非一時的なコンピュータ可読媒体の例は、半導体メモリを含む。半導体メモリは、例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory)を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によって学習装置10,20,40,60,70,80に供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムを学習装置10,20,40,60,70,80に供給できる。
以上、実施の形態を参照して本願発明を説明したが、本願発明は上記によって限定されるものではない。本願発明の構成や詳細には、発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記A1)
複数の癌患者及び複数の非癌患者から成る複数の被験者にそれぞれ対応し、且つ、各学習候補データユニットが、対応する被験者の尿から得られた尿臭データユニット、及び、前記対応する被験者が癌患者であるか又は非癌患者であるかを少なくとも示す癌ラベルを少なくとも含む、複数の学習候補データユニットから、選別ルールに基づいて、前記複数の学習候補データユニットの一部を、学習対象データセットとして選別する選別部と、
前記選別された学習対象データセットを用いて、判別対象尿臭データユニットが癌患者の尿及び非癌患者の尿のいずれに対応するかを判別するための判別モデルを形成する判別モデル形成部と、
を具備する、学習装置。
(付記A2)
各学習候補データユニットは、少なくとも第1値及び第2値を取り得る、前記被験者に関する特性パラメータをさらに含み、
前記選別ルールは、前記学習対象データセットにおいて前記第1値を有する前記学習候補データユニットの数と前記第2値を有する前記学習候補データユニットの数とをバランスさせる、第1サブルールを含む、
付記A1記載の学習装置。
(付記A3)
前記選別ルールは、前記学習対象データセットにおいて癌患者を示す前記癌ラベルを有する前記学習候補データユニットの数と非癌患者を示す前記癌ラベルを有する前記学習候補データユニットの数とをバランスさせる、第2サブルールをさらに含む、
付記A2記載の学習装置。
(付記A4)
前記特性パラメータは、前記被験者についての、性別、身長、体重、癌以外の並存病、及び、投薬種別のうちのいずれか1つ又は任意の組み合わせである、
付記A2又はA3に記載の学習装置。
(付記A5)
前記選別ルールは、互いに異なる複数のサブルールを含み、
前記複数のサブルールのうちで、前記選別部にて前記学習対象データセットの選別に用いられるサブルールの指定を受け付ける、指定受付部をさらに具備する、
付記A2からA4のいずれか1項に記載の学習装置。
(付記A6)
前記判別モデル形成部は、前記選別された学習対象データセットの各学習候補データユニットに含まれる前記特性パラメータを学習に用いずに前記尿臭データユニット及び癌ラベルを用いて、前記判別モデルを形成する、
付記A2からA5のいずれか1項に記載の学習装置。
(付記A7)
各学習候補データユニットは、前記被験者に対して癌以外の並存病の治療のために投与された投薬種別をさらに含み、
前記選別ルールは、前記学習対象データセットにおいて、前記被験者の尿に影響を及ぼす投薬を示す前記投薬種別及び癌患者を示す前記癌ラベルを有する前記学習候補データユニットの数と前記被験者の尿に影響を及ぼす投薬を示す前記投薬種別及び非癌患者を示す前記癌ラベルを有する前記学習候補データユニットの数とをバランスさせる、第3サブルールを含む、
付記A1記載の学習装置。
(付記A8)
前記癌ラベルは、前記被験者の癌の種類及び癌の進行度のうちの少なくとも1つをさらに含む、
付記A1からA7のいずれか1項に記載の学習装置。
(付記A9)
複数の癌患者及び複数の非癌患者から成る複数の被験者にそれぞれ対応し、且つ、各学習候補データユニットが、対応する被験者の尿から得られた尿臭データユニット、及び、前記対応する被験者が癌患者であるか又は非癌患者であるかを少なくとも示す癌ラベルを少なくとも含む、複数の学習候補データユニットから、選別ルールに基づいて、前記複数の学習候補データユニットの一部を、学習対象データセットとして選別し、
前記選別された学習対象データセットを用いて、判別対象尿臭データユニットが癌患者の尿及び非癌患者の尿のいずれに対応するかを判別するための判別モデルを形成する、
学習方法。
(付記A10)
複数の癌患者及び複数の非癌患者から成る複数の被験者にそれぞれ対応し、且つ、各学習候補データユニットが、対応する被験者の尿から得られた尿臭データユニット、及び、前記対応する被験者が癌患者であるか又は非癌患者であるかを少なくとも示す癌ラベルを少なくとも含む、複数の学習候補データユニットから、選別ルールに基づいて、前記複数の学習候補データユニットの一部を、学習対象データセットとして選別し、
前記選別された学習対象データセットを用いて、判別対象尿臭データユニットが癌患者の尿及び非癌患者の尿のいずれに対応するかを判別するための判別モデルを形成する、
処理を、学習装置に実行させる制御プログラム。
(付記B1)
複数の癌患者及び複数の非癌患者から成る複数の被験者にそれぞれ対応し、且つ、各学習候補データユニットが、対応する被験者の尿から得られた尿臭データユニット、及び、前記対応する被験者が癌患者であるか又は非癌患者であるかを少なくとも示す癌ラベルを少なくとも含む、複数の学習候補データユニットの各々に対して、バランシングルールに基づいて、判別モデルを形成するために用いられる損失関数のウェイトを付与することにより、学習対象データセットを形成する、学習対象データセット形成部と、
前記形成された学習対象データセットに基づいて、判別対象尿臭データユニットが癌患者の尿及び非癌患者の尿のいずれに対応するかを判別するための前記判別モデルを形成する判別モデル形成部と、
を具備する、学習装置。
(付記B2)
前記バランシングルールは、前記学習対象データセットにおいて前記被験者が癌患者であることを示す癌ラベルを有する前記学習候補データユニットに付与されたウェイトの総和と前記被験者が非癌患者であることを示す癌ラベルを有する前記学習候補データユニットに付与されたウェイトの総和とをバランスさせる、サブルールを含む、
付記B1記載の学習装置。
(付記B3)
各学習候補データユニットは、少なくとも第1値及び第2値を取り得る、前記被験者に関する特性パラメータをさらに含み、
前記バランシングルールは、前記学習対象データセットにおいて前記第1値を有する前記学習候補データユニットに付与されたウェイトの総和と前記第2値を有する前記学習候補データユニットに付与されたウェイトの総和とをバランスさせる、サブルールを含む、
付記B1記載の学習装置。
(付記B4)
前記特性パラメータは、前記被験者についての、性別、身長、体重、癌以外の並存病、及び、投薬種別のうちのいずれか1つ又は任意の組み合わせである、
付記B3に記載の学習装置。
(付記B5)
前記バランシングルールは、互いに異なる複数のサブルールを含み、
前記複数のサブルールのうちで、前記学習対象データセット形成部にて前記学習対象データセットの形成に用いられるサブルールの指定を受け付ける、指定受付部をさらに具備する、
付記B3又はB4に記載の学習装置。
(付記B6)
各学習候補データユニットは、前記被験者に対して癌以外の並存病の治療のために投与された投薬種別をさらに含み、
前記バランシングルールは、前記学習対象データセットにおいて、前記被験者の尿に影響を及ぼす投薬を示す前記投薬種別及び癌患者を示す前記癌ラベルを有する前記学習候補データユニットのウェイトの総和と前記被験者の尿に影響を及ぼす投薬を示す前記投薬種別及び非癌患者を示す前記癌ラベルを有する前記学習候補データユニットのウェイトの総和とをバランスさせる、サブルールを含む、
付記B1記載の学習装置。
(付記B7)
前記学習対象データセット形成部は、前記複数の学習候補データユニットのうちの一部に対して、ゼロ値の前記ウェイトを付与することにより、該一部の学習候補データユニットを前記学習対象データセットから除外する、
付記B1からB6のいずれか1項に記載の学習装置。
(付記B8)
前記癌ラベルは、前記被験者の癌の種類及び癌の進行度のうちの少なくとも1つをさらに含む、
付記B1からB7のいずれか1項に記載の学習装置。
(付記B9)
複数の癌患者及び複数の非癌患者から成る複数の被験者にそれぞれ対応し、且つ、各学習候補データユニットが、対応する被験者の尿から得られた尿臭データユニット、及び、前記対応する被験者が癌患者であるか又は非癌患者であるかを少なくとも示す癌ラベルを少なくとも含む、複数の学習候補データユニットの各々に対して、バランシングルールに基づいて、判別モデルを形成するために用いられる損失関数のウェイトを付与することにより、学習対象データセットを形成し、
前記形成された学習対象データセットに基づいて、判別対象尿臭データユニットが癌患者の尿及び非癌患者の尿のいずれに対応するかを判別するための前記判別モデルを形成する、
学習方法。
(付記B10)
複数の癌患者及び複数の非癌患者から成る複数の被験者にそれぞれ対応し、且つ、各学習候補データユニットが、対応する被験者の尿から得られた尿臭データユニット、及び、前記対応する被験者が癌患者であるか又は非癌患者であるかを少なくとも示す癌ラベルを少なくとも含む、複数の学習候補データユニットの各々に対して、バランシングルールに基づいて、判別モデルを形成するために用いられる損失関数のウェイトを付与することにより、学習対象データセットを形成し、
前記形成された学習対象データセットに基づいて、判別対象尿臭データユニットが癌患者の尿及び非癌患者の尿のいずれに対応するかを判別するための前記判別モデルを形成する、
処理を、学習装置に実行させる制御プログラム。
1 癌診断システム
2 癌診断システム
10 学習装置
11 選別部
12 判別モデル形成部
20 学習装置
21 指定受付部
30 データ取得装置
31 臭いセンサ
32 記憶部
33 通信部
40 学習装置
41 通信部
42 記憶部
43 選別部
44 判別モデル形成部
50 判別装置
51 臭いセンサ
52 判別部
60 学習装置
61 学習対象データセット形成部
62 判別モデル形成部
70 学習装置
71 指定受付部
80 学習装置
81 学習対象データセット形成部
82 判別モデル形成部

Claims (9)

  1. 複数の癌患者及び複数の非癌患者から成る複数の被験者にそれぞれ対応し、且つ、各学習候補データユニットが、対応する被験者の尿から得られた尿臭データユニット、及び、前記対応する被験者が癌患者であるか又は非癌患者であるかを少なくとも示す癌ラベルを少なくとも含む、複数の学習候補データユニットから、選別ルールに基づいて、前記複数の学習候補データユニットの一部を、学習対象データセットとして選別する選別部と、
    前記選別された学習対象データセットを用いて、判別対象尿臭データユニットが癌患者の尿及び非癌患者の尿のいずれに対応するかを判別するための判別モデルを形成する判別モデル形成部と、
    を具備
    各学習候補データユニットは、前記被験者に対して癌以外の並存病の治療のために投与された投薬種別をさらに含み、
    前記選別ルールは、前記学習対象データセットにおいて、前記被験者の尿に影響を及ぼす投薬を示す前記投薬種別及び癌患者を示す前記癌ラベルを有する前記学習候補データユニットの数と前記被験者の尿に影響を及ぼす投薬を示す前記投薬種別及び非癌患者を示す前記癌ラベルを有する前記学習候補データユニットの数とをバランスさせる、第3サブルールを含む、
    学習装置。
  2. 各学習候補データユニットは、少なくとも第1値及び第2値を取り得る、前記被験者に関する特性パラメータをさらに含み、
    前記選別ルールは、前記学習対象データセットにおいて前記第1値を有する前記学習候補データユニットの数と前記第2値を有する前記学習候補データユニットの数とをバランスさせる、第1サブルールを含む、
    請求項1記載の学習装置。
  3. 前記選別ルールは、前記学習対象データセットにおいて癌患者を示す前記癌ラベルを有する前記学習候補データユニットの数と非癌患者を示す前記癌ラベルを有する前記学習候補データユニットの数とをバランスさせる、第2サブルールをさらに含む、
    請求項2記載の学習装置。
  4. 前記特性パラメータは、前記被験者についての、性別、身長、体重、癌以外の並存病、及び、投薬種別のうちのいずれか1つ又は任意の組み合わせである、
    請求項2又は3に記載の学習装置。
  5. 前記選別ルールは、互いに異なる複数のサブルールを含み、
    前記複数のサブルールのうちで、前記選別部にて前記学習対象データセットの選別に用いられるサブルールの指定を受け付ける、指定受付部をさらに具備する、
    請求項2から4のいずれか1項に記載の学習装置。
  6. 前記判別モデル形成部は、前記選別された学習対象データセットの各学習候補データユニットに含まれる前記特性パラメータを学習に用いずに前記尿臭データユニット及び癌ラベルを用いて、前記判別モデルを形成する、
    請求項2から5のいずれか1項に記載の学習装置。
  7. 前記癌ラベルは、前記被験者の癌の種類及び癌の進行度のうちの少なくとも1つをさらに含む、
    請求項1からのいずれか1項に記載の学習装置。
  8. 学習方法であって、
    複数の癌患者及び複数の非癌患者から成る複数の被験者にそれぞれ対応し、且つ、各学習候補データユニットが、対応する被験者の尿から得られた尿臭データユニット、及び、前記対応する被験者が癌患者であるか又は非癌患者であるかを少なくとも示す癌ラベルを少なくとも含む、複数の学習候補データユニットから、選別ルールに基づいて、前記複数の学習候補データユニットの一部を、学習対象データセットとして選別することと
    前記選別された学習対象データセットを用いて、判別対象尿臭データユニットが癌患者の尿及び非癌患者の尿のいずれに対応するかを判別するための判別モデルを形成することと
    を含み、
    各学習候補データユニットは、前記被験者に対して癌以外の並存病の治療のために投与された投薬種別をさらに含み、
    前記選別ルールは、前記学習対象データセットにおいて、前記被験者の尿に影響を及ぼす投薬を示す前記投薬種別及び癌患者を示す前記癌ラベルを有する前記学習候補データユニットの数と前記被験者の尿に影響を及ぼす投薬を示す前記投薬種別及び非癌患者を示す前記癌ラベルを有する前記学習候補データユニットの数とをバランスさせる、サブルールを含む、
    学習方法。
  9. 複数の癌患者及び複数の非癌患者から成る複数の被験者にそれぞれ対応し、且つ、各学習候補データユニットが、対応する被験者の尿から得られた尿臭データユニット、及び、前記対応する被験者が癌患者であるか又は非癌患者であるかを少なくとも示す癌ラベルを少なくとも含む、複数の学習候補データユニットから、選別ルールに基づいて、前記複数の学習候補データユニットの一部を、学習対象データセットとして選別し、
    前記選別された学習対象データセットを用いて、判別対象尿臭データユニットが癌患者の尿及び非癌患者の尿のいずれに対応するかを判別するための判別モデルを形成する、
    処理を、学習装置に実行させ
    各学習候補データユニットは、前記被験者に対して癌以外の並存病の治療のために投与された投薬種別をさらに含み、
    前記選別ルールは、前記学習対象データセットにおいて、前記被験者の尿に影響を及ぼす投薬を示す前記投薬種別及び癌患者を示す前記癌ラベルを有する前記学習候補データユニットの数と前記被験者の尿に影響を及ぼす投薬を示す前記投薬種別及び非癌患者を示す前記癌ラベルを有する前記学習候補データユニットの数とをバランスさせる、サブルールを含む、
    制御プログラム。
JP2019074032A 2019-04-09 2019-04-09 学習装置、学習方法、及び制御プログラム Active JP7364206B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019074032A JP7364206B2 (ja) 2019-04-09 2019-04-09 学習装置、学習方法、及び制御プログラム
PCT/JP2020/015290 WO2020209191A1 (ja) 2019-04-09 2020-04-03 学習装置、学習方法、及び非一時的なコンピュータ可読媒体
US17/601,857 US20220172843A1 (en) 2019-04-09 2020-04-03 Learning device, learning method, and non-transitory computer-readable medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019074032A JP7364206B2 (ja) 2019-04-09 2019-04-09 学習装置、学習方法、及び制御プログラム

Publications (2)

Publication Number Publication Date
JP2020173528A JP2020173528A (ja) 2020-10-22
JP7364206B2 true JP7364206B2 (ja) 2023-10-18

Family

ID=72751574

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019074032A Active JP7364206B2 (ja) 2019-04-09 2019-04-09 学習装置、学習方法、及び制御プログラム

Country Status (3)

Country Link
US (1) US20220172843A1 (ja)
JP (1) JP7364206B2 (ja)
WO (1) WO2020209191A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023026996A1 (en) * 2021-08-25 2023-03-02 Craif Inc. Neural-Network-Based Classifier

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010046057A (ja) 2008-07-22 2010-03-04 Akita Univ 癌細胞の治療感受性増強剤、癌細胞の治療感受性の判定方法、および癌細胞の治療感受性判定キット
JP2013122383A (ja) 2011-12-09 2013-06-20 Kochi Univ 膀胱癌の測定方法、または癌治療後の予後の判定方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10706327B2 (en) * 2016-08-03 2020-07-07 Canon Kabushiki Kaisha Information processing apparatus, information processing method, and storage medium

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010046057A (ja) 2008-07-22 2010-03-04 Akita Univ 癌細胞の治療感受性増強剤、癌細胞の治療感受性の判定方法、および癌細胞の治療感受性判定キット
JP2013122383A (ja) 2011-12-09 2013-06-20 Kochi Univ 膀胱癌の測定方法、または癌治療後の予後の判定方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ryouta0506,不均衡データに対するClassification,オンライン,2017年08月15日,p.1, http://web.archive.org/web/20170815211140/https://qiita.com/ryouta0506/items/619d9ac0d80f8c0aed92,[検索日2023年4月20日]

Also Published As

Publication number Publication date
WO2020209191A1 (ja) 2020-10-15
US20220172843A1 (en) 2022-06-02
JP2020173528A (ja) 2020-10-22

Similar Documents

Publication Publication Date Title
Ganggayah et al. Predicting factors for survival of breast cancer patients using machine learning techniques
Pradeep et al. Lung cancer survivability prediction based on performance using classification techniques of support vector machines, C4. 5 and Naive Bayes algorithms for healthcare analytics
KR101855117B1 (ko) 질병에 대한 발병 확률 예측 방법 및 장치
US11664126B2 (en) Clinical predictor based on multiple machine learning models
EP1292912A1 (en) Heuristic method of classification
WO2012145616A2 (en) Predictive modeling
JP6941309B2 (ja) 遺伝子変異の評価装置、評価方法、プログラム、および記録媒体
KR20190017105A (ko) 보험 가입 희망자와 추천 보험 상품을 매칭시키는 방법
Choudhury et al. Evaluating patient readmission risk: a predictive analytics approach
Haque et al. [Retracted] Predicting Characteristics Associated with Breast Cancer Survival Using Multiple Machine Learning Approaches
WO2015026953A1 (en) Methods for predicting prognosis
JP7364206B2 (ja) 学習装置、学習方法、及び制御プログラム
US20150347695A1 (en) Physician attribution for inpatient care
JP2020154512A (ja) 文分類装置、文分類方法及び文分類プログラム
KR102102848B1 (ko) 전립선암 위험점수 산출기, 상기 산출기의 동작 방법
Gupta et al. Keeping up with innovation: A predictive framework for modeling healthcare data with evolving clinical interventions
CN111684539B (zh) 改善临床工作流程的系统
Werner et al. The study of preprocessing methods’ utility in analysis of multidimensional and highly imbalanced medical data
Hackl et al. Unsupervised learning to subphenotype heart failure patients from electronic health records
CN114239741B (zh) 基于证据推理分类器的医疗数据分类方法及相关设备
Bai Multiobjective clustering using support vector machine: application to microarray cancer data
EP4386767A1 (en) Characteristics of patient influencing disease progession
Schlieker et al. Multivariate binary classification of imbalanced datasets—A case study based on high‐dimensional multiplex autoimmune assay data
Arthur Using Machine Learning on an Imbalanced Cancer Dataset
Kraus et al. Credit scoring optimization using the area under the curve

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190809

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20210726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20210728

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220304

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230502

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230630

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230905

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230928

R150 Certificate of patent or registration of utility model

Ref document number: 7364206

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150