JP7388606B1 - 予測方法、情報処理装置、及びプログラム - Google Patents

予測方法、情報処理装置、及びプログラム Download PDF

Info

Publication number
JP7388606B1
JP7388606B1 JP2023559850A JP2023559850A JP7388606B1 JP 7388606 B1 JP7388606 B1 JP 7388606B1 JP 2023559850 A JP2023559850 A JP 2023559850A JP 2023559850 A JP2023559850 A JP 2023559850A JP 7388606 B1 JP7388606 B1 JP 7388606B1
Authority
JP
Japan
Prior art keywords
neural network
layer
network model
prediction
coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023559850A
Other languages
English (en)
Inventor
敦 長尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DIC Corp
Original Assignee
DIC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DIC Corp filed Critical DIC Corp
Priority claimed from PCT/JP2023/019011 external-priority patent/WO2024142427A1/ja
Application granted granted Critical
Publication of JP7388606B1 publication Critical patent/JP7388606B1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/10Analysis or design of chemical reactions, syntheses or processes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Analytical Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

予測対象に係る予測技術を改善する。情報処理装置10が実行する予測方法であって、予測対象に係る実績データに基づきニューラルネットワークモデルを訓練するステップと、ニューラルネットワークモデルにより、予測対象に係る複数の説明因子に基づき、予測対象に係る目的因子を予測するステップと、を含み、ニューラルネットワークモデルは、入力層と中間層と出力層とを含み、中間層に係る活性化関数の係数は、出力層に係る活性化関数の係数よりも大きい。

Description

本開示は、予測方法、情報処理装置、及びプログラムに関する。本願は、2022年12月28日に、日本に出願された特願2022―212704に基づき優先権を主張し、その内容をここに援用する。
従来から、化学反応等の物理・化学現象に係る予測を行う手法が提案されている(例えば特許文献1)。
国際公開第2003/026791号
特許文献1に記載の技術では、反応器システムの制御を最適化するために、ニューラルネットワーク、部分最小二乗法、主成分回帰等のモデリング技術を用いられることが記載されている。しかしながら、予測を行う際におけるニューラルネットワークモデルの具体的な設計方法及び最適化については考慮されておらず、合成樹脂の化学反応等の予測対象に係る予測技術には改善の余地があった。
かかる事情に鑑みてなされた本開示の目的は、予測対象に係る予測技術を改善することにある。
(1)本開示の一実施形態における予測方法は、情報処理装置が実行する予測方法であって、
予測対象に係る実績データに基づきニューラルネットワークモデルを訓練するステップと、
前記ニューラルネットワークモデルにより、前記予測対象に係る複数の説明因子に基づき、前記予測対象に係る目的因子を予測するステップと、
を含み、
前記ニューラルネットワークモデルは、入力層と中間層と出力層とを含み、前記中間層に係る活性化関数の係数は、前記出力層に係る活性化関数の係数よりも大きい。
Figure 0007388606000001
Figure 0007388606000002
(3)本開示の一実施形態における予測方法は、(1)又は(2)に記載の予測方法であって、前記予測対象は、重縮合反応及び付加重合反応を含む。
(4)本開示の一実施形態における予測方法は、(1)から(3)のいずれかに記載の予測方法であって、前記中間素子の素子数は、前記説明因子の数の1.1倍以上6倍未満である。
(5)本開示の一実施形態における予測方法は、(1)から(4)のいずれかに記載の予測方法であって、前記入力層に入力される説明因子の数値範囲は、0以上かつ1以下であり、前記出力層から出力される目的因子の数値範囲は0.2以上かつ0.8以下である。
(6)本開示の一実施形態における情報処理装置は、制御部を備え、
前記制御部は、
予測対象に係る実績データに基づきニューラルネットワークモデルを訓練し、
前記ニューラルネットワークモデルにより、前記予測対象に係る複数の説明因子に基づき、前記予測対象に係る目的因子を予測し、
前記ニューラルネットワークモデルは、入力層と中間層と出力層とを含み、前記中間層に係る活性化関数の係数は、前記出力層に係る活性化関数の係数よりも大きい。
(7)本開示の一実施形態における非一時的なコンピュータ読取可能記録媒体は、
命令を記憶した非一時的なコンピュータ読取可能記録媒体であって、前記命令は、プロセッサによって実行された時に、プロセッサに、
予測対象に係る実績データに基づきニューラルネットワークモデルを訓練することと、
前記ニューラルネットワークモデルにより、前記予測対象に係る複数の説明因子に基づき、前記予測対象に係る目的因子を予測することと、
を実行させ、
前記ニューラルネットワークモデルは、入力層と中間層と出力層とを含み、前記中間層に係る活性化関数の係数は、前記出力層に係る活性化関数の係数よりも大きい。
本開示の一実施形態における予測方法、情報処理装置、及びプログラムによれば、予測対象に係る予測技術を改善することができる。
本実施形態における合成樹脂の化学反応に係る予測を行う情報処理装置の概略構成を示すブロック図である。 本実施形態における合成樹脂の化学反応に係る予測を行う情報処理装置の動作を示すフローチャートである。 本実施形態におけるニューラルネットワークモデルの概念図である。 本実施形態におけるニューラルネットワークモデルの学習収束結果を示すグラフである。 比較例に係るニューラルネットワークモデルの学習収束結果を示すグラフである。 比較例に係るニューラルネットワークモデルの学習収束結果を示すグラフである。 比較例に係るニューラルネットワークモデルの学習収束結果を示すグラフである。
以下、本開示の実施形態における予測対象に係る予測を行う方法について、図面を参照して説明する。本実施形態に係る予測対象は、合成樹脂の化学反応を含む。以下、本実施形態では、予測対象が合成樹脂の化学反応である場合を一例として説明する。ここで合成樹脂の化学反応は、重縮合反応及び付加重合反応を含む。重縮合反応で合成される主な高分子材料はポリエステル、ポリアミド、ポリエチレンテレフタレート、尿素樹脂、フェノール樹脂、シリコーン樹脂、アルキド樹脂、アルキド樹脂ポリエーテル、ポリグルコシド、メラミン樹脂、ポリカーボネート等である。付加重合反応で合成される主な高分子材料はポリ(メタ)アクリル酸エステル、ポリエチレン、ポリプロピレン、ポリスチレン、ポリ塩化ビニル、ポリ酢酸ビニル、ポリ塩化ビニリデン、ポリアクリロニトリル、ポリテトラフルオロエチレン等である。
各図中、同一又は相当する部分には、同一符号を付している。本実施形態の説明において、同一又は相当する部分については、説明を適宜省略又は簡略化する。
まず、本実施形態の概要について説明する。本実施形態における合成樹脂の化学反応に係る予測を行う方法では、合成樹脂の化学反応に係る実績データに基づきニューラルネットワークモデルが訓練される。また、訓練されたニューラルネットワークモデルにより、合成樹脂の化学反応に係る複数の説明因子に基づき、合成樹脂の化学反応に係る目的因子を予測する。ここで本実施形態に係るニューラルネットワークモデルは、入力層と中間層と出力層とを含み、中間層に係る活性化関数の係数が、出力層に係る活性化関数の係数よりも大きいことを特徴とする。
このように本実施形態によれば、ニューラルネットワークモデルが入力層と中間層と出力層とを含み、中間層に係る活性化関数の係数が、出力層に係る活性化関数の係数よりも大きいことを特徴とする。合成樹脂の化学反応にかかる予測を行う場合には、後述するように中間層に係る活性化関数の係数を出力層に係る活性化関数の係数よりも大きく設定することで学習過程が最適化され、また予測精度が向上する。したがって本実施形態によれば合成樹脂の化学反応に係る予測技術を改善することができる。
(情報処理装置の構成)
次に図1を参照して、情報処理装置10の各構成について詳細に説明する。情報処理装置10は、ユーザによって使用される任意の装置である。例えばパーソナルコンピュータ、サーバコンピュータ、汎用の電子機器、又は専用の電子機器が、情報処理装置10として採用可能である。
図1に示されるように、情報処理装置10は、制御部11と、記憶部12と、入力部13と、出力部14とを備える。
制御部11には、少なくとも1つのプロセッサ、少なくとも1つの専用回路、又はこれらの組み合わせが含まれる。プロセッサは、CPU(central processing unit)若しくはGPU(graphics processing unit)などの汎用プロセッサ、又は特定の処理に特化した専用プロセッサである。専用回路は、例えば、FPGA(field-programmable gate array)又はASIC(application specific integrated circuit)である。制御部11は、情報処理装置10の各部を制御しながら、情報処理装置10の動作に関わる処理を実行する。
記憶部12には、少なくとも1つの半導体メモリ、少なくとも1つの磁気メモリ、少なくとも1つの光メモリ、又はこれらのうち少なくとも2種類の組み合わせが含まれる。半導体メモリは、例えば、RAM(random access memory)又はROM(read only memory)である。RAMは、例えば、SRAM(static random access memory)又はDRAM(dynamic random access memory)である。ROMは、例えば、EEPROM(electrically erasable programmable read only memory)である。記憶部12は、例えば、主記憶装置、補助記憶装置、又はキャッシュメモリとして機能する。記憶部12には、情報処理装置10の動作に用いられるデータと、情報処理装置10の動作によって得られたデータとが記憶される。
入力部13には、少なくとも1つの入力用インタフェースが含まれる。入力用インタフェースは、例えば、物理キー、静電容量キー、ポインティングデバイス、ディスプレイと一体的に設けられたタッチスクリーンである。また入力用インタフェースは、例えば、音声入力を受け付けるマイクロフォン、又はジェスチャー入力を受け付けるカメラ等であってもよい。入力部13は、情報処理装置10の動作に用いられるデータを入力する操作を受け付ける。入力部13は、情報処理装置10に備えられる代わりに、外部の入力機器として情報処理装置10に接続されてもよい。接続方式としては、例えば、USB(Universal Serial Bus)、HDMI(登録商標)(High-Definition Multimedia Interface)、又はBluetooth(登録商標)などの任意の方式を用いることができる。
出力部14には、少なくとも1つの出力用インタフェースが含まれる。出力用インタフェースは、例えば、情報を映像で出力するディスプレイ等である。ディスプレイは、例えば、LCD(liquid crystal display)又は有機EL(electro luminescence)ディスプレイである。出力部14は、情報処理装置10の動作によって得られるデータを表示出力する。出力部14は、情報処理装置10に備えられる代わりに、外部の出力機器として情報処理装置10に接続されてもよい。接続方式としては、例えば、USB、HDMI(登録商標)、又はBluetooth(登録商標)などの任意の方式を用いることができる。
情報処理装置10の機能は、本実施形態に係るプログラムを、情報処理装置10に相当するプロセッサで実行することにより実現される。すなわち、情報処理装置10の機能は、ソフトウェアにより実現される。プログラムは、情報処理装置10の動作をコンピュータに実行させることで、コンピュータを情報処理装置10として機能させる。すなわち、コンピュータは、プログラムに従って情報処理装置10の動作を実行することにより情報処理装置10として機能する。
本実施形態においてプログラムは、コンピュータで読取り可能な記録媒体に記録しておくことができる。コンピュータで読取り可能な記録媒体は、非一時的なコンピュータ読取可能な媒体を含み、例えば、磁気記録装置、光ディスク、光磁気記録媒体、又は半導体メモリである。プログラムの流通は、例えば、プログラムを記録したDVD(digital versatile disc)又はCD-ROM(compact disc read only memory)などの可搬型記録媒体を販売、譲渡、又は貸与することによって行う。またプログラムの流通は、プログラムを外部サーバのストレージに格納しておき、外部サーバから他のコンピュータにプログラムを送信することにより行ってもよい。またプログラムはプログラムプロダクトとして提供されてもよい。
情報処理装置10の一部又は全ての機能が、制御部11に相当する専用回路により実現されてもよい。すなわち、情報処理装置10の一部又は全ての機能が、ハードウェアにより実現されてもよい。
本実施形態において記憶部12は、例えば実績データ及び予測モデルを記憶する。なお実績データ及び予測モデルは、情報処理装置10とは別の外部装置に記憶されていてもよい。その場合、情報処理装置10は、外部通信用インタフェースを備えていてもよい。通信用インタフェースは、有線通信又は無線通信のいずれのインタフェースであってよい。有線通信の場合、通信用インタフェースは例えばLANインタフェース、USBである。無線通信の場合、通信用インタフェースは例えば、LTE、4G、若しくは5Gなどの移動通信規格に対応したインタフェース、Bluetooth(登録商標)などの近距離無線通信に対応したインタフェースである。通信用インタフェースは、情報処理装置10の動作に用いられるデータを受信し、また情報処理装置10の動作によって得られるデータを送信可能である。
(情報処理装置の動作)
次に図2を参照して、本実施形態に係る情報処理装置10の動作について説明する。
ステップS101:情報処理装置10の制御部11は、合成樹脂の化学反応に係る実績データに基づきニューラルネットワークモデルを訓練する。実績データには、合成樹脂の化学反応に係る説明因子及び目的因子が含まれる。かかる説明因子及び目的因子は予測する対象の合成樹脂の化学反応に応じて適宜選択される。予測対象の合成樹脂の化学反応は、例えば重縮合反応及び付加重合反応を含む。重縮合反応は脱水縮合反応を含む。例えば脱水縮合反応にかかる予測を行う場合、実験データは脱水縮合反応に係る複数の説明因子及び目的因子を含む。例えば複数の説明因子は脱水昇温工程に係る特徴量等を含んでもよい。また、目的因子は、水酸基価、酸価等を含んでもよい。換言すると制御部11は、実績データに含まれるこれらの説明因子及び目的因子を教師データとして、ニューラルネットワークモデルを訓練する。
実績データの取得には、任意の手法が採用可能である。例えば制御部11は、記憶部12から実績データを取得する。また制御部11は、ユーザからの実績データの入力を入力部13により受け付けることで、実績データを取得してもよい。あるいは制御部11は、実績データを記憶した外部装置から通信用インタフェースを介して、かかる実績データを取得してもよい。
教師データに基づき訓練されたニューラルネットワークモデルは、既知データに基づき交差検証が行われる。かかる交差検証の結果、精度が実用範囲内である場合には、当該ニューラルネットワークモデルを用いた合成樹脂の化学反応に係る予測が行われる。
ステップS102:制御部11は、合成樹脂の化学反応に係る複数の説明因子に基づき、合成樹脂の化学反応に係る目的因子を予測する。例えば制御部11は、ユーザからの説明因子の入力を入力部13により受け付けることで、目的因子を取得してもよい。
ステップS103:制御部11は、ステップS102により得られた予測結果を出力部14により出力する。
ここで本実施形態では、活性化関数の係数が中間層と出力層とで異なることを特徴としている。具体的には、本実施形態において中間層に係る活性化関数の係数は、出力層に係る活性化関数の係数よりも大きいことを特徴としている。
図3に、本実施形態に係るニューラルネットワークモデルの概念図を示す。本実施形態に係るニューラルネットワークモデルは、入力層100と、中間層200と、出力層300とを含む。本実施形態におけるニューラルネットワークモデルは全結合である。本実施形態において、ニューラルネットワークモデルの階層数は例えば2である。かかる階層数は入力層を除く層の数である。ニューラルネットワークモデルの階層数を2とすることで、合成樹脂の化学反応における物理現象にそぐわないモデル形状となることを防ぐことができる。換言すると、ニューラルネットワークモデルの階層数を必要最低限に抑えることで、合成樹脂の化学反応における物理現象に適したモデル形状を実現することができる。なお本実施形態にかかるニューラルネットワークモデルの階層数はこれに限られず、3層以上であってもよい。ニューラルネットワークモデルの階層数が3層以上である場合、ニューラルネットワークモデルの前層ほど活性化関数の係数が大きくなるように設定されてもよい。
入力層100は、複数の素子101―104(入力素子101―104ともいう)を含む。図3に示すニューラルネットワークモデルでは入力素子数は4である。入力素子101―104は、それぞれ1番目―4番目の素子ともよばれる。入力素子101―104には、それぞれ説明因子が入力される。なお入力素子の数はこれに限られない。
中間層200は、複数の素子201―206(中間素子201―206ともいう)を含む。図3に示すニューラルネットワークモデルでは中間素子数は6である。中間素子201―206は、それぞれ1番目―6番目の素子ともよばれる。なお中間素子の数はこれに限られない。
出力層300は、複数の素子301―302(出力素子301―302ともいう)を含む。図3に示すニューラルネットワークモデルでは出力素子数は2である。出力素子301及び302は、それぞれ1番目及び2番目の素子ともよばれる。なお出力素子の数はこれに限られない。
入力層100の入力素子101―104から中間層200の中間素子201―206に入力される値は、中間層200において中間層200に係る活性化関数に基づき変換される。また変換された値は、出力層300の素子301―302に出力される。中間層200に係る活性化関数は、例えばシグモイド関数である。グラフ210は、中間層200に係る活性化関数の一例を示す。中間層200の中間素子201―206から出力層300の出力素子301―302に入力される値は、出力層300において、出力層300に係る活性化関数に基づき変換されて出力される。出力層300に係る活性化関数は、例えばシグモイド関数である。グラフ310は、出力層300に係る活性化関数の一例を示す。具体的には中間層及び前記出力層に係る活性化関数は、例えばそれぞれ以下の数式(1)(2)により定められるシグモイド関数である。
Figure 0007388606000003
本実施形態にかかるニューラルネットワークモデルでは、中間層に係る活性化関数の係数が、出力層に係る活性化関数の係数よりも大きい。これにより、合成樹脂の化学反応に係る予測を行う際のニューラルネットワークモデルの構成を最適化できる。具体的には、合成樹脂の化学反応に係る予測を行うニューラルネットワークモデルにおいては、説明因子の変化は、明確な変化として捉えられることが望ましい。そのため中間層に係る活性化関数の係数を出力層に係る活性化関数の係数よりも大きくすることにより、中間層への入力値の変化を明確な変化として出力層に伝えることができる。他方で、合成樹脂の化学反応に係る予測を行うニューラルネットワークモデルの出力層においては、教師データと目的因子の値を収束させる必要がある。そこで、出力層に係る活性化関数の係数は、中間層に係る活性化関数の係数よりも小さく設定される。このようにすることで、出力層から出力される目的因子の値は微調整される。
また活性化関数の係数を中間層と出力層とで異ならせることにより、ニューラルネットワークモデルの学習過程が最適化される。具体的には、活性化関数の係数を変更することにより、学習過程における出力層と中間層における重み変数の更新量を調整することができる。また重み変数の更新は学習過程に大きな影響がある。そのため学習過程は、更新量の調整に基づき最適化され得る。以下、L層のニューラルネットワークモデルにおける重み変数の更新量について説明する。
まずL番目の層(出力層)の重み変数の更新量について説明する。かかる重み変数の更新量は、損失関数の偏微分に基づき以下の数式(3)により定められる。
Figure 0007388606000004
数式(3)における右辺の損失関数の偏微分は微分の連鎖律に基づき以下のように変形できる。
Figure 0007388606000005
Figure 0007388606000006
Figure 0007388606000007
Figure 0007388606000008
Figure 0007388606000009
Figure 0007388606000010
また、数式(7)は以下のように変形できる。
Figure 0007388606000011
損失関数が二乗誤差関数である場合、損失関数は以下のように表される。
Figure 0007388606000012
損失関数が二乗誤差関数である場合、数式(8)は以下のように変形できる。
Figure 0007388606000013
第L層の活性化関数がシグモイド関数の場合、活性化関数は以下のように表される。
Figure 0007388606000014
数式(10)の右辺の第2項は、数式(11)に基づき以下のように式変形できる。
Figure 0007388606000015
さらに数式(12)は以下のように変形できる。
Figure 0007388606000016
数式(5)から数式(13)に基づき、数式(4)は以下のように変形できる。
Figure 0007388606000017
数式(14)の右辺の各変数はすべて数値計算により得られる値である。したがって、左辺の値は数値計算により確定できる。したがって、数式(3)に示す出力層の各重み変数の更新量は、数値計算に基づき求めることができる。
次に、ニューラルネットワークモデルの学習過程における中間層の更新量について説明する。中間層の重み変数の更新量は、損失関数の偏微分に基づき以下の数式(15)により定められる。
Figure 0007388606000018
数式(15)における右辺の損失関数の偏微分は微分の連鎖律に基づき以下のように変形できる。
Figure 0007388606000019
Figure 0007388606000020
Figure 0007388606000021
Figure 0007388606000022
Figure 0007388606000023
Figure 0007388606000024
数式(19)の右辺はさらに以下のように変形できる。
Figure 0007388606000025
第l層の活性化関数がシグモイド関数の場合、活性化関数は以下のように表される。
Figure 0007388606000026
第l層の活性化関数が上記のシグモイド関数の場合、数式(20)の右辺は以下のように変形できる。
Figure 0007388606000027
数式(22)は、さらに以下のように式変形できる。
Figure 0007388606000028
数式(17)から数式(23)に基づき、数式(16)は、以下のように変形できる。
Figure 0007388606000029
Figure 0007388606000030
数式(14)及び数式(24)に示されるように、各重み変数の更新量の算出過程において、活性化関数の係数が関係する。具体的には、中間層及び出力層の活性化関数がシグモイド関数である場合、更新量は活性化関数のal及びaLにそれぞれ比例する。換言するとシグモイド関数の係数al及びaLを変更することにより、重み変数の更新量を調整することができ、ニューラルネットワークモデルの学習過程を最適化することができる。
具体的には、合成樹脂の化学反応に係る予測を行う際のニューラルネットワークモデルにおいては、中間層に係る重み変数の更新量は比較的大きくすることが好ましい。これにより、中間層における重み変数が学習過程においてより大きく変動し、中間層への入力値の変化を明確な変化として出力層に伝えることができる。他方で、出力層に係る重み変数の更新量は比較的小さくすることが好ましい。これにより、出力層における重み変数が学習過程においてより小さく変動し、教師データと目的因子の値が収束しやすくなる。また、al>aLを満たすことにより、任意の滑らかな関数を十分な精度で近似することが可能となるため、不用意に中間層の層数を増やす必要がなくなる。これにより中間層が1層でも十分な精度を得ることができる。中間層を少なく取ることは過学習の発生を抑制する事に直結するため、学習処理の安定性、更にはモデルのロバスト性についても副次的な効果がある。
本実施形態に係るニューラルネットワークモデルにおいて、中間層におけるシグモイド関数の係数は例えば0.75であり、出力層におけるシグモイド関数の係数は例えば0.1である。図4は、中間層のシグモイド関数の係数を0.75とし、出力層のシグモイド関数の係数を0.1とした場合のニューラルネットワークモデルの、合成樹脂の化学反応にかかる予測の学習収束結果を示す。なお学習終了誤差は0.003、学習回数は20万回、入力因子数は13、中間素子数は20、出力因子数は1としている。図4に示すように、教師データとAI収束値との値はほとんど一致しており、ほぼ限界値まで収束している。このように、合成樹脂の化学反応に係る予測を行う際のニューラルネットワークモデルにおいて、中間層におけるシグモイド関数の係数を出力層におけるシグモイド関数の係数より大きくすることで、高精度の予測モデルが得られる。
図5は、比較例として、中間層のシグモイド関数の係数を0.75とし、出力層のシグモイド関数の係数を0.75とした場合のニューラルネットワークモデルの学習収束結果を示す。なお学習誤差、学習回数、入力因子数、中間素子数、出力因子数は図4の学習条件と同一である。図5に示すように、教師データとAI収束値との値が一部で相違しており、図4に示すニューラルネットワークモデルよりも精度が悪い。
図6は、比較例として、中間層のシグモイド関数の係数を0.1とし、出力層のシグモイド関数の係数を0.1とした場合のニューラルネットワークモデルの学習収束結果を示す。なお学習誤差、学習回数、入力因子数、中間素子数、出力因子数は図4の学習条件と同一である。図6に示すように、教師データとAI収束値との値が一部で相違しており、図4に示すニューラルネットワークモデルよりも精度が悪い。
図7は、比較例として、中間層のシグモイド関数の係数を0.4とし、出力層のシグモイド関数の係数を0.4とした場合のニューラルネットワークモデルの学習収束結果を示す。なお学習誤差、学習回数、入力因子数、中間素子数、出力因子数は図4の学習条件と同一である。図7に示すように、教師データとAI収束値との値が一部で相違しており、図4に示すニューラルネットワークモデルよりも精度が悪い。
以上の図4―7の各モデルの学習収束結果から示されるように、合成樹脂の化学反応を予測するニューラルネットワークモデルにおいては、中間層のシグモイド関数の係数が、出力層のシグモイド関数の係数よりも大きい場合に、最も精度が高くなることがわかる。このように、本実施形態によれば合成樹脂の化学反応に係る予測技術を改善することができる。
また本実施形態において、ニューラルネットワークモデルのハイパーパラメータは適宜調整されてよい。例えば学習定数は微分動作による重みの修正動作が行える最小の値であれば任意の値であってよい。また例えば本実施形態においてニューラルネットワークモデルの中間素子数は、説明因子数(入力層の素子数)の1.1倍以上6倍未満であってもよい。中間素子数は、出力層の素子数に基づき設定されてもよい。具体的には例えば中間素子数、シグモイド関数の係数、及び学習回数は、例えば以下のように調整できる。
1.中間素子数
・出力素子数が1の場合、1.1倍―3倍
・出力素子数が2の場合、1.1倍―4.5倍
・出力素子数が3の場合、1.1倍―6倍
2.シグモイド関数の係数
中間層:0.70―0.80
出力層:0.095―0.15
3.学習回数
10万回―20万回(学習データが50―100組程度の場合)
また本実施形態において、各説明因子の数値範囲及び各目的因子の数値範囲は適宜調整されてよい。例えば入力層に入力される説明因子の数値範囲は、0以上かつ1以下であり、出力層から出力される目的因子の数値範囲は0.2以上かつ0.8以下であるようにしてもよい。このように説明因子側は、ニューラルネットワークが扱える0以上かつ1以下のフルスケールとしてよい。他方で、目的因子側は、0.2以上かつ0.8以下に限定することで、数値としての探索範囲を狭め、数値計算における探索を容易化することができる。
なお本実施形態において、中間層及び出力層の活性化関数がシグモイド関数である場合を説明したが、活性化関数はシグモイド関数に限られない。例えば中間層及び出力層の活性化関数は、双曲線正接関数(tanh関数)、ランプ関数(ReLU)等の関数であってもよい。
なお本実施形態では、予測対象が合成樹脂の化学反応である場合を一例として説明したが、予測対象はこれに限られない。予測対象は例えば、任意の物質の化学反応等の物理・化学現象の予測であってよい。また予測対象は、物理・化学現象等でなくてもよい。つまり、本実施形態に係る技術は、ニューラルネットワーク等を用いたモデリング全般において用いることができる。
本開示を諸図面及び実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形及び修正を行うことが容易であることに注意されたい。したがって、これらの変形及び修正は本開示の範囲に含まれることに留意されたい。例えば、各手段又は各ステップ等に含まれる機能等は論理的に矛盾しないように再配置可能であり、複数の手段又はステップ等を1つに組み合わせたり、或いは分割したりすることが可能である。
10 情報処理装置
11 制御部
12 記憶部
13 入力部
14 出力部
入力層 100
中間層 200
出力層 300
素子 101―104、201―206、301―302
グラフ 210、310

Claims (7)

  1. 情報処理装置が実行する予測方法であって、
    予測対象に係る実績データに基づきニューラルネットワークモデルを訓練するステップと、
    前記ニューラルネットワークモデルにより、前記予測対象に係る複数の説明因子に基づき、前記予測対象に係る目的因子を予測するステップと、
    を含み、
    前記ニューラルネットワークモデルは、入力層と中間層と出力層とを含み、前記中間層に係る活性化関数の係数は、前記出力層に係る活性化関数の係数よりも大きい、方法。
  2. Figure 0007388606000031
    Figure 0007388606000032
  3. 請求項1又は2に記載の予測方法であって、前記予測対象は、重縮合反応及び付加重合反応を含む予測方法。
  4. 請求項1又は2に記載の予測方法であって、前記中間層の素子数は、前記説明因子の数の1.1倍以上6倍未満である予測方法。
  5. 請求項1又は2に記載の予測方法であって、前記入力層に入力される説明因子の数値範囲は、0以上かつ1以下であり、前記出力層から出力される目的因子の数値範囲は0.2以上かつ0.8以下である予測方法。
  6. 制御部を備える情報処理装置であって、
    前記制御部は、
    予測対象に係る実績データに基づきニューラルネットワークモデルを訓練し、
    前記ニューラルネットワークモデルにより、前記予測対象に係る複数の説明因子に基づき、前記予測対象に係る目的因子を予測し、
    前記ニューラルネットワークモデルは、入力層と中間層と出力層とを含み、前記中間層に係る活性化関数の係数は、前記出力層に係る活性化関数の係数よりも大きい、情報処理装置。
  7. 情報処理装置が実行するプログラムであって、コンピュータに、
    予測対象に係る実績データに基づきニューラルネットワークモデルを訓練することと、
    前記ニューラルネットワークモデルにより、前記予測対象に係る複数の説明因子に基づき、前記予測対象に係る目的因子を予測することと、
    を実行させ、
    前記ニューラルネットワークモデルは、入力層と中間層と出力層とを含み、前記中間層に係る活性化関数の係数は、前記出力層に係る活性化関数の係数よりも大きい、プログラム。
JP2023559850A 2022-12-28 2023-05-22 予測方法、情報処理装置、及びプログラム Active JP7388606B1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2022212704 2022-12-28
JP2022212704 2022-12-28
PCT/JP2023/019011 WO2024142427A1 (ja) 2022-12-28 2023-05-22 予測方法、情報処理装置、及びプログラム

Publications (1)

Publication Number Publication Date
JP7388606B1 true JP7388606B1 (ja) 2023-11-29

Family

ID=88917854

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023559850A Active JP7388606B1 (ja) 2022-12-28 2023-05-22 予測方法、情報処理装置、及びプログラム

Country Status (3)

Country Link
EP (1) EP4421687A1 (ja)
JP (1) JP7388606B1 (ja)
CN (1) CN117882138A (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02287861A (ja) * 1989-04-28 1990-11-27 Victor Co Of Japan Ltd ニューラルネットワーク
JPH04266153A (ja) * 1991-02-20 1992-09-22 Honda Motor Co Ltd ニューラルネットワーク
JPH0991264A (ja) * 1995-09-20 1997-04-04 Hitachi Medical Corp ニューラルネットワーク構造最適化装置ならびに方法
JPH11232244A (ja) * 1998-02-10 1999-08-27 Hitachi Ltd ニューラルネットワーク、その学習方法およびニューロ・ファジィ制御装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02287861A (ja) * 1989-04-28 1990-11-27 Victor Co Of Japan Ltd ニューラルネットワーク
JPH04266153A (ja) * 1991-02-20 1992-09-22 Honda Motor Co Ltd ニューラルネットワーク
JPH0991264A (ja) * 1995-09-20 1997-04-04 Hitachi Medical Corp ニューラルネットワーク構造最適化装置ならびに方法
JPH11232244A (ja) * 1998-02-10 1999-08-27 Hitachi Ltd ニューラルネットワーク、その学習方法およびニューロ・ファジィ制御装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
岸田 悟 ほか,階層型ニューラルネットワークのボタン選定問題への適用,電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,1993年03月19日,vol. 92, no. 522,pp.97-102
岸田 悟 ほか: "階層型ニューラルネットワークのボタン選定問題への適用", 電子情報通信学会技術研究報告, vol. 92, no. 522, JPN6023028955, 19 March 1993 (1993-03-19), JP, pages 97 - 102, ISSN: 0005176101 *
渡邊 栄治 ほか,講演における聴講者の動作の分析(第3報),電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会 The Institute of Ele,2019年01月17日,vol. 118, no. 420, LOIS2018-45,pp.21-26
渡邊 栄治 ほか: "講演における聴講者の動作の分析(第3報)", 電子情報通信学会技術研究報告, vol. vol. 118, no. 420, LOIS2018-45, JPN6023028954, 17 January 2019 (2019-01-17), JP, pages 21 - 26, ISSN: 0005176100 *

Also Published As

Publication number Publication date
EP4421687A1 (en) 2024-08-28
CN117882138A (zh) 2024-04-12

Similar Documents

Publication Publication Date Title
US10489688B2 (en) Personalized digital image aesthetics in a digital medium environment
WO2021091681A1 (en) Adversarial training of machine learning models
WO2022110640A1 (zh) 一种模型优化方法、装置、计算机设备及存储介质
CN110597878A (zh) 一种多模态数据的跨模态检索方法、装置、设备及介质
US20190073587A1 (en) Learning device, information processing device, learning method, and computer program product
US20220114479A1 (en) Systems and methods for automatic mixed-precision quantization search
US20230188788A1 (en) Method for dynamically training a system to determine an age rating of media content
JP7388606B1 (ja) 予測方法、情報処理装置、及びプログラム
CN110009048B (zh) 一种神经网络模型的构建方法以及设备
CN115375698A (zh) 医学图像分割方法、装置、电子设备及存储介质
CN111382619A (zh) 图片推荐模型的生成、图片推荐方法、装置、设备及介质
WO2024142427A1 (ja) 予測方法、情報処理装置、及びプログラム
TW202427285A (zh) 預測方法、資訊處理裝置、以及程式
WO2024176478A1 (ja) 重縮合反応に係る予測を行う方法、情報処理装置、及びプログラム
JP7388607B1 (ja) 予測モデルの学習過程の評価を支援する方法、情報処理装置、及びプログラム
JP7242595B2 (ja) 学習装置、推論装置、学習方法及び推論方法
Liu et al. Accurate on-line support vector regression incorporated with compensated prior knowledge
CN117957615A (zh) 进行与加聚反应有关的预测的方法、信息处理装置以及程序
Chakrabortty Robust Semi-Parametric Inference in Semi-Supervised Settings
WO2023181818A1 (ja) 色素材料の探索方法、情報処理装置、及び非一時的なコンピュータ読取可能記録媒体
JP7235158B1 (ja) 賦形材料の探索方法、情報処理装置、及びプログラム
Chen et al. Neural ordinary differential gray algorithm to forecasting models of controlled systems
JP7255739B1 (ja) ハードコート材料の探索方法、情報処理装置、及びプログラム
CN113222020B (zh) 一种基于数据转换和知识蒸馏的域增量学习方法
CN117836860A (zh) 进行与缩聚反应有关的预测的方法、信息处理装置以及程序

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230927

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20230927

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231017

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231030

R151 Written notification of patent or utility model registration

Ref document number: 7388606

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151