JP7302229B2 - データ管理システム、データ管理方法、およびデータ管理プログラム - Google Patents

データ管理システム、データ管理方法、およびデータ管理プログラム Download PDF

Info

Publication number
JP7302229B2
JP7302229B2 JP2019062539A JP2019062539A JP7302229B2 JP 7302229 B2 JP7302229 B2 JP 7302229B2 JP 2019062539 A JP2019062539 A JP 2019062539A JP 2019062539 A JP2019062539 A JP 2019062539A JP 7302229 B2 JP7302229 B2 JP 7302229B2
Authority
JP
Japan
Prior art keywords
data
composition
composition data
rows
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019062539A
Other languages
English (en)
Other versions
JP2020161044A (ja
Inventor
亮祐 新井
和秀 関口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Resonac Corp
Original Assignee
Hitachi Chemical Co Ltd
Showa Denko Materials Co Ltd
Resonac Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Chemical Co Ltd, Showa Denko Materials Co Ltd, Resonac Corp filed Critical Hitachi Chemical Co Ltd
Priority to JP2019062539A priority Critical patent/JP7302229B2/ja
Publication of JP2020161044A publication Critical patent/JP2020161044A/ja
Application granted granted Critical
Publication of JP7302229B2 publication Critical patent/JP7302229B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本開示の一側面はデータ管理システム、データ管理方法、およびデータ管理プログラムに関する。
装置の制御、データ解析等の様々な目的のために、物理的特徴を示す大量のデータを記憶するデータベースが用いられることがある。例えば、特許文献1には、熱間圧延における変形抵抗に影響を与える因子および該変形抵抗をそれぞれ説明変数および目的変数とし、過去のそれぞれの実績データをデータベースとして蓄えるデータベース作成工程を含む、熱間圧延における変形抵抗予測方法が記載されている。特許文献2には、被めっき鋼板に溶融亜鉛めっきを施し、ワイピングノズルでガスを噴射して所定のめっき付着量に調整する溶融亜鉛付着量制御方法であって、入力項目および出力項目の実績データをデータベースとして蓄えるデータベース作成工程を含む該方法が記載されている。
特開2010-207900号公報 特開2007-262503号公報
組成物を示すデータを扱う場合には、世の中に存在する組成物は数え切れないほど多いので、その組成物データは膨大なものになる。そのため、作業に必要であると期待されるデータをその膨大なデータから特定することは容易ではない。そこで、組成物に関するデータを自動的に且つ適切に選別する仕組みが望まれている。
本開示の一側面に係るデータ管理システムは、少なくとも一つのプロセッサを備える。少なくとも一つのプロセッサは、M個の候補原材料のうちの少なくとも一つの原材料によって構成されるN個の組成物を示す第1組成物データを取得するステップであって、該第1組成物データの個々のデータレコードが個々の組成物を示す、該ステップと、M個の候補原材料のうちの少なくとも一つの原材料によって構成される基準組成物を示す基準組成物データを取得するステップと、第1組成物データに対応するN×M行列の各行と、基準組成物データに対応するM次元ベクトルとの類似度を算出するステップと、N×M行列のN行のうち、M次元ベクトルとの類似度が所与の基準を満たす行を選択するステップと、選択された行に対応するデータレコードによって構成される第2組成物データを生成するステップと、第2組成物データを出力するステップとを実行する。
このような側面によれば、N個の組成物と基準組成物とがそれぞれ、N×M行列の各行とM次元ベクトルとによって表され、各行とそのベクトルとの類似度が算出される。そして、N個の組成物の中から、基準組成物と類似する組成物が選択される。したがって、組成物に関するデータを自動的に且つ適切に選別することができる。
本開示の一側面によれば、組成物に関するデータを自動的に且つ適切に選別することができる。
実施形態に係るデータ管理システムの機能構成の一例を示す図である。 実施形態に係るデータ管理システムの動作の一例を示すフローチャートである。 第1組成物データおよび基準組成物データの例と、これらのデータの正規化の例とを示す図である。
以下、添付図面を参照しながら本開示での実施形態を詳細に説明する。なお、図面の説明において同一または同等の要素には同一の符号を付し、重複する説明を省略する。
[システムの概要]
実施形態に係るデータ管理システム10は、複数の組成物を示すデータから、所与の条件を満たす組成物のデータを選び出すコンピュータシステムである。組成物とは、複数の原材料を合成することで構成される物質のことをいう。組成物の種類は何ら限定されず、例えば樹脂組成物であってもよい。本開示では、組成物を示すデータを「組成物データ」ともいう。組成物の原材料とは、組成物を作製するために意図的に用いられる物質のことをいう。原材料は、組成物が完成した際に原形をとどめていてもよいし、とどめていなくてもよい。
組成物の種類は数え切れないほど多いので、組成物データは膨大になる。組成物データは研究、開発、解析、設計、特定等における各種のデータ処理のために用いられ、例えば材料設計、材料開発等に用いられる。しかし、膨大な組成物データをそのまま使うと、重要な情報がそのデータに埋もれてしまって、処理の精度が低くなるおそれがある。一例として、樹脂組成物に関する処理では、或る目的のために考慮される樹脂組成物の数が非常に多くなり、これに伴って樹脂組成物の原材料が多岐にわたる。そのため、このような樹脂組成物のデータの、原材料に対応する次元数も非常に大きくなる。例えば、10万個のオーダーの樹脂組成物の少なくとも一つに用いられる原材料の個数は1000のオーダーになり得る。原材料を次元に置き換えると、樹脂組成物のデータは、100000(サンプル)×1000(次元)のような膨大なものになる。このデータを100000×1000の行列で表し、樹脂組成物で用いられている原材料を非ゼロ要素で表した場合には、個々の樹脂組成物のデータは、ゼロ要素が非常に多い疎なデータになる。そのため、このデータをそのまま使うと、処理精度の低下を引き起こす可能性がある。
データ処理に適した組成物データを得るために、データ管理システム10はその目的に応じて適切な組成物データを選別する。この選別の目的は何ら限定されず、これに伴って、データ管理システム10は任意の目的で用いられ得る。例えば、データ管理システム10は、特定の製品に関連する材料系に関する処理のために組成物データを選別してもよい。いずれにしても、組成物データを適切に選別することで、組成物データのデータレコードの個数だけでなく、選別後の組成物データの次元数を小さくすることができる。選別後の組成物データの次元数が小さいということは、元の組成物データよりもゼロ要素が少ない密な組成物データが得られることを意味する。この密な組成物データを用いることで重要な情報が顕現され易くなるので、処理の精度の向上が期待できる。選別された組成物データを用いることで各種のデータ処理を効率的に実行することが可能になる。
[システムの構成]
図1はデータ管理システム10の機能構成の一例を示す図である。データ管理システム10はハードウェア装置としてプロセッサ101、メモリ102、および通信インタフェース103を備える。プロセッサ101は例えばCPUであり、メモリ102は例えばフラッシュメモリ、ハードディスク等の記憶装置で構成される。しかし、データ管理システム10を構成するハードウェア装置の種類はこれらに限定されず、任意に選択されてよい。データ管理システム10の各機能は、プロセッサ101が、メモリ102に格納されているプログラムを実行することで実現される。例えば、プロセッサ101は、メモリ102から読み出したデータまたは通信インタフェース103を介して受信したデータに対して所定の演算を実行する。そして、プロセッサ101は演算結果を、通信インタフェース103を介して演算結果を他の装置に送信したり、メモリ102に格納したりする。
データ管理システム10は1台のコンピュータで構成されてもよいし、複数のコンピュータの集合、すなわち分散システムで構成されてもよい。組成物データを処理することができる限り、データ管理システム10に用いられるコンピュータは限定されない。例えば、パーソナルコンピュータ、ワークステーション、タブレット端末、スマートフォン等の様々な種類のコンピュータをデータ管理システム10の少なくとも一部として用いることができる。データ管理システム10のために複数台のコンピュータを用いる場合には、これらのコンピュータがインターネット、イントラネット等の通信ネットワークを介して接続されることで、論理的に一つのデータ管理システム10が構築される。
本実施形態では、データ管理システム10は通信ネットワークNを介して第1データベース21および第2データベース22と接続する。第1データベース21および第2データベース22の少なくとも一方は、データ管理システム10内に設けられてもよいし、データ管理システム10とは異なるコンピュータシステム内に設けられてもよい。通信ネットワークNの構成および種類は限定されない。例えば、通信ネットワークNはインターネット、イントラネット、またはこれらの組合せによって構築されてもよい。また、通信ネットワークNは有線ネットワーク、無線ネットワーク、またはこれらの組合せによって構築されてもよい。
第1データベース21は、データ管理システム10によって処理される前の組成物データを記憶する装置である。第2データベース22は、所与の条件を満たすとデータ管理システム10によって判定された組成物データ、すなわち、データ管理システム10によって選択されたデータを記憶する装置である。本実施形態では、第1データベース21に記憶される組成物データを「第1組成物データ」といい、第2データベース22に記憶される組成物データを「第2組成物データ」という。データ管理システム10は第1データベース21から第1組成物データを読み出し、この第1組成物データを処理することで第2組成物データを生成し、この第2組成物データを第2データベース22に格納する。
第1組成物データの個々のデータレコードは個々の組成物を示す。より具体的には、各データレコードは、組成物を一意に特定するための識別子である組成物IDと、該組成物を構成する原材料の情報とを含み、したがって、組成物と原材料との組合せを示す。第2組成物データのデータ構造は第1組成物データに対応する。
第1組成物データおよび第2組成物データのデータ構造は限定されず、任意の方針で設計されてよい。組成物IDの表現方法は限定されず、例えば組成物IDは組成物の名称でもよいし、アルファベット、数字、またはこれら双方の組合せで表される番号で表されてもよい。原材料の情報の表現方法も限定されない。例えば、個々のデータレコードが、複数の候補原材料に対応する複数のカラムを有し、組成物の原材料に対応するカラムに該原材料の配合比が設定されてもよい。配合比の表現方法は限定されず、例えば、質量比、重量比、または体積比で表されてもよい。あるいは、原材料の情報は、原材料の識別子で表されてもよく、例えば名称、番号等で表されてもよい。第1組成物データで示される組成物の個数をNとすると、N個の組成物のそれぞれは、M個の候補原材料のうちの少なくとも一つの原材料によって構成される。したがって、第1組成物データは、M個の候補原材料のうちの少なくとも一つの原材料によって構成されるN個の組成物を示すデータである、ということができる。値M,Nの具体的な数値は限定されない。上述したように、例えば、値Mは1000のオーダーになり得、値Nは10万のオーダーになり得る。
第1組成物データは実測値に基づいて生成されてもよいし、コンピュータシミュレーションによって生成されてもよいし、人手によって入力されてもよい。第1組成物データは任意のコンピュータシステムによって生成されて第1データベース21に格納されてよい。例えば、その生成および格納の処理はデータ管理システム10によって実行されてもよいし、データ管理システム10とは異なるコンピュータシステムによって実行されてもよい。
プロセッサ101は取得部11、選別部12、および出力部13として機能する。取得部11は第1組成物データを取得する機能要素である。選別部12は、第1組成物データのうち、所与の基準を満たすデータを第2組成物データとして選択する機能要素である。出力部13はその第2組成物データを出力する機能要素である。
データ管理システム10が複数のコンピュータで構成される場合には、どのプロセッサがどの機能要素を実行するかが任意に決定されてよい。いずれにしても、少なくとも一つのプロセッサを備える論理的なデータ管理システム10が取得部11、選別部12、および出力部13として機能する。本開示において、「少なくとも一つのプロセッサが、第1の処理を実行し、第2の処理を実行し、…第nの処理を実行する。」との表現、またはこれに対応する表現は、第1の処理から第nの処理までのn個の処理の実行主体、すなわちプロセッサが途中で変わる場合を含む概念である。すなわち、この表現は、n個の処理のすべてが同じプロセッサで実行される場合と、n個の処理においてプロセッサが任意の方針で変わる場合との双方を含む概念である。
メモリ102は、コンピュータをデータ管理システム10として機能させるためのデータ管理プログラム110を記憶する。データ管理プログラム110は、コンピュータを取得部11、選別部12、および出力部13として機能させるためのプログラムコードを含む。データ管理プログラム110は、CD-ROM、DVD-ROM、半導体メモリ等の有形の記録媒体に固定的に記録された上で提供されてもよい。あるいは、データ管理プログラム110は、搬送波に重畳されたデータ信号として通信ネットワークを介して提供されてもよい。提供されたデータ管理プログラムはメモリ102に記憶される。プロセッサ101がメモリ102と協働してそのデータ管理プログラム110を実行することで、上記の各機能要素が実現する。メモリ102はプロセッサ101の動作に必要な他の情報を記憶してもよい。例えば、メモリ102は組成物データの選別に必要なデータ、アルゴリズム、または数式を予め記憶してもよい。
通信インタフェース103はプロセッサ101と連携してデータの送受信を実行する。例えば、通信インタフェース103は取得部11と連携して第1データベース21から第1組成物データを受信する。また、通信インタフェース103は出力部13と連携して第2データベース22に向けて第2組成物データを送信する。
[システムの動作]
図2を参照しながら、データ管理システム10の動作を説明するとともに本実施形態に係るデータ管理方法について説明する。図2はデータ管理システム10の動作の一例を処理フローS1として示すフローチャートである。
ステップS11では、取得部11が第1組成物データを取得する。本開示では、取得部11は通信ネットワークNを介して第1データベース21にアクセスし、この第1データベース21から第1組成物データを読み出す。
ステップS12では、取得部11が選別条件を取得する。選別条件とは、第1組成物データのうちの少なくとも一部を第2組成物データとして選択するための基準のことをいう。本実施形態では、選別条件は基準組成物を示す基準組成物データを含む。基準組成物とは、第1組成物データの少なくとも一部を選択するための基準として用いられる組成物のことをいう。第1組成物データで示される組成物に対応して、基準組成物の種類も何ら限定されない。例えば、基準組成物は樹脂組成物でもよい。第1組成物データで示される個々の組成物と同様に、基準組成物も、M個の候補原材料のうちの少なくとも一つの原材料によって構成される。基準組成物データのデータ構造は限定されず、任意の方針で設計されてよい。例えば、基準組成物データのデータ構造は第1組成物データに対応してもよい。基準組成物データは実測値に基づいて生成されてもよいし、コンピュータシミュレーションによって生成されてもよいし、人手によって入力されてもよい。基準組成物データは、複数の組成物に基づいて生成されてもよく、例えば、該複数の組成物を示すベクトルの和または平均に基づいて生成されてもよい。この場合には、基準組成物は複数の組成物が考慮された仮想的な組成物であるといえる。
本実施形態では、選別条件は閾値aをさらに含む。閾値aは、第1組成物データの個々のデータレコードを選択するか否かを判定するために用いられる。具体的には、閾値aは、第1組成物データで示される個々の組成物が基準組成物と類似するか否かを判定するための基準値である。
選別条件の取得方法は限定されない。例えば、取得部11はユーザにより入力された選別条件を受け付けてもよいし、他のコンピュータから送られてきた選別条件を受信してもよいし、メモリ102または他の記憶装置に予め記憶されている選別条件を読み出してもよい。基準組成物データと閾値aとの間で取得方法が異なってもよい。
ステップS13では、選別部12が、第1組成物データに対応するN×M行列Cを生成する。ここで、Nは第1組成物データのデータレコード数であり、したがって、第1組成物データで示される組成物の個数を表す。MはN個の組成物のうちの少なくとも一つで用いられる可能性がある原材料の個数、すなわち候補原材料の個数を示す。行列Cの各行は一つの組成物に対応し、行列Cの各列は一つの候補原材料に対応する。行列Cの各要素(各成分)は、ゼロ要素および非ゼロ要素のいずれか一方を示す。ゼロ要素は、対応する組成物が、対応する候補原材料によって構成されないことを示す。非ゼロ要素は、対応する組成物が、対応する候補原材料によって構成されることを示す。例えばゼロ要素は「0」で表現され非ゼロ要素は正数で表現されてもよいが、ゼロ要素および非ゼロ要素の表現方法はこれに限定されない。
ステップS13ではさらに、選別部12がその行列Cの各要素を正規化する。正規化とは、データを所与の数値範囲の間の値に変換する処理のことをいう。正規化の具体的な手法は限定されず、選別部12は行列Cの各要素を任意の数値範囲に正規化してもよい。本実施形態では、選別部12はゼロ要素を0に変換し、非ゼロ要素を1に変換することで、行列Cの各要素を正規化する。
ステップS14では、選別部12が基準組成物データに対応するM次元ベクトルbを生成する。ベクトルbの各要素(各成分)は一つの候補原材料に対応し、ゼロ要素および非ゼロ要素のいずれか一方を示す。ゼロ要素は、基準組成物が、対応する候補原材料によって構成されないことを示す。非ゼロ要素は、基準組成物が、対応する候補原材料によって構成されることを示す。例えばゼロ要素は「0」で表現され非ゼロ要素は正数で表現されてもよいが、ゼロ要素および非ゼロ要素の表現方法はこれに限定されない。
ステップS14ではさらに、選別部12がそのベクトルbの各要素を正規化する。選別部12は行列Cと同様の手法でベクトルbを正規化する。すなわち、本実施形態では、選別部12はゼロ要素を0に変換し、非ゼロ要素を1に変換することで、ベクトルbの各要素を正規化する。
その後、選別部12は第1組成部データで示される個々の組成物と基準組成物との類似度を算出する。類似度とは、比較される二つの組成物が互いに似ているか似ていないかを示す指標である。本開示では、二つの組成物が似ているほど類似度が高いものとする。選別部12は類似度が所与の基準を満たす組成物を選択し、類似度が該基準を満たさない組成物を破棄する。要するに、選別部12は、相対的に見て基準組成物に似ている組成物を選択し、相対的に見て基準組成物に似ていない組成物を破棄する。以下では、行列Cにおける処理対象の行をiで表し、ステップS15で示すように行列Cの1行目から順に各行が処理されるものとする。
ステップS16では、選別部12が正規化されたベクトルbと正規化された行列Cのi行目cとの類似度を算出する。類似度の算出方法は限定されない。例えば、選別部12はL0距離、L1距離、ユークリッド距離、cos類似度等の様々な手法のうちの一つを応用して類似度を算出してもよい。
ステップS17では、選別部12が、行cがベクトルbに類似するか否かを判定する。すなわち、選別部12は行cとベクトルbとの類似度が所与の基準を満たすか否かを判定する。行cがベクトルbに類似する場合(すなわち、類似度が基準を満たす場合)には、処理はステップS18に進む。ステップS18では、選別部12が行cに対応する第1組成物データのデータレコードを第2組成物データに追加する。この追加は、選別部12が当該データレコードを第2組成物データの少なくとも一部として選択することを意味する。一方、行cがベクトルbに類似しない場合(すなわち、類似度が基準を満たさない場合)には、処理はステップS19に進む。ステップS19では、選別部12が、行cに対応するデータレコードを第2組成物データに追加することなくそのデータレコードを破棄する。
図3を参照しながら、ステップS16~S19の処理の例を説明する。図3は、第1組成物データおよび基準組成物データの例と、これらのデータの正規化の例とを示す図である。この例では、それぞれのデータレコードは、組成物IDと、各候補原材料の配合比とを示し、配合比は小数で表されている。組成物は9種類の候補原材料A、B,C,…,H,Iから選択される1以上の原材料によって構成されるものとする。第1組成物データ31は4種類の組成物W,X,Y,Zを示すとする。したがって、第1組成物データ31は4×9行列Cで表され、基準組成物データ32は9次元ベクトルbで表される。この例では、ゼロ要素を0に変換し、非ゼロ要素を1に変換することで、その4×9行列が正規化されている。以下では、類似度の計算例としてL0距離とL1距離(マンハッタン距離)とを示す。
L0距離を応用する場合には、選別部12は、基準組成物データに対応するM次元ベクトルbの各要素から、行列Cのi行目cの対応要素を減算する。選別部12はこの減算結果が負になる要素(これを「負要素」という。)の個数Eをカウントする。
基準組成物BSおよび組成物Wの比較は以下の通りであり、したがって、負要素の個数Eは1である。
・基準組成物BS:(1,1,1,0,1,0,0,0,0)
・組成物W :(1,1,0,0,0,0,1,0,0)
基準組成物BSおよび組成物Xの比較は以下の通りであり、したがって、負要素の個数Eは3である。
・基準組成物BS:(1,1,1,0,1,0,0,0,0)
・組成物X :(0,0,1,1,0,1,0,1,0)
基準組成物BSおよび組成物Yの比較は以下の通りであり、したがって、負要素の個数Eは2である。
・基準組成物BS:(1,1,1,0,1,0,0,0,0)
・組成物Y :(0,1,0,1,1,0,0,1,0)
基準組成物BSおよび組成物Zの比較は以下の通りであり、したがって、負要素の個数Eは4である。
・基準組成物BS:(1,1,1,0,1,0,0,0,0)
・組成物Z :(0,0,1,0,0,1,1,1,1)
選別部12はその負要素の個数Eを閾値aと比較する。選別部12は、個数Eが閾値a以下であれば、行cがベクトルbに類似すると判定し、個数Eが閾値aより大きければ行cがベクトルbに類似しないと判定する。したがって、この例では、負要素の個数Eが小さいほど類似度が高い。選別部12は、閾値aが2であれば組成物W,Yのデータレコードを第2組成物データに追加し、閾値aが3であれば組成物W,X,Yのデータレコードを第2組成物データに追加する。すなわち、選別部12は、負要素の個数Eが閾値a以下である行を、類似度が所与の基準を満たす行として選択する。この例では、減算結果がゼロの要素は、処理対象の組成物が基準組成物と類似するとの推定に貢献する。減算結果が正の要素は、類似度の推定に影響を与えないものとして処理される。演算結果が負の要素は、処理対象の組成物が基準組成物と類似しないとの推定に貢献する。
L1距離を応用する場合には、選別部12は、基準組成物データに対応するM次元ベクトルbの各要素から、行列Cのi行目cの対応要素を減算し、その差の絶対値を得る。選別部12はこの減算結果が0ではない要素(これを「非ゼロ要素」という。)の個数Eをカウントする。
基準組成物BSおよび組成物Wの比較では、非ゼロ要素の個数Eは3である。基準組成物BSおよび組成物Xの比較では、非ゼロ要素の個数Eは6である。基準組成物BSおよび組成物Yの比較では、非ゼロ要素の個数Eは4である。基準組成物BSおよび組成物Zの比較では、非ゼロ要素の個数Eは7である。
選別部12はその非ゼロ要素の個数Eを閾値aと比較する。選別部12は、個数Eが閾値a以下であれば、行cがベクトルbに類似すると判定し、個数Eが閾値aより大きければ行cがベクトルbに類似しないと判定する。したがって、この例では、非ゼロ要素の個数Eが小さいほど類似度が高い。選別部12は、閾値aが4または5であれば組成物W,Yのデータレコードを第2組成物データに追加し、閾値aが6であれば組成物W,X,Yのデータレコードを第2組成物データに追加する。すなわち、選別部12は、非ゼロ要素の個数Eが閾値a以下である行を、類似度が所与の基準を満たす行として選択する。この例では、減算結果がゼロの要素は、処理対象の組成物が基準組成物と類似するとの推定に貢献する。減算結果が正または負の要素は、処理対象の組成物が基準組成物と類似しないとの推定に貢献する。
ステップS20において、未処理の行、すなわち未処理の組成物が存在する場合には処理はステップS21に進み、選別部12は行列Cの次の行cを処理対象として選択し、その選択された行cについてステップS16以降の処理を実行する。
一方、ステップS20において、行列Cのすべての行を処理した場合には処理はステップS22に進む。ステップS22では、出力部13が第2組成物データを出力する。本開示では、出力部13は通信ネットワークNを介して第2データベース22にアクセスし、第2組成物データを第2データベース22に格納する。
処理フローS1によって得られる第2組成物データは基準組成物と類似する組成物のみを示す。したがって、第2組成物データで示される組成物群のうちの少なくとも一つを構成する原材料の個数、すなわち第2組成物データの次元数がMよりも小さいことが期待できる。第1組成物データよりも第2組成物データの方が次元数が小さいということは、第1組成物データよりもゼロ要素が少ない密な第2組成物データが得られることを意味する。この密な組成物データを用いることで重要な情報が顕現され易くなるので、処理の精度が高くなることが期待できる。したがって、第2組成物データを用いることで各種のデータ処理を効率的に実行することが可能になる。
図3に示す組成物W~Zのうち組成物W,Yが選択されたとすると、組成物WまたはYに用いられる原材料はA,B,D,E,G,Hである。したがって、第2組成物データの次元数は6である。図3に示す組成物W~Zのうち組成物W,X,Yが選択されたとすると、組成物WまたはYに用いられる原材料はA~Hである。したがって、第2組成物データの次元数は8である。これらの例では、第2組成物データの次元数は第1組成物データよりも小さい。
第2組成物データの利用方法は何ら限定されず、第2組成物データは任意の目的の任意のデータ処理のために用いることができる。例えば、第2組成物データは研究、開発、解析、設計、特定等における各種データ処理に用いられ得る。具体例として、第2組成物データは、組成物を特定するための機械学習の入力データとして用いられてもよいし、原材料が組成物の特性に及ぼす影響度を推定するために用いられてもよいし、組成物の特性を可視化するために用いられてもよい。
[効果]
以上説明したように、本開示の一側面に係るデータ管理システムは、少なくとも一つのプロセッサを備える。少なくとも一つのプロセッサは、M個の候補原材料のうちの少なくとも一つの原材料によって構成されるN個の組成物を示す第1組成物データを取得するステップであって、該第1組成物データの個々のデータレコードが個々の組成物を示す、該ステップと、M個の候補原材料のうちの少なくとも一つの原材料によって構成される基準組成物を示す基準組成物データを取得するステップと、第1組成物データに対応するN×M行列の各行と、基準組成物データに対応するM次元ベクトルとの類似度を算出するステップと、N×M行列のN行のうち、M次元ベクトルとの類似度が所与の基準を満たす行を選択するステップと、選択された行に対応するデータレコードによって構成される第2組成物データを生成するステップと、第2組成物データを出力するステップとを実行する。
本開示の一側面に係るデータ管理方法は、少なくとも一つのプロセッサを備えるデータ管理システムにより実行される。データ管理方法は、M個の候補原材料のうちの少なくとも一つの原材料によって構成されるN個の組成物を示す第1組成物データを取得するステップであって、該第1組成物データの個々のデータレコードが個々の組成物を示す、該ステップと、M個の候補原材料のうちの少なくとも一つの原材料によって構成される基準組成物を示す基準組成物データを取得するステップと、第1組成物データに対応するN×M行列の各行と、基準組成物データに対応するM次元ベクトルとの類似度を算出するステップと、N×M行列のN行のうち、M次元ベクトルとの類似度が所与の基準を満たす行を選択するステップと、選択された行に対応するデータレコードによって構成される第2組成物データを生成するステップと、第2組成物データを出力するステップとを含む。
本開示の一側面に係るデータ管理プログラムは、M個の候補原材料のうちの少なくとも一つの原材料によって構成されるN個の組成物を示す第1組成物データを取得するステップであって、該第1組成物データの個々のデータレコードが個々の組成物を示す、該ステップと、M個の候補原材料のうちの少なくとも一つの原材料によって構成される基準組成物を示す基準組成物データを取得するステップと、第1組成物データに対応するN×M行列の各行と、基準組成物データに対応するM次元ベクトルとの類似度を算出するステップと、N×M行列のN行のうち、M次元ベクトルとの類似度が所与の基準を満たす行を選択するステップと、選択された行に対応するデータレコードによって構成される第2組成物データを生成するステップと、第2組成物データを出力するステップとをコンピュータに実行させる。
このような側面によれば、N個の組成物と基準組成物とがそれぞれ、N×M行列の各行とM次元ベクトルとによって表され、各行とそのベクトルとの類似度が算出される。そして、N個の組成物の中から、基準組成物と類似する組成物が選択される。したがって、組成物に関するデータを自動的に且つ適切に選別することができる。この選別により組成物データのデータレコードの個数および候補原材料の個数を小さくすることができ、これは第1組成物データよりも密な組成物データが得られることを意味する。この密な組成物データを用いることで重要な情報が顕現され易くなるので、処理の精度が高くなることが期待できる。したがって、その第2組成物データを用いることで各種のデータ処理を効率的に実行することが可能になる。
他の側面に係るデータ管理システムでは、少なくとも一つのプロセッサが、N×M行列の各要素とM次元ベクトルの各要素とを正規化し、正規化されたN×M行列の各行と、正規化されたM次元ベクトルとの類似度を算出してもよい。この正規化を実行することで、各要素の分布が一定の範囲内に収められるので、N×M行列の各行とM次元ベクトルとの比較を容易にすることができる。
他の側面に係るデータ管理システムでは、少なくとも一つのプロセッサが、ゼロ要素を0に変換し非ゼロ要素を1に変換することで、N×M行列の各要素とM次元ベクトルの各要素とを正規化してもよい。この正規化によって各要素が0または1のいずれかに変換されるので、N×M行列の各行とM次元ベクトルとの比較を容易にすることができる。
他の側面に係るデータ管理システムでは、N×M行列の各行とM次元ベクトルとの類似度を算出するステップは、該M次元ベクトルの各要素から該行の対応要素を減算した結果が負になる要素の個数を負要素の個数としてカウントすることを含んでもよい。類似度が所与の基準を満たす行を選択するステップは、負要素の個数が所与の閾値以下である行を、基準を満たす行として選択することを含んでもよい。L0距離を応用したこのような手法によって、第2組成物データの次元数(候補原材料の個数)を適切に減らしつつ、できるだけ多くのデータレコードを第2組成物データとして抽出することができる。
他の側面に係るデータ管理システムでは、N×M行列の各行とM次元ベクトルとの類似度を算出するステップが、該M次元ベクトルの各要素から該行の対応要素を減算して得られる差が0でない要素の個数を非ゼロ要素の個数としてカウントすることを含んでもよい。類似度が所与の基準を満たす行を選択するステップは、非ゼロ要素の個数が所与の閾値以下である行を、基準を満たす行として選択することを含んでもよい。L1距離を応用したこのような手法によって、第2組成物データの次元数(候補原材料の個数)を適切に減らしつつ、できるだけ多くのデータレコードを第2組成物データとして抽出することができる。
他の側面に係るデータ管理システムでは、N個の組成物および基準組成物がいずれも樹脂組成物であってもよい。この場合には、樹脂組成物に関するデータを自動的に且つ適切に選別することができる。
[変形例]
以上、本開示の実施形態に基づいて詳細に説明した。しかし、本開示は上記実施形態に限定されるものではない。本開示は、その要旨を逸脱しない範囲で様々な変形が可能である。
上記実施形態では選別部12が、N×M行列CおよびM次元ベクトルbを正規化するが、正規化は必須の処理ではない。選別部は正規化を実行することなく、行列CとM次元ベクトルbとの類似度を、L0距離、L1距離、ユークリッド距離、cos類似度等の様々な手法のうちの一つを応用して算出してもよい。
上記実施形態では、取得部11が第1データベース21から第1組成物データを取得し、出力部13が第2組成物データを第2データベース22に格納するが、データを取得および出力する方法はこれに限定されない。例えば、取得部11は他の装置から第1組成物データを受信してもよいし、ユーザによって入力された第1組成物データを受け付けてもよい。出力部13は第2組成物データを、他の装置に送信してもよいし、表示装置上に表示してもよいし、印刷してもよい。
上記実施形態では、選別部12が、所与の基準を満たす行に対応する1以上のデータレコードを第2組成物データに追加し、その基準を満たさない行に対応する1以上のデータレコードを破棄することで第2組成物データを生成する。しかし、第2組成物データの生成方法はこれに限定されない。例えば、選別部は、第1組成物データのコピーから、所与の基準を満たさない行に対応する1以上のデータレコードを削除することで第2組成物データを生成してもよい。
第1データベース21および第2データベース22は一つのデータベースとして構築されてもよい。上述したようにデータを取得および出力する方法は限定されないので、データベースが用いられなくてもよい。
少なくとも一つのプロセッサにより実行される方法の処理手順は上記実施形態での例に限定されない。例えば、上述したステップ(処理)の一部が省略されてもよいし、別の順序で各ステップが実行されてもよい。また、上述したステップのうちの任意の2以上のステップが組み合わされてもよいし、ステップの一部が修正又は削除されてもよい。あるいは、上記の各ステップに加えて他のステップが実行されてもよい。
データ管理システム内で二つの数値の大小関係を比較する際には、「以上」および「よりも大きい」という二つの基準のどちらを用いてもよく、「以下」および「未満」の二つの基準のうちのどちらを用いてもよい。このような基準の選択は、二つの数値の大小関係を比較する処理についての技術的意義を変更するものではない。
10…データ管理システム、11…取得部、12…選別部、13…出力部、21…第1データベース、22…第2データベース、31…第1組成物データ、32…基準組成物データ、110…データ管理プログラム。

Claims (8)

  1. 少なくとも一つのプロセッサを備え、
    前記少なくとも一つのプロセッサが、
    M個の候補原材料のうちの少なくとも一つの原材料によって構成されるN個の組成物を示す第1組成物データを取得するステップであって、該第1組成物データの個々のデータレコードが個々の組成物を示す、該ステップと、
    前記M個の候補原材料のうちの少なくとも一つの原材料によって構成される基準組成物を示す基準組成物データを取得するステップと、
    前記第1組成物データに対応するN×M行列の各行と、前記基準組成物データに対応するM次元ベクトルとの類似度を算出するステップと、
    前記N×M行列のN行のうち、前記M次元ベクトルとの前記類似度が所与の基準を満たす行を選択するステップと、
    前記選択された行に対応する前記データレコードによって構成されると共に前記Mよりも小さい次元数の第2組成物データを生成するステップと、
    前記第2組成物データを出力するステップと
    を実行する
    データ管理システム。
  2. 前記少なくとも一つのプロセッサが、
    前記N×M行列の各要素と前記M次元ベクトルの各要素とを正規化し、
    正規化された前記N×M行列の各行と、正規化された前記M次元ベクトルとの類似度を算出する、
    請求項1に記載のデータ管理システム。
  3. 前記少なくとも一つのプロセッサが、ゼロ要素を0に変換し非ゼロ要素を1に変換することで、前記N×M行列の各要素と前記M次元ベクトルの各要素とを正規化する、
    請求項2に記載のデータ管理システム。
  4. 前記N×M行列の各行と前記M次元ベクトルとの類似度を算出するステップが、該M次元ベクトルの各要素から該行の対応要素を減算した結果が負になる要素の個数を負要素の個数としてカウントすることを含み、
    前記類似度が所与の基準を満たす行を選択するステップが、前記負要素の個数が所与の閾値以下である行を、前記基準を満たす行として選択することを含む、
    請求項1~3のいずれか一項に記載のデータ管理システム。
  5. 前記N×M行列の各行と前記M次元ベクトルとの類似度を算出するステップが、該M次元ベクトルの各要素から該行の対応要素を減算して得られる差が0でない要素の個数を非ゼロ要素の個数としてカウントすることを含み、
    前記類似度が所与の基準を満たす行を選択するステップが、前記非ゼロ要素の個数が所与の閾値以下である行を、前記基準を満たす行として選択することを含む、
    請求項1~3のいずれか一項に記載のデータ管理システム。
  6. 前記N個の組成物および前記基準組成物がいずれも樹脂組成物である、
    請求項1~5のいずれか一項に記載のデータ管理システム。
  7. 少なくとも一つのプロセッサを備えるデータ管理システムにより実行されるデータ管理方法であって、
    M個の候補原材料のうちの少なくとも一つの原材料によって構成されるN個の組成物を示す第1組成物データを取得するステップであって、該第1組成物データの個々のデータレコードが個々の組成物を示す、該ステップと、
    前記M個の候補原材料のうちの少なくとも一つの原材料によって構成される基準組成物を示す基準組成物データを取得するステップと、
    前記第1組成物データに対応するN×M行列の各行と、前記基準組成物データに対応するM次元ベクトルとの類似度を算出するステップと、
    前記N×M行列のN行のうち、前記M次元ベクトルとの前記類似度が所与の基準を満たす行を選択するステップと、
    前記選択された行に対応する前記データレコードによって構成されると共に前記Mよりも小さい次元数の第2組成物データを生成するステップと、
    前記第2組成物データを出力するステップと
    を含むデータ管理方法。
  8. M個の候補原材料のうちの少なくとも一つの原材料によって構成されるN個の組成物を示す第1組成物データを取得するステップであって、該第1組成物データの個々のデータレコードが個々の組成物を示す、該ステップと、
    前記M個の候補原材料のうちの少なくとも一つの原材料によって構成される基準組成物を示す基準組成物データを取得するステップと、
    前記第1組成物データに対応するN×M行列の各行と、前記基準組成物データに対応するM次元ベクトルとの類似度を算出するステップと、
    前記N×M行列のN行のうち、前記M次元ベクトルとの前記類似度が所与の基準を満たす行を選択するステップと、
    前記選択された行に対応する前記データレコードによって構成されると共に前記Mよりも小さい次元数の第2組成物データを生成するステップと、
    前記第2組成物データを出力するステップと
    をコンピュータに実行させるデータ管理プログラム。
JP2019062539A 2019-03-28 2019-03-28 データ管理システム、データ管理方法、およびデータ管理プログラム Active JP7302229B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019062539A JP7302229B2 (ja) 2019-03-28 2019-03-28 データ管理システム、データ管理方法、およびデータ管理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019062539A JP7302229B2 (ja) 2019-03-28 2019-03-28 データ管理システム、データ管理方法、およびデータ管理プログラム

Publications (2)

Publication Number Publication Date
JP2020161044A JP2020161044A (ja) 2020-10-01
JP7302229B2 true JP7302229B2 (ja) 2023-07-04

Family

ID=72643528

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019062539A Active JP7302229B2 (ja) 2019-03-28 2019-03-28 データ管理システム、データ管理方法、およびデータ管理プログラム

Country Status (1)

Country Link
JP (1) JP7302229B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116745850A (zh) * 2020-11-27 2023-09-12 株式会社力森诺科 信息处理系统、信息处理方法及信息处理程序

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000250887A (ja) 1999-03-01 2000-09-14 Osaka Gas Co Ltd 代替食材の抽出方法、装置及び記録媒体
JP2004220172A (ja) 2003-01-10 2004-08-05 Fujitsu Ltd アレルゲン情報管理プログラム
JP2019045894A (ja) 2017-08-29 2019-03-22 富士通株式会社 検索プログラム、検索方法、及び、検索プログラムが動作する情報処理装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000250887A (ja) 1999-03-01 2000-09-14 Osaka Gas Co Ltd 代替食材の抽出方法、装置及び記録媒体
JP2004220172A (ja) 2003-01-10 2004-08-05 Fujitsu Ltd アレルゲン情報管理プログラム
JP2019045894A (ja) 2017-08-29 2019-03-22 富士通株式会社 検索プログラム、検索方法、及び、検索プログラムが動作する情報処理装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"プラスチック・樹脂の成形材料の統合検索DB[PlaBase(プラベース)]",[online],日本,2018年08月25日,[2023年3月6日検索],インターネット<URL:https://web.archive.org/web/20180825230100/https://plabase.com/>

Also Published As

Publication number Publication date
JP2020161044A (ja) 2020-10-01

Similar Documents

Publication Publication Date Title
Talagala et al. Meta-learning how to forecast time series
CN110503531B (zh) 时序感知的动态社交场景推荐方法
WO2020192289A1 (zh) 确定关系网络图中图节点向量的方法及装置
CN110866181B (zh) 资源推荐的方法、装置及存储介质
Fontana et al. Individual‐level trait diversity concepts and indices to comprehensively describe community change in multidimensional trait space
JP6414363B2 (ja) 予測システム、方法およびプログラム
CN106251174A (zh) 信息推荐方法及装置
CN112732883A (zh) 基于知识图谱的模糊匹配方法、装置和计算机设备
CN103678672A (zh) 一种信息推荐方法
JP2002543538A (ja) 実験データの分布状階層的発展型モデリングと可視化の方法
CN111783867A (zh) 机器学习算法选择方法及装置
WO2014199920A1 (ja) 予測関数作成装置、予測関数作成方法、及びコンピュータ読み取り可能な記録媒体
CN113656699B (zh) 用户特征向量确定方法、相关设备及介质
CN108665293A (zh) 特征重要性获取方法及装置
CN110969172A (zh) 一种文本的分类方法以及相关设备
CN111062428A (zh) 一种高光谱图像的聚类方法、系统及设备
JP7302229B2 (ja) データ管理システム、データ管理方法、およびデータ管理プログラム
CN115374775A (zh) 一种确定文本相似度的方法、装置、设备及存储介质
CN111144098B (zh) 扩展问句的召回方法和装置
Thongsri et al. Development of imputation methods for missing data in multiple linear regression analysis
Doroshenko et al. Classification of imbalanced classes using the committee of neural networks
CN107622048A (zh) 一种文本模式识别方法及系统
CN113360218A (zh) 一种业务方案选择方法、装置、设备以及存储介质
JP2023027858A5 (ja)
JP7494932B2 (ja) 秘密決定木テスト装置、秘密決定木テストシステム、秘密決定木テスト方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230314

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230512

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230523

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230605

R151 Written notification of patent or utility model registration

Ref document number: 7302229

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350