JP7371779B2

JP7371779B2 - 情報処理プログラム、情報処理方法および情報処理装置

Info

Publication number: JP7371779B2
Application number: JP2022528386A
Authority: JP
Inventors: 正弘片岡; 裕美古賀; 万里子多賀
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2023-10-31
Anticipated expiration: 2040-06-05
Also published as: US20230066586A1; EP4163920A4; CN115668385A; WO2021245926A1; EP4163920A1; JPWO2021245926A1

Description

本発明は、情報処理プログラム等に関する。

デンプン、セルロース等の糖類や、タンパク質、核酸、天然ゴム等のように、分子量が１０００を超えるような物質が存在し、かかる物質は、高分子化合物とも呼ばれる。

ここで、新薬や新素材の開発を行う場合、既に開発されている高分子化合物を検索し、類似度を評価することが求められている。

たとえば、化合物の類似度を評価する技術として、次のような従来技術１、２がある。従来技術１では、アミノ酸記号で記述された、タンパク質などの化合物のアミノ酸配列を入力された文字列で検索するシステムである。また、従来技術２では、化合物の官能基や原子タイプの数を数えるなどの記述式に、ベクトルを割り当て、各化合物に予め割り当てたベクトルに対して、類似度を評価する。

特開平１１－３０６１８８号公報国際公開第２００７／１３９０３７号特開２０１９－２０４３６２号公報

しかしながら、上述した従来技術では、高分子化合物の類似度評価の精度が低いという問題がある。

１つの側面では、本発明は、高分子化合物の類似度評価の精度の評価を向上させることができる情報処理プログラム、情報処理方法および情報処理装置を提供することを目的とする。

第１の案では、コンピュータに次の処理を実行させる。コンピュータは、化合物の示性式を示す配列を、配列の最小単位の文字列、および、化合物の分岐部分を示す分岐記号に分割する。コンピュータは、化合物の示性式の配列と圧縮符号との関係を示す基辞書を基にして、最小単位の文字列に圧縮符号を割り当て、分岐記号に分岐部分の種別に応じた圧縮符号を割り当てることで、配列を符号化した第１符号配列を生成する。コンピュータは、化合物の示性式の配列の基一次構造と圧縮符号との関係を示す基一次構造辞書を基にして、第１符号配列に含まれる圧縮符号を、基一次構造の単位で符号化した第２符号配列を生成する。

高分子化合物の類似度評価の精度を向上することができる。

図１は、本実施例にかかる情報処理装置が化合物を符号化する処理を説明するための図（１）である。図２は、本実施例にかかる情報処理装置が化合物を符号化する処理を説明するための図（２）である。図３は、本実施例にかかる情報処理装置が化合物を符号化する処理を説明するための図（３）である。図４は、本実施例にかかる情報処理装置の構成を示す機能ブロック図である。図５は、化学構造式ファイルのデータ構造の一例を示す図である。図６は、分岐符号テーブルのデータ構造の一例を示す図である。図７は、基辞書のデータ構造の一例を示す図である。図８は、基ＨＭＭのデータ構造の一例を示す図である。図９は、化学構造式圧縮ファイルのデータ構造の一例を示す図である。図１０は、第１転置インデックスのデータ構造の一例を示す図である。図１１は、基一次構造辞書のデータ構造の一例を示す図である。図１２は、基一次構造ＨＭＭのデータ構造の一例を示す図である。図１３は、基一次構造圧縮ファイルのデータ構造の一例を示す図である。図１４は、第２転置インデックスのデータ構造の一例を示す図である。図１５は、性質管理テーブルのデータ構造の一例を示す図である。図１６Ａは、基ベクトルテーブルのデータ構造の一例を示す図である。図１６Ｂは、基一次構造ベクトルテーブルのデータ構造の一例を示す図である。図１６Ｃは、遷移テーブルのデータ構造の一例を示す図である。図１７は、第２符号化部の処理を説明するための図である。図１８は、ポアンカレ空間の一例を示す図である。図１９は、本実施例にかかる情報処理装置の処理手順を示すフローチャートである。図２０は、本実施例にかかる情報処理装置のその他の処理を説明するための図である。図２１は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

以下に、本願の開示する情報処理プログラム、情報処理方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

図１は、本実施例にかかる情報処理装置が化合物を符号化する処理を説明するための図（１）である。ここでは、化合物を符号化する場合について説明するが、高分子化合物を符号化する場合でも、同様に符号化することができる。図１では、ある化合物に含まれるｓｅｃ－ブチル基は、さらに、メチル基やエチル基に分解でき、それを符号化する場合について説明する。ｓｅｃ－ブチル基の化学構造式１０ａは、「ＣＨ」から、メチル基「ＣＨ_３」、エチル基「ＣＨ_２ＣＨ_３」に分岐している。ｓｅｃ－ブチル基の化学構造式１０ａの示性式１０ｂは、「－ＣＨ（ＣＨ_３）ＣＨ_２ＣＨ_３」のような配列で示される。

情報処理装置は、示性式１０ｂに対して形態素解析を実行することで、示性式１０ｂに含まれる配列を、配列の最小単位（意味ある単位）の文字列、化合物の分岐部分を示す記号に分割する。以下の説明では、配列の最小単位の文字列であって意味ある単位の符号を「単位文字列」と表記し、化合物の分岐部分を示す記号を「分岐記号」と表記する。

図１に示す例では、情報処理装置は、示性式１０ｂを、「ＣＨ」、「（」、「ＣＨ_３」、「）」、「ＣＨ_２ＣＨ_３」に分割する。「ＣＨ」、「ＣＨ_３」、「ＣＨ_２ＣＨ_３」は、基（または、官能基）の単位文字列である。「（」、「）」は、分岐記号である。

情報処理装置は、化合物の示性式の配列の単位文字列と圧縮符号との関係を示す基辞書を基にして、各単位文字列に圧縮符号を割り当てる。たとえば、情報処理装置は、「ＣＨ」、「ＣＨ_３」、「ＣＨ_２ＣＨ_３」に、圧縮符号Ａ１、圧縮符号Ａ２、圧縮符号Ａ３をそれぞれ割り当てる。

情報処理装置は、分岐記号と圧縮符号との関係を示す分岐符号テーブルを基にして、各分岐記号に圧縮符号を割り当てる。たとえば、情報処理装置は、「（」、「）」に、圧縮符号Ｂ１、圧縮符号Ｂ２を割り当てる。

情報処理装置は、上記処理を実行することで、示性式１０ｂを符号化した圧縮符号配列１０ｃを生成する。情報処理装置は、図示しない化合物の残りの部分に対しても上記処理を実行することで、化合物を符号化する。また、ブチル基やｓｅｃ－ブチル基など、類似した基をまとめて、各基をポアンカレ空間にまとめて埋め込むことで、基のベクトルを生成する。

情報処理装置は、圧縮符号配列１０ｃを、更に、分岐に着目し、基の一次構造の単位で符号化する。情報処理装置は、基の一次構造を構成する複数の基のベクトル加算することで、化合物の基の一次構造のベクトルを算出する。

図２は、本実施例にかかる情報処理装置が化合物を符号化する処理を説明するための図（２）である。図２では、ある化合物に含まれるイソブチル基を符号化する場合について説明する。イソブチル基の化学構造式１１ａは、「ＣＨ」から、「ＣＨ_２」、２つの「ＣＨ_３」に分岐している。イソブチル基の化学構造式１１ａの示性式１１ｂは、「－ＣＨ_２ＣＨ（ＣＨ_３）_２」のような配列で示される。

情報処理装置は、示性式１１ｂに対して形態素解析を実行することで、示性式１１ｂに含まれる配列を、単位文字列と、分岐記号に分割する。図２に示す例では、情報処理装置は、示性式１１ｂを、「ＣＨ_２」、「ＣＨ」、「（」、「ＣＨ_３」、「）_２」に分割する。「ＣＨ_２」、「ＣＨ」、「ＣＨ_３」は、単位文字列である。「（」、「）_２」は、分岐記号である。

情報処理装置は、化合物の示性式の配列の単位文字列と圧縮符号との関係を示す基辞書を基にして、各単位文字列に圧縮符号を割り当てる。たとえば、情報処理装置は、「ＣＨ_２」、「ＣＨ」、「ＣＨ_３」に、圧縮符号Ａ４、圧縮符号Ａ１、圧縮符号Ａ２をそれぞれ割り当てる。

情報処理装置は、分岐記号と圧縮符号との関係を示す分岐符号テーブルを基にして、各分岐記号に圧縮符号を割り当てる。たとえば、情報処理装置は、「（」、「）_２」に、圧縮符号Ｂ１、圧縮符号Ｂ３を割り当てる。

情報処理装置は、上記処理を実行することで、示性式１１ｂを符号化した圧縮符号配列１１ｃを生成する。情報処理装置は、図示しない化合物の残りの部分に対しても上記処理を実行することで、化合物を符号化する。また、類似した基をまとめて、各基をポアンカレ空間にまとめて埋め込むことで、基のベクトルを生成する。

情報処理装置は、圧縮符号配列１１ｃを、更に、基の一次構造の単位で符号化する。情報処理装置は、基の一次構造を構成する複数の基のベクトル加算することで、化合物の一次構造のベクトルを算出する。

図３は、本実施例にかかる情報処理装置が化合物を符号化する処理を説明するための図（３）である。図３では、ある化合物に含まれるｔｅｒｔ－ブチル基を符号化する場合について説明する。ｔｅｒｔ－ブチル基の化学構造式１２ａは、「Ｃ」から、３つの「ＣＨ_３」に分岐している。ｔｅｒｔ－ブチル基の化学構造式１２ａの示性式１２ｂは、「－Ｃ（ＣＨ_３）_３」のような配列で示される。

情報処理装置は、示性式１２ｂに対して形態素解析を実行することで、示性式１２ｂに含まれる配列を、単位文字列と、分岐記号に分割する。図３に示す例では、情報処理装置は、示性式１２ｂを、「Ｃ」、「（」、「ＣＨ_３」、「）_３」に分割する。「ＣＨ_２」、「Ｃ」、「ＣＨ_３」は、単位文字列である。「（」、「）_３」は、分岐記号である。

情報処理装置は、化合物の示性式の配列と圧縮符号との関係を示す基辞書を基にして、各単位文字列に圧縮符号を割り当てる。たとえば、情報処理装置は、「Ｃ」、「ＣＨ_３」に、圧縮符号Ａ５、圧縮符号Ａ２をそれぞれ割り当てる。

情報処理装置は、分岐記号と圧縮符号との関係を示す分岐符号テーブルを基にして、各分岐記号に圧縮符号を割り当てる。たとえば、情報処理装置は、「（」、「）_３」に、圧縮符号Ｂ１、圧縮符号Ｂ４を割り当てる。

情報処理装置は、上記処理を実行することで、示性式１２ｂを符号化した圧縮符号配列１２ｃを生成する。情報処理装置は、図示しない化合物の残りの部分に対しても上記処理を実行することで、化合物を符号化する。また、類似した基をまとめて、各基をポアンカレ空間にまとめて埋め込むことで、基のベクトルを生成する。

情報処理装置は、圧縮符号配列１２ｃを、更に、基の一次構造の単位で符号化する。情報処理装置は、基の一次構造を構成する複数の基のベクトル加算することで、化合物の一次構造のベクトルを算出する。

上記のように、本実施例にかかる情報処理装置は、化合物の示性式を示す配列を、単位文字列および分岐記号に分割し、基辞書を基にして、化合物の示性式を符号化する。また、類似した基をまとめて、各基をポアンカレ空間にまとめて埋め込むことで、基のベクトルを生成する。情報処理装置は、符号化した化合物の示性式を、基の一次構造の単位で符号化することで、更に符号化を行い、一次構造を構成する複数の基のベクトル加算することで、化合物の一次構造のベクトルを算出する。これによって、化合物の基と、基の一次構造のベクトルを精度よく算出することができ、かかる基と基の一次構造のベクトルを用いて高分子化合物の類似度評価を実行することで、類似度評価の精度が向上する。なお、示性式は符号化対象の化学構造式の一例である。ＳＭＩＬＥＳ記法などで表現された化学構造式であっても良い。

次に、本実施例にかかる情報処理装置の構成の一例について説明する。図４は、本実施例にかかる情報処理装置の構成を示す機能ブロック図である。図４に示すように、この情報処理装置１００は、通信部１１０と、入力部１２０と、表示部１３０と、記憶部１４０と、制御部１５０とを有する。

通信部１１０は、有線又は無線で外部装置等に接続され、外部装置等との間で情報の送受信を行う。たとえば、通信部１１０は、ＮＩＣ（Network Interface Card）等によって実現される。通信部１１０は、図示しないネットワークに接続されていてもよい。

入力部１２０は、各種の情報を、情報処理装置１００に入力する入力装置である。入力部１２０は、キーボードやマウス、タッチパネル等に対応する。

表示部１３０は、制御部１５０から出力される情報を表示する表示装置である。表示部１３０は、液晶ディスプレイ、有機ＥＬ（Electro Luminescence）ディスプレイ、タッチパネル等に対応する。

記憶部１４０は、化学構造式ファイル１４０ａと、分岐符号テーブル１４０ｂと、基辞書１４０ｃと、基ＨＭＭ１４０ｄと、化学構造式圧縮ファイル１４０ｅと、第１転置インデックス１４０ｆとを有する。記憶部１４０は、基一次構造辞書１４０ｇと、基一次構造ＨＭＭ１４０ｈと、基一次構造圧縮ファイル１４０ｉと、第２転置インデックス１４０ｊと、性質管理テーブル１４０ｋと、遷移テーブル１４０ｎとを有する。記憶部１４０は、たとえば、ＲＡＭ（Random Access Memory)、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。

化学構造式ファイル１４０ａは、高分子化合物の示性式（化学構造式）の情報を含むファイルである。図５は、化学構造式ファイルのデータ構造の一例を示す図である。図５に示すように、この化学構造式ファイル１４０ａは、化合物識別情報と、示性式とを対応付ける。化合物識別情報は、高分子化合物を一意に識別する情報である。示性式は、高分子化合物の示性式（化学構造式）を示す配列の情報である。たとえば、高分子化合物は、デンプン、グリコーゲン、セルロース、アミロベクチン等に対応するが、これに限定されるものではなく、他の高分子化合物であってもよい。

分岐符号テーブル１４０ｂは、分岐記号に割り当てる符号を定義するテーブルである。図６は、分岐符号テーブルのデータ構造の一例を示す図である。図６に示すように、この分岐符号テーブル１４０ｂは、分岐記号と、圧縮符号とを対応付ける。分岐記号は、高分子化合物の分岐部分を示す記号である。圧縮符号は、分岐記号に割り当てられる圧縮符号である。圧縮符号の「ｈ」は、１６進数であることを示す。

基辞書１４０ｃは、化合物の示性式の配列と圧縮符号との関係を示す辞書情報である。図７は、基辞書のデータ構造の一例を示す図である。図７に示すように、この基辞書１４０ｃは、圧縮符号と、名称と、グループと、示性式とを対応付ける。圧縮符号は、該当する基（または官能基）の示性式に割り当てられる圧縮符号を示す。名称は、該当する名称の一例である。グループは、該当する基が属するグループを示す。名称例は、該当する基の名称の一例である。示性式は、該当する基の示性式となる配列を示す。

また、図７では図示を省略するが、基辞書１４０ｃは、図１～図３等で説明した、単位文字列と圧縮符号との関係を定義した情報を保持する。

基ＨＭＭ（Hidden Markov Model）１４０ｄは、高分子化合物の配列において、ある基と、共起する可能性の高い他の基とを対応付ける情報である。以下の説明では適宜、ある基を、「第１基」と表記し、この第１基と共起する他の基を「第２基」と表記する。

図８は、基ＨＭＭのデータ構造の一例を示す図である。図８に示すように、この基ＨＭＭ１４０ｄは、圧縮符号と、名称と、グループと、基の共起率とを対応付ける。圧縮符号は、第１基の示性式に割り当てられる圧縮符号を示す。名称は、該当する第１基の名称の一例である。グループは、該当する第１基が属するグループを示す。

基の共起率では、第１基と共起する第２基について、第２基の圧縮符号と、共起率と示す。たとえば、１行目について説明すると、高分子化合物において、第１基（圧縮符号：８０００ｈ）と共起する第２基は圧縮符号「８０２８ｈ」の基と、圧縮符号「８１３２ｈ」の基と、圧縮符号「８０Ｆ５ｈ」の基等である。また、第１基「圧縮符号：８０００ｈ」と第２基「圧縮符号：８０２８ｈ」との共起率は「７８％」である。第１基「圧縮符号：８０００ｈ」と第２基「圧縮符号：８１３２ｈ」との共起率は「６３％」である。第１基「圧縮符号：８０００ｈ」と第２基「圧縮符号：８０Ｆ５ｈ」との共起率は「３３％」である。

化学構造式圧縮ファイル１４０ｅは、符号化した高分子化合物の示性式（化学構造式）の情報を含むファイルである。図９は、化学構造式圧縮ファイルのデータ構造の一例を示す図である。図９に示すように、この化学構造式圧縮ファイル１４０ｅは、化合物識別情報と、圧縮符号配列とを対応付ける。化合物識別情報は、高分子化合物を一意に識別する情報である。圧縮符号配列は、示性式を単位文字列の単位で符号化した情報である。

第１転置インデックス１４０ｆは、化学構造式圧縮ファイル１４０ｅに含まれる単位文字列または分岐記号の圧縮符号と、この圧縮符号の出現位置との関係を示すインデックス情報である。図１０は、第１転置インデックスのデータ構造の一例を示す図である。図１０に示すように、第１転置インデックス１４５は、横軸にオフセットをとり、縦軸に圧縮符号を取る。オフセットは、化学構造式圧縮ファイル１４０ｅの先頭の圧縮符号から、該当する圧縮符号までの出現位置を示すものである。先頭の圧縮符号のオフセットを「０」とする。

第１転置インデックス１４０ｆは、図９に示した化合物識別情報毎の圧縮符号配列に対して、圧縮符号とオフセットとの関係を定義してもよい。たとえば、化合物識別情報「Ｃ１０１」の圧縮符号配列の転置インデックス、化合物識別情報「Ｃ１０２」の圧縮符号配列の転置インデックスをそれぞれ定義してもよい。

基一次構造辞書１４０ｇは、高分子化合物の示性式の圧縮符号配列（連続する複数の圧縮符号）と、一つの基一次構造の圧縮符号との関係を示す辞書情報である。基一次構造は、複数の基が組み合わさった構造を示す。

図１１は、基一次構造辞書のデータ構造の一例を示す図である。図１１に示すように、この基一次構造辞書１４０ｇは、圧縮符号と、グループと、名称と、圧縮符号配列とを対応付ける。圧縮符号は、基一次構造に対応する圧縮符号である。グループは、該当する基一次構造が属するグループを示す。名称は、基一次構造の名称の一例である。圧縮符号配列は、基一次構造に含まれる複数の基に対応する圧縮符号の配列であり、基の圧縮符号は、基辞書１４０ｃに定義された基の圧縮符号に対応する。

基一次構造ＨＭＭ１４０ｈは、高分子化合物の配列において、ある基一次構造と、共起する可能性の高い他の基一次構造とを対応付ける情報である。以下の説明では適宜、ある基一次構造を「第１基一次構造」と表記し、この第１基一次構造と共起する他の基一次構造を「第２基一次構造」と表記する。

図１２は、基一次構造ＨＭＭのデータ構造の一例を示す図である。図１２に示すように、この基一次構造ＨＭＭ１４０ｈは、圧縮符号と、グループと、名称と、基一次構造の共起率とを対応付ける。圧縮符号は、第１基一次構造に割り当てられる圧縮符号を示す。グループは、該当する第１基一次構造の属するグループを示す。名称は、該当する第基一次構造の名称の一例である。

基一次構造の共起率は、第１基一次構造と共起する第２基一次構造について、第２基一次構造の圧縮符号と、共起率とを示す。たとえば、１行目について説明すると、高分子化合物において、第１基一次構造（圧縮符号：Ｆ０００００ｈ）と共起する第２基一次構造の各圧縮符号は、「Ｆ０００１１ｈ」、「Ｆ００１０１ｈ」、「Ｆ００２２５ｈ」である。

また、第１基一次構造「圧縮符号：Ｆ０００００ｈ」と第２基「圧縮符号：Ｆ０００１１ｈ」との共起率は「７８％」である。第１基一次構造「圧縮符号：Ｆ０００００ｈ」と第２基「圧縮符号：Ｆ００１０１ｈ」との共起率は「６３％」である。第１基一次構造「圧縮符号：Ｆ０００００ｈ」と第２基「圧縮符号：Ｆ００２２５ｈ」との共起率は「５１％」である。

基一次構造圧縮ファイル１４０ｉは、基一次構造の単位で符号化した高分子化合物の示性式の情報を含むファイルである。図１３は、基一次構造圧縮ファイルのデータ構造の一例を示す図である。図１３に示すように、この基一次構造圧縮ファイル１４０ｉは、化学物識別情報と、基一次構造の圧縮符号配列とを対応付ける。化合物識別情報は、高分子化合物を一意に識別する情報である。圧縮符号配列は、示性式を基一次構造の単位で符号化した情報である。

第２転置インデックス１４０ｊは、基一次構造圧縮ファイル１４０ｉに含まれる基一次構造の圧縮符号と、この圧縮符号の出現位置との関係を示すインデックス情報である。図１４は、第２転置インデックスのデータ構造の一例を示す図である。図１４に示すように、第２転置インデックス１４０ｊは、横軸にオフセットをとり、縦軸に圧縮符号を取る。オフセットは、基一次構造圧縮ファイル１４０ｉの先頭の圧縮符号（基一次構造の単位の圧縮符号）から、該当する圧縮符号までの出現位置を示すものである。先頭の圧縮符号のオフセットを「０」とする。

第２転置インデックス１４０ｊは、図１３に示した化合物識別情報毎の圧縮符号配列に対して、圧縮符号とオフセットとの関係を定義してもよい。たとえば、化合物識別情報「Ｃ１０１」の圧縮符号配列の転置インデックス、化合物識別情報「Ｃ１０２」の圧縮符号配列の転置インデックスをそれぞれ定義してもよい。

性質管理テーブル１４０ｋは、性質が類似する基を定義するテーブルである。図１５は、性質管理テーブルのデータ構造の一例を示す図である。図１５に示すように、この性質管理テーブル１４０ｋは、性質番号と、圧縮符号と、名称とを対応付ける。性質番号は、基一次構造の性質を識別する番号であり、類似の性質をもつ基の各圧縮符号には、同一の性質番号が割り振られる。圧縮符号は、基の圧縮符号である。名称は、基の名称である。

図１５に示す例では、圧縮符号「８００４ｈ」、圧縮符号「８００５ｈ」、圧縮符号「８００６ｈ」、圧縮符号「８００７ｈ」に同一の性質符号「Ｉ１０２」が割り振られている。このため、圧縮符号「８００４ｈ」、圧縮符号「８００５ｈ」、圧縮符号「８００６ｈ」、圧縮符号「８００７ｈ」に対応する各基は、類似の性質を持つことを意味する。

図１５では説明を省略するが、この性質管理テーブル１４０ｋは、性質番号と、類似の性質をもつ基の圧縮符号とを対応付けた情報を保持していてもよい。

基ベクトルテーブル１４０ｌは、高分子化合物に含まれる各基に対して割り当てられる圧縮符号のベクトルを保持するテーブルである。図１６Ａは、基ベクトルテーブルのデータ構造の一例を示す図である。図１６Ａに示すように、基ベクトルテーブル１４０ｌは、基の圧縮符号と、ベクトルとを対応付ける。なお、基ベクトルテーブル１４０ｌは、分岐符号テーブル１４０ｂに定義された分岐記号に対応するベクトルを保持してもよい。

基一次構造ベクトルテーブル１４０ｍは、高分子化合物に含まれる各基一次構造に対して割り当てられる圧縮符号のベクトルを保持するテーブルである。図１６Ｂは、基一次構造ベクトルテーブルのデータ構造の一例を示す図である。図１６Ｂに示すように、基一次構造ベクトルテーブル１４０ｍは、基一次構造の圧縮符号と、ベクトルとを対応付ける。

遷移テーブル１４０ｎは、高分子化合物のベクトルの情報を保持するテーブルである。図１６Ｃは、遷移テーブルのデータ構造の一例を示す図である。図１６Ｃに示すように、遷移テーブル１４０ｎは、化合物識別情報と、複数のベクトルとを有する。化合物識別情報は、高分子化合物を一意に識別する情報である。複数のベクトルは、高分子化合物に含まれる各基一次構造のベクトルを示す。たとえば、ベクトル（ｎ）は、高分子化合物の先頭からｎ番目に位置する基一次構造のベクトルである。

図４の説明に戻る。制御部１５０は、取得部１５１と、第１符号化部１５２と、第２符号化部１５３と、ベクトル算出部１５４と、類似度評価部１５５とを有する。制御部１５０は、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）により実現される。また、制御部１５０は、例えばＡＳＩＣ（Application specific Integrated Circuit）やＦＰＧＡ（Field Programmable gate Array）等の集積回路により実行されてもよい。

取得部１５１は、ネットワークを介して、外部装置等から各種の情報を取得する処理部である。たとえば、取得部１５１は、化学構造式ファイル１４０ａを取得し、取得した化学構造式ファイル１４０ａを記憶部１４０に格納する。取得部１５１は、基辞書１４０ｃ、基ＨＭＭ１４０ｄ、基一次構造辞書１４０ｇ、基一次構造ＨＭＭ１４０ｈを取得して、記憶部１４０に格納してもよい。

第１符号化部１５２は、化学構造式ファイル１４０ａから、高分子化合物の示性式を取得し、取得した示性式を符号化する処理部である。以下において、第１符号化部１５２の処理の一例について説明する。

第１符号化部１５２は、高分子化合物の示性式に対して形態素解析を実行することで、示性式に含まれる配列を単位文字列、または、分岐記号に分割する。第１符号化部１５２が、形態素解析を実行して、単位文字列、または、分岐記号に分割する処理は、図１、図２、図３で説明した処理に対応する。

第１符号化部１５２は、分割候補となる単位文字列が複数通り存在する場合には、基ＨＭＭ１４０ｄを基にして、共起率の高い方の単位文字列を選択して、分割してもよい。

第１符号化部１５２は、高分子化合物の示性式を単位文字列、または、分岐記号に分割した後に、分岐符号テーブル１４０ｂおよび基辞書１４０ｃを用いて、示性式を符号化することで、圧縮符号配列を生成する。第１符号化部１５２が生成する圧縮符号配列は、「第１符号配列」に対応する。第１符号化部１５２は、化合物識別情報と、圧縮符号配列とを対応付けて、化学構造式圧縮ファイル１４０ｅに登録する。

第１符号化部１５２は、高分子化合物の示性式の単位文字列、または、分岐記号に圧縮符号を割り当てる場合に、圧縮符号の種別と、オフセットとの関係を第１転置インデックス１４０ｆに登録する。たとえば、第１符号化部１５２は、高分子化合物の示性式の圧縮符号配列（第１符号配列）において、圧縮符号「８０００ｈ」のオフセットが「１」である場合には、第１転置インデックス１４０ｆのオフセット「１」の列と、圧縮符号「８０００ｈ」の行とが交差する部分に「１」を設定する。

第１符号化部１５２は、化学構造式ファイル１４０ａから、未選択の化合物識別情報に対応する示性式の情報を取得し、上記処理を繰り返し実行することで、化学構造式圧縮ファイル１４０ｅを生成する。

第２符号化部１５３は、化学構造式圧縮ファイル１４０ｅから、高分子化合物の圧縮符号配列（第１符号配列）を取得し、取得した圧縮符号配列を、基一次構造の単位で符号化する処理部である。高分子化合物の圧縮符号配列と、基一次構造の圧縮符号との関係は、基一次構造辞書１４０ｇに定義されている。

図１７は、第２符号化部の処理を説明するための図である。図１７において、圧縮符号配列１５は、化学構造式圧縮ファイル１４０ｅに登録された化合物識別情報「Ｃ１０１」に対応する圧縮符号配列１５ａとする。圧縮符号配列１５ａに含まれる各圧縮符号は、基辞書１４０ｃに定義された単位符号の圧縮符号、または、分岐記号の圧縮符号である。

たとえば、基一次構造辞書１４０ｇにおいて、圧縮符号配列１５ａの各圧縮符号Ｘ１、Ｘ２、・・・、Ｘ１９と、基一次構造の圧縮符号「Ｆ００１１２ｈ」とが対応づけられているものとする。この場合、第２符号化部１５３は、各圧縮符号Ｘ１、Ｘ２、・・・、Ｘ１９に、基一次構造の圧縮符号「Ｆ００１１２ｈ」を割り当てる。

基一次構造辞書１４０ｇにおいて、圧縮符号配列１５ａの各圧縮符号Ｙ１、Ｙ２、・・・、Ｘ３８と、基一次構造の圧縮符号「Ｆ００３３２ｈ」とが対応づけられているものとする。この場合、第２符号化部１５３は、各圧縮符号Ｙ１、Ｙ２、・・・、Ｙ３８に、基一次構造の圧縮符号「Ｆ００３３２ｈ」を割り当てる。

基一次構造辞書１４０ｇにおいて、圧縮符号配列１５ａの各圧縮符号Ｚ１、Ｚ２、・・・、Ｚ２０と、基一次構造の圧縮符号「Ｆ００１１０ｈ」とが対応づけられているものとする。この場合、第２符号化部１５３は、各圧縮符号Ｚ１、Ｚ２、・・・、Ｚ２０に、基一次構造の圧縮符号「Ｆ００１１０ｈ」を割り当てる。

第２符号化部１５３は、基一次構造辞書１４０ｇを基にして、上記処理を繰り返し実行することで、圧縮符号配列１５ａを、基一次構造の単位で符号化した圧縮符号配列１５ｂを生成する。圧縮符号配列１５ｂは「第２符号配列」に対応する。第２符号化部１５３は、化合物識別情報と、圧縮符号配列とを対応付けて、基一次構造圧縮ファイル１４０ｉに登録する。

第２符号化部１５３は、圧縮符号配列１５ａと、基一次構造辞書１４０ｇとを比較して、符号化していく過程において、基一次構造の単位の複数の圧縮符号が、符号化の候補となる場合には、基一次構造ＨＭＭ１４０ｈを基にして、共起率の高い方の圧縮符号を選択して、割り当ててもよい。

第２符号化部１５３は、基一次構造の単位で符号化する場合に、圧縮符号の種別と、オフセットとの関係を第２転置インデックス１４０ｊに登録する。たとえば、高分子化合物の示性式の圧縮符号配列（第２符号配列）において、圧縮符号「Ｆ００１１２ｈ」のオフセットが「０」となる。この場合、第２符号化部１５３は、第１転置インデックス１４０ｆのオフセット「０」の列と、圧縮符号「Ｆ００１１２ｈ」の行とが交差する部分に「１」を設定する。

第２符号化部１５３は、化学構造式圧縮ファイル１４０ｅから、未選択の化合物識別情報に対応する示性式の圧縮符号配列を取得し、上記処理を繰り返し実行することで、基一次構造圧縮ファイル１４０ｉを生成する。

また、第２符号化部１５３は、基一次構造の圧縮符号と、この基一次構造の圧縮符号に対応する複数の基の圧縮符号、分岐記号の圧縮符号とを関係を、ベクトル算出部１５４に出力する。

図４の説明に戻る。ベクトル算出部１５４は、基一次構造圧縮ファイル１４０ｉから、高分子化合物の圧縮符号配列（第２符号配列）を取得し、高分子化合物のベクトルを算出する処理部である。ベクトル算出部１５４は、基一次構造圧縮ファイル１４０ｉから、基一次構造の圧縮符号を取得し、取得した圧縮符号のベクトルを、次の処理を実行することで算出する。ベクトル算出部１５４は、上記の第２符号化部１５３から、基一次構造の圧縮符号と、複数の基の圧縮符号および分岐記号の圧縮符号との関係を取得しておく。

ベクトル算出部１５４は、基毎の圧縮符号を、ポアンカレ空間等のベクトル空間に埋め込むことで、圧縮符号に対応するベクトルをそれぞれ算出する。ベクトル算出部１５４は、分岐記号の圧縮符号についても、ポアンカレ空間に埋め込むことで、ベクトルを算出してもよいし、予めベクトルを割り当てておいてもよい。ベクトル算出部１５４は、基の圧縮符号と、ベクトルとを対応付けて、基ベクトルテーブル１４０ｌに登録する。

ベクトル算出部１５４は、基一次構造に含まれる各基の圧縮符号、分岐記号の圧縮符号に割り当てたベクトルを加算することで、基一次構造のベクトルを算出する。ベクトル算出部１５４は、基一次構造の圧縮符号と、ベクトルとを対応付けて、基一次構造ベクトルテーブル１４０ｍに登録する。

高分子化合物には、複数の基一次構造が含まれている。ベクトル算出部１５４は、化合物識別情報と、基一次構造毎のベクトルとを対応付けて、遷移テーブル１４０ｎに登録する。ベクトル算出部１５４は、基一次構造が出現する順番に、基一次構造のベクトルを、遷移テーブル１４０ｎに登録する。

ここで、ベクトル算出部１５４が、基の圧縮符号を、ポアンカレ空間に埋め込んで、ベクトルを算出する処理は、ポアンカレエンベッディング（Poincare Embeddings）と呼ばれる技術である。ポアンカレエンベッディングは、たとえば、非特許文献「Valentin Khrulkov1 et al.「Hyperbolic Image Embeddings」Cornell University,2019 April 3」等に記載された技術を用いればよい。

ポアンカレエンベディングでは、ポアンカレ空間に埋め込まれた位置に応じて、ベクトルが割り当てられるものであり、また、類似する情報ほど、近い位置に埋め込まれるという特徴がある。ベクトル算出部１５４は、性質管理テーブル１４０ｋを基にして、類似の性質をもつ各基の圧縮符号を特定する。

図１８は、ポアンカレ空間の一例を示す図である。図１５で説明したように、圧縮符号「８００４ｈ」、圧縮符号「８００５ｈ」、圧縮符号「８００６ｈ」、圧縮符号「８００７ｈ」に対応する基は、類似の性質を持つ。このため、ベクトル算出部１５４は、圧縮符号「８００４ｈ」、圧縮符号「８００５ｈ」、圧縮符号「８００６ｈ」、圧縮符号「８００７ｈ」を、ポアンカレ空間Ｐ上の相互に近い位置に埋め込み、位置に応じたベクトルを付与する。

ベクトル算出部１５４は、高分子化合物の圧縮符号配列に含まれる各基一次構造の圧縮符号のベクトルを、先頭から順に算出し、遷移テーブル１４０ｎに順に登録する。ベクトル算出部１５４は、基一次構造圧縮ファイル１４０ｉから、未選択の化合物識別情報に対応する示性式の圧縮符号配列を取得し、上記処理を繰り返し実行することで、遷移テーブル１４０ｎを生成する。

類似度評価部１５５は、遷移テーブル１４０ｎに登録された各化合物識別情報に対応するベクトルを比較することで、高分子化合物の類似度を評価する処理部である。たとえば、類似度評価部１５５は、各高分子化合物のベクトルの距離を算出し、距離が閾値未満となる高分子化合物の組を、相互に類似する高分子化合物として特定する。

たとえば、類似度評価部１５５は、遷移テーブル１４０ｎに登録された高分子化合物に対応する各基一次構造のベクトルを集積したベクトルを、高分子化合物のベクトルし、各高分子化合物のベクトルの距離を算出してもよい。類似度評価部１５５は、評価結果を表示部１３０に出力して表示させてもよいし、外部装置等に通知してもよい。

続いて、本実施例にかかる情報処理装置１００の処理手順の一例について説明する。図１９は、本実施例にかかる情報処理装置の処理手順を示すフローチャートである。図１９に示すように、情報処理装置１００の第１符号化部１５２は、化学構造式ファイル１４０ａから、高分子化合物の示性式の配列を取得する（ステップＳ１０１）。

第１符号化部１５２は、形態素解析を実行して、示性式の配列を、単位文字列、または、分岐記号に分割する（ステップＳ１０２）。第１符号化部１５２は、分岐符号テーブル１４０ｂ、基辞書１４０ｃ、基ＨＭＭ１４０ｄを基にして、単位文字列、分岐記号に圧縮符号を割り当て、第１転置インデックス１４０ｆ、化学構造式圧縮ファイル１４０ｅを生成する。また、情報処理装置１００のベクトル算出部１５４は、ポアンカレ空間に埋め込むことで基のベクトルを生成する（ステップＳ１０３）。

情報処理装置１００の第２符号化部１５３は、化学構造式圧縮ファイル１４０ｅから、高分子化合物の圧縮符号配列を取得する（ステップＳ１０４）。第２符号化部１５３は、基一次構造辞書１４０ｇ、基一次構造ＨＭＭ１４０ｈを基にして、基一次構造単位で、圧縮符号化配列を生成し、第２転置インデックス１４０ｊ、基一次構造圧縮ファイル１４０ｉを生成する（ステップＳ１０５）。

情報処理装置１００のベクトル算出部１５４は、基一次構造圧縮ファイル１４０ｉに格納された基一次構造単位を構成する基のベクトルを加算することで、基一次構造のベクトルを算出し、遷移テーブル１４０ｎを生成する（ステップＳ１０６）。情報処理装置１００の類似度評価部１５５は、遷移テーブル１４０ｎを基にして、類似度評価を実行する（ステップＳ１０７）。

次に、本実施例にかかる情報処理装置１００の効果について説明する。情報処理装置１００は、高分子化合物の示性式を、単位文字列、分岐記号に分割して圧縮符号を割り当てることで、圧縮符号配列を生成し、さらに、基一次構造毎の各圧縮符号に変換する。情報処理装置は、基毎の圧縮符号をもとに、類似の性質となる基をまとめてポアンカレ空間に埋め込むことで、化合物の性質を適切に表現するための基のベクトルを生成する。かかる情報処理装置１００の処理によって生成したベクトルを用いて、類似度の評価を実行することで、類似度評価の精度を向上させることができる。

情報処理装置１００は、基一次構造を構成する圧縮符号を用いて、各基のベクトルを加算し基の一次構造のベクトルを算出し、遷移テーブルを生成する。このため、性質の類似する各基一次構造に、高精度なベクトルを割り当てることができる。

情報処理装置１００は、遷移テーブル１４０ｎに格納された各高分子化合物に対応する基一次構造のベクトルを比較することで、類似の特性を有する高分子化合物を精度よく評価することができる。

ところで、上述した本実施例にかかる情報処理装置１００の処理は一例であり、その他の処理を実行してもよい。図１～図３で説明したように、情報処理装置１００は、高分子化合物の示性式を符号化する場合に、基に含まれる単位文字列、分岐記号の粒度で、圧縮符号を割り当てていたが、これに限定されるものではない。

情報処理装置１００は、基を最小単位とみなし、分岐部分に位置する基に対して、分岐の基固有の圧縮符号を割り当てることで、符号化を行ってもよい。図２０は、本実施例にかかる情報処理装置のその他の処理を説明するための図である。図２０では、高分子化合物の一例として、グリコーゲンを用いてする。

図２０に示す高分子化合物３０は、複数の基が接続されて構成される。高分子化合物３０の領域３０ａに着目して説明を行う。領域３０ａには、複数の基３１と、分岐部分の基３２とが含まれる。情報処理装置１００の第１符号化部１５２は、基辞書１４０ｃを基にして、複数の基３１に、圧縮符号を割り当てる。また、第１符号化部１５２は、分岐部分の基３２に対して、分岐部分の固有の圧縮符号を割り当てる。

次に、上記実施例に示した情報処理装置１００と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図２１は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

図２１に示すように、コンピュータ２００は、各種演算処理を実行するＣＰＵ２０１と、ユーザからのデータの入力を受け付ける入力装置２０２と、ディスプレイ２０３とを有する。また、コンピュータ２００は、有線または無線ネットワークを介して、外部装置等との間でデータの授受を行う通信装置２０４と、インタフェース装置２０５とを有する。また、コンピュータ２００は、各種情報を一時記憶するＲＡＭ２０６と、ハードディスク装置２０７とを有する。そして、各装置２０１～２０７は、バス２０８に接続される。

ハードディスク装置２０７は、取得プログラム２０７ａ、第１符号化プログラム２０７ｂ、第２符号化プログラム２０７ｃ、ベクトル算出プログラム２０７ｄ、類似度評価プログラム２０７ｅを有する。また、ＣＰＵ２０１は、各プログラム２０７ａ～２０７ｅを読み出してＲＡＭ２０６に展開する。

取得プログラム２０７ａは、取得プロセス２０６ａとして機能する。第１符号化プログラム２０７ｂは、第１符号化プロセス２０６ｂとして機能する。第２符号化プログラム２０７ｃは、第２符号化プロセス２０６ｃとして機能する。ベクトル算出プログラム２０７ｄは、ベクトル算出プロセス２０６ｄとして機能する。類似度評価プログラム２０７ｅは、類似度評価プロセス２０６ｅとして機能する。

取得プロセス２０６ａの処理は、取得部１５１の処理に対応する。第１符号化プロセス２０６ｂの処理は、第１符号化部１５２の処理に対応する。第２符号化プロセス２０６ｃの処理は、第２符号化部１５３の処理に対応する。ベクトル算出プロセス２０６ｄの処理は、ベクトル算出部１５４の処理に対応する。類似度評価プロセス２０６ｅの処理は、類似度評価部１５５の処理に対応する。

なお、各プログラム２０７ａ～２０７ｅについては、必ずしも最初からハードディスク装置３０７に記憶させておかなくても良い。例えば、コンピュータ２００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＤＶＤ、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ２００が各プログラム２０７ａ～２０７ｅを読み出して実行するようにしてもよい。

１００情報処理装置
１１０通信部
１２０入力部
１３０表示部
１４０記憶部
１４０ａ化学構造式ファイル
１４０ｂ分岐符号テーブル
１４０ｃ基辞書
１４０ｄ基ＨＭＭ
１４０ｅ化学構造式圧縮ファイル
１４０ｆ第１転置インデックス
１４０ｇ基一次構造辞書
１４０ｈ基一次構造ＨＭＭ
１４０ｉ基一次構造圧縮ファイル
１４０ｊ第２転置インデックス
１４０ｋ性質管理テーブル
１４０ｌ基ベクトルテーブル
１４０ｍ基一次構造ベクトルテーブル
１４０ｎ遷移テーブル
１５０制御部
１５１取得部
１５２第１符号化部
１５３第２符号化部
１５４ベクトル算出部
１５５類似度評価部

Claims

コンピュータに、
化合物の示性式を示す配列を、前記配列の最小単位の文字列、および、前記化合物の分岐部分を示す分岐記号に分割し、
化合物の示性式の配列と圧縮符号との関係を示す基辞書を基にして、前記最小単位の文字列に圧縮符号を割り当て、前記分岐記号に前記分岐部分の種別に応じた圧縮符号を割り当てることで、前記配列を符号化した第１符号配列を生成し、
化合物の示性式の配列の基一次構造と圧縮符号との関係を示す基一次構造辞書を基にして、前記第１符号配列に含まれる圧縮符号を、前記基一次構造の単位で符号化した第２符号配列を生成する
処理を実行させることを特徴とする情報処理プログラム。
前記第１符号配列に含まれる前記基毎の圧縮符号を、ポアンカレ空間に埋め込むことで、基のベクトルを生成し、前記基一次構造を構成する基のベクトルを加算することで、前記基一次構造にベクトルを割り当てる処理を更に実行することを特徴とする請求項１に記載の情報処理プログラム。
前記ベクトルを割り当てる処理は、類似の性質となる基の圧縮符号を、ポアンカレ空間の類似の位置に埋め込み、前記ポアンカレ空間の位置に応じたベクトルを埋め込んだ圧縮符号に割り当てることを特徴とする請求項２に記載の情報処理プログラム。
前記ベクトルを割り当てる処理は、前記第２符号配列に含まれる複数の基一次構造のベクトルを順に遷移テーブルに登録する処理を更に実行することを特徴とする請求項２または３に記載の情報処理プログラム。
前記遷移テーブルに登録されたベクトルを基にして、各化合物の類似度を評価する処理を更に実行することを特徴とする請求項４に記載の情報処理プログラム。
コンピュータが実行する情報処理方法であって、
化合物の示性式を示す配列を、前記配列の最小単位の文字列、および、前記化合物の分岐部分を示す分岐記号に分割し、
化合物の示性式の配列と圧縮符号との関係を示す基辞書を基にして、前記最小単位の文字列に圧縮符号を割り当て、前記分岐記号に前記分岐部分の種別に応じた圧縮符号を割り当てることで、前記配列を符号化した第１符号配列を生成し、
化合物の示性式の配列の基一次構造と圧縮符号との関係を示す基一次構造辞書を基にして、前記第１符号配列に含まれる圧縮符号を、前記基一次構造の単位で符号化した第２符号配列を生成する
処理を実行することを特徴とする情報処理方法。
化合物の示性式を示す配列を、前記配列の最小単位の文字列、および、前記化合物の分岐部分を示す分岐記号に分割し、化合物の示性式の配列と圧縮符号との関係を示す基辞書を基にして、前記最小単位の文字列に圧縮符号を割り当て、前記分岐記号に前記分岐部分の種別に応じた圧縮符号を割り当てることで、前記配列を符号化した第１符号配列を生成する第１符号化部と、
化合物の示性式の配列の基一次構造と圧縮符号との関係を示す基一次構造辞書を基にして、前記第１符号配列に含まれる圧縮符号を、前記基一次構造の単位で符号化した第２符号配列を生成する第２符号化部と、
を有することを特徴とする情報処理装置。