JP7371779B2 - 情報処理プログラム、情報処理方法および情報処理装置 - Google Patents

情報処理プログラム、情報処理方法および情報処理装置 Download PDF

Info

Publication number
JP7371779B2
JP7371779B2 JP2022528386A JP2022528386A JP7371779B2 JP 7371779 B2 JP7371779 B2 JP 7371779B2 JP 2022528386 A JP2022528386 A JP 2022528386A JP 2022528386 A JP2022528386 A JP 2022528386A JP 7371779 B2 JP7371779 B2 JP 7371779B2
Authority
JP
Japan
Prior art keywords
code
array
primary structure
compound
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022528386A
Other languages
English (en)
Other versions
JPWO2021245926A1 (ja
JPWO2021245926A5 (ja
Inventor
正弘 片岡
裕美 古賀
万里子 多賀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2021245926A1 publication Critical patent/JPWO2021245926A1/ja
Publication of JPWO2021245926A5 publication Critical patent/JPWO2021245926A5/ja
Application granted granted Critical
Publication of JP7371779B2 publication Critical patent/JP7371779B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3082Vector coding
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3084Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
    • H03M7/3088Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method employing the use of a dictionary, e.g. LZ78
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/40Searching chemical structures or physicochemical data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、情報処理プログラム等に関する。
デンプン、セルロース等の糖類や、タンパク質、核酸、天然ゴム等のように、分子量が1000を超えるような物質が存在し、かかる物質は、高分子化合物とも呼ばれる。
ここで、新薬や新素材の開発を行う場合、既に開発されている高分子化合物を検索し、類似度を評価することが求められている。
たとえば、化合物の類似度を評価する技術として、次のような従来技術1、2がある。従来技術1では、アミノ酸記号で記述された、タンパク質などの化合物のアミノ酸配列を入力された文字列で検索するシステムである。また、従来技術2では、化合物の官能基や原子タイプの数を数えるなどの記述式に、ベクトルを割り当て、各化合物に予め割り当てたベクトルに対して、類似度を評価する。
特開平11-306188号公報 国際公開第2007/139037号 特開2019-204362号公報
しかしながら、上述した従来技術では、高分子化合物の類似度評価の精度が低いという問題がある。
1つの側面では、本発明は、高分子化合物の類似度評価の精度の評価を向上させることができる情報処理プログラム、情報処理方法および情報処理装置を提供することを目的とする。
第1の案では、コンピュータに次の処理を実行させる。コンピュータは、化合物の示性式を示す配列を、配列の最小単位の文字列、および、化合物の分岐部分を示す分岐記号に分割する。コンピュータは、化合物の示性式の配列と圧縮符号との関係を示す基辞書を基にして、最小単位の文字列に圧縮符号を割り当て、分岐記号に分岐部分の種別に応じた圧縮符号を割り当てることで、配列を符号化した第1符号配列を生成する。コンピュータは、化合物の示性式の配列の基一次構造と圧縮符号との関係を示す基一次構造辞書を基にして、第1符号配列に含まれる圧縮符号を、基一次構造の単位で符号化した第2符号配列を生成する。
高分子化合物の類似度評価の精度を向上することができる。
図1は、本実施例にかかる情報処理装置が化合物を符号化する処理を説明するための図(1)である。 図2は、本実施例にかかる情報処理装置が化合物を符号化する処理を説明するための図(2)である。 図3は、本実施例にかかる情報処理装置が化合物を符号化する処理を説明するための図(3)である。 図4は、本実施例にかかる情報処理装置の構成を示す機能ブロック図である。 図5は、化学構造式ファイルのデータ構造の一例を示す図である。 図6は、分岐符号テーブルのデータ構造の一例を示す図である。 図7は、基辞書のデータ構造の一例を示す図である。 図8は、基HMMのデータ構造の一例を示す図である。 図9は、化学構造式圧縮ファイルのデータ構造の一例を示す図である。 図10は、第1転置インデックスのデータ構造の一例を示す図である。 図11は、基一次構造辞書のデータ構造の一例を示す図である。 図12は、基一次構造HMMのデータ構造の一例を示す図である。 図13は、基一次構造圧縮ファイルのデータ構造の一例を示す図である。 図14は、第2転置インデックスのデータ構造の一例を示す図である。 図15は、性質管理テーブルのデータ構造の一例を示す図である。 図16Aは、基ベクトルテーブルのデータ構造の一例を示す図である。 図16Bは、基一次構造ベクトルテーブルのデータ構造の一例を示す図である。 図16Cは、遷移テーブルのデータ構造の一例を示す図である。 図17は、第2符号化部の処理を説明するための図である。 図18は、ポアンカレ空間の一例を示す図である。 図19は、本実施例にかかる情報処理装置の処理手順を示すフローチャートである。 図20は、本実施例にかかる情報処理装置のその他の処理を説明するための図である。 図21は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
以下に、本願の開示する情報処理プログラム、情報処理方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
図1は、本実施例にかかる情報処理装置が化合物を符号化する処理を説明するための図(1)である。ここでは、化合物を符号化する場合について説明するが、高分子化合物を符号化する場合でも、同様に符号化することができる。図1では、ある化合物に含まれるsec-ブチル基は、さらに、メチル基やエチル基に分解でき、それを符号化する場合について説明する。sec-ブチル基の化学構造式10aは、「CH」から、メチル基「CH」、エチル基「CHCH」に分岐している。sec-ブチル基の化学構造式10aの示性式10bは、「-CH(CH)CHCH」のような配列で示される。
情報処理装置は、示性式10bに対して形態素解析を実行することで、示性式10bに含まれる配列を、配列の最小単位(意味ある単位)の文字列、化合物の分岐部分を示す記号に分割する。以下の説明では、配列の最小単位の文字列であって意味ある単位の符号を「単位文字列」と表記し、化合物の分岐部分を示す記号を「分岐記号」と表記する。
図1に示す例では、情報処理装置は、示性式10bを、「CH」、「(」、「CH」、「)」、「CHCH」に分割する。「CH」、「CH」、「CHCH」は、基(または、官能基)の単位文字列である。「(」、「)」は、分岐記号である。
情報処理装置は、化合物の示性式の配列の単位文字列と圧縮符号との関係を示す基辞書を基にして、各単位文字列に圧縮符号を割り当てる。たとえば、情報処理装置は、「CH」、「CH」、「CHCH」に、圧縮符号A1、圧縮符号A2、圧縮符号A3をそれぞれ割り当てる。
情報処理装置は、分岐記号と圧縮符号との関係を示す分岐符号テーブルを基にして、各分岐記号に圧縮符号を割り当てる。たとえば、情報処理装置は、「(」、「)」に、圧縮符号B1、圧縮符号B2を割り当てる。
情報処理装置は、上記処理を実行することで、示性式10bを符号化した圧縮符号配列10cを生成する。情報処理装置は、図示しない化合物の残りの部分に対しても上記処理を実行することで、化合物を符号化する。また、ブチル基やsec-ブチル基など、類似した基をまとめて、各基をポアンカレ空間にまとめて埋め込むことで、基のベクトルを生成する。
情報処理装置は、圧縮符号配列10cを、更に、分岐に着目し、基の一次構造の単位で符号化する。情報処理装置は、基の一次構造を構成する複数の基のベクトル加算することで、化合物の基の一次構造のベクトルを算出する。
図2は、本実施例にかかる情報処理装置が化合物を符号化する処理を説明するための図(2)である。図2では、ある化合物に含まれるイソブチル基を符号化する場合について説明する。イソブチル基の化学構造式11aは、「CH」から、「CH」、2つの「CH」に分岐している。イソブチル基の化学構造式11aの示性式11bは、「-CHCH(CH」のような配列で示される。
情報処理装置は、示性式11bに対して形態素解析を実行することで、示性式11bに含まれる配列を、単位文字列と、分岐記号に分割する。図2に示す例では、情報処理装置は、示性式11bを、「CH」、「CH」、「(」、「CH」、「)」に分割する。「CH」、「CH」、「CH」は、単位文字列である。「(」、「)」は、分岐記号である。
情報処理装置は、化合物の示性式の配列の単位文字列と圧縮符号との関係を示す基辞書を基にして、各単位文字列に圧縮符号を割り当てる。たとえば、情報処理装置は、「CH」、「CH」、「CH」に、圧縮符号A4、圧縮符号A1、圧縮符号A2をそれぞれ割り当てる。
情報処理装置は、分岐記号と圧縮符号との関係を示す分岐符号テーブルを基にして、各分岐記号に圧縮符号を割り当てる。たとえば、情報処理装置は、「(」、「)」に、圧縮符号B1、圧縮符号B3を割り当てる。
情報処理装置は、上記処理を実行することで、示性式11bを符号化した圧縮符号配列11cを生成する。情報処理装置は、図示しない化合物の残りの部分に対しても上記処理を実行することで、化合物を符号化する。また、類似した基をまとめて、各基をポアンカレ空間にまとめて埋め込むことで、基のベクトルを生成する。
情報処理装置は、圧縮符号配列11cを、更に、基の一次構造の単位で符号化する。情報処理装置は、基の一次構造を構成する複数の基のベクトル加算することで、化合物の一次構造のベクトルを算出する。
図3は、本実施例にかかる情報処理装置が化合物を符号化する処理を説明するための図(3)である。図3では、ある化合物に含まれるtert-ブチル基を符号化する場合について説明する。tert-ブチル基の化学構造式12aは、「C」から、3つの「CH」に分岐している。tert-ブチル基の化学構造式12aの示性式12bは、「-C(CH」のような配列で示される。
情報処理装置は、示性式12bに対して形態素解析を実行することで、示性式12bに含まれる配列を、単位文字列と、分岐記号に分割する。図3に示す例では、情報処理装置は、示性式12bを、「C」、「(」、「CH」、「)」に分割する。「CH」、「C」、「CH」は、単位文字列である。「(」、「)」は、分岐記号である。
情報処理装置は、化合物の示性式の配列と圧縮符号との関係を示す基辞書を基にして、各単位文字列に圧縮符号を割り当てる。たとえば、情報処理装置は、「C」、「CH」に、圧縮符号A5、圧縮符号A2をそれぞれ割り当てる。
情報処理装置は、分岐記号と圧縮符号との関係を示す分岐符号テーブルを基にして、各分岐記号に圧縮符号を割り当てる。たとえば、情報処理装置は、「(」、「)」に、圧縮符号B1、圧縮符号B4を割り当てる。
情報処理装置は、上記処理を実行することで、示性式12bを符号化した圧縮符号配列12cを生成する。情報処理装置は、図示しない化合物の残りの部分に対しても上記処理を実行することで、化合物を符号化する。また、類似した基をまとめて、各基をポアンカレ空間にまとめて埋め込むことで、基のベクトルを生成する。
情報処理装置は、圧縮符号配列12cを、更に、基の一次構造の単位で符号化する。情報処理装置は、基の一次構造を構成する複数の基のベクトル加算することで、化合物の一次構造のベクトルを算出する。
上記のように、本実施例にかかる情報処理装置は、化合物の示性式を示す配列を、単位文字列および分岐記号に分割し、基辞書を基にして、化合物の示性式を符号化する。また、類似した基をまとめて、各基をポアンカレ空間にまとめて埋め込むことで、基のベクトルを生成する。情報処理装置は、符号化した化合物の示性式を、基の一次構造の単位で符号化することで、更に符号化を行い、一次構造を構成する複数の基のベクトル加算することで、化合物の一次構造のベクトルを算出する。これによって、化合物の基と、基の一次構造のベクトルを精度よく算出することができ、かかる基と基の一次構造のベクトルを用いて高分子化合物の類似度評価を実行することで、類似度評価の精度が向上する。なお、示性式は符号化対象の化学構造式の一例である。SMILES記法などで表現された化学構造式であっても良い。
次に、本実施例にかかる情報処理装置の構成の一例について説明する。図4は、本実施例にかかる情報処理装置の構成を示す機能ブロック図である。図4に示すように、この情報処理装置100は、通信部110と、入力部120と、表示部130と、記憶部140と、制御部150とを有する。
通信部110は、有線又は無線で外部装置等に接続され、外部装置等との間で情報の送受信を行う。たとえば、通信部110は、NIC(Network Interface Card)等によって実現される。通信部110は、図示しないネットワークに接続されていてもよい。
入力部120は、各種の情報を、情報処理装置100に入力する入力装置である。入力部120は、キーボードやマウス、タッチパネル等に対応する。
表示部130は、制御部150から出力される情報を表示する表示装置である。表示部130は、液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイ、タッチパネル等に対応する。
記憶部140は、化学構造式ファイル140aと、分岐符号テーブル140bと、基辞書140cと、基HMM140dと、化学構造式圧縮ファイル140eと、第1転置インデックス140fとを有する。記憶部140は、基一次構造辞書140gと、基一次構造HMM140hと、基一次構造圧縮ファイル140iと、第2転置インデックス140jと、性質管理テーブル140kと、遷移テーブル140nとを有する。記憶部140は、たとえば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。
化学構造式ファイル140aは、高分子化合物の示性式(化学構造式)の情報を含むファイルである。図5は、化学構造式ファイルのデータ構造の一例を示す図である。図5に示すように、この化学構造式ファイル140aは、化合物識別情報と、示性式とを対応付ける。化合物識別情報は、高分子化合物を一意に識別する情報である。示性式は、高分子化合物の示性式(化学構造式)を示す配列の情報である。たとえば、高分子化合物は、デンプン、グリコーゲン、セルロース、アミロベクチン等に対応するが、これに限定されるものではなく、他の高分子化合物であってもよい。
分岐符号テーブル140bは、分岐記号に割り当てる符号を定義するテーブルである。図6は、分岐符号テーブルのデータ構造の一例を示す図である。図6に示すように、この分岐符号テーブル140bは、分岐記号と、圧縮符号とを対応付ける。分岐記号は、高分子化合物の分岐部分を示す記号である。圧縮符号は、分岐記号に割り当てられる圧縮符号である。圧縮符号の「h」は、16進数であることを示す。
基辞書140cは、化合物の示性式の配列と圧縮符号との関係を示す辞書情報である。図7は、基辞書のデータ構造の一例を示す図である。図7に示すように、この基辞書140cは、圧縮符号と、名称と、グループと、示性式とを対応付ける。圧縮符号は、該当する基(または官能基)の示性式に割り当てられる圧縮符号を示す。名称は、該当する名称の一例である。グループは、該当する基が属するグループを示す。名称例は、該当する基の名称の一例である。示性式は、該当する基の示性式となる配列を示す。
また、図7では図示を省略するが、基辞書140cは、図1~図3等で説明した、単位文字列と圧縮符号との関係を定義した情報を保持する。
基HMM(Hidden Markov Model)140dは、高分子化合物の配列において、ある基と、共起する可能性の高い他の基とを対応付ける情報である。以下の説明では適宜、ある基を、「第1基」と表記し、この第1基と共起する他の基を「第2基」と表記する。
図8は、基HMMのデータ構造の一例を示す図である。図8に示すように、この基HMM140dは、圧縮符号と、名称と、グループと、基の共起率とを対応付ける。圧縮符号は、第1基の示性式に割り当てられる圧縮符号を示す。名称は、該当する第1基の名称の一例である。グループは、該当する第1基が属するグループを示す。
基の共起率では、第1基と共起する第2基について、第2基の圧縮符号と、共起率と示す。たとえば、1行目について説明すると、高分子化合物において、第1基(圧縮符号:8000h)と共起する第2基は圧縮符号「8028h」の基と、圧縮符号「8132h」の基と、圧縮符号「80F5h」の基等である。また、第1基「圧縮符号:8000h」と第2基「圧縮符号:8028h」との共起率は「78%」である。第1基「圧縮符号:8000h」と第2基「圧縮符号:8132h」との共起率は「63%」である。第1基「圧縮符号:8000h」と第2基「圧縮符号:80F5h」との共起率は「33%」である。
化学構造式圧縮ファイル140eは、符号化した高分子化合物の示性式(化学構造式)の情報を含むファイルである。図9は、化学構造式圧縮ファイルのデータ構造の一例を示す図である。図9に示すように、この化学構造式圧縮ファイル140eは、化合物識別情報と、圧縮符号配列とを対応付ける。化合物識別情報は、高分子化合物を一意に識別する情報である。圧縮符号配列は、示性式を単位文字列の単位で符号化した情報である。
第1転置インデックス140fは、化学構造式圧縮ファイル140eに含まれる単位文字列または分岐記号の圧縮符号と、この圧縮符号の出現位置との関係を示すインデックス情報である。図10は、第1転置インデックスのデータ構造の一例を示す図である。図10に示すように、第1転置インデックス145は、横軸にオフセットをとり、縦軸に圧縮符号を取る。オフセットは、化学構造式圧縮ファイル140eの先頭の圧縮符号から、該当する圧縮符号までの出現位置を示すものである。先頭の圧縮符号のオフセットを「0」とする。
第1転置インデックス140fは、図9に示した化合物識別情報毎の圧縮符号配列に対して、圧縮符号とオフセットとの関係を定義してもよい。たとえば、化合物識別情報「C101」の圧縮符号配列の転置インデックス、化合物識別情報「C102」の圧縮符号配列の転置インデックスをそれぞれ定義してもよい。
基一次構造辞書140gは、高分子化合物の示性式の圧縮符号配列(連続する複数の圧縮符号)と、一つの基一次構造の圧縮符号との関係を示す辞書情報である。基一次構造は、複数の基が組み合わさった構造を示す。
図11は、基一次構造辞書のデータ構造の一例を示す図である。図11に示すように、この基一次構造辞書140gは、圧縮符号と、グループと、名称と、圧縮符号配列とを対応付ける。圧縮符号は、基一次構造に対応する圧縮符号である。グループは、該当する基一次構造が属するグループを示す。名称は、基一次構造の名称の一例である。圧縮符号配列は、基一次構造に含まれる複数の基に対応する圧縮符号の配列であり、基の圧縮符号は、基辞書140cに定義された基の圧縮符号に対応する。
基一次構造HMM140hは、高分子化合物の配列において、ある基一次構造と、共起する可能性の高い他の基一次構造とを対応付ける情報である。以下の説明では適宜、ある基一次構造を「第1基一次構造」と表記し、この第1基一次構造と共起する他の基一次構造を「第2基一次構造」と表記する。
図12は、基一次構造HMMのデータ構造の一例を示す図である。図12に示すように、この基一次構造HMM140hは、圧縮符号と、グループと、名称と、基一次構造の共起率とを対応付ける。圧縮符号は、第1基一次構造に割り当てられる圧縮符号を示す。グループは、該当する第1基一次構造の属するグループを示す。名称は、該当する第基一次構造の名称の一例である。
基一次構造の共起率は、第1基一次構造と共起する第2基一次構造について、第2基一次構造の圧縮符号と、共起率とを示す。たとえば、1行目について説明すると、高分子化合物において、第1基一次構造(圧縮符号:F00000h)と共起する第2基一次構造の各圧縮符号は、「F00011h」、「F00101h」、「F00225h」である。
また、第1基一次構造「圧縮符号:F00000h」と第2基「圧縮符号:F00011h」との共起率は「78%」である。第1基一次構造「圧縮符号:F00000h」と第2基「圧縮符号:F00101h」との共起率は「63%」である。第1基一次構造「圧縮符号:F00000h」と第2基「圧縮符号:F00225h」との共起率は「51%」である。
基一次構造圧縮ファイル140iは、基一次構造の単位で符号化した高分子化合物の示性式の情報を含むファイルである。図13は、基一次構造圧縮ファイルのデータ構造の一例を示す図である。図13に示すように、この基一次構造圧縮ファイル140iは、化学物識別情報と、基一次構造の圧縮符号配列とを対応付ける。化合物識別情報は、高分子化合物を一意に識別する情報である。圧縮符号配列は、示性式を基一次構造の単位で符号化した情報である。
第2転置インデックス140jは、基一次構造圧縮ファイル140iに含まれる基一次構造の圧縮符号と、この圧縮符号の出現位置との関係を示すインデックス情報である。図14は、第2転置インデックスのデータ構造の一例を示す図である。図14に示すように、第2転置インデックス140jは、横軸にオフセットをとり、縦軸に圧縮符号を取る。オフセットは、基一次構造圧縮ファイル140iの先頭の圧縮符号(基一次構造の単位の圧縮符号)から、該当する圧縮符号までの出現位置を示すものである。先頭の圧縮符号のオフセットを「0」とする。
第2転置インデックス140jは、図13に示した化合物識別情報毎の圧縮符号配列に対して、圧縮符号とオフセットとの関係を定義してもよい。たとえば、化合物識別情報「C101」の圧縮符号配列の転置インデックス、化合物識別情報「C102」の圧縮符号配列の転置インデックスをそれぞれ定義してもよい。
性質管理テーブル140kは、性質が類似する基を定義するテーブルである。図15は、性質管理テーブルのデータ構造の一例を示す図である。図15に示すように、この性質管理テーブル140kは、性質番号と、圧縮符号と、名称とを対応付ける。性質番号は、基一次構造の性質を識別する番号であり、類似の性質をもつ基の各圧縮符号には、同一の性質番号が割り振られる。圧縮符号は、基の圧縮符号である。名称は、基の名称である。
図15に示す例では、圧縮符号「8004h」、圧縮符号「8005h」、圧縮符号「8006h」、圧縮符号「8007h」に同一の性質符号「I102」が割り振られている。このため、圧縮符号「8004h」、圧縮符号「8005h」、圧縮符号「8006h」、圧縮符号「8007h」に対応する各基は、類似の性質を持つことを意味する。
図15では説明を省略するが、この性質管理テーブル140kは、性質番号と、類似の性質をもつ基の圧縮符号とを対応付けた情報を保持していてもよい。
基ベクトルテーブル140lは、高分子化合物に含まれる各基に対して割り当てられる圧縮符号のベクトルを保持するテーブルである。図16Aは、基ベクトルテーブルのデータ構造の一例を示す図である。図16Aに示すように、基ベクトルテーブル140lは、基の圧縮符号と、ベクトルとを対応付ける。なお、基ベクトルテーブル140lは、分岐符号テーブル140bに定義された分岐記号に対応するベクトルを保持してもよい。
基一次構造ベクトルテーブル140mは、高分子化合物に含まれる各基一次構造に対して割り当てられる圧縮符号のベクトルを保持するテーブルである。図16Bは、基一次構造ベクトルテーブルのデータ構造の一例を示す図である。図16Bに示すように、基一次構造ベクトルテーブル140mは、基一次構造の圧縮符号と、ベクトルとを対応付ける。
遷移テーブル140nは、高分子化合物のベクトルの情報を保持するテーブルである。図16Cは、遷移テーブルのデータ構造の一例を示す図である。図16Cに示すように、遷移テーブル140nは、化合物識別情報と、複数のベクトルとを有する。化合物識別情報は、高分子化合物を一意に識別する情報である。複数のベクトルは、高分子化合物に含まれる各基一次構造のベクトルを示す。たとえば、ベクトル(n)は、高分子化合物の先頭からn番目に位置する基一次構造のベクトルである。
図4の説明に戻る。制御部150は、取得部151と、第1符号化部152と、第2符号化部153と、ベクトル算出部154と、類似度評価部155とを有する。制御部150は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)により実現される。また、制御部150は、例えばASIC(Application specific Integrated Circuit)やFPGA(Field Programmable gate Array)等の集積回路により実行されてもよい。
取得部151は、ネットワークを介して、外部装置等から各種の情報を取得する処理部である。たとえば、取得部151は、化学構造式ファイル140aを取得し、取得した化学構造式ファイル140aを記憶部140に格納する。取得部151は、基辞書140c、基HMM140d、基一次構造辞書140g、基一次構造HMM140hを取得して、記憶部140に格納してもよい。
第1符号化部152は、化学構造式ファイル140aから、高分子化合物の示性式を取得し、取得した示性式を符号化する処理部である。以下において、第1符号化部152の処理の一例について説明する。
第1符号化部152は、高分子化合物の示性式に対して形態素解析を実行することで、示性式に含まれる配列を単位文字列、または、分岐記号に分割する。第1符号化部152が、形態素解析を実行して、単位文字列、または、分岐記号に分割する処理は、図1、図2、図3で説明した処理に対応する。
第1符号化部152は、分割候補となる単位文字列が複数通り存在する場合には、基HMM140dを基にして、共起率の高い方の単位文字列を選択して、分割してもよい。
第1符号化部152は、高分子化合物の示性式を単位文字列、または、分岐記号に分割した後に、分岐符号テーブル140bおよび基辞書140cを用いて、示性式を符号化することで、圧縮符号配列を生成する。第1符号化部152が生成する圧縮符号配列は、「第1符号配列」に対応する。第1符号化部152は、化合物識別情報と、圧縮符号配列とを対応付けて、化学構造式圧縮ファイル140eに登録する。
第1符号化部152は、高分子化合物の示性式の単位文字列、または、分岐記号に圧縮符号を割り当てる場合に、圧縮符号の種別と、オフセットとの関係を第1転置インデックス140fに登録する。たとえば、第1符号化部152は、高分子化合物の示性式の圧縮符号配列(第1符号配列)において、圧縮符号「8000h」のオフセットが「1」である場合には、第1転置インデックス140fのオフセット「1」の列と、圧縮符号「8000h」の行とが交差する部分に「1」を設定する。
第1符号化部152は、化学構造式ファイル140aから、未選択の化合物識別情報に対応する示性式の情報を取得し、上記処理を繰り返し実行することで、化学構造式圧縮ファイル140eを生成する。
第2符号化部153は、化学構造式圧縮ファイル140eから、高分子化合物の圧縮符号配列(第1符号配列)を取得し、取得した圧縮符号配列を、基一次構造の単位で符号化する処理部である。高分子化合物の圧縮符号配列と、基一次構造の圧縮符号との関係は、基一次構造辞書140gに定義されている。
図17は、第2符号化部の処理を説明するための図である。図17において、圧縮符号配列15は、化学構造式圧縮ファイル140eに登録された化合物識別情報「C101」に対応する圧縮符号配列15aとする。圧縮符号配列15aに含まれる各圧縮符号は、基辞書140cに定義された単位符号の圧縮符号、または、分岐記号の圧縮符号である。
たとえば、基一次構造辞書140gにおいて、圧縮符号配列15aの各圧縮符号X1、X2、・・・、X19と、基一次構造の圧縮符号「F00112h」とが対応づけられているものとする。この場合、第2符号化部153は、各圧縮符号X1、X2、・・・、X19に、基一次構造の圧縮符号「F00112h」を割り当てる。
基一次構造辞書140gにおいて、圧縮符号配列15aの各圧縮符号Y1、Y2、・・・、X38と、基一次構造の圧縮符号「F00332h」とが対応づけられているものとする。この場合、第2符号化部153は、各圧縮符号Y1、Y2、・・・、Y38に、基一次構造の圧縮符号「F00332h」を割り当てる。
基一次構造辞書140gにおいて、圧縮符号配列15aの各圧縮符号Z1、Z2、・・・、Z20と、基一次構造の圧縮符号「F00110h」とが対応づけられているものとする。この場合、第2符号化部153は、各圧縮符号Z1、Z2、・・・、Z20に、基一次構造の圧縮符号「F00110h」を割り当てる。
第2符号化部153は、基一次構造辞書140gを基にして、上記処理を繰り返し実行することで、圧縮符号配列15aを、基一次構造の単位で符号化した圧縮符号配列15bを生成する。圧縮符号配列15bは「第2符号配列」に対応する。第2符号化部153は、化合物識別情報と、圧縮符号配列とを対応付けて、基一次構造圧縮ファイル140iに登録する。
第2符号化部153は、圧縮符号配列15aと、基一次構造辞書140gとを比較して、符号化していく過程において、基一次構造の単位の複数の圧縮符号が、符号化の候補となる場合には、基一次構造HMM140hを基にして、共起率の高い方の圧縮符号を選択して、割り当ててもよい。
第2符号化部153は、基一次構造の単位で符号化する場合に、圧縮符号の種別と、オフセットとの関係を第2転置インデックス140jに登録する。たとえば、高分子化合物の示性式の圧縮符号配列(第2符号配列)において、圧縮符号「F00112h」のオフセットが「0」となる。この場合、第2符号化部153は、第1転置インデックス140fのオフセット「0」の列と、圧縮符号「F00112h」の行とが交差する部分に「1」を設定する。
第2符号化部153は、化学構造式圧縮ファイル140eから、未選択の化合物識別情報に対応する示性式の圧縮符号配列を取得し、上記処理を繰り返し実行することで、基一次構造圧縮ファイル140iを生成する。
また、第2符号化部153は、基一次構造の圧縮符号と、この基一次構造の圧縮符号に対応する複数の基の圧縮符号、分岐記号の圧縮符号とを関係を、ベクトル算出部154に出力する。
図4の説明に戻る。ベクトル算出部154は、基一次構造圧縮ファイル140iから、高分子化合物の圧縮符号配列(第2符号配列)を取得し、高分子化合物のベクトルを算出する処理部である。ベクトル算出部154は、基一次構造圧縮ファイル140iから、基一次構造の圧縮符号を取得し、取得した圧縮符号のベクトルを、次の処理を実行することで算出する。ベクトル算出部154は、上記の第2符号化部153から、基一次構造の圧縮符号と、複数の基の圧縮符号および分岐記号の圧縮符号との関係を取得しておく。
ベクトル算出部154は、基毎の圧縮符号を、ポアンカレ空間等のベクトル空間に埋め込むことで、圧縮符号に対応するベクトルをそれぞれ算出する。ベクトル算出部154は、分岐記号の圧縮符号についても、ポアンカレ空間に埋め込むことで、ベクトルを算出してもよいし、予めベクトルを割り当てておいてもよい。ベクトル算出部154は、基の圧縮符号と、ベクトルとを対応付けて、基ベクトルテーブル140lに登録する。
ベクトル算出部154は、基一次構造に含まれる各基の圧縮符号、分岐記号の圧縮符号に割り当てたベクトルを加算することで、基一次構造のベクトルを算出する。ベクトル算出部154は、基一次構造の圧縮符号と、ベクトルとを対応付けて、基一次構造ベクトルテーブル140mに登録する。
高分子化合物には、複数の基一次構造が含まれている。ベクトル算出部154は、化合物識別情報と、基一次構造毎のベクトルとを対応付けて、遷移テーブル140nに登録する。ベクトル算出部154は、基一次構造が出現する順番に、基一次構造のベクトルを、遷移テーブル140nに登録する。
ここで、ベクトル算出部154が、基の圧縮符号を、ポアンカレ空間に埋め込んで、ベクトルを算出する処理は、ポアンカレエンベッディング(Poincare Embeddings)と呼ばれる技術である。ポアンカレエンベッディングは、たとえば、非特許文献「Valentin Khrulkov1 et al.「Hyperbolic Image Embeddings」Cornell University,2019 April 3」等に記載された技術を用いればよい。
ポアンカレエンベディングでは、ポアンカレ空間に埋め込まれた位置に応じて、ベクトルが割り当てられるものであり、また、類似する情報ほど、近い位置に埋め込まれるという特徴がある。ベクトル算出部154は、性質管理テーブル140kを基にして、類似の性質をもつ各基の圧縮符号を特定する。
図18は、ポアンカレ空間の一例を示す図である。図15で説明したように、圧縮符号「8004h」、圧縮符号「8005h」、圧縮符号「8006h」、圧縮符号「8007h」に対応する基は、類似の性質を持つ。このため、ベクトル算出部154は、圧縮符号「8004h」、圧縮符号「8005h」、圧縮符号「8006h」、圧縮符号「8007h」を、ポアンカレ空間P上の相互に近い位置に埋め込み、位置に応じたベクトルを付与する。
ベクトル算出部154は、高分子化合物の圧縮符号配列に含まれる各基一次構造の圧縮符号のベクトルを、先頭から順に算出し、遷移テーブル140nに順に登録する。ベクトル算出部154は、基一次構造圧縮ファイル140iから、未選択の化合物識別情報に対応する示性式の圧縮符号配列を取得し、上記処理を繰り返し実行することで、遷移テーブル140nを生成する。
類似度評価部155は、遷移テーブル140nに登録された各化合物識別情報に対応するベクトルを比較することで、高分子化合物の類似度を評価する処理部である。たとえば、類似度評価部155は、各高分子化合物のベクトルの距離を算出し、距離が閾値未満となる高分子化合物の組を、相互に類似する高分子化合物として特定する。
たとえば、類似度評価部155は、遷移テーブル140nに登録された高分子化合物に対応する各基一次構造のベクトルを集積したベクトルを、高分子化合物のベクトルし、各高分子化合物のベクトルの距離を算出してもよい。類似度評価部155は、評価結果を表示部130に出力して表示させてもよいし、外部装置等に通知してもよい。
続いて、本実施例にかかる情報処理装置100の処理手順の一例について説明する。図19は、本実施例にかかる情報処理装置の処理手順を示すフローチャートである。図19に示すように、情報処理装置100の第1符号化部152は、化学構造式ファイル140aから、高分子化合物の示性式の配列を取得する(ステップS101)。
第1符号化部152は、形態素解析を実行して、示性式の配列を、単位文字列、または、分岐記号に分割する(ステップS102)。第1符号化部152は、分岐符号テーブル140b、基辞書140c、基HMM140dを基にして、単位文字列、分岐記号に圧縮符号を割り当て、第1転置インデックス140f、化学構造式圧縮ファイル140eを生成する。また、情報処理装置100のベクトル算出部154は、ポアンカレ空間に埋め込むことで基のベクトルを生成する(ステップS103)。
情報処理装置100の第2符号化部153は、化学構造式圧縮ファイル140eから、高分子化合物の圧縮符号配列を取得する(ステップS104)。第2符号化部153は、基一次構造辞書140g、基一次構造HMM140hを基にして、基一次構造単位で、圧縮符号化配列を生成し、第2転置インデックス140j、基一次構造圧縮ファイル140iを生成する(ステップS105)。
情報処理装置100のベクトル算出部154は、基一次構造圧縮ファイル140iに格納された基一次構造単位を構成する基のベクトルを加算することで、基一次構造のベクトルを算出し、遷移テーブル140nを生成する(ステップS106)。情報処理装置100の類似度評価部155は、遷移テーブル140nを基にして、類似度評価を実行する(ステップS107)。
次に、本実施例にかかる情報処理装置100の効果について説明する。情報処理装置100は、高分子化合物の示性式を、単位文字列、分岐記号に分割して圧縮符号を割り当てることで、圧縮符号配列を生成し、さらに、基一次構造毎の各圧縮符号に変換する。情報処理装置は、基毎の圧縮符号をもとに、類似の性質となる基をまとめてポアンカレ空間に埋め込むことで、化合物の性質を適切に表現するための基のベクトルを生成する。かかる情報処理装置100の処理によって生成したベクトルを用いて、類似度の評価を実行することで、類似度評価の精度を向上させることができる。
情報処理装置100は、基一次構造を構成する圧縮符号を用いて、各基のベクトルを加算し基の一次構造のベクトルを算出し、遷移テーブルを生成する。このため、性質の類似する各基一次構造に、高精度なベクトルを割り当てることができる。
情報処理装置100は、遷移テーブル140nに格納された各高分子化合物に対応する基一次構造のベクトルを比較することで、類似の特性を有する高分子化合物を精度よく評価することができる。
ところで、上述した本実施例にかかる情報処理装置100の処理は一例であり、その他の処理を実行してもよい。図1~図3で説明したように、情報処理装置100は、高分子化合物の示性式を符号化する場合に、基に含まれる単位文字列、分岐記号の粒度で、圧縮符号を割り当てていたが、これに限定されるものではない。
情報処理装置100は、基を最小単位とみなし、分岐部分に位置する基に対して、分岐の基固有の圧縮符号を割り当てることで、符号化を行ってもよい。図20は、本実施例にかかる情報処理装置のその他の処理を説明するための図である。図20では、高分子化合物の一例として、グリコーゲンを用いてする。
図20に示す高分子化合物30は、複数の基が接続されて構成される。高分子化合物30の領域30aに着目して説明を行う。領域30aには、複数の基31と、分岐部分の基32とが含まれる。情報処理装置100の第1符号化部152は、基辞書140cを基にして、複数の基31に、圧縮符号を割り当てる。また、第1符号化部152は、分岐部分の基32に対して、分岐部分の固有の圧縮符号を割り当てる。
次に、上記実施例に示した情報処理装置100と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図21は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
図21に示すように、コンピュータ200は、各種演算処理を実行するCPU201と、ユーザからのデータの入力を受け付ける入力装置202と、ディスプレイ203とを有する。また、コンピュータ200は、有線または無線ネットワークを介して、外部装置等との間でデータの授受を行う通信装置204と、インタフェース装置205とを有する。また、コンピュータ200は、各種情報を一時記憶するRAM206と、ハードディスク装置207とを有する。そして、各装置201~207は、バス208に接続される。
ハードディスク装置207は、取得プログラム207a、第1符号化プログラム207b、第2符号化プログラム207c、ベクトル算出プログラム207d、類似度評価プログラム207eを有する。また、CPU201は、各プログラム207a~207eを読み出してRAM206に展開する。
取得プログラム207aは、取得プロセス206aとして機能する。第1符号化プログラム207bは、第1符号化プロセス206bとして機能する。第2符号化プログラム207cは、第2符号化プロセス206cとして機能する。ベクトル算出プログラム207dは、ベクトル算出プロセス206dとして機能する。類似度評価プログラム207eは、類似度評価プロセス206eとして機能する。
取得プロセス206aの処理は、取得部151の処理に対応する。第1符号化プロセス206bの処理は、第1符号化部152の処理に対応する。第2符号化プロセス206cの処理は、第2符号化部153の処理に対応する。ベクトル算出プロセス206dの処理は、ベクトル算出部154の処理に対応する。類似度評価プロセス206eの処理は、類似度評価部155の処理に対応する。
なお、各プログラム207a~207eについては、必ずしも最初からハードディスク装置307に記憶させておかなくても良い。例えば、コンピュータ200に挿入されるフレキシブルディスク(FD)、CD-ROM、DVD、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ200が各プログラム207a~207eを読み出して実行するようにしてもよい。
100 情報処理装置
110 通信部
120 入力部
130 表示部
140 記憶部
140a 化学構造式ファイル
140b 分岐符号テーブル
140c 基辞書
140d 基HMM
140e 化学構造式圧縮ファイル
140f 第1転置インデックス
140g 基一次構造辞書
140h 基一次構造HMM
140i 基一次構造圧縮ファイル
140j 第2転置インデックス
140k 性質管理テーブル
140l 基ベクトルテーブル
140m 基一次構造ベクトルテーブル
140n 遷移テーブル
150 制御部
151 取得部
152 第1符号化部
153 第2符号化部
154 ベクトル算出部
155 類似度評価部

Claims (7)

  1. コンピュータに、
    化合物の示性式を示す配列を、前記配列の最小単位の文字列、および、前記化合物の分岐部分を示す分岐記号に分割し、
    化合物の示性式の配列と圧縮符号との関係を示す基辞書を基にして、前記最小単位の文字列に圧縮符号を割り当て、前記分岐記号に前記分岐部分の種別に応じた圧縮符号を割り当てることで、前記配列を符号化した第1符号配列を生成し、
    化合物の示性式の配列の基一次構造と圧縮符号との関係を示す基一次構造辞書を基にして、前記第1符号配列に含まれる圧縮符号を、前記基一次構造の単位で符号化した第2符号配列を生成する
    処理を実行させることを特徴とする情報処理プログラム。
  2. 前記第1符号配列に含まれる前記基毎の圧縮符号を、ポアンカレ空間に埋め込むことで、基のベクトルを生成し、前記基一次構造を構成する基のベクトルを加算することで、前記基一次構造にベクトルを割り当てる処理を更に実行することを特徴とする請求項1に記載の情報処理プログラム。
  3. 前記ベクトルを割り当てる処理は、類似の性質となる基の圧縮符号を、ポアンカレ空間の類似の位置に埋め込み、前記ポアンカレ空間の位置に応じたベクトルを埋め込んだ圧縮符号に割り当てることを特徴とする請求項2に記載の情報処理プログラム。
  4. 前記ベクトルを割り当てる処理は、前記第2符号配列に含まれる複数の基一次構造のベクトルを順に遷移テーブルに登録する処理を更に実行することを特徴とする請求項2または3に記載の情報処理プログラム。
  5. 前記遷移テーブルに登録されたベクトルを基にして、各化合物の類似度を評価する処理を更に実行することを特徴とする請求項4に記載の情報処理プログラム。
  6. コンピュータが実行する情報処理方法であって、
    化合物の示性式を示す配列を、前記配列の最小単位の文字列、および、前記化合物の分岐部分を示す分岐記号に分割し、
    化合物の示性式の配列と圧縮符号との関係を示す基辞書を基にして、前記最小単位の文字列に圧縮符号を割り当て、前記分岐記号に前記分岐部分の種別に応じた圧縮符号を割り当てることで、前記配列を符号化した第1符号配列を生成し、
    化合物の示性式の配列の基一次構造と圧縮符号との関係を示す基一次構造辞書を基にして、前記第1符号配列に含まれる圧縮符号を、前記基一次構造の単位で符号化した第2符号配列を生成する
    処理を実行することを特徴とする情報処理方法。
  7. 化合物の示性式を示す配列を、前記配列の最小単位の文字列、および、前記化合物の分岐部分を示す分岐記号に分割し、化合物の示性式の配列と圧縮符号との関係を示す基辞書を基にして、前記最小単位の文字列に圧縮符号を割り当て、前記分岐記号に前記分岐部分の種別に応じた圧縮符号を割り当てることで、前記配列を符号化した第1符号配列を生成する第1符号化部と、
    化合物の示性式の配列の基一次構造と圧縮符号との関係を示す基一次構造辞書を基にして、前記第1符号配列に含まれる圧縮符号を、前記基一次構造の単位で符号化した第2符号配列を生成する第2符号化部と、
    を有することを特徴とする情報処理装置。
JP2022528386A 2020-06-05 2020-06-05 情報処理プログラム、情報処理方法および情報処理装置 Active JP7371779B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/022368 WO2021245926A1 (ja) 2020-06-05 2020-06-05 情報処理プログラム、情報処理方法および情報処理装置

Publications (3)

Publication Number Publication Date
JPWO2021245926A1 JPWO2021245926A1 (ja) 2021-12-09
JPWO2021245926A5 JPWO2021245926A5 (ja) 2022-11-09
JP7371779B2 true JP7371779B2 (ja) 2023-10-31

Family

ID=78830766

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022528386A Active JP7371779B2 (ja) 2020-06-05 2020-06-05 情報処理プログラム、情報処理方法および情報処理装置

Country Status (5)

Country Link
US (1) US20230066586A1 (ja)
EP (1) EP4163920A4 (ja)
JP (1) JP7371779B2 (ja)
CN (1) CN115668385A (ja)
WO (1) WO2021245926A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120109972A1 (en) 2006-06-30 2012-05-03 International Business Machines Corporation System and method for identifying similar molecules
US20130124152A1 (en) 2011-11-14 2013-05-16 Foundation Soongsil University-Industry Cooperation Apparatus and method for expressing chemical compound with line notation for distinguishing isomers, and apparatus and method for searching for compound using the same
WO2017017738A1 (ja) 2015-07-24 2017-02-02 富士通株式会社 符号化プログラム、符号化装置、及び符号化方法
JP2018147374A (ja) 2017-03-08 2018-09-20 富士通株式会社 生成プログラム、生成方法、および生成装置
JP2019204362A (ja) 2018-05-24 2019-11-28 Zホールディングス株式会社 判定装置、判定方法、判定プログラムおよびプログラムパラメータ

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11306188A (ja) 1998-04-20 1999-11-05 Fujitsu Ltd 文字列検索システム及びそのシステムでの処理をコンピュータに行なわせるためのプログラムを格納した記録媒体
JP5448447B2 (ja) 2006-05-26 2014-03-19 国立大学法人京都大学 ケミカルゲノム情報に基づく、タンパク質−化合物相互作用の予測と化合物ライブラリーの合理的設計

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120109972A1 (en) 2006-06-30 2012-05-03 International Business Machines Corporation System and method for identifying similar molecules
US20130124152A1 (en) 2011-11-14 2013-05-16 Foundation Soongsil University-Industry Cooperation Apparatus and method for expressing chemical compound with line notation for distinguishing isomers, and apparatus and method for searching for compound using the same
WO2017017738A1 (ja) 2015-07-24 2017-02-02 富士通株式会社 符号化プログラム、符号化装置、及び符号化方法
JP2018147374A (ja) 2017-03-08 2018-09-20 富士通株式会社 生成プログラム、生成方法、および生成装置
JP2019204362A (ja) 2018-05-24 2019-11-28 Zホールディングス株式会社 判定装置、判定方法、判定プログラムおよびプログラムパラメータ

Also Published As

Publication number Publication date
US20230066586A1 (en) 2023-03-02
EP4163920A4 (en) 2023-07-19
CN115668385A (zh) 2023-01-31
WO2021245926A1 (ja) 2021-12-09
EP4163920A1 (en) 2023-04-12
JPWO2021245926A1 (ja) 2021-12-09

Similar Documents

Publication Publication Date Title
Lee et al. MOSAIK: a hash-based algorithm for accurate next-generation sequencing short-read mapping
Li et al. Fast and accurate long-read alignment with Burrows–Wheeler transform
US20190164320A1 (en) Methods for the graphical representation of genomic sequence data
Heyne et al. GraphClust: alignment-free structural clustering of local RNA secondary structures
Chikhi et al. On the representation of de Bruijn graphs
US11062793B2 (en) Systems and methods for aligning sequences to graph references
KR20130069427A (ko) 차세대 시퀀싱을 이용하여 획득된 유전 정보를 압축 및 압축해제하는 방법 및 장치
WO2018218788A1 (zh) 一种基于全局种子打分优选的三代测序序列比对方法
EP3723095B1 (en) Latent space exploration using linear-spherical interpolation region method
CN110502520A (zh) 一种数据入库的方法、系统、设备及计算机可读存储介质
JP2024023870A (ja) 次元圧縮方法、表示方法および情報処理装置
Bejerano Algorithms for variable length Markov chain modeling
CN110852076B (zh) 一种自动化疾病编码转换的方法及装置
JP7371779B2 (ja) 情報処理プログラム、情報処理方法および情報処理装置
CN113656601A (zh) 医患匹配方法、装置、设备及存储介质
Vaddadi et al. Read mapping on genome variation graphs
WO2021152414A1 (en) Scaffold-oriented universal line system
WO2022091359A1 (ja) 情報処理プログラム、情報処理方法および情報処理装置
Patra et al. Motif discovery in biological network using expansion tree
WO2022249478A1 (ja) 情報処理プログラム、情報処理方法および情報処理装置
JP7428252B2 (ja) 情報処理プログラム、情報処理方法および情報処理装置
JP7342972B2 (ja) 情報処理プログラム、情報処理方法および情報処理装置
WO2024069884A1 (ja) 物性予測装置、物性予測方法、及び、記録媒体
Kemena et al. MDAT-Aligning multiple domain arrangements
JP2018180808A (ja) 解析プログラム、解析方法および解析装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220909

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220909

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230919

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231002

R150 Certificate of patent or registration of utility model

Ref document number: 7371779

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150