JP7371779B2 - 情報処理プログラム、情報処理方法および情報処理装置 - Google Patents
情報処理プログラム、情報処理方法および情報処理装置 Download PDFInfo
- Publication number
- JP7371779B2 JP7371779B2 JP2022528386A JP2022528386A JP7371779B2 JP 7371779 B2 JP7371779 B2 JP 7371779B2 JP 2022528386 A JP2022528386 A JP 2022528386A JP 2022528386 A JP2022528386 A JP 2022528386A JP 7371779 B2 JP7371779 B2 JP 7371779B2
- Authority
- JP
- Japan
- Prior art keywords
- code
- array
- primary structure
- compound
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 85
- 238000003672 processing method Methods 0.000 title claims description 5
- 230000006835 compression Effects 0.000 claims description 162
- 238000007906 compression Methods 0.000 claims description 162
- 150000001875 compounds Chemical class 0.000 claims description 125
- 239000013598 vector Substances 0.000 claims description 106
- 238000000034 method Methods 0.000 claims description 38
- 230000007704 transition Effects 0.000 claims description 18
- 229920000642 polymer Polymers 0.000 description 56
- 238000010586 diagram Methods 0.000 description 44
- 239000000126 substance Substances 0.000 description 43
- 238000004364 calculation method Methods 0.000 description 24
- 238000011156 evaluation Methods 0.000 description 16
- 230000014509 gene expression Effects 0.000 description 16
- 230000006870 function Effects 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 230000000877 morphologic effect Effects 0.000 description 6
- 125000002914 sec-butyl group Chemical group [H]C([H])([H])C([H])([H])C([H])(*)C([H])([H])[H] 0.000 description 5
- 125000002496 methyl group Chemical group [H]C([H])([H])* 0.000 description 4
- 125000000524 functional group Chemical group 0.000 description 3
- 125000000959 isobutyl group Chemical group [H]C([H])([H])C([H])(C([H])([H])[H])C([H])([H])* 0.000 description 3
- 125000000999 tert-butyl group Chemical group [H]C([H])([H])C(*)(C([H])([H])[H])C([H])([H])[H] 0.000 description 3
- WZZBNLYBHUDSHF-DHLKQENFSA-N 1-[(3s,4s)-4-[8-(2-chloro-4-pyrimidin-2-yloxyphenyl)-7-fluoro-2-methylimidazo[4,5-c]quinolin-1-yl]-3-fluoropiperidin-1-yl]-2-hydroxyethanone Chemical compound CC1=NC2=CN=C3C=C(F)C(C=4C(=CC(OC=5N=CC=CN=5)=CC=4)Cl)=CC3=C2N1[C@H]1CCN(C(=O)CO)C[C@@H]1F WZZBNLYBHUDSHF-DHLKQENFSA-N 0.000 description 2
- 229920002527 Glycogen Polymers 0.000 description 2
- 229920002472 Starch Polymers 0.000 description 2
- 229920002678 cellulose Polymers 0.000 description 2
- 239000001913 cellulose Substances 0.000 description 2
- 238000005401 electroluminescence Methods 0.000 description 2
- 125000001495 ethyl group Chemical group [H]C([H])([H])C([H])([H])* 0.000 description 2
- 238000012854 evaluation process Methods 0.000 description 2
- 229940096919 glycogen Drugs 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 235000019698 starch Nutrition 0.000 description 2
- 239000008107 starch Substances 0.000 description 2
- 244000043261 Hevea brasiliensis Species 0.000 description 1
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000010420 art technique Methods 0.000 description 1
- 125000000484 butyl group Chemical group [H]C([*])([H])C([H])([H])C([H])([H])C([H])([H])[H] 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 229920003052 natural elastomer Polymers 0.000 description 1
- 229920001194 natural rubber Polymers 0.000 description 1
- 239000002547 new drug Substances 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 150000007523 nucleic acids Chemical class 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 235000000346 sugar Nutrition 0.000 description 1
- 150000008163 sugars Chemical class 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3082—Vector coding
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3084—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
- H03M7/3088—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method employing the use of a dictionary, e.g. LZ78
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/40—Searching chemical structures or physicochemical data
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Crystallography & Structural Chemistry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
110 通信部
120 入力部
130 表示部
140 記憶部
140a 化学構造式ファイル
140b 分岐符号テーブル
140c 基辞書
140d 基HMM
140e 化学構造式圧縮ファイル
140f 第1転置インデックス
140g 基一次構造辞書
140h 基一次構造HMM
140i 基一次構造圧縮ファイル
140j 第2転置インデックス
140k 性質管理テーブル
140l 基ベクトルテーブル
140m 基一次構造ベクトルテーブル
140n 遷移テーブル
150 制御部
151 取得部
152 第1符号化部
153 第2符号化部
154 ベクトル算出部
155 類似度評価部
Claims (7)
- コンピュータに、
化合物の示性式を示す配列を、前記配列の最小単位の文字列、および、前記化合物の分岐部分を示す分岐記号に分割し、
化合物の示性式の配列と圧縮符号との関係を示す基辞書を基にして、前記最小単位の文字列に圧縮符号を割り当て、前記分岐記号に前記分岐部分の種別に応じた圧縮符号を割り当てることで、前記配列を符号化した第1符号配列を生成し、
化合物の示性式の配列の基一次構造と圧縮符号との関係を示す基一次構造辞書を基にして、前記第1符号配列に含まれる圧縮符号を、前記基一次構造の単位で符号化した第2符号配列を生成する
処理を実行させることを特徴とする情報処理プログラム。 - 前記第1符号配列に含まれる前記基毎の圧縮符号を、ポアンカレ空間に埋め込むことで、基のベクトルを生成し、前記基一次構造を構成する基のベクトルを加算することで、前記基一次構造にベクトルを割り当てる処理を更に実行することを特徴とする請求項1に記載の情報処理プログラム。
- 前記ベクトルを割り当てる処理は、類似の性質となる基の圧縮符号を、ポアンカレ空間の類似の位置に埋め込み、前記ポアンカレ空間の位置に応じたベクトルを埋め込んだ圧縮符号に割り当てることを特徴とする請求項2に記載の情報処理プログラム。
- 前記ベクトルを割り当てる処理は、前記第2符号配列に含まれる複数の基一次構造のベクトルを順に遷移テーブルに登録する処理を更に実行することを特徴とする請求項2または3に記載の情報処理プログラム。
- 前記遷移テーブルに登録されたベクトルを基にして、各化合物の類似度を評価する処理を更に実行することを特徴とする請求項4に記載の情報処理プログラム。
- コンピュータが実行する情報処理方法であって、
化合物の示性式を示す配列を、前記配列の最小単位の文字列、および、前記化合物の分岐部分を示す分岐記号に分割し、
化合物の示性式の配列と圧縮符号との関係を示す基辞書を基にして、前記最小単位の文字列に圧縮符号を割り当て、前記分岐記号に前記分岐部分の種別に応じた圧縮符号を割り当てることで、前記配列を符号化した第1符号配列を生成し、
化合物の示性式の配列の基一次構造と圧縮符号との関係を示す基一次構造辞書を基にして、前記第1符号配列に含まれる圧縮符号を、前記基一次構造の単位で符号化した第2符号配列を生成する
処理を実行することを特徴とする情報処理方法。 - 化合物の示性式を示す配列を、前記配列の最小単位の文字列、および、前記化合物の分岐部分を示す分岐記号に分割し、化合物の示性式の配列と圧縮符号との関係を示す基辞書を基にして、前記最小単位の文字列に圧縮符号を割り当て、前記分岐記号に前記分岐部分の種別に応じた圧縮符号を割り当てることで、前記配列を符号化した第1符号配列を生成する第1符号化部と、
化合物の示性式の配列の基一次構造と圧縮符号との関係を示す基一次構造辞書を基にして、前記第1符号配列に含まれる圧縮符号を、前記基一次構造の単位で符号化した第2符号配列を生成する第2符号化部と、
を有することを特徴とする情報処理装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/022368 WO2021245926A1 (ja) | 2020-06-05 | 2020-06-05 | 情報処理プログラム、情報処理方法および情報処理装置 |
Publications (3)
Publication Number | Publication Date |
---|---|
JPWO2021245926A1 JPWO2021245926A1 (ja) | 2021-12-09 |
JPWO2021245926A5 JPWO2021245926A5 (ja) | 2022-11-09 |
JP7371779B2 true JP7371779B2 (ja) | 2023-10-31 |
Family
ID=78830766
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022528386A Active JP7371779B2 (ja) | 2020-06-05 | 2020-06-05 | 情報処理プログラム、情報処理方法および情報処理装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230066586A1 (ja) |
EP (1) | EP4163920A4 (ja) |
JP (1) | JP7371779B2 (ja) |
CN (1) | CN115668385A (ja) |
WO (1) | WO2021245926A1 (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120109972A1 (en) | 2006-06-30 | 2012-05-03 | International Business Machines Corporation | System and method for identifying similar molecules |
US20130124152A1 (en) | 2011-11-14 | 2013-05-16 | Foundation Soongsil University-Industry Cooperation | Apparatus and method for expressing chemical compound with line notation for distinguishing isomers, and apparatus and method for searching for compound using the same |
WO2017017738A1 (ja) | 2015-07-24 | 2017-02-02 | 富士通株式会社 | 符号化プログラム、符号化装置、及び符号化方法 |
JP2018147374A (ja) | 2017-03-08 | 2018-09-20 | 富士通株式会社 | 生成プログラム、生成方法、および生成装置 |
JP2019204362A (ja) | 2018-05-24 | 2019-11-28 | Zホールディングス株式会社 | 判定装置、判定方法、判定プログラムおよびプログラムパラメータ |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11306188A (ja) | 1998-04-20 | 1999-11-05 | Fujitsu Ltd | 文字列検索システム及びそのシステムでの処理をコンピュータに行なわせるためのプログラムを格納した記録媒体 |
JP5448447B2 (ja) | 2006-05-26 | 2014-03-19 | 国立大学法人京都大学 | ケミカルゲノム情報に基づく、タンパク質−化合物相互作用の予測と化合物ライブラリーの合理的設計 |
-
2020
- 2020-06-05 EP EP20939180.4A patent/EP4163920A4/en active Pending
- 2020-06-05 CN CN202080101632.0A patent/CN115668385A/zh active Pending
- 2020-06-05 JP JP2022528386A patent/JP7371779B2/ja active Active
- 2020-06-05 WO PCT/JP2020/022368 patent/WO2021245926A1/ja active Application Filing
-
2022
- 2022-11-10 US US17/984,396 patent/US20230066586A1/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120109972A1 (en) | 2006-06-30 | 2012-05-03 | International Business Machines Corporation | System and method for identifying similar molecules |
US20130124152A1 (en) | 2011-11-14 | 2013-05-16 | Foundation Soongsil University-Industry Cooperation | Apparatus and method for expressing chemical compound with line notation for distinguishing isomers, and apparatus and method for searching for compound using the same |
WO2017017738A1 (ja) | 2015-07-24 | 2017-02-02 | 富士通株式会社 | 符号化プログラム、符号化装置、及び符号化方法 |
JP2018147374A (ja) | 2017-03-08 | 2018-09-20 | 富士通株式会社 | 生成プログラム、生成方法、および生成装置 |
JP2019204362A (ja) | 2018-05-24 | 2019-11-28 | Zホールディングス株式会社 | 判定装置、判定方法、判定プログラムおよびプログラムパラメータ |
Also Published As
Publication number | Publication date |
---|---|
US20230066586A1 (en) | 2023-03-02 |
EP4163920A4 (en) | 2023-07-19 |
CN115668385A (zh) | 2023-01-31 |
WO2021245926A1 (ja) | 2021-12-09 |
EP4163920A1 (en) | 2023-04-12 |
JPWO2021245926A1 (ja) | 2021-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lee et al. | MOSAIK: a hash-based algorithm for accurate next-generation sequencing short-read mapping | |
Li et al. | Fast and accurate long-read alignment with Burrows–Wheeler transform | |
US20190164320A1 (en) | Methods for the graphical representation of genomic sequence data | |
Heyne et al. | GraphClust: alignment-free structural clustering of local RNA secondary structures | |
Chikhi et al. | On the representation of de Bruijn graphs | |
US11062793B2 (en) | Systems and methods for aligning sequences to graph references | |
KR20130069427A (ko) | 차세대 시퀀싱을 이용하여 획득된 유전 정보를 압축 및 압축해제하는 방법 및 장치 | |
WO2018218788A1 (zh) | 一种基于全局种子打分优选的三代测序序列比对方法 | |
EP3723095B1 (en) | Latent space exploration using linear-spherical interpolation region method | |
CN110502520A (zh) | 一种数据入库的方法、系统、设备及计算机可读存储介质 | |
JP2024023870A (ja) | 次元圧縮方法、表示方法および情報処理装置 | |
Bejerano | Algorithms for variable length Markov chain modeling | |
CN110852076B (zh) | 一种自动化疾病编码转换的方法及装置 | |
JP7371779B2 (ja) | 情報処理プログラム、情報処理方法および情報処理装置 | |
CN113656601A (zh) | 医患匹配方法、装置、设备及存储介质 | |
Vaddadi et al. | Read mapping on genome variation graphs | |
WO2021152414A1 (en) | Scaffold-oriented universal line system | |
WO2022091359A1 (ja) | 情報処理プログラム、情報処理方法および情報処理装置 | |
Patra et al. | Motif discovery in biological network using expansion tree | |
WO2022249478A1 (ja) | 情報処理プログラム、情報処理方法および情報処理装置 | |
JP7428252B2 (ja) | 情報処理プログラム、情報処理方法および情報処理装置 | |
JP7342972B2 (ja) | 情報処理プログラム、情報処理方法および情報処理装置 | |
WO2024069884A1 (ja) | 物性予測装置、物性予測方法、及び、記録媒体 | |
Kemena et al. | MDAT-Aligning multiple domain arrangements | |
JP2018180808A (ja) | 解析プログラム、解析方法および解析装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220909 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220909 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230919 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231002 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7371779 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |