JP2023506271A - 遺伝子データを処理するための方法及びデータ処理装置 - Google Patents
遺伝子データを処理するための方法及びデータ処理装置 Download PDFInfo
- Publication number
- JP2023506271A JP2023506271A JP2022536935A JP2022536935A JP2023506271A JP 2023506271 A JP2023506271 A JP 2023506271A JP 2022536935 A JP2022536935 A JP 2022536935A JP 2022536935 A JP2022536935 A JP 2022536935A JP 2023506271 A JP2023506271 A JP 2023506271A
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- data
- fragment
- encrypted
- fragments
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002068 genetic effect Effects 0.000 title claims abstract description 100
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000012545 processing Methods 0.000 title claims abstract description 32
- 239000012634 fragment Substances 0.000 claims abstract description 165
- 108090000623 proteins and genes Proteins 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 5
- 102000004169 proteins and genes Human genes 0.000 claims description 5
- 239000002773 nucleotide Substances 0.000 claims description 4
- 125000003729 nucleotide group Chemical group 0.000 claims description 4
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 3
- 238000013467 fragmentation Methods 0.000 claims description 3
- 238000006062 fragmentation reaction Methods 0.000 claims description 3
- 238000004904 shortening Methods 0.000 claims 1
- 210000004027 cell Anatomy 0.000 description 13
- 108091028043 Nucleic acid sequence Proteins 0.000 description 12
- 201000010099 disease Diseases 0.000 description 9
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 9
- 238000011160 research Methods 0.000 description 8
- 239000000463 material Substances 0.000 description 7
- 230000008901 benefit Effects 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 5
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 238000011835 investigation Methods 0.000 description 4
- 238000012163 sequencing technique Methods 0.000 description 4
- 108020004414 DNA Proteins 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 108091092878 Microsatellite Proteins 0.000 description 2
- 150000001413 amino acids Chemical group 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 150000003839 salts Chemical class 0.000 description 2
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 2
- -1 ATG Chemical class 0.000 description 1
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 1
- 229930024421 Adenine Natural products 0.000 description 1
- 241000473391 Archosargus rhomboidalis Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 229960000643 adenine Drugs 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 229940104302 cytosine Drugs 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000020979 dietary recommendations Nutrition 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 210000004263 induced pluripotent stem cell Anatomy 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000007620 mathematical function Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 150000007523 nucleic acids Chemical class 0.000 description 1
- 239000002831 pharmacologic agent Substances 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 210000000130 stem cell Anatomy 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 238000011285 therapeutic regimen Methods 0.000 description 1
- 229940113082 thymine Drugs 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/40—Encryption of genetic data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/123—DNA computing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/32—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
- H04L9/3236—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using cryptographic hash functions
- H04L9/3239—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using cryptographic hash functions involving non-keyed hash functions, e.g. modification detection codes [MDCs], MD5, SHA or RIPEMD
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Medical Informatics (AREA)
- Biotechnology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Databases & Information Systems (AREA)
- Genetics & Genomics (AREA)
- Computer Security & Cryptography (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Chemical & Material Sciences (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Signal Processing (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
Description
-検索配列は、暗号化フラグメントデータに含まれているか?
-検索配列は、暗号化フラグメントデータによって表される特定の遺伝子セクションに含まれているか?
-複数の検索配列の組み合わせ及び/又は論理結合(例えば、配列1及び配列2は配列3ではない)が存在するか?
-遺伝子データが得られた生体細胞材料はどこにあるか(局在関数)?
-ハッシュ関数は、暗号化ハッシュ関数である(これは、有利には衝突耐性であり、その結果、2つの異なる入力に対して同一のハッシュ値を得ることは実質的に不可能となる)。
-ハッシュ関数は、少なくとも128ビットに相当する長さを有するハッシュ値を生成する。
-ハッシュ関数は、少なくともSHA2(セキュアハッシュアルゴリズム)規格を満たす。
-ハッシュ関数は、入力に対する小さな変化であっても完全に異なるハッシュ値を生成するアバランシェ効果を奏するように構成されている。
Claims (14)
- それぞれ生体分子を表す一連の配列要素を含む遺伝子データ(1)を処理するための方法であって、
配列フラグメント(3)を形成するステップであって、各配列フラグメント(3)は、少なくとも2つの配列要素のフラグメント長を有する、前記一連の配列要素のセクションを含む、ステップ(S2)と、
各々が前記配列フラグメント(3)のうちの1つと関連付けられた複数の暗号化フラグメントデータ(5)を生成するために、前記配列フラグメント(3)の各々に符号化関数を適用するステップ(S3)と、
前記暗号化フラグメントデータ(5)を格納するステップ(S4)と、
を含み、
前記配列フラグメント(3)を形成するステップは、前記一連の配列要素のセクションが重なり合い、各配列要素が少なくとも2つの配列フラグメント(3)に含まれるように行われる、
ことを特徴とする、
方法。 - 各配列フラグメント(3)の前記フラグメント長は、少なくとも3である、
請求項1に記載の方法。 - 前記配列フラグメント(3)を形成するステップは、
前記遺伝子データ(1)における前記フラグメント長及び開始要素(2)を指定することと、
前記開始要素(2)及び後続の全ての配列要素から始まりかつ前記所定のフラグメント長を有する、前記一連の配列要素のセクションによって、前記配列フラグメント(3)をそれぞれ提供することと、
を含む、
請求項1又は2に記載の方法。 - 全ての前記配列フラグメント(3)は、同じ長さを有する、
請求項1~3のいずれか一項に記載の方法。 - 前記配列フラグメント(3)は、配列フラグメント(3)の複数のフラグメント群を形成し、
各フラグメント群における前記配列フラグメント(3)は、それぞれ同じ長さを有し、
異なるフラグメント群における前記配列フラグメント(3)は、異なる長さを有し、
前記配列フラグメント(3)を形成するステップは、各フラグメント群において前記一連の配列要素のセクションが重なり合い、各配列要素が少なくとも2つの配列フラグメント(3)に含まれるように行われる、
請求項1~3のいずれか一項に記載の方法。 - 前記符号化関数は、ハッシュ関数(fH)であり、前記暗号化フラグメントデータ(5)は、ハッシュ値を含む、
請求項1~5のいずれか一項に記載の方法。 - 前記配列フラグメント(3)を形成するステップは、前記符号化関数を適用する前に、
確率的に選択された文字列を前記配列フラグメントの各々にそれぞれ付加することを含む、
請求項1~6のいずれか一項に記載の方法。 - 複数の個体からの遺伝子データ(1)が処理され、各個体の前記遺伝子データ(1)は、それぞれ生体分子を表す一連の配列要素を含むという特徴、
前記暗号化フラグメントデータ(5)は、データベース(30A)に格納されるという特徴、
前記所定の一連の配列要素は、遺伝物質のセクションを含むという特徴、及び
前記遺伝子データ(1)は、ヌクレオチド配列又はアミノ酸配列を表すという特徴、
のうちの少なくとも1つを有する、
請求項1~7のいずれか一項に記載の方法。 - 請求項1~8のいずれか一項に記載の方法を用いて暗号化フラグメントデータ(5)を生成し格納するように構成されたデータ処理装置(100)であって、
前記一連の配列要素のセクションが重なり合い、各配列要素が少なくとも2つの配列フラグメント(3)に含まれるように、前記配列フラグメント(3)を形成するように構成されたフラグメント化デバイス(10)と、
前記複数の暗号化フラグメントデータ(5)を生成するように構成された符号化デバイス(20)と、
前記暗号化フラグメントデータ(5)を格納するように構成されたストレージデバイス(30)と、
を備える、
データ処理装置(100)。 - コンピュータ可読記憶媒体に格納され、
請求項1~8のいずれか一項に記載の方法で前記配列フラグメント(3)を形成し、前記複数の暗号化フラグメントデータ(5)を生成するように構成された、
コンピュータプログラム製品。 - 請求項1~8のいずれか一項に記載の方法で前記配列フラグメント(3)を形成し、前記複数の暗号化フラグメントデータ(5)を生成するように構成されたコンピュータプログラム製品が格納された、
コンピュータ可読記憶媒体。 - 請求項1~8のいずれか一項に記載の方法で生成された複数の検索可能な暗号化フラグメントデータ(5)を有するデータベース(30A)。
- 請求項1~8のいずれか一項に記載の方法で生成され格納された暗号化フラグメントデータ(5)を含むデータベース(30A)を照会するための方法であって、
それぞれ生体分子を表す所定の一連の配列要素を含む検索配列(6)の指定を行うステップと、
暗号化された検索配列(7)を生成するために、前記暗号化フラグメントデータ(5)の生成に用いた前記符号化関数を前記検索配列に適用するステップと、
前記格納された暗号化フラグメントデータ(5)において前記暗号化された検索配列を検索するステップと、
を含む、
方法。 - 前記検索配列(6)の前記指定は、最初の検索配列を、前記暗号化フラグメントデータ(5)が生成された前記配列フラグメント(3)の前記フラグメント長に等しい検索配列長へ短縮することを含む、
請求項13に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102019135380.7A DE102019135380A1 (de) | 2019-12-20 | 2019-12-20 | Verfahren und Datenverarbeitungsvorrichtung zur Bearbeitung von genetischen Daten |
DE102019135380.7 | 2019-12-20 | ||
PCT/EP2020/086414 WO2021122742A1 (de) | 2019-12-20 | 2020-12-16 | Verfahren und datenverarbeitungsvorrichtung zur bearbeitung von genetischen daten |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023506271A true JP2023506271A (ja) | 2023-02-15 |
Family
ID=74187231
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022536935A Pending JP2023506271A (ja) | 2019-12-20 | 2020-12-16 | 遺伝子データを処理するための方法及びデータ処理装置 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20230021229A1 (ja) |
EP (1) | EP4078595A1 (ja) |
JP (1) | JP2023506271A (ja) |
KR (1) | KR20220116536A (ja) |
CN (1) | CN114902343A (ja) |
DE (1) | DE102019135380A1 (ja) |
WO (1) | WO2021122742A1 (ja) |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5787169A (en) * | 1995-12-28 | 1998-07-28 | International Business Machines Corp. | Method and apparatus for controlling access to encrypted data files in a computer system |
US7809510B2 (en) * | 2002-02-27 | 2010-10-05 | Ip Genesis, Inc. | Positional hashing method for performing DNA sequence similarity search |
US8116988B2 (en) * | 2006-05-19 | 2012-02-14 | The University Of Chicago | Method for indexing nucleic acid sequences for computer based searching |
US20110125411A1 (en) * | 2008-03-19 | 2011-05-26 | Lawrence Livermore National Security, Llc | Uniquemer Algorithm for Identification of Conserved and Unique Subsequences |
US9276911B2 (en) * | 2011-05-13 | 2016-03-01 | Indiana University Research & Technology Corporation | Secure and scalable mapping of human sequencing reads on hybrid clouds |
US9449191B2 (en) * | 2011-11-03 | 2016-09-20 | Genformatic, Llc. | Device, system and method for securing and comparing genomic data |
RU2765241C2 (ru) * | 2016-06-29 | 2022-01-27 | Конинклейке Филипс Н.В. | Ориентированная на заболевание геномная анонимизация |
US12046329B2 (en) * | 2018-06-07 | 2024-07-23 | Microsoft Technology Licensing, Llc | Efficient payload extraction from polynucleotide sequence reads |
-
2019
- 2019-12-20 DE DE102019135380.7A patent/DE102019135380A1/de active Pending
-
2020
- 2020-12-16 KR KR1020227025042A patent/KR20220116536A/ko unknown
- 2020-12-16 CN CN202080087497.9A patent/CN114902343A/zh active Pending
- 2020-12-16 JP JP2022536935A patent/JP2023506271A/ja active Pending
- 2020-12-16 WO PCT/EP2020/086414 patent/WO2021122742A1/de unknown
- 2020-12-16 US US17/784,720 patent/US20230021229A1/en active Pending
- 2020-12-16 EP EP20842560.3A patent/EP4078595A1/de active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4078595A1 (de) | 2022-10-26 |
KR20220116536A (ko) | 2022-08-23 |
CN114902343A (zh) | 2022-08-12 |
WO2021122742A1 (de) | 2021-06-24 |
US20230021229A1 (en) | 2023-01-19 |
DE102019135380A1 (de) | 2021-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ondov et al. | Mash: fast genome and metagenome distance estimation using MinHash | |
Akgün et al. | Privacy preserving processing of genomic data: A survey | |
US9935765B2 (en) | Device, system and method for securing and comparing genomic data | |
US9449191B2 (en) | Device, system and method for securing and comparing genomic data | |
KR102209178B1 (ko) | 유전체 및 유전체 정보의 보존 및 활용을 위한 방법 | |
US20140121990A1 (en) | Secure Informatics Infrastructure for Genomic-Enabled Medicine, Social, and Other Applications | |
JP6373977B2 (ja) | Dna配列の高速かつ安全な検索 | |
RU2765241C2 (ru) | Ориентированная на заболевание геномная анонимизация | |
Dugan et al. | A survey of secure multiparty computation protocols for privacy preserving genetic tests | |
Sun et al. | When gene meets cloud: Enabling scalable and efficient range query on encrypted genomic data | |
Criscuolo | On the transformation of MinHash-based uncorrected distances into proper evolutionary distances for phylogenetic inference | |
WO2010056131A1 (en) | A method and system for analysing data sequences | |
Akgün et al. | Efficient privacy-preserving whole-genome variant queries | |
Chowdhury et al. | Implementation of Central Dogma Based Cryptographic Algorithm in Data Warehouse Architecture for Performance Enhancement | |
Gürsoy | Genome privacy and trust | |
JP2023506271A (ja) | 遺伝子データを処理するための方法及びデータ処理装置 | |
US20230124077A1 (en) | Methods and systems for anonymizing genome segments and sequences and associated information | |
Oprisanu et al. | How Much Does GenoGuard Really" Guard"? An Empirical Analysis of Long-Term Security for Genomic Data | |
WO2020259847A1 (en) | A computer implemented method for privacy preserving storage of raw genome data | |
Dugan et al. | Privacy-preserving evaluation techniques and their application in genetic tests | |
Hwang et al. | Privacy-preserving compressed reference-oriented alignment map using decentralized storage | |
Mozumder et al. | Towards privacy-preserving authenticated disease risk queries | |
Chen et al. | Secure Relative Detection in (Forensic) Database with Homomorphic Encryption | |
REDDY et al. | Securing Aggregate Queries for DNA Databases | |
Zhao | Privacy-preserving sharing and analysis on human genomic data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220907 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230515 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240319 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20240515 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240815 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20241001 |