CN116583906A - 信息处理方法、信息处理装置以及信息处理程序 - Google Patents
信息处理方法、信息处理装置以及信息处理程序 Download PDFInfo
- Publication number
- CN116583906A CN116583906A CN202180083928.9A CN202180083928A CN116583906A CN 116583906 A CN116583906 A CN 116583906A CN 202180083928 A CN202180083928 A CN 202180083928A CN 116583906 A CN116583906 A CN 116583906A
- Authority
- CN
- China
- Prior art keywords
- data
- information
- information processing
- region
- rarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 86
- 238000003672 processing method Methods 0.000 title claims abstract description 23
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 134
- 238000001514 detection method Methods 0.000 claims abstract description 11
- 230000000875 corresponding effect Effects 0.000 claims description 34
- 230000002068 genetic effect Effects 0.000 claims description 17
- 238000004458 analytical method Methods 0.000 claims description 12
- 230000002596 correlated effect Effects 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 18
- 238000002493 microarray Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 12
- 210000000349 chromosome Anatomy 0.000 description 10
- 238000000034 method Methods 0.000 description 10
- 238000003205 genotyping method Methods 0.000 description 9
- 239000008280 blood Substances 0.000 description 7
- 210000004369 blood Anatomy 0.000 description 7
- 239000002773 nucleotide Substances 0.000 description 6
- 125000003729 nucleotide group Chemical group 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 108700028369 Alleles Proteins 0.000 description 4
- 210000004204 blood vessel Anatomy 0.000 description 4
- 239000000470 constituent Substances 0.000 description 4
- 238000012098 association analyses Methods 0.000 description 3
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 2
- 235000019504 cigarettes Nutrition 0.000 description 2
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 102000054766 genetic haplotypes Human genes 0.000 description 2
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 2
- 229930024421 Adenine Natural products 0.000 description 1
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 1
- 208000018779 Globus Sensation Diseases 0.000 description 1
- 229920005654 Sephadex Polymers 0.000 description 1
- 239000012507 Sephadex™ Substances 0.000 description 1
- 208000007536 Thrombosis Diseases 0.000 description 1
- 229960000643 adenine Drugs 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 208000012839 conversion disease Diseases 0.000 description 1
- 229940104302 cytosine Drugs 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000012252 genetic analysis Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000000523 sample Substances 0.000 description 1
- 230000036578 sleeping time Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0207—Discounts or incentives, e.g. coupons or rebates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/40—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Business, Economics & Management (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Biotechnology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Game Theory and Decision Science (AREA)
- Chemical & Material Sciences (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Analytical Chemistry (AREA)
- Entrepreneurship & Innovation (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physiology (AREA)
- Biomedical Technology (AREA)
Abstract
本发明提供一种信息处理方法、信息处理装置以及信息处理程序。信息处理装置(1)具备:获取部(121),获取基因数据,该基因数据由基因检测设备检测,包括表示用户的基因型的碱基序列;区域确定部(122),在参照数据中确定基因数据所位于的区域;稀有度计算部(123),基于与确定出的区域建立了关联的数据密度,计算表示基因数据的稀有性的稀有度;奖励计算部(125),根据计算出的稀有度,计算向用户赋予的奖励;输出部(126),输出计算出的奖励。
Description
技术领域
本公开涉及收集基因数据的技术。
背景技术
近年来,已知对不能由SNP(single nucleotide polymorphism,单核苷酸多态性)微阵列获取的区域的遗传类型进行推定的被称为SNP基因型填充的技术。在SNP基因型填充中,使用高密度地搭载有表示SNP的基因型的信息的参照数据。为了构建高密度的参照数据,要求高效地收集数据密度低的区域的基因数据、即高效地收集具有稀有性的基因数据,而不是随意地收集基因数据。
在专利文献1中公开了一种生命信息数据提供方法,利用区块链技术来使生命信息数据的泄露以及基因组数据的伪造或窜改困难。
在专利文献2中公开了一种信息交易装置,在向信息提供者提示了报酬金额的基础上,仅将获得了同意的信息提供者所对应的用户信息提供给信息利用者,并根据用户信息的获取状况调整报酬金额。
然而,上述的以往技术均完全未考虑高效地收集具有稀有性的基因数据,需要进一步的改善。
在先技术文献
专利文献
专利文献1:日本专利第6661742号公报
专利文献2:日本专利第5978198号公报
发明内容
本公开是为了解决上述课题而完成的,其目的在于,提供能够高效地收集具有稀有性的基因数据的技术。
本公开的一方式涉及的信息处理方法是使用参照数据来进行信息处理的信息处理装置中的信息处理方法,所述参照数据是对表示基因组的基因型的碱基序列和与所述碱基序列的位点相应的数据密度预先建立了关联的数据,在所述信息处理方法中,获取基因数据,该基因数据由基因检测设备检测,包括表示用户的基因型的碱基序列,确定在所述参照数据中所述基因数据所位于的区域,基于与确定出的所述区域建立了关联的数据密度,计算表示所述基因数据的稀有性的稀有度,根据计算出的所述稀有度计算向所述用户赋予的奖励,输出计算出的所述奖励。
根据本公开,能够高效地收集具有稀有性的基因数据。
附图说明
图1是示出应用了本公开的实施方式1中的信息处理装置的信息处理系统的整体结构的一个例子的图。
图2是示出图1所示的信息处理装置的结构的一个例子的框图。
图3是关于基因解析的术语的说明图。
图4是示出参照数据的数据结构的一个例子的图。
图5是根据数据密度展示参照数据的图。
图6是示出本公开的实施方式1中的信息处理装置的处理的一个例子的流程图。
图7是示出本公开的实施方式2中的信息处理装置的结构的一个例子的框图。
图8是示出地域参照数据的数据结构的一个例子的图。
图9是根据数据密度展示图8所示的地域参照数据的图。
图10是示出本公开的实施方式2中的信息处理装置的处理的一个例子的流程图。
具体实施方式
(实现本公开的经过)
以数十万人为对象,实施对囊括人体基因组整体的数千万部位的SNP的基因型进行确定的基因分型,评价对象性状与SNP的基因型的关联的全基因组关联解析的研究正被推进。在全基因组关联解析中,需要数千万的SNP的基因型。另一方面,近年来,普及了能低成本且容易地进行SNP的基因分型的SNP微阵列。
在SNP微阵列中,仅能获得数十万个部位的SNP的基因型,因而不能将由SNP微阵列获得的基因数据直接应用于全基因组关联解析。因此,使用SNP基因型填充,进行从由SNP微阵列获得的基因数据来统计性地推测数千万的SNP的基因型的工作。
在SNP基因型填充中,通过在参照数据中的碱基序列中插补由SNP微阵列获得的基因数据的碱基序列,来推测未观测的区域的SNP的基因型。然而,为了进行SNP基因型填充,需要高密度地搭载有SNP的基因型的参照数据。因此,要求高效地收集与数据密度低的区域对应的基因数据,即高效地收集具有稀有性的基因数据,而不是随意地收集基因数据。
在上述的专利文献1中,只是公开了利用区块链技术来将用第2用户的公开密钥加密后的第2用户的生命信息数据提供给用户认证成功的第1用户,其课题也只是防止生命信息数据的泄漏以及基因组数据的伪造或窜改。因此,在专利文献1中,不能高效地收集具有稀有性的基因数据。
在上述的专利文献2中,信息提供者提供的用户信息是位置信息、气压信息、收音信息、照度信息、频度信息和包括年龄、职业以及年收入的个人信息,并不是基因数据。因此,在专利文献2中,不能根据基因数据的稀有性来决定向信息提供者赋予的适当的奖励,其结果,不能高效地收集具有稀有性的基因数据。
因此,本发明者为了高效地收集具有稀有性的基因数据而想到了以下所示的本公开的各方式。
本公开的一方式涉及的信息处理方法是使用参照数据来进行信息处理的信息处理装置中的信息处理方法,所述参照数据是对表示基因组的基因型的碱基序列和与所述碱基序列的位点相应的数据密度预先建立了关联的数据,在所述信息处理方法中,获取基因数据,该基因数据由基因检测设备检测,包括表示用户的基因型的碱基序列,确定在所述参照数据中所述基因数据所位于的区域,基于与确定出的所述区域建立了关联的数据密度,计算表示所述基因数据的稀有性的稀有度,根据计算出的所述稀有度计算向所述用户赋予的奖励,输出计算出的所述奖励。
根据本结构,确定在参照数据中由用户提供的基因数据所位于的区域,基于与确定出的区域建立了关联的数据密度,计算基因数据的稀有度。然后,根据稀有度计算向用户赋予的奖励,并输出计算出的奖励。因此,能够针对提供了稀有度高的基因数据的用户赋予比提供了稀有度低的基因的用户高的奖励。其结果,能够高效地收集具有稀有性的基因数据。
在上述信息处理方法中,也可以是,所述基因数据与包括用户的属性的属性信息建立了关联,进一步基于所述属性信息,计算所述基因数据对基因解析的贡献度,在所述奖励的计算中,计算与所述稀有度以及所述贡献度相应的奖励。
在使用基因数据进行基因解析的情况下,若有提供了基因数据的用户的属性信息,则获得有用的基因解析结果的可能性提高。根据本结构,基于属性信息计算对基因解析的贡献度,将计算出的贡献度进一步纳入考虑来计算奖励。因此,能够针对用户赋予提供属性信息的动机,从而能够高效地收集与有用的属性信息建立了关联的基因数据。
在上述信息处理方法中,也可以是,所述基因数据与表示碱基序列的位点的位点信息建立了关联,该碱基序列表示所述基因型,在所述稀有度的计算中,基于所述位点信息,确定在所述参照数据中所述基因数据所位于的区域。
根据本结构,由于基因数据与表示基因的位点的位点信息建立了关联,因而能够容易地确定在参照数据中基因数据所位于的区域。
在上述信息处理方法中,也可以是,所述属性信息包括表示所述用户的居住地的信息,所述参照数据包括与预先决定的地域相应的多个地域参照数据,在所述区域的确定中,确定在与关于所述居住地的信息对应的地域参照数据中所述基因数据所位于的区域。
居住在相同地域的用户彼此的基因型具有相似的倾向,因而若使用与地域相应的地域参照数据来执行SNP基因型填充,则能提高推定精度。在该情况下,以与数据密度低的地域参照数据对应的地域为居住地的用户的基因数据的稀有性,高于以与数据密度高的地域参照数据对应的地域为居住地的用户的基因数据。根据本结构,能够根据提供了基因数据的用户的居住地来计算奖励。因此,在地域的观点中,能够高效地收集具有稀有性的基因数据。
在上述信息处理方法中,也可以是,在所述贡献度的计算中,判定在所述属性信息中是否包括表示所述用户的血缘关系的信息,在判定为包括表示所述血缘关系的信息的情况下,与判定为不包括表示所述血缘关系的信息的情况相比,将所述贡献度计算得高。
根据本结构,在属性信息中包括表示用户的血缘关系的信息的情况下,能够对该用户赋予更高的奖励。因此,能够向用户赋予针对提供在基因解析中有用的表示血缘关系的信息的动机,从而能够高效地收集表示血缘关系的信息。
在上述信息处理方法中,也可以是,在所述贡献度的计算中,随着所述属性信息所包括的表示所述血缘关系的信息的信息量变多而将所述贡献度计算得高。
根据本结构,能够随着表示血缘关系的信息的信息量变多而对用户赋予更高的奖励。因此,能够高效地收集内容充实的表示血缘关系的信息。
在上述信息处理方法中,也可以是,在所述贡献度的计算中,判定在所述属性信息中是否包括表示所述用户的生活模式的信息,在判定为包括表示所述生活模式的信息的情况下,与判定为不包括表示所述生活模式的信息的情况相比,将所述贡献度计算得高。
根据本结构,在属性信息中包括用户的生活模式的情况下,能够对该用户赋予更高的奖励。因此,能够向用户赋予针对提供在表观遗传学的研究中有用的生活模式数据的动机,从而能够高效地收集生活模式数据。
在上述信息处理方法中,也可以是,在所述贡献度的计算中,随着所述属性信息所包括的表示所述用户的生活模式的信息的信息量变多而将所述贡献度计算得高。
根据本结构,能够随着表示生活模式的信息的信息量变多而对用户赋予更高的奖励。因此,能够高效地收集内容充实的表示生活模式的信息。
本公开的另一方式涉及的信息处理装置使用参照数据来进行信息处理,所述参照数据是对表示基因组的基因型的碱基序列和与所述碱基序列的位点相应的数据密度预先建立了关联的数据,所述信息处理装置具备:获取部,获取基因数据,该基因数据由基因检测设备检测,包括表示用户的基因型的碱基序列;区域确定部,确定在所述参照数据中所述基因数据所位于的区域;稀有度计算部,基于与由所述区域确定部确定出的所述区域建立了关联的数据密度,计算表示所述基因数据的稀有性的稀有度;奖励计算部,根据由所述稀有度计算部计算出的所述稀有度,计算向所述用户赋予的奖励;和输出部,输出由所述奖励计算部计算出的所述奖励。
本公开又一方式涉及的信息处理程序使计算机作为使用参照数据来进行信息处理的信息处理装置发挥功能,所述参照数据是对表示基因组的基因型的碱基序列和与所述碱基序列的位点相应的数据密度预先建立了关联的数据,所述信息处理程序使计算机作为以下各部发挥功能:获取部,获取基因数据,该基因数据由基因检测设备检测,包括表示用户的基因型的碱基序列;区域确定部,确定在所述参照数据中所述基因数据所位于的区域;稀有度计算部,基于与由所述区域确定部确定出的所述区域建立了关联的数据密度,计算表示所述基因数据的稀有性的稀有度;奖励计算部,根据由所述稀有度计算部计算出的所述稀有度计算向所述用户赋予的奖励;和输出部,输出由所述奖励计算部计算出的所述奖励。
本公开还能够实现为通过这样的信息处理程序动作的信息处理系统。此外,能够经由CD-ROM等计算机可读非暂时性记录介质或者因特网等通信网络使信息处理程序流通,这是不言而喻的。
另外,以下说明的实施方式均表示本公开的一具体例。以下的实施方式中示出的数值、形状、构成要素、步骤、步骤的顺序等是一个例子,其主旨不在于限定本公开。此外,对于以下的实施方式中的构成要素之中未记载于表示最上位概念的独立技术方案的构成要素,作为任意的构成要素来进行说明。此外,能够在所有实施方式中对各内容进行组合。
(实施方式1)
图1是示出应用了本公开的实施方式1中的信息处理装置1的信息处理系统的整体结构的一个例子的图。信息处理系统包括信息处理装置1、提供终端2以及用户终端3。信息处理装置1~用户终端3经由网络NT相互能够通信地连接。
信息处理装置1例如由包括1个以上的计算机的云服务器构成。信息处理装置1从提供终端2接收用户提供的基因数据,基于接收到的基因数据计算向用户赋予的奖励。
提供终端2例如由医疗机构所具有的计算机构成,将基因数据发送到信息处理装置1。基因数据由基因检测设备检测,是包括表示用户的基因型的碱基序列的数据。作为基因检测设备,例如能够采用SNP微阵列。在SNP微阵列中,在芯片上高密度地铺满被称为探针的检测碱基的差异的DNA断片。SNP微阵列对数十万个部位的SNP的基因型进行检测。基因检测设备不限定于SNP微阵列,也可以采用其他设备。
基因数据与识别提供基因数据的用户的用户标识建立了关联。进一步地,基因数据与表示碱基序列的位点的位点信息建立了关联,碱基序列表示SNP的基因型。该位点信息是表示碱基序列在基因组上的位点的信息,该碱基序列表示SNP的基因型。
用户终端3是由提供基因数据的用户所具有的信息处理装置。详细而言,用户终端3例如由智能手机以及平板终端等便携式信息终端或膝上计算机等固定型的计算机构成。用户终端3获取由用户输入的属性信息,并将获取到的属性信息发送到信息处理装置1。
网络NT例如由包括因特网以及便携式电话通信网的广域通信网络构成。
在此,基因数据从提供终端2发送到信息处理装置1,但本公开不限定于此,也可以从用户终端3发送到信息处理装置1。在该情况下,用户终端3获取由SNP微阵列检测到的基因数据,与属性信息建立关联而发送到信息处理装置1即可。或者,属性信息也可以从提供终端2发送。在该情况下,提供终端2获取由SNP微阵列检测到的基因数据,并与属性信息建立关联后发送到信息处理装置1即可。
图2是示出图1所示的信息处理装置1的结构的一个例子的框图。信息处理装置1包括通信部11、处理器12以及存储器13。通信部11由用于将信息处理装置1与网络NT连接的通信电路构成。通信部11接收从提供终端2发送的基因数据。在此,接收的基因数据与用户标识以及位点信息建立了关联。通信部11接收从用户终端3发送的属性信息。在此,接收到的属性信息与用户标识建立了关联。
存储器13由SSD(Solid State Drive,固态驱动器)或HDD(Hard Disc Drive,硬盘驱动器)等非暂时性的存储装置构成。存储器13存储参照数据131以及奖励信息132。
参照数据131是在基因型填充中使用的参照数据,是将表示人体的基因组的基因型的碱基序列和与碱基序列的位点相应的数据密度建立了对应的数据。
在此,对基因解析所使用的术语进行说明。图3是关于基因解析的术语的说明图。在图3中,2根直线表示同源染色体401、402。位点403表示同源染色体401、402上的基因所在的场所。等位基因404是指在同源染色体401、402上成对的基因彼此。基因型405是指等位基因404的组合。单倍体型406是指等位基因404的组合。二倍体型407是指单倍体型406的组合。
接下来,对参照数据131的具体例进行说明。图4是示出参照数据131的数据结构的一个例子的图。在图4的例子中,参照数据131具有与同源染色体401、402对应的2个碱基序列以2行为单位蜿蜒地配置的数据构造。例如,碱基序列被配置为,在第1行配置同源染色体401的碱基序列,在第2行配置同源染色体402的碱基序列,在第3行配置接着第1行的碱基序列,在第4行配置接着第2行的碱基序列。
此外,在参照数据131中,将数据密度与碱基序列的各位点403建立了对应。数据密度是根据为了确定某个位点403处的碱基而使用的数据数量决定的值。例如,按照若使用的数据数量是10000则为“1.0”、若数据数量为3000则为“0.3”这样的方式,随着使用的数据数量增大而数据密度设定为变大的值。如此,参照数据131构成为,同源染色体401的碱基序列和同源染色体402的碱基序列成为组。因此,参照数据131承载有表示等位基因、单倍体型以及二倍体型之类的基因型的信息。另外,关于参照数据131,人体的基因组的基因可以表示数千万个部位的碱基序列,也可以表示人体的全基因组的碱基序列,也可以表示数千万个部位的SNP的碱基序列。
图5是根据数据密度展示参照数据131的图。在图5的例子中,越是数据密度大的位点,以越高的浓度显示。例如,由符号601表示的高浓度的区域所包括的基因型,使用比由符号602表示的低浓度的区域所包括的基因型多的数据来决定碱基序列。如此,可知参照数据131根据位点而在数据密度中有波动。
接下来,对SNP基因型填充进行说明。由SNP微阵列检测到的基因数据例如像“…·A…·A…A…”以及“…·G…·C…A…”那样,是一方的同源染色体的碱基序列的一部分和另一方的同源染色体的碱基序列的一部分被确定而剩余的部分缺失的数据。“…”的部位表示未能确定的碱基序列,A表示腺嘌呤,G表示鸟嘌呤,C表示胞嘧啶。SNP基因型填充使用参照数据131来推测该缺失的部分的SNP的基因型。
在SNP基因型填充中,在基因数据中对确定出的碱基序列的模式和参照数据131的碱基序列的模式进行比较,探索两模式最相符的参照数据131的区域。然后,从探索到的区域中的参照数据131的碱基序列推测在基因数据中缺失的部位的碱基序列,并基于推测结果推测SNP的基因型。关于在此获得的基因型的推测结果,例如对于某个SNP,由“AA”型为0.95、“AG”型为0.44、“GG”型为0.01这样的概率表示。
参照图2。奖励信息132是针对1个以上的用户各自将用户标识和向用户赋予的奖励建立了对应的信息。奖励例如既可以是电子货币、里程积分(mileage point)、虚拟货币、商品的购买积分以及优惠券等具有经济价值的数据,也可以是如证书那样不具有经济价值的数据。
处理器12例如由CPU构成,包括获取部121、区域确定部122、稀有度计算部123、贡献度计算部124、奖励计算部125以及输出部126。处理器12具备的这些块通过CPU执行信息处理程序来实现。
获取部121使用通信部11来获取从提供终端2发送的基因数据。获取部121使用通信部11来接收从用户终端3发送的属性信息。获取部121以用户标识为关键字对基因数据和属性信息建立关联。由此,获得将用户标识、基因数据、位点信息以及属性信息建立了关联的数据组。
属性信息包括用户的个人信息、表示用户的居住地的居住地信息、表示用户的血缘关系的血缘关系信息以及表示用户的生活模式的生活模式信息。
用户的个人信息包括用户的年龄、性别以及职业等。用户的个人信息例如是通过用户输入到用户终端3而获得的信息。居住地信息包括表示用户所居住的地域的名称的信息。在此,居住的地域的名称例如包括国家名、都道府县名以及州名中的至少1个。另外,表示居住的地域的名称的信息也可以包括粒度大于都道府县的信息(例如若是日本,则为本州、四国、九州以及北海道),也可以包括粒度大于国家的信息(例如,亚洲大陆、非洲大陆、北美大陆)之类的信息。居住地信息既可以通过用户输入到用户终端3来获得,也可以基于用户终端3所具备的GPS传感器检测到位置数据来决定。
生活模式信息例如表示给定期间(例如1天)内的用户的生活模式。在生活模式信息中,例如包括每天的平均吸烟根数、每天的平均酒精摄取量、每天的平均消耗卡路里、每天的平均摄取卡路里、每天的进食次数、进食时刻、平均起床时刻、平均就寝时刻以及每天的平均睡眠时间等。生活模式信息既可以是由用户输入的信息,也可以是由以智能手表为代表的生物体传感器监测到的信息。
区域确定部122确定在参照数据中由获取部121获取到的基因数据所位于的区域。在此,区域确定部122基于与基因数据建立了关联的位点信息确定基因数据所位于的区域即可。
稀有度计算部123基于与由区域确定部122确定出的区域建立了关联的数据密度,计算表示基因数据的稀有性的稀有度。例如,稀有度计算部123根据与由区域确定部122确定出的区域内的所有位点建立了关联的密度数据来计算密度数据的平均值,并将计算出的平均值的倒数作为稀有度来计算即可。或者,稀有度计算部123也可以计算在由区域确定部122确定出的区域内与确定的碱基的位点建立了关联的密度数据的平均值,并将计算出的平均值的倒数作为稀有度来计算。由此,能够计算稀有度,使得随着确定出的区域内的数据密度的平均值变低,稀有度的值变高。
贡献度计算部124基于与基因数据建立了关联的属性信息,计算基因数据对基因解析的贡献度。例如,贡献度计算部124判定在属性信息中是否包括血缘关系信息,在判定为包括血缘关系信息的情况下,与判定为不包括血缘关系的情况相比,将贡献度计算得高。作为血缘关系信息,例如,采用对提供基因数据的用户的血缘进行确定的信息。作为血缘者,例如能够采用父、母、兄弟、姐妹、祖父以及亲戚等。作为确定血缘者的信息,例如能够采用血缘者的标识。
在该情况下,贡献度计算部124随着血缘关系信息的信息量变多而将贡献度的值计算得高即可。例如,贡献度计算部124随着由属性信息所包括的血缘关系信息表示的血缘者的人数增多将贡献度的值计算得高即可。
在基因解析中,能通过对用户的基因型和该用户的血缘者的基因型进行比较来获得有用的解析结果。因此,在本实施方式中,随着血缘关系信息的信息量变多而将用户的贡献度计算得高。
此外,贡献度计算部124也可以判定在属性信息中是否包括用户的生活模式,在判定为包括的情况下,与判定为不包括生活模式信息的情况相比,将贡献度计算得高。在该情况下,贡献度计算部124也可以随着生活模式信息的信息量变多而将贡献度计算得高。例如,贡献度计算部124随着每天的吸烟根数、每天的酒精摄取量之类的生活模式信息所包括的数据的种类变多而判定为生活模式信息的信息量多即可。
或者,贡献度计算部124也可以计算基于血缘关系信息计算出的贡献度与基于生活模式信息计算出的贡献度之和作为最终获得的贡献度。例如,若将最终计算出的贡献度设为B,将包括血缘关系信息的情况下赋予的贡献度设为B1,将表示生活模式的情况下赋予的贡献度设为B2,则贡献度计算部124通过B=B1+B2来计算贡献度即可。在该情况下,使B1的值随着血缘关系所表示的信息的信息量而变高,使B2的值随着生活模式信息的信息量增大而变高。
奖励计算部125计算向用户赋予的奖励,使得随着稀有度以及贡献度变高而值变大。例如,若将稀有度设为A并将贡献度设为B,则奖励计算部125使用下述的算式来计算奖励即可。
奖励=α·A+β·B (1)
在此,α是针对稀有度的权重系数,β是针对贡献度的权重系数。在重视稀有度的情况下,系数α设定为大于系数β的值,在重视贡献度的情况下,系数β设定为大于系数α的值。
输出部126将由奖励计算部125计算出的奖励输出。在此,输出部126通过将计算出的奖励登记到相应的用户的奖励信息132中来赋予奖励即可。进一步地,输出部126也可以使用通信部11将用于向用户提示计算出的奖励的提示信息发送到用户终端3。
接下来,对本公开的实施方式1中的信息处理装置1的处理进行说明。图6是示出本公开的实施方式1中的信息处理装置1的处理的一个例子的流程图。
在步骤S1中,获取部121使用通信部11来获取从提供终端2发送的基因数据。
在步骤S2中,区域确定部122基于与基因数据建立了关联的位点信息,确定在参照数据131中基因数据所位于的区域。在图4的例子中,根据参照数据131而确定了由四边形包围的区域131a。
在步骤S3中,稀有度计算部123计算步骤S2中确定出的区域内的数据密度的平均值,并将计算出的平均值的倒数作为基因数据的稀有度来计算。在图4的例子中,区域131a的数据密度的平均值为1.3,因而计算1/1.3作为稀有度。
在步骤S4中,贡献度计算部124基于与基因数据建立了关联的属性信息来计算贡献度。在该情况下,贡献度计算部124随着在属性信息中表示血缘关系的信息的信息量增大而使贡献度的值变高,并且随着生活模式信息的信息量增大而使贡献度的值变高即可。
在步骤S5中,奖励计算部125将在步骤S3中计算出的稀有度和在步骤S4中计算出的贡献度输入式(1),计算与稀有度和贡献度相应的奖励。
在步骤S6中,输出部126通过将步骤S5中计算出的奖励登记到提供了基因数据的用户的奖励信息132中来向该用户赋予奖励。
如此,根据本实施方式中的信息处理装置1,能够针对提供了稀有度以及贡献度高的基因数据的用户赋予高的奖励。其结果,能够高效地收集有稀有性且对基因解析的贡献度高的基因数据。
(实施方式2)
实施方式2将用户的居住地纳入考虑来计算奖励。图7是示出本公开的实施方式2中的信息处理装置1A的结构的一个例子的框图。在本实施方式中,对与实施方式1相同的构成要素标注相同的符号,并省略说明。
在处理器12A中,区域确定部122A基于属性信息所包括的居住地信息,确定与提供了基因数据的用户的居住地对应的地域参照数据1310。然后,区域确定部122A确定在确定出的地域参照数据1310中基因数据所位于的区域。另外,确定该区域的处理的详细情况与实施方式1相同,因而省略说明。
存储器13A存储与地域A、地域B、地域C对应的3个地域参照数据1310。在该情况下,区域确定部122A对居住地信息表示的居住地属于地域A~C中的哪个地域进行判定,并确定与所属于的地域对应的地域参照数据1310即可。在此,存储器13存储有3个地域参照数据1310,但这是一个例子,既可以存储2个地域参照数据1310,也可以存储4个以上的地域参照数据1310。
图8是示出地域参照数据1310的数据结构的一个例子的图。与地域A对应的地域参照数据1310基于地域A的居住者的基因数据来生成,与地域B对应的地域参照数据1310基于地域B的居住者的基因数据来生成,与地域C对应的地域参照数据1310基于地域C的居住者的基因数据来生成。关于各地域参照数据1310,只是用于生成的总体不同,详细的数据结构与参照数据131相同。即,地域参照数据1310是对表示基因型的碱基序列和与碱基序列的位点相应的数据密度建立了对应的数据。
另外,地域A~C的粒度可以是国家单位,也可以是构成国家的地域单位(例如若是日本,则为都道府县或本州、四国、九州以及北海道),也可以是大于国家的单位(例如,亚洲大陆、非洲大陆、北美大陆)。
图9是根据数据密度展示图8所示的地域参照数据1310的图。如图9所示,可知根据地域A~C而地域参照数据1310的数据密度不同。
在日本人集团中,调查了数千人的基因型,确认出在北海道地区以及本州地区与九州地区以及琉球地区中基因型存在明确的差异。因此,可知日本人集团的遗传性背景在北海道地区以及本州地区与九州地区以及琉球地区中存在差异。因此,在使用与用户的居住地对应的地域参照数据1310进行SNP基因型填充的情况下,用户的基因型的推定精度提高。因此,在实施方式2中,在多个地域参照数据1310各自中,为了高效地收集稀有性高的基因数据,针对居住在稀有性高的地域的用户赋予高的奖励。
接下来,对本公开的实施方式2中的信息处理装置1A的处理进行说明。图10是示出本公开的实施方式2中的信息处理装置1A的处理的一个例子的流程图。另外,在图10的流程图中,对与图6相同的处理标注相同的符号,并省略说明。
在接着步骤S1的步骤S101中,区域确定部122A根据与在步骤S1中获取到的基因数据建立了关联的属性信息所包括的地域信息,确定提供该基因数据的用户的居住地。
在步骤S102中,区域确定部122A确定与在步骤S101中确定出的居住地对应的地域参照数据1310。之后,执行使用确定出的地域参照数据1310和在步骤S1中获取到的基因数据来计算并输出向用户赋予的奖励的处理。
参照图8的左图,若用户的居住地属于地域A,则确定与地域A对应的地域参照数据1310,并确定在确定出的地域参照数据1310中基因数据所位于的区域1310a。在此,区域1310a中的数据密度的平均值为1.3,因而稀有度通过1/1.3来计算。
参照图8的中央的图,若用户的居住地属于地域B,则确定在地域B的地域参照数据1310中基因数据所位于的区域1310a。在此,区域1310a中的数据密度的平均值为0.3,因而稀有度通过1/0.3来计算。
在图8的例子中,区域1310a的数据密度的平均值按照地域A、地域C、地域B的顺序从大到小。因此,稀有度的高度成为地域B、地域C、地域A的顺序。其结果,向属于地域B的用户赋予的奖励最大,向属于地域A的用户赋予的奖励最小。
如此,在实施方式2中的信息处理装置1A中,能够针对居住地处于与数据密度低的地域参照数据1310对应的地域的用户,赋予高的奖励。因此,针对以与数据密度低的地域参照数据1310对应的地域为居住地的用户,能够赋予提供基因数据的动机,从而能够高效地收集基因数据。
本公开能够采用以下的变形例。
(1)虽然区域确定部122使用与基因数据建立了关联的位点信息来确定区域131a,但本公开不限定于此。例如,区域确定部122也可以对基因数据的碱基序列的模式和参照数据131的碱基序列的模式进行比较,探索两模式最相符的参照数据131的区域,并将探索到的区域确定为基因数据所位于的区域131a。这在区域确定部122A中也是相同的。
(2)虽然奖励信息132由信息处理装置1存储,但本公开不限定于此。例如,奖励信息132也可以被存储在管理奖励的管理者具有的外部服务器。若奖励为电子货币,则管理者例如为金融机构,若奖励为里程积分则管理者例如为航空公司,若奖励是针对商品的购入的积分,则管理者例如为积分的运营公司。
(3)在实施方式1中,奖励计算部125也可以仅基于稀有度来计算奖励。在该情况下,不需要贡献度计算部124。
(4)虽然参照数据131由信息处理装置1存储,但本公开不限定于此,也可以由外部服务器存储。
产业上的可利用性
根据本公开,能够高效地收集具有稀有性的基因数据,因而在基因产业中有用。
Claims (10)
1.一种信息处理方法,是使用参照数据来进行信息处理的信息处理装置中的信息处理方法,
所述参照数据是对表示基因组的基因型的碱基序列和与所述碱基序列的位点相应的数据密度预先建立了关联的数据,
在所述信息处理方法中,
获取基因数据,该基因数据由基因检测设备检测,包括表示用户的基因型的碱基序列,
确定在所述参照数据中所述基因数据所位于的区域,
基于与确定出的所述区域建立了关联的数据密度,计算表示所述基因数据的稀有性的稀有度,
根据计算出的所述稀有度,计算向所述用户赋予的奖励,
输出计算出的所述奖励。
2.根据权利要求1所述的信息处理方法,其中,
所述基因数据与包括用户的属性的属性信息建立了关联,
进一步基于所述属性信息,计算所述基因数据对基因解析的贡献度,在所述奖励的计算中,计算与所述稀有度以及所述贡献度相应的奖励。
3.根据权利要求1或2所述的信息处理方法,其中,
所述基因数据与表示碱基序列的位点的位点信息建立了关联,该碱基序列表示所述基因型,
在所述稀有度的计算中,基于所述位点信息,确定在所述参照数据中所述基因数据所位于的区域。
4.根据权利要求2所述的信息处理方法,其中,
所述属性信息包括表示所述用户的居住地的信息,
所述参照数据包括与预先决定的地域相应的多个地域参照数据,
在所述区域的确定中,确定在与关于所述居住地的信息对应的地域参照数据中所述基因数据所位于的区域。
5.根据权利要求2所述的信息处理方法,其中,
在所述贡献度的计算中,判定在所述属性信息中是否包括表示所述用户的血缘关系的信息,在判定为包括表示所述血缘关系的信息的情况下,与判定为不包括表示所述血缘关系的信息的情况相比,将所述贡献度计算得高。
6.根据权利要求5所述的信息处理方法,其中,
在所述贡献度的计算中,随着所述属性信息所包括的表示所述血缘关系的信息的信息量变多而将所述贡献度计算得高。
7.根据权利要求2所述的信息处理方法,其中,
在所述贡献度的计算中,判定在所述属性信息中是否包括表示所述用户的生活模式的信息,在判定为包括表示所述生活模式的信息的情况下,与判定为不包括表示所述生活模式的信息的情况相比,将所述贡献度计算得高。
8.根据权利要求7所述的信息处理方法,其中,
在所述贡献度的计算中,随着所述属性信息所包括的表示所述用户的生活模式的信息的信息量变多而将所述贡献度计算得高。
9.一种信息处理装置,使用参照数据来进行信息处理,
所述参照数据是对表示基因组的基因型的碱基序列和与所述碱基序列的位点相应的数据密度预先建立了关联的数据,
所述信息处理装置具备:
获取部,获取基因数据,该基因数据由基因检测设备检测,包括表示用户的基因型的碱基序列;
区域确定部,确定在所述参照数据中所述基因数据所位于的区域;
稀有度计算部,基于与由所述区域确定部确定出的所述区域建立了关联的数据密度,计算表示所述基因数据的稀有性的稀有度;
奖励计算部,根据由所述稀有度计算部计算出的所述稀有度,计算向所述用户赋予的奖励;和
输出部,输出由所述奖励计算部计算出的所述奖励。
10.一种信息处理程序,使计算机作为使用参照数据来进行信息处理的信息处理装置发挥功能,
所述参照数据是对表示基因组的基因型的碱基序列和与所述碱基序列的位点相应的数据密度预先建立了关联的数据,
所述信息处理程序使计算机作为以下各部发挥功能:
获取部,获取基因数据,该基因数据由基因检测设备检测,包括表示用户的基因型的碱基序列;
区域确定部,确定在所述参照数据中所述基因数据所位于的区域;
稀有度计算部,基于与由所述区域确定部确定出的所述区域建立了关联的数据密度,计算表示所述基因数据的稀有性的稀有度;
奖励计算部,根据由所述稀有度计算部计算出的所述稀有度,计算向所述用户赋予的奖励;和
输出部,输出由所述奖励计算部计算出的所述奖励。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020218797 | 2020-12-28 | ||
JP2020-218797 | 2020-12-28 | ||
PCT/JP2021/041415 WO2022145135A1 (ja) | 2020-12-28 | 2021-11-10 | 情報処理方法、情報処理装置、及び情報処理プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116583906A true CN116583906A (zh) | 2023-08-11 |
Family
ID=82260408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180083928.9A Pending CN116583906A (zh) | 2020-12-28 | 2021-11-10 | 信息处理方法、信息处理装置以及信息处理程序 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230334520A1 (zh) |
JP (1) | JPWO2022145135A1 (zh) |
CN (1) | CN116583906A (zh) |
WO (1) | WO2022145135A1 (zh) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020149188A (ja) * | 2019-03-12 | 2020-09-17 | キヤノンメディカルシステムズ株式会社 | フルゲノム情報利用システム及び方法 |
WO2020206695A1 (en) * | 2019-04-12 | 2020-10-15 | Hangzhou Nuowei Information Technology Co., Ltd. | System for decentralized ownership and secure sharing of personalized health data |
JP7263095B2 (ja) * | 2019-04-22 | 2023-04-24 | ジェネシスヘルスケア株式会社 | 研究支援システム、研究支援装置、研究支援方法及び研究支援プログラム |
-
2021
- 2021-11-10 JP JP2022572930A patent/JPWO2022145135A1/ja active Pending
- 2021-11-10 WO PCT/JP2021/041415 patent/WO2022145135A1/ja active Application Filing
- 2021-11-10 CN CN202180083928.9A patent/CN116583906A/zh active Pending
-
2023
- 2023-06-22 US US18/212,802 patent/US20230334520A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2022145135A1 (ja) | 2022-07-07 |
US20230334520A1 (en) | 2023-10-19 |
JPWO2022145135A1 (zh) | 2022-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Emura et al. | A joint frailty-copula model between tumour progression and death for meta-analysis | |
Mondal et al. | Genomic analysis of Andamanese provides insights into ancient human migration into Asia and adaptation | |
Lin et al. | Quantitative trait analysis in sequencing studies under trait-dependent sampling | |
López et al. | Human dispersal out of Africa: a lasting debate | |
TWI363309B (en) | Genetic analysis systems, methods and on-line portal | |
CN102171697A (zh) | 用于个性化行动计划的方法和系统 | |
US20190139623A1 (en) | Display of estimated parental contribution to ancestry | |
Barbeira et al. | Fine‐mapping and QTL tissue‐sharing information improves the reliability of causal gene identification | |
Parrish et al. | Effect of normalization on significance testing for oligonucleotide microarrays | |
JP4890806B2 (ja) | 予測プログラムおよび予測装置 | |
KR101693504B1 (ko) | 개인 전장 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템 | |
Kan et al. | Evolutionarily conserved and diverged alternative splicing events show different expression and functional profiles | |
RU2699517C2 (ru) | Способ оценки риска заболевания у пользователя на основании генетических данных и данных о составе микробиоты кишечника | |
Huff et al. | Mobile elements reveal small population size in the ancient ancestors of Homo sapiens | |
JP2017504846A (ja) | ヒト臨床遺伝学のための病原性スコアリングシステム | |
US20190087540A1 (en) | System and method for analyzing genotype using genetic variation information on individual's genome | |
Drenos et al. | The use of meta‐analysis risk estimates for candidate genes in combination to predict coronary heart disease risk | |
CN106960133B (zh) | 一种疾病预测方法及装置 | |
Marchetti-Bowick et al. | A time-varying group sparse additive model for genome-wide association studies of dynamic complex traits | |
Hahn et al. | locStra: Fast analysis of regional/global stratification in whole‐genome sequencing studies | |
Yang et al. | A systematic comparison of normalization methods for eQTL analysis | |
Alyousfi et al. | Gene-specific metrics to facilitate identification of disease genes for molecular diagnosis in patient genomes: a systematic review | |
CN116583906A (zh) | 信息处理方法、信息处理装置以及信息处理程序 | |
Athar et al. | Prevalence of the factor V Leiden mutation Arg534Gln in Western region of Saudi Arabia: functional alteration and association study with different populations | |
Jonker et al. | Estimating the penetrance of pathogenic gene variants in families with missing pedigree information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |