CN113808663A - 基于人工智能的基因变异位点的匹配方法、系统及设备 - Google Patents
基于人工智能的基因变异位点的匹配方法、系统及设备 Download PDFInfo
- Publication number
- CN113808663A CN113808663A CN202111021211.XA CN202111021211A CN113808663A CN 113808663 A CN113808663 A CN 113808663A CN 202111021211 A CN202111021211 A CN 202111021211A CN 113808663 A CN113808663 A CN 113808663A
- Authority
- CN
- China
- Prior art keywords
- gene
- user
- symptom
- matching
- learning model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 152
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 40
- 208000024891 symptom Diseases 0.000 claims abstract description 103
- 201000010099 disease Diseases 0.000 claims abstract description 74
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 74
- 238000013136 deep learning model Methods 0.000 claims abstract description 54
- 238000012163 sequencing technique Methods 0.000 claims abstract description 30
- 239000013598 vector Substances 0.000 claims description 42
- 230000007614 genetic variation Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 14
- 238000007781 pre-processing Methods 0.000 claims description 10
- 206010064571 Gene mutation Diseases 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 abstract description 10
- 238000001514 detection method Methods 0.000 abstract description 4
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000004364 calculation method Methods 0.000 description 16
- 238000001712 DNA sequencing Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 102000054767 gene variant Human genes 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000002068 genetic effect Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Theoretical Computer Science (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种基于人工智能的基因变异位点的匹配方法、系统及设备,该方法包括:获取用户的症状文本;将所述症状文本输入至预置的深度学习模型中,得到与所述用户的症状相匹配的疾病术语;将所述疾病术语与预设的基因数据库进行匹配,得到与所述疾病术语相匹配变异基因;根据所述变异基因在所述用户的基因测序结果中匹配对应基因变异位点。本发明基于自然语言处理技术,通过采用深度学习模型对对用户的症状进行精准的分类识别,进而得到用户当前症状的疾病术语,然后通过疾病术语与基因数据库进行匹配,从而无需专业人员便可在基因检测报告中对用户当前症状所对应的基因变异位点进行精准匹配。
Description
技术领域
本发明属于自然语言处理技术领域,具体涉及一种基于人工智能的基因变异位点的匹配方法、系统及设备。
背景技术
DNA测序(sequencing)技术是指一种分析特定DNA片段的碱基序列的技术。第一代DNA测序技术以其长达1000bp(base-pair,碱基对)的测序读长,以及99.999%的高准确性帮助人们完成了大量测序工作,但其测试速度慢、成本高、通量低等方面的不足,也致使其不能得到大众化的应用,而第二代DNA测序技术(又称高通量测序技术,High-ThroughputSequencing,HTS)克服了第一代DNA测序技术的缺点,以低成本,高准确率,高效的优势推进了DNA测序面向商业化,大众化的应用。
现有技术中,通过第一代DNA测序技术和第二代DNA测序技术得到的测序报告中基因变异位点位的数量通常庞大,且每个变异类型所表达的身体症状需要具体且精确的术语描述,只有精通医学术语和相关知识的专家才能为客户有效解读测序报告,甚至专家都很难掌握所有相关的术语。例如,基因性状a所对应的疾病表达是A,但A是生物/医学术语,仍然与我们日常对症状的描述有很大差距,导致客户难以将身体的症状与可能相关的基因性状进行关联,进而导致高效DNA测序技术无法对大众进行普及。
发明内容
针对上述技术问题,本发明实施例提供了一种基于人工智能的基因变异位点的匹配方法、系统及设备,旨在解决现有技术中无法从测序报告中准确获得与用户当前症状相匹配的基因变异位点的问题。
第一方面,本发明实施例提供了一种基于人工智能的基因变异位点的匹配方法,其包括:
获取用户的症状文本;
将所述症状文本输入至预置的深度学习模型中,得到与所述用户的症状相匹配的疾病术语;
将所述疾病术语与预设的基因数据库进行匹配,得到与所述疾病术语相匹配变异基因;
根据所述变异基因在所述用户的基因测序结果中匹配对应基因变异位点。
第二方面,本发明实施例提供了一种基于人工智能的基因变异位点的匹配系统,其包括:
第一获取模块,用于获取用户的症状文本;
第一输入模块,用于将所述症状文本输入至预置的深度学习模型中,得到与所述用户的症状相匹配的疾病术语;
第一匹配模块,用于将所述疾病术语与预设的基因数据库进行匹配,得到与所述疾病术语相匹配变异基因;
第一匹配模块,用于根据所述变异基因在所述用户的基因测序结果中匹配对应基因变异位点。
第三方面,本发明实施例又提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上述第一方面所述的基于人工智能的基因变异位点的匹配方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于人工智能的基因变异位点的匹配方法。
本发明实施例提供了一种基于人工智能的基因变异位点的匹配方法、系统及设备,该方法通过获取用户的症状文本;将所述症状文本输入至预置的深度学习模型中,得到与所述用户的症状相匹配的疾病术语;将所述疾病术语与预设的基因数据库进行匹配,得到与所述疾病术语相匹配变异基因;根据所述变异基因在所述用户的基因测序结果中匹配对应基因变异位点。本发明实施例通过采用深度学习模型对对用户的症状进行精准的分类识别,进而得到用户当前症状的疾病术语,然后通过疾病术语与基因数据库进行匹配,从而无需专业人员便可在基因检测报告中对用户当前症状所对应的基因变异位点进行精准匹配。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于人工智能的基因变异位点的匹配方法的流程示意图;
图2为本发明实施例提供的基于人工智能的基因变异位点的匹配方法的另一流程示意图;
图3为本发明实施例提供的基于人工智能的基因变异位点的匹配方法的子流程示意图;
图4为本发明实施例提供的基于人工智能的基因变异位点的匹配方法的另一流程示意图;
图5为本发明实施例提供的基于人工智能的基因变异位点的匹配方法的另一子流程示意图;
图6为本发明实施例提供的基于人工智能的基因变异位点的匹配方法的另一子流程示意图;
图7为本发明实施例提供的基于人工智能的基因变异位点的匹配方法的另一流程示意图;
图8为本发明实施例提供的基于人工智能的基因变异位点的匹配系统的示意性框图;
图9为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1为本发明实施例提供的基于人工智能的基因变异位点的匹配方法的流程示意图。本发明实施例的所述的基于人工智能的基因变异位点的匹配方法应用于终端设备中,该方法通过安装于终端设备中的应用软件进行执行。其中,终端设备为具备接入互联网功能的终端设备,例如台式电脑、笔记本电脑、平板电脑或手机等设备。
如图1所示,该方法包括以下步骤S110-S140。
S110、获取用户的症状文本。
在本实施例中,所述症状文本为用于描述用户当前症状的文本,终端设备在获取到所述用户的症状文本后,便可对所述症状文本进行分类识别,进而便可得到所述用户当前的症状的疾病术语,然后根据疾病术语便可从所述用户的基因测序结果中精准匹配到相应的基因变异位点。
在另一实施例中,如图2所示,步骤S110之前还包括步骤S210。
S210、根据预设的样本集对所述深度学习模型进行训练,得到训练后的深度学习模型。
具体的,所述样本集为用于训练所述深度学习模型的文本集,通过所述样本集对所述深度学习模型进行训练,所述深度学习模型才能用于进行对用户的症状文本进行分类识别。其中,所述深度学习模型为实现语句分类(sentence classification)的Transformer深度学习模型,Transformer深度学习模型为当前最前沿的深度自然语言模型,其注意力机制(Attention Mechanism)使得模型能更可靠地学习较长输入语句的含义。通过Transformer深度学习模型中Encoder进行编码,然后采用Transformer深度学习模型中Decoder进行解码,便可完成目标文本的分类识别。
在另一实施例中,如图3所示,步骤S210包括子步骤S211、S212和S213。
S211、从预设的疾病文献库中提取所述样本集;
S212、对所述样本集进行Word Embedding预处理,得到每个样本的向量;
S213、根据每个所述样本的向量对所述深度学习模型进行训练,得到训练后的深度学习模型。
在本实施例中,所述疾病文献库为美国国家生物信息中心疾病文献库(NCBIDisease Corpus),通过从所述疾病文献库中进行疾病名称的提取,便可对应的得到所述疾病名称的疾病症状的文本描述。终端设备从所述疾病文献库中提取到每个疾病名称以及每个疾病名称对应的疾病症状后,采用词嵌入技术将样本集进行向量化处理,然后将生成的向量输入至待训练的深度学习模型中,通过更新深度学习模型的损失函数,直至深度学习模型达到收敛,便可完成所述深度学习模型的训练。其中,样本集的向量化处理的过程为将样本集中的文字或单词嵌入低维向量空间中,每个单词/单词组被映射为实数域上的向量。
在另一实施例中,如图4所示,步骤S110之前还包括步骤S220、S230。
S220、接收所述用户输入的症状描述的语音;
S230、根据预置的语音转换器将所述语音转换成所述症状文本。
在本实施例中,在对用户进行DNA测序而得到基因检测报告后,用户根据自身的症状进行语音描述,终端设备在接收到所述用户输入的语音后,便可对该语音进行文本识别,进而将所述语音转换成所述症状文本。其中,终端设备为可以进行语音采集的终端设备,如手机、平板电脑、车载电话等。
S120、将所述症状文本输入至预置的深度学习模型中,得到与所述用户的症状相匹配的疾病术语。
具体的,终端设备在获取到所述症状文本后,将所述症状文本输入至所述深度学习模型中进行分类识别,进而便可得到与所述用户的症状相匹配的疾病术语。其中,疾病术语即为每个疾病的专用名称,通过所述疾病术语便可得知用户当前具体的变异基因,进而便可从所述基因测序结果中获取多个基因变异位点,然后分别与每个基因变异位点进行匹配,进而匹配出与用户的当前症状相匹配的基因变异位点。
在另一实施例中,如图5所示,步骤S120包括子步骤S121和S122。
S121、对所述症状文本进行Word2vec预处理,得到所述症状文本的向量;
S122、对所述症状文本的向量进行编码解码处理,得到所述疾病术语。
在本实施例中,终端设备在获取到所述症状文本后,采用Word2vec算法对所述症状文本进行预处理,以使得所述症状文本以向量化的形式进行表示,然后对所述症状文本的向量进行编码解码后,便可得到所述症状文本的疾病术语。其中,所述症状文本以句子的形式输入,且所有单词都通过Word2vec进行映射,进而便可得到所述症状文本的向量。
在另一实施例中,如图6所示,步骤S122包括子步骤S1221、S1222。
S1221、根据所述深度学习模型中的Encoder模块对所述症状文本的向量进行编码,得到所述症状文本的语义向量;
S1222、根据所述深度学习模型中的Decoder模块对所述语义向量进行解码,得到所述疾病术语。
具体的,所述深度学习模型采用Encoder-Decoder架构构建,其中,Encoder为将输入的向量表示成一个带有语义的向量,Encoder使用最广泛的表示技术是循环神经网络(RNN),循环神经网络是一个基本模型,其中,Encoder可以由LSTM RNN、GRU RNN、BiRNN、BiRNN with LSTM、BiRNN with GRU、多层RNN来构建,输入的文本向量最终表示为最后一个Word的Hidden State Vector,Decoder为是以encoder生成的Hidden State Vector作为输入“解码”出目标文本序列,本质上是一个语言模型,最常见的是用RNN神经网络。
在本实施例中,所述深度学习模型由四个Encoder模块和四个Decoder模块构成,每个Encoder模块均包括输入层、前反馈层,每个Decoder模块均包括输入层、注意力层(self-attention)和前反馈层,其中,所述症状文本的向量经过所述深度学习模型中的四个Encoder模块进行编码处理后,便可得到所述症状文本的语义向量,然后将所述症状文本的语义向量经过所述深度学习模型中的四个Decoder模块后,便可得到所述目标文本。其中,Encoder模块的输入层接收的单词为300位的向量,一个句子最高支持70个单词的输入,经过注意力机制(self-attention)与标准化(normalize)后,输出此句子的编码向量;Encoder模块的注意力层包含4096个节点,与上一层输入层全连接,Encoder模块的注意力层接收输入层输出的编码向量后,使用非线性激活函数,输出结果经过标准化之后,传递到下一个Encoder模块,若下一个Encoder模块是最后一个Encoder模块,则传递到所述深度学习模型的第一个Decoder模块。所述Decoder模块中的输入层与Encoder模块的输入层的架构相同,但Decoder模块中的输入层接收的是Decoder模块在之前的时间节点输出的编码向量,结果标准化后,传递到注意力层;所述Decoder模块中的注意力层接收Decoder模块的上一个输入层的编码向量并接收最后一个Encoder模块输出的编码向量,进行注意力运算,结果标准化后输出到下一个前反馈层;所述Decoder模块中的前反馈层与Encoder模块的前反馈层的架构相同,Decoder模块中的前反馈层接收上一个注意力层的编码向量,使用非线性激活函数,输出结果经过标准化之后,便可传递到下一个Decoder模块中,若下一个Decoder模块是最后一个Decoder模块,则传递到线性层,该线性层具有2048个节点。
S130、将所述疾病术语与预设的基因数据库进行匹配,得到与所述疾病术语相匹配变异基因。
在本实施例中,所述基因数据库为人类孟德尔遗传数据库(Online MendelianInheritance in Man,OMIM),通过将所述疾病术语与所述基因数据库进行匹配比对,便可从所述基因数据库中筛选出相关的变异基因,然后与用户的基因测序结果中的存在的变异的基因位点进行匹配,便可匹配出与用户的当前症状相匹配的基因变异位点。
S140、根据所述变异基因在所述用户的基因测序结果中匹配对应基因变异位点。
具体的,终端设备在所述基因数据库中筛选出与所述疾病术语相匹配的变异基因后,通过计算该变异基因与所述用户的基因测序结果中突变的基因的相似度,然后根据相似度得到所述基因测序结果中与所述用户当前症状相匹配的突变基因,通过该突变基因便可在所述基因测序结果中匹配出与用户的当前症状相匹配的基因变异位点。
在另一实施例中,如图7所示,步骤S140包括子步骤S141、S142、S143和S144。
S141、获取所述基因测序结果中的多个突变基因;
S142、计算所述变异基因与每个所述突变基因的相似度;
S143、根据所述相似度从所述多个突变基因中获取与所述变异基因相匹配的突变基因;
S144、根据与所述变异基因相匹配的突变基因在所有的基因变异位点中匹配对应基因变异位点。
在本实施例中,用户在进行DNA测序后,生成的基因测序结果中便可得到多个突变基因,通过计算所述变异基因与每个突变基因的相似度来从多个突变基因中筛选出相似度最高的突变基因,通过该突变基因便可从所述基因测序结果中匹配出与用户的当前症状相匹配的基因变异位点。其中,所述变异基因、所述多个突变基因均以向量的形式进行相似度计算,通过计算所述变异基因、每个所述突变基因的距离,便可得到所述变异基因与每个所述突变基因的相似度。另外,相似度计算包括欧式距离计算、曼哈顿距离计算、切比雪夫距离计算、闵可夫斯基距离计算、标准化欧氏距离计算、马氏距离计算、夹角余弦计算、汉明距离计算、杰卡德相似系数计算、相关系数计算、信息熵计算等计算方法。本实施例中可采用任意一种相似度计算方法,在此不做具体的限定。
在本发明实施例所提供的基于人工智能的基因变异位点的匹配方法中,通过获取用户的症状文本;将所述症状文本输入至预置的深度学习模型中,得到与所述用户的症状相匹配的疾病术语;将所述疾病术语与预设的基因数据库进行匹配,得到与所述疾病术语相匹配变异基因;根据所述变异基因在所述用户的基因测序结果中匹配对应基因变异位点。本发明实施例通过采用深度学习模型对对用户的症状进行精准的分类识别,进而得到用户当前症状的疾病术语,然后通过疾病术语与基因数据库进行匹配,从而无需专业人员便可在基因检测报告中对用户当前症状所对应的基因变异位点进行精准匹配。
本发明实施例还提供了一种基于人工智能的基因变异位点的匹配系统100,该系统用于执行前述基于人工智能的基因变异位点的匹配方法的任一实施例。
具体地,请参阅图8,图8是本发明实施例提供的基于人工智能的基因变异位点的匹配系统100的示意性框图。
如图8所示,所述的基于人工智能的基因变异位点的匹配系统100,该装置包括:第一获取模块110、第一输入模块120、第一匹配模块130和第一匹配模块140。
第一获取模块110,用于获取用户的症状文本。
在其他发明实施例中,所述的基于人工智能的基因变异位点的匹配系统100还包括:第一训练模块。
第一训练单元,用于根据预设的样本集对所述深度学习模型进行训练,得到训练后的深度学习模型。
在其他发明实施例中,所述第一训练模块包括:提取模块、第一预处理模块和第二训练模块。
提取模块,用于从预设的疾病文献库中提取所述样本集;第一预处理模块,用于对所述样本集进行Word Embedding预处理,得到每个样本的向量;第二训练模块,用于根据每个所述样本的向量对所述深度学习模型进行训练,得到训练后的深度学习模型。
在其他发明实施例中,所述的基于人工智能的基因变异位点的匹配系统100还包括:接收模块和转换模块。
接收模块,用于接收所述用户输入的症状描述的语音;转换模块,用于根据预置的语音转换器将所述语音转换成所述症状文本。
第一输入模块120,用于将所述症状文本输入至预置的深度学习模型中,得到与所述用户的症状相匹配的疾病术语。
在其他发明实施例中,所述第一输入模块120包括:第二预处理模块、编解码模块。
第二预处理模块,用于对所述症状文本进行Word2vec预处理,得到所述症状文本的向量;编解码模块,用于对所述症状文本的向量进行编码解码处理,得到所述疾病术语。
在其他发明实施例中,所述编解码模块包括:编码模块和解码模块。
编码模块,用于根据所述深度学习模型中的Encoder模块对所述症状文本的向量进行编码,得到所述症状文本的语义向量;解码模块,用于根据所述深度学习模型中的Decoder模块对所述语义向量进行编码,得到所述疾病术语。
第一匹配模块130,用于将所述疾病术语与预设的基因数据库进行匹配,得到与所述疾病术语相匹配变异基因;
第一匹配模块140,用于根据所述变异基因在所述用户的基因测序结果中匹配对应基因变异位点。
在其他发明实施例中,所述第一匹配模块140包括:第二获取模块、相似度计算模块、第二匹配模块和第二匹配模块。
第二获取模块,用于获取所述基因测序结果中的多个突变基因;相似度计算模块,用于计算所述变异基因与每个所述突变基因的相似度;第二匹配模块,用于根据所述相似度从所述多个突变基因中获取与所述变异基因相匹配的突变基因;第二匹配模块,用于根据与所述变异基因相匹配的突变基因在所有的基因变异位点中匹配对应基因变异位点。
本发明实施例所提供的基于人工智能的基因变异位点的匹配系统100用于执行上述获取用户的症状文本;将所述症状文本输入至预置的深度学习模型中,得到与所述用户的症状相匹配的疾病术语;将所述疾病术语与预设的基因数据库进行匹配,得到与所述疾病术语相匹配变异基因;根据所述变异基因在所述用户的基因测序结果中匹配对应基因变异位点。
请参阅图9,图9是本发明实施例提供的计算机设备的示意性框图。
参阅图9,该设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行基于人工智能的基因变异位点的匹配方法。
该处理器502用于提供计算和控制能力,支撑整个设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行基于人工智能的基因变异位点的匹配方法。
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图9中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的设备500的限定,具体的设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下功能:获取用户的症状文本;将所述症状文本输入至预置的深度学习模型中,得到与所述用户的症状相匹配的疾病术语;将所述疾病术语与预设的基因数据库进行匹配,得到与所述疾病术语相匹配变异基因;根据所述变异基因在所述用户的基因测序结果中匹配对应基因变异位点。
本领域技术人员可以理解,图9中示出的设备500的实施例并不构成对设备500具体构成的限定,在其他实施例中,设备500可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,设备500可以仅包括存储器及处理器502,在这样的实施例中,存储器及处理器502的结构及功能与图9所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器502、数字信号处理器502(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器502可以是微处理器502或者该处理器502也可以是任何常规的处理器502等。
在本发明的另一实施例中提供计算机存储介质。该存储介质可以为非易失性的计算机可读存储介质。该存储介质存储有计算机程序5032,其中计算机程序5032被处理器502执行时实现以下步骤:获取用户的症状文本;将所述症状文本输入至预置的深度学习模型中,得到与所述用户的症状相匹配的疾病术语;将所述疾病术语与预设的基因数据库进行匹配,得到与所述疾病术语相匹配变异基因;根据所述变异基因在所述用户的基因测序结果中匹配对应基因变异位点。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台设备500(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种基于人工智能的基因变异位点的匹配方法,包括以下步骤:
获取用户的症状文本;
将所述症状文本输入至预置的深度学习模型中,得到与所述用户的症状相匹配的疾病术语;
将所述疾病术语与预设的基因数据库进行匹配,得到与所述疾病术语相匹配变异基因;
根据所述变异基因在所述用户的基因测序结果中匹配对应基因变异位点。
2.根据权利要求1所述的基于人工智能的基因变异位点的匹配方法,其特征在于:所述获取用户的症状文本之前,还包括:
根据预设的样本集对所述深度学习模型进行训练,得到训练后的深度学习模型。
3.根据权利要求2所述的基于人工智能的基因变异位点的匹配方法,其特征在于:所述根据预设的样本集对所述深度学习模型进行训练,得到训练后的深度学习模型,包括:
从预设的疾病文献库中提取所述样本集;
对所述样本集进行Word Embedding预处理,得到每个样本的向量;
根据每个所述样本的向量对所述深度学习模型进行训练,得到训练后的深度学习模型。
4.根据权利要求1所述的基于人工智能的基因变异位点的匹配方法,其特征在于:所述获取用户的症状文本之前,还包括:
接收所述用户输入的症状描述的语音;
根据预置的语音转换器将所述语音转换成所述症状文本。
5.根据权利要求1所述的基于人工智能的基因变异位点的匹配方法,其特征在于:所述将所述症状文本输入至预置的深度学习模型中,得到与所述用户的症状相匹配的疾病术语,包括:
对所述症状文本进行Word2vec预处理,得到所述症状文本的向量;
对所述症状文本的向量进行编码解码处理,得到所述疾病术语。
6.根据权利要求5所述的基于人工智能的基因变异位点的匹配方法,其特征在于:所述对所述症状文本的向量进行编码解码处理,得到所述疾病术语,包括:
根据所述深度学习模型中的Encoder模块对所述症状文本的向量进行编码,得到所述症状文本的语义向量;
根据所述深度学习模型中的Decoder模块对所述语义向量进行解码,得到所述疾病术语。
7.根据权利要求1所述的基于人工智能的基因变异位点的匹配方法,其特征在于:所述根据所述变异基因在所述用户的基因测序结果中匹配对应基因变异位点,包括:
获取所述基因测序结果中的多个突变基因;
计算所述变异基因与每个所述突变基因的相似度;
根据所述相似度从所述多个突变基因中获取与所述变异基因相匹配的突变基因;
根据与所述变异基因相匹配的突变基因在所有的基因变异位点中匹配对应基因变异位点。
8.一种基于人工智能的基因变异位点的匹配系统,其特征在于,包括:
第一获取模块,用于获取用户的症状文本;
第一输入模块,用于将所述症状文本输入至预置的深度学习模型中,得到与所述用户的症状相匹配的疾病术语;
第一匹配模块,用于将所述疾病术语与预设的基因数据库进行匹配,得到与所述疾病术语相匹配变异基因;
第一匹配模块,用于根据所述变异基因在所述用户的基因测序结果中匹配对应基因变异位点。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的基于人工智能的基因变异位点的匹配方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的基于人工智能的基因变异位点的匹配方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111021211.XA CN113808663A (zh) | 2021-09-01 | 2021-09-01 | 基于人工智能的基因变异位点的匹配方法、系统及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111021211.XA CN113808663A (zh) | 2021-09-01 | 2021-09-01 | 基于人工智能的基因变异位点的匹配方法、系统及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113808663A true CN113808663A (zh) | 2021-12-17 |
Family
ID=78894591
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111021211.XA Pending CN113808663A (zh) | 2021-09-01 | 2021-09-01 | 基于人工智能的基因变异位点的匹配方法、系统及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113808663A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150310163A1 (en) * | 2012-09-27 | 2015-10-29 | The Children's Mercy Hospital | System for genome analysis and genetic disease diagnosis |
CN106202936A (zh) * | 2016-07-13 | 2016-12-07 | 为朔医学数据科技(北京)有限公司 | 一种疾病风险预测方法及系统 |
CN108959848A (zh) * | 2018-05-30 | 2018-12-07 | 广州普世医学科技有限公司 | 基于基因变异与疾病表型自动关联匹配的遗传病预测系统 |
CN110021364A (zh) * | 2017-11-24 | 2019-07-16 | 上海暖闻信息科技有限公司 | 基于病人临床症状数据和全外显子组测序数据筛选单基因遗传病致病基因的分析检测系统 |
CN110490251A (zh) * | 2019-03-08 | 2019-11-22 | 腾讯科技(深圳)有限公司 | 基于人工智能的预测分类模型获取方法及装置、存储介质 |
CN111710383A (zh) * | 2020-06-16 | 2020-09-25 | 平安科技(深圳)有限公司 | 病历质控方法、装置、计算机设备和存储介质 |
US20210104330A1 (en) * | 2019-10-02 | 2021-04-08 | Kenneth Neumann | Systems and methods for generating a genotypic causal model of a disease state |
CN112802568A (zh) * | 2021-02-03 | 2021-05-14 | 紫东信息科技(苏州)有限公司 | 基于病历文本的多标签胃部疾病分类方法及装置 |
-
2021
- 2021-09-01 CN CN202111021211.XA patent/CN113808663A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150310163A1 (en) * | 2012-09-27 | 2015-10-29 | The Children's Mercy Hospital | System for genome analysis and genetic disease diagnosis |
CN106202936A (zh) * | 2016-07-13 | 2016-12-07 | 为朔医学数据科技(北京)有限公司 | 一种疾病风险预测方法及系统 |
CN110021364A (zh) * | 2017-11-24 | 2019-07-16 | 上海暖闻信息科技有限公司 | 基于病人临床症状数据和全外显子组测序数据筛选单基因遗传病致病基因的分析检测系统 |
CN108959848A (zh) * | 2018-05-30 | 2018-12-07 | 广州普世医学科技有限公司 | 基于基因变异与疾病表型自动关联匹配的遗传病预测系统 |
CN110490251A (zh) * | 2019-03-08 | 2019-11-22 | 腾讯科技(深圳)有限公司 | 基于人工智能的预测分类模型获取方法及装置、存储介质 |
US20210104330A1 (en) * | 2019-10-02 | 2021-04-08 | Kenneth Neumann | Systems and methods for generating a genotypic causal model of a disease state |
CN111710383A (zh) * | 2020-06-16 | 2020-09-25 | 平安科技(深圳)有限公司 | 病历质控方法、装置、计算机设备和存储介质 |
CN112802568A (zh) * | 2021-02-03 | 2021-05-14 | 紫东信息科技(苏州)有限公司 | 基于病历文本的多标签胃部疾病分类方法及装置 |
Non-Patent Citations (1)
Title |
---|
沈思等: "基于深度学习表示的医学主题语义相似度计算及知识发现研究", 情报理论与实践, no. 05, 31 December 2020 (2020-12-31), pages 187 - 194 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109299273B (zh) | 基于改进seq2seq模型的多源多标签文本分类方法及其系统 | |
CN109299472B (zh) | 文本数据处理方法、装置、电子设备及计算机可读介质 | |
CN110866401A (zh) | 基于注意力机制的中文电子病历命名实体识别方法及系统 | |
Fink | Markov models for pattern recognition: from theory to applications | |
CN112464641A (zh) | 基于bert的机器阅读理解方法、装置、设备及存储介质 | |
CN115641834A (zh) | 一种语音合成方法、装置、电子设备及存储介质 | |
CN112509555A (zh) | 方言语音识别方法、装置、介质及电子设备 | |
CN111223481B (zh) | 信息提取方法、装置、计算机可读存储介质及电子设备 | |
CN112002323A (zh) | 语音数据处理方法、装置、计算机设备及存储介质 | |
CN112446211A (zh) | 文本处理装置、方法、设备和计算机可读存储介质 | |
CN109885811B (zh) | 文章风格转换方法、装置、计算机设备及存储介质 | |
CN112084435A (zh) | 搜索排序模型训练方法及装置、搜索排序方法及装置 | |
CN111814479B (zh) | 一种企业简称生成及其模型的训练方法及装置 | |
CN111241820A (zh) | 不良用语识别方法、装置、电子装置及存储介质 | |
García-Pablos et al. | Vicomtech at cantemist 2020 | |
CN111145914A (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
Downey et al. | alineR: An R package for optimizing feature-weighted alignments and linguistic distances | |
CN114117039A (zh) | 一种小样本文本分类方法及模型 | |
CN116150367A (zh) | 一种基于方面的情感分析方法及系统 | |
CN111540470A (zh) | 一种基于bert迁移学习的社交网络抑郁倾向检测模型及其训练方法 | |
Xu et al. | String comparators for Chinese-characters-based record linkages | |
CN112836019B (zh) | 公共医疗卫生命名实体识别与实体链接方法、装置、电子设备及存储介质 | |
CN116259289A (zh) | 一种自动化音乐描述生成方法 | |
CN116779177A (zh) | 一种基于去偏见混合标签学习的内分泌疾病分类方法 | |
CN113808663A (zh) | 基于人工智能的基因变异位点的匹配方法、系统及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |