CN115186087B - 检索基因与肿瘤相关信息的方法、设备和计算机存储介质 - Google Patents
检索基因与肿瘤相关信息的方法、设备和计算机存储介质 Download PDFInfo
- Publication number
- CN115186087B CN115186087B CN202210765337.6A CN202210765337A CN115186087B CN 115186087 B CN115186087 B CN 115186087B CN 202210765337 A CN202210765337 A CN 202210765337A CN 115186087 B CN115186087 B CN 115186087B
- Authority
- CN
- China
- Prior art keywords
- information
- word unit
- tag
- current
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 116
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 113
- 238000000034 method Methods 0.000 title claims abstract description 67
- 229940079593 drug Drugs 0.000 claims abstract description 62
- 239000003814 drug Substances 0.000 claims abstract description 62
- 238000012216 screening Methods 0.000 claims abstract description 34
- 230000004044 response Effects 0.000 claims description 29
- 238000012545 processing Methods 0.000 claims description 19
- 230000002068 genetic effect Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 11
- 230000004927 fusion Effects 0.000 claims description 8
- 238000004393 prognosis Methods 0.000 claims description 8
- 230000014509 gene expression Effects 0.000 claims description 6
- 238000003745 diagnosis Methods 0.000 claims description 5
- 230000000857 drug effect Effects 0.000 claims description 4
- 230000007717 exclusion Effects 0.000 claims description 4
- 230000011987 methylation Effects 0.000 claims description 3
- 238000007069 methylation reaction Methods 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 abstract description 2
- 230000000875 corresponding effect Effects 0.000 description 26
- 238000010586 diagram Methods 0.000 description 16
- 230000007614 genetic variation Effects 0.000 description 10
- 238000001914 filtration Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 208000010507 Adenocarcinoma of Lung Diseases 0.000 description 7
- 201000005249 lung adenocarcinoma Diseases 0.000 description 7
- 102000052116 epidermal growth factor receptor activity proteins Human genes 0.000 description 6
- 108700015053 epidermal growth factor receptor activity proteins Proteins 0.000 description 6
- YOHYSYJDKVYCJI-UHFFFAOYSA-N n-[3-[[6-[3-(trifluoromethyl)anilino]pyrimidin-4-yl]amino]phenyl]cyclopropanecarboxamide Chemical compound FC(F)(F)C1=CC=CC(NC=2N=CN=C(NC=3C=C(NC(=O)C4CC4)C=CC=3)C=2)=C1 YOHYSYJDKVYCJI-UHFFFAOYSA-N 0.000 description 6
- 241000894007 species Species 0.000 description 6
- 238000011282 treatment Methods 0.000 description 6
- DEQANNDTNATYII-OULOTJBUSA-N (4r,7s,10s,13r,16s,19r)-10-(4-aminobutyl)-19-[[(2r)-2-amino-3-phenylpropanoyl]amino]-16-benzyl-n-[(2r,3r)-1,3-dihydroxybutan-2-yl]-7-[(1r)-1-hydroxyethyl]-13-(1h-indol-3-ylmethyl)-6,9,12,15,18-pentaoxo-1,2-dithia-5,8,11,14,17-pentazacycloicosane-4-carboxa Chemical compound C([C@@H](N)C(=O)N[C@H]1CSSC[C@H](NC(=O)[C@H]([C@@H](C)O)NC(=O)[C@H](CCCCN)NC(=O)[C@@H](CC=2C3=CC=CC=C3NC=2)NC(=O)[C@H](CC=2C=CC=CC=2)NC1=O)C(=O)N[C@H](CO)[C@H](O)C)C1=CC=CC=C1 DEQANNDTNATYII-OULOTJBUSA-N 0.000 description 5
- 108010016076 Octreotide Proteins 0.000 description 5
- 229960002700 octreotide Drugs 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 4
- 208000002154 non-small cell lung carcinoma Diseases 0.000 description 4
- 230000036961 partial effect Effects 0.000 description 4
- 208000029729 tumor suppressor gene on chromosome 11 Diseases 0.000 description 4
- 229960001686 afatinib Drugs 0.000 description 3
- ULXXDDBFHOBEHA-CWDCEQMOSA-N afatinib Chemical compound N1=CN=C2C=C(O[C@@H]3COCC3)C(NC(=O)/C=C/CN(C)C)=CC2=C1NC1=CC=C(F)C(Cl)=C1 ULXXDDBFHOBEHA-CWDCEQMOSA-N 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000035772 mutation Effects 0.000 description 3
- 229960003278 osimertinib Drugs 0.000 description 3
- DUYJMQONPNNFPI-UHFFFAOYSA-N osimertinib Chemical compound COC1=CC(N(C)CCN(C)C)=C(NC(=O)C=C)C=C1NC1=NC=CC(C=2C3=CC=CC=C3N(C)C=2)=N1 DUYJMQONPNNFPI-UHFFFAOYSA-N 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000000844 transformation Methods 0.000 description 3
- 230000004544 DNA amplification Effects 0.000 description 2
- 206010059866 Drug resistance Diseases 0.000 description 2
- 239000005411 L01XE02 - Gefitinib Substances 0.000 description 2
- 230000002730 additional effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 229960002584 gefitinib Drugs 0.000 description 2
- XGALLCVXEZPNRQ-UHFFFAOYSA-N gefitinib Chemical compound C=12C=C(OCCCN3CCOCC3)C(OC)=CC2=NC=NC=1NC1=CC=C(F)C(Cl)=C1 XGALLCVXEZPNRQ-UHFFFAOYSA-N 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 208000025402 neoplasm of esophagus Diseases 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000004083 survival effect Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 206010061818 Disease progression Diseases 0.000 description 1
- 101001012157 Homo sapiens Receptor tyrosine-protein kinase erbB-2 Proteins 0.000 description 1
- 239000005551 L01XE03 - Erlotinib Substances 0.000 description 1
- 101150105382 MET gene Proteins 0.000 description 1
- PLUKVDOZEJBBIS-UHFFFAOYSA-N N-[2-[2-(dimethylamino)ethyl-methylamino]-4-methoxy-5-[[4-(6,7,8,9-tetrahydropyrido[1,2-a]indol-10-yl)pyrimidin-2-yl]amino]phenyl]prop-2-enamide Chemical compound C(C=C)(=O)NC1=C(C=C(C(=C1)NC1=NC=CC(=N1)C1=C2N(C3=CC=CC=C13)CCCC2)OC)N(C)CCN(C)C PLUKVDOZEJBBIS-UHFFFAOYSA-N 0.000 description 1
- 102100030086 Receptor tyrosine-protein kinase erbB-2 Human genes 0.000 description 1
- 235000017304 Ruaghas Nutrition 0.000 description 1
- 241000554738 Rusa Species 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 230000000711 cancerogenic effect Effects 0.000 description 1
- 231100000315 carcinogenic Toxicity 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 230000005750 disease progression Effects 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000001647 drug administration Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 229960001433 erlotinib Drugs 0.000 description 1
- AAKJLRGGTJKAMG-UHFFFAOYSA-N erlotinib Chemical compound C=12C=C(OCCOC)C(OCCOC)=CC2=NC=NC=1NC1=CC=CC(C#C)=C1 AAKJLRGGTJKAMG-UHFFFAOYSA-N 0.000 description 1
- 210000003236 esophagogastric junction Anatomy 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000002496 gastric effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000008595 infiltration Effects 0.000 description 1
- 238000001764 infiltration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 208000020816 lung neoplasm Diseases 0.000 description 1
- 208000037841 lung tumor Diseases 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 229940127554 medical product Drugs 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 230000009456 molecular mechanism Effects 0.000 description 1
- 230000036438 mutation frequency Effects 0.000 description 1
- 230000002018 overexpression Effects 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 238000012913 prioritisation Methods 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 206010041823 squamous cell carcinoma Diseases 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000008961 swelling Effects 0.000 description 1
- 238000002626 targeted therapy Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 230000005751 tumor progression Effects 0.000 description 1
- 231100000588 tumorigenic Toxicity 0.000 description 1
- 230000000381 tumorigenic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
- G06F3/04817—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance using icons
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/04842—Selection of displayed objects or displayed text elements
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Bioethics (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本公开涉及一种用于检索基因与肿瘤相关信息的方法、计算设备和存储介质。该方法包括:在基因与肿瘤相关信息中提取与肿瘤相关联的基因信息和药物信息,以便生成多个文字单元;针对每个文字单元生成对应的文字单元标签,以便形成文字单元集合;获取关于文字单元标签的筛选操作信息,以便确定目标文字单元标签集合;以及基于检索输入信息和目标文字单元标签集合,针对文字单元集合进行检索,以便呈现关于基因与肿瘤的目标信息。本公开不仅能够有效提高检索基因与肿瘤相关信息的查询准确率和查全率,并且能够满足个性化检索需求,快速而精准地呈现检索结果。本公开还可以针对文字单元标签、文字单元进行结构化的存储、管理以及可视化呈现。
Description
技术领域
本公开总体上涉及数据处理,并且具体地,涉及用于检索基因与肿瘤相关信息的方法、计算设备和计算机存储介质。
背景技术
随着分子生物学和测序技术的发展以及肿瘤发生分子机制的深入研究,基因与肿瘤相关的先验信息(致癌机制、辅助诊断、预后、治疗等)也越来越多。基于肿瘤测序结果的基因与肿瘤之间的先验信息描述现在主要存在于FDA、NMPA、临床指南、专家共识、会议记录、科学文献中。因此,有必要形成针对基因与肿瘤知识内容的检索系统,以便快速并准确地检索基因与肿瘤相关信息。
传统的用于检索基因与肿瘤相关信息的方法通常利用瘤种或者基因变异作为关键词进行检索,即,以在待检索记录中出现该瘤种或者基因变异关键词为搜索目标,按照检索记录中的文献的先后顺序逐行查找,只要文献中出现拼写相同的词,就可以检出。由此不论该词是否是文献的重点内容,以及该瘤种或者基因变异是否具有相同的场景。由于利用瘤种或者基因变异作为关键词的检索是以在记录中出现该词为搜索目标,有些文献虽然含有所输入的关键词,但可能并不是该文献论述的重点内容,加之,不同瘤种之间的基因变异并不相同,而具体瘤种罕见基因变异知识内容太少,因而致使难以查到有效检索结果,误检率较高。另外,对于关于基因与肿瘤信息的不同检索应用场景,即便输入相同的检索关键词,检索意图所指向的目标信息是不同的,而传统的基于关键词的用于检索基因与肿瘤相关信息的方法,无法针对个性化检索需求给出快速而精准的检索结果。
综上,传统的用于检索基因与肿瘤相关信息的方法存在的不足之处在于:难以有效提高检索基因与肿瘤相关信息的查询准确率和查全率,同时难以针对个性化检索需求给出快速而精准的检索结果。
发明内容
本公开提供一种检索基因与肿瘤相关信息的方法、计算设备和计算机存储介质,不仅能够有效提高检索基因与肿瘤相关信息的查询准确率和查全率,并且能够满足个性化检索需求,快速而精准地呈现检索结果。
进一步的,本公开还可以针对文字单元标签、文字单元进行结构化的存储、管理以及可视化呈现。
根据本公开的第一方面,提供了一种用于检索基因与肿瘤相关信息的方法。该方法包括:在已获取的基因与肿瘤相关信息中提取与肿瘤相关联的基因信息和药物信息,以便生成用于注释所提取的基因信息和药物信息的多个文字单元;针对每个文字单元生成对应的文字单元标签,以便形成文字单元集合,文字单元集合包括:多个文字单元和对应的文字单元标签,每个文字单元标签指示标签属性信息、标签值和标签等级;获取关于文字单元标签的筛选操作信息;基于所获取的关于文字单元标签的筛选操作信息,确定目标文字单元标签集合;以及基于检索输入信息和目标文字单元标签集合,针对文字单元集合进行检索,以便至少基于检索结果呈现与检索输入信息相匹配的关于基因与肿瘤的目标信息。
根据本发明的第二方面,还提供了一种计算设备,该设备包括:存储器,被配置为存储一个或多个计算机程序;以及处理器,耦合至存储器并且被配置为执行一个或多个程序使装置执行本公开的第一方面的方法。
根据本公开的第三方面,还提供了一种非瞬态计算机可读存储介质。该非瞬态计算机可读存储介质上存储有机器可执行指令,该机器可执行指令在被执行时使机器执行本公开的第一方面的方法。
在一些实施例中,证据等级至少包括:用于指示肿瘤药物响应状态的多个药物响应等级、以及用于指示肿瘤药物耐药状态的多个药物耐药等级。
在一些实施例中,至少基于检索结果呈现与检索输入信息相匹配的关于基因与肿瘤的目标信息包括:确定文字单元标签的排序规则;基于所确定的文字单元标签的排序规则,针对检索结果中的文字单元标签进行排序;以及按照经排序的文字单元标签的顺序,呈现与经排序的文字单元标签相关联的关于基因与肿瘤的目标信息。
在一些实施例中,文字单元标签至少包括第一级文字单元标签和第二级文字单元标签,第一级文字单元标签包括肿瘤类型、基因、基因肿瘤、诊断、预后、药效、药物,第二级文字单元标签包括高表达、甲基化。
在一些实施例中,生成用于注释所提取的基因信息和药物信息的多个文字单元包括:确定所提取的当前基因信息和当前药物信息是否与已提取的基因信息和药物信息相同;响应于确定所提取的当前基因信息和当前药物信息与已提取的基因信息和药物信息不相同,基于当前基因信息和当前药物信息生成当前文字单元;以及响应于确定所提取的当前基因信息和当前药物信息与已提取的基因信息和药物信息相同,过滤掉所提取的当前基因信息和当前药物信息,以便确定所提取的下一基因信息和下一药物信息是否与已提取的基因信息和药物信息相同。
在一些实施例中,形成文字单元集合包括:确定基于当前文字单元所生成的当前文字单元标签与已生成的文字单元标签是否相同;响应于确定当前文字单元标签与已生成的文字单元标签相同,将当前文字单元和相同的文字单元标签所对应文字单元进行融合;响应于确定当前文字单元标签与已生成的文字单元标签不相同,计算当前文字单元标签与已生成的文字单元标签的相似度;确认所计算的相似度是否符合预定条件;以及响应于确认所计算的相似度符合预定条件,生成融合指示信息,融合指示信息指示当前文字单元和相同的文字单元标签所对应文字单元待融合确认。
在一些实施例中,确定目标文字单元标签集合包括:获取关于文字单元标签的筛选操作信息所指示的筛选规则设置信息、关于全选操作图标的操作信息和关于排除操作图标的操作信息;确定筛选规则设置信息是否指示当前标签属性信息被选中;以及响应于确定筛选规则设置信息指示当前标签属性信息被选中,确定与该被选中的当前标签属性信息相关联的全选操作图标是否被选中;响应于确定与该被选中的当前标签属性信息相关联的全选操作图标被选中,确定与该被选中的标签属性信息相关联的排除操作图标是否被选中;响应于确定与该被选中的标签属性信息相关联的排除操作图标被选中,确定目标文字单元标签集合不包括当前标签属性下的所有文字单元标签;响应于确定与该被选中的标签属性信息相关联的排除操作图标未被选中,确定目标文字单元标签集合包括当前标签属性下的所有文字单元标签。
在一些实施例中,确定目标文字单元标签集合还包括:响应于确定与该被选中的当前标签属性信息相关联的全选操作图标未被选中,确定与该被选中的标签属性信息相关联的排除操作图标是否被选中;响应于确定与该被选中的标签属性信息相关联的排除操作图标被选中,确定目标文字单元标签集合包括:当前标签属性下的、除了与排除操作图标相关联的标签值之外的其他文字单元标签;以及响应于确定与该被选中的标签属性信息相关联的排除操作图标未被选中,确定目标文字单元标签集合包括:具有与排除操作图标相关联的标签值的文字单元标签。
在一些实施例中,针对每个文字单元生成对应的文字单元标签包括:针对当前文字单元确定候选文字单元标签;将所确定的候选文字单元标签转换为多个关联候选文字单元标签;以及将所确定的候选文字单元标签和多个关联候选文字单元标签确定为当前文字单元的对应的文字单元标签。
提供发明内容部分是为了以简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或主要特征,也无意限制本公开的范围。
附图说明
图1示出了根据本公开的实施例的用于实施检索基因与肿瘤相关信息的方法的系统的示意图。
图2示出了根据本公开的实施例的用于检索基因与肿瘤相关信息的方法的流程图。
图3示意性地示出了用于针对文字单元标签进行选择和排除的操作界面的示意图。
图4示出了根据本公开的实施例的用于生成多个文字单元的方法的流程图。。
图5示出了根据本公开的实施例的用于确定目标文字单元标签集合的方法的流程图。
图6示出了根据本公开的实施例的用于形成文字单元集合的方法的流程图。
图7示意性示出了适于用来实现本公开实施例的电子设备的框图。
在各个附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。
如前文所描述,传统的用于检索基因与肿瘤相关信息的方法通常利用瘤种或者基因变异作为关键词进行检索。由于关键词检索是以在记录中出现该词为搜索目标,有些文献虽然含有所输入的瘤种或者基因变异关键词,但可能并不是该文献论述的重点内容,加之,不同瘤种之间的基因变异并不相同,而具体瘤种罕见基因变异知识内容太少,因而致使难以查到有效检索结果,误检率较高。因此,传统的用于检索基因与肿瘤相关信息的方法存在的不足之处在于:难以有效提高检索基因与肿瘤相关信息的查询准确率和查全率,同时难以针对个性化检索需求给出快速而精准的检索结果。为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个,本公开的示例实施例提出了一种用于检索基因与肿瘤相关信息的方案。在该方案中,通过在基因与肿瘤相关信息中提取与肿瘤相关联的基因信息和药物信息,以便生成用于注释所提取信息的多个文字单元;以及形成包括多个文字单元和对应的文字单元标签的文字单元集合;本公开可以构建基于文字单元标签的、针对所提取的与肿瘤相关联的基因信息和药物信息这些关键信息进行注释的文字单元集合,进而利于对待检索的基因与肿瘤相关信息(或记录)进行文字单元化。另外,通过基于关于文字单元标签的筛选操作信息而确定目标文字单元标签集合;以及基于检索输入信息和目标文字单元标签集合,针对文字单元集合进行检索,用以呈现与检索输入信息相匹配的关于基因与肿瘤的目标信息,本公开可以通过基于用户的筛选操作信息而确定的目标文字单元标签集合,使得目标文字单元标签集合适应于个性化检索需求,进而提高检索结果与用户个性化检索意图的匹配度与匹配效率;以及通过基于检索输入信息和由筛选操作信息而确定目标文字单元标签,针对文字单元集合而非整个待检索的基因与肿瘤相关信息(或记录)进行检索,本公开可以提高检索结果的查全率、查准率和检索效率。因而,本公开不仅能够有效提高检索基因与肿瘤相关信息的查询准确率和查全率,并且能够满足个性化检索需求,快速而精准地呈现检索结果。
图1示出了根据本公开的实施例的用于实施检索基因与肿瘤相关信息的方法的系统100的示意图。如图1所示,系统100包括:计算设备110、服务器140、网络150。在一些实施例中,计算设备110、服务器140经由网络150进行数据交互。
关于服务器130,其例如用于提供基因与肿瘤相关信息。基因与肿瘤相关信息例如来自:FDA(Food and Drug Administration简称FDA)、NCCN(National ComprehensiveCancer Network)、国家药品监督管理局(英語:National Medical ProductsAdministration,缩写:NMPA)、专家共识、会议记录、科学文献等。
关于计算设备110,其例如用于检索基因与肿瘤相关信息。具体而言,计算设备110可以自服务器130获取基因与肿瘤相关信息;在已获取的基因与肿瘤相关信息中提取与肿瘤相关联的基因信息和药物信息,以便生成用于注释所提取的基因信息和药物信息的多个文字单元;以及针对每个文字单元生成对应的文字单元标签,以便形成文字单元集合。计算设备110还可以获取关于文字单元标签的筛选操作信息;基于所获取的关于文字单元标签的筛选操作信息,确定目标文字单元标签集合;以及基于检索输入信息和目标文字单元标签集合,针对文字单元集合进行检索,以便呈现与检索输入信息相匹配的关于基因与肿瘤的目标信息。
在一些实施例中,计算设备110可以具有一个或多个处理单元,包括诸如GPU、FPGA和ASIC等的专用处理单元以及诸如CPU的通用处理单元。另外,在每个计算设备上也可以运行着一个或多个虚拟机。计算设备110例如包括:文字单元生成单元112、文字单元集合生成单元114、筛选操作信息获取单元116、目标文字单元标签集合确定单元118、关于基因与肿瘤的目标信息呈现单元120。上述文字单元生成单元112、文字单元集合生成单元114、筛选操作信息获取单元116、目标文字单元标签集合确定单元118、关于基因与肿瘤的目标信息呈现单元120可以配置在一个或者多个计算设备110上。
关于文字单元生成单元112,其用于在已获取的基因与肿瘤相关信息中提取与肿瘤相关联的基因信息和药物信息,以便生成用于注释所提取的基因信息和药物信息的多个文字单元。
关于文字单元集合生成单元114,其用于针对每个文字单元生成对应的文字单元标签,以便形成文字单元集合,文字单元集合包括:多个文字单元和对应的文字单元标签,每个文字单元标签指示标签属性信息、标签值和标签等级。
关于筛选操作信息获取单元116,其用于获取关于文字单元标签的筛选操作信息。
关于目标文字单元标签集合确定单元118,其用于基于所获取的关于文字单元标签的筛选操作信息,确定目标文字单元标签集合。
关于基因与肿瘤的目标信息呈现单元120,其用于基于检索输入信息和目标文字单元标签集合,针对文字单元集合进行检索,以便至少基于检索结果呈现与检索输入信息相匹配的关于基因与肿瘤的目标信息。
以下将结合图2描述根据本公开的实施例的用于检索基因与肿瘤相关信息的方法。图2示出了根据本公开的实施例的用于检索基因与肿瘤相关信息的方法200的流程图。应当理解,方法200例如可以在图7所描述的电子设备700处执行。也可以在图1所描述的计算设备110处执行。应当理解,方法200还可以包括未示出的附加动作和/或可以省略所示出的动作,本公开的范围在此方面不受限制。
在步骤202处,计算设备110在已获取的基因与肿瘤相关信息中提取与肿瘤相关联的基因信息和药物信息,以便生成用于注释所提取的基因信息和药物信息的多个文字单元。在一些实施例中,药物信息例如是靶向免疫药信息。
关于基因与肿瘤相关信息,其例如来源于FDA、NMPA、临床指南、专家共识、国内外大会信息(例如,ASCO,ESMO等)、科学文献、其他公共数据库中的关于基因与肿瘤相关信息。
关于文字单元,其例如是不可分割且表达完全含义的最小文字单元,其能够整体指示原始基因与肿瘤相关信息。在一些实施例中,文字单元也可以称为“元知识”。
关于生成多个文字单元的方法,其例如包括:确定所提取的当前基因信息和当前药物信息是否与已提取的基因信息和药物信息相同;响应于确定所提取的当前基因信息和当前药物信息与已提取的基因信息和药物信息不相同,基于当前基因信息和当前药物信息生成当前文字单元;以及响应于确定所提取的当前基因信息和当前药物信息与已提取的基因信息和药物信息相同,过滤掉所提取的当前基因信息和当前药物信息,以便确定所提取的下一基因信息和下一药物信息是否与已提取的基因信息和药物信息相同。下文将结合图4说明用于生成多个文字单元的方法400,在此,不再赘述。
在步骤204处,计算设备110针对每个文字单元生成对应的文字单元标签,以便形成文字单元集合,文字单元集合包括:多个文字单元和对应的文字单元标签,每个文字单元标签指示标签属性信息、标签值和标签等级。
关于文字单元集合,其例如包括结构化的文字单元(该文字单元例如而不限于是“元知识”)和文字单元标签(文字单元标签例如而不限于是“元Tags”,或者称“元标签”)的元知识库。在一些实施例中,计算设备110可以针对文字单元和文字单元标签进行结构化存储、管理与呈现。例如,计算设备110以可视化的方式呈现文字单元集合中的文字单元和文字单元标签。例如,展示基因变异、瘤种、药物、药效、药物证据级别等文字单元标签,以及文字单元标签所对应的文字单元。
关于文字单元标签,其至少包括第一级文字单元标签和第二级文字单元标签,第一级文字单元标签包括肿瘤类型、基因、基因肿瘤、诊断、预后、药效、药物,第二级文字单元标签包括高表达、甲基化。
在一些实施例中,文字单元标签除了包括第一级文字单元标签和第二级文字单元标签之外,还包括第三级文字单元标签等更多级的文字单元标签。其中,第二级文字单元标签、第三级文字单元标签例如是第一级文字单元标签的子标签。在一些实施例中,第一级文字单元标签是针对文字单元集合进行筛选、分类、检索与排序的基础。第一级文字单元标签为预先设定的。第二级文字单元标签和第三级文字单元标签例如使次要文字单元标签,其主要作用是用于辅助检索。每个文字单元标签例如至少指示标签属性信息、标签值和标签等级。应当理解,一个标签属性信息可以对应一个或者多个标签值,一个标签值唯一对应一个标签属性信息。标签属性信息例如用于指示文字单元的应用场景。标签值例如对应于文字单元。以下表一示意性示出了部分文字单元标签。
关于生成文字单元标签的方法,其例如包括:计算设备110针对当前文字单元确定候选文字单元标签;将所确定的候选文字单元标签转换为多个关联候选文字单元标签;以及将所确定的候选文字单元标签和多个关联候选文字单元标签确定为当前文字单元的对应的文字单元标签。在一些实施例中,上述转换包括同义词转换和上下位概念的语义词转换。上述转换例如是基于预定数据库而进行的。
例如,如果计算设备110针对当前文字单元确定的候选文字单元标签为“奥希替尼”(“奥希替尼”是一个靶向药的中文通用名)。计算设备110将所确定的候选文字单元标签“奥希替尼”转换为多个关联候选文字单元标签,以便将候选文字单元标签“奥希替尼”和多个关联候选文字单元标签共同作为当前文字单元的对应的文字单元标签。该多个关联候选文字单元标签例如包括:第一关联候选文字单元标签“Osimertinib”(“Osimertinib”为奥希替尼的英文通用名)、第二关联候选文字单元标签“AZD9291”(“AZD9291”为奥希替尼的别名)、第三关联候选文字单元标签“泰瑞沙”(“泰瑞沙”为奥希替尼的中文商品名)、第四关联候选文字单元标签“Tagrisso”(“Tagrisso”为奥希替尼的英文商品名)。通过采用上述手段,如果针对当前文字单元的注释信息确定的文字单元标签为“奥希替尼”,则同时也为当前文字单元的注释信息确定了文字单元标签“Osimertinib”、“AZD9291”、“Tagrisso”和“泰瑞沙”。
再例如,如果计算设备110针对当前文字单元确定的候选文字单元标签为“肺腺癌”;则计算设备110将所确定的候选文字单元标签“肺腺癌”转换为关联候选文字单元标签“非小细胞肺癌”;以便将候选文字单元标签“肺腺癌”和关联候选文字单元标签“非小细胞肺癌”均作为当前文字单元的对应的文字单元标签。应当理解,文字单元标签有上下级关系,下级文字单元标签可以转化为上级文字单元标签。在一些应用场景中,上级文字单元标签也可以转化为下级文字单元标签。以下表二以“非小细胞肺癌”为例,示意性示出了文字单元标签的上下级关系。
在步骤206处,计算设备110获取关于文字单元标签的筛选操作信息。例如,计算设备110可以获取用户针对用于文字单元标签进行选择和排除的操作界面300的筛选操作信息。
例如,图3示意性地示出了用于针对文字单元标签进行选择和排除的操作界面300的示意图。操作界面300包括:筛选规则设置信息320、多个标签属性信息310、对应的标签属性信息的标识318、与各个标签属性信息相关联的全选操作图标312、排除操作图标314和新增选择图标、以及与排除操作图标相关联的标签值316。
在步骤206处,计算设备110基于所获取的关于文字单元标签的筛选操作信息,确定目标文字单元标签集合。在一些实施例中,计算设备110可以基于目标文字单元标签集合形成虚拟知识库。在一些实施例中,计算设备110还可以以可视化的方式呈现经由文字单元标签的筛选操作而确定的虚拟知识库中的文字单元标签、及其所对应的文字单元。
关于确定目标文字单元标签集合的方法,其例如包括:计算设备110获取关于文字单元标签的筛选操作信息所指示的筛选规则设置信息、关于全选操作图标的操作信息和关于排除操作图标的操作信息;确定筛选规则设置信息是否指示当前标签属性信息被选中;以及如果确定筛选规则设置信息指示当前标签属性信息被选中,确定与该被选中的当前标签属性信息相关联的全选操作图标是否被选中;如果确定与该被选中的当前标签属性信息相关联的全选操作图标被选中,确定与该被选中的标签属性信息相关联的排除操作图标是否被选中;如果计算设备110确定与该被选中的标签属性信息相关联的排除操作图标被选中,确定目标文字单元标签集合不包括当前标签属性下的所有文字单元标签;如果计算设备110确定与该被选中的标签属性信息相关联的排除操作图标未被选中,确定目标文字单元标签集合包括当前标签属性下的所有文字单元标签;如果计算设备110确定与该被选中的当前标签属性信息相关联的全选操作图标未被选中,确定与该被选中的标签属性信息相关联的排除操作图标是否被选中;如果确定与该被选中的标签属性信息相关联的排除操作图标被选中,确定目标文字单元标签集合包括:当前标签属性下的、除了与排除操作图标相关联的标签值之外的其他文字单元标签;以及如果确定与该被选中的标签属性信息相关联的排除操作图标未被选中,确定目标文字单元标签集合包括:具有与排除操作图标相关联的标签值的文字单元标签。下文将结合图5说明用于确定候选关联标签集合的方法500,在此,不再赘述。
在步骤210处,计算设备110基于检索输入信息和目标文字单元标签集合,针对文字单元集合进行检索,以便至少基于检索结果呈现与检索输入信息相匹配的关于基因与肿瘤的目标信息。
关于呈现与检索输入信息相匹配的关于基因与肿瘤的目标信息的方法,其例如包括:计算设备110确定文字单元标签的排序规则;基于所确定的文字单元标签的排序规则,针对检索结果中的文字单元标签进行排序;以及按照经排序的文字单元标签的顺序,呈现与经排序的文字单元标签相关联的关于基因与肿瘤的目标信息。例如,计算设备110按照优先级递减的顺序,针对检索结果中的文字单元标签进行排序,然后按照排序后的文字单元标签,顺序呈现文字单元标签所关联的关于基因与肿瘤的目标信息。
关于确定文字单元标签的排序规则的方法,其例如包括:计算设备110使指示“肿瘤类型为全部”的文字单元标签、指示“当前瘤种”的文字单元标签、指示“肿瘤功能研究”的文字单元标签、指示“变异频率”的文字单元标签、指示“诊断”的文字单元标签、指示“预后”的文字单元标签的排序优先级依次递减。应当理解,上述文字单元标签的排序优先级也可以被调整。
例如,检索输入信息是“EGFR KDD(EGFR 第18-25号外显子重复)在肺肿瘤关于治疗相关的描述”。经由方法200最终所呈现的与检索信息相匹配的目标基因与肿瘤相关信息为“1例EGFR-KDD变异的肺腺癌患者接受阿法替尼治疗两周期后,获得影像学部分响应(PR,肿瘤体积缩小约50%),治疗7周期后,该患者由于EGFR-KDD基因扩增而出现对阿法替尼的获得性耐药[PMID:26286086]。1例携带EGFR KDD(18-25号外显子重复)突变的肺腺癌患者经吉非替尼、厄洛替尼靶向治疗后达到部分缓解[PMID:26398831]。1例EGFR-KDD变异的肺腺癌患者接受埃克替尼治疗,肿瘤响应稳定,治疗期间没有相关不良事件,11个月后仍然疾病稳定[PMID:29997994]。1例携带EGFR KDD(18-25号外显子重复)突变和ERBB2扩增突变的肺腺癌患者分别经吉非替尼、阿法替尼、奥希替尼靶向治疗的最佳疗效分别为部分缓解、疾病进展、部分缓解[PMID:30255937]”。
再例如,检索输入信息是“MET在食管肿瘤中的预后相关描述”。经由方法200最终所呈现的与检索信息相匹配的目标基因与肿瘤相关信息为“超过2000例的荟萃研究显示,8.3%-82.4%的胃癌或胃食管交界癌存在MET基因扩增或蛋白高表达,并且MET高表达提示较短的总生存期[PMID:24416238,25584241]。MET mRNA过表达发生在食管肿瘤进展的早期阶段[PMID:9626453]。食管鳞癌中,MET蛋白高表达与肿瘤浸润程度、病理分期以及患者差的总生存期相关[PMID:26036285]”。
在上述方案中,通过在基因与肿瘤相关信息中提取与肿瘤相关联的基因信息和药物信息,以便生成用于注释所提取信息的多个文字单元;以及形成包括多个文字单元和对应的文字单元标签的文字单元集合;本公开可以构建基于文字单元标签的、针对所提取的与肿瘤相关联的基因信息和药物信息这些关键信息进行注释的文字单元集合,进而利于对待检索的基因与肿瘤相关信息(或记录)进行文字单元化。另外,通过基于关于文字单元标签的筛选操作信息而确定目标文字单元标签集合;以及基于检索输入信息和目标文字单元标签集合,针对文字单元集合进行检索,用以呈现与检索输入信息相匹配的关于基因与肿瘤的目标信息,本公开可以通过基于用户的筛选操作信息而确定的目标文字单元标签集合,使得目标文字单元标签集合适应于个性化检索需求,进而提高检索结果与用户个性化检索意图的匹配度与匹配效率;以及通过基于检索输入信息和由筛选操作信息而确定目标文字单元标签,针对文字单元集合而非整个待检索的基因与肿瘤相关信息(或记录)进行检索,本公开可以提高检索结果的查全率、查准率和检索效率。因而,本公开不仅能够有效提高检索基因与肿瘤相关信息的查询准确率和查全率,并且能够满足个性化检索需求,快速而精准地呈现检索结果。
以下将结合图4描述根据本公开的实施例的用于生成多个文字单元的方法400。图4示出了根据本公开的实施例的用于生成多个文字单元的方法400的流程图。应当理解,方法400例如可以在图7所描述的电子设备700处执行。也可以在图1所描述的计算设备110处执行。应当理解,方法400还可以包括未示出的附加动作和/或可以省略所示出的动作,本公开的范围在此方面不受限制。
在步骤402处,计算设备110确定所提取的当前基因信息和当前药物信息是否与已提取的基因信息和药物信息相同。
在步骤404处,如果计算设备110确定所提取的当前基因信息和当前药物信息与已提取的基因信息和药物信息不相同,基于当前基因信息和当前药物信息生成当前文字单元。
在步骤406处,如果计算设备110确定所提取的当前基因信息和当前药物信息与已提取的基因信息和药物信息相同,过滤掉所提取的当前基因信息和当前药物信息,以便确定所提取的下一基因信息和下一药物信息是否与已提取的基因信息和药物信息相同。
通过采用上述手段,本公开可以避免针对重复的基因与肿瘤相关信息生成文字单元,进而避免重复处理相同的待检索记录,有利于提高检索效率,避免非必要的数据计算。
以下将结合图3和图5描述根据本公开的实施例的用于确定目标文字单元标签集合的方法500。图5示出了根据本公开的实施例的用于确定目标文字单元标签集合的方法500的流程图。应当理解,方法500例如可以在图7所描述的电子设备700处执行。也可以在图1所描述的计算设备110处执行。应当理解,方法500还可以包括未示出的附加动作和/或可以省略所示出的动作,本公开的范围在此方面不受限制。
在步骤502处,计算设备110获取关于文字单元标签的筛选操作信息所指示的筛选规则设置信息、关于全选操作图标的操作信息和关于排除操作图标的操作信息。
在步骤504处,计算设备110确定筛选规则设置信息是否指示当前标签属性信息被选中。如果计算设备110确定筛选规则设置信息指示当前标签属性信息未被选中,在步骤504处等待。
在步骤506处,如果计算设备110确定筛选规则设置信息指示当前标签属性信息被选中,确定与该被选中的当前标签属性信息相关联的全选操作图标是否被选中。
在步骤508处,如果计算设备110确定与该被选中的当前标签属性信息相关联的全选操作图标被选中,确定与该被选中的标签属性信息相关联的排除操作图标是否被选中。
在步骤510处,如果计算设备110确定与该被选中的标签属性信息相关联的排除操作图标被选中,确定目标文字单元标签集合不包括当前标签属性下的所有文字单元标签。例如,如果计算设备110确定筛选规则设置信息指示当前标签属性信息被选中,并且与该被选中的当前标签属性信息相关联的全选操作图标和排除操作图标均被选中,确定目标文字单元标签集合不包括(或者“排除”)当前标签属性下的所有文字单元标签。
在步骤512处,如果计算设备110确定与该被选中的标签属性信息相关联的排除操作图标未被选中,确定目标文字单元标签集合包括当前标签属性下的所有文字单元标签。例如,如果计算设备110确定筛选规则设置信息指示当前标签属性信息被选中,并且与该被选中的当前标签属性信息相关联的全选操作图标被选中,确定目标文字单元标签集合包括当前标签属性下的所有文字单元标签。
在步骤514处,如果计算设备110确定与该被选中的当前标签属性信息相关联的全选操作图标未被选中,确定与该被选中的标签属性信息相关联的排除操作图标是否被选中。
在步骤516处,如果计算设备110确定与该被选中的标签属性信息相关联的排除操作图标被选中,确定目标文字单元标签集合包括:当前标签属性下的、除了与排除操作图标相关联的标签值之外的其他文字单元标签。例如,如果计算设备110确定筛选规则设置信息指示当前标签属性信息被选中,并且与该被选中的标签属性信息相关联的排除操作图标被选中,则确定目标文字单元标签集合包括:当前标签属性下的、除了与排除操作图标相关联的标签值之外的其他文字单元标签。
在步骤518处,如果计算设备110确定与该被选中的标签属性信息相关联的排除操作图标未被选中,确定目标文字单元标签集合包括:具有与排除操作图标相关联的标签值的文字单元标签。例如,如果计算设备110确定筛选规则设置信息指示当前标签属性信息被选中,并且与该被选中的标签属性信息相关联的全选操作图标和排除操作图标均未被选中,确定目标文字单元标签集合包括:具有与排除操作图标相关联的标签值的文字单元标签。
如图3所示,所获取的筛选规则设置信息(即,“a and b and c”)中指示当前与标签属性信息的标识“a”所标识的标签属性信息“基因肿瘤”、与标签属性信息的标识“b”所标识的标签属性信息“肿瘤类型”、以及与标签属性信息的标识“c”所标识的标签属性信息“基因”被选中,并且与标签属性信息“基因肿瘤”、“肿瘤类型”和“基因”相关联的全选操作图标“All”、排除操作图标均未被选中,则确定目标文字单元标签集合包括:具有与排除操作图标相关联的标签值 “预后”、“非小细胞肿瘤”、“EGFR” 的文字单元标签。计算设备110基于所确定的目标文字单元标签集合,检索EGFR在非小细胞肺癌中的所有预后相关的信息。
通过采用上述手段,本公开可以满足不同检索意图下针对基因肿与瘤相关知识内容的定制化检索服务。
以下将结合图6描述根据本公开的实施例的用于形成文字单元集合的方法600。图6示出了根据本公开的实施例的用于形成文字单元集合的方法600的流程图。应当理解,方法600例如可以在图7所描述的电子设备700处执行。也可以在图1所描述的计算设备110处执行。应当理解,方法600还可以包括未示出的附加动作和/或可以省略所示出的动作,本公开的范围在此方面不受限制。
在步骤602处,计算设备110确定基于当前文字单元所生成的当前文字单元标签与已生成的文字单元标签是否相同。
在步骤604处,如果计算设备110确定当前文字单元标签与已生成的文字单元标签相同,将当前文字单元和相同的文字单元标签所对应文字单元进行融合。例如,将当前文字单元和相同的文字单元标签所对应文字单元进行合并。
在步骤606处,如果计算设备110确定当前文字单元标签与已生成的文字单元标签不相同,计算当前文字单元标签与已生成的文字单元标签的相似度。
在步骤608处,计算设备110确认所计算的相似度是否符合预定条件。例如,如果计算设备110确定所计算的相似度大于或者等于预定阈值(即,所计算的相似度指示当前文字单元标签与已生成的文字单元标签足够接近),则确认所计算的相似度符合预定条件。如果计算设备110确认所计算的相似度不符合预定条件,则跳转至步骤612处,将当前文字单元和对应的当前文字单元标签存储入文字单元集合。
在步骤610处,如果计算设备110确认所计算的相似度符合预定条件,生成融合指示信息,融合指示信息指示当前文字单元和相同的文字单元标签所对应文字单元待融合确认。
通过采用上手段,本公开可以针对标签相同的文字单元进行融合,以及针对标签相似的文字单元进行融合确认提醒,有利于进一步提高检索的查全性和检索效率。
图7示意性示出了适于用来实现本发明实施例的电子设备700的框图。电子设备700可以是用于实现执行图2、图4至图6所示的方法200、400至600的设备。如图7所示,电子设备700包括中央处理单元(即,CPU 701),其可以根据存储在只读存储器(即,ROM 702)中的计算机程序指令或者从存储单元708加载到随机访问存储器(即,RAM 703)中的计算机程序指令,来执行各种适当的动作和处理。在RAM 703中,还可存储电子设备700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出接口(即,I/O接口705)也连接至总线704。
电子设备700中的多个部件连接至I/O接口705,包括:输入单元706、输出单元707、存储单元708,CPU 701执行上文所描述的各个方法和处理,例如执行方法200、400至600。例如,在一些实施例中,方法200、400至600可被实现为计算机软件程序,其被存储于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到电子设备700上。当计算机程序加载到RAM 703并由CPU 701执行时,可以执行上文描述的方法200、400至600的一个或多个操作。备选地,在其他实施例中,CPU 701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法200、400至600的一个或多个动作。需要进一步说明的是,本公开可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,该编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或步骤图描述了本公开的各个方面。应当理解,流程图和/或步骤图的每个方步骤以及流程图和/或步骤图中各方步骤的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给语音交互装置中的处理器、通用计算机、专用计算机或其它可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时,产生了实现流程图和/或步骤图中的一个或多个方步骤中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或步骤图中的一个或多个方步骤中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或步骤图中的一个或多个方步骤中规定的功能/动作。
附图中的流程图和步骤图显示了根据本公开的多个实施例的设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或步骤图中的每个方步骤可以代表一个模块、程序段或指令的一部分,该模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方步骤中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方步骤实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,步骤图和/或流程图中的每个方步骤、以及步骤图和/或流程图中的方步骤的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
以上仅为本公开的可选实施例,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等效替换、改进等,均应包含在本公开的保护范围之内。
Claims (9)
1.一种用于检索基因与肿瘤相关信息的方法,包括:
在已获取的基因与肿瘤相关信息中提取与肿瘤相关联的基因信息和药物信息,以便生成用于注释所提取的基因信息和药物信息的多个文字单元;
针对每个文字单元生成对应的文字单元标签,以便形成文字单元集合,所述文字单元集合包括:多个文字单元和对应的文字单元标签,每个文字单元标签指示标签属性信息、标签值和标签等级;
获取关于文字单元标签的筛选操作信息;
基于所获取的关于文字单元标签的筛选操作信息,确定目标文字单元标签集合;以及
基于检索输入信息和目标文字单元标签集合,针对文字单元集合进行检索,以便至少基于检索结果呈现与检索输入信息相匹配的关于基因与肿瘤的目标信息,
其中所述文字单元标签至少包括第一级文字单元标签和第二级文字单元标签,
其中至少基于检索结果呈现与检索输入信息相匹配的关于基因与肿瘤的目标信息包括:
确定文字单元标签的排序规则;
基于所确定的文字单元标签的排序规则,针对检索结果中的文字单元标签进行排序;以及
按照经排序的文字单元标签的顺序,呈现与经排序的文字单元标签相关联的关于基因与肿瘤的目标信息。
2.根据权利要求1所述的方法,其中所述第一级文字单元标签包括肿瘤类型、基因、基因肿瘤、诊断、预后、药效、药物,所述第二级文字单元标签包括高表达、甲基化。
3.根据权利要求1所述的方法,其中生成用于注释所提取的基因信息和药物信息的多个文字单元包括:
确定所提取的当前基因信息和当前药物信息是否与已提取的基因信息和药物信息相同;
响应于确定所提取的当前基因信息和当前药物信息与已提取的基因信息和药物信息不相同,基于当前基因信息和当前药物信息生成当前文字单元;以及
响应于确定所提取的当前基因信息和当前药物信息与已提取的基因信息和药物信息相同,过滤掉所提取的当前基因信息和当前药物信息,以便确定所提取的下一基因信息和下一药物信息是否与已提取的基因信息和药物信息相同。
4.根据权利要求3所述的方法,其中形成文字单元集合包括:
确定基于当前文字单元所生成的当前文字单元标签与已生成的文字单元标签是否相同;
响应于确定当前文字单元标签与已生成的文字单元标签相同,将当前文字单元和相同的文字单元标签所对应文字单元进行融合;
响应于确定当前文字单元标签与已生成的文字单元标签不相同,计算当前文字单元标签与已生成的文字单元标签的相似度;
确认所计算的相似度是否符合预定条件;以及
响应于确认所计算的相似度符合预定条件,生成融合指示信息,所述融合指示信息指示当前文字单元和相同的文字单元标签所对应文字单元待融合确认。
5.根据权利要求1的方法,其中确定目标文字单元标签集合包括:
获取关于文字单元标签的筛选操作信息所指示的筛选规则设置信息、关于全选操作图标的操作信息和关于排除操作图标的操作信息;
确定筛选规则设置信息是否指示当前标签属性信息被选中;
响应于确定筛选规则设置信息指示当前标签属性信息被选中,确定与该被选中的当前标签属性信息相关联的全选操作图标是否被选中;
响应于确定与该被选中的当前标签属性信息相关联的全选操作图标被选中,确定与该被选中的标签属性信息相关联的排除操作图标是否被选中;
响应于确定与该被选中的标签属性信息相关联的排除操作图标被选中,确定目标文字单元标签集合不包括当前标签属性下的所有文字单元标签;
响应于确定与该被选中的标签属性信息相关联的排除操作图标未被选中,确定目标文字单元标签集合包括当前标签属性下的所有文字单元标签。
6.根据权利要求5的方法,其中确定目标文字单元标签集合还包括:
响应于确定与该被选中的当前标签属性信息相关联的全选操作图标未被选中,确定与该被选中的标签属性信息相关联的排除操作图标是否被选中;
响应于确定与该被选中的标签属性信息相关联的排除操作图标被选中,确定目标文字单元标签集合包括:当前标签属性下的、除了与排除操作图标相关联的标签值之外的其他文字单元标签;以及
响应于确定与该被选中的标签属性信息相关联的排除操作图标未被选中,确定目标文字单元标签集合包括:具有与排除操作图标相关联的标签值的文字单元标签。
7.根据权利要求1所述的方法,其中针对每个文字单元生成对应的文字单元标签包括:
针对当前文字单元确定候选文字单元标签;
将所确定的候选文字单元标签转换为多个关联候选文字单元标签;以及
将所确定的候选文字单元标签和多个关联候选文字单元标签确定为当前文字单元的对应的文字单元标签。
8.一种计算设备,包括:
至少一个处理单元;
至少一个存储器,所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令,所述指令当由所述至少一个处理单元执行时,使得所述设备执行根据权利要求1至7任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被机器执行时实现根据权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210765337.6A CN115186087B (zh) | 2022-07-01 | 2022-07-01 | 检索基因与肿瘤相关信息的方法、设备和计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210765337.6A CN115186087B (zh) | 2022-07-01 | 2022-07-01 | 检索基因与肿瘤相关信息的方法、设备和计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115186087A CN115186087A (zh) | 2022-10-14 |
CN115186087B true CN115186087B (zh) | 2023-11-28 |
Family
ID=83515216
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210765337.6A Active CN115186087B (zh) | 2022-07-01 | 2022-07-01 | 检索基因与肿瘤相关信息的方法、设备和计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115186087B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101551820A (zh) * | 2009-05-13 | 2009-10-07 | 北京四维图新科技股份有限公司 | 兴趣点属性的索引数据库的生成方法和装置 |
CN108763380A (zh) * | 2018-05-18 | 2018-11-06 | 徐庆 | 商标识别检索方法、装置、计算机设备和存储介质 |
CN109686456A (zh) * | 2018-12-26 | 2019-04-26 | 博奥生物集团有限公司 | 一种肿瘤精准用药解读系统及方法 |
CN111639156A (zh) * | 2020-05-13 | 2020-09-08 | 广州国音智能科技有限公司 | 一种基于层级标签的查询方法、装置,设备及存储介质 |
CN111708819A (zh) * | 2020-05-28 | 2020-09-25 | 北京百度网讯科技有限公司 | 用于信息处理的方法、装置、电子设备和存储介质 |
CN112507153A (zh) * | 2021-01-29 | 2021-03-16 | 上海众旦信息科技有限公司 | 用于图像检索的方法、计算设备和计算机存储介质 |
CN114267410A (zh) * | 2022-02-10 | 2022-04-01 | 领星生物科技(上海)有限公司 | 用于确定肿瘤突变负荷的状态的方法、设备和存储介质 |
CN114334078A (zh) * | 2022-03-14 | 2022-04-12 | 至本医疗科技(上海)有限公司 | 用于推荐药物的方法、电子设备和计算机存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11392689B2 (en) * | 2019-03-28 | 2022-07-19 | Crowdstrike, Inc. | Computer-security violation detection using coordinate vectors |
-
2022
- 2022-07-01 CN CN202210765337.6A patent/CN115186087B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101551820A (zh) * | 2009-05-13 | 2009-10-07 | 北京四维图新科技股份有限公司 | 兴趣点属性的索引数据库的生成方法和装置 |
CN108763380A (zh) * | 2018-05-18 | 2018-11-06 | 徐庆 | 商标识别检索方法、装置、计算机设备和存储介质 |
CN109686456A (zh) * | 2018-12-26 | 2019-04-26 | 博奥生物集团有限公司 | 一种肿瘤精准用药解读系统及方法 |
CN111639156A (zh) * | 2020-05-13 | 2020-09-08 | 广州国音智能科技有限公司 | 一种基于层级标签的查询方法、装置,设备及存储介质 |
CN111708819A (zh) * | 2020-05-28 | 2020-09-25 | 北京百度网讯科技有限公司 | 用于信息处理的方法、装置、电子设备和存储介质 |
CN112507153A (zh) * | 2021-01-29 | 2021-03-16 | 上海众旦信息科技有限公司 | 用于图像检索的方法、计算设备和计算机存储介质 |
CN114267410A (zh) * | 2022-02-10 | 2022-04-01 | 领星生物科技(上海)有限公司 | 用于确定肿瘤突变负荷的状态的方法、设备和存储介质 |
CN114334078A (zh) * | 2022-03-14 | 2022-04-12 | 至本医疗科技(上海)有限公司 | 用于推荐药物的方法、电子设备和计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115186087A (zh) | 2022-10-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wei et al. | PubTator central: automated concept annotation for biomedical full text articles | |
Lever et al. | CancerMine: a literature-mined resource for drivers, oncogenes and tumor suppressors in cancer | |
Mirdita et al. | Uniclust databases of clustered and deeply annotated protein sequences and alignments | |
Doughty et al. | Toward an automatic method for extracting cancer-and other disease-related point mutations from the biomedical literature | |
Liu et al. | Doc2Hpo: a web application for efficient and accurate HPO concept curation | |
Chen et al. | Restructured GEO: restructuring Gene Expression Omnibus metadata for genome dynamics analysis | |
Weissenbacher et al. | Knowledge-driven geospatial location resolution for phylogeographic models of virus migration | |
Campos et al. | Egas: a collaborative and interactive document curation platform | |
Lee et al. | AuDis: an automatic CRF-enhanced disease normalization in biomedical text | |
Ozyurt et al. | Resource disambiguator for the web: extracting biomedical resources and their citations from the scientific literature | |
Kaewphan et al. | Wide-scope biomedical named entity recognition and normalization with CRFs, fuzzy matching and character level modeling | |
Ding et al. | pGenN, a gene normalization tool for plant genes and proteins in scientific literature | |
Bouadjenek et al. | Literature consistency of bioinformatics sequence databases is effective for assessing record quality | |
KR20160054785A (ko) | 검색 대상의 관련 키워드를 이용한 검색 방법 및 시스템 | |
Giachelle et al. | Searching for reliable facts over a medical knowledge base | |
KR101839572B1 (ko) | 질병 관련 유전자 관계 분석 장치 및 방법 | |
He et al. | Identifying genes and their interactions from pathway figures and text in biomedical articles | |
CN115186087B (zh) | 检索基因与肿瘤相关信息的方法、设备和计算机存储介质 | |
US20110320466A1 (en) | Methods and systems for filtering search results | |
US11645312B2 (en) | Attribute extraction apparatus and attribute extraction method | |
CN115238064B (zh) | 一种基于聚类的中医医案的关键词提取方法 | |
CN114036256B (zh) | 基于Solr的非结构化文件检索方法、装置、设备及存储介质 | |
Tong et al. | ViMRT: a text-mining tool and search engine for automated virus mutation recognition | |
CA2906297C (en) | Medical research retrieval engine | |
Sequeira et al. | A comparative analysis of data platforms for rare diseases |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |