CN112667781A - 一种恶性肿瘤文献获取方法及装置 - Google Patents
一种恶性肿瘤文献获取方法及装置 Download PDFInfo
- Publication number
- CN112667781A CN112667781A CN202011630994.7A CN202011630994A CN112667781A CN 112667781 A CN112667781 A CN 112667781A CN 202011630994 A CN202011630994 A CN 202011630994A CN 112667781 A CN112667781 A CN 112667781A
- Authority
- CN
- China
- Prior art keywords
- target
- information
- search
- document
- literature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 201000011510 cancer Diseases 0.000 title claims abstract description 24
- 230000014509 gene expression Effects 0.000 claims abstract description 70
- 206010006187 Breast cancer Diseases 0.000 claims abstract description 36
- 208000026310 Breast neoplasm Diseases 0.000 claims abstract description 36
- 238000001914 filtration Methods 0.000 claims abstract description 28
- 238000012216 screening Methods 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 33
- 238000004422 calculation algorithm Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000007637 random forest analysis Methods 0.000 claims description 9
- 238000011160 research Methods 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 9
- 206010028980 Neoplasm Diseases 0.000 claims description 8
- 238000011282 treatment Methods 0.000 claims description 8
- 238000004393 prognosis Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 5
- 108090000623 proteins and genes Proteins 0.000 claims description 5
- 208000024891 symptom Diseases 0.000 claims description 5
- 238000003384 imaging method Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 101001012157 Homo sapiens Receptor tyrosine-protein kinase erbB-2 Proteins 0.000 description 2
- 206010027476 Metastases Diseases 0.000 description 2
- 102100030086 Receptor tyrosine-protein kinase erbB-2 Human genes 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000009401 metastasis Effects 0.000 description 2
- 230000000474 nursing effect Effects 0.000 description 2
- 108700020463 BRCA1 Proteins 0.000 description 1
- 102000036365 BRCA1 Human genes 0.000 description 1
- 101150072950 BRCA1 gene Proteins 0.000 description 1
- 108700020462 BRCA2 Proteins 0.000 description 1
- 102000052609 BRCA2 Human genes 0.000 description 1
- 101150008921 Brca2 gene Proteins 0.000 description 1
- 201000009030 Carcinoma Diseases 0.000 description 1
- 208000037396 Intraductal Noninfiltrating Carcinoma Diseases 0.000 description 1
- 206010073099 Lobular breast carcinoma in situ Diseases 0.000 description 1
- 208000007433 Lymphatic Metastasis Diseases 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 201000005389 breast carcinoma in situ Diseases 0.000 description 1
- 230000000747 cardiac effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000002512 chemotherapy Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 208000028715 ductal breast carcinoma in situ Diseases 0.000 description 1
- 230000004064 dysfunction Effects 0.000 description 1
- 230000002124 endocrine Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000002055 immunohistochemical effect Effects 0.000 description 1
- 206010073095 invasive ductal breast carcinoma Diseases 0.000 description 1
- 201000010985 invasive ductal carcinoma Diseases 0.000 description 1
- 206010073096 invasive lobular breast carcinoma Diseases 0.000 description 1
- 208000019423 liver disease Diseases 0.000 description 1
- 230000005976 liver dysfunction Effects 0.000 description 1
- 201000011059 lobular neoplasia Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002018 overexpression Effects 0.000 description 1
- 238000002638 palliative care Methods 0.000 description 1
- 201000010198 papillary carcinoma Diseases 0.000 description 1
- 230000002980 postoperative effect Effects 0.000 description 1
- 230000035935 pregnancy Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000001959 radiotherapy Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 238000011269 treatment regimen Methods 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
- 230000009278 visceral effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种恶性肿瘤文献获取方法及装置,该方法包括:获取用户输入的搜索语句,并对所述搜索语句进行目标信息解析,将目标信息填入目标格式化模板;所述目标格式化模板包括目标信息以及目标信息之间的关联信息;所述目标信息包括文献特征和乳腺癌特征;针对所述目标格式化模板中的每项目标信息,进行检索词匹配,得到每项目标信息对应的目标检索词;根据所述目标检索词以及所述关联信息,构建目标文献检索表达式;根据所述目标文献检索表达式,从目标数据库组获取初步检索文献;所述目标数据库组是根据目标信息从多个预设数据库组中匹配得到的;将所述初步检索文献输入文献过滤模型中进行文献筛选,得到目标文献。
Description
技术领域
本申请涉及医学文献检索领域,具体而言,涉及一种恶性肿瘤文献获取方法及装置。
背景技术
随着个体化诊疗和精准医学的发展,个体化、精细化分类等的发展进步对临床医生提出了越来越高的要求。随着研究的进展,临床研究数量及所发表相关论文的数量的不断增大,使得临床医生面临的学习压力和挑战也越来越大;尤其是对于乳腺癌临床医学,由于乳腺癌是一种高度异质性的肿瘤,这不仅表现在不同肿瘤之间或同一肿瘤内部之间的差异,也表现在组织病理分型、免疫组化特征分型和基因表达谱的分子分型上的不同(比如luminalA型、luminalB型、HER2过表达型、基底样型等);这些不同亚型乳腺癌都有着各自不同的肿瘤生物学特征及治疗策略,基因表达、突变情况、治疗反应、预后等也都有着很大的不同。这使得临床医生需要了解最新的乳腺癌研究进展并合理应用到临床实践中,以保证临床效果。
现有技术中,是针对不同的文献数据库(比如pubmed、万方数据等)定制检索表达式并进行检索,对检索的文献进行挑选,得到目标相关的文献。这里面的环节包括选词、检索、挑选等均需要手动完成;另外,数据库服务商为了提高检索的质量,往往需要对文献进行标引,标引工作则需要时间和过程,而标引结果仍然存在准确率、覆盖率的问题。并且,检索的过程无法兼顾敏感性和特异性,即检索得到的文献关联性和完整性都无法得到保证,需要人工进行大量的挑选工作。以上原因导致了乳腺癌文献获取过程效率低、质量差、工作量大。
发明内容
有鉴于此,本申请的目的在于提供一种恶性肿瘤文献获取方法及装置,用于解决现有技术中如何提高乳腺癌文献获取的效率和质量的问题。
第一方面,本申请实施例提供了一种恶性肿瘤文献获取方法,该方法包括:
获取用户输入的搜索语句,并对所述搜索语句进行目标信息解析,将目标信息填入目标格式化模板;所述目标格式化模板包括目标信息以及目标信息之间的关联信息;所述目标信息包括文献特征和乳腺癌特征;
针对所述目标格式化模板中的每项目标信息,进行检索词匹配,得到每项目标信息对应的目标检索词;
根据所述目标检索词以及所述关联信息,构建目标文献检索表达式;
根据所述目标文献检索表达式,从目标数据库组获取初步检索文献;所述目标数据库组是根据目标信息从多个预设数据库组中匹配得到的;
将所述初步检索文献输入文献过滤模型中进行文献筛选,得到目标文献。
在一些实施例中,所述文献特征包括文献类型、文献期刊、文献发表时间、文献作者、作者单位、作者国家;
所述乳腺癌特征包括人群、组织学类型、肿瘤分期、分子分型、突变基因、伴随症状、影像、治疗、护理、预后。
在一些实施例中,所述针对所述目标格式化模板中的每项目标信息,进行检索词匹配,得到每项目标信息对应的目标检索词,包括:
针对所述目标格式化模板中的每项目标信息,进行检索词匹配,得到基本检索词;
针对每个所述基本检索词,进行检索词扩展匹配,得到每个目标检索词对应的扩展检索词;所述扩展检索词包括同义词、上位词和下位词;
将每项目标信息对应的基本检索词及对应的扩展检索词确认为该目标信息对应的目标检索词。
在一些实施例中,所述根据所述目标检索词以及所述关联信息,构建目标文献检索表达式,包括:
将每项目标信息对应的所有目标检索词取并集,得到该项目标信息对应的单项检索表达式;
根据所述关联信息,将目标信息对应的单项检索表达式进行所述关联信息对应的组合操作,得到乳腺癌检索表达式;所述组合操作包括取交集和取并集;
将携带有关键信息标记的目标信息取并集,得到关键信息检索表达式;
将所述目标信息中的所有文献特征项取交集,得到文献特征检索表达式;
将所述乳腺癌检索表达式与所述关键信息检索表达式的并集,和所述文献特征检索表达式取交集,得到目标文献检索表达式。
在一些实施例中,在获取用户输入的搜索语句,并对所述搜索语句进行目标信息解析,将目标信息填入目标格式化模板之后,还包括:
基于神经网络算法和随机森林算法构建待训练模型;
以训练文献的标题、摘要、关键词、期刊名称作为输入,研究类型作为输出,对所述待训练模型进行第一训练;
以训练文献的聚类标签、标题、摘要、关键词和期刊名称作为输入,内容主题类型作为输出,对第一训练后的所述待训练模型进行第二训练,得到文献过滤模型。
第二方面,本申请实施例提供了一种恶性肿瘤文献获取装置,该装置包括:
解析模块,用于获取用户输入的搜索语句,并对所述搜索语句进行目标信息解析,将目标信息填入目标格式化模板;所述目标格式化模板包括目标信息以及目标信息之间的关联信息;所述目标信息包括文献特征和乳腺癌特征;
匹配模块,用于针对所述目标格式化模板中的每项目标信息,进行检索词匹配,得到每项目标信息对应的目标检索词;
表达式模块,用于根据所述目标检索词以及所述关联信息,构建目标文献检索表达式;
检索模块,用于根据所述目标文献检索表达式,从目标数据库组获取初步检索文献;所述目标数据库组是根据目标信息从多个预设数据库组中匹配得到的;
筛选模块,用于将所述初步检索文献输入文献过滤模型中进行文献筛选,得到目标文献。
在一些实施例中,所述匹配模块,包括:
匹配单元,用于针对所述目标格式化模板中的每项目标信息,进行检索词匹配,得到基本检索词;
扩展单元,用于针对每个所述基本检索词,进行检索词扩展匹配,得到每个目标检索词对应的扩展检索词;所述扩展检索词包括同义词、上位词和下位词;
确认单元,用于将每项目标信息对应的基本检索词及对应的扩展检索词确认为该目标信息对应的目标检索词。
在一些实施例中,还包括:
构建模块,用于基于神经网络算法和随机森林算法构建待训练模型;以训练文献的标题、摘要、关键词、期刊名称作为输入,研究类型作为输出,对所述待训练模型进行第一训练;以训练文献的聚类标签、标题、摘要、关键词和期刊名称作为输入,内容主题类型作为输出,对第一训练后的所述待训练模型进行第二训练,得到文献过滤模型。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面中任一项所述的方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述第一方面中任一项所述的方法的步骤。
本申请实施例提出的一种恶性肿瘤文献获取方法,通过获取用户输入的搜索语句,对该搜索语句进行解析,将解析到的目标信息填入预先设置创建好的目标格式化模板中,通过对目标格式化模板中的各项目标信息进行检索词匹配,再根据目标信息之间的关联信息将对应的目标检索词进行组合得到目标文献检索表达式,然后通过该目标文献检索表达式从匹配到的数据库中获取初步检索文献,最后通过文献过滤模型,得到目标文献。本申请实施例所提出的一种恶性肿瘤文献获取方法通过对用户的自然语言进行解析,自动匹配检索词,构建检索式,并从匹配到的数据库组中进行检索后再进行文献过滤,提高了文献获取的便捷度,提升了乳腺癌文献获取的效率和准确度。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种恶性肿瘤文献获取方法的流程示意图;
图2为本申请实施例提供的一种检索词匹配方法的流程示意图;
图3为本申请实施例提供的一种检索表达式构建方法的流程示意图;
图4为本申请实施例提供的一种恶性肿瘤文献获取装置的结构示意图;
图5为本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种恶性肿瘤文献获取方法,如图1所示,包括以下步骤:
步骤S101、获取用户输入的搜索语句,并对上述搜索语句进行目标信息解析,将目标信息填入目标格式化模板;上述目标格式化模板包括目标信息以及目标信息之间的关联信息;上述目标信息包括文献特征和乳腺癌特征;
步骤S102、针对上述目标格式化模板中的每项目标信息,进行检索词匹配,得到每项目标信息对应的目标检索词;
步骤S103、根据上述目标检索词以及上述关联信息,构建目标文献检索表达式;
步骤S104、根据上述目标文献检索表达式,从目标数据库组获取初步检索文献;上述目标数据库组是根据目标信息从多个预设数据库组中匹配得到的;
步骤S105、将上述初步检索文献输入文献过滤模型中进行文献筛选,得到目标文献。
具体地,本申请实施例是通过获取用户以自然语言方式输入的搜索语句,再依据目标格式化模板从搜索语句中解析出目标信息。目标格式化模板是一个树状结构的数据模板,第一层为特征类型,分为文献特征和乳腺癌特征两类,往下进行特征细分,目标信息是各分支特征项的具体信息。也可以为用户提供一些预先设置好的具体模板,可供用户直接选用。
在对一条搜索语句的解析中若出现了多个目标信息时,需要标明目标信息之间的关系(合取、析取等),也就是关联信息。
除此之外还会对目标信息中的关键词添加关键信息标记。
将目标信息填入目标格式化模板后,针对目标格式化模板中每一项目标信息进行检索词匹配,该检索词匹配是基于事先建立的检索词词典进行的。在得到目标检索词后再根据关联信息将目标检索词构建成目标文献检索表达式。
为了尽量保证乳腺癌文献的完全获得,文献检索从多个数据库中进行文献获取,但若是使用所有数据库进行检索,所耗费的时间和数据量都会过多,为了提高检索的效率和精准性,本申请实施例预先构建了数据库选择模型,该模型是基于神经网络算法和随机森林算法构成的集成模型,在构建阶段,输入的训练数据是用户的原始需求信息和目标格式化模板中的文献特征、乳腺癌特征、关联信息以及关键信息标记。
该数据库选择模型中存储有多个预设数据库组,数据库选择模型根据目标信息匹配适合的预设数据库组作为目标数据库组。
由于上述目标文献检索表达式是一个格式化的检索表达式,因此,在通过信息爬取或api接口连接目标数据库组中的各个数据库之后,根据各数据库对于符号、字段、格式等的规则,将目标文献检索表达式转换成适用于数据库的格式进行检索,得到初步检索文献。
得到的初步检索文献还可能存在部分相关程度较低的文献,为了进一步提高检索结果的特异性,需要对初步检索文献进行进一步地过滤,通过将初步检索文献输入到文献过滤模型中将相关程度较低文献排除,得到更符合用户需求的目标文献。
考虑到所检索到的文献可能会随着新的文献的发表公开而信息不全面,以上的文献获取步骤,可以预设时间间隔,根据该时间间隔定时重复进行更新检索,以保证检索结果的实时性。
本申请实施例通过对用户的自然语言进行解析,自动匹配检索词,构建检索式,并从匹配到的数据库组中进行检索后再进行文献过滤,提高了文献获取的便捷度,提升了乳腺癌文献获取的效率和准确度。
在一些实施例中,上述文献特征包括文献类型、文献期刊、文献发表时间、文献作者、作者单位、作者国家;
上述乳腺癌特征包括人群、组织学类型、肿瘤分期、分子分型、突变基因、伴随症状、影像、治疗、护理、预后。
具体地,为了有针对性地对乳腺癌医疗文献进行检索,目标格式化模板中需要对每一层的特征进行尽可能详尽地向下细分。
第一层的文献特征下包括了文献类型、文献期刊、文献发表时间、文献作者、作者单位、作者国家等特征;第一层的乳腺癌特征下包括了人群、组织学类型、肿瘤分期、分子分型、突变基因、伴随症状、影像、治疗、护理、预后等特征。
其中,人群又可以分为青年、中年、老年等。
组织学类型可以分为导管内癌、小叶原位癌、导管内乳头状癌、乳头湿疹样乳腺癌、浸润性导管癌、浸润性特殊癌、浸润性小叶癌等。
肿瘤分期可以分为I、II、III、IV等。
分子分型可以分为HER2、ER、PR、Ki-67等。
突变基因可以分为BRCA1、BRCA2等。
治疗可以分为手术、化疗、放疗、内分泌治疗、传统医学、姑息治疗等。
伴随症状可以分为内脏危象、心脏功能异常、肝脏功能异常、妊娠、脑转移、骨转移、淋巴转移等。
预后可以分为随访、生育、康复等。
影像可以分为超声、X线、CT、MRI等。
护理可以分为心理、术后护理等。
按照以上的细分方式,形成目标格式化模板中的树状结构。
在一些实施例中,上述步骤S102、针对上述目标格式化模板中的每项目标信息,进行检索词匹配,得到每项目标信息对应的目标检索词,如图2所示,包括:
步骤S1021、针对上述目标格式化模板中的每项目标信息,进行检索词匹配,得到基本检索词;
步骤S1022、针对每个上述基本检索词,进行检索词扩展匹配,得到每个目标检索词对应的扩展检索词;上述扩展检索词包括同义词、上位词和下位词;
步骤S1023、将每项目标信息对应的基本检索词及对应的扩展检索词确认为该目标信息对应的目标检索词。
具体地,预先建立的检索词词典中除了词语ID、词语名称和词语语言外,还包含了词语关系、关系词语ID和关系词语名称。
这里的词语关系、关系词语ID和关系词语名称的作用是考虑到同一词汇在不同文献中可能以同义词、上位词或下位词的形式出现,若不对检索词进行扩展,可能会漏检文献。
通过检索词词典对每项目标信息进行检索词匹配后,得到的是基本检索词,再通过该基本检索词进行扩展检索词的匹配,就可扩大检索词的覆盖程度。
根据词语关系,扩展词分为三类:同义词、上位词和下位词。
针对一项目标信息的基本检索词进行扩展匹配后,若匹配得到同义词,则将所有同义词作为该项目标信息的同义词扩展集合,以基本检索词为键,同义词为值的方式进行存储;若匹配得到上位词或下位词,则将所有上位词或下位词按照预设的扩展深度进行筛选,将扩展深度内的上位词作为该项目标信息的上位词扩展集合,将扩展深度内的下位词作为该项目标信息的下位词扩展集合,同样以基本检索词为键,上位词或下位词为值的方式进行存储。基本检索词和扩展检索词共同组成目标检索词。
在一些实施例中,上述步骤S103、根据上述目标检索词以及上述关联信息,构建目标文献检索表达式,如图3所示,包括:
步骤S1031、将每项目标信息对应的所有目标检索词取并集,得到该项目标信息对应的单项检索表达式;
步骤S1032、根据上述关联信息,将目标信息对应的单项检索表达式进行上述关联信息对应的组合操作,得到乳腺癌检索表达式;上述组合操作包括取交集和取并集;
步骤S1033、将携带有关键信息标记的目标信息取并集,得到关键信息检索表达式;
步骤S1034、将上述目标信息中的所有文献特征项取交集,得到文献特征检索表达式;
步骤S1035、将上述乳腺癌检索表达式与上述关键信息检索表达式的并集,和上述文献特征检索表达式取交集,得到目标文献检索表达式。
具体地,对目标检索词中每项目标信息对应的基本检索词和扩展检索词,用∪进行连接,得到每一项的检索表达式。
然后根据目标信息之间的关联信息,构建乳腺癌检索表达式。如果目标信息之间的关联信息为合取,则用∩连接两项目标信息对应的检索表达式;如果目标信息之间的关联信息为析取,则用∪连接两项目标信息对应的检索表达式,由以上方法得到乳腺癌检索表达式。
对携带有关键信息标记的目标信息,用∪连接,得到关键信息检索表达式。
对目标信息中的所有文献特征项,用∩连接,得到文献特征检索表达式。
最后,用∪连接上述的乳腺癌检索表达式和关键信息检索表达式后,再用∩与文献特征检索表达式进行组合,得到最终的目标文献检索表达式。
在一些实施例中,在步骤S101获取用户输入的搜索语句,并对上述搜索语句进行目标信息解析,将目标信息填入目标格式化模板之后,还包括:
步骤201、基于神经网络算法和随机森林算法构建待训练模型;
步骤202、以训练文献的标题、摘要、关键词、期刊名称作为输入,研究类型作为输出,对上述待训练模型进行第一训练;
步骤203、以训练文献的聚类标签、标题、摘要、关键词和期刊名称作为输入,内容主题类型作为输出,对第一训练后的上述待训练模型进行第二训练,得到文献过滤模型。
具体地,文献过滤模型由基于神经网络、随机森林算法构成的集成模型实现,在文献过滤模型的构建过程中,其因变量分为两种,一种是数量有限、相对比较明确的变量,比如文献特征中的研究类型,另一种是数量较多、不那么明确的变量,比如内容主题类型。
对于数量有限、相对比较明确的变量,模型输入包括文献的标题、摘要、关键词、期刊名称等;对于数量较多、不那么明确的变量,模型输入包括标题、摘要、关键词的聚类标签以及文献的标题、摘要、关键词、期刊名称等。
对两种因变量通过不同的训练数据对基于神经网络算法和随机森林算法构建待训练模型进行训练后,就可得到文献过滤模型。
该文献过滤模型中包含了多个文献过滤子模型,根据用户的原始需求信息或用户自行选择设置,调用对应的文献过滤子模型对初步检索文献进行过滤。
若用户所需的过滤需求未包含在上述文献过滤模型中时,则本申请实施例提供一种基于主动学习技术的快速构建模型途径,该快速构建模型途径所生成的临时文献过滤子模型可以满足用户的基本过滤需求。
以上所有文献过滤子模型均可根据用户在使用过程中的反馈数据,自动定期进行离线迭代优化。
本申请实施例还提供了一种恶性肿瘤文献获取装置,如图4所示,包括:
解析模块30,用于获取用户输入的搜索语句,并对上述搜索语句进行目标信息解析,将目标信息填入目标格式化模板;上述目标格式化模板包括目标信息以及目标信息之间的关联信息;上述目标信息包括文献特征和乳腺癌特征;
匹配模块31,用于针对上述目标格式化模板中的每项目标信息,进行检索词匹配,得到每项目标信息对应的目标检索词;
表达式模块32,用于根据上述目标检索词以及上述关联信息,构建目标文献检索表达式;
检索模块33,用于根据上述目标文献检索表达式,从目标数据库组获取初步检索文献;上述目标数据库组是根据目标信息从多个预设数据库组中匹配得到的;
筛选模块34,用于将上述初步检索文献输入文献过滤模型中进行文献筛选,得到目标文献。
在一些实施例中,上述匹配模块31,包括:
匹配单元311,用于针对上述目标格式化模板中的每项目标信息,进行检索词匹配,得到基本检索词;
扩展单元312,用于针对每个上述基本检索词,进行检索词扩展匹配,得到每个目标检索词对应的扩展检索词;上述扩展检索词包括同义词、上位词和下位词;
确认单元313,用于将每项目标信息对应的基本检索词及对应的扩展检索词确认为该目标信息对应的目标检索词。
在一些实施例中,该装置还包括:
构建模块35,用于基于神经网络算法和随机森林算法构建待训练模型;以训练文献的标题、摘要、关键词、期刊名称作为输入,研究类型作为输出,对上述待训练模型进行第一训练;以训练文献的聚类标签、标题、摘要、关键词和期刊名称作为输入,内容主题类型作为输出,对第一训练后的上述待训练模型进行第二训练,得到文献过滤模型。
对应于图1中的一种恶性肿瘤文献获取方法,本申请实施例还提供了一种计算机设备400,如图5所示,该设备包括存储器401、处理器402及存储在该存储器401上并可在该处理器402上运行的计算机程序,其中,上述处理器402执行上述计算机程序时实现上述一种恶性肿瘤文献获取方法。
具体地,上述存储器401和处理器402能够为通用的存储器和处理器,这里不做具体限定,当处理器402运行存储器401存储的计算机程序时,能够执行上述一种恶性肿瘤文献获取方法,解决了现有技术中如何提高乳腺癌文献获取的效率和质量的问题。
对应于图1中的一种恶性肿瘤文献获取方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述一种恶性肿瘤文献获取方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述一种恶性肿瘤文献获取方法,解决了现有技术中如何提高乳腺癌文献获取的效率和质量的问题,本申请实施例提出的一种恶性肿瘤文献获取方法,通过获取用户输入的搜索语句,对该搜索语句进行解析,将解析到的目标信息填入预先设置创建好的目标格式化模板中,通过对目标格式化模板中的各项目标信息进行检索词匹配,再根据目标信息之间的关联信息将对应的目标检索词进行组合得到目标文献检索表达式,然后通过该目标文献检索表达式从匹配到的数据库中获取初步检索文献,最后通过文献过滤模型,得到目标文献。本申请实施例所提出的一种恶性肿瘤文献获取方法通过对用户的自然语言进行解析,自动匹配检索词,构建检索式,并从匹配到的数据库组中进行检索后再进行文献过滤,提高了文献获取的便捷度,提升了乳腺癌文献获取的效率和准确度。
在本申请所提供的实施例中,应该理解到,所揭露方法和装置,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种恶性肿瘤文献获取方法,其特征在于,包括:
获取用户输入的搜索语句,并对所述搜索语句进行目标信息解析,将目标信息填入目标格式化模板;所述目标格式化模板包括目标信息以及目标信息之间的关联信息;所述目标信息包括文献特征和乳腺癌特征;
针对所述目标格式化模板中的每项目标信息,进行检索词匹配,得到每项目标信息对应的目标检索词;
根据所述目标检索词以及所述关联信息,构建目标文献检索表达式;
根据所述目标文献检索表达式,从目标数据库组获取初步检索文献;所述目标数据库组是根据目标信息从多个预设数据库组中匹配得到的;
将所述初步检索文献输入文献过滤模型中进行文献筛选,得到目标文献。
2.如权利要求1所述的方法,其特征在于,所述文献特征包括文献类型、文献期刊、文献发表时间、文献作者、作者单位、作者国家;
所述乳腺癌特征包括人群、组织学类型、肿瘤分期、分子分型、突变基因、伴随症状、影像、治疗、护理、预后。
3.如权利要求1所述的方法,其特征在于,所述针对所述目标格式化模板中的每项目标信息,进行检索词匹配,得到每项目标信息对应的目标检索词,包括:
针对所述目标格式化模板中的每项目标信息,进行检索词匹配,得到基本检索词;
针对每个所述基本检索词,进行检索词扩展匹配,得到每个目标检索词对应的扩展检索词;所述扩展检索词包括同义词、上位词和下位词;
将每项目标信息对应的基本检索词及对应的扩展检索词确认为该目标信息对应的目标检索词。
4.如权利要求3所述的方法,其特征在于,所述根据所述目标检索词以及所述关联信息,构建目标文献检索表达式,包括:
将每项目标信息对应的所有目标检索词取并集,得到该项目标信息对应的单项检索表达式;
根据所述关联信息,将目标信息对应的单项检索表达式进行所述关联信息对应的组合操作,得到乳腺癌检索表达式;所述组合操作包括取交集和取并集;
将携带有关键信息标记的目标信息取并集,得到关键信息检索表达式;
将所述目标信息中的所有文献特征项取交集,得到文献特征检索表达式;
将所述乳腺癌检索表达式与所述关键信息检索表达式的并集,和所述文献特征检索表达式取交集,得到目标文献检索表达式。
5.如权利要求1所述的方法,其特征在于,在获取用户输入的搜索语句,并对所述搜索语句进行目标信息解析,将目标信息填入目标格式化模板之后,还包括:
基于神经网络算法和随机森林算法构建待训练模型;
以训练文献的标题、摘要、关键词、期刊名称作为输入,研究类型作为输出,对所述待训练模型进行第一训练;
以训练文献的聚类标签、标题、摘要、关键词和期刊名称作为输入,内容主题类型作为输出,对第一训练后的所述待训练模型进行第二训练,得到文献过滤模型。
6.一种恶性肿瘤文献获取装置,其特征在于,包括:
解析模块,用于获取用户输入的搜索语句,并对所述搜索语句进行目标信息解析,将目标信息填入目标格式化模板;所述目标格式化模板包括目标信息以及目标信息之间的关联信息;所述目标信息包括文献特征和乳腺癌特征;
匹配模块,用于针对所述目标格式化模板中的每项目标信息,进行检索词匹配,得到每项目标信息对应的目标检索词;
表达式模块,用于根据所述目标检索词以及所述关联信息,构建目标文献检索表达式;
检索模块,用于根据所述目标文献检索表达式,从目标数据库组获取初步检索文献;所述目标数据库组是根据目标信息从多个预设数据库组中匹配得到的;
筛选模块,用于将所述初步检索文献输入文献过滤模型中进行文献筛选,得到目标文献。
7.如权利要求6所述的装置,其特征在于,所述匹配模块,包括:
匹配单元,用于针对所述目标格式化模板中的每项目标信息,进行检索词匹配,得到基本检索词;
扩展单元,用于针对每个所述基本检索词,进行检索词扩展匹配,得到每个目标检索词对应的扩展检索词;所述扩展检索词包括同义词、上位词和下位词;
确认单元,用于将每项目标信息对应的基本检索词及对应的扩展检索词确认为该目标信息对应的目标检索词。
8.如权利要求6所述的装置,其特征在于,还包括:
构建模块,用于基于神经网络算法和随机森林算法构建待训练模型;以训练文献的标题、摘要、关键词、期刊名称作为输入,研究类型作为输出,对所述待训练模型进行第一训练;以训练文献的聚类标签、标题、摘要、关键词和期刊名称作为输入,内容主题类型作为输出,对第一训练后的所述待训练模型进行第二训练,得到文献过滤模型。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1-5中任一项所述的方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行上述权利要求1-5中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011630994.7A CN112667781A (zh) | 2020-12-31 | 2020-12-31 | 一种恶性肿瘤文献获取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011630994.7A CN112667781A (zh) | 2020-12-31 | 2020-12-31 | 一种恶性肿瘤文献获取方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112667781A true CN112667781A (zh) | 2021-04-16 |
Family
ID=75413036
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011630994.7A Pending CN112667781A (zh) | 2020-12-31 | 2020-12-31 | 一种恶性肿瘤文献获取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112667781A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113220867A (zh) * | 2021-05-07 | 2021-08-06 | 湖南通远网络股份有限公司 | 一种基于人工智能的全平台文献自动检索系统 |
CN114969391A (zh) * | 2022-07-29 | 2022-08-30 | 华中科技大学同济医学院附属协和医院 | 文章数据搜索方法及装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1744080A (zh) * | 2005-09-27 | 2006-03-08 | 南方医科大学 | 一种与特定功能相关的基因信息检索系统及用于该系统的检索词数据库的构建方法 |
CN106055540A (zh) * | 2016-06-01 | 2016-10-26 | 比美特医护在线(北京)科技有限公司 | 一种数据处理方法及装置 |
CN106682209A (zh) * | 2016-12-30 | 2017-05-17 | 吉林大学 | 一种跨语言科技文献检索方法及系统 |
CN106933846A (zh) * | 2015-12-30 | 2017-07-07 | 中国医学科学院医学信息研究所 | 肿瘤相关科学文献和科学数据的非结构化整合分析方法 |
CN107220506A (zh) * | 2017-06-05 | 2017-09-29 | 东华大学 | 基于深度卷积神经网络的乳腺癌风险评估分析系统 |
CN109739964A (zh) * | 2018-12-27 | 2019-05-10 | 北京拓尔思信息技术股份有限公司 | 知识数据提供方法、装置、电子设备和存储介质 |
CN110188186A (zh) * | 2019-04-24 | 2019-08-30 | 平安科技(深圳)有限公司 | 医疗领域的内容推荐方法、电子装置、设备及存储介质 |
CN110570905A (zh) * | 2019-07-22 | 2019-12-13 | 中国人民解放军总医院 | 组学数据分析平台的构建方法、装置和计算机设备 |
WO2020074023A1 (zh) * | 2018-10-12 | 2020-04-16 | 北京大学第三医院 | 基于深度学习的医学文献中关键句筛选方法及装置 |
CN111984851A (zh) * | 2020-09-03 | 2020-11-24 | 平安国际智慧城市科技股份有限公司 | 医学资料搜索方法、装置、电子装置及存储介质 |
-
2020
- 2020-12-31 CN CN202011630994.7A patent/CN112667781A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1744080A (zh) * | 2005-09-27 | 2006-03-08 | 南方医科大学 | 一种与特定功能相关的基因信息检索系统及用于该系统的检索词数据库的构建方法 |
CN106933846A (zh) * | 2015-12-30 | 2017-07-07 | 中国医学科学院医学信息研究所 | 肿瘤相关科学文献和科学数据的非结构化整合分析方法 |
CN106055540A (zh) * | 2016-06-01 | 2016-10-26 | 比美特医护在线(北京)科技有限公司 | 一种数据处理方法及装置 |
CN106682209A (zh) * | 2016-12-30 | 2017-05-17 | 吉林大学 | 一种跨语言科技文献检索方法及系统 |
CN107220506A (zh) * | 2017-06-05 | 2017-09-29 | 东华大学 | 基于深度卷积神经网络的乳腺癌风险评估分析系统 |
WO2020074023A1 (zh) * | 2018-10-12 | 2020-04-16 | 北京大学第三医院 | 基于深度学习的医学文献中关键句筛选方法及装置 |
CN109739964A (zh) * | 2018-12-27 | 2019-05-10 | 北京拓尔思信息技术股份有限公司 | 知识数据提供方法、装置、电子设备和存储介质 |
CN110188186A (zh) * | 2019-04-24 | 2019-08-30 | 平安科技(深圳)有限公司 | 医疗领域的内容推荐方法、电子装置、设备及存储介质 |
CN110570905A (zh) * | 2019-07-22 | 2019-12-13 | 中国人民解放军总医院 | 组学数据分析平台的构建方法、装置和计算机设备 |
CN111984851A (zh) * | 2020-09-03 | 2020-11-24 | 平安国际智慧城市科技股份有限公司 | 医学资料搜索方法、装置、电子装置及存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113220867A (zh) * | 2021-05-07 | 2021-08-06 | 湖南通远网络股份有限公司 | 一种基于人工智能的全平台文献自动检索系统 |
CN114969391A (zh) * | 2022-07-29 | 2022-08-30 | 华中科技大学同济医学院附属协和医院 | 文章数据搜索方法及装置 |
CN114969391B (zh) * | 2022-07-29 | 2022-11-18 | 华中科技大学同济医学院附属协和医院 | 文章数据搜索方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111414393B (zh) | 一种基于医学知识图谱的语义相似病例检索方法及设备 | |
CN104516942B (zh) | 概念驱动的自动分节标识 | |
Wu et al. | Ranking gene-drug relationships in biomedical literature using latent dirichlet allocation | |
CN109376352B (zh) | 一种基于word2vec和语义相似度的专利文本建模方法 | |
CN109785927A (zh) | 基于互联网一体化医疗平台的临床文档结构化处理方法 | |
Miwa et al. | A method for integrating and ranking the evidence for biochemical pathways by mining reactions from text | |
GB2569952A (en) | Method and system for identifying key terms in digital document | |
Cao et al. | Multi-information source hin for medical concept embedding | |
CN112667781A (zh) | 一种恶性肿瘤文献获取方法及装置 | |
Warikoo et al. | LPTK: a linguistic pattern-aware dependency tree kernel approach for the BioCreative VI CHEMPROT task | |
CN113161001A (zh) | 一种基于改进lda的过程路径挖掘方法 | |
CN112035757A (zh) | 医疗瀑布流推送方法、装置、设备及存储介质 | |
Bijari et al. | Assisted neuroscience knowledge extraction via machine learning applied to neural reconstruction metadata on NeuroMorpho. Org | |
Maulana et al. | The Scientific Progress and Prospects of Artificial Intelligence for Cancer Detection: A Bibliometric Analysis | |
CN111460173B (zh) | 一种甲状腺癌的疾病本体模型的构建方法 | |
CN113343680A (zh) | 一种基于多类型病历文本的结构化信息提取方法 | |
CN116340544B (zh) | 一种基于知识图谱的中医药古籍可视分析方法与系统 | |
Rahaman | Discovering new trends & connections: current applications of biomedical text mining | |
Zhang et al. | Aggregating large-scale databases for PubMed author name disambiguation | |
JP5269399B2 (ja) | 構造化文書検索装置、方法およびプログラム | |
CN112735584B (zh) | 一种恶性肿瘤诊疗辅助决策生成方法及装置 | |
Marchesin et al. | Building a large gene expression-cancer knowledge base with limited human annotations | |
CN114400099A (zh) | 疾病信息挖掘和检索方法、装置、电子设备和存储介质 | |
Johnson et al. | Modeling medical content for automated summarization | |
Izquierdo et al. | A platform for keyword search and its application for covid-19 pandemic data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |