CN114255877A - 靶点信息挖掘和检索方法、装置、电子设备和存储介质 - Google Patents
靶点信息挖掘和检索方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN114255877A CN114255877A CN202111478805.3A CN202111478805A CN114255877A CN 114255877 A CN114255877 A CN 114255877A CN 202111478805 A CN202111478805 A CN 202111478805A CN 114255877 A CN114255877 A CN 114255877A
- Authority
- CN
- China
- Prior art keywords
- target
- information
- target point
- development
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 95
- 238000005065 mining Methods 0.000 title claims abstract description 91
- 238000003860 storage Methods 0.000 title abstract description 14
- 239000003814 drug Substances 0.000 claims abstract description 288
- 238000011161 development Methods 0.000 claims abstract description 115
- 238000012827 research and development Methods 0.000 claims abstract description 106
- 229940079593 drug Drugs 0.000 claims description 104
- 238000011160 research Methods 0.000 claims description 41
- 238000012360 testing method Methods 0.000 claims description 38
- 238000012216 screening Methods 0.000 claims description 14
- 230000009466 transformation Effects 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 abstract description 4
- 238000011156 evaluation Methods 0.000 description 36
- 238000004590 computer program Methods 0.000 description 11
- 239000003596 drug target Substances 0.000 description 10
- 238000004519 manufacturing process Methods 0.000 description 8
- 239000002547 new drug Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000001502 supplementing effect Effects 0.000 description 5
- 239000000725 suspension Substances 0.000 description 5
- 238000013145 classification model Methods 0.000 description 4
- 238000009509 drug development Methods 0.000 description 4
- 206010059866 Drug resistance Diseases 0.000 description 3
- 239000002552 dosage form Substances 0.000 description 3
- 238000007876 drug discovery Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008676 import Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 241000208340 Araliaceae Species 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 241000270295 Serpentes Species 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 230000002354 daily effect Effects 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000007877 drug screening Methods 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- 229940042040 innovative drug Drugs 0.000 description 2
- 238000009377 nuclear transmutation Methods 0.000 description 2
- 239000002674 ointment Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 201000009862 superficial mycosis Diseases 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 102000004190 Enzymes Human genes 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000857 drug effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000000265 homogenisation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- PCIUEQPBYFRTEM-UHFFFAOYSA-N perfluorodecanoic acid Chemical compound OC(=O)C(F)(F)C(F)(F)C(F)(F)C(F)(F)C(F)(F)C(F)(F)C(F)(F)C(F)(F)C(F)(F)F PCIUEQPBYFRTEM-UHFFFAOYSA-N 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biotechnology (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- Crystallography & Structural Chemistry (AREA)
- Medicinal Chemistry (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Pharmacology & Pharmacy (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- General Physics & Mathematics (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种靶点信息挖掘和检索方法、装置、电子设备和存储介质,其中靶点信息挖掘方法包括:获取与转化医学相关的目标文献,并确定目标文献对应的靶点和目标文献针对对应靶点的研发阶段;基于靶点对应的各目标文献的研发阶段和发表时间,确定靶点的研发里程碑信息;基于靶点的研发里程碑信息,构建靶点信息集合。本发明实施例提供的靶点信息挖掘和检索方法、装置、电子设备和存储介质,通过对目标文献进行文本分析,得到目标文献对应的靶点和靶点的研发里程碑信息对靶点信息进行挖掘,并以此构建靶点信息集合。在实现全面、可靠的靶点信息挖掘的同时,有效提高了靶点信息挖掘的实现效率,降低了靶点信息挖掘的成本。
Description
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种靶点信息挖掘和检索方法、装置、电子设备和存储介质。
背景技术
药物靶点是指存在于组织细胞内外与药物相互作用,并赋予药物效应的特定分子,大多数为蛋白质,包括多种受体、酶等。现代新药研究与开发的关键一环是选择确定新颖的有效药物靶点。为此,医药企业需要持续跟踪药物靶点的研究动态,及时捕获符合企业目标阶段的药物靶点。
目前,传统的针对药物靶点信息的挖掘多是通过人工整理实现的,比如,药企工作人员阅读最新的医药文献来保持对靶点信息的跟踪。人工整理的方式费时费力,且受限于数据完整性或个人认知,导致挖掘所得的靶点信息可靠性和准确性较差。
发明内容
本发明提供一种靶点信息挖掘和检索方法、装置、电子设备和存储介质,用以解决现有的靶点信息挖掘需要人工整理,费时费力且可靠性较差的问题。
本发明提供一种靶点信息挖掘方法,包括:
获取与转化医学相关的目标文献,并确定所述目标文献对应的靶点和所述目标文献针对对应靶点的研发阶段;
基于所述靶点对应的各目标文献的研发阶段和发表时间,确定所述靶点的研发里程碑信息;
基于所述靶点的研发里程碑信息,构建靶点信息集合。
根据本发明提供的一种靶点信息挖掘方法,所述确定所述目标文献对应的靶点,包括:
对所述目标文献的标题和/或摘要进行实体识别,得到所述目标文献对应的靶点。
根据本发明提供的一种靶点信息挖掘方法,所述对所述目标文献的标题和/或摘要进行实体识别,得到所述目标文献对应的靶点,包括:
对所述目标文献的标题进行实体识别,若在所述标题中识别得到药品实体和/或靶点实体,则基于在所述标题中识别得到的药品实体和/或靶点实体确定所述目标文献对应的药品实体和/或靶点实体;
若在所述标题中未识别到药品实体和靶点实体,则对所述目标文献的摘要进行实体识别,并基于在所述摘要中识别得到的药品实体和/或靶点实体确定所述目标文献对应的药品实体和/或靶点实体;
基于所述目标文献对应的药品实体和/或靶点实体,确定所述目标文献对应的靶点。
根据本发明提供的一种靶点信息挖掘方法,所述基于在所述摘要中识别得到的药品实体和/或靶点实体确定所述目标文献对应的靶点,包括:
基于在所述摘要中识别得到的药品实体和/或靶点实体,以及药品实体在所述摘要中出现的次数和/或靶点实体在所述摘要中出现的次数,确定所述目标文献对应的药品实体和/或靶点实体。
根据本发明提供的一种靶点信息挖掘方法,所述基于所述目标文献对应的药品实体和/或靶点实体,确定所述目标文献对应的靶点,包括:
若存在对应的靶点实体,则基于靶点字典对所述靶点实体进行标准化,得到所述目标文献对应的靶点,若在所述靶点字典中未匹配到所述靶点实体,则将所述靶点实体添加至所述靶点字典,并推送至用户终端;
若存在对应的药品实体,则基于药品字典对所述药品实体进行标准化,得到所述目标文献对应的药品,并基于目标文献对应的药品和靶点之间的关系,补充药品与靶点关系图谱,若在所述药品字典中未匹配到所述药品实体,则将所述药品实体添加至所述药品字典;
若不存在对应的靶点实体但存在对应的药品实体,则基于预设的药品与靶点关系图谱,确定所述目标文献对应的靶点。
根据本发明提供的一种靶点信息挖掘方法,所述基于所述靶点对应的各目标文献的研发阶段和发表时间,确定所述靶点的研发里程碑信息,包括:
基于所述靶点在各研发阶段下对应的目标文献的发表时间,确定所述靶点在各研发阶段下的文献最早发表时间;
基于所述靶点在各研发阶段下的文献最早发表时间,确定所述靶点的研发里程碑信息。
根据本发明提供的一种靶点信息挖掘方法,所述获取与转化医学相关的目标文献,包括:
从目标范畴里获取与转化医学相关的目标文献,所述目标范畴是基于各文献的发表期刊影响因子和/或各研究机构的排名确定的。
根据本发明提供的一种靶点信息挖掘方法,确定所述目标文献针对对应靶点的研发阶段,之后还包括:
若所述目标文献针对对应靶点的研发阶段,在所述靶点的研发里程碑信息示出的研发阶段之后,则生成所述靶点的里程碑更新信息,并推送至用户终端。
本发明还提供一种靶点信息检索方法,包括:
接收用户终端发送的目标靶点;
从靶点信息集合中筛选得到所述目标靶点对应的靶点研发里程碑信息并返回所述用户终端,其中,所述靶点信息集合是基于上述任一种所述的靶点信息挖掘方法确定的。
根据本发明提供的一种靶点信息检索方法,所述接收用户终端发送的目标靶点,之后还包括:
获取所述目标靶点对应的药品的最高研发进度并返回所述用户终端,所述目标靶点对应的药品的最高研发进度是基于所述药品的上市信息、申报信息和临床试验信息中至少一种确定的。
本发明还提供一种靶点信息挖掘装置,包括:
靶点和研发阶段确定单元,用于获取与转化医学相关的目标文献,并确定所述目标文献对应的靶点和所述目标文献针对对应靶点的研发阶段;
研发里程碑信息确定单元,用于基于所述靶点对应的各目标文献的研发阶段和发表时间,确定所述靶点的研发里程碑信息;
靶点信息集合构建单元,用于基于所述靶点的研发里程碑信息,构建靶点信息集合。
本发明还提供一种靶点信息检索装置,包括:
目标靶点接收单元,用于接收用户终端发送的目标靶点;
里程碑信息筛选单元,用于从靶点信息集合中筛选得到所述目标靶点对应的靶点研发里程碑信息并返回所述用户终端,其中,所述靶点信息集合是基于上述任一项所述的靶点信息挖掘方法确定的。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述靶点信息挖掘或检索方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述靶点信息挖掘或检索方法的步骤。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述靶点信息挖掘或检索方法的步骤。
本发明提供的靶点信息挖掘和检索方法、装置、电子设备和存储介质,通过对与转化医学相关的目标文献进行文本分析,得到目标文献对应的靶点和靶点的研发里程碑信息对靶点信息进行挖掘,并以此构建靶点信息集合。在实现全面、可靠的靶点信息挖掘的同时,有效提高了靶点信息挖掘的实现效率,降低了靶点信息挖掘的成本。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的靶点信息挖掘方法的流程示意图;
图2是本发明提供的靶点信息检索方法的流程示意图;
图3是本发明提供的靶点信息挖掘装置的结构示意图;
图4是本发明提供的靶点信息检索装置的结构示意图;
图5是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
随着现代分子生物学技术的发展和人类基因组计划的完成,出现了大量可供治疗干预的新型分子靶点,药物靶点的筛选已经成了新药研发中至关重要的一环。
另外,并非所有的靶点都能够成为与疾病有关的有效靶点,已知大量的靶点并不具有良好的成药性而造成新药研发失败。一般来说,当一个新的靶点被发现,还需要经过确认和试验等一系列过程,其成药性与价值才能被不断确认和发掘。其次,一个靶点的新药在临床上被大量使用后,往往也会产生耐药,这时研发下一代抗耐药药物的需求与时间窗也随之而来。
随着靶点成药性与价值的不断被确认,其研发成功率不断提高,大量的药企会涌入这个靶点赛道,进而造成研发竞争的拥挤。当然,后续的药企即使研发成功,也往往不会获得与先行者相当的回报。
因此,对于不同类型的医药企业,会根据自身实力与竞争需求,筛选不同确定性或成功率的靶点开展药物研发。尤其对国内一些制药企业,参与新药研发的经验较少,往往会选择初步临床验证阶段的靶点,开始跟随研发。研发越晚,意味着同质化竞争越激烈,未来潜在收益越低。
因此,企业需要持续跟踪全球药物靶点的研究动态,及时捕获符合企业目标阶段的药物靶点。当一个靶点研究进入某个新阶段,企业发现后,会第一时间启动该靶点的药物筛选和研发工作,以争取先于更多竞争对手。
传统上,企业有专门情报部门来跟踪全球医药文献,每天阅读大量的最新文献来保持对靶点信息的跟踪。然而,每天产生的文献数量是海量的,需要高度专业的人员和较大规模团队才有可能保持及时跟踪。以PUBMED文献为例,目前共有文献约4000万篇,完全靠人力保持全面的跟踪几乎是不现实的,也难以保持时效性。
综上,目前亟需一种高效、敏捷并且客观可靠的靶点信息挖掘方法,从而帮助药企持续跟踪药物靶点的研究动态,及时获取符合企业目标阶段的药物靶点信息,为新药研发提供参考。
针对上述问题,本发明实施例提供一种靶点信息挖掘方法。图1是本发明提供的靶点信息挖掘方法的流程示意图,如图1所示,该方法包括:
步骤110,获取与转化医学相关的目标文献,并确定目标文献对应的靶点和目标文献针对对应靶点的研发阶段。
具体地,针对靶点信息的挖掘方法,可以从与转化医学相关的目标文献入手,通过分析目标文献中记载的研究成果实现。
此处,转化医学是医学研究的一个分支,试图在基础研究和临床医疗之间建立更直接的联系。在药物研发过程中,转化医学的研究是将实验室研发的药物带到患者病床边,把基础研究获得的知识成果快速转化为临床和公共卫生方面的防治的关键。与转化医学相关的目标文献可以反映创新药物所处的转化医学研究阶段,与药物研发的最终结局高度相关。
目标文献可以从全球出版商科学出版物出版平台(例如,转化医学杂志等)、各类文献数据库(例如,PubMed、Web of Science等)或学术会议官网中的学术会议观点论著信息中获取。
获取到目标文献后,对目标文献进行信息抽取,即可得到目标文献对应的靶点和目标文献针对对应靶点的研发阶段。此处,目标文献对应的靶点即目标文献研究的药物靶点,该靶点可以是目前已经发现的靶点,也可以是首次公开的新靶点。如果是首次公开的新靶点,则可以将新靶点相关的信息及时通知药企,为新药开发提供参考。通常情况下一篇目标文献对应的靶点只有一个,由于研究机构众多,一个靶点可以对应多篇目标文献。
针对目标文献对应的靶点信息的挖掘,可以通过实体识别、规则匹配等方式实现,本发明实施例对此不作具体限定。
目标文献针对对应靶点的研发阶段是指针对该靶点,目标文献公开的研究成果所处的转化医学研究阶段,可以首先对目标文献进行文本分类,此处的文本分类可以是将目标文献的摘要进行分类,得到目标文献揭示的研究成果的分类。然后将目标文献揭示的研究成果与各研发阶段对应的研究成果标准进行匹配,得到该目标文献针对对应靶点的研发阶段。研发阶段通常可以包括遗传学、靶点发现、结构确认、药物发现、临床前验证、初步临床验证和发生耐药这几个阶段。
目标文献针对对应靶点的研发阶段的挖掘,可以通过预先训练好的文本分类模型来实现。可以将目标文献的摘要输入到预先训练好的文本分类模型中,由文本分类模型对摘要进行文本分类,并基于各研发阶段的匹配标准,输出目标文献针对对应靶点的研发阶段。
步骤120,基于靶点对应的各目标文献的研发阶段和发表时间,确定靶点的研发里程碑信息。
具体地,通常一个靶点对应的目标文献会有多篇,根据各目标文献的研发阶段和发表时间,可以确定靶点的研发里程碑信息。此处,靶点的研发里程碑信息是靶点开始阶段性研究的标志,标志着下一个研发阶段开始,明确了研发阶段的起始点,各个研发阶段的起始点就构成了靶点研发进展的里程碑信息。
例如,某一个靶点的研发里程碑信息可以用表格的形式对数据进行展示,如表1所示,截止到目前共有4个里程碑,分别是遗传学、靶点发现、靶点结构和药物发现,2015年X月X日,某一转化医学文献披露了该靶点的结构,2016年X月X日,某一转化医学文献披露了针对该靶点的药物。当然,也可以按照时间轴对数据进行展示,本发明实施例对此不作具体限定。
表1
遗传学 | 靶点发现 | 靶点结构 | 药物发现 |
2013年X月X日 | 2014年X月X日 | 2015年X月X日 | 2016年X月X日 |
通常情况下,可以根据该靶点在每一个研发阶段下对应的目标文献的发表时间,确定该靶点在每一个研发阶段下的文献最早发表时间,而该靶点在每一个研发阶段下的文献最早发表时间可以理解为该靶点每个研发阶段的起始时间,从而可以确定该靶点研发进展的里程碑信息。
步骤130,基于靶点的研发里程碑信息,构建靶点信息集合。
具体地,确定了每一个靶点的研发里程碑信息后,可以基于各个靶点的研发里程碑信息,构建靶点信息集合。靶点信息集合包含了目标文献对应的所有靶点的研发里程碑信息,通过构建的靶点信息集合,可以检索到目标靶点对应的研发里程碑信息,当一个靶点研究进入某个里程碑节点,企业发现后,会第一时间启动该靶点的药物筛选和研发工作,以争取先于更多竞争对手。药企还可以通过构建的靶点信息集合,持续跟踪药物靶点的研究动态,及时捕获符合企业目标阶段的药物靶点,从而为新药开发提供参考。
本发明实施例提供的靶点信息挖掘方法,通过对与转化医学相关的目标文献进行文本分析,得到目标文献对应的靶点和靶点的研发里程碑信息对靶点信息进行挖掘,并以此构建靶点信息集合。在实现全面、可靠的靶点信息挖掘的同时,有效提高了靶点信息挖掘的实现效率,降低了靶点信息挖掘的成本。
基于上述实施例,各研发阶段的匹配标准可以如下表2所示,例如,如果目标文献揭示了蛋白质组学与疾病之间的关系并发现了潜在的创新药物靶点,则文本分类模型自动将目标文献针对对应靶点的研发阶段划分为靶点发现阶段。
表2
基于上述实施例,步骤110中确定目标文献对应的靶点,包括:对目标文献的标题和/或摘要进行实体识别,得到目标文献对应的靶点。
具体地,通常目标文献的标题和/或摘要可以反映该文献研究的主要研究成果,为了进一步提高靶点信息挖掘的效率,可以对目标文献的标题和/或摘要进行实体识别来得到目标文献对应的靶点。
为了实现针对目标文献的标题和/或摘要的实体识别,可以预先训练实体识别模型。此处所指的实体,包括目标文献包含的药品名称和靶点名称,可以将标题和/或摘要输入到预先训练好的实体识别模型中,由实体识别模型对标题和/或摘要进行实体识别,并输出实体文本中每个字的实体标注,此处实体识别的标注体系可以是BIO、BIOES等,B表示实体开头,E表示实体结尾,I表示实体中间词,O表示非实体,S表示单个实体。
在确定标题和/或摘要中包含的药品名称和/或靶点名称实体后,即可得到目标文献对应的靶点。
在执行步骤110之前,可以对实体识别模型进行训练,其中实体识别模型的训练方法可以包括如下步骤:首先采集大量样本标题和/或摘要,并人工标注样本标题和/或摘要中的实体和实体类型。随即,基于样本标题和/或摘要以及其中标注的实体和实体类型,对初始实体识别模型进行训练,从而得到实体识别模型。
本发明实施例提供的靶点信息挖掘方法,通过对目标文献的标题和/或摘要进行实体识别,得到目标文献对应的靶点,有效提高了靶点信息挖掘的实现效率,降低了靶点信息挖掘的成本。
基于上述任一实施例,对目标文献的标题和/或摘要进行实体识别,得到目标文献对应的靶点,具体包括:
对目标文献的标题进行实体识别,若在标题中识别得到药品实体和/或靶点实体,则基于在标题中识别得到的药品实体和/或靶点实体确定目标文献对应的药品实体和/或靶点实体;
若在标题中未识别到药品实体和靶点实体,则对目标文献的摘要进行实体识别,并基于在摘要中识别得到的药品实体和/或靶点实体确定目标文献对应的药品实体和/或靶点实体;
基于目标文献对应的药品实体和/或靶点实体,确定目标文献对应的靶点。
具体地,可以对目标文献的标题和/或摘要进行实体识别,得到目标文献对应的药品实体和/或靶点实体,然后根据目标文献对应的药品实体和/或靶点实体,确定目标文献对应的靶点。
对目标文献的标题和/或摘要进行实体识别,得到目标文献对应的药品实体和/或靶点实体,可以首先对目标文献的标题进行实体识别,若在标题中识别得到药品实体和/或靶点实体,则直接将在标题中识别得到的药品实体和/或靶点实体确定为目标文献对应的药品实体和/或靶点实体;若在标题既未识别到药品实体,也未识别到靶点实体,则对目标文献的摘要进行实体识别,并将在摘要中识别得到的药品实体和/或靶点实体确定为目标文献对应的药品实体和/或靶点实体。
本发明实施例提供的靶点信息挖掘方法,首先对目标文献的标题进行实体识别,如果没识别到药品实体和/或靶点实体,再对目标文献的摘要进行实体识别,通过这种分级分层次的实体识别方法,进一步提高了靶点信息挖掘的效率。
基于上述任一实施例,基于在摘要中识别得到的药品实体和/或靶点实体确定目标文献对应的药品实体和/或靶点实体,包括:
基于在摘要中识别得到的药品实体和/或靶点实体,以及药品实体在摘要中出现的次数和/或靶点实体在摘要中出现的次数,确定目标文献对应的药品实体和/或靶点实体。
具体地,考虑到摘要中包含的信息比较多,可能在一次实体识别过程中,识别得到多个不同的药品实体和/或多个不同的靶点实体,则以获取到的出现次数最多的药品实体和/或出现次数最多的靶点实体作为目标文献对应的药品实体和/或靶点实体。
进一步地,如果识别得到多个不同的药品实体和/或多个不同的靶点实体,还可以将该目标文献推送给人工进行审核以确保数据的准确性。
本发明实施例提供的方法,通过将在摘要中出现的次数最多的药品实体和/或出现次数最多的靶点实体作为目标文献对应的药品实体和/或靶点实体,在实现全面、可靠的靶点信息挖掘的同时,有效提高了靶点信息挖掘的实现效率,降低了靶点信息挖掘的成本。
基于上述任一实施例,基于目标文献对应的药品实体和/或靶点实体,确定目标文献对应的靶点,具体包括:
若存在对应的靶点实体,则基于靶点字典对靶点实体进行标准化,得到目标文献对应的靶点,若在靶点字典中未匹配到靶点实体,则将靶点实体添加至靶点字典,并推送至用户终端;
若存在对应的药品实体,则基于药品字典对药品实体进行标准化,得到目标文献对应的药品,并基于目标文献对应的药品和靶点之间的关系,补充药品与靶点关系图谱,若在药品字典中未匹配到药品实体,则将药品实体添加至药品字典;
若不存在对应的靶点实体但存在对应的药品实体,则基于药品与靶点关系图谱,确定目标文献对应的靶点。
具体地,根据目标文献对应的药品实体和/或靶点实体,可以确定目标文献对应的靶点。
如果实体识别结果中包含了目标文献对应的靶点实体,则将获取到的靶点实体于已建立的靶点字典中进行匹配,得到标准的靶点名称,并将标准的靶点名称作为目标文献对应的靶点;如果在靶点字典中未匹配到获取到的靶点实体,代表该靶点实体可能是新的靶点,是首次公开的靶点,则将该靶点实体添加至靶点字典,对字典进行补充。并将该靶点信息推送至用户终端,例如,可以通过微信、邮件等方式及时推送给至用户终端,从而可以进行靶点预警,方便用户保持对新靶点的敏捷监测,帮助用户第一时间捕获高价值靶点情报,进而取得新药研发先机。
如果实体识别结果中包含了目标文献对应的靶点实体,同时包含了目标文献对应的药品实体,则将获取到的药品实体于已建立的药品字典中进行匹配,得到标准的药品名称,并基于标准的药品名称和靶点名称之间的关系,补充药品与靶点关系图谱。如果在药品字典中未匹配到获取到的药品实体,代表该药品实体可能是新的药品,则将该药品实体添加至药品字典,对字典进行补充。
如果实体识别结果中不包含目标文献对应的靶点实体,但包含了目标文献对应的药品实体,则根据预设的药品与靶点关系图谱,确定目标文献对应的靶点。
需要说明的是,靶点字典、药品字典和药品与靶点关系图谱均是预先设置好的。
本发明实施例提供的方法,针对实体识别结果中包含的三种情况,分别进行相对应的数据处理,得到目标文献对应的靶点。同时,对字典和/或药品与靶点关系图谱进行了补充,对新靶点进行靶点预警,第一时间提供高价值靶点情报,实现了全面、可靠的靶点信息挖掘。
基于上述任一实施例,步骤110中获取与转化医学相关的目标文献,包括:从目标范畴里获取与转化医学相关的目标文献,目标范畴是基于各文献的发表期刊影响因子和/或各研究机构的排名确定的。
进一步地,考虑到目标文献的获取来源广泛,并且每天产生的文献数量是巨大的,为了提高靶点信息挖掘的效率,可以通过筛选缩小目标文献的获取范畴,在目标范畴内获取转化医学相关的目标文献,可以根据各文献的发表期刊影响因子和/或各研究机构的排名确定目标范畴。
例如,可以对所有文献所在的期刊统计其影响因子,对影响因子按照分数倒序排列,优选的,取排名0-30%的期刊所刊登的与转化医学相关的文献作为目标文献;还可以获取文献的研究机构,对研究机构分为企业、科研院所/大学,优选的,取研究机构为企业、ESI-全球TOP300(全球基本科学指标数据库(ESI)中全球排名TOP300的知名科研院所或大学)、ESI-中国TOP100(ESI中国大学排名Top100的知名科研院所或大学)所发表的与转化医学相关的文献作为目标文献。
本发明实施例提供的方法,通过根据各文献的发表期刊影响因子和/或各研究机构的排名确定目标范畴,在目标范畴里获取目标文献,进一步提高了靶点信息挖掘的效率。
基于上述任一实施例,步骤120具体包括:
基于靶点在各研发阶段下对应的目标文献的发表时间,确定靶点在各研发阶段下的文献最早发表时间;
基于靶点在各研发阶段下的文献最早发表时间,确定靶点的研发里程碑信息。
具体地,靶点在每一个研发阶段下对应的目标文献可能有多篇,可以根据该多篇目标文献的发表时间,确定靶点在每一个研发阶段下的文献最早发表时间。而靶点在每一个研发阶段下的文献最早发表时间可以理解为靶点每个研发阶段的起始时间,从而可以根据靶点各个研发阶段的起始时间构成靶点的研发里程碑信息。
本发明实施例提供的方法,通过靶点对应的各目标文献的研发阶段和发表时间,确定靶点的研发里程碑信息,实现了全面、可靠的靶点信息挖掘,同时方便用户保持对靶点里程碑的敏捷监测。
基于上述任一实施例,步骤110中确定目标文献针对对应靶点的研发阶段,之后还包括:
若目标文献针对对应靶点的研发阶段,在靶点的研发里程碑信息示出的研发阶段之后,则生成靶点的里程碑更新信息,并推送至用户终端。
具体地,对目标文献针对对应靶点的研发阶段进行挖掘时,如果挖掘得到的目标文献针对对应靶点的研发阶段,在靶点的研发里程碑信息示出的研发阶段之后,代表该靶点的研究进展进入了下一个里程碑节点,也就是说,该靶点取得新的研究里程碑,则生成靶点的里程碑更新信息,并推送至用户终端。此处靶点的里程碑更新信息可以包括靶点的最新研发里程碑信息、新的研究里程碑示出的研发阶段对应的最早发表时间文献。可以通过微信、邮件等方式将里程碑更新信息及时推送给用户,及时通知用户目前靶点的最新里程碑的研发进展。
此外,如果挖掘得到的目标文献针对对应靶点的研发阶段为靶点发现阶段,表明该靶点可能是首次发现的新靶点。可以将该靶点信息推送至用户终端进行靶点预警,例如,可以通过微信、邮件等方式及时推送给至用户终端,从而方便用户保持对新靶点的敏捷监测,帮助用户第一时间捕获高价值靶点情报,进而取得新药研发先机。
本发明实施例提供的方法,通过监测并更新已知靶点的研究里程碑信息,可以第一时间向用户发出预警消息,帮助用户第一时间捕获高价值靶点情报,进而取得新药研发先机。
图2是本发明提供的靶点信息检索方法的流程示意图,如图2所示,该方法包括:
步骤210,接收用户终端发送的目标靶点;
步骤220,从靶点信息集合中筛选得到目标靶点对应的靶点研发里程碑信息并返回用户终端,其中,靶点信息集合是基于上述的靶点信息挖掘方法确定的。
具体地,根据上述实施例描述的靶点信息挖掘方法,得到靶点信息集合后,可以搭建靶点信息检索平台,方便用户日常高效检索。接收到用户终端发送的目标靶点后,可以在靶点信息集合中进行匹配检索,筛选得到目标靶点对应的靶点研发里程碑信息,并将检索得到的靶点研发里程碑信息返回用户终端。靶点研发里程碑信息可以按照表格形式对数据进行展示,也可以按照时间轴对数据进行展示。
本发明实施例提供的方法,可以基于目标靶点,快速获取目标靶点对应的靶点研发里程碑信息,提高了数据检索的效率。
基于上述实施例,步骤210之后还包括:
获取目标靶点对应的药品的最高研发进度并返回用户终端,目标靶点对应的药品的最高研发进度是基于药品的上市信息、申报信息和临床试验信息中至少一种确定的。
进一步地,对一个靶点成熟度的评判指标,除上述的研究里程碑节点,其关联药物的最高研发阶段也代表了相应靶点的成熟度或风险度。此处所指的最高研发阶段,可以是针对国内研发而言的,也可以是针对全球研发而言的。但目前市面上尚没有一款数据产品,可以直接通过药物研发阶段来筛选或定义靶点。本发明实施例提供的方法在对目标靶点进行筛选时,可以同时获取目标靶点对应的药品的最高研发进度并返回用户终端。相应地,用户可以通过药物最高研发阶段或靶点的研究里程碑节点来进一步筛选或定义靶点,以第一时间获得高价值靶点情报。
药品的最高研发进度可以根据药品的上市信息、申报信息和临床试验信息中至少一种确定。
其中,药品的上市信息用于表征已上市药品的信息,上市药品是指经国家药品监督管理部门审查批准,并发给药品生产(或试生产)批准文号或者进口药品注册证书的药品。上市信息具体可以包含上市药品的药物名称、规格、批准文号、生产单位或者上市许可持有人等。
申报信息用于表征已注册申报药品的信息,注册申报药品是指依照法定程序和相关要求提出注册申请,国家药品监督管理部门对其进行审查并做出行政许可决定的药品。申报信息具体可以包含但不限于申报药品的药物名称、注册申报类别、注册申报人等。
临床试验信息用于表征正在进行或者已完成临床试验的药品信息,临床试验信息具体可以包含但不限于药品的药物名称、企业信息、试验分期和试验状态等。
药品的最高研发进度可以是“已上市”、“申请上市”、“批准临床”或者“申请临床”等。可以采用如下方式确定目标药品的最高研发进度:
首先确定目标药品的标识信息,目标药品是指需要确定其最高研发进度的药品,目标药品的标识信息可以包含药品的通用名和剂型。
然后,在上市信息中查找是否存在与目标药品的标识信息相关的数据,若上市信息中存在与目标药品的标识信息相关的数据,则基于目标药品的上市信息,确定目标药品的研发进度,否则在申报信息中查找是否存在与目标药品的标识信息相关的数据;
若申报信息中存在与目标药品的标识信息相关的数据,则基于目标药品申报信息中的审评事项和/或审评结论,确定目标药品的研发进度,否则基于目标药品临床试验信息中的试验分期和/或试验状态,确定目标药品的研发进度。
本发明实施例提供的靶点检索方法,可以按照靶点里程碑和/或药物最高研发阶段来自由筛选靶点,以帮助用户第一时间获得高价值靶点情报。
基于上述实施例,目标靶点对应的药品的最高研发进度是基于如下步骤确定的:
I、药物在全球的研发进度获取方法:
(1)构建全球药品上市信息表:基于各国如,NMPA/FDA/EMA/HMA/PFDA药品信息官网,获取已上市的药品数据,提取药品名称,于已构建的药品字典中进行匹配得到标准的药品名称,构建全球上市药品信息表;
(2)构建全球药品临床信息表:基于全球临床登记官网如ClinicalTrials.gov,获取试验药品信息和试验分期;
基于药品名称于已构建的药品字典中进行匹配得到标准的药品名称,基于从官网中获取的试验分期,按照一定规则进行清洗获得标准的试验分期,如,获取的原始数据为:Phase 1,Phase 2,清洗标准化的临床阶段分别对应的是I期、II期;基于药品名称及对应的试验分期构建全球临床研究药品信息表;
(3)药品在全球的最高进度计算:获取目标靶点对应的药品信息,先于全球药品上市信息表中查找,若目标靶点下任一药品在全球上市药品信息表中匹配得到,则全球最高进度为:已上市;
若所有药品在全球上市药品信息表中均匹配不到,则于全球药品临床信息表中查找,若能匹配到,则以药品对应的最高试验分期作为全球最高进度;
若所有药品在全球临床研究药品信息表中均匹配不到,则全球最高进度为:临床前;
II、药物在国内的研发进度获取方法:
(1)构建国内药品上市信息表:于NMPA获取药品上市信息中药品名称,于已构建的药品字典中进行匹配,得到标准的药品名称;
(2)构建国内药品申报信息表:从CDE、NMPA获取药品注册申报阶段的信息,所述药品注册申报阶段的信息包括受理号、药品信息、申请事项、审评结论;
其中,所述药品信息可以通过从CDE中获取药品名称,于已构建的药品字典中进行匹配,得到标准的药品名称;
所述申请事项根据受理号对审评事项进行判断,并填入信息;如,当受理号以JT开头时,申请事项为JT,表示:一次性进口;当受理号以CQZ开头或以JQZ开头或以CSZ开头或以JSZ开头,申请事项为S,表示:申请生产;其他的取受理号第4位的字符为申请事项的值,如L,表示:申请临床;等。
所述审评结论基于采集到的信息对审评结论进行实时计算,如:
初始化审评结论信息为:暂无
首先根据采集到的信息确定相应的审评结论(如审评结论A或审评结论B),然后将其与已存储的审评结论进行比较,判断是否发生变化,如果发生变化,则记录相应的审评结论并存储。
审评结论信息包括但不限于:批准生产,批准补充,批准再注册,批准一次性进口,批准技术转移,批准分包装,通过一次性进口等;
审评结论的确定规则如表3所示:
如果采集到临床试验通知书发放目录信息,并且已存储的审评结论信息为暂无,则确定审评结论为批准临床;
如果采集到上市药品的信息(包括技术审评报告与说明书),并且已存储的审评结论的信息为暂无,则确定审评结论为批准生产;
如果采集到特定药品的旧证换新证待领信息,并且已存储的审评结论信息为暂无,则当检测受理号头部为JYHB、JYSB、JYZB、JYBB或JYFB字段时,将确定审评结论为“批准补充”;
表3
(3)构建国内药品临床信息表:从ChiCTR、CDE获取药品临床信息,所述药品临床信息包括:登记号、药品名称、试验分期、试验状态等;
其中,从ChiCTR无法直接获得药品名称信息,需先获取其登记的“研究名称”,如:“评价蛇脂参黄软膏治疗浅部真菌病有效性和安全性的一项开放、多中心IV期临床研究;评价蛇脂参黄软膏治疗浅部真菌病有效性和安全性的一项开放、多中心IV期临床研究”,从中提取出药品名称,进一步,将获取到的药品名称于构建的药品字典中进行匹配,得到标准的药品名称;
所述试验分期从原网站获取临床登记的“试验标题”及“试验分期”,由于部分临床登记在原网站中无“试验分期”,所以需要从“试验标题”中进行提取,对提取得到试验分期按照一定规则进行清洗成标准试验分期,如表4所示:
表4
原始试验分期 | 清洗后的标准试验分期 |
BE试验 | BE |
BE研究 | BE |
IIIb-IV期 | Phase IIIb/IV |
3b、4期 | Phase IIIb/IV |
三/四期 | Phase III/IV |
III、Ⅳ期 | Phase III/IV |
....... | ....... |
所述试验状态包括进行中(尚未招募)、进行中(招募中)、进行中(招募完成)、已完成、主动暂停或终止,被叫停等;根据抓取到的试验状态,对试验状态标准化,如表5所示:
1)若采集到的试验状态以“主动暂停”或“主动终止”开头,则返回“主动暂停或终止”;
2)若采集到的试验状态以“责令暂停”或“责令终止”开头,则返回“被叫停”,等。
表5
(4)药品在国内的最高进度计算:获取目标靶点下对应的所有药品信息,基于所有药品名称进行如下判断:
先基于药品上市信息判断:
根据药品名称于药品上市信息中查找,若能查到数据,则最高研发进展为“已上市”;
若未查询到对应的通用名+剂型信息,则进一步查找药品审评信息;
基于药品审评信息判断:
根据药品名称于药品审评信息中查找,若能查到数据,进一步根据“审评事项”和“审评结论”进行判断;若未查到数据,则直接查找药品临床信息;
若“申请事项”或“审评结论”的信息包含有关于药品上市相关事项,如,“申请事项”包含T(技术转移),或“审评结论”包含“批准生产”、“批准进口”等,则最高研发进度为“已上市”;
若均不包含上述信息,则判断“申请事项”或“审评结论”的信息是否包含有关于药品申请上市相关事项,如,若“申请事项”包含S(申请生产)且暂无审评结论,则最高研发进度为“申请上市”;
若均不包含上述信息,则判断“申请事项”或“审评结论”的信息是否包含有关于药品批准临床相关事项,如,若“审评结论”包括“批准临床”,则最高研发进度为“批准临床”;
若均不包含上述信息,则判断“申请事项”或“审评结论”的信息是否包含有关于药品申请临床相关事项,如,若“申请事项”包括L(申请临床)且暂无审评结论,则最高研发进度为“申请临床”;
基于药品临床信息判断:
按照如下优先级获取国内最高进度:
若“试验分期”包含临床IV期,且“试验状态”不包括主动暂停或终止、被叫停等,则最高研发进度为“已上市”;若“试验状态”包括上述信息,则最高研发进度为“已上市(Inactive)”;
若“试验分期”不为“other”,且“试验状态”不包括主动暂停或终止、被叫停等,则最高研发进度为当前“试验分期”所代表的研发阶段;若“试验状态”包括上述信息,则最高研发进度为当前“试验分期”所代表的研发阶段的Inactive状态;
若试验分期为“other”,且“试验状态”不包括主动暂停或终止、被叫停等,则最高研发进度为“临床研究”;若“试验状态”包括上述信息,则最高研发进度为“临床研究(Inactive)”;
若未在药品临床信息中查找到对应的通用名+剂型信息,则代表该目标药品尚未申报,则最高研发进度为“无申报”。
下面对本发明提供的靶点信息挖掘装置进行描述,下文描述的靶点信息挖掘装置与上文描述的靶点信息挖掘方法可相互对应参照。图3是本发明提供的靶点信息挖掘装置的结构示意图,如图3所示,该装置包括:
靶点和研发阶段确定单元310,用于获取与转化医学相关的目标文献,并确定所述目标文献对应的靶点和所述目标文献针对对应靶点的研发阶段;
研发里程碑信息确定单元320,用于基于所述靶点对应的各目标文献的研发阶段和发表时间,确定所述靶点的研发里程碑信息;
靶点信息集合构建单元330,用于基于所述靶点的研发里程碑信息,构建靶点信息集合。
本发明实施例提供的靶点信息挖掘装置,通过对与转化医学相关的目标文献进行文本分析,得到目标文献对应的靶点和靶点的研发里程碑信息对靶点信息进行挖掘,并以此构建靶点信息集合。在实现全面、可靠的靶点信息挖掘的同时,有效提高了靶点信息挖掘的实现效率,降低了靶点信息挖掘的成本。
基于上述实施例,靶点和研发阶段确定单元310进一步用于:
对所述目标文献的标题和/或摘要进行实体识别,得到所述目标文献对应的靶点。
基于上述实施例,靶点和研发阶段确定单元310进一步用于:
对所述目标文献的标题进行实体识别,若在所述标题中识别得到药品实体和/或靶点实体,则基于在所述标题中识别得到的药品实体和/或靶点实体确定所述目标文献对应的药品实体和/或靶点实体;
若在所述标题中未识别到药品实体和靶点实体,则对所述目标文献的摘要进行实体识别,并基于在所述摘要中识别得到的药品实体和/或靶点实体确定所述目标文献对应的药品实体和/或靶点实体;
基于所述目标文献对应的药品实体和/或靶点实体,确定所述目标文献对应的靶点。
基于上述实施例,靶点和研发阶段确定单元310进一步用于:
基于在所述摘要中识别得到的药品实体和/或靶点实体,以及药品实体在所述摘要中出现的次数和/或靶点实体在所述摘要中出现的次数,确定所述目标文献对应的药品实体和/或靶点实体。
基于上述实施例,靶点和研发阶段确定单元310进一步用于:
若存在对应的靶点实体,则基于靶点字典对所述靶点实体进行标准化,得到所述目标文献对应的靶点,若在所述靶点字典中未匹配到所述靶点实体,则将所述靶点实体添加至所述靶点字典,并推送至用户终端;
若存在对应的药品实体,则基于药品字典对所述药品实体进行标准化,得到所述目标文献对应的药品,并基于目标文献对应的药品和靶点之间的关系,补充药品与靶点关系图谱,若在所述药品字典中未匹配到所述药品实体,则将所述药品实体添加至所述药品字典;
若不存在对应的靶点实体但存在对应的药品实体,则基于预设的药品与靶点关系图谱,确定所述目标文献对应的靶点。
基于上述实施例,靶点和研发阶段确定单元310进一步用于:
从目标范畴里获取与转化医学相关的目标文献,所述目标范畴是基于各文献的发表期刊影响因子和/或各研究机构的排名确定的。
基于上述实施例,研发里程碑信息确定单元320进一步用于:
基于所述靶点在各研发阶段下对应的目标文献的发表时间,确定所述靶点在各研发阶段下的文献最早发表时间;
基于所述靶点在各研发阶段下的文献最早发表时间,确定所述靶点的研发里程碑信息。
基于上述实施例,本发明实施例提供的靶点信息挖掘装置还包括里程碑更新信息生成单元,里程碑更新信息生成单元用于:
若所述目标文献针对对应靶点的研发阶段,在所述靶点的研发里程碑信息示出的研发阶段之后,则生成所述靶点的里程碑更新信息,并推送至用户终端。
下面对本发明提供的靶点信息检索装置进行描述,下文描述的靶点信息检索装置与上文描述的靶点信息检索方法可相互对应参照。图4是本发明提供的靶点信息检索装置的结构示意图,如图4所示,该装置包括:
目标靶点接收单元410,用于接收用户终端发送的目标靶点;
里程碑信息筛选单元420,用于从靶点信息集合中筛选得到所述目标靶点对应的靶点研发里程碑信息并返回所述用户终端,其中,所述靶点信息集合是基于上述任一项所述的靶点信息挖掘方法确定的。
本发明实施例提供的靶点信息检索装置,可以基于目标靶点,快速获取目标靶点对应的靶点研发里程碑信息,提高了数据检索的效率。
基于上述实施例,本发明实施例提供的靶点信息检索装置还包括研发进度获取单元,研发进度获取单元用于:
获取所述目标靶点对应的药品的最高研发进度并返回所述用户终端,所述目标靶点对应的药品的最高研发进度是基于所述药品的上市信息、申报信息和临床试验信息中至少一种确定的。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行靶点信息挖掘或检索方法,其中,靶点信息挖掘方法包括:获取与转化医学相关的目标文献,并确定所述目标文献对应的靶点和所述目标文献针对对应靶点的研发阶段;基于所述靶点对应的各目标文献的研发阶段和发表时间,确定所述靶点的研发里程碑信息;基于所述靶点的研发里程碑信息,构建靶点信息集合。靶点信息检索方法包括:接收用户终端发送的目标靶点;从靶点信息集合中筛选得到所述目标靶点对应的靶点研发里程碑信息并返回所述用户终端,其中,所述靶点信息集合是基于所述的靶点信息挖掘方法确定的。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的靶点信息挖掘或检索方法,其中,靶点信息挖掘方法包括:获取与转化医学相关的目标文献,并确定所述目标文献对应的靶点和所述目标文献针对对应靶点的研发阶段;基于所述靶点对应的各目标文献的研发阶段和发表时间,确定所述靶点的研发里程碑信息;基于所述靶点的研发里程碑信息,构建靶点信息集合。靶点信息检索方法包括:接收用户终端发送的目标靶点;从靶点信息集合中筛选得到所述目标靶点对应的靶点研发里程碑信息并返回所述用户终端,其中,所述靶点信息集合是基于所述的靶点信息挖掘方法确定的。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的靶点信息挖掘或检索方法,其中,靶点信息挖掘方法包括:获取与转化医学相关的目标文献,并确定所述目标文献对应的靶点和所述目标文献针对对应靶点的研发阶段;基于所述靶点对应的各目标文献的研发阶段和发表时间,确定所述靶点的研发里程碑信息;基于所述靶点的研发里程碑信息,构建靶点信息集合。靶点信息检索方法包括:接收用户终端发送的目标靶点;从靶点信息集合中筛选得到所述目标靶点对应的靶点研发里程碑信息并返回所述用户终端,其中,所述靶点信息集合是基于所述的靶点信息挖掘方法确定的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种靶点信息挖掘方法,其特征在于,包括:
获取与转化医学相关的目标文献,并确定所述目标文献对应的靶点和所述目标文献针对对应靶点的研发阶段;
基于所述靶点对应的各目标文献的研发阶段和发表时间,确定所述靶点的研发里程碑信息;
基于所述靶点的研发里程碑信息,构建靶点信息集合。
2.根据权利要求1所述的靶点信息挖掘方法,其特征在于,所述确定所述目标文献对应的靶点,包括:
对所述目标文献的标题和/或摘要进行实体识别,得到所述目标文献对应的靶点。
3.根据权利要求2所述的靶点信息挖掘方法,其特征在于,所述对所述目标文献的标题和/或摘要进行实体识别,得到所述目标文献对应的靶点,包括:
对所述目标文献的标题进行实体识别,若在所述标题中识别得到药品实体和/或靶点实体,则基于在所述标题中识别得到的药品实体和/或靶点实体确定所述目标文献对应的药品实体和/或靶点实体;
若在所述标题中未识别到药品实体和靶点实体,则对所述目标文献的摘要进行实体识别,并基于在所述摘要中识别得到的药品实体和/或靶点实体确定所述目标文献对应的药品实体和/或靶点实体;
基于所述目标文献对应的药品实体和/或靶点实体,确定所述目标文献对应的靶点。
4.根据权利要求1至3中任一项所述的靶点信息挖掘方法,其特征在于,所述获取与转化医学相关的目标文献,包括:
从目标范畴里获取与转化医学相关的目标文献,所述目标范畴是基于各文献的发表期刊影响因子和/或各研究机构的排名确定的。
5.根据权利要求1至3中任一项所述的靶点信息挖掘方法,其特征在于,所述基于所述靶点对应的各目标文献的研发阶段和发表时间,确定所述靶点的研发里程碑信息,包括:
基于所述靶点在各研发阶段下对应的目标文献的发表时间,确定所述靶点在各研发阶段下的文献最早发表时间;
基于所述靶点在各研发阶段下的文献最早发表时间,确定所述靶点的研发里程碑信息。
6.根据权利要求1至3中任一项所述的靶点信息挖掘方法,其特征在于,确定所述目标文献针对对应靶点的研发阶段,之后还包括:
若所述目标文献针对对应靶点的研发阶段,在所述靶点的研发里程碑信息示出的研发阶段之后,则生成所述靶点的里程碑更新信息,并推送至用户终端。
7.一种靶点信息检索方法,其特征在于,包括:
接收用户终端发送的目标靶点;
从靶点信息集合中筛选得到所述目标靶点对应的靶点研发里程碑信息并返回所述用户终端,其中,所述靶点信息集合是基于如权利要求1至6任一项所述的靶点信息挖掘方法确定的。
8.根据权利要求7所述的靶点信息检索方法,其特征在于,所述接收用户终端发送的目标靶点,之后还包括:
获取所述目标靶点对应的药品的最高研发进度并返回所述用户终端,所述目标靶点对应的药品的最高研发进度是基于所述药品的上市信息、申报信息和临床试验信息中至少一种确定的。
9.一种靶点信息挖掘装置,其特征在于,包括:
靶点和研发阶段确定单元,用于获取与转化医学相关的目标文献,并确定所述目标文献对应的靶点和所述目标文献针对对应靶点的研发阶段;
研发里程碑信息确定单元,用于基于所述靶点对应的各目标文献的研发阶段和发表时间,确定所述靶点的研发里程碑信息;
靶点信息集合构建单元,用于基于所述靶点的研发里程碑信息,构建靶点信息集合。
10.一种靶点信息检索装置,其特征在于,包括:
目标靶点接收单元,用于接收用户终端发送的目标靶点;
里程碑信息筛选单元,用于从靶点信息集合中筛选得到所述目标靶点对应的靶点研发里程碑信息并返回所述用户终端,其中,所述靶点信息集合是基于如权利要求1至6任一项所述的靶点信息挖掘方法确定的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111478805.3A CN114255877A (zh) | 2021-12-06 | 2021-12-06 | 靶点信息挖掘和检索方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111478805.3A CN114255877A (zh) | 2021-12-06 | 2021-12-06 | 靶点信息挖掘和检索方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114255877A true CN114255877A (zh) | 2022-03-29 |
Family
ID=80791701
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111478805.3A Pending CN114255877A (zh) | 2021-12-06 | 2021-12-06 | 靶点信息挖掘和检索方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114255877A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114927232A (zh) * | 2022-04-29 | 2022-08-19 | 数魔方(北京)医药科技有限公司 | 药品研发类型挖掘和检索方法、装置及电子设备 |
CN115050478A (zh) * | 2022-03-31 | 2022-09-13 | 数魔方(北京)医药科技有限公司 | 药品信息挖掘方法、预警方法、装置和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110751981A (zh) * | 2019-10-15 | 2020-02-04 | 中国人民解放军第四军医大学 | 一种基于系统生物学阐述中医证本质的分析方法 |
CN112382362A (zh) * | 2020-11-04 | 2021-02-19 | 北京华彬立成科技有限公司 | 一种针对靶点药物的数据分析方法及装置 |
CN112489812A (zh) * | 2020-11-30 | 2021-03-12 | 北京华彬立成科技有限公司 | 药物开发分析方法、装置、电子设备和存储介质 |
CN112699230A (zh) * | 2020-12-31 | 2021-04-23 | 北京万方数据股份有限公司 | 一种恶性肿瘤诊疗知识获取方法及装置 |
WO2021190236A1 (zh) * | 2020-03-23 | 2021-09-30 | 浙江大学 | 一种基于生物医学文献的实体关系挖掘方法 |
CN113539515A (zh) * | 2021-07-01 | 2021-10-22 | 上海药慧信息技术有限公司 | 临床需求挖掘方法、装置、电子设备和存储介质 |
-
2021
- 2021-12-06 CN CN202111478805.3A patent/CN114255877A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110751981A (zh) * | 2019-10-15 | 2020-02-04 | 中国人民解放军第四军医大学 | 一种基于系统生物学阐述中医证本质的分析方法 |
WO2021190236A1 (zh) * | 2020-03-23 | 2021-09-30 | 浙江大学 | 一种基于生物医学文献的实体关系挖掘方法 |
CN112382362A (zh) * | 2020-11-04 | 2021-02-19 | 北京华彬立成科技有限公司 | 一种针对靶点药物的数据分析方法及装置 |
CN112489812A (zh) * | 2020-11-30 | 2021-03-12 | 北京华彬立成科技有限公司 | 药物开发分析方法、装置、电子设备和存储介质 |
CN112699230A (zh) * | 2020-12-31 | 2021-04-23 | 北京万方数据股份有限公司 | 一种恶性肿瘤诊疗知识获取方法及装置 |
CN113539515A (zh) * | 2021-07-01 | 2021-10-22 | 上海药慧信息技术有限公司 | 临床需求挖掘方法、装置、电子设备和存储介质 |
Non-Patent Citations (3)
Title |
---|
胡双;陆涛;胡建华;: "文本挖掘技术在药物研究中的应用", 医学信息学杂志, no. 08, pages 49 - 53 * |
郭瑞华;崔雷;: "文本挖掘在药物靶位研究中的应用", 中华医学图书情报杂志, no. 03, pages 10 - 14 * |
钱庆;: "基于知识组织系统的生物医学文本挖掘研究", 数字图书馆论坛, no. 04, pages 2 - 9 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115050478A (zh) * | 2022-03-31 | 2022-09-13 | 数魔方(北京)医药科技有限公司 | 药品信息挖掘方法、预警方法、装置和存储介质 |
CN114927232A (zh) * | 2022-04-29 | 2022-08-19 | 数魔方(北京)医药科技有限公司 | 药品研发类型挖掘和检索方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112037880B (zh) | 用药推荐方法、装置、设备及存储介质 | |
Jäger | Computational historical linguistics | |
CN103975328B (zh) | 从患者测序数据追溯性地提取用于临床决策支持的临床相关信息 | |
US8036915B2 (en) | System and method for collecting and managing patient data | |
CN109920540A (zh) | 辅助诊疗决策系统的构建方法、装置及计算机设备 | |
CN114255877A (zh) | 靶点信息挖掘和检索方法、装置、电子设备和存储介质 | |
Gharehchopogh et al. | Neural network application in diagnosis of patient: a case study | |
US20070282940A1 (en) | Thread-ranking apparatus and method | |
CN111584021A (zh) | 病案信息校验方法、装置、电子设备及存储介质 | |
CN111916161A (zh) | 用于临床试验过程中多数据源采集转换的方法及装置 | |
CN112635011A (zh) | 疾病诊断方法、疾病诊断系统和可读存储介质 | |
CN113539515A (zh) | 临床需求挖掘方法、装置、电子设备和存储介质 | |
Yoon et al. | Decision-making support systems using case-based reasoning for construction project delivery method selection: Focused on the road construction projects in Korea | |
CN115954072A (zh) | 一种智能临床试验方案生成方法及相关装置 | |
Ankem | Evaluation of method in systematic reviews and meta-analyses published in LIS | |
CN113674867A (zh) | 临床数据挖掘方法、装置、电子设备和存储介质 | |
CN112071431B (zh) | 基于深度学习和知识图谱的临床路径自动生成方法及系统 | |
Li et al. | Characterizing interdisciplinarity in drug research: A translational science perspective | |
CN113889279B (zh) | 联合疗法信息挖掘和查询方法、装置和电子设备 | |
CN113868488A (zh) | 药品研发竞争数据分析方法、装置、电子设备和存储介质 | |
US20030084042A1 (en) | Evaluating potential for success in sports based on comparisons between genomic sequences | |
CN109658984B (zh) | 一种信息推荐和信息推荐模型训练方法、相关装置 | |
Qu et al. | Study on self-adaptive clinical pathway decision support system based on case-based reasoning | |
CN114927232B (zh) | 药品研发类型挖掘和检索方法、装置及电子设备 | |
Alkhazaleh et al. | Unveiling predictors influencing patent licensing: Analyzing patent scope in robotics and automation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Country or region after: China Address after: 201210 3rd floor, building 1, No.400, Fangchun Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai Applicant after: Shanghai Huabin Licheng Technology Co.,Ltd. Address before: 102200 c2040, 2 / F, building 16, courtyard 37, Chaoqian Road, science and Technology Park, Changping District, Beijing Applicant before: Beijing Huabin Licheng Technology Co.,Ltd. Country or region before: China |
|
CB02 | Change of applicant information |