CN110349632A - 一种从PubMed文献筛选基因关键词的方法 - Google Patents

一种从PubMed文献筛选基因关键词的方法 Download PDF

Info

Publication number
CN110349632A
CN110349632A CN201910571336.6A CN201910571336A CN110349632A CN 110349632 A CN110349632 A CN 110349632A CN 201910571336 A CN201910571336 A CN 201910571336A CN 110349632 A CN110349632 A CN 110349632A
Authority
CN
China
Prior art keywords
gene
keyword
abstract
term
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910571336.6A
Other languages
English (en)
Other versions
CN110349632B (zh
Inventor
汪佳宏
章建平
黄仲曦
潘星华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GUANGZHOU SEQUMED BIOTECHNOLOGY Inc.
Southern Medical University
Original Assignee
Guangzhou Preo Code Biotechnology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Preo Code Biotechnology Co Ltd filed Critical Guangzhou Preo Code Biotechnology Co Ltd
Priority to CN201910571336.6A priority Critical patent/CN110349632B/zh
Publication of CN110349632A publication Critical patent/CN110349632A/zh
Application granted granted Critical
Publication of CN110349632B publication Critical patent/CN110349632B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种从PubMed文献筛选基因关键词的方法。本发明提供了一种从文献数据库筛选基因关键词的方法,包括以下步骤:从文献数据库的摘要中识别基因相关摘要或/和基因相关句子,建立基因相关文献的全文索引,从术语库中筛选关键词,通过基因‑关键词关联评分计算公式获得基因和关键词的关联概率评分,筛选出与基因密切相关的关键词。本发明构建的方法一方面扩宽了事先定义的术语词汇库,除了GO术语外,整合其他权威数据库的术语;另一方面引入新的关键词筛选方法,对基因与术语存在关联的概率进行评分,综合基因和关键词共发生于摘要和句子的次数,筛选更牢固的基因‑关键词关联。

Description

一种从PubMed文献筛选基因关键词的方法
技术领域
本发明属于生物信息技术领域,具体涉及一种从PubMed文献筛选基因关键词的方法。
背景技术
在精准医学时代,高通量方法(例如测序和芯片等)被普遍应用于筛选疾病的候选相关基因(异常表达、突变或者表观遗传学改变等),但如何解析随之而得的成百上千个疾病候选相关基因参与的分子机制却成为一个新的挑战,获取与疾病相关的生物学事件有关联的基因是分析的突破口。常规解决办法是借助人工注释的数据库Gene Ontology(GO)进行查询或富集分析。
但是,由于GO注释是专家人工从文献中获取证据,注释的数量和范围相对有限,注释速度远不及文献更新,有大量的基因未注释或者注释不完全。为此,GO也有一部分注释是通过电子注释,但这些注释的权威性就不及人工注释。生物医学研究者通过GO能够掌握基因或蛋白质的部分功能,但是不够全面,更多隐含于文献未注释的生物学功能同样具有研究价值。借助文本挖掘的工具直接从文献探索基因的功能,是一个值得尝试的方法。
文献挖掘软件从海量生物医学文献中挖掘基因-关键词关联是解析基因功能的重要方法。生物医学术语和基因在文献(句子,摘要或全文)中的共发生(co-occurrence)关系是判断两者关联的重要依据,也是当前文献挖掘工具使用最广的方法,目前有多款开放使用的文献挖掘软件采用共发生的方法检索与生物学功能相关的基因关键词。CoPub从多个本体的词汇筛选关键词,CoCiter从用户提交的自由词中筛选关键词,申请人前期开发的GenCLiP和GenCLiP 2则从单词、词组和用户提交的自由词筛选关键词。
GenCLiP筛选基因关键词的方法是基于基因和关键词在摘要中高频共发生,在实际使用过程中,发现不少基因和关键词并无关联,假阳性率较高,准确率较低。
发明内容
本发明的目的在于克服上述现有技术的不足之处而提供一种从文献数据库筛选基因关键词的方法。
为实现上述目的,本发明采取的技术方案为:一种从文献数据库筛选基因关键词的方法,包括以下步骤:
从文献数据库的摘要中识别基因相关摘要或/和基因相关句子,建立基因相关文献的全文索引,从术语库中筛选关键词,通过基因-关键词关联评分计算公式获得基因和关键词的关联概率评分,筛选出与基因密切相关的关键词。
优选地,所述从文献数据库的摘要中识别基因相关摘要和基因相关句子的方法,包括以下步骤:将更新的文献本地化,根据建立的基因名称字典,识别文献摘要中出现的基因名称,与Entrez Gene ID比对,确定基因相关摘要;再使用模块把基因相关摘要分割成句子,确定基因相关句子。
优选地,所述文献本地化的方法为:通过PubMed的FTP(ftp://ftp.ncbi.nlm.nih.gov/pubmed/)获取数据库年度更新文献和日更新文献,从下载的XML文件提取PMID(PubMed ID)、标题、摘要信息,将PubMed文献本地化。
优选地,所述文献数据库为MEDLINE或/和PubMed。
优选地,所述使用的模块为Perl的Text::Sentence。
优选地,所述建立基因相关文献的全文索引的方法,包括以下步骤:将搜索引擎与MySQL数据库结合,MySQL数据库存储文献和基因的PMID、SID和GID信息,使得索引基因相关文献时并关联PMID、SID和GID字段。
Sphinx全文索引建立后,使用编程语言,如Perl和PHP,通过SQL检索语言即可快速提取任意词汇所在的文献、句子和共同出现基因,进行下一步分析。
优选地,所述关键词为有明确的生物医学含义的术语。
统计PubMed高频率出现的单词,筛选出无生物医学含义的词汇。收集网络来源的常见公共英语单词,一是3000个常见词,https://www.ef.com/wwen/english-resources/english-vocabulary/top-3000-words/;二是5000个常见词,来源https://www.wordfrequency.info/free.asp;三是Google分析的10000个常见词,来源https://github.com/first20hours/google-10000-english。
汇总去重后共计15000个单词。
优选地,所述术语库选自Gene Ontology、Disease Ontology、PolySearch2、CellMarke的术语和GenCLiP 2的关键词。
大多数术语与基因功能、细胞类型、组织、疾病、药物和不良反应有关。术语的形式包括单词、词组和短语,其中词组和短语由2、3或4个单词构成,例如“cell death”和“epidermal growth factor”等。剔除单词术语中的高频英语单词,剔除在基因相关摘要中出现少于5次的术语。
优选地,所述基因-关键词关联的计算公式为:
R=(1-S^NS×A^NA×E^NE)×(1+2N/NG+2N/NK)-(0.1×NA/N)
R表示基因-关键词关联评分;
S表示当基因和术语在出现在一篇摘要的一个句子时,无关联的概率;
A表示当基因和术语在出现在一篇摘要的不同句子时,无关联的概率;
E表示当基因和关键词出现在一篇摘要的多个句子时,无关联的概率;
N表示出现基因和术语的摘要篇数;
NS表示有一个句子出现基因和术语的摘要数;
NE表示有多个句子出现基因和术语的摘要数;
NA表示在不同句子出现基因和术语出现的摘要数;
NG表示基因的相关摘要数;
NK表示术语的相关摘要数;
1-S^NS×A^NA×E^NE表示至少有一篇文献提及基因和术语关联的概率;
1+2N/NG+2N/NK表示加权,对相关摘要数少的基因或术语加大权重;
0.1×NA/N表示罚分,基因和术语仅在摘要中共同出现时减分。
从候选术语库中筛选基因关键词,建立基因-关键词关联。假设如果在至少一处文献(句子或摘要)中提到基因和术语存在关联,那么它们之间的关联是真实的,则建立基因-关键词关联。给定基因相关文献,文献是否在描述真正的关联有一定的概率,例如,S表示不是的概率,1-S则表示是的概率。当基因和术语共同出现在不同的文献域时,S是不同的,文献域包括3种:i)摘要;ii)摘要中的句子;iii)摘要中的多个句子。每篇摘要应只计算一次概率。因此,如果存在N篇基因相关的文献,那么,基因和术语有关联的概率可通过1-S^N来计算。基于此假设,通过以上公式计算基因和关键词存在关联的评分。
根据经验,词组和短语设定A=0.9,S=0.7,E=0.55,对于单词,A=0.95,S=0.85,E=0.75,筛选关键词的阈值均为0.6,R得分高于阈值,则关联成立。一般地,对于词组和短语,摘要的最小数量为10,句子为3;而对于单词,摘要的最小数量为24,句子为6。计算术语库中所有术语与其文献共发生基因的R分值,将至少与两个基因关联的术语确认为关键词。
本发明的有益效果:本发明构建的方法一方面扩宽了事先定义的术语词汇库,除了GO术语外,整合其他权威数据库的术语;另一方面引入新的关键词筛选方法,对基因与术语存在关联的概率进行评分,综合基因和关键词共发生于摘要和句子的次数,筛选更牢固的基因-关键词关联。
截止至2019年3月10日,MEDLINE/PubMed摘要库共计有2900万篇摘要,基因名称识别方法共识别出22342个基因的457万篇相关摘要和1741万个相关句子。
候选术语库共有117670个术语,其中23890个术语至少在基因相关摘要中出现,我们将23894个术语作为候选关键词术语。通过基因-关键词关联评分公式的计算基因和候选术语关联的概率评分,筛选出19565个关键词,关联18871个基因。每个关键词平均关联58个基因,每个基因平均关联33个关键词。
附图说明
图1为本发明基因-关键词关联筛选流程图。
具体实施方式
为了更加简洁明了的展示本发明的技术方案、目的和优点,下面结合具体实施例及其附图对本发明做进一步的详细描述。
实施例
1、通过MEDLINE/PubMed的FTP(ftp://ftp.ncbi.nlm.nih.gov/pubmed/)获取PubMed的年度更新文献和日更新文献,从下载的XML文件提取NAT1基因的相关信息,如PMID(PubMed ID)、标题、摘要信息,将与NAT1基因相关的PubMed文献本地化,识别PubMed摘要中的出现NAT1基因名称,并且对应正确的Entrez Gene ID(GID),确定NAT1基因相关摘要,使用Perl的Text::Sentence模块把NAT1基因相关摘要分割成句子(SID),确定NAT1基因相关句子。最终搜索出与NAT1基因相关的共有583篇基因相关摘要,1862个基因相关句子。
2、使用搜索引擎Sphinx(http://sphinxsearch.com/)对NAT1基因相关文献进行全文索引,由于Sphinx本身不能存储文本字段,我们将其与MySQL结合,MySQL数据库存储文献和与之对应的PMID、SID和GID,Sphinx索引文献并关联PMID、SID和GID字段。Sphinx全文索引建立后,使用Perl编程语言,通过SQL检索语言即可快速提取任意词汇所在的文献、句子和共同出现NAT1基因,进行下一步分析。
3、术语库选自Gene Ontology、Disease Ontology、PolySearch2、CellMarke的术语和GenCLiP 2的关键词。术语的形式包括单词、词组和短语,其中词组和短语由2、3或4个单词构成。从术语库剔除单词术语中的高频英语单词,剔除在基因相关摘要中出现少于5次的术语,得到23894个候选关键词术语。
4、通过基因-关键词关联评分计算公式:R=(1-S^NS×A^NA×E^NE)×(1+2N/NG+2N/NK)-(0.1×NA/N),为词组和短语设定关联概率A=0.9,S=0.7,E=0.55,为单词设定关联概率A=0.95,S=0.85,E=0.75,计算每个候选术语与基因关联的概率评分。评分计算示例,基因NAT1的文献数NG为583,单词“CARCINOGEN”的关联评分R为(1-0.75^11×0.85^51×0.91^91)×(1+2×153/583+2×153/11554)-(0.1×91/153)=1.4919;词组“NATACTIVITY”的关联评分R为(1-0.55^1×0.7^13×0.9^23)×(1+2×37/583+2×37/370)-(0.1×23/37)=1.264。将R>0.6的候选关键词术语筛选为关键词,与NAT1建立关联,共筛选出87个与NAT1紧密相关的关键词,见表1。
表1:与基因NAT1关联的87个关键词
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (9)

1.一种从文献数据库筛选基因关键词的方法,其特征在于,包括以下步骤:
从文献数据库的摘要中识别基因相关摘要或/和基因相关句子,建立基因相关文献的全文索引,从术语库中筛选关键词,通过基因-关键词关联评分计算公式获得基因和关键词的关联概率评分,筛选出与基因密切相关的关键词。
2.如权利要求1所述的从文献数据库筛选基因关键词的方法,其特征在于,所述从文献数据库的摘要中识别基因相关摘要和基因相关句子的方法,包括以下步骤:将更新的文献本地化,根据建立的基因名称字典,识别文献摘要中出现的基因名称,与Entrez Gene ID比对,确定基因相关摘要;再使用模块把基因相关摘要分割成句子,确定基因相关句子。
3.如权利要求2所述的从文献数据库筛选基因关键词的方法,其特征在于,所述文献数据库为MEDLINE或/和PubMed。
4.如权利要求3所述的从文献数据库筛选基因关键词的方法,其特征在于,所述文献本地化的方法为:通过MEDLINE或/和PubMed的FTP获取数据库年度更新文献和日更新文献,从下载的XML文件提取PubMedID、标题、摘要信息,将PubMed文献本地化。
5.如权利要求2所述的从文献数据库筛选基因关键词的方法,其特征在于,所述使用的模块为Perl的Text::Sentence。
6.如权利要求1所述的从文献数据库筛选基因关键词的方法,其特征在于,所述建立基因相关文献的全文索引的方法,包括以下步骤:将搜索引擎与MySQL数据库结合,MySQL数据库存储文献和基因的PMID、SID和GID信息,使得索引基因相关文献时并关联PMID、SID和GID字段。
7.如权利要求1所述的从文献数据库筛选基因关键词的方法,其特征在于,所述关键词为有明确的生物医学含义的术语。
8.如权利要求1所述的从文献数据库筛选基因关键词的方法,其特征在于,所述术语库选自Gene Ontology、Disease Ontology、PolySearch2、CellMarke的术语和GenCLiP2的关键词。
9.如权利要求1所述的从文献数据库筛选基因关键词的方法,其特征在于,所述基因-关键词关联的计算公式为:
R=(1-S^NS×A^NA×E^NE)×(1+2N/NG+2N/NK)-(0.1×NA/N)
R表示基因-关键词关联评分;
S表示当基因和术语在出现在一篇摘要的一个句子时,无关联的概率;
A表示当基因和术语在出现在一篇摘要的不同句子时,无关联的概率;
E表示当基因和关键词出现在一篇摘要的多个句子时,无关联的概率;
N表示出现基因和术语的摘要篇数;
NS表示有一个句子出现基因和术语的摘要数;
NE表示有多个句子出现基因和术语的摘要数;
NA表示在不同句子出现基因和术语出现的摘要数;
NG表示基因的相关摘要数;
NK表示术语的相关摘要数;
^表示幂或次方;
1-S^NS×A^NA×E^NE表示至少有一篇文献提及基因和术语关联的概率;
1+2N/NG+2N/NK表示加权,对相关摘要数少的基因或术语加大权重;0.1×NA/N表示罚分,基因和术语仅在摘要中共同出现时减分。
CN201910571336.6A 2019-06-28 2019-06-28 一种从PubMed文献筛选基因关键词的方法 Active CN110349632B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910571336.6A CN110349632B (zh) 2019-06-28 2019-06-28 一种从PubMed文献筛选基因关键词的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910571336.6A CN110349632B (zh) 2019-06-28 2019-06-28 一种从PubMed文献筛选基因关键词的方法

Publications (2)

Publication Number Publication Date
CN110349632A true CN110349632A (zh) 2019-10-18
CN110349632B CN110349632B (zh) 2020-06-16

Family

ID=68177230

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910571336.6A Active CN110349632B (zh) 2019-06-28 2019-06-28 一种从PubMed文献筛选基因关键词的方法

Country Status (1)

Country Link
CN (1) CN110349632B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111739585A (zh) * 2020-06-24 2020-10-02 胡嘉欣 一种基于ncbi数据库的信息提取方法及其相关设备
CN112509640A (zh) * 2020-10-22 2021-03-16 复旦大学 基因本体项名称生成方法、装置及存储介质
CN112667772A (zh) * 2020-12-23 2021-04-16 深圳华大基因科技服务有限公司 一种基因关联程度确定方法及装置
WO2021139262A1 (zh) * 2020-07-29 2021-07-15 平安科技(深圳)有限公司 文献主题词聚合方法、装置、计算机设备及可读存储介质
RU2790285C1 (ru) * 2020-12-23 2023-02-16 БиДжиАй Дженомикс Ко., Лтд. Способ и устройство определения степени генной ассоциации
CN116796750A (zh) * 2023-08-24 2023-09-22 宁波甬恒瑶瑶智能科技有限公司 一种基于ner模型基因文献信息提取方法、系统及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1744080A (zh) * 2005-09-27 2006-03-08 南方医科大学 一种与特定功能相关的基因信息检索系统及用于该系统的检索词数据库的构建方法
CN102855398A (zh) * 2012-08-28 2013-01-02 中国科学院自动化研究所 基于多源信息融合的疾病潜在关联基因的获取方法
US20130053541A1 (en) * 2011-03-11 2013-02-28 Lynntech, Inc. Methods for discovering molecules that bind to proteins
CN106295252A (zh) * 2016-08-18 2017-01-04 杭州布理岚柏科技有限公司 用于基因产品的检索方法
CN107194206A (zh) * 2017-06-26 2017-09-22 思畅信息科技(上海)有限公司 一种基于大数据的染色体异常位点的筛选方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1744080A (zh) * 2005-09-27 2006-03-08 南方医科大学 一种与特定功能相关的基因信息检索系统及用于该系统的检索词数据库的构建方法
US20130053541A1 (en) * 2011-03-11 2013-02-28 Lynntech, Inc. Methods for discovering molecules that bind to proteins
CN102855398A (zh) * 2012-08-28 2013-01-02 中国科学院自动化研究所 基于多源信息融合的疾病潜在关联基因的获取方法
CN106295252A (zh) * 2016-08-18 2017-01-04 杭州布理岚柏科技有限公司 用于基因产品的检索方法
CN107194206A (zh) * 2017-06-26 2017-09-22 思畅信息科技(上海)有限公司 一种基于大数据的染色体异常位点的筛选方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
汪佳宏: "基于自由词的文献挖掘方法在人基因功能及分子网络研究的应用", 《中国博士学位论文全文数据库 医药卫生科技辑》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111739585A (zh) * 2020-06-24 2020-10-02 胡嘉欣 一种基于ncbi数据库的信息提取方法及其相关设备
WO2021139262A1 (zh) * 2020-07-29 2021-07-15 平安科技(深圳)有限公司 文献主题词聚合方法、装置、计算机设备及可读存储介质
CN112509640A (zh) * 2020-10-22 2021-03-16 复旦大学 基因本体项名称生成方法、装置及存储介质
CN112667772A (zh) * 2020-12-23 2021-04-16 深圳华大基因科技服务有限公司 一种基因关联程度确定方法及装置
WO2022134252A1 (zh) * 2020-12-23 2022-06-30 深圳华大基因股份有限公司 一种基因关联程度确定方法及相关设备
RU2790285C1 (ru) * 2020-12-23 2023-02-16 БиДжиАй Дженомикс Ко., Лтд. Способ и устройство определения степени генной ассоциации
CN112667772B (zh) * 2020-12-23 2023-04-07 深圳华大基因科技服务有限公司 一种基因关联程度确定方法及装置
CN116796750A (zh) * 2023-08-24 2023-09-22 宁波甬恒瑶瑶智能科技有限公司 一种基于ner模型基因文献信息提取方法、系统及存储介质
CN116796750B (zh) * 2023-08-24 2023-11-10 宁波甬恒瑶瑶智能科技有限公司 一种基于ner模型基因文献信息提取方法、系统及存储介质

Also Published As

Publication number Publication date
CN110349632B (zh) 2020-06-16

Similar Documents

Publication Publication Date Title
CN110349632A (zh) 一种从PubMed文献筛选基因关键词的方法
US10360507B2 (en) Systems, methods, and computer readable media for visualization of semantic information and inference of temporal signals indicating salient associations between life science entities
Moradi et al. Different approaches for identifying important concepts in probabilistic biomedical text summarization
US20220005608A1 (en) Method of predicting disease, gene or protein related to queried entity and prediction system built by using the same
CN108182262A (zh) 基于深度学习和知识图谱的智能问答系统构建方法和系统
CN108009182A (zh) 一种信息提取方法和装置
CN104699730A (zh) 用于识别候选答案之间的关系的方法和系统
WO2008046104A2 (en) Methods and systems for knowledge discovery
Bhatt A multi-perspective analysis of retractions in life sciences
Jeong et al. Intellectual structure of biomedical informatics reflected in scholarly events
CN112905764A (zh) 流行病咨询防治与培训系统构建方法及系统
US20140089246A1 (en) Methods and systems for knowledge discovery
Zhou et al. Team Cat-Garfield at TREC 2018 Precision Medicine Track.
CN115798733A (zh) 一种用于孤儿病的智能辅助推理系统及方法
Bystranowski et al. Half a century of bioethics and philosophy of medicine: A topic‐modeling study
CN116775897A (zh) 知识图谱构建和查询方法、装置、电子设备及存储介质
US20050033569A1 (en) Methods and systems for automatically identifying gene/protein terms in medline abstracts
Névéol et al. Multiple approaches to fine-grained indexing of the biomedical literature
Bouadjenek et al. Multi-field query expansion is effective for biomedical dataset retrieval
Yeshambel et al. Amharic adhoc information retrieval system based on morphological features
Al-Mubaid et al. A text-mining technique for extracting gene-disease associations from the biomedical literature
List Computational approaches to historical language comparison
Petrič et al. Bisociative knowledge discovery by literature outlier detection
Samuel et al. Mining online full-text literature for novel protein interaction discovery
Névéol et al. Automatic indexing of specialized documents: using generic vs. domain-specific document representations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200514

Address after: 510000 No. 1023-1063 Shatainan Road, Guangzhou, Guangdong Province

Applicant after: SOUTHERN MEDICAL University

Applicant after: GUANGZHOU SEQUMED BIOTECHNOLOGY Inc.

Address before: Room 905, building B3, No.11 Kaiyuan Avenue, Science City, Guangzhou high tech Industrial Development Zone, Guangzhou, Guangdong

Applicant before: GUANGZHOU SEQUMED BIOTECHNOLOGY Inc.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant