CN113946647A - 基于医学实体向量的DDIs搜索引擎及其构建方法 - Google Patents

基于医学实体向量的DDIs搜索引擎及其构建方法 Download PDF

Info

Publication number
CN113946647A
CN113946647A CN202111222447.XA CN202111222447A CN113946647A CN 113946647 A CN113946647 A CN 113946647A CN 202111222447 A CN202111222447 A CN 202111222447A CN 113946647 A CN113946647 A CN 113946647A
Authority
CN
China
Prior art keywords
ddis
search engine
entity
ddi
constructing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111222447.XA
Other languages
English (en)
Inventor
王理
潘文杰
尹泽宇
邵劲松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nantong University
Original Assignee
Nantong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nantong University filed Critical Nantong University
Priority to CN202111222447.XA priority Critical patent/CN113946647A/zh
Publication of CN113946647A publication Critical patent/CN113946647A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于医学实体向量的DDIs搜索引擎及其构建方法,其中构建方法包含以下步骤:S1:命名实体识别和数据库构建;S2:文献医学实体向量构建;S3:DDI二分类和四分类。由于其与Ising模型和Skip‑Gram模型的结合,它考虑了医学实体的全局和局部关系。医学实体向量的有用性可以在DDI任务中得到很好的证明。结果显示,我们的方法在DDI二分类任务中的F1值高达0.988,在DDI四分类任务中的F1值为0.993,优于以前的方法。

Description

基于医学实体向量的DDIs搜索引擎及其构建方法
技术领域
本发明涉及药物数据库构建技术领域,尤其涉及一种基于医学实体向量的DDIs搜索引擎及其构建方法。
背景技术
药物间的相互作用(DDIs)是指多种药物一起服用时,药物动力学或药效学特性的改变。在某些情况下,DDIs可能导致药物不良反应(ADRs)。ADRs被认为是一种复杂的,可以影响患者的健康,甚至导致死亡。此外,药物不良反应是临床试验失败的主要原因。因此,DDI已成为药物研究和药物警戒的重点。
由于基因组技术的进步,如下一代测序和高通量方法,每天都有大量的基因组变异信息数据产生。医学文献的数量增加,人工提取DDI是不现实的。且利用从各种渠道获得的不同数据库来识别DDI,这些数据库的质量参差不齐,内容的一致性有限,因此很难为每个相互作用提供真正的临床相关性。另一方面,这些数据库不能很好地适应近年来大量且不断增长的文献。此外,大量的最新和最有价值的信息是非结构化的,以自然语言书写,隐藏在已发表的文章、科学期刊、书籍和技术报告中。因此,在大量的数据库中不能保持所有已发表的关于DDIs的最新信息,造成医务人员的困惑。
发明内容
本发明的目的是为了解决现有技术中由于不能及时更新,限制了DDIs在科学研究和临床应用中的应用。
为了实现上述目的,本发明采用了如下技术方案:
一种基于医学实体向量的DDIs搜索引擎的构建方法,其特征在于:包含以下步骤:
S1:命名实体识别和数据库构建:下载引文,并抽取引文中摘要进行保存,然后对摘要中分词和语义类型进行标注,再进行实体词的筛选,接着过滤实体词,再重复分词和语义类型进行标注,最后筛选关键词;
S2:文献医学实体向量构建:构建稀疏矩阵和相关矩阵,并分批形成梯度,再进行梯度的修正和更新词的嵌入;
S3:DDI二分类和四分类。
优选的,所述S1中引文的下载路径为PubMed,所述S1中筛选实体词时需要保留的项目为DISO、GENE和CHEM。
优选的,所述S1中,使用QuickUMLS开源第三方python工具包对摘要文本进行分词和语义类型标注操作。
优选的,所述S1中过滤实体词,通过根据TextRank值和词频分别对此类实体词进行过滤,剔除TextRank值排前5%和词频为1的实体词,输出过滤后的三类实体。
优选的,所述S2中构建稀疏矩阵及相关矩阵的具体步骤为:将输入的摘要文本实体按照Ising Model的数据结构,构建出稀疏矩阵WISM
然后将WISM经过SLEP的大规模稀疏数据处理得到其相关矩阵WWCM
优选的,所述S2中梯度修正采取梯度下降法进行详细的分析。
优选的,所述S3包含以下步骤:预处理文本、生成向量、训练分类器并进行DDI二分类、训练分类器并进行DDI四分类。
优选的,预处理文本过程中遵循两个原则:如果一个药物对中的两个药物出现在同一个坐标结构中,则过滤掉相应的实例;在DrugBank和MedLine中分别删除相同药物的药对。
本申请还提供了一种基于医学实体向量的DDIs搜索引擎,使用上述所述的基于医学实体向量的DDIs搜索引擎的构建方法进行构建,利用MySQL 5.7数据库系统创建了一个多关系数据库用于数据存储和管理,并纳入了一个用户友好的搜索引擎和网络界面。
附图说明
图1为本发明中命名实体识别和LitDDI数据库构建的工作流程图;
图2为本发明中一个以"PubMed"格式下载的引文例子;
图3为本发明提出的基于医学实体向量的DDIs搜索引擎的构建方法的医学向量生成的概述图;
图4为本发明一实施方式中基于医学实体向量的DDIs搜索引擎搜索应用的一个示例;
图5为本发明一实施方式中基于医学实体向量的DDIs搜索引擎数据集成应用和实体相似性计算的示例。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,以下结合具体实施例,对本发明作进一步地详细说明。
部分英文释义:
PubMed:一个在线数据库,其中包含经过同行评审的生物医学文章的引文。引文是指文献的摘要、标题以及关键词等重要信息。PubMed提供了规范化的MeSH主题词(MeSHTerms)检索,可以获得较为全面且准确的检索结果。
DDI:药物相互作用(Drug-DrugInteraction)
NLM:美国国立医学图书馆(National Library of Medicine)
DISO、GENE和CHEM:症状、药物和基因
WISM:Ising稀疏矩阵(Ising Sparse Matrix)
WWCM:全局相关矩阵(Whole Correlation Matrix)
LitDDI:基于医学实体向量的DDIs搜索引擎
SLEP:Sparse Learningwith Efficient Projections具有有效预测的稀疏学习
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用不同于在此描述的其他方式来实施,因此,本发明并不限于下面公开说明书的具体实施例的限制。
基于医学实体向量的DDIs搜索引擎的构建方法,包含以下步骤:
S1:命名实体识别和LitDDI数据库构建:
具体的,请参阅图1,在一实施方式中,所述S1包含以下步骤:
A1:从PubMed中下载引文。
所述PubMed是一个在线数据库,其中包含经过同行评审的生物医学文章的引文。引文是指文献的摘要、标题以及关键词等重要信息。PubMed提供了规范化的MeSH主题词(MeSH Terms)检索,可以获得较为全面且准确的检索结果。
以肝癌为例,在PubMed官网上输入检索式:Liver Neoplasms[MeSH Terms],截止2020年11月24日日共检索得到176,520篇与肝癌相关的文献,选择“PubMed”格式下载检索到的176,520篇引文。
A2:抽取引文中的摘要,并保存。
以“PubMed”格式下载的引文中包含一篇文献的重要信息如摘要、标题和关键词等,以不同的字段名表示。在一实施方式中,如图2所示,“AB”字段的内容由虚线框住,代表文章的摘要,根据“AB”字段抽取下载的176,520篇引文的摘要文本,并以txt文本格式保存。
A3:分词和语义类型标注
在一实施方式中,使用QuickUMLS开源第三方python工具包对A2中获得的摘要文本进行分词和语义类型标注操作。
其中,分词是指一条完整的句子,分解成多个独立的实体词,QuickUMLS是以NLM提供的超级叙词表作为词典,以词的长度作为分词规则,基于最长匹配算法,仅将相似度为1的实体词挑选出来。
语义类型标注是指将实体词与语义类型进行匹配,NLM共设计了133种语义类型,包括症状、生物功能和先天异常等,每一个实体至少匹配一个语义类型。
A4:筛选实体词:
实体的语义类型有多种,如细胞组织、身体部位和哺乳动物等,在一实施方式中,需要保留的项目为DISO、GENE和CHEM。
在一实施方式中,以肝癌为例,经过A3和A4操作后,得到实体词DISO类827,258个,CHEM类1,014,529个,GENE类350,077个。
A5:过滤实体词
在一实施方式中,由于词频过高或过低的实体词医学含义较低,根据TextRank值和词频分别对此类实体词进行过滤。剔除TextRank值排前5%和词频为1的实体词,输出过滤后的三类实体。
以肝癌为例,在A5操作后,得到实体词DISO类254,366个,CHEM类80,632个,GENE类121,476个。
A6:重复A3的步骤。
A7:筛选关键词:
具体的,在一实施方式中,保留DISO、GENE和CHEM三类语义类型的关键词。由于关键词是文章作者手工整理的,能够概括文章重要内容的词,因此关键词具有医学含义,不再需要进行过滤操作。
以肝癌为例,经过本步骤操作后,得到实体词DISO类1,747个,CHEM类7,222个,GENE类2,711个。
S2:文献医学实体向量构建:
在一实施方式中,请参阅图3,所述S2包含以下步骤:
B1:构建稀疏矩阵和相关矩阵;
具体的,在一实施方式中,将输入的摘要文本实体按照Ising Model的数据结构,构建出稀疏矩阵WISM
然后将WISM经过SLEP的大规模稀疏数据处理得到其相关矩阵WWCM
在一实施方式中,采用Logistic Regression的方式来解决Ising Spares Matrix的正则化逻辑问题。
Figure BDA0003313103720000061
WWCM=(X1X2,...,Xall)+(X1X2,...,Xall)T (2)
上述公式(1)为求解WWCM过程中的计算公式,其中wt是所有文本实体中第t个实体的权值,zt是我们输入的WISM的第t列,zkt是由稀疏矩阵中抽取的第k行的第t列实体,用于求解zkt与其它实体的相关度,Xk则是zkt对应的相关度的解,λ是l1规范正则化参数,ρ是平方2范数的正则化参数。
B2:分批生成梯度
在一实施方式中,为了解决数据量过大引起内存崩溃的问题,所述B2包含以下步骤:
(a)将输入的文本数据实体划分为n个Batch来处理数据,我们取其中第i个Batch作为Batchi。Batchi中的实体为(Vmi1,Vmi2,...,Vmij)T,则有
Figure BDA0003313103720000071
(b)输入Batchi的文本数据实体(Vmi1,Vmi2,...,Vmij)T,初始化得到文本数据实体的Embedding(Vei1,Vei2,...,Veij)T
(Vei1,Vei2,...,Veij)T=(Vmi1,Vmi2,...,Vmij)T·WVe (4)
上述公式(4)中Vmij中j为Batchi中的第j个实体,相应的,Veij为第j个实体相应的Embedding。WVe则是向量生成过程中的权重矩阵。
(c)将Batchi经过配对生成Skip-Gram关系,得到每个词的上下文Con(Vmij)以及负采样词空间NEG(Vmij)。继续计算其预测概率
Figure BDA0003313103720000072
Figure BDA0003313103720000073
u∈NEG(Vmij),其中:
Figure BDA0003313103720000074
上式(5)中,
Figure BDA0003313103720000075
u∈NEG(Vmij),σ为sigmoid激活函数,
Figure BDA0003313103720000076
表示词u对应的同为待训练参数。
(d)依据Batchi中Veij计对上下文Con(Vmij)以及负采样词空间NEG(Vmij)中各词配对之间的预测概率,计算损失函数式(6)。
Figure BDA0003313103720000081
B3:梯度的修正和更新词嵌入:
具体的,采取多种优化方案得到梯度以便于优化参数,为方便理解采取梯度下降法进行详细的分析。
在一实施方式中,设:
Figure BDA0003313103720000082
依据式(7)分别计算关于θu(8)与Veij(9)的梯度:
Figure BDA0003313103720000083
Figure BDA0003313103720000084
然后,依据实体与实体之间的配对关系,从Whole Correlation Matrix(WWCM)中索引获取实体与实体配对关系对应的局部关系矩阵Sub Correlation Matrix(WSCM)以及与负采样配对关系的关系矩阵Neg Correlation Matirx(WNCM)。
接着,将WSCM、WNCM与梯度结合,重新分配权重而非平均分配后,反向传播更新Vmij的词嵌入
Figure BDA0003313103720000085
以及词u对应的辅助向量
Figure BDA0003313103720000086
Figure BDA0003313103720000091
Figure BDA0003313103720000092
S3:DDI二分类和四分类:
我们在DDIExtaction 2013语料库上评估和比较了我们模型的性能,该语料库是DDIs提取任务的黄金标准数据集。它由792个从DrugBank数据库(DDI-DrugBank数据集)和其他233个关于DDIs主题的Medline摘要(DDI-MedLine数据集)组成。
在这项任务中,输入是一个包含一对药物的句子。如果这对药物代表一个真正的DDI,模型需要输出DDI类型;否则,模型需要指出这对药物不是一个真正的DDI。表1表示每种DDI类型的例句,这些类型包括:
·mechanism:该类型用于注释由其药代动力学机制描述的DDIs。
·effect:该类型用于注释描述效应或药效机制的DDI。
·advice:该类型用于给出有关药物相互作用的建议或意见时。
·int:该类型用于DDI出现在文本中而不提供任何额外的信息时。
表1. 4种类型的药物相互作用的例句
Figure BDA0003313103720000093
评价指标:
(i)
Figure BDA0003313103720000094
(ii)
Figure BDA0003313103720000101
(iii)
Figure BDA0003313103720000102
(iv)
Figure BDA0003313103720000103
具体的,在一实施方式中,所述S3包含以下步骤:
C1:对文本进行预处理:
在一实施方式中,根据早期研究的错误分析,基于两个原则来进行预处理:
1、如果一个药物对中的两个药物出现在同一个并列结构中,则过滤掉相应的实例;
并列结构包括:
(1)药物1(and)药物2;
(2)药物1(or)药物2;
(3)药物1(,and)药物2;
(4)药物1(and other)药物2;
(5)药物1(,or)药物2;
(6)药物1(,)药物2
2、在DrugBank和MedLine中分别删除相同药物的药对。
C2:向量生成:
这些药物是从数据集中提取的,并在生成的实体向量中根据药物对名称进行匹配。
以结直肠癌为例,训练集有2,919对药物,测试集有649对药物分配到向量中。
C3:训练分类器并进行DDI二分类
在DDIExtraction任务中,有两个子任务。DDI二分类和DDI四分类。DDI二分类指的是确定一个药物对是否有相互作用关系。如果存在相互作用关系,则为阳性,反之则为阴性。将得到的药对向量作为分类器的输入,得到二分类结果。
drug_entity1和drug_entity2的向量相加在一起训练分类器,可以定义为drug_entitycombination。分类器的输入是drug_entitycombination和DDI的二分类标签。然后,将训练好的分类器与测试集中的金标准进行比较,得到验证结果。评估是通过比较预测的结果和金标准来进行的。
此外,由于正负样本之间的极度不平衡,影响了性能的准确性,因此我们进行了负采样。
C4:训练分类器并进行DDI四分类
DDI的四分类是指药物-药物相互作用的4种具体的阳性样本类型。将drugentity1和drug entity2的向量加在一起,以训练分类器。
在四分类任务中,数据量小的疾病数据集,无法进行四分类。在DDI分类中采用了两种策略:(i)将糖尿病、肝癌、高血压和结直肠癌的整体摘要合并生成向量,训练分类器,得到预测结果。(ii)在单独的疾病数据集中生成向量。
实施例1:
医学概念实体的统计
请参照表2,表2给出了LitDDI数据库中摘要的统计数据,共有1,804,055条来自PubMed的摘要,涉及11中疾病,其中8种癌症,3种在人群中发病率较高的疾病,其中摘要数量最多的是糖尿病(445,603),最少的是甲状腺癌(46,440)。
表2.LitDDI数据库中摘要的统计
疾病 检索词[MeSH Terms] 摘要数量
结直肠癌 Colorectal Neoplasms 203,312
乳腺癌 Breast Neoplasms 274,581
前列腺癌 Prostatic Neoplasms 130,063
宫颈癌 Uterine cervical neoplasms 75,636
甲状腺癌 Thyroid Neoplasms 46,440
肝癌 Liver Neoplasms 167,335
胃癌 Stomach Neoplasms 97,357
食管癌 Esophageal Neoplasms 51,080
抑郁症 Depression 19,991
糖尿病 Diabetes 445,603
高血压 hypertension 292,657
合计 1,804,055
请参阅表3,表3显示了从文摘中提取的三类医学实体(DISO,GENE和CHEM)的数量统计,在数据库中,共有78,526个DISO实体,150,374个CHEM实体和60,672个GENE实体。
表3.LitDDI数据库中摘要实体的统计
Figure BDA0003313103720000121
文本的预处理:
请参阅表4,表4显示了金标准数据集的统计数据。在文本预处理之前,训练集有29,737个DDIs,分别有4,637个阳性例子和29,737个阴性例子。在测试集中,有4,999个DDIs,分别有908个阳性例子和4,091个阴性例子。
表4.DDIExtraction数据集的统计数据
Figure BDA0003313103720000131
DDI二分类
请参阅表5,表5显示了在没有进行负样本过滤的情况下,测试数据集的DDI二分类结果。我们的方法在正负样本极度不平衡的情况下对不同疾病集的二分类很有效,F1值在0.8左右。F1值最高的是肝癌数据集,其F1值为0.902。
表5.没有进行负样本过滤的DDI二分类性能
疾病 训练集 测试集 准确率 精确率 召回率 F1
结直肠癌 2,919 649 0.961 0.899 0.807 0.850
乳腺癌 3,403 667 0.960 0.927 0.784 0.849
前列腺癌 2,507 551 0.966 0.909 0.854 0.881
子宫癌 993 226 0.951 0.875 0.609 0.718
甲状腺癌 603 90 0.967 1.000 0.813 0.897
肝癌 3,134 608 0.975 0.972 0.841 0.902
胃癌 1,659 375 0.955 0.955 0.737 0.832
食管癌 974 200 0.920 0.960 0.615 0.750
抑郁症 2,142 468 0.968 0.944 0.810 0.872
糖尿病 5,748 1,103 0.964 0.912 0.832 0.870
高血压 4,656 877 0.973 0.910 0.878 0.894
请参阅表6,表6显示了对各种疾病集进行负样本过滤后的测试数据集的DDI二分类结果。由于原始数据集中阳性样本与阴性样本的比例约为1:5,经过下采样后,阳性样本与阴性样本的比例为1:2。例如,在结直肠癌数据集中有2,919个药物对。其中,有2511个阴性样本和480个阳性样本。负样本平衡后,有910个药物对(480个阳性对和502个阴性对)。此外,训练集超过900个、测试集超过180个的疾病数据集被保留为平衡数据集。
表6.进行负样本过滤后的DDI二分类性能
疾病 训练集(阳/阴) 测试集(阳/阴) 准确率 精确率 召回率 F1
结直肠癌 910(502/408) 200(112/88) 0.980 0.988 0.966 0.977
乳腺癌 1059(586/473) 211(114/97) 0.972 0.969 0.969 0.969
肝癌 934(549/385) 187(105/82) 0.989 0.988 0.988 0.988
糖尿病 1752(998/754) 349(181/161) 0.980 0.975 0.981 0.978
高血压 1407(812/595) 267(152/115) 0.974 0.974 0.965 0.969
在平衡数据集上,对5个疾病数据集的二元分类结果进行了重新计算。可以看出,在进行正负样本平衡后,性能有所提高,所有F1值都在0.96以上。最好的结果仍然是在肝癌数据集上,平衡前的F1值为0.902,平衡后为0.988。
为了评估我们方法的可行性,对以前的方法进行了比较,表7显示了我们方法在DDI二分类任务上的表现。由于其他方法都使用"精确率"作为其评价指标,"精度"是评价我们工作的主要评价指标。与之前所有的方法相比,LitDDI获得了最好的性能,并且优于WBI-DDI,之前最好的技术。在没有负采样的情况下,我们基于word2vec、Ising和XGBoost的方法在精度上比DDI二元分类的结果有明显的改善。采用欠抽样,精度从0.899提高到0.988。因此,LitDDI的精确度比WBI-DDI的精确度高12%(从0.861到0.988)。除此之外,在召回率和F1指标方面,也可以得出结论,在DDI二分类任务中,我们的方法优于以前的方法。
表7.测试数据集上DDI二分类的性能比较
Figure BDA0003313103720000141
Figure BDA0003313103720000151
*表示没有负样本过滤;**表示负样本过滤后
DDI四分类
为了评估我们的方法在DDI分类中的潜力,我们与其他方法的性能比较见表8。在DDI分类的任务中,我们的策略(i)与其他方法进行了比较。我们的方法优于其他方法。其他方法中表现最好的是Zhu等人的方法,F1分数为0.809,精确率和召回值分别为0.810和0.809。在我们的方法中,F1得分、精度和召回率分别提高到0.964、0.972和0.958。
表8.测试数据集上DDI分类的性能比较
研究 方法 精确率 召回率 F1
LitDDI 策略(i) 0.972 0.958 0.964
Thomas et al. SL+SLW+TEES 0.642 0.579 0.609
Kim et al. linear kernel-based N/A N/A 0.670
Chowdhury et al. multi-phase kernel based 0.646 0.656 0.651
Zheng et al. graph kernel N/A N/A 0.684
Sahu et al. LSTM 0.734 0.697 0.715
Asada et al. GCNs 0.733 0.718 0.725
Zhang et al. RNN 0.741 0.718 0.729
Sun et al. RHCNN 0.773 0.737 0.754
Li et al. GCNs 0.776 0.757 0.766
Zheng et al. LSTM+RNN+attention 0.784 0.762 0.773
Peng et al. BERT N/A N/A 0.799
Zhu et al. BioBERT 0.810 0.809 0.809
表9描述了两种DDI分类策略的性能比较。在策略(i)中,总共有798,958个摘要被组合起来进行嵌入生成。在DDI分类任务中,两种策略都表现出有效的性能,精确度、准确率、召回率和F1都在0.95以上。此外,通过比较这两种策略,策略(ii)的表现比策略(i)性能更好。换句话说,它对各种疾病数据集中的DDI分类更加准确和有效。
表9.与DDI四分类的两种策略的性能比较
Figure BDA0003313103720000161
“summary”代表高血压,肝癌,糖尿病和结直肠癌
本申请还提供了一种基于医学实体向量的DDIs搜索引擎,其利用MySQL5.7数据库系统创建了一个多关系数据库用于数据存储和管理。纳入了一个用户友好的搜索引擎和网络界面,供用户搜索和浏览药物相互作用和相关研究。对于网络浏览,检索系统的前台页面是基于VUE的。Python flask是后台操作系统。nginx被用来作为检索系统的网络服务器。Ubuntu 1804是运行各种服务器的主服务器。检索基础设施是由Elasticsearch 7.0提供的。Elasticsearch是一个使用Lucene库实现的搜索引擎,具有额外的强化搜索功能。BM25评分框架被用来检索与概念唯一标识符(CUI)相关的文章。
具体应用:
(A)DDI查询搜索
当输入两个药物术语的CUI时,药物-药物相互作用的结果将提供给用户。搜索引擎的主要功能是预测和分类药物-药物相互作用。后台经过计算,返回两种药物之间的关系。此外,搜索引擎还返回同时出现的两种药物实体的摘要,以方便药代动力学研究。
请参阅图4,图4为DDI搜索应用程序的一个示例。其中图4(A)为输入界面,输入C0885548-C0302912后,并按下检索件,显示如图4(B)所示。
(B)数据整合
由于每个医学术语在不同的医学词典中都被赋予了不同的含义,因此整合这些词典并提供不利的表示方法对于全面理解这一医学实体是很有意义的。因此,在LitDDI的检索页面上显示了来自SNOMED-CT、MeSH、LOINC、HPO等不同词典的代码和医学字符串。
(C)实体相似度计算
三类实体与CUI相关,并根据相关程度进行排序。可以得到与输入实体最相关的其他实体,这可以促进医学应用,如药物发现。对于每个实体,使用余弦距离作为距离度量,在向量空间计算出前20个最相关的医学实体。如果输入药物实体的CUI,则显示基于相似性得分的前20个实体。例如,在乳腺癌数据集中,基于相似度得分的"trastuzumab"(CUI:C2935436)的前20个最相关的实体显示在表10中。
表10.基于相似度得分的"曲妥珠单抗"的前20个最相关实体
Figure BDA0003313103720000171
Figure BDA0003313103720000181
一个实体相似性计算应用的例子。在乳腺癌数据库中,根据相似度得分,得出"trastuzumab"(CUI:C2935436)的前20个最相关的实体。"CUI"表示概念唯一标识符。
请参阅图5,图5(A)为输入:breast inflammation;
结果页面:
图5(B)从其他医学词典检索不同的代码和字符串。
图5(C)网页上还显示了前20个最相关的实体和CUI。
本申请提供的一种基于医学实体向量的DDIs搜索引擎的构建方法,由于其与Ising模型和Skip-Gram模型的结合,它考虑了医学实体的全局和局部关系。医学实体向量的有用性可以在DDI任务中得到很好的证明。结果显示,我们的方法在DDI二分类任务中的F1值高达0.988,在DDI四分类任务中的F1值为0.993,优于以前的方法。此外,与其他DDI数据库和搜索引擎相比,我们的搜索引擎的主要优势是检索相关的摘要和可重复使用的向量。
目前主流的词向量生成方法采取简单的随机梯度优化方案,对于词袋中的不同词,梯度平均贡献给每个词向量,如word2vec。然而,有必要考虑到不同的上下文词对中心词有不同程度的影响。在此基础上,我们设计了一种新的嵌入生成方法,在医学文献中确定了三类重要的实体(GENE、CHEM和DISO类型)用于向量生成。此外,医学实体向量的质量通过DDI分类任务得到了很好的证明。
以上所述仅为本发明的实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围。

Claims (9)

1.一种基于医学实体向量的DDIs搜索引擎的构建方法,其特征在于:包含以下步骤:
S1:命名实体识别和数据库构建:下载引文,并抽取引文中摘要进行保存,然后对摘要中分词和语义类型进行标注,再进行实体词的筛选,接着过滤实体词,再重复分词和语义类型进行标注,最后筛选关键词;
S2:文献医学实体向量构建:构建稀疏矩阵和相关矩阵,并分批形成梯度,再进行梯度的修正和更新词的嵌入;
S3:DDI二分类和四分类。
2.根据权利要求1所述的基于医学实体向量的DDIs搜索引擎的构建方法,其特征在于:所述S1中引文的下载路径为PubMed,所述S1中筛选实体词时需要保留的项目为DISO、GENE和CHEM。
3.根据权利要求1所述的基于医学实体向量的DDIs搜索引擎的构建方法,其特征在于:所述S1中,使用QuickUMLS开源第三方python工具包对摘要文本进行分词和语义类型标注操作。
4.根据权利要求1所述的基于医学实体向量的DDIs搜索引擎的构建方法,其特征在于:所述S1中过滤实体词,通过根据TextRank值和词频分别对此类实体词进行过滤,剔除TextRank值排前5%和词频为1的实体词,输出过滤后的三类实体。
5.根据权利要求1所述的基于医学实体向量的DDIs搜索引擎的构建方法,其特征在于:所述S2中构建稀疏矩阵及相关矩阵的具体步骤为:将输入的摘要文本实体按照IsingModel的数据结构,构建出稀疏矩阵WISM
然后将WISM经过SLEP的大规模稀疏数据处理得到其相关矩阵WWCM
6.根据权利要求1所述的基于医学实体向量的DDIs搜索引擎的构建方法,其特征在于:所述S2中梯度修正采取梯度下降法进行详细的分析。
7.根据权利要求1所述的基于医学实体向量的DDIs搜索引擎的构建方法,其特征在于:所述S3包含以下步骤:预处理文本、生成向量、训练分类器并进行DDI二分类、训练分类器并进行DDI四分类。
8.根据权利要求7所述的基于医学实体向量的DDIs搜索引擎的构建方法,其特征在于:预处理文本过程中遵循两个原则:如果一个药物对中的两个药物出现在同一个坐标结构中,则过滤掉相应的实例;在DrugBank和MedLine中分别删除相同药物的药对。
9.一种基于医学实体向量的DDIs搜索引擎,其特征在于:使用权利要求1-8任意一项所述的基于医学实体向量的DDIs搜索引擎的构建方法进行构建,利用MySQL 5.7数据库系统创建了一个多关系数据库用于数据存储和管理,并纳入了一个用户友好的搜索引擎和网络界面。
CN202111222447.XA 2021-10-20 2021-10-20 基于医学实体向量的DDIs搜索引擎及其构建方法 Pending CN113946647A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111222447.XA CN113946647A (zh) 2021-10-20 2021-10-20 基于医学实体向量的DDIs搜索引擎及其构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111222447.XA CN113946647A (zh) 2021-10-20 2021-10-20 基于医学实体向量的DDIs搜索引擎及其构建方法

Publications (1)

Publication Number Publication Date
CN113946647A true CN113946647A (zh) 2022-01-18

Family

ID=79332071

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111222447.XA Pending CN113946647A (zh) 2021-10-20 2021-10-20 基于医学实体向量的DDIs搜索引擎及其构建方法

Country Status (1)

Country Link
CN (1) CN113946647A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114692644A (zh) * 2022-03-11 2022-07-01 粤港澳大湾区数字经济研究院(福田) 一种文本实体标注方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114692644A (zh) * 2022-03-11 2022-07-01 粤港澳大湾区数字经济研究院(福田) 一种文本实体标注方法、装置、设备及存储介质
CN114692644B (zh) * 2022-03-11 2024-06-11 粤港澳大湾区数字经济研究院(福田) 一种文本实体标注方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
Luo Efficient English text classification using selected machine learning techniques
US10957433B2 (en) Clinical concept identification, extraction, and prediction system and related methods
Garg Drug recommendation system based on sentiment analysis of drug reviews using machine learning
Liu et al. An overview of topic modeling and its current applications in bioinformatics
Ho Knowledge discovery
Milosevic et al. A framework for information extraction from tables in biomedical literature
Mustafa et al. A multiclass depression detection in social media based on sentiment analysis
Yi et al. Drug-drug interaction extraction via recurrent neural network with multiple attention layers
Zeng et al. Identifying breast cancer distant recurrences from electronic health records using machine learning
Lever et al. A collaborative filtering-based approach to biomedical knowledge discovery
Cao et al. Multi-information source hin for medical concept embedding
Karami Fuzzy topic modeling for medical corpora
French et al. Text mining for neuroanatomy using WhiteText with an updated corpus and a new web application
Jiang et al. Integrating image caption information into biomedical document classification in support of biocuration
Hernandez et al. An automated approach to identify scientific publications reporting pharmacokinetic parameters
Memarzadeh et al. A study into patient similarity through representation learning from medical records
Sehgal et al. Identifying relevant data for a biological database: Handcrafted rules versus machine learning
Quemy et al. ECHR-OD: On building an integrated open repository of legal documents for machine learning applications
CN113946647A (zh) 基于医学实体向量的DDIs搜索引擎及其构建方法
Miftahutdinov et al. Drug and disease interpretation learning with biomedical entity representation transformer
Islamaj Doğan et al. Click-words: learning to predict document keywords from a user perspective
Zhang et al. Enhancing clinical decision support systems with public knowledge bases
Noh et al. Document retrieval for biomedical question answering with neural sentence matching
Chowdhury et al. A new method for extractive text summarization using neural networks
Quemy European court of human right open data project

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination