CN116882496B - 一种多级逻辑推理的医学知识库构建方法 - Google Patents
一种多级逻辑推理的医学知识库构建方法 Download PDFInfo
- Publication number
- CN116882496B CN116882496B CN202311150596.9A CN202311150596A CN116882496B CN 116882496 B CN116882496 B CN 116882496B CN 202311150596 A CN202311150596 A CN 202311150596A CN 116882496 B CN116882496 B CN 116882496B
- Authority
- CN
- China
- Prior art keywords
- medical
- text data
- medical text
- semantic
- potential
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000009411 base construction Methods 0.000 title claims abstract description 19
- 239000013598 vector Substances 0.000 claims abstract description 241
- 239000011159 matrix material Substances 0.000 claims abstract description 66
- 238000013507 mapping Methods 0.000 claims abstract description 21
- 238000012545 processing Methods 0.000 claims description 19
- 238000013527 convolutional neural network Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 15
- 238000007781 pre-processing Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 11
- 239000003814 drug Substances 0.000 claims description 10
- 238000011282 treatment Methods 0.000 claims description 10
- 229940079593 drug Drugs 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 3
- 230000000153 supplemental effect Effects 0.000 claims description 3
- 229940126585 therapeutic drug Drugs 0.000 claims description 3
- 238000011285 therapeutic regimen Methods 0.000 claims description 3
- 238000011269 treatment regimen Methods 0.000 claims description 3
- 230000001537 neural effect Effects 0.000 claims 1
- 239000012141 concentrate Substances 0.000 abstract 1
- 238000004891 communication Methods 0.000 description 7
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 6
- 201000010099 disease Diseases 0.000 description 4
- 230000010354 integration Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000000474 nursing effect Effects 0.000 description 1
- 230000003449 preventive effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Public Health (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及医学知识库构建的技术领域,公开了一种多级逻辑推理的医学知识库构建方法,所述方法包括:将预处理后的医学文本数据映射为字符向量,对医学文本数据中的潜在医学词汇进行编码,将潜在医学词汇的编码信息融入字符向量中,提取医学文本数据中字符序列的局部特征向量,构成多特征融合的医学文本特征向量序列数据;生成表征语义编码信息的全局语义信息矩阵,对全局语义信息矩阵进行解码操作并构建医学知识库。本发明以字符向量为基础,利用局部特征向量以及潜在医学词汇的编码信息将推理主体集中在特定的有效字符中,得到不同医学文本数据的语义编码信息,利用语义向量间的相似性进行不同医学文本数据的内部关联进而构建得到医学知识库。
Description
技术领域
本发明涉及医学知识库构建的技术领域,尤其涉及一种多级逻辑推理的医学知识库构建方法。
背景技术
医学知识库是将医学期刊文献、医学指南、医学教材、药品说明书等可信的医学知识提炼以要点的形式向医生和医疗从业人员提供知识服务,是医生和医疗从业人员医疗、学习过程中使用较多的工具。但是当前没有适用于基层医生和基层医疗机构的医学知识库,对基层医生和基层医疗机构医疗服务能力的提升产生了不利影响。 针对该问题,本发明提出一种多级逻辑推理的医学知识库构建方法,实现医学知识整合,构建医学知识系统学习策略。
发明内容
有鉴于此,本发明提供一种多级逻辑推理的医学知识库构建方法,目的在于:1)基于预训练语言模型生成医学文本数据的字符向量序列,并从医学文本数据中提取表征专业医学专有名词的潜在医学词汇,基于潜在医学词汇的出现频率确定信息权重,结合信息权重和独热编码结果生成潜在医学词汇的编码信息,并利用卷积神经网络提取医学文本数据中字符序列的字形结构信息,作为局部特征向量,将融入潜在医学词汇编码信息的字符向量与局部特征向量进行拼接,得到多特征融合的医学文本特征向量序列数据,实现不同角度的医学文本特征表示;2)根据多特征融合结果进行语义关系推理,在语义关系推理过程中,以字符向量为基础,利用局部特征向量以及潜在医学词汇的编码信息将推理主体集中在特定的有效字符中,构建得到医学文本特征向量序列数据的全局语义信息矩阵,通过对全局语义信息矩阵进行解码操作,得到不同医学文本数据的语义向量间相似性,利用语义向量间的相似性进行不同医学文本数据的内部关联,实现内部关联的医学文本数据之间的跳转,得到由潜在医学词汇、字形结构信息多级逻辑推理得到的医学知识内部关联关系,并构建得到基于医学知识内部关联关系的医学知识库。
实现上述目的,本发明提供的一种多级逻辑推理的医学知识库构建方法,包括以下步骤:
S1:采集医学文本数据并进行预处理,得到预处理后的医学文本数据;
S2:将预处理后的医学文本数据映射为固定维数的字符向量,对医学文本数据中的所有潜在医学词汇进行编码,将潜在医学词汇的编码信息融入字符向量中,并利用卷积神经网络提取医学文本数据中字符序列的局部特征向量;
S3:将融入潜在医学词汇编码信息的字符向量与局部特征向量进行拼接,得到多特征融合的医学文本特征向量序列数据;
S4:构建全局语义编码模型,生成医学文本特征向量序列数据的全局语义信息矩阵,所述全局语义编码模型以构建得到的多特征融合的医学文本特征向量序列数据为输入,以全局语义信息矩阵为输出;
S5:对全局语义信息矩阵进行解码操作,得到不同医学文本数据的语义向量间相似性,利用语义向量间的相似性进行不同医学文本数据的内部关联,构建得到医学知识库。
作为本发明的进一步改进方法:
可选地,所述S1步骤中采集医学文本数据,包括:
采集N组医学文本数据,其中每组医学文本数据包括病症描述、治疗方案、治疗药物信息以及其他补充信息,所采集N组医学文本数据的集合表示为:
;
其中:
表示所采集的第n组医学文本数据,表示医学文本数据中的病症描述文本数据,表示医学文本数据中的治疗方案文本数据,表示医学文本数据中的治疗药物信息文本数据,表示医学文本数据中的其他补充信息文本数据。
在本发明实施例中,每组医学文本数据对应一种疾病的描述信息,病症描述包括疾病的定义、病因、临床表现、相关病症、治疗方法、推荐医院、预防措施、禁忌、严重性以及传染性,治疗方案包括治疗方法描述、疗效、化验/体检方案以及正常指标,治疗药物信息包括药物作用、药物成分、药物禁忌、用法以及副作用,其他补充信息包括治疗后的调养流程等等。
可选地,所述S1步骤中对医学文本数据进行预处理,包括:
对所采集的医学文本数据进行预处理,其中医学文本数据的预处理流程为:
利用预构建的潜在医学词汇词典对任意一组医学文本数据进行潜在医学词汇匹配,将匹配成功的潜在医学词汇在医学文本数据中进行标注,其中潜在医学词汇匹配流程为:
对于医学文本数据中的任意一句文本,截取前s个文本字符与潜在医学词汇词典中的潜在医学词汇进行比对,若比对不成功,则截取前s-1个文本字符与潜在医学词汇词典中的潜在医学词汇进行比对,依此类推,直到比对成功或待比对文本字符仅剩一个文本字符,将比对成功的连续文本字符作为匹配成功的潜在医学词汇,并在该句文本中删去前s个文本字符,重新进行潜在医学词汇匹配;
提取医学文本数据中每个字符的偏旁,并统计每个偏旁出现的频率。
可选地,所述S2步骤中将预处理后的医学文本数据映射为固定维数的字符向量,对医学文本数据中的所有潜在医学词汇进行编码,包括:
将预处理后的医学文本数据映射为固定维数的字符向量,并对医学文本数据中的所有潜在医学词汇进行编码,其中字符向量的映射流程以及潜在医学词汇的编码流程为:
获取大规模医学知识文本数据作为语料库,采用Word2Vec模型进行训练,训练得到Word2Vec预训练语言模型,将任意一组医学文本数据输入到Word2Vec预训练语言模型中,得到医学文本数据对应的字符向量,其中医学文本数据对应的字符向量为:
;
其中:
表示医学文本数据对应的字符向量;
表示医学文本数据中第个文本字符的映射结果,映射结果的维数均为128维,表示医学文本数据中的文本字符总数;
对于任意潜在医学词汇word,计算其信息权重:
;
;
其中:
表示潜在医学词汇word的信息权重;
表示潜在医学词汇word出现的频率,表示N组医学文本数据中潜在医学词汇出现的总数,表示潜在医学词汇word在N组医学文本数据中出现的次数;
对潜在医学词汇进行独热编码,并基于信息权重对独热编码结果进行加权表示,得到潜在医学词汇的编码结果,其中潜在医学词汇word的编码结果为:
;
其中:
表示潜在医学词汇word的编码结果,为独热编码方式,为潜在医学词汇word的独热编码结果。
可选地,所述S2步骤中将潜在医学词汇的编码信息融入字符向量中,并利用卷积神经网络提取医学文本数据中字符序列的局部特征向量,包括:
将潜在医学词汇的编码信息融入字符向量中,其中医学文本数据所对应字符向量的潜在医学词汇编码信息的融入结果为:
;
其中:
表示医学文本数据中第个文本字符所组成潜在医学词汇的编码结果,若医学文本数据中第个文本字符不组成潜在医学词汇,则用特殊符号dec对进行表示;
利用卷积神经网络提取医学文本数据中字符序列的局部特征向量,其中医学文本数据的局部特征向量提取流程为:
S21:将医学文本数据中的任意第j个字符的偏旁进行独热编码表示,得到字符的偏旁编码结果,;
S22:利用卷积神经网络中的卷积核提取字符的字形结构信息:
;
其中:
表示字符的字形结构信息;
表示非线性函数,将其设置为Sigmoid函数;
H表示卷积核;
表示内积运算;
b表示偏置参数;
S23:构成医学文本数据的局部特征向量:
;
其中:
表示医学文本数据的局部特征向量。
可选地,所述S3步骤中将融入潜在医学词汇编码信息的字符向量与局部特征向量进行拼接,包括:
将融入潜在医学词汇编码信息的字符向量与局部特征向量进行拼接,得到多特征融合的医学文本特征向量序列数据,其中医学文本数据对应的多特征融合的医学文本特征向量序列数据为:
;
其中:
表示医学文本数据对应的多特征融合的医学文本特征向量序列数据。
可选地,所述S4步骤中利用所构建的全局语义编码模型生成医学文本特征向量序列数据的全局语义信息矩阵,包括:
构建全局语义编码模型,所述全局语义编码模型以构建得到的多特征融合的医学文本特征向量序列数据为输入,以全局语义信息矩阵为输出,其中全局语义编码模型包括输入层、编码层以及输出层,输入层用于接收N组医学文本特征向量序列数据,编码层用于对每组医学文本特征向量序列数据进行加权语义编码处理,生成医学文本特征向量序列数据的语义编码信息,输出层用于将每组医学文本特征向量序列数据的语义编码信息构成全局语义信息矩阵;
利用所构建的全局语义编码模型生成医学文本特征向量序列数据的全局语义信息矩阵,其中全局语义信息矩阵的生成流程为:
S41:输入层接收N组医学文本特征向量序列数据;
S42:编码层对每组医学文本特征向量序列数据进行加权语义编码处理,其中第n组医学文本特征向量序列数据的加权语义编码处理公式为:
;
;
;
;
;
;
其中:
分别表示字符向量、局部特征向量以及潜在医学词汇编码向量的映射权重矩阵;
表示第n组医学文本特征向量序列数据中局部特征向量的加权语义,表示第n组医学文本特征向量序列数据中潜在医学词汇编码向量的加权语义;
表示医学文本数据中的偏旁集合,表示偏旁u在所有医学文本数据中出现的频率;
表示医学文本数据中的潜在医学词汇集合,表示潜在医学词汇h在所有潜在医学词汇中出现的频率,,表示N组医学文本数据中潜在医学词汇出现的总数,表示潜在医学词汇u在N组医学文本数据中出现的次数;
表示医学文本数据的潜在医学词汇编码向量;
表示第n组医学文本特征向量序列数据的编码处理结果,即第n组医学文本特征向量序列数据的语义编码信息;
S43:输出层将N组医学文本特征向量序列数据的构成全局语义信息矩阵:
;
其中:C表示全局语义信息矩阵。
可选地,所述S5步骤中对全局语义信息矩阵进行解码操作,得到不同医学文本数据的语义向量间相似性,包括:
对全局语义信息矩阵进行解码操作,得到不同医学文本数据的语义向量间相似性,其中全局语义信息矩阵的解码流程为:
计算全局语义信息矩阵中每组语义编码信息的语义评分,其中的语义评分计算结果为:
;
其中:
表示的维数;表示的语义评分结果;
对于全局语义信息矩阵中语义评分结果高于阈值的语义编码信息,计算与其他语义编码信息的语义向量间相似性,若高于阈值,则与任意语义编码信息的语义向量间相似性的计算公式为:
;
其中:
表示之间的余弦相似度;表示与语义编码信息的语义向量间相似性。
可选地,所述S5步骤中利用语义向量间的相似性进行不同医学文本数据的内部关联,构建得到医学知识库,包括:
对于任意语义评分结果高于阈值的语义编码信息,计算语义编码信息与全局语义信息矩阵中其他语义编码信息的语义向量间相似性,语义向量间相似性高于预设的相似阈值,则建立两个语义编码信息所对应医学文本数据的内部关联,进而构建得到医学知识库。在本发明实施例中,医学知识库中建立内部关联的两组医学文本数据,在查询其中任意一组医学文本数据时,会提供另一组医学文本数据的跳转链接。
为了解决上述问题,本发明提供一种电子设备,所述电子设备包括:
存储器,存储至少一个指令;
通信接口,实现电子设备通信;及处理器,执行所述存储器中存储的指令以实现上述所述的多级逻辑推理的医学知识库构建方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的多级逻辑推理的医学知识库构建方法。
相对于现有技术,本发明提出一种多级逻辑推理的医学知识库构建方法,该技术具有以下优势:
首先,本方案提出一种多种文本特征提取方法,通过将潜在医学词汇的编码信息融入字符向量中,其中医学文本数据所对应字符向量的潜在医学词汇编码信息的融入结果为:
;
其中:
表示医学文本数据中第个文本字符所组成潜在医学词汇的编码结果,若医学文本数据中第个文本字符不组成潜在医学词汇,则用特殊符号dec对进行表示;利用卷积神经网络提取医学文本数据中字符序列的局部特征向量,其中医学文本数据的局部特征向量提取流程为:将医学文本数据中的任意第j个字符的偏旁进行独热编码表示,得到字符的偏旁编码结果,;利用卷积神经网络中的卷积核提取字符的字形结构信息:
;
其中:
表示字符的字形结构信息;表示非线性函数,将其设置为Sigmoid函数;H表示卷积核;表示内积运算;b表示偏置参数;构成医学文本数据的局部特征向量:
;
其中:
表示医学文本数据的局部特征向量。将融入潜在医学词汇编码信息的字符向量与局部特征向量进行拼接,得到多特征融合的医学文本特征向量序列数据,其中医学文本数据对应的多特征融合的医学文本特征向量序列数据为:
;
其中:
表示医学文本数据对应的多特征融合的医学文本特征向量序列数据。本方案基于预训练语言模型生成医学文本数据的字符向量序列,并从医学文本数据中提取表征专业医学专有名词的潜在医学词汇,基于潜在医学词汇的出现频率确定信息权重,结合信息权重和独热编码结果生成潜在医学词汇的编码信息,并利用卷积神经网络提取医学文本数据中字符序列的字形结构信息,作为局部特征向量,将融入潜在医学词汇编码信息的字符向量与局部特征向量进行拼接,得到多特征融合的医学文本特征向量序列数据,实现不同角度的医学文本特征表示。
同时,本方案提出一种基于语义关系推理的医学知识内部关联关系构建方法,通过构建全局语义编码模型,所述全局语义编码模型以构建得到的多特征融合的医学文本特征向量序列数据为输入,以全局语义信息矩阵为输出,其中全局语义编码模型包括输入层、编码层以及输出层,输入层用于接收N组医学文本特征向量序列数据,编码层用于对每组医学文本特征向量序列数据进行加权语义编码处理,生成医学文本特征向量序列数据的语义编码信息,输出层用于将每组医学文本特征向量序列数据的语义编码信息构成全局语义信息矩阵;利用所构建的全局语义编码模型生成医学文本特征向量序列数据的全局语义信息矩阵,其中全局语义信息矩阵的生成流程为:输入层接收N组医学文本特征向量序列数据;编码层对每组医学文本特征向量序列数据进行加权语义编码处理,其中第n组医学文本特征向量序列数据的加权语义编码处理公式为:
;
;
;
;
;
;
其中:
分别表示字符向量、局部特征向量以及潜在医学词汇编码向量的映射权重矩阵;表示第n组医学文本特征向量序列数据中局部特征向量的加权语义,表示第n组医学文本特征向量序列数据中潜在医学词汇编码向量的加权语义;表示医学文本数据中的偏旁集合,表示偏旁u在所有医学文本数据中出现的频率;表示医学文本数据中的潜在医学词汇集合,表示潜在医学词汇h在所有潜在医学词汇中出现的频率,,表示N组医学文本数据中潜在医学词汇出现的总数,表示潜在医学词汇u在N组医学文本数据中出现的次数;表示医学文本数据的潜在医学词汇编码向量;表示第n组医学文本特征向量序列数据的编码处理结果,即第n组医学文本特征向量序列数据的语义编码信息;输出层将N组医学文本特征向量序列数据的构成全局语义信息矩阵:
;
其中:
C表示全局语义信息矩阵。本方案根据多文本特征进行语义关系推理,在语义关系推理过程中,以字符向量为基础,利用局部特征向量以及潜在医学词汇的编码信息将推理主体集中在特定的有效字符中,构建得到医学文本特征向量序列数据的全局语义信息矩阵,通过对全局语义信息矩阵进行解码操作,得到不同医学文本数据的语义向量间相似性,利用语义向量间的相似性进行不同医学文本数据的内部关联,实现内部关联的医学文本数据之间的跳转,得到由潜在医学词汇、字形结构信息多级逻辑推理得到的医学知识内部关联关系,并构建得到基于医学知识内部关联关系的医学知识库。
附图说明
图1为本发明一实施例提供的一种多级逻辑推理的医学知识库构建方法的流程示意图;
图2为本发明一实施例提供的实现多级逻辑推理的医学知识库构建方法的电子设备的结构示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供一种多级逻辑推理的医学知识库构建方法。所述多级逻辑推理的医学知识库构建方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述多级逻辑推理的医学知识库构建方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。
实施例1
S1:采集医学文本数据并进行预处理,得到预处理后的医学文本数据。
所述S1步骤中采集医学文本数据,包括:
采集N组医学文本数据,其中每组医学文本数据包括病症描述、治疗方案、治疗药物信息以及其他补充信息,所采集N组医学文本数据的集合表示为:
;
其中:
表示所采集的第n组医学文本数据,表示医学文本数据中的病症描述文本数据,表示医学文本数据中的治疗方案文本数据,表示医学文本数据中的治疗药物信息文本数据,表示医学文本数据中的其他补充信息文本数据。
所述S1步骤中对医学文本数据进行预处理,包括:
对所采集的医学文本数据进行预处理,其中医学文本数据的预处理流程为:
利用预构建的潜在医学词汇词典对任意一组医学文本数据进行潜在医学词汇匹配,将匹配成功的潜在医学词汇在医学文本数据中进行标注,其中潜在医学词汇匹配流程为:
对于医学文本数据中的任意一句文本,截取前s个文本字符与潜在医学词汇词典中的潜在医学词汇进行比对,若比对不成功,则截取前s-1个文本字符与潜在医学词汇词典中的潜在医学词汇进行比对,依此类推,直到比对成功或待比对文本字符仅剩一个文本字符,将比对成功的连续文本字符作为匹配成功的潜在医学词汇,并在该句文本中删去前s个文本字符,重新进行潜在医学词汇匹配;
提取医学文本数据中每个字符的偏旁,并统计每个偏旁出现的频率。
提取医学文本数据中每个字符的偏旁,并统计每个偏旁出现的频率。
S2:将预处理后的医学文本数据映射为固定维数的字符向量,对医学文本数据中的所有潜在医学词汇进行编码,将潜在医学词汇的编码信息融入字符向量中,并利用卷积神经网络提取医学文本数据中字符序列的局部特征向量。
所述S2步骤中将预处理后的医学文本数据映射为固定维数的字符向量,对医学文本数据中的所有潜在医学词汇进行编码,包括:
将预处理后的医学文本数据映射为固定维数的字符向量,并对医学文本数据中的所有潜在医学词汇进行编码,其中字符向量的映射流程以及潜在医学词汇的编码流程为:
获取大规模医学知识文本数据作为语料库,采用Word2Vec模型进行训练,训练得到Word2Vec预训练语言模型,将任意一组医学文本数据输入到Word2Vec预训练语言模型中,得到医学文本数据对应的字符向量,其中医学文本数据对应的字符向量为:
;
其中:
表示医学文本数据对应的字符向量;
表示医学文本数据中第个文本字符的映射结果,映射结果的维数均为128维,表示医学文本数据中的文本字符总数;
对于任意潜在医学词汇word,计算其信息权重:
;
;
其中:
表示潜在医学词汇word的信息权重;表示潜在医学词汇word出现的频率,表示N组医学文本数据中潜在医学词汇出现的总数,表示潜在医学词汇word在N组医学文本数据中出现的次数;
对潜在医学词汇进行独热编码,并基于信息权重对独热编码结果进行加权表示,得到潜在医学词汇的编码结果,其中潜在医学词汇word的编码结果为:
;
其中:
表示潜在医学词汇word的编码结果,为独热编码方式,为潜在医学词汇word的独热编码结果。
所述S2步骤中将潜在医学词汇的编码信息融入字符向量中,并利用卷积神经网络提取医学文本数据中字符序列的局部特征向量,包括:
将潜在医学词汇的编码信息融入字符向量中,其中医学文本数据所对应字符向量的潜在医学词汇编码信息的融入结果为:
;
其中:
表示医学文本数据中第个文本字符所组成潜在医学词汇的编码结果,若医学文本数据中第个文本字符不组成潜在医学词汇,则用特殊符号dec对进行表示;
利用卷积神经网络提取医学文本数据中字符序列的局部特征向量,其中医学文本数据的局部特征向量提取流程为:
S21:将医学文本数据中的任意第j个字符的偏旁进行独热编码表示,得到字符的偏旁编码结果,;
S22:利用卷积神经网络中的卷积核提取字符的字形结构信息:
;
其中:
表示字符的字形结构信息;
表示非线性函数,将其设置为Sigmoid函数;
H表示卷积核;
表示内积运算;
b表示偏置参数;
S23:构成医学文本数据的局部特征向量:
;
其中:
表示医学文本数据的局部特征向量。
S3:将融入潜在医学词汇编码信息的字符向量与局部特征向量进行拼接,得到多特征融合的医学文本特征向量序列数据。
所述S3步骤中将融入潜在医学词汇编码信息的字符向量与局部特征向量进行拼接,包括:
将融入潜在医学词汇编码信息的字符向量与局部特征向量进行拼接,得到多特征融合的医学文本特征向量序列数据,其中医学文本数据对应的多特征融合的医学文本特征向量序列数据为:
;
其中:
表示医学文本数据对应的多特征融合的医学文本特征向量序列数据。
S4:构建全局语义编码模型,生成医学文本特征向量序列数据的全局语义信息矩阵,所述全局语义编码模型以构建得到的多特征融合的医学文本特征向量序列数据为输入,以全局语义信息矩阵为输出。
所述S4步骤中利用所构建的全局语义编码模型生成医学文本特征向量序列数据的全局语义信息矩阵,包括:
构建全局语义编码模型,所述全局语义编码模型以构建得到的多特征融合的医学文本特征向量序列数据为输入,以全局语义信息矩阵为输出,其中全局语义编码模型包括输入层、编码层以及输出层,输入层用于接收N组医学文本特征向量序列数据,编码层用于对每组医学文本特征向量序列数据进行加权语义编码处理,生成医学文本特征向量序列数据的语义编码信息,输出层用于将每组医学文本特征向量序列数据的语义编码信息构成全局语义信息矩阵;
利用所构建的全局语义编码模型生成医学文本特征向量序列数据的全局语义信息矩阵,其中全局语义信息矩阵的生成流程为:
S41:输入层接收N组医学文本特征向量序列数据;
S42:编码层对每组医学文本特征向量序列数据进行加权语义编码处理,其中第n组医学文本特征向量序列数据的加权语义编码处理公式为:
;
;
;
;
;
;
其中:
分别表示字符向量、局部特征向量以及潜在医学词汇编码向量的映射权重矩阵;
表示第n组医学文本特征向量序列数据中局部特征向量的加权语义,
表示第n组医学文本特征向量序列数据中潜在医学词汇编码向量的加权语义;
表示医学文本数据中的偏旁集合,表示偏旁u在所有医学文本数据中出现的频率;
表示医学文本数据中的潜在医学词汇集合,表示潜在医学词汇h在所有潜在医学词汇中出现的频率,,表示N组医学文本数据中潜在医学词汇出现的总数,表示潜在医学词汇u在N组医学文本数据中出现的次数;
表示医学文本数据的潜在医学词汇编码向量;
表示第n组医学文本特征向量序列数据的编码处理结果,即第n组医学文本特征向量序列数据的语义编码信息;
S43:输出层将N组医学文本特征向量序列数据的构成全局语义信息矩阵:
;
其中:
C表示全局语义信息矩阵。
S5:对全局语义信息矩阵进行解码操作,得到不同医学文本数据的语义向量间相似性,利用语义向量间的相似性进行不同医学文本数据的内部关联,构建得到医学知识库。
所述S5步骤中对全局语义信息矩阵进行解码操作,得到不同医学文本数据的语义向量间相似性,包括:
对全局语义信息矩阵进行解码操作,得到不同医学文本数据的语义向量间相似性,其中全局语义信息矩阵的解码流程为:
计算全局语义信息矩阵中每组语义编码信息的语义评分,其中的语义评分计算结果为:
;
其中:
表示的维数;表示的语义评分结果;
对于全局语义信息矩阵中语义评分结果高于阈值的语义编码信息,计算与其他语义编码信息的语义向量间相似性,若高于阈值,则与任意语义编码信息的语义向量间相似性的计算公式为:
;
其中:
表示之间的余弦相似度;表示与语义编码信息的语义向量间相似性。
所述S5步骤中利用语义向量间的相似性进行不同医学文本数据的内部关联,构建得到医学知识库,包括:
对于任意语义评分结果高于阈值的语义编码信息,计算语义编码信息与全局语义信息矩阵中其他语义编码信息的语义向量间相似性,语义向量间相似性高于预设的相似阈值,则建立两个语义编码信息所对应医学文本数据的内部关联,进而构建得到医学知识库。
实施例2
如图2所示,是本发明一实施例提供的实现多级逻辑推理的医学知识库构建方法的电子设备的结构示意图。
所述电子设备1可以包括处理器10、存储器11、通信接口13和总线,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如程序12。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card, SMC)、安全数字(SecureDigital, SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如程序12的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(用于实现多级逻辑推理的医学知识库构建的程序12等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。
所述通信接口13可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接,并实现电子设备内部组件之间的连接通信。
所述总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
图2仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图2示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的程序12是多个指令的组合,在所述处理器10中运行时,可以实现:
采集医学文本数据并进行预处理,得到预处理后的医学文本数据;
将预处理后的医学文本数据映射为固定维数的字符向量,对医学文本数据中的所有潜在医学词汇进行编码,将潜在医学词汇的编码信息融入字符向量中,并利用卷积神经网络提取医学文本数据中字符序列的局部特征向量;
将融入潜在医学词汇编码信息的字符向量与局部特征向量进行拼接,得到多特征融合的医学文本特征向量序列数据;
构建全局语义编码模型,生成医学文本特征向量序列数据的全局语义信息矩阵;
对全局语义信息矩阵进行解码操作,得到不同医学文本数据的语义向量间相似性,利用语义向量间的相似性进行不同医学文本数据的内部关联,构建得到医学知识库。
具体地,所述处理器10对上述指令的具体实现方法可参考图1至图2对应实施例中相关步骤的描述,在此不赘述。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (8)
1.一种多级逻辑推理的医学知识库构建方法,其特征在于,所述方法包括:
S1:采集医学文本数据并进行预处理,得到预处理后的医学文本数据;
S2:将预处理后的医学文本数据映射为固定维数的字符向量,对医学文本数据中的所有潜在医学词汇进行编码,将潜在医学词汇的编码信息融入字符向量中,并利用卷积神经网络提取医学文本数据中字符序列的局部特征向量;
S3:将融入潜在医学词汇编码信息的字符向量与局部特征向量进行拼接,得到多特征融合的医学文本特征向量序列数据;
S4:构建全局语义编码模型,生成医学文本特征向量序列数据的全局语义信息矩阵,所述全局语义编码模型以构建得到的多特征融合的医学文本特征向量序列数据为输入,以全局语义信息矩阵为输出;
利用所构建的全局语义编码模型生成医学文本特征向量序列数据的全局语义信息矩阵,包括:
构建全局语义编码模型,所述全局语义编码模型以构建得到的多特征融合的医学文本特征向量序列数据为输入,以全局语义信息矩阵为输出,其中全局语义编码模型包括输入层、编码层以及输出层,输入层用于接收N组医学文本特征向量序列数据,编码层用于对每组医学文本特征向量序列数据进行加权语义编码处理,生成医学文本特征向量序列数据的语义编码信息,输出层用于将每组医学文本特征向量序列数据的语义编码信息构成全局语义信息矩阵;
利用所构建的全局语义编码模型生成医学文本特征向量序列数据的全局语义信息矩阵,其中全局语义信息矩阵的生成流程为:
S41:输入层接收N组医学文本特征向量序列数据;
S42:编码层对每组医学文本特征向量序列数据进行加权语义编码处理,其中第n组医学文本特征向量序列数据的加权语义编码处理公式为:
;
;
;
;
;
;
其中:
分别表示字符向量、局部特征向量以及潜在医学词汇编码向量的映射权重矩阵;
表示第n组医学文本特征向量序列数据中局部特征向量的加权语义,表示第n组医学文本特征向量序列数据中潜在医学词汇编码向量的加权语义;
表示医学文本数据中的偏旁集合,表示偏旁u在所有医学文本数据中出现的频率;
表示医学文本数据中的潜在医学词汇集合,表示潜在医学词汇h在所有潜在医学词汇中出现的频率,,表示N组医学文本数据中潜在医学词汇出现的总数,表示潜在医学词汇u在N组医学文本数据中出现的次数;
表示医学文本数据的潜在医学词汇编码向量;
表示第n组医学文本特征向量序列数据的编码处理结果,即第n组医学文本特征向量序列数据的语义编码信息;
S43:输出层将N组医学文本特征向量序列数据的构成全局语义信息矩阵:
;
其中:
C表示全局语义信息矩阵;
S5:对全局语义信息矩阵进行解码操作,得到不同医学文本数据的语义向量间相似性,利用语义向量间的相似性进行不同医学文本数据的内部关联,构建得到医学知识库。
2.如权利要求1所述的一种多级逻辑推理的医学知识库构建方法,其特征在于,所述S1步骤中采集医学文本数据,包括:
采集N组医学文本数据,其中每组医学文本数据包括病症描述、治疗方案、治疗药物信息以及其他补充信息,所采集N组医学文本数据的集合表示为:
;
其中:
表示所采集的第n组医学文本数据,表示医学文本数据中的病症描述文本数据,表示医学文本数据中的治疗方案文本数据,表示医学文本数据中的治疗药物信息文本数据,表示医学文本数据中的其他补充信息文本数据。
3.如权利要求2所述的一种多级逻辑推理的医学知识库构建方法,其特征在于,所述S1步骤中对医学文本数据进行预处理,包括:
对所采集的医学文本数据进行预处理,其中医学文本数据的预处理流程为:
利用预构建的潜在医学词汇词典对任意一组医学文本数据进行潜在医学词汇匹配,将匹配成功的潜在医学词汇在医学文本数据中进行标注,其中潜在医学词汇匹配流程为:
对于医学文本数据中的任意一句文本,截取前s个文本字符与潜在医学词汇词典中的潜在医学词汇进行比对,若比对不成功,则截取前s-1个文本字符与潜在医学词汇词典中的潜在医学词汇进行比对,依此类推,直到比对成功或待比对文本字符仅剩一个文本字符,将比对成功的连续文本字符作为匹配成功的潜在医学词汇,并在该句文本中删去前s个文本字符,重新进行潜在医学词汇匹配;
提取医学文本数据中每个字符的偏旁,并统计每个偏旁出现的频率。
4.如权利要求3所述的一种多级逻辑推理的医学知识库构建方法,其特征在于,所述S2步骤中将预处理后的医学文本数据映射为固定维数的字符向量,对医学文本数据中的所有潜在医学词汇进行编码,包括:
将预处理后的医学文本数据映射为固定维数的字符向量,并对医学文本数据中的所有潜在医学词汇进行编码,其中字符向量的映射流程以及潜在医学词汇的编码流程为:
获取大规模医学知识文本数据作为语料库,采用Word2Vec模型进行训练,训练得到Word2Vec预训练语言模型,将任意一组医学文本数据输入到Word2Vec预训练语言模型中,得到医学文本数据对应的字符向量,其中医学文本数据对应的字符向量为:
;
其中:
表示医学文本数据对应的字符向量;
表示医学文本数据中第个文本字符的映射结果,映射结果的维数均为128维,表示医学文本数据中的文本字符总数;
对于任意潜在医学词汇word,计算其信息权重:
;
;
其中:
表示潜在医学词汇word的信息权重;
表示潜在医学词汇word出现的频率,表示N组医学文本数据中潜在医学词汇出现的总数,表示潜在医学词汇word在N组医学文本数据中出现的次数;
对潜在医学词汇进行独热编码,并基于信息权重对独热编码结果进行加权表示,得到潜在医学词汇的编码结果,其中潜在医学词汇word的编码结果为:
;
其中:
表示潜在医学词汇word的编码结果,为独热编码方式,为潜在医学词汇word的独热编码结果。
5.如权利要求4所述的一种多级逻辑推理的医学知识库构建方法,其特征在于,所述S2步骤中将潜在医学词汇的编码信息融入字符向量中,并利用卷积神经网络提取医学文本数据中字符序列的局部特征向量,包括:
将潜在医学词汇的编码信息融入字符向量中,其中医学文本数据所对应字符向量的潜在医学词汇编码信息的融入结果为:
;
其中:
表示医学文本数据中第个文本字符所组成潜在医学词汇的编码结果,若医学文本数据中第个文本字符不组成潜在医学词汇,则用特殊符号dec对进行表示;
利用卷积神经网络提取医学文本数据中字符序列的局部特征向量,其中医学文本数据的局部特征向量提取流程为:
S21:将医学文本数据中的任意第j个字符的偏旁进行独热编码表示,得到字符的偏旁编码结果,;
S22:利用卷积神经网络中的卷积核提取字符的字形结构信息:
;
其中:
表示字符的字形结构信息;
表示非线性函数,将其设置为Sigmoid函数;
H表示卷积核;
表示内积运算;
b表示偏置参数;
S23:构成医学文本数据的局部特征向量:
;
其中:
表示医学文本数据的局部特征向量。
6.如权利要求5所述的一种多级逻辑推理的医学知识库构建方法,其特征在于,所述S3步骤中将融入潜在医学词汇编码信息的字符向量与局部特征向量进行拼接,包括:
将融入潜在医学词汇编码信息的字符向量与局部特征向量进行拼接,得到多特征融合的医学文本特征向量序列数据,其中医学文本数据对应的多特征融合的医学文本特征向量序列数据为:
;
其中:
表示医学文本数据对应的多特征融合的医学文本特征向量序列数据。
7.如权利要求1所述的一种多级逻辑推理的医学知识库构建方法,其特征在于,所述S5步骤中对全局语义信息矩阵进行解码操作,得到不同医学文本数据的语义向量间相似性,包括:
对全局语义信息矩阵进行解码操作,得到不同医学文本数据的语义向量间相似性,其中全局语义信息矩阵的解码流程为:
计算全局语义信息矩阵中每组语义编码信息的语义评分,其中的语义评分计算结果为:
;
其中:
表示的维数;
表示的语义评分结果;
对于全局语义信息矩阵中语义评分结果高于阈值的语义编码信息,计算与其他语义编码信息的语义向量间相似性,若高于阈值,则与任意语义编码信息的语义向量间相似性的计算公式为:
;
其中:
表示之间的余弦相似度;
表示与语义编码信息的语义向量间相似性。
8.如权利要求7所述的一种多级逻辑推理的医学知识库构建方法,其特征在于,所述S5步骤中利用语义向量间的相似性进行不同医学文本数据的内部关联,构建得到医学知识库,包括:
对于任意语义评分结果高于阈值的语义编码信息,计算语义编码信息与全局语义信息矩阵中其他语义编码信息的语义向量间相似性,语义向量间相似性高于预设的相似阈值,则建立两个语义编码信息所对应医学文本数据的内部关联,进而构建得到医学知识库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311150596.9A CN116882496B (zh) | 2023-09-07 | 2023-09-07 | 一种多级逻辑推理的医学知识库构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311150596.9A CN116882496B (zh) | 2023-09-07 | 2023-09-07 | 一种多级逻辑推理的医学知识库构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116882496A CN116882496A (zh) | 2023-10-13 |
CN116882496B true CN116882496B (zh) | 2023-12-05 |
Family
ID=88272178
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311150596.9A Active CN116882496B (zh) | 2023-09-07 | 2023-09-07 | 一种多级逻辑推理的医学知识库构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116882496B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117116384B (zh) * | 2023-10-20 | 2024-01-09 | 聊城高新生物技术有限公司 | 一种靶向诱导的医药分子结构生成方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110083692A (zh) * | 2019-04-22 | 2019-08-02 | 齐鲁工业大学 | 一种金融知识问答的文本交互匹配方法及装置 |
CN113268565A (zh) * | 2021-04-27 | 2021-08-17 | 山东大学 | 一种基于概念文本的词向量快速生成方法和装置 |
WO2021164301A1 (zh) * | 2020-09-08 | 2021-08-26 | 平安科技(深圳)有限公司 | 医学文本结构化方法、装置、计算机设备及存储介质 |
CN116306655A (zh) * | 2023-03-20 | 2023-06-23 | 山东师范大学 | 基于汉字字形和词语边界特征的命名实体识别方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6964023B2 (en) * | 2001-02-05 | 2005-11-08 | International Business Machines Corporation | System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input |
-
2023
- 2023-09-07 CN CN202311150596.9A patent/CN116882496B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110083692A (zh) * | 2019-04-22 | 2019-08-02 | 齐鲁工业大学 | 一种金融知识问答的文本交互匹配方法及装置 |
WO2021164301A1 (zh) * | 2020-09-08 | 2021-08-26 | 平安科技(深圳)有限公司 | 医学文本结构化方法、装置、计算机设备及存储介质 |
CN113268565A (zh) * | 2021-04-27 | 2021-08-17 | 山东大学 | 一种基于概念文本的词向量快速生成方法和装置 |
CN116306655A (zh) * | 2023-03-20 | 2023-06-23 | 山东师范大学 | 基于汉字字形和词语边界特征的命名实体识别方法及系统 |
Non-Patent Citations (3)
Title |
---|
基于深度卷积神经网络的多元医学信号多级上下文自编码器;袁野;贾克斌;刘鹏宇;;电子与信息学报(第02期);全文 * |
基于深度学习的医疗问答系统的开发;姚智;;中国医疗设备(第12期);全文 * |
基于笔画ELMo和多任务学习的中文电子病历命名实体识别研究;罗凌;杨志豪;宋雅文;李楠;林鸿飞;;计算机学报(第10期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116882496A (zh) | 2023-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111709233B (zh) | 基于多注意力卷积神经网络的智能导诊方法及系统 | |
CN109599185B (zh) | 疾病数据处理方法、装置、电子设备及计算机可读介质 | |
Cornegruta et al. | Modelling radiological language with bidirectional long short-term memory networks | |
Yu et al. | Automatic ICD code assignment of Chinese clinical notes based on multilayer attention BiRNN | |
CN111428488A (zh) | 简历数据信息解析及匹配方法、装置、电子设备及介质 | |
CN112329964A (zh) | 用于推送信息的方法、装置、设备以及存储介质 | |
CN113378970B (zh) | 语句相似性检测方法、装置、电子设备及存储介质 | |
CN116882496B (zh) | 一种多级逻辑推理的医学知识库构建方法 | |
CN111695354A (zh) | 基于命名实体的文本问答方法、装置及可读存储介质 | |
CN112016314A (zh) | 一种基于bert模型的医疗文本理解方法及系统 | |
CN116578704A (zh) | 文本情感分类方法、装置、设备及计算机可读介质 | |
CN116450829A (zh) | 医疗文本分类方法、装置、设备及介质 | |
CN113065355B (zh) | 专业百科命名实体识别方法、系统及电子设备 | |
Hua et al. | A deep learning approach for transgender and gender diverse patient identification in electronic health records | |
CN117116384A (zh) | 一种靶向诱导的医药分子结构生成方法 | |
CN116757193A (zh) | 基于对比学习的多轮对话生成方法、装置、设备及介质 | |
CN116702776A (zh) | 基于跨中西医的多任务语义划分方法、装置、设备及介质 | |
CN116737933A (zh) | 文本分类方法、装置、电子设备及计算机可读存储介质 | |
CN116741358A (zh) | 问诊挂号推荐方法、装置、设备及存储介质 | |
CN113590845B (zh) | 基于知识图谱的文献检索方法、装置、电子设备及介质 | |
CN112214594A (zh) | 文本简报的生成方法、装置、电子设备及可读存储介质 | |
Dai et al. | Evaluating a Natural Language Processing–Driven, AI-Assisted International Classification of Diseases, 10th Revision, Clinical Modification, Coding System for Diagnosis Related Groups in a Real Hospital Environment: Algorithm Development and Validation Study | |
CN116881454A (zh) | 医疗语料生成方法、装置、设备及计算机可读存储介质 | |
CN114974490B (zh) | 用于构建医学术语平台的方法、装置、电子设备和介质 | |
CN114864032B (zh) | 基于his系统的临床数据采集方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |