CN116663536B - 一种临床诊断标准词的匹配方法及装置 - Google Patents
一种临床诊断标准词的匹配方法及装置 Download PDFInfo
- Publication number
- CN116663536B CN116663536B CN202310954858.0A CN202310954858A CN116663536B CN 116663536 B CN116663536 B CN 116663536B CN 202310954858 A CN202310954858 A CN 202310954858A CN 116663536 B CN116663536 B CN 116663536B
- Authority
- CN
- China
- Prior art keywords
- standard
- diagnosis
- word
- words
- original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003759 clinical diagnosis Methods 0.000 title claims abstract description 144
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000003745 diagnosis Methods 0.000 claims abstract description 443
- 238000012545 processing Methods 0.000 claims abstract description 23
- 238000007781 pre-processing Methods 0.000 claims abstract description 16
- 230000011218 segmentation Effects 0.000 claims description 67
- 239000013598 vector Substances 0.000 claims description 24
- 238000006243 chemical reaction Methods 0.000 claims description 18
- 239000013604 expression vector Substances 0.000 claims description 11
- 238000010586 diagram Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 7
- 238000003058 natural language processing Methods 0.000 claims description 7
- 239000012634 fragment Substances 0.000 claims description 5
- 238000013507 mapping Methods 0.000 abstract description 23
- 230000008569 process Effects 0.000 abstract description 8
- 201000010099 disease Diseases 0.000 description 14
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 14
- 206010008631 Cholera Diseases 0.000 description 6
- 238000012216 screening Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请提供了一种临床诊断标准词的匹配方法及装置,通过对获取到的病历文本进行分析处理,从病历文本中提取出临床诊断原词;对临床诊断原词进行预处理,得到标准诊断原词;分别在预先构建的医疗文本库和医疗知识图谱中搜索,确定标准诊断原词的原词上下文特征以及每个候选诊断标准词的标准上下文特征;基于原词上下文特征和每个标准上下文特征,通过预先训练好的标准词匹配模型,从至少一个候选诊断标准词中,确定出与所述临床诊断原词相匹配的至少一个目标诊断标准词。这样,便可以参考于上下文特征,实现目标诊断标准词的精准匹配,提高了匹配结果的准确性,同时,减少了构建两者之间映射关系的过程,以此,还可以保证匹配的及时性。
Description
技术领域
本申请涉及数据处理技术领域,尤其是涉及一种临床诊断标准词的匹配方法及装置。
背景技术
近年来,随着医疗机构信息化的不断深化,临床术语标准化的需求日益增加。在医保结算、DRGs(诊断自动分组)等实际应用场景中,医学人员都需要对电子病历进行医学统计分析。然而,在临床上关于同一种诊断往往会有成百上千种不同的写法,进而出现术语重复、内涵不清、语义表达和理解不一致等问题。
在医疗领域中,通常是通过构建诊断术语映射关系库,实现诊断原词与诊断标准词之间的映射,以统一电子病历中诊断词语的表述。但是,若想实现两者之间的准确“映射”,不但,需要构建两者之间的映射关系,同时,还需要定期地对映射关系库进行扩充,以保证映射结果的准确性;由于,诊断原词与诊断标准词之间的关系复杂,构建映射关系需要耗费大量的时间,进而,会影响映射的效率以及及时性。
发明内容
有鉴于此,本申请的目的在于提供一种临床诊断标准词的匹配方法及装置,可以分别借助于医疗文本库和医疗知识图谱,实现诊断原词和诊断标准词上下文信息的扩充,以参考上下文信息,通过标准词匹配模型,实现诊断原词的诊断标准词的匹配,以此,提高诊断原词的匹配效率,间接地,提高了诊断原词与诊断标准词之间的映射效率,可以保证映射的及时性。
本申请实施例提供了一种临床诊断标准词的匹配方法,所述匹配方法包括:
通过对获取到的病历文本进行分析处理,从所述病历文本中提取出临床诊断原词;
对所述临床诊断原词进行预处理,得到标准诊断原词;
分别在预先构建的医疗文本库和医疗知识图谱中搜索,确定所述标准诊断原词的原词上下文特征以及每个候选诊断标准词的标准上下文特征;
基于所述原词上下文特征和每个标准上下文特征,通过预先训练好的标准词匹配模型,从至少一个候选诊断标准词中,确定出与所述临床诊断原词相匹配的至少一个目标诊断标准词。
在一种可能的实施方式中,所述对所述临床诊断原词进行预处理,得到标准诊断原词,包括:
针对于所述临床诊断原词中包括的全角字符,将所述全角字符转换为半角字符,得到字符转换后的临床诊断原词;
针对于所述字符转换后的临床诊断原词中包括的小写字母,将所述小写字母转换为大写字母,得到字母转换后的临床诊断原词。
在一种可能的实施方式中,所述分别在预先构建的医疗文本库和医疗知识图谱中搜索,确定所述临床诊断原词的原词上下文特征以及每个候选诊断标准词的标准上下文特征,包括:
分别利用所述标准诊断原词和每个候选诊断标准词,在预先构建的医疗文本库中搜索,确定出现所述标准诊断原词的第一病历原文和出现每个候选诊断标准词的第二病历原文;
分别利用所述标准诊断原词和每个候选诊断标准词,在预先构建的医疗知识图谱中搜索,获取所述标准诊断原词对应的原词图嵌入特征和每个候选诊断标准词的候选图嵌入特征;
将所述标准诊断原词、所述第一病历原文以及所述原词图嵌入特征,确定为所述标准诊断原词的原词上下文特征;
针对于每个候选诊断标准词,将该候选诊断标准词、该候选诊断标准词的第二病历原文和该候选诊断标准词的候选图嵌入特征,确定为该候选诊断标准词的标准上下文特征。
在一种可能的实施方式中,所述标准词匹配模型包括Bert模型和分类器;所述基于所述原词上下文特征和每个标准上下文特征,通过预先训练好的标准词匹配模型,从至少一个候选诊断标准词中,确定出与所述临床诊断原词相匹配的至少一个目标诊断标准词,包括:
将所述原词上下文特征和每个标准上下文特征作为输入特征,输入预先训练好的Bert模型,确定所述标准诊断原词与每个候选诊断标准词之间的关联相似度以及所述临床诊断原词所匹配的目标诊断标准词的匹配数量;
基于确定出的至少一个关联相似度和所述匹配数量,通过预先训练好的分类器,从所述至少一个候选诊断标准词中确定出所述匹配数量的目标诊断标准词。
在一种可能的实施方式中,所述Bert模型包括第一Bert子模型和第二Bert子模型;所述将所述原词上下文特征和每个标准上下文特征作为输入特征,输入预先训练好的Bert模型,确定所述标准诊断原词与每个候选诊断标准词之间的关联相似度以及所述临床诊断原词所匹配的目标诊断标准词的匹配数量,包括:
将所述原词上下文特征和每个标准上下文特征,输入所述第一Bert子模型,确定所述标准诊断原词与每个候选诊断标准词之间的关联相似度;
将所述原词上下文特征输入所述第二Bert子模型,预测所述临床诊断原词所匹配的目标诊断标准词的匹配数量。
在一种可能的实施方式中,通过以下步骤确定至少一个候选诊断标准词:
获取标准词库中已存储的多个预设诊断标准词;
针对于每个预设诊断标准词,对该预设诊断标准词进行分词处理,得到该预设诊断标准词的多个子分词;
借助于开源自然语言处理库,将所述多个子分词进行向量化处理,得到该预设诊断标准词的向量表示形式;
基于每个预设诊断标准词的向量表示形式以及所述标准诊断原词的向量表示形式,确定所述标准诊断原词与每个预设诊断标准词的相似分值;
基于确定多个相似分值,从所述多个预设诊断标准词中确定出至少一个候选诊断标准词。
在一种可能的实施方式中,通过以下步骤确定至少一个候选诊断标准词:
获取标准词库中已存储的多个预设诊断标准词;
针对于每个预设诊断标准词,确定该预设诊断标准词与所述标准诊断原词之间的最长公共子序列;
基于确定出的多个最长公共子序列,从所述多个预设诊断标准词中确定出至少一个候选诊断标准词。
在一种可能的实施方式中,所述匹配方法还包括:
确定所述标准诊断原词与每个目标诊断标准词之间的余弦相似度;
基于确定出至少一个余弦相似度,从所述至少一个目标诊断标准词中确定出与所述临床诊断原词相匹配的替换诊断标准词。
在一种可能的实施方式中,所述通过对获取到的病历文本进行分析处理,从所述病历文本中提取出临床诊断原词,包括:
对所述病历文本进行向量化处理,得到所述病历文本所包括的每个病例分词的分词表示向量;
针对于每个病例分词,利用预先训练好的BI-LSTM模型,通过对该病例分词的分词表示向量进行特征提取,确定该病例分词的分词标签序列;
利用预先训练好的CRF层对该病例分词的分词标签序列进行校正,确定该病例分词的目标标签序列;
基于每个病例分词的目标标签序列,确定出所述病历文本的临床诊断原词。
本申请实施例还提供了一种临床诊断标准词的匹配装置,所述匹配装置包括:
原词提取模块,用于通过对获取到的病历文本进行分析处理,从所述病历文本中提取出临床诊断原词;
预处理模块,用于对所述临床诊断原词进行预处理,得到标准诊断原词;
特征确定模块,用于分别在预先构建的医疗文本库和医疗知识图谱中搜索,确定所述标准诊断原词的原词上下文特征以及每个候选诊断标准词的标准上下文特征;
标准词匹配模块,用于基于所述原词上下文特征和每个标准上下文特征,通过预先训练好的标准词匹配模型,从至少一个候选诊断标准词中,确定出与所述临床诊断原词相匹配的至少一个目标诊断标准词。
在一种可能的实施方式中,所述预处理模块在用于对所述临床诊断原词进行预处理,得到标准诊断原词时,所述预处理模块用于:
针对于所述临床诊断原词中包括的全角字符,将所述全角字符转换为半角字符,得到字符转换后的临床诊断原词;
针对于所述字符转换后的临床诊断原词中包括的小写字母,将所述小写字母转换为大写字母,得到字母转换后的临床诊断原词。
在一种可能的实施方式中,所述特征确定模块在用于分别在预先构建的医疗文本库和医疗知识图谱中搜索,确定所述临床诊断原词的原词上下文特征以及每个候选诊断标准词的标准上下文特征时,所述特征确定模块用于:
分别利用所述标准诊断原词和每个候选诊断标准词,在预先构建的医疗文本库中搜索,确定出现所述标准诊断原词的第一病历原文和出现每个候选诊断标准词的第二病历原文;
分别利用所述标准诊断原词和每个候选诊断标准词,在预先构建的医疗知识图谱中搜索,获取所述标准诊断原词对应的原词图嵌入特征和每个候选诊断标准词的候选图嵌入特征;
将所述标准诊断原词、所述第一病历原文以及所述原词图嵌入特征,确定为所述标准诊断原词的原词上下文特征;
针对于每个候选诊断标准词,将该候选诊断标准词、该候选诊断标准词的第二病历原文和该候选诊断标准词的候选图嵌入特征,确定为该候选诊断标准词的标准上下文特征。
在一种可能的实施方式中,所述标准词匹配模型包括Bert模型和分类器;所述标准词匹配模块在用于基于所述原词上下文特征和每个标准上下文特征,通过预先训练好的标准词匹配模型,从至少一个候选诊断标准词中,确定出与所述临床诊断原词相匹配的至少一个目标诊断标准词时,所述标准词匹配模块用于:
将所述原词上下文特征和每个标准上下文特征作为输入特征,输入预先训练好的Bert模型,确定所述标准诊断原词与每个候选诊断标准词之间的关联相似度以及所述临床诊断原词所匹配的目标诊断标准词的匹配数量;
基于确定出的至少一个关联相似度和所述匹配数量,通过预先训练好的分类器,从所述至少一个候选诊断标准词中确定出所述匹配数量的目标诊断标准词。
在一种可能的实施方式中,所述Bert模型包括第一Bert子模型和第二Bert子模型;所述将所述原词上下文特征和每个标准上下文特征作为输入特征,输入预先训练好的Bert模型,确定所述标准诊断原词与每个候选诊断标准词之间的关联相似度以及所述临床诊断原词所匹配的目标诊断标准词的匹配数量,包括:
将所述原词上下文特征和每个标准上下文特征,输入所述第一Bert子模型,确定所述标准诊断原词与每个候选诊断标准词之间的关联相似度;
将所述原词上下文特征输入所述第二Bert子模型,预测所述临床诊断原词所匹配的目标诊断标准词的匹配数量。
在一种可能的实施方式中,所述匹配装置还包括标准词筛选模块,所述标准词筛选模块用于通过以下步骤确定至少一个候选诊断标准词:
获取标准词库中已存储的多个预设诊断标准词;
针对于每个预设诊断标准词,对该预设诊断标准词进行分词处理,得到该预设诊断标准词的多个子分词;
借助于开源自然语言处理库,将所述多个子分词进行向量化处理,得到该预设诊断标准词的向量表示形式;
基于每个预设诊断标准词的向量表示形式以及所述标准诊断原词的向量表示形式,确定所述标准诊断原词与每个预设诊断标准词的相似分值;
基于确定多个相似分值,从所述多个预设诊断标准词中确定出至少一个候选诊断标准词。
在一种可能的实施方式中,所述标准词筛选模块用于通过以下步骤确定至少一个候选诊断标准词:
获取标准词库中已存储的多个预设诊断标准词;
针对于每个预设诊断标准词,确定该预设诊断标准词与所述标准诊断原词之间的最长公共子序列;
基于确定出的多个最长公共子序列,从所述多个预设诊断标准词中确定出至少一个候选诊断标准词。
在一种可能的实施方式中,所述匹配装置还包括替换词匹配模块,所述替换词匹配模块用于:
确定所述标准诊断原词与每个目标诊断标准词之间的余弦相似度;
基于确定出至少一个余弦相似度,从所述至少一个目标诊断标准词中确定出与所述临床诊断原词相匹配的替换诊断标准词。
在一种可能的实施方式中,所述原词提取模块在用于通过对获取到的病历文本进行分析处理,从所述病历文本中提取出临床诊断原词时,所述原词提取模块用于:
对所述病历文本进行向量化处理,得到所述病历文本所包括的每个病例分词的分词表示向量;
针对于每个病例分词,利用预先训练好的BI-LSTM模型,通过对该病例分词的分词表示向量进行特征提取,确定该病例分词的分词标签序列;
利用预先训练好的CRF层对该病例分词的分词标签序列进行校正,确定该病例分词的目标标签序列;
基于每个病例分词的目标标签序列,确定出所述病历文本的临床诊断原词。
本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的临床诊断标准词的匹配方法的步骤。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的临床诊断标准词的匹配方法的步骤。
本申请实施例提供的临床诊断标准词的匹配方法及装置,通过对获取到的病历文本进行分析处理,从病历文本中提取出临床诊断原词;对临床诊断原词进行预处理,得到标准诊断原词;分别在预先构建的医疗文本库和医疗知识图谱中搜索,确定标准诊断原词的原词上下文特征以及每个候选诊断标准词的标准上下文特征;基于原词上下文特征和每个标准上下文特征,通过预先训练好的标准词匹配模型,从至少一个候选诊断标准词中,确定出与所述临床诊断原词相匹配的至少一个目标诊断标准词。这样,便可以参考于上下文特征,实现目标诊断标准词的精准匹配,提高了匹配结果的准确性,同时,减少了构建两者之间映射关系的过程,以此,还可以保证匹配的及时性。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例所提供的一种临床诊断标准词的匹配方法的流程图;
图2为本申请实施例所提供的标准词匹配过程示意图;
图3为本申请实施例所提供的一种临床诊断标准词的匹配装置的结构示意图之一;
图4为本申请实施例所提供的一种临床诊断标准词的匹配装置的结构示意图之二;
图5为本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。
经研究发现,在医疗领域中,通常是通过构建诊断术语映射关系库,实现诊断原词与诊断标准词之间的映射,以统一电子病历中诊断词语的表述。但是,若想实现两者之间的准确“映射”,不但,需要构建两者之间的映射关系,同时,还需要定期地对映射关系库进行扩充,以保证映射结果的准确性;由于,诊断原词与诊断标准词之间的关系复杂,构建映射关系需要耗费大量的时间,进而,会影响映射的效率以及及时性。
基于此,本申请实施例提供了一种临床诊断标准词的匹配方法,可以提高诊断标准词的匹配效率,保证匹配的及时性,同时,利用诊断原词及诊断标准词的上下文信息进行匹配,还能够确保匹配结果的准确性。
请参阅图1,图1为本申请实施例所提供的一种临床诊断标准词的匹配方法的流程图。如图1中所示,本申请实施例提供的临床诊断标准词的匹配方法,包括:
S101、通过对获取到的病历文本进行分析处理,从所述病历文本中提取出临床诊断原词。
S102、对所述临床诊断原词进行预处理,得到标准诊断原词。
S103、分别在预先构建的医疗文本库和医疗知识图谱中搜索,确定所述标准诊断原词的原词上下文特征以及每个候选诊断标准词的标准上下文特征。
S104、基于所述原词上下文特征和每个标准上下文特征,通过预先训练好的标准词匹配模型,从至少一个候选诊断标准词中,确定出与所述临床诊断原词相匹配的至少一个目标诊断标准词。
本申请实施例所提供的一种临床诊断标准词的匹配方法,在需要对临床诊断原词进行映射时,为了避免临床诊断原词因书写不规范,而无法进行准确映射,对临床诊断原词进行预处理,以得到标准诊断原词;进一步地,为了保证匹配结果的准确性,分别通过搜索医疗文本库和医疗知识图谱,确定出临床诊断原词的原词上下文特征以及每个候选诊断标准词的标准上下文特征,进而,可以借助于临床诊断原词的原词上下文特征以及候选诊断标准词的标准上下文特征,通过标准词匹配模型,以实现目标诊断标准词的准确匹配;这样,便可以参考于上下文特征,实现目标诊断标准词的精准匹配,提高了匹配结果的准确性,同时,减少了构建两者之间映射关系的过程,以此,还可以保证匹配的及时性。
在步骤S101中,对于接收到的电子病历文本,通过对获取到的病历文本进行分析处理,从病历文本中提取出与就诊患者的病情相关的、有助于对就诊患者的病情进行分析的临床诊断原词。
在一种实施方式中,步骤S101包括:
S1011、对所述病历文本进行向量化处理,得到所述病历文本所包括的每个病例分词的分词表示向量。
该步骤中,从病历文本中抽取出用于描述病情的病例分词;并针对于每个病例分词,对该病历文本进行向量化处理,以将该病例分词从文字形式转化为向量形式,得到每个病例分词的分词表示向量。
S1012、针对于每个病例分词,利用预先训练好的BI-LSTM层,通过对该病例分词的分词表示向量进行特征提取,确定该病例分词的分词标签序列。
该步骤中,针对于提取出的每个病例分词,将该病例分词的分词表示向量输入值预先训练好的BI-LSTM层,以利用预先训练好的BI-LSTM层,对该病例分词的分词表示向量进行特征提取,确定该病例分词的分词标签序列。
其中,BI-LSTM层是基于样本病例分词以及样本病例分词的样本分词标签序列训练得到的;具体的,将样本病例分词作为BI-LSTM层的输入特征,将样本病例分词的样本分词标签序列作为BI-LSTM层的输出特征,训练预先构建好的BI-LSTM层,得到训练好的BI-LSTM层。
S1013、利用预先训练好的CRF层对该病例分词的分词标签序列进行校正,确定该病例分词的目标标签序列。
该步骤中,将该病例分词的分词标签序列输入至预先训练好的CRF层,以利用预先训练好的CRF层对该病例分词的分词标签序列进行约束,进而,实现对该病例分词的分词标签序列的校正,确定出该病例分词的目标标签序列。
其中,CRF层是基于样本病例分词的样本分词标签序列以及样本病例分词样本的目标标签序列训练得到的;具体的,将样本病例分词的样本分词标签序列作为CRF层的输入特征,将样本病例分词的目标标签序列作为CRF层的输出特征,训练预先构建好的CRF层,得到训练好的CRF层。
S1014、基于每个病例分词的目标标签序列,确定出所述病历文本的临床诊断原词。
该步骤中,通过组合从病历文本中提取出的各个病例分词的目标标签序列,得到病历文本的临床诊断原词。
这里,考虑到病历文本是每个医生根据自己书写习惯所建立的;因此,会存在内容不标准的情况,在这种情况下,也会使得提取出的临床诊断原词也会出现偏差,无法准确地匹配出目标诊断标准词。
在步骤S102中,对临床诊断原词进行预处理,以使得临床诊断原词中所涉及的内容标准化,预处理后得到标准诊断原词。
其中,临床诊断原词中包括中文、疾病分类号、字母以及符号等,针对于不同类型的临床诊断原词需要逐一进行转换,以得到相对标准的标准诊断原词。
在一种实施方式中,步骤S102包括:
S1021、针对于所述临床诊断原词中包括的全角字符,将所述全角字符转换为半角字符,得到字符转换后的临床诊断原词。
该步骤中,在临床诊断原词包括全角字符的情况下,识别出临床诊断原词中的全角字符;针对于临床诊断原词中的全角字符,将全角字符转换为半角字符,得到字符转换后的临床诊断原词。
示例性的,若临床诊断原词中出现了全角括号“()”,则需要将全角括号“()”转换为半角括号“()”。
S1022、针对于所述字符转换后的临床诊断原词中包括的小写字母,将所述小写字母转换为大写字母,得到字母转换后的临床诊断原词。
该步骤中,在临床诊断原词包括小写字母的情况下,识别出临床诊断原词中的小写字母;针对于临床诊断原词中的小写字母,将小写字母转换为大写字母,得到字母转换后的临床诊断原词。
示例性的,若临床诊断原词中出现了小写字母“iv”,则需要将小写字母“iv”转为大写字母“IV”。
这里,考虑到在利用标准词匹配模型进行目标诊断标准词匹配时,仅利用标准诊断原词和候选诊断标准词自身所包括的特征信息,无法得到理想的匹配结果;因此,本申请实施例在利用标准词匹配模型进行目标诊断标准词的匹配时,进一步地参考了标准诊断原词与每个候选诊断标准词的上下文特征,以此,避免因缺少上下文特征,使得匹配结果不理想。
在步骤S103中,分别在预先构建的医疗文本库和医疗知识图谱中搜索,以通过搜索医疗文本库和医疗知识图谱丰富标准诊断原词和候选诊断标准词的上下文特征,确定出标准诊断原词的原词上下文特征以及每个候选诊断标准词的标准上下文特征。
在一种实施方式中,步骤S103包括:
S1031、分别利用所述标准诊断原词和每个候选诊断标准词,在预先构建的医疗文本库中搜索,确定出现所述标准诊断原词的第一病历原文和出现每个候选诊断标准词的第二病历原文。
该步骤中,医疗文本库中存储有大量的病历原文,利用标准诊断原词在预先构建的医疗文本库中搜索,通过搜索可以获取到出现过标准诊断原词的第一病历原文;同样的,针对于每个候选诊断标准词,利用该候选诊断标准词在预先构建的医疗文本库中搜索,通过搜索可以获取到出现过该候选诊断标准词的第二病历原文。
S1032、分别利用所述标准诊断原词和每个候选诊断标准词,在预先构建的医疗知识图谱中搜索,获取所述标准诊断原词对应的原词图嵌入特征和每个候选诊断标准词的候选图嵌入特征。
该步骤中,利用标准诊断原词在预先构建的医疗知识图谱中搜索,通过搜索可以确定出标准诊断原词对应的原词图嵌入特征(graph embedding特征);同样的,针对于每个候选诊断标准词,利用该候选诊断标准词在预先构建的医疗知识图谱中搜索,通过搜索可以确定出该候选诊断标准词的候选图嵌入特征。
S1033、将所述标准诊断原词、所述第一病历原文以及所述原词图嵌入特征,确定为所述标准诊断原词的原词上下文特征。
该步骤中,为了丰富标准诊断原词所涵盖的特征,将标准诊断原词、第一病历原文以及原词图嵌入特征,均确定为标准诊断原词的原词上下文特征,用于进行目标诊断标准词的匹配。
S1034、针对于每个候选诊断标准词,将该候选诊断标准词、该候选诊断标准词的第二病历原文和该候选诊断标准词的候选图嵌入特征,确定为该候选诊断标准词的标准上下文特征。
该步骤中,为了丰富每个候选诊断标准词所涵盖的特征,针对于每个候选诊断标准词,将该候选诊断标准词、该候选诊断标准词的第二病历原文和该候选诊断标准词的候选图嵌入特征,确定为该候选诊断标准词的标准上下文特征,用于进行目标诊断标准词的匹配。
以此,利用标准诊断原词的原词上下文特征以及每个候选诊断标准词的标准上下文特征,分别丰富标准诊断原词和候选诊断标准词所蕴含的信息,避免由于蕴含信息较少出现匹配不准确的问题。
在步骤S104中,将确定出的标准诊断原词的原词上下文特征以及每个候选诊断标准词的标准上下文特征作为输入特征输入至预先训练好的标准词匹配模型中,以通过预先训练好的标准词匹配模型,从至少一个候选诊断标准词中,确定出与临床诊断原词相匹配的至少一个目标诊断标准词。
这里,标准词匹配模型分为两个部分,一是,Bert模型用于确定标准诊断原词与每个候选诊断标准词之间的关联相似度及临床诊断原词所匹配的目标诊断标准词的匹配数量;二是,分类器用于对至少一个候选诊断标准词进行分类,以确定出与临床诊断原词相匹配的目标诊断标准词。
在一种实施方式中,所述标准词匹配模型包括Bert模型和分类器;步骤S104包括:
S1041、将所述原词上下文特征和每个标准上下文特征作为输入特征,输入预先训练好的Bert模型,确定所述标准诊断原词与每个候选诊断标准词之间的关联相似度以及所述临床诊断原词所匹配的目标诊断标准词的匹配数量。
该步骤中,将确定出的标准诊断原词的原词上下文特征以及每个候选诊断标准词的标准上下文特征作为输入特征输入至预先训练好的Bert模型中,以通过Bert模型确定出标准诊断原词与每个候选诊断标准词之间的关联相似度以及临床诊断原词所匹配的目标诊断标准词的匹配数量。
S1042、基于确定出的至少一个关联相似度和所述匹配数量,通过预先训练好的分类器,从所述至少一个候选诊断标准词中确定出所述匹配数量的目标诊断标准词。
该步骤中,将标准诊断原词与每个候选诊断标准词之间的关联相似度和匹配数量作为输入特征,输入预先训练好的分类器中,以通过分类器从至少一个候选诊断标准词中,确定出匹配数量的与临床诊断原词相匹配的、可用于替换临床诊断原词的目标诊断标准词。
在一种实施方式中,所述Bert模型包括第一Bert子模型和第二Bert子模型;步骤S1041包括:
S10411、将所述原词上下文特征和每个标准上下文特征,输入所述第一Bert子模型,确定所述标准诊断原词与每个候选诊断标准词之间的关联相似度。
该步骤中,将确定出的标准诊断原词的原词上下文特征以及每个候选诊断标准词的标准上下文特征作为输入特征输入至预先训练好的第一Bert子模型中,以通过第一Bert子模型确定出标准诊断原词与每个候选诊断标准词之间的关联相似度。
其中,第一Bert子模型是基于样本诊断原词的样本原词上下文特征、每个样本诊断标准词的样本标准上下文特征以及样本诊断原词与每个样本诊断标准词之间的相似度标签,训练得到的;具体的,将样本诊断原词的样本原词上下文特征和每个样本诊断标准词的样本标准上下文特征作为第一Bert子模型的输入特征,将每个相似度标签作为第一Bert子模型的输出特征,训练预先构建好的第一Bert子模型,得到训练好的第一Bert子模型。
这里,考虑到如果直接利用标准诊断原词和每个候选诊断标准词之间的关联相似度,那么,取前几个候选诊断标准词做为目标诊断标准词合适不好判断;如果直接把超过相似度阈值的候选诊断标准词都确定为目标诊断标准词,那么这个相似度阈值不好确定(相似度阈值太低,会导致一些常见临床诊断原词,匹配出大量的目标诊断标准词;相似度阈值太高,会导致一些罕见的临床诊断原词匹配不出目标诊断标准词);因此,为了避免上述问题,预先借助于Bert模型实现临床诊断原词所匹配的目标诊断标准词的匹配数量的预测。
S10412、将所述原词上下文特征输入所述第二Bert子模型,预测所述临床诊断原词所匹配的目标诊断标准词的匹配数量。
该步骤中,将确定出的标准诊断原词的原词上下文特征作为输入特征输入至预先训练好的第二Bert子模型中,以通过第二Bert子模型预测出临床诊断原词所匹配的目标诊断标准词的匹配数量。
其中,第二Bert子模型是基于样本诊断原词的样本原词上下文特征以及样本诊断原词与样本诊断原词对应的样本诊断标准词的数量标签,训练得到的;具体的,将样本诊断原词的样本原词上下文特征作为第二Bert子模型的输入特征,将数量标签作为第二Bert子模型的输出特征,训练预先构建好的第二Bert子模型,得到训练好的第二Bert子模型。
这里,标准词库中预先存储有大量的预设诊断标准词,若逐一将标准诊断原词与存储的每个预设诊断标准词进行匹配,则会消耗大量的计算资源,因此,为了能够缩减匹配过程的计算量,可以通过计算相似分值或最长公共子序列的方式,预先从大量的预设诊断标准词中选择出与标准诊断原词存在相似性的候选诊断标准词。
在一种实施方式中,通过以下步骤确定至少一个候选诊断标准词:
步骤1、获取标准词库中已存储的多个预设诊断标准词。
步骤2、针对于每个预设诊断标准词,对该预设诊断标准词进行分词处理,得到该预设诊断标准词的多个子分词。
该步骤中,为了能够详细地表征出每个预设诊断标准词,可以结合于每个预设诊断标准词所涵盖的分词,以更加详细的得到预设诊断标准词的表征;针对于每个预设诊断标准词,可以通过“jieba”分词法对该预设诊断标准词进行分词处理,得到从该预设诊断标准词分割出的多个子分词。
步骤3、借助于开源自然语言处理库,将所述多个子分词进行向量化处理,得到该预设诊断标准词的向量表示形式。
该步骤中,借助于开源自然语言处理库,将从该预设诊断标准词中分割出的多个子分词进行向量化处理,以得到该预设诊断标准词的向量表示形式。
示例性的,可以根据每个子分词在开源自然语言处理库中的位置,确定该预设诊断标准词的向量表示形式。
步骤4、基于每个预设诊断标准词的向量表示形式以及所述标准诊断原词的向量表示形式,确定所述标准诊断原词与每个预设诊断标准词的相似分值。
该步骤中,基于每个预设诊断标准词的向量表示形式以及标准诊断原词的向量表示形式,通过计算每个预设诊断标准词的向量表示形式与标准诊断原词的向量表示形式之间的余弦相似性、欧氏距离等方式,确定标准诊断原词与每个预设诊断标准词的相似分值。
步骤5、基于确定多个相似分值,从所述多个预设诊断标准词中确定出至少一个候选诊断标准词。
该步骤中,利用标准诊断原词与每个预设诊断标准词的相似分值,对标准词库中的大量的预设诊断标准词进行筛选,从多个预设诊断标准词中确定出至少一个候选诊断标准词。
在另一种实施方式中,通过以下步骤确定至少一个候选诊断标准词:
步骤6、获取标准词库中已存储的多个预设诊断标准词。
步骤7、针对于每个预设诊断标准词,确定该预设诊断标准词与所述标准诊断原词之间的最长公共子序列。
步骤8、基于确定出的多个最长公共子序列,从所述多个预设诊断标准词中确定出至少一个候选诊断标准词。
该步骤中,利用标准诊断原词与每个预设诊断标准词之间的最长公共子序列,对标准词库中的大量的预设诊断标准词进行筛选,从多个预设诊断标准词中确定出至少一个候选诊断标准词。
在一种实施方式中,通过以下步骤对初始诊断标准词进行预处理,得到预设诊断标准词:
步骤a、针对于所述初始诊断标准词中包括的全角字符,将所述全角字符转换为半角字符,得到字符转换后的诊断标准词。
该步骤中,在初始诊断标准词包括全角字符的情况下,识别出初始诊断标准词中的全角字符;针对于初始诊断标准词中的全角字符,将全角字符转换为半角字符,得到字符转换后的诊断标准词。
步骤b、针对于所述字符转换后的诊断标准词中包括的小写字母,将所述小写字母转换为大写字母,得到字母转换后的诊断标准词。
该步骤中,在初始诊断标准词包括小写字母的情况下,识别出字母转换后的诊断标准词中的小写字母;针对于字母转换后的诊断标准词中的小写字母,将小写字母转换为大写字母,得到字母转换后的诊断标准词。
步骤c、针对于所述字母转换后的诊断标准词中包括的疾病分类号,将所述疾病分类号转换为所述疾病分类号所属一级分类号,得到预设诊断标准词。
该步骤中,在初始诊断标准词包括疾病分类号的情况下,识别出字母转换后的诊断标准词中的疾病分类号;针对于字母转换后的诊断标准词中的疾病分类号,统一将疾病分类号用该疾病分类号所属一级分类号进行替换,即将字母转换后的诊断标准词中出现的疾病分类号转换为该疾病分类号所属的一级分类号,以得到预设诊断原词。
示例性的,对于“霍乱”这一疾病来说,其一级分类号为“A00:霍乱”,若初始诊断标准词中出现了“霍乱”的疾病分类号“A00.902:霍乱轻型”,则需要将疾病分类号“A00.902:霍乱轻型”转换为“A00:霍乱”。
这里,还可以从至少一个目标诊断标准词中进一步地确定出用于替换临床诊断原词的替换诊断标准词。
在一种实施方式中,所述匹配方法还包括:
S105、确定所述标准诊断原词与每个目标诊断标准词之间的余弦相似度。
S106、基于确定出至少一个余弦相似度,从所述至少一个目标诊断标准词中确定出与所述临床诊断原词相匹配的替换诊断标准词。
该步骤中,利用标准诊断原词与每个目标诊断标准词之间的余弦相似度,对至少一个目标诊断标准词进行筛选,以从至少一个目标诊断标准词中确定出与临床诊断原词匹配度最高的、能够用于临床诊断原词的替换诊断标准词。
请参阅图2,图2为本申请实施例所提供的标准词匹配过程示意图。如图2所示,利用标准诊断原词和候选诊断标准词在医疗文本库和医疗知识图谱中搜索,确定标准诊断原词的第一病历原文和原词图嵌入特征,以及每个候选诊断标准词的第二病历原文和候选图嵌入特征,将标准诊断原词、第一病历原文、原词图嵌入特征、每个候选诊断标准词、第二病历原文以及候选图嵌入特征作为输入特征输入Bert模型,通过Bert模型确定标准诊断原词与每个候选诊断标准词之间的关联相似度以及临床诊断原词所匹配的目标诊断标准词的匹配数量;再通过分类器从至少一个候选诊断标准词中确定出匹配数量的目标诊断标准词。
本申请实施例提供的临床诊断标准词的匹配方法,通过对获取到的病历文本进行分析处理,从病历文本中提取出临床诊断原词;对临床诊断原词进行预处理,得到标准诊断原词;分别在预先构建的医疗文本库和医疗知识图谱中搜索,确定标准诊断原词的原词上下文特征以及每个候选诊断标准词的标准上下文特征;基于原词上下文特征和每个标准上下文特征,通过预先训练好的标准词匹配模型,从至少一个候选诊断标准词中,确定出与所述临床诊断原词相匹配的至少一个目标诊断标准词。这样,便可以参考于上下文特征,实现目标诊断标准词的精准匹配,提高了匹配结果的准确性,同时,减少了构建两者之间映射关系的过程,以此,还可以保证匹配的及时性。
请参阅图3、图4,图3为本申请实施例所提供的一种临床诊断标准词的匹配装置的结构示意图之一,图4为本申请实施例所提供的一种临床诊断标准词的匹配装置的结构示意图之二。如图3中所示,所述匹配装置300包括:
原词提取模块310,用于通过对获取到的病历文本进行分析处理,从所述病历文本中提取出临床诊断原词;
预处理模块320,用于对所述临床诊断原词进行预处理,得到标准诊断原词;
特征确定模块330,用于分别在预先构建的医疗文本库和医疗知识图谱中搜索,确定所述标准诊断原词的原词上下文特征以及每个候选诊断标准词的标准上下文特征;
标准词匹配模块340,用于基于所述原词上下文特征和每个标准上下文特征,通过预先训练好的标准词匹配模型,从至少一个候选诊断标准词中,确定出与所述临床诊断原词相匹配的至少一个目标诊断标准词。
进一步的,所述预处理模块320在用于对所述临床诊断原词进行预处理,得到标准诊断原词时,所述预处理模块320用于:
针对于所述临床诊断原词中包括的全角字符,将所述全角字符转换为半角字符,得到字符转换后的临床诊断原词;
针对于所述字符转换后的临床诊断原词中包括的小写字母,将所述小写字母转换为大写字母,得到字母转换后的临床诊断原词。
进一步的,所述特征确定模块330在用于分别在预先构建的医疗文本库和医疗知识图谱中搜索,确定所述临床诊断原词的原词上下文特征以及每个候选诊断标准词的标准上下文特征时,所述特征确定模块330用于:
分别利用所述标准诊断原词和每个候选诊断标准词,在预先构建的医疗文本库中搜索,确定出现所述标准诊断原词的第一病历原文和出现每个候选诊断标准词的第二病历原文;
分别利用所述标准诊断原词和每个候选诊断标准词,在预先构建的医疗知识图谱中搜索,获取所述标准诊断原词对应的原词图嵌入特征和每个候选诊断标准词的候选图嵌入特征;
将所述标准诊断原词、所述第一病历原文以及所述原词图嵌入特征,确定为所述标准诊断原词的原词上下文特征;
针对于每个候选诊断标准词,将该候选诊断标准词、该候选诊断标准词的第二病历原文和该候选诊断标准词的候选图嵌入特征,确定为该候选诊断标准词的标准上下文特征。
进一步的,所述标准词匹配模型包括Bert模型和分类器;所述标准词匹配模块340在用于基于所述原词上下文特征和每个标准上下文特征,通过预先训练好的标准词匹配模型,从至少一个候选诊断标准词中,确定出与所述临床诊断原词相匹配的至少一个目标诊断标准词时,所述标准词匹配模块340用于:
将所述原词上下文特征和每个标准上下文特征作为输入特征,输入预先训练好的Bert模型,确定所述标准诊断原词与每个候选诊断标准词之间的关联相似度以及所述临床诊断原词所匹配的目标诊断标准词的匹配数量;
基于确定出的至少一个关联相似度和所述匹配数量,通过预先训练好的分类器,从所述至少一个候选诊断标准词中确定出所述匹配数量的目标诊断标准词。
进一步的,所述Bert模型包括第一Bert子模型和第二Bert子模型;所述标准词匹配模块340在用于将所述原词上下文特征和每个标准上下文特征作为输入特征,输入预先训练好的Bert模型,确定所述标准诊断原词与每个候选诊断标准词之间的关联相似度以及所述临床诊断原词所匹配的目标诊断标准词的匹配数量时,所述标准词匹配模块340在用于:
将所述原词上下文特征和每个标准上下文特征,输入所述第一Bert子模型,确定所述标准诊断原词与每个候选诊断标准词之间的关联相似度;
将所述原词上下文特征输入所述第二Bert子模型,预测所述临床诊断原词所匹配的目标诊断标准词的匹配数量。
进一步的,如图4所示,所述匹配装置300还包括标准词筛选模块350,所述标准词筛选模块350用于通过以下步骤确定至少一个候选诊断标准词:
获取标准词库中已存储的多个预设诊断标准词;
针对于每个预设诊断标准词,对该预设诊断标准词进行分词处理,得到该预设诊断标准词的多个子分词;
借助于开源自然语言处理库,将所述多个子分词进行向量化处理,得到该预设诊断标准词的向量表示形式;
基于每个预设诊断标准词的向量表示形式以及所述标准诊断原词的向量表示形式,确定所述标准诊断原词与每个预设诊断标准词的相似分值;
基于确定多个相似分值,从所述多个预设诊断标准词中确定出至少一个候选诊断标准词。
进一步的,所述标准词筛选模块350用于通过以下步骤确定至少一个候选诊断标准词:
获取标准词库中已存储的多个预设诊断标准词;
针对于每个预设诊断标准词,确定该预设诊断标准词与所述标准诊断原词之间的最长公共子序列;
基于确定出的多个最长公共子序列,从所述多个预设诊断标准词中确定出至少一个候选诊断标准词。
进一步的,如图4所示,所述匹配装置300还包括替换词匹配模块360,所述替换词匹配模块360用于:
确定所述标准诊断原词与每个目标诊断标准词之间的余弦相似度;
基于确定出至少一个余弦相似度,从所述至少一个目标诊断标准词中确定出与所述临床诊断原词相匹配的替换诊断标准词。
进一步的,所述原词提取模块310在用于通过对获取到的病历文本进行分析处理,从所述病历文本中提取出临床诊断原词时,所述原词提取模块310用于:
对所述病历文本进行向量化处理,得到所述病历文本所包括的每个病例分词的分词表示向量;
针对于每个病例分词,利用预先训练好的BI-LSTM层,通过对该病例分词的分词表示向量进行特征提取,确定该病例分词的分词标签序列;
利用预先训练好的CRF层对该病例分词的分词标签序列进行校正,确定该病例分词的目标标签序列;
基于每个病例分词的目标标签序列,确定出所述病历文本的临床诊断原词。
本申请实施例提供的临床诊断标准词的匹配装置,通过对获取到的病历文本进行分析处理,从病历文本中提取出临床诊断原词;对临床诊断原词进行预处理,得到标准诊断原词;分别在预先构建的医疗文本库和医疗知识图谱中搜索,确定标准诊断原词的原词上下文特征以及每个候选诊断标准词的标准上下文特征;基于原词上下文特征和每个标准上下文特征,通过预先训练好的标准词匹配模型,从至少一个候选诊断标准词中,确定出与所述临床诊断原词相匹配的至少一个目标诊断标准词。这样,便可以参考于上下文特征,实现目标诊断标准词的精准匹配,提高了匹配结果的准确性,同时,减少了构建两者之间映射关系的过程,以此,还可以保证匹配的及时性。
请参阅图5,图5为本申请实施例所提供的一种电子设备的结构示意图。如图5中所示,所述电子设备500包括处理器510、存储器520和总线530。
所述存储器520存储有所述处理器510可执行的机器可读指令,当电子设备500运行时,所述处理器510与所述存储器520之间通过总线530通信,所述机器可读指令被所述处理器510执行时,可以执行如上述图1所示方法实施例中的临床诊断标准词的匹配方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图1所示方法实施例中的临床诊断标准词的匹配方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (9)
1.一种临床诊断标准词的匹配方法,其特征在于,所述匹配方法包括:
通过对获取到的病历文本进行分析处理,从所述病历文本中提取出临床诊断原词;
对所述临床诊断原词进行预处理,得到标准诊断原词;
分别在预先构建的医疗文本库和医疗知识图谱中搜索,确定所述标准诊断原词的原词上下文特征以及每个候选诊断标准词的标准上下文特征;其中,所述标准诊断原词的原词上下文特征包括所述标准诊断原词、出现所述标准诊断原词的第一病历原文以及所述标准诊断原词对应的原词图嵌入特征;所述候选诊断标准词的标准上下文特征包括所述候选诊断标准词、出现所述候选诊断标准词的第二病历原文以及所述候选诊断标准词的候选图嵌入特征;
基于所述原词上下文特征和每个标准上下文特征,通过预先训练好的标准词匹配模型,从至少一个候选诊断标准词中,确定出与所述临床诊断原词相匹配的至少一个目标诊断标准词;
所述标准词匹配模型包括Bert模型和分类器;所述基于所述原词上下文特征和每个标准上下文特征,通过预先训练好的标准词匹配模型,从至少一个候选诊断标准词中,确定出与所述临床诊断原词相匹配的至少一个目标诊断标准词,包括:
将所述原词上下文特征和每个标准上下文特征作为输入特征,输入预先训练好的Bert模型,确定所述标准诊断原词与每个候选诊断标准词之间的关联相似度以及所述临床诊断原词所匹配的目标诊断标准词的匹配数量;
基于确定出的至少一个关联相似度和所述匹配数量,通过预先训练好的分类器,从所述至少一个候选诊断标准词中确定出所述匹配数量的目标诊断标准词。
2.根据权利要求1所述的匹配方法,其特征在于,对所述临床诊断原词进行预处理,得到标准诊断原词,包括:
针对于所述临床诊断原词中包括的全角字符,将所述全角字符转换为半角字符,得到字符转换后的临床诊断原词;
针对于所述字符转换后的临床诊断原词中包括的小写字母,将所述小写字母转换为大写字母,得到字母转换后的临床诊断原词。
3.根据权利要求1所述的匹配方法,其特征在于,所述分别在预先构建的医疗文本库和医疗知识图谱中搜索,确定所述临床诊断原词的原词上下文特征以及每个候选诊断标准词的标准上下文特征,包括:
分别利用所述标准诊断原词和每个候选诊断标准词,在预先构建的医疗文本库中搜索,确定出现所述标准诊断原词的第一病历原文和出现每个候选诊断标准词的第二病历原文;
分别利用所述标准诊断原词和每个候选诊断标准词,在预先构建的医疗知识图谱中搜索,获取所述标准诊断原词对应的原词图嵌入特征和每个候选诊断标准词的候选图嵌入特征;
将所述标准诊断原词、所述第一病历原文以及所述原词图嵌入特征,确定为所述标准诊断原词的原词上下文特征;
针对于每个候选诊断标准词,将该候选诊断标准词、该候选诊断标准词的第二病历原文和该候选诊断标准词的候选图嵌入特征,确定为该候选诊断标准词的标准上下文特征。
4.根据权利要求1所述的匹配方法,其特征在于,所述Bert模型包括第一Bert子模型和第二Bert子模型;所述将所述原词上下文特征和每个标准上下文特征作为输入特征,输入预先训练好的Bert模型,确定所述标准诊断原词与每个候选诊断标准词之间的关联相似度以及所述临床诊断原词所匹配的目标诊断标准词的匹配数量,包括:
将所述原词上下文特征和每个标准上下文特征,输入所述第一Bert子模型,确定所述标准诊断原词与每个候选诊断标准词之间的关联相似度;
将所述原词上下文特征输入所述第二Bert子模型,预测所述临床诊断原词所匹配的目标诊断标准词的匹配数量。
5.根据权利要求1所述的匹配方法,其特征在于,通过以下步骤确定至少一个候选诊断标准词:
获取标准词库中已存储的多个预设诊断标准词;
针对于每个预设诊断标准词,对该预设诊断标准词进行分词处理,得到该预设诊断标准词的多个子分词;
借助于开源自然语言处理库,将所述多个子分词进行向量化处理,得到该预设诊断标准词的向量表示形式;
基于每个预设诊断标准词的向量表示形式以及所述标准诊断原词的向量表示形式,确定所述标准诊断原词与每个预设诊断标准词的相似分值;
基于确定多个相似分值,从所述多个预设诊断标准词中确定出至少一个候选诊断标准词。
6.根据权利要求1所述的匹配方法,其特征在于,通过以下步骤确定至少一个候选诊断标准词:
获取标准词库中已存储的多个预设诊断标准词;
针对于每个预设诊断标准词,确定该预设诊断标准词与所述标准诊断原词之间的最长公共子序列;
基于确定出的多个最长公共子序列,从所述多个预设诊断标准词中确定出至少一个候选诊断标准词。
7.根据权利要求1所述的匹配方法,其特征在于,所述匹配方法还包括:
确定所述标准诊断原词与每个目标诊断标准词之间的余弦相似度;
基于确定出至少一个余弦相似度,从所述至少一个目标诊断标准词中确定出与所述临床诊断原词相匹配的替换诊断标准词。
8.根据权利要求1所述的匹配方法,其特征在于,所述通过对获取到的病历文本进行分析处理,从所述病历文本中提取出临床诊断原词,包括:
对所述病历文本进行向量化处理,得到所述病历文本所包括的每个病例分词的分词表示向量;
针对于每个病例分词,利用预先训练好的BI-LSTM层,通过对该病例分词的分词表示向量进行特征提取,确定该病例分词的分词标签序列;
利用预先训练好的CRF层对该病例分词的分词标签序列进行校正,确定该病例分词的目标标签序列;
基于每个病例分词的目标标签序列,确定出所述病历文本的临床诊断原词。
9.一种临床诊断标准词的匹配装置,其特征在于,所述匹配装置包括:
原词提取模块,用于通过对获取到的病历文本进行分析处理,从所述病历文本中提取出临床诊断原词;
预处理模块,用于对所述临床诊断原词进行预处理,得到标准诊断原词;
特征确定模块,用于分别在预先构建的医疗文本库和医疗知识图谱中搜索,确定所述标准诊断原词的原词上下文特征以及每个候选诊断标准词的标准上下文特征;其中,所述标准诊断原词的原词上下文特征包括所述标准诊断原词、出现所述标准诊断原词的第一病历原文以及所述标准诊断原词对应的原词图嵌入特征;所述候选诊断标准词的标准上下文特征包括所述候选诊断标准词、出现所述候选诊断标准词的第二病历原文以及所述候选诊断标准词的候选图嵌入特征;
标准词匹配模块,用于基于所述原词上下文特征和每个标准上下文特征,通过预先训练好的标准词匹配模型,从至少一个候选诊断标准词中,确定出与所述临床诊断原词相匹配的至少一个目标诊断标准词;
所述标准词匹配模型包括Bert模型和分类器;所述标准词匹配模块在用于基于所述原词上下文特征和每个标准上下文特征,通过预先训练好的标准词匹配模型,从至少一个候选诊断标准词中,确定出与所述临床诊断原词相匹配的至少一个目标诊断标准词时,所述标准词匹配模块用于:
将所述原词上下文特征和每个标准上下文特征作为输入特征,输入预先训练好的Bert模型,确定所述标准诊断原词与每个候选诊断标准词之间的关联相似度以及所述临床诊断原词所匹配的目标诊断标准词的匹配数量;
基于确定出的至少一个关联相似度和所述匹配数量,通过预先训练好的分类器,从所述至少一个候选诊断标准词中确定出所述匹配数量的目标诊断标准词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310954858.0A CN116663536B (zh) | 2023-08-01 | 2023-08-01 | 一种临床诊断标准词的匹配方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310954858.0A CN116663536B (zh) | 2023-08-01 | 2023-08-01 | 一种临床诊断标准词的匹配方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116663536A CN116663536A (zh) | 2023-08-29 |
CN116663536B true CN116663536B (zh) | 2023-10-24 |
Family
ID=87712235
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310954858.0A Active CN116663536B (zh) | 2023-08-01 | 2023-08-01 | 一种临床诊断标准词的匹配方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116663536B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117271712A (zh) * | 2023-11-21 | 2023-12-22 | 上海爱可生信息技术股份有限公司 | 基于向量数据库的检索方法、系统及电子设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255013A (zh) * | 2018-08-14 | 2019-01-22 | 平安医疗健康管理股份有限公司 | 理赔决策方法、装置、计算机设备和存储介质 |
CN114186070A (zh) * | 2021-12-08 | 2022-03-15 | 上海柯林布瑞信息技术有限公司 | 基于人工智能模型的医学术语归一化方法、装置 |
CN114610902A (zh) * | 2022-03-25 | 2022-06-10 | 南京市畜牧兽医站(南京市动物疫病预防控制中心) | 一种基于知识图谱的家禽疾病诊断系统 |
CN114996388A (zh) * | 2022-07-18 | 2022-09-02 | 湖南创星科技股份有限公司 | 一种诊断名称标准化的智能匹配方法及系统 |
CN115345166A (zh) * | 2022-08-22 | 2022-11-15 | 中国平安人寿保险股份有限公司 | 医疗文本的疾病诊断名识别方法、装置、设备及存储介质 |
CN115859914A (zh) * | 2022-12-22 | 2023-03-28 | 朱卫国 | 基于病历语义理解的诊断icd自动编码方法及系统 |
CN116127979A (zh) * | 2023-04-04 | 2023-05-16 | 浙江太美医疗科技股份有限公司 | 命名实体名称标准化的方法和装置、电子设备和存储介质 |
CN116127956A (zh) * | 2023-01-06 | 2023-05-16 | 浙江大学计算机创新技术研究院 | 一种基于双塔模型的自适应术语归一化方法 |
CN116384379A (zh) * | 2023-06-06 | 2023-07-04 | 天津大学 | 一种基于深度学习的中文临床术语标准化方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3637431A1 (en) * | 2018-10-12 | 2020-04-15 | Fujitsu Limited | Medical diagnostic aid and method |
-
2023
- 2023-08-01 CN CN202310954858.0A patent/CN116663536B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255013A (zh) * | 2018-08-14 | 2019-01-22 | 平安医疗健康管理股份有限公司 | 理赔决策方法、装置、计算机设备和存储介质 |
CN114186070A (zh) * | 2021-12-08 | 2022-03-15 | 上海柯林布瑞信息技术有限公司 | 基于人工智能模型的医学术语归一化方法、装置 |
CN114610902A (zh) * | 2022-03-25 | 2022-06-10 | 南京市畜牧兽医站(南京市动物疫病预防控制中心) | 一种基于知识图谱的家禽疾病诊断系统 |
CN114996388A (zh) * | 2022-07-18 | 2022-09-02 | 湖南创星科技股份有限公司 | 一种诊断名称标准化的智能匹配方法及系统 |
CN115345166A (zh) * | 2022-08-22 | 2022-11-15 | 中国平安人寿保险股份有限公司 | 医疗文本的疾病诊断名识别方法、装置、设备及存储介质 |
CN115859914A (zh) * | 2022-12-22 | 2023-03-28 | 朱卫国 | 基于病历语义理解的诊断icd自动编码方法及系统 |
CN116127956A (zh) * | 2023-01-06 | 2023-05-16 | 浙江大学计算机创新技术研究院 | 一种基于双塔模型的自适应术语归一化方法 |
CN116127979A (zh) * | 2023-04-04 | 2023-05-16 | 浙江太美医疗科技股份有限公司 | 命名实体名称标准化的方法和装置、电子设备和存储介质 |
CN116384379A (zh) * | 2023-06-06 | 2023-07-04 | 天津大学 | 一种基于深度学习的中文临床术语标准化方法 |
Non-Patent Citations (1)
Title |
---|
面向生物医学文本的实体识别和标准化研究;孙曰君;中国优秀硕士学位论文全文数据库 基础科学辑;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116663536A (zh) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111274806B (zh) | 分词和词性识别方法、装置及电子病历的分析方法、装置 | |
CN110020422B (zh) | 特征词的确定方法、装置和服务器 | |
US11514698B2 (en) | Intelligent extraction of information from a document | |
CN112347244B (zh) | 基于混合特征分析的涉黄、涉赌网站检测方法 | |
CN113051356B (zh) | 开放关系抽取方法、装置、电子设备及存储介质 | |
CN112818093B (zh) | 基于语义匹配的证据文档检索方法、系统及存储介质 | |
CN111444723A (zh) | 信息抽取模型训练方法、装置、计算机设备和存储介质 | |
CN113254654B (zh) | 模型训练、文本识别方法、装置、设备和介质 | |
CN110580308A (zh) | 信息审核方法及装置、电子设备、存储介质 | |
CN116663536B (zh) | 一种临床诊断标准词的匹配方法及装置 | |
CN110990563A (zh) | 一种基于人工智能的传统文化素材库构建方法及系统 | |
CN116432655B (zh) | 基于语用知识学习的少样本命名实体识别方法和装置 | |
CN112131876A (zh) | 一种基于相似度确定标准问题的方法及系统 | |
CN112035620A (zh) | 医疗查询系统的问答管理方法、装置、设备及存储介质 | |
CN114386421A (zh) | 相似新闻检测方法、装置、计算机设备和存储介质 | |
CN112287680A (zh) | 一种问诊信息的实体抽取方法、装置、设备及存储介质 | |
CN114387602B (zh) | 医疗ocr数据优化模型训练方法、优化方法及设备 | |
CN114265919A (zh) | 一种实体提取方法、装置、电子设备及存储介质 | |
CN115168590A (zh) | 文本特征提取方法、模型训练方法、装置、设备及介质 | |
CN114647727A (zh) | 应用于实体信息识别的模型训练方法、装置和设备 | |
CN114298048A (zh) | 命名实体识别方法及装置 | |
US20230394236A1 (en) | Extracting content from freeform text samples into custom fields in a software application | |
CN117422074A (zh) | 一种临床信息文本标准化的方法、装置、设备及介质 | |
CN117608889A (zh) | 基于日志语义的异常检测方法以及相关设备 | |
KR102363958B1 (ko) | 이중 클러스터링 기반 소비자 인식 분석 방법, 장치 및 프로그램 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |