CN116384379A - 一种基于深度学习的中文临床术语标准化方法 - Google Patents

一种基于深度学习的中文临床术语标准化方法 Download PDF

Info

Publication number
CN116384379A
CN116384379A CN202310658037.2A CN202310658037A CN116384379A CN 116384379 A CN116384379 A CN 116384379A CN 202310658037 A CN202310658037 A CN 202310658037A CN 116384379 A CN116384379 A CN 116384379A
Authority
CN
China
Prior art keywords
words
standard
word
learning
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310658037.2A
Other languages
English (en)
Inventor
曹天甲
倪广健
程龙龙
田野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongdian Yunnao Tianjin Technology Co ltd
Tianjin University
Original Assignee
Zhongdian Yunnao Tianjin Technology Co ltd
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongdian Yunnao Tianjin Technology Co ltd, Tianjin University filed Critical Zhongdian Yunnao Tianjin Technology Co ltd
Priority to CN202310658037.2A priority Critical patent/CN116384379A/zh
Publication of CN116384379A publication Critical patent/CN116384379A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于深度学习的中文临床术语标准化方法,涉及到临床术语领域,针对每一个诊断原词,进行所述数据的预处理;从标准词集合中产生该诊断原词,利用所述诊断原词达到所述候选集生成;使用所述模型排序对候选集中的每个词进行排序;通过模型预测出标准词个数K,并结合所述模型排序的结果,得到前K个词作为所述标准词集合。所述数据的预处理分为数据清洗和标准词集合生成,所述数据清洗包括清洗诊断原词的无关字符,所述标准词生成包括选取ICD‑10作为标准词集合。针对候选集生成过程,本提案提出一种基于有监督学习与无监督学习融合的候选集生成方法,提高候选集生成的召回率。

Description

一种基于深度学习的中文临床术语标准化方法
技术领域
本发明涉及临床术语领域,特别涉及一种基于深度学习的中文临床术语标准化方法。
背景技术
针对中文临床术语标准化问题,已有大量的研究和探索。目前主要分为三类方法,即基于人工手动结合规则的方法、基于机器学习的方法和基于深度学习的方法。
基于人工手动结合规则的方法最早应用于国外对临床术语的标准化。然而这种方式总体学习成本较高,并且效率低下。需要大量的专业人员,并且耗时易出错,现在应用较少。
基于机器学习的方法相对于基于人工手动结合规则的方法有一定进步。但是并没有深入挖掘文本中所包含的语义信息。
随着深度学习技术的发展和计算性能的大幅提升,神经网络被广泛应用于临床信息处理领域。深度学习在文本建模上具有强大的表征能力,不仅可以更好地表示词语和文本,还可以学习到词语的上下文关系和重要词语的信息,在自然语言处理领域展现出强大的优势。因此,深度学习成为目前研究临床术语标准化的主流方法。
本提案提出一种基于深度学习的中文临床术语标准化的方法。将临床术语标准化工作分为候选集生成,模型排序,个数预测三部分。同时针对候选集生成,提出一种基于无监督与有监督学习融合的候选集生成方法,将候选集生成问题抽象成文本相似度计算问题。
发明内容
本发明的目的在于提供一种基于深度学习的中文临床术语标准化方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于深度学习的中文临床术语标准化方法,包括数据的预处理、候选集生成、模型排序、个数预测,该方法包括以下步骤:
S1、数据的预处理,数据的预处理分为数据清洗和标准词集合生成,发明数据清洗包括清洗诊断原词的无关字符,标准词生成包括选取ICD-10作为标准词集合,优化对比损失,增加正样例之间的相似性,减小负样例之间的相似性,在有监督学习场景下,将训练集中标注的诊断原词和标准词数据,作为正样例(X,X+),将训练过程中同一个Batch内除自身之外的其它所有诊断原词及其标准词作为负样例(X,X-)进行数据增强,在无监督学习场景下,构建负样例的过程则与有监督学习场景相同,针对每一个诊断原词,进行所述数据的预处理;
S2、候选集生成,候选集生成是通过给定一个诊断原词,从标准词集合中筛选出若干个标准词作为匹配候选的过程,在候选集生成过程中,将对比学习分别运用到有监督学习和无监督学习两种场景中,对比学习的核心是通过数据增强的方式构建正负样例,然后将正负样例同时输入到模型中进行特征提取进而生成句嵌入,最后优化对比损失,增加正样例之间的相似性,减小负样例之间的相似性,从标准词集合中产生该诊断原词,利用所述诊断原词达到所述候选集生成,通过迁移学习将有监督学习场景和无监督学习场景下通过对比学习生成的模型进行融合,形成最终的候选集生成模型,在推理过程中,输入一个诊断原词,通过模型生成嵌入结果,并与每一个标准词生成的嵌入结果进行相似度计算并排序,通过选取不同的召回范围(TopK值)生成最终的候选集合;
S3、模型排序,使用所述模型排序对候选集中的每个词进行排序;
S4、个数预测,通过模型预测出标准词个数K,并结合所述模型排序的结果,得到前K个词作为所述标准词集合。
优选的,所述数据的预处理分为数据清洗和标准词集合生成,所述数据清洗包括清洗诊断原词的无关字符,所述标准词生成包括选取ICD-10作为标准词集合。
优选的,所述模型排序是将所述诊断原词与候选标准词用[SEP]分隔符隔开作为BERT的输入,然后取BERT输出中[CLS]位置对应的向量作为下一个全连接层的输入,使用sigmoid函数进行激活,把诊断原词与候选标准词语义相似度计算问题抽象为二分类问题。
优选的,所述个数预测的目的是确认输出标准词的数量,在预测数量时,将原始训练集的诊断原词加入到数量预测的训练集中,将原始训练集中的标准词通过分隔符进行分割,得到标准词数量作为数量预测的类别标签。
优选的,将个数预测抽象成一个类别为{1,2,3,>3}的多分类问题,利用BERT微调参数进行数量预测K,结合步骤三排序模型的输出结果,返回前K个排名作为最后的结果。
本发明的技术效果和优点:
1、针对候选集生成过程,本提案提出一种基于有监督学习与无监督学习融合的候选集生成方法,提高候选集生成的召回率。
2、针对中文以及临床领域的特点,提出一种基于深度学习的中文临床术语标准化的方法,可以有效的解决中文临床术语统一标准化的问题。
附图说明
图1为本发明基于深度学习的中文临床术语标准化方法示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了如图1所示的一种基于深度学习的中文临床术语标准化方法,针对每一个诊断原词,进行所述数据的预处理;从标准词集合中产生该诊断原词,利用所述诊断原词达到所述候选集生成;使用所述模型排序对候选集中的每个词进行排序;通过模型预测出标准词个数K,并结合所述模型排序的结果,得到前K个词作为所述标准词集合。
实施例1
候选集生成是通过给定一个诊断原词,从标准词集合中筛选出若干个标准词作为匹配候选的过程,在候选集生成过程中,将对比学习分别运用到有监督学习和无监督学习两种场景中,对比学习的核心是通过数据增强的方式构建正负样例,然后将正负样例同时输入到模型中进行特征提取进而生成句嵌入,最后优化对比损失,增加正样例之间的相似性,减小负样例之间的相似性。
数据的预处理分为数据清洗和标准词集合生成,发明数据清洗包括清洗诊断原词的无关字符,标准词生成包括选取ICD-10作为标准词集合。最后优化对比损失,增加正样例之间的相似性,减小负样例之间的相似性。
在有监督学习场景下,将训练集中标注的数据(诊断原词,标准词)作为正样例(X,X+),将训练过程中同一个Batch内除自身之外的其它所有诊断原词及其标准词作为负样例(X,X-)进行数据增强。
实施例2
在无监督学习场景下,构建负样例的过程则与有监督学习场景相同。而在构建正样例过程中,由于缺乏标注数据,则采用“单词重复”来构建正样例。传统的做法是通过对原有句子进行随机插入或随机删除,以此来改变原有句子长度,形成的新的句子作为原有句子的正样例。但是在句子中插入随机选择的单词可能会引入额外的噪声,并扭曲句子的含义,而从句子中删除关键词则会大幅改变它的语义。而单词重复能在不改变句子语义的情况下改变句子的长度,方法描述如下:
给定一个句子s,经过分词器处理后,得到一个子词序列,X=[X1,...,XN]。将重复单词的数量dup_len定义为:
Figure SMS_1
式中:dup_len是上面定义的集合中的随机采样数;dup_rate为一个超参数,表示最大重复率;N为句子序列的长度。
确定dup_len后,使用均匀分布从句子序列中随机选择需要重复的子词,组成重复单词的集合dup_set如公式所示:
Figure SMS_2
式中:dup_len为公式(1)计算的重复的数量;N为句子序列的长度。
例如,如果第一个子词X1在dup_set中,则序列X变为X+=[X1,X1,X2,...,XN]。
最后,通过迁移学习将有监督学习场景和无监督学习场景下通过对比学习生成的模型进行融合,形成最终的候选集生成模型。在推理过程中,输入一个诊断原词,通过模型生成嵌入结果,并与每一个标准词生成的嵌入结果进行相似度计算并排序,通过选取不同的召回范围(TopK值)生成最终的候选集合。
模型排序是将发明诊断原词与候选标准词用[SEP]分隔符隔开作为BERT的输入,然后取BERT输出中[CLS]位置对应的向量作为下一个全连接层的输入,使用sigmoid函数进行激活,把诊断原词与候选标准词语义相似度计算问题抽象为二分类问题。
个数预测的目的是确认输出标准词的数量,在预测数量时,将原始训练集的诊断原词加入到数量预测的训练集中,将原始训练集中的标准词通过分隔符进行分割,得到标准词数量作为数量预测的类别标签,将发明个数预测抽象成一个类别为{1,2,3,>3}的多分类问题,利用BERT微调参数进行数量预测K,结合步骤三排序模型的输出结果,返回前K个排名作为最后的结果。
在本发明的描述中,需要理解的是,指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。

Claims (5)

1.一种基于深度学习的中文临床术语标准化方法,其特征在于:包括数据的预处理、候选集生成、模型排序、个数预测,该方法包括以下步骤:
S1、数据的预处理,数据的预处理分为数据清洗和标准词集合生成,发明数据清洗包括清洗诊断原词的无关字符,标准词生成包括选取ICD-10作为标准词集合,优化对比损失,增加正样例之间的相似性,减小负样例之间的相似性,在有监督学习场景下,将训练集中标注的诊断原词和标准词数据,作为正样例(X,X+),将训练过程中同一个Batch内除自身之外的其它所有诊断原词及其标准词作为负样例(X,X-)进行数据增强,在无监督学习场景下,构建负样例的过程则与有监督学习场景相同,针对每一个诊断原词,进行所述数据的预处理;
S2、候选集生成,候选集生成是通过给定一个诊断原词,从标准词集合中筛选出若干个标准词作为匹配候选的过程,在候选集生成过程中,将对比学习分别运用到有监督学习和无监督学习两种场景中,对比学习的核心是通过数据增强的方式构建正负样例,然后将正负样例同时输入到模型中进行特征提取进而生成句嵌入,最后优化对比损失,增加正样例之间的相似性,减小负样例之间的相似性,从标准词集合中产生该诊断原词,利用所述诊断原词达到所述候选集生成,通过迁移学习将有监督学习场景和无监督学习场景下通过对比学习生成的模型进行融合,形成最终的候选集生成模型,在推理过程中,输入一个诊断原词,通过模型生成嵌入结果,并与每一个标准词生成的嵌入结果进行相似度计算并排序,通过选取不同的召回范围TopK值,生成最终的候选集合;
S3、模型排序,使用所述模型排序对候选集中的每个词进行排序;
S4、个数预测,通过模型预测出标准词个数K,并结合所述模型排序的结果,得到前K个词作为所述标准词集合。
2.根据权利要求1所述的一种基于深度学习的中文临床术语标准化方法,其特征在于:所述数据的预处理分为数据清洗和标准词集合生成,所述数据清洗包括清洗诊断原词的无关字符,所述标准词生成包括选取ICD-10作为标准词集合。
3.根据权利要求1所述的一种基于深度学习的中文临床术语标准化方法,其特征在于:所述模型排序是将所述诊断原词与候选标准词用[SEP]分隔符隔开作为BERT的输入,然后取BERT输出中[CLS]位置对应的向量作为下一个全连接层的输入,使用sigmoid函数进行激活,把诊断原词与候选标准词语义相似度计算问题抽象为二分类问题。
4.根据权利要求1所述的一种基于深度学习的中文临床术语标准化方法,其特征在于:所述个数预测的目的是确认输出标准词的数量,在预测数量时,将原始训练集的诊断原词加入到数量预测的训练集中,将原始训练集中的标准词通过分隔符进行分割,得到标准词数量作为数量预测的类别标签。
5.根据权利要求4所述的一种基于深度学习的中文临床术语标准化方法,其特征在于:将个数预测抽象成一个类别为{1,2,3,>3}的多分类问题,利用BERT微调参数进行数量预测K,结合步骤三排序模型的输出结果,返回前K个排名作为最后的结果。
CN202310658037.2A 2023-06-06 2023-06-06 一种基于深度学习的中文临床术语标准化方法 Pending CN116384379A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310658037.2A CN116384379A (zh) 2023-06-06 2023-06-06 一种基于深度学习的中文临床术语标准化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310658037.2A CN116384379A (zh) 2023-06-06 2023-06-06 一种基于深度学习的中文临床术语标准化方法

Publications (1)

Publication Number Publication Date
CN116384379A true CN116384379A (zh) 2023-07-04

Family

ID=86969817

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310658037.2A Pending CN116384379A (zh) 2023-06-06 2023-06-06 一种基于深度学习的中文临床术语标准化方法

Country Status (1)

Country Link
CN (1) CN116384379A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116663536A (zh) * 2023-08-01 2023-08-29 北京惠每云科技有限公司 一种临床诊断标准词的匹配方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114003698A (zh) * 2021-12-27 2022-02-01 成都晓多科技有限公司 一种文本检索方法、系统、设备及存储介质
CN114036933A (zh) * 2022-01-10 2022-02-11 湖南工商大学 基于法律文书的信息抽取方法
US20230081171A1 (en) * 2021-09-07 2023-03-16 Google Llc Cross-Modal Contrastive Learning for Text-to-Image Generation based on Machine Learning Models
CN116108836A (zh) * 2023-04-10 2023-05-12 之江实验室 文本情感识别方法、装置、计算机设备及可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230081171A1 (en) * 2021-09-07 2023-03-16 Google Llc Cross-Modal Contrastive Learning for Text-to-Image Generation based on Machine Learning Models
CN114003698A (zh) * 2021-12-27 2022-02-01 成都晓多科技有限公司 一种文本检索方法、系统、设备及存储介质
CN114036933A (zh) * 2022-01-10 2022-02-11 湖南工商大学 基于法律文书的信息抽取方法
CN116108836A (zh) * 2023-04-10 2023-05-12 之江实验室 文本情感识别方法、装置、计算机设备及可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孙曰君 等: ""基于BERT的临床术语标准化"", 《中文信息学报》, vol. 35, no. 4, pages 75 - 82 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116663536A (zh) * 2023-08-01 2023-08-29 北京惠每云科技有限公司 一种临床诊断标准词的匹配方法及装置
CN116663536B (zh) * 2023-08-01 2023-10-24 北京惠每云科技有限公司 一种临床诊断标准词的匹配方法及装置

Similar Documents

Publication Publication Date Title
CN107943784B (zh) 基于生成对抗网络的关系抽取方法
CN110609897A (zh) 一种融合全局和局部特征的多类别中文文本分类方法
CN112905795A (zh) 文本意图分类的方法、装置和可读介质
CN111738007A (zh) 一种基于序列生成对抗网络的中文命名实体识别数据增强算法
CN112163089B (zh) 一种融合命名实体识别的高技术文本分类方法及系统
CN111506732A (zh) 一种文本多层次标签分类方法
CN115495555A (zh) 一种基于深度学习的文献检索方法和系统
CN112925904B (zh) 一种基于Tucker分解的轻量级文本分类方法
CN113806493B (zh) 一种用于互联网文本数据的实体关系联合抽取方法、装置
CN116521882A (zh) 基于知识图谱的领域长文本分类方法及系统
CN115630156A (zh) 一种融合Prompt和SRU的蒙古语情感分析方法与系统
CN114722835A (zh) 基于lda和bert融合改进模型的文本情感识别方法
CN116384379A (zh) 一种基于深度学习的中文临床术语标准化方法
CN112269874A (zh) 一种文本分类方法及系统
CN117151222B (zh) 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质
CN114239828A (zh) 一种基于因果关系的供应链事理图谱构建方法
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN112528653A (zh) 短文本实体识别方法和系统
CN115587163A (zh) 一种文本分类方法、装置、电子设备及存储介质
CN114943235A (zh) 一种基于多类语言模型的命名实体识别方法
CN114842301A (zh) 一种图像注释模型的半监督训练方法
CN113627192A (zh) 基于两层卷积神经网络的关系抽取方法和装置
CN114416991A (zh) 一种基于prompt的文本情感原因分析方法和系统
CN114186560A (zh) 一种基于图卷积神经网络融合支持向量机的中文词义消歧方法
CN114626378A (zh) 命名实体识别方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination