CN115545041A - 一种增强医疗语句语义向量表示的模型构造方法及系统 - Google Patents

一种增强医疗语句语义向量表示的模型构造方法及系统 Download PDF

Info

Publication number
CN115545041A
CN115545041A CN202211488054.8A CN202211488054A CN115545041A CN 115545041 A CN115545041 A CN 115545041A CN 202211488054 A CN202211488054 A CN 202211488054A CN 115545041 A CN115545041 A CN 115545041A
Authority
CN
China
Prior art keywords
medical
sentence
bert model
model
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211488054.8A
Other languages
English (en)
Other versions
CN115545041B (zh
Inventor
白焜太
杨雅婷
宋佳祥
刘硕
许娟
史文钊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Digital Health China Technologies Co Ltd
Original Assignee
Digital Health China Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Digital Health China Technologies Co Ltd filed Critical Digital Health China Technologies Co Ltd
Priority to CN202211488054.8A priority Critical patent/CN115545041B/zh
Publication of CN115545041A publication Critical patent/CN115545041A/zh
Application granted granted Critical
Publication of CN115545041B publication Critical patent/CN115545041B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及自然语言处理技术领域,且公开了一种增强医疗语句语义向量表示的模型构造方法,包括收集医学领域的医疗数据,并对所述医疗数据进行预处理,建构一份扩充医学词典;基于所述医疗数据进行预处理结果,保留Bert中的MLM任务,构建损失函数做全词掩码训练;保存训练后的Bert模型,切分所述医疗数据中的每段文本形成句子集合;基于句子集合,对每个句子进行对比学习训练;构建一个新的损失函数,判断当新的损失函数连续3次得出的数据不下降的情况下,得出最终Bert模型作为最终的增强语义向量表示的模型。本专利结合继续预训练和对比学习来有效增强医疗语句语义表示的构造方法,使医疗语句的表达更精确。

Description

一种增强医疗语句语义向量表示的模型构造方法及系统
技术领域
本发明涉及自然语言处理技术领域,具体为一种增强医疗语句语义向量表示的模型构造方法及系统。
背景技术
在传统方式中,句向量是通过词向量求和而成,这种直接加和的方式并没有利用到词与词之间的交互信息,在业界普遍使用的Bert模型中,直接利用Bert模型产生的句向量做余弦相似度计算,会发现两个差别很大的句子也有较高的相似度,这会导致下游的任务,如根据相似度召回的效果差;另一种通用的方式是使用对比学习,其中一种是无监督的方式,从大量语料中训练获取句向量,SimCSE模型和ESimCSE模型就是通过对比学习,在无监督数据的情形下进行句嵌入,并且生成了质量较好的句向量,主要是利用自身Dropout后的数据作为其正样本,利用一个Batch内其他数据作为负样本,训练目标是降低对比学习的损失,增加互为正样本数据之间的相似度,减小与负样本数据间的相似度;后续的以Bert为基础的各类模型,通过堆叠Transformer encoder来捕捉句子中深度双向的词与词之间的信息,并以输出层中的[CLS] token的向量来表示整个句子的向量。
在医疗场景下,由于医疗术语的专业性和复杂性,基于大规模通用语料训练的Bert模型生成的空间向量表示并不能很好的表示医疗术语的实际意义。
为此,本专利提出了结合继续预训练和对比学习来进行一种增强医疗语句语义向量表示的模型构造方法。
发明内容
本发明主要是提供一种增强医疗语句语义向量表示的模型构造方法及系统,主要解决在医疗场景下,由于医疗术语的专业性和复杂性,基于大规模通用语料训练的Bert模型生成的空间向量表示并不能很好的表示医疗术语的问题。
为了解决上述技术问题,本发明采用如下技术方案:一种增强医疗语句语义向量表示的模型构造方法,收集医学领域的医疗数据,并对所述医疗数据进行预处理,建构一份扩充医学词典;
基于收集医学领域的医疗数据,对初始Bert模型仅保留MLM任务,对所述初始Bert模型做全词掩码训练,保存训练后的Bert模型;
切分所述医疗数据中的每段文本形成句子集合;
基于句子集合,对每个句子进行对比学习训练;
基于训练后的Bert模型,获得句子的空间向量表征,基于对比学习训练,构建新的损失函数,得出最终Bert模型作为最终的增强语义向量表示的模型。
进一步的,构建损失函数,判断当所述损失函数连续3次得出的数据不下降,则保存训练后的Bert模型。
进一步的,将同一个句子送入Bert模型两次,得到的两个向量为正样本;
采用莱文斯坦距离的计算方式进行筛选,将莱文斯坦距离大于4的句子生成的向量作为负样本。
进一步的,所述扩充医学词典的构件方式为,对所述医疗数据进行预处理完的文本数据通过分词工具分词;
基于分词工具的分词结果,若有词语不在这个词典里面,我们就记录该词并统计出现的次数,作为候选新词;
最后通过人工核验,确定最终扩充医学词典用于后续的全词掩码。
进一步的,
所述新的损失函数为:
Figure 527325DEST_PATH_IMAGE001
其中:
Figure 361289DEST_PATH_IMAGE002
Figure 669517DEST_PATH_IMAGE003
代表同一句话输入训练后的Bert模型后生成的两个句向量;
Figure 614339DEST_PATH_IMAGE004
为调节系数;
Figure 294719DEST_PATH_IMAGE005
代表
Figure 299585DEST_PATH_IMAGE006
两个向量之间的相似度,用向量的余弦相似度度量;
Figure 35722DEST_PATH_IMAGE007
表示
Figure 253076DEST_PATH_IMAGE008
两个向量之间的相似度,N表示整个Batch中的句子总数,P表示损失函数中的一个代数;
Figure 787963DEST_PATH_IMAGE009
代表的是该Batch中的某个负样本输入到训练后的Bert模型后生成的句向量;
Figure 229308DEST_PATH_IMAGE010
表示句子i和句子j的莱文斯坦距离。
一种增强医疗语句语义向量表示的模型构造系统,
数据预处理模块,用于收集医学领域的医疗数据,并对所述医疗数据进行预处理,建构一份扩充医学词典;
继续预训练模块,用于基于收集医学领域的医疗数据中, 对初始Bert模型仅保留MLM任务,对所述初始Bert模型做全词掩码训练,保存训练后的Bert模型;
切分数据集模块,用于切分所述医疗数据中的每段文本形成句子集合;
对比学习训练模块,用于基于句子集合,对每个句子进行对比学习训练;
最终语义向量表示模块,用于基于训练后的Bert模型,获得句子的空间向量表征,基于对比学习训练,构建新的损失函数,得出最终Bert模型作为最终的增强语义向量表示的模型。
进一步的,训练后的Bert模型生成单元,用于构建损失函数,判断当所述损失函数连续3次得出的数据不下降,则保存训练后的Bert模型。
进一步的,正样本生成单元,用于将同一句话送入Bert模型两次,得到的两个向量为正样本;
莱文斯坦计算单元,用于采用莱文斯坦距离的计算方式进行筛选,当莱文斯坦距离大于4的句子生成的向量作为负样本。
进一步的,扩充医学词典单元,用于对所述医疗数据进行预处理完的文本数据通过分词工具分词;基于分词工具的分词结果,若有词语不在这个词典里面,我们就记录该词并统计出现的次数,作为候选新词;最后通过人工核验,确定最终扩充医学词典用于后续的全词掩码。
进一步的,所述新的损失函数为:
所述新的损失函数为:
Figure 715391DEST_PATH_IMAGE011
其中:
Figure 267595DEST_PATH_IMAGE002
Figure 391409DEST_PATH_IMAGE003
代表同一句话输入训练后的Bert模型后生成的两个句向量;
Figure 472498DEST_PATH_IMAGE004
为调节系数;
Figure 681762DEST_PATH_IMAGE005
代表
Figure 273543DEST_PATH_IMAGE006
两个向量之间的相似度,用向量的余弦相似度度量;
Figure 783021DEST_PATH_IMAGE007
表示
Figure 503853DEST_PATH_IMAGE008
两个向量之间的相似度,N表示整个Batch中的句子总数,P表示损失函数中的一个代数;
Figure 569722DEST_PATH_IMAGE009
代表的是该Batch中的某个负样本输入到训练后的Bert模型后生成的句向量;
Figure 198149DEST_PATH_IMAGE010
表示句子i和句子j的莱文斯坦距离。
一种计算机设备,存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令,所述处理器执行所述可执行指令时实现上述方法。
一种计算机可读存储介质,其上存储有计算机可执行指令,所述可执行指令被处理器执行时实现上述方法。
有益效果:
1、在Bert的训练方式中,只保留MLM任务,但是使用的为全词掩码方式,能更准确的表达医疗术语的实际意义;
2、本专利结合继续预训练和对比学习来使医疗术语语义表示增强;
3、本案结合按莱文斯坦距离的方式,节约了算力,正样本对同义句相似度尽可能大,而负样本对的相似度尽可能小,在排除了同一Batch中可能存在的其他同义句干扰后,让loss不断减小以此来训练提升模型对句向量的表示。
附图说明
图1为增强医疗语句语义表示的构造方法流程示意图;
图2为增强医疗语句语义表示的构造系统分布示意图。
具体实施方式
以下将结合实施例对本发明涉及的一种增强医疗语句语义向量表示的模型构造方法及系统技术方案进一步详细说明。
一种增强医疗语句语义向量表示的模型构造方法为:
S001:收集医学领域的医疗数据,并对所述医疗数据进行预处理,建构一份扩充医学词典;
具体的,所述医学领域的医疗数据来源于合作医院的脱敏电子病历、开源的医疗百科数据/问答数据,在数据处理时,采用了英文大小写转换、特殊符号去除、停用词去除、规则替换等操作进行预处理。
S002:基于收集医学领域的医疗数据, 对初始Bert模型仅保留MLM任务,对所述初始Bert模型做全词掩码训练,保存训练后的Bert模型;
具体的,原Bert在训练时结合了两种任务,即NSP 下一句话预测任务和MLM 带mask的语言模型训练,本发明的继续预训练以医疗领域文本数据作为训练语料,参考Bert训练方式,但是考虑到许多试验证明,NSP任务其实无明显作用,所以我们取消NSP任务,只保留MLM任务;在同样的实验条件下,在数据集SQUAD1.0/2.0的测试中,去掉了NSP任务的Bert模型f1分值反而分别上升了1.9%和3.5%,能更准确的表达医疗术语的实际意义。
其中,在保留Bert中的MLM任务,构建损失函数,构建的损失函数为:
Figure 562134DEST_PATH_IMAGE012
p(x)和q(x)分别代表预测值和实际值的概率分布。
例如:句子“猫坐在垫子上”如果 猫被[MASK]代替了,该[MASK]部分经过Bert 的嵌入模块会得到一个向量输出,再经过Softmax函数进行归一化,会得到一个概率p,将其与“猫”自己经过上述流程得到的概率q做比较,这种情况下,适用的损失函数为负对数似然函数。
具体的,构建一个损失函数,判断当所述损失函数连续3次得出的数据不下降,则保存训练后的Bert模型。
S003:切分所述医疗数据中的每段文本形成句子集合;
S004:基于句子集合,对每个句子进行对比学习训练
另一种实施方式,基于句子集合,对每个句子进行对比学习训练,
同一句话送入Bert模型两次,得到的两个向量为正样本;
采用莱文斯坦距离的计算方式进行筛选,当莱文斯坦距离大于4的句子生成的向量作为负样本。
其中,莱文斯坦距离,又称Levenshtein距离,是编辑距离的一种,指两个字串之间,由一个转成另一个所需的最少编辑操作次数,允许的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。
S005:基于训练后的Bert模型,获得句子的空间向量表征,基于对比学习训练,构建一个新的损失函数,得出最终Bert模型作为最终的增强语义向量表示的模型。
具体的构建一个新的损失函数,当新的损失函数连续3次得出的数据不下降的情况下,保存最终Bert模型作为最终的语义表示模型。
所述新的损失函数为:
Figure 486490DEST_PATH_IMAGE013
其中:
Figure 404768DEST_PATH_IMAGE002
Figure 836886DEST_PATH_IMAGE003
代表同一句话输入训练后的Bert模型后生成的两个句向量;
Figure 258640DEST_PATH_IMAGE004
为调节系数;
Figure 852433DEST_PATH_IMAGE005
代表
Figure 258006DEST_PATH_IMAGE006
两个向量之间的相似度,用向量的余弦相似度度量;
Figure 726771DEST_PATH_IMAGE007
表示
Figure 268611DEST_PATH_IMAGE008
两个向量之间的相似度,N表示整个Batch中的句子总数,P表示损失函数中的一个代数;
Figure 767726DEST_PATH_IMAGE009
代表的是该Batch中的某个负样本输入到训练后的Bert模型后生成的句向量;
Figure 660595DEST_PATH_IMAGE010
表示句子i和句子j的莱文斯坦距离。
其中,BERT预训练模型是通过在海量的语料的基础上运行自监督学习方法为单词学习的空间特征表示,目前在自然语言处理领域应用广泛。
Bert的编码层分为三层,从下到上分为位置信息层(Position Embedding),上下文信息层(Segment Embedding)和字信息层(Token Embedding),在BERT中,在文本前会加一个[CLS]标志,在顶层该位置对应的向量可以作为整句话的语义表示,所以,我们这里也取[CLS]的空间向量作为整句话的空间表征;即vi,vj,vi’这些都是将句子送入bert-A模型后,取[CLS]代表的空间向量作为整句话空间表征。
具体的,在继续预训练得到的训练后的Bert模型基础上,再结合对比学习的改进方式训练得到的最终Bert模型,在数据集CHIP-STS上,比基础的Bert模型在F1分值上其中,Bert:79.656%可以提升约7%,达到86.763%,能有效提高医疗语句语义向量表示的准确性。
另一种实施方式,所述扩充医学词典的构件方式为,对所述医疗数据进行预处理完的文本数据通过分词工具分词;
基于分词工具的分词结果,若有词语不在这个词典里面,我们就记录该词并统计出现的次数,作为候选新词;
最后通过人工核验,确定最终扩充医学词典用于后续的全词掩码。
另一种实施方式,基于扩充医学词典为依据,在每一条训练文本中, 随机抽取15%的token作为参与全词掩码任务的对象。
在这些被选中的token中,其中80%的token, 用全词掩码标记替换该该token;,其中10%的token, 用一个随机的单词替换token;其中10%的概率, 保持该token不变。
具体的,在这些被选中的token中,在80%的token中, 用[MASK]标记替换该token,如:“我今天过得很开心”替换为“我 [MASK] [MASK]过得很开心”;
10%的概率, 用一个随机的单词替换token, 如:“我今天过得很开心”,替换为“我书本过得很开心”;
10%的概率, 保持该token不变,如:“我今天过得很开心”替换后依旧是“我今天过得很开心”。
另一种实施方式,采用按莱文斯坦距离的计算方式进行筛选,得出同义句与负样本,其中,基于句子集合,采用按莱文斯坦距离的计算方式来进行筛选,通过对比实验,我们设定莱文斯坦距离小于等于4的为同义句;
基于句子集合中的其他莱文斯坦距离大于4的句子生成的向量作为负样本。
如图2所示,数据预处理模块01,用于收集医学领域的医疗数据,并对所述医疗数据进行预处理,建构一份扩充医学词典;
其中,扩充医学词典单元08,用于对所述医疗数据进行预处理完的文本数据通过分词工具分词;基于分词工具的分词结果,若有词语不在这个词典里面,我们就记录该词并统计出现的次数,作为候选新词;最后通过人工核验,确定最终扩充医学词典用于后续的全词掩码。
继续预训练模块02,基于扩充医学词典, 对初始Bert模型仅保留MLM任务,对所述初始Bert模型做全词掩码训练,保存训练后的Bert模型;
具体的,原Bert在训练时结合了两种任务,即NSP 下一句话预测任务和MLM 带mask的语言模型训练,本发明的继续预训练以医疗领域文本数据作为训练语料,参考Bert训练方式,但是考虑到许多试验证明,NSP任务其实无明显作用,所以我们取消NSP任务,只保留MLM任务;在同样的实验条件下,在数据集SQUAD1.0/2.0的测试中,去掉了NSP任务的Bert模型f1分值反而分别上升了1.9%和3.5%,能更准确的表达医疗术语的实际意义。
其中,在保留Bert中的MLM任务,构建损失函数,构建的损失函数为:
Figure 168937DEST_PATH_IMAGE012
p(x)和q(x)分别代表预测值和实际值的概率分布。
其中,基于扩充医学词典为依据,在每一条训练文本中, 随机抽取15%的token作为参与全词掩码任务的对象。
在这些被选中的token中,其中80%的token, 用全词掩码标记替换该该token;,其中10%的token, 用一个随机的单词替换token,其中10%的概率, 保持该token不变。
具体的,在这些被选中的token中,在80%的token中, 用[MASK]标记替换该token,如:“我今天过得很开心”替换为“我 [MASK] [MASK]过得很开心” ;
10%的概率, 用一个随机的单词替换token, 如:“我今天过得很开心”,替换为“我书本过得很开心”;
10%的概率, 保持该token不变,如:“我今天过得很开心”替换后依旧是“我今天过得很开心”。
切分数据集模块03,用于切分所述医疗数据中的每段文本形成句子集合;
对比学习训练模块04,用于基于句子集合,对每个句子进行对比学习训练;
最终语义向量表示模块05,用于基于训练后的Bert模型,获得句子的空间向量表征,基于对比学习训练,构建新的损失函数,得出最终Bert模型作为最终的增强语义向量表示的模型。
所述新的损失函数为:
Figure 830862DEST_PATH_IMAGE011
其中:
Figure 2343DEST_PATH_IMAGE002
Figure 116930DEST_PATH_IMAGE003
代表同一句话输入训练后的Bert模型后生成的两个句向量;
Figure 897804DEST_PATH_IMAGE004
为调节系数;
Figure 414236DEST_PATH_IMAGE005
代表
Figure 255153DEST_PATH_IMAGE006
两个向量之间的相似度,用向量的余弦相似度度量;
Figure 388194DEST_PATH_IMAGE007
表示
Figure 2453DEST_PATH_IMAGE008
两个向量之间的相似度,N表示整个Batch中的句子总数,P表示损失函数中的一个代数;
Figure 373391DEST_PATH_IMAGE009
代表的是该Batch中的某个负样本输入到训练后的Bert模型后生成的句向量;
Figure 650789DEST_PATH_IMAGE010
表示句子i和句子j的莱文斯坦距离。
另一种实施方式,训练后的Bert模型生成单元09,用于构建损失函数,判断当所述损失函数连续3次得出的数据不下降,则保存训练后的Bert模型。
另一种实施方式,正样本生成单元11,用于将同一句话送入Bert模型两次,得到的两个向量为正样本;
莱文斯坦计算单元10,用于采用莱文斯坦距离的计算方式进行筛选,当莱文斯坦距离大于4的句子生成的向量作为负样本。
其中,莱文斯坦距离,又称Levenshtein距离,是编辑距离的一种,指两个字串之间,由一个转成另一个所需的最少编辑操作次数,允许的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。
具体的,在继续预训练得到的训练后的Bert模型基础上,再结合对比学习的改进方式训练得到的最终Bert模型,在数据集CHIP-STS上,比基础的Bert模型在F1分值上其中,Bert:79.656%可以提升约7%,达到86.763%,能有效提高医疗语句语义向量表示的准确性。
一种计算机设备,含有存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令,所述处理器执行所述可执行指令时实现S001-S005中的方法。
一种计算机可读存储介质,其上存储有计算机可执行指令,所述可执行指令被处理器执行时实现S001-S005中的方法。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
在本公开所提供的实施例中,应该理解到,所揭露的装置/计算机设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/计算机设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本公开实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如,在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围,均应包含在本公开的保护范围之内。

Claims (12)

1.一种增强医疗语句语义向量表示的模型构造方法,其特征在于,包括:
收集医学领域的医疗数据,并对所述医疗数据进行预处理,建构扩充医学词典;
基于收集医学领域的医疗数据,对初始Bert模型仅保留MLM任务,对所述初始Bert模型做全词掩码训练,保存训练后的Bert模型;
切分所述医疗数据中的每段文本形成句子集合;
基于句子集合,对每个句子进行对比学习训练;
基于训练后的Bert模型,获得句子的空间向量表征,基于对比学习训练,构建新的损失函数,得出最终Bert模型作为最终的增强语义向量表示的模型。
2.根据权利要求1所述的一种增强医疗语句语义向量表示的模型构造方法,其特征在于,所述保存训练后的Bert模型,包括:
构建损失函数,判断当所述损失函数连续3次得出的数据不下降,则保存训练后的Bert模型。
3.根据权利要求1所述的一种增强医疗语句语义向量表示的模型构造方法,其特征在于,所述基于句子集合,对每个句子进行对比学习训练,包括:
将同一个句子送入Bert模型两次,得到的两个向量为正样本;
采用莱文斯坦距离的计算方式进行筛选,将莱文斯坦距离大于4的句子生成的向量作为负样本。
4.根据权利要求1所述的一种增强医疗语句语义向量表示的模型构造方法,其特征在于,所述建构扩充医学词典,包括:
对所述医疗数据进行预处理完的文本数据通过分词工具分词;
基于分词工具的分词结果,若有词语不在这个词典里面,记录不在这个词典里面的词语并统计出现的次数,作为候选新词;
最后通过人工核验,确定最终扩充医学词典用于后续的全词掩码。
5.根据权利要求1所述的一种增强医疗语句语义向量表示的模型构造方法,其特征在于,所述新的损失函数为:
Figure 765911DEST_PATH_IMAGE001
其中:
Figure 10948DEST_PATH_IMAGE002
Figure 508794DEST_PATH_IMAGE003
表示同一句话输入训练后的Bert模型后生成的两个句向量;
Figure 231899DEST_PATH_IMAGE004
表示为调节系数;
Figure 699134DEST_PATH_IMAGE005
表示
Figure 724859DEST_PATH_IMAGE006
两个向量之间的相似度,用向量的余弦相似度度量;
Figure 444422DEST_PATH_IMAGE007
表示
Figure 33535DEST_PATH_IMAGE008
两个向量之间的相似度,N表示整个Batch中的句子总数,P表示损失函数中的一个代数;
Figure 423453DEST_PATH_IMAGE009
表示的是batch中的某个负样本输入到训练后的Bert模型后生成的句向量;
Figure 541451DEST_PATH_IMAGE010
表示句子i和句子j的莱文斯坦距离。
6.一种增强医疗语句语义向量表示的模型构造系统,其特征在于,包括:
数据预处理模块,用于收集医学领域的医疗数据,并对所述医疗数据进行预处理,建构一份扩充医学词典;
继续预训练模块,用于基于收集医学领域的医疗数据中,对初始Bert模型仅保留MLM任务,对所述初始Bert模型做全词掩码训练,保存训练后的Bert模型;
切分数据集模块,用于切分所述医疗数据中的每段文本形成句子集合;
对比学习训练模块,用于基于句子集合,对每个句子进行对比学习训练;
最终语义向量表示模块,用于基于训练后的Bert模型,获得句子的空间向量表征,基于对比学习训练,构建新的损失函数,得出最终Bert模型作为最终的增强语义向量表示的模型。
7.根据权利要求6所述的一种增强医疗语句语义向量表示的模型构造系统,其特征在于,继续预训练模块,包括:
训练后的Bert模型生成单元,用于构建损失函数,判断当所述损失函数连续3次得出的数据不下降,则保存训练后的Bert模型。
8.根据权利要求6所述的一种增强医疗语句语义向量表示的模型构造系统,其特征在于,对比学习训练模块,包括:
正样本生成单元,用于将同一句话送入Bert模型两次,得到的两个向量为正样本;
莱文斯坦计算单元,用于采用莱文斯坦距离的计算方式进行筛选,将莱文斯坦距离大于4的句子生成的向量作为负样本。
9.根据权利要求6所述的一种增强医疗语句语义向量表示的模型构造系统,其特征在于,数据预处理模块,包括:
扩充医学词典单元,用于对所述医疗数据进行预处理完的文本数据通过分词工具分词;基于分词工具的分词结果,若有词语不在这个词典里面,记录不在这个词典里面的词语并统计出现的次数,作为候选新词;最后通过人工核验,确定最终扩充医学词典用于后续的全词掩码。
10.根据权利要求6所述的一种增强医疗语句语义向量表示的模型构造系统,其特征在于,所述新的损失函数为:
Figure 420414DEST_PATH_IMAGE001
其中:
Figure 750901DEST_PATH_IMAGE011
Figure 153849DEST_PATH_IMAGE003
表示同一句话输入训练后的Bert模型后生成的两个句向量;
Figure 786955DEST_PATH_IMAGE004
表示为调节系数;
Figure 746690DEST_PATH_IMAGE005
表示
Figure 552972DEST_PATH_IMAGE006
两个向量之间的相似度,用向量的余弦相似度度量;
Figure 383393DEST_PATH_IMAGE007
表示
Figure 111703DEST_PATH_IMAGE008
两个向量之间的相似度,N表示整个Batch中的句子总数,P表示损失函数中的一个代数;
Figure 778307DEST_PATH_IMAGE009
表示的是batch中的某个负样本输入到训练后的Bert模型后生成的句向量;
Figure 309652DEST_PATH_IMAGE010
表示句子i和句子j的莱文斯坦距离。
11.一种计算机设备,包括:存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令,其特征在于,所述处理器执行所述可执行指令时实现如权利要求1-5任一项所述的方法。
12.一种计算机可读存储介质,其上存储有计算机可执行指令,其特征在于,所述可执行指令被处理器执行时实现如权利要求1-5任一项所述的方法。
CN202211488054.8A 2022-11-25 2022-11-25 一种增强医疗语句语义向量表示的模型构造方法及系统 Active CN115545041B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211488054.8A CN115545041B (zh) 2022-11-25 2022-11-25 一种增强医疗语句语义向量表示的模型构造方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211488054.8A CN115545041B (zh) 2022-11-25 2022-11-25 一种增强医疗语句语义向量表示的模型构造方法及系统

Publications (2)

Publication Number Publication Date
CN115545041A true CN115545041A (zh) 2022-12-30
CN115545041B CN115545041B (zh) 2023-04-07

Family

ID=84721932

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211488054.8A Active CN115545041B (zh) 2022-11-25 2022-11-25 一种增强医疗语句语义向量表示的模型构造方法及系统

Country Status (1)

Country Link
CN (1) CN115545041B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116070635A (zh) * 2023-03-06 2023-05-05 合肥工业大学 基于BERT-span模型的康复医学命名实体识别方法及系统
CN117150305A (zh) * 2023-11-01 2023-12-01 杭州光云科技股份有限公司 融合检索和填空的文本数据增强方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395417A (zh) * 2020-11-18 2021-02-23 长沙学院 基于深度学习的网络舆情演化仿真方法及系统
CN114116967A (zh) * 2021-11-10 2022-03-01 泰康保险集团股份有限公司 数据的清洗方法、装置、电子设备及计算机可读介质
US20220237378A1 (en) * 2021-01-25 2022-07-28 Royal Bank Of America System and method for natural language processing with pretrained language models

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395417A (zh) * 2020-11-18 2021-02-23 长沙学院 基于深度学习的网络舆情演化仿真方法及系统
US20220237378A1 (en) * 2021-01-25 2022-07-28 Royal Bank Of America System and method for natural language processing with pretrained language models
CN114116967A (zh) * 2021-11-10 2022-03-01 泰康保险集团股份有限公司 数据的清洗方法、装置、电子设备及计算机可读介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
韩普等: "基于混合深度学习的中文医学实体抽取研究", 《图书情报工作》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116070635A (zh) * 2023-03-06 2023-05-05 合肥工业大学 基于BERT-span模型的康复医学命名实体识别方法及系统
CN117150305A (zh) * 2023-11-01 2023-12-01 杭州光云科技股份有限公司 融合检索和填空的文本数据增强方法、装置及电子设备
CN117150305B (zh) * 2023-11-01 2024-02-27 杭州光云科技股份有限公司 融合检索和填空的文本数据增强方法、装置及电子设备

Also Published As

Publication number Publication date
CN115545041B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN110598713B (zh) 基于深度神经网络的智能图像自动描述方法
CN115545041B (zh) 一种增强医疗语句语义向量表示的模型构造方法及系统
CN110134946B (zh) 一种针对复杂数据的机器阅读理解方法
CN111985239A (zh) 实体识别方法、装置、电子设备及存储介质
CN114580382A (zh) 文本纠错方法以及装置
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN112269868A (zh) 一种基于多任务联合训练的机器阅读理解模型的使用方法
CN110852089B (zh) 基于智能分词与深度学习的运维项目管理方法
CN112200664A (zh) 基于ernie模型和dcnn模型的还款预测方法
CN115204143B (zh) 一种基于prompt的文本相似度计算方法及系统
CN110968725A (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN113239690A (zh) 基于Bert与全连接神经网络融合的中文文本意图识别方法
CN116304984A (zh) 基于对比学习的多模态意图识别方法及系统
CN114818718A (zh) 合同文本识别方法及装置
CN111639189B (zh) 一种基于文本内容特征的文本图构建方法
CN112307749A (zh) 文本检错方法、装置、计算机设备和存储介质
CN113792121B (zh) 阅读理解模型的训练方法及装置、阅读理解方法及装置
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
CN114239555A (zh) 一种关键词提取模型的训练方法及相关装置
CN115130475A (zh) 一种可扩展的通用端到端命名实体识别方法
CN113177415A (zh) 语义理解方法、装置、电子设备和存储介质
CN111611379A (zh) 一种文本信息分类方法、装置、设备及可读存储介质
CN115114915B (zh) 短语识别方法、装置、设备和介质
CN113284498B (zh) 客户意图识别方法及装置
CN115587589B (zh) 针对多语种的语句困惑度获取方法、系统及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant