CN113111180A - 基于深度预训练神经网络的中文医疗同义词聚类方法 - Google Patents

基于深度预训练神经网络的中文医疗同义词聚类方法 Download PDF

Info

Publication number
CN113111180A
CN113111180A CN202110301422.2A CN202110301422A CN113111180A CN 113111180 A CN113111180 A CN 113111180A CN 202110301422 A CN202110301422 A CN 202110301422A CN 113111180 A CN113111180 A CN 113111180A
Authority
CN
China
Prior art keywords
synonym
candidate
cluster
neural network
synonym cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110301422.2A
Other languages
English (en)
Other versions
CN113111180B (zh
Inventor
王贵宣
曾令泽
王翔
谢钟乐
姚畅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Qijing Technology Co ltd
Original Assignee
Hangzhou Qijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Qijing Technology Co ltd filed Critical Hangzhou Qijing Technology Co ltd
Priority to CN202110301422.2A priority Critical patent/CN113111180B/zh
Publication of CN113111180A publication Critical patent/CN113111180A/zh
Application granted granted Critical
Publication of CN113111180B publication Critical patent/CN113111180B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Public Health (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于深度预训练神经网络的中文医疗同义词聚类方法。1)将公开的中文医疗数据集中的同义词进行分类后构建得到同义词簇集C;2)基于步骤1)构建的同义词簇集C生成模型训练数据集:3)构建set‑instance神经网络模型;4)训练set‑instance神经网络模型;5)使用训练好的神经网络模型对候选词集进行聚类,生成候选同义词簇集。6)使用训练好的神经网络模型对候选同义词簇集进行合并,生成最终的同义词簇集。本发明将先验知识通过预训练模型的形式引入到set‑instance神经网络模型中,解决了词汇缺乏上下文语境的问题;此外,本发明可以利用训练好的神经网络模型对候选词进行聚类操作。

Description

基于深度预训练神经网络的中文医疗同义词聚类方法
技术领域
本发明属于医疗自然语言处理技术领域,具体是指一种基于深度预训练神经网络的中文医疗同义词聚类方法。
背景技术
随着深度学习的发展,各种神经网络被广泛用于解决自然语言处理(NLP)任务,如CNNs、RNNs、GNNs和attention机制。这些神经模型的优点之一是能够缓解特征工程问题。尽管上述各类型的神经网络在自然语言处理(NLP)任务中取得了成功,但与计算机视觉(CV)领域相比,其性能的改善并不那么显著。主要原因是目前大多数有监督的自然语言处理(NLP)任务的数据集都相当小。深度神经网络参数较多,在实际应用中,神经网络模型在这些小的数据集上进行训练会出现过拟合现象,不能很好地泛化。因此,许多NLP任务的早期神经模型相对较浅,通常只有1~3个神经网络层。
近年来,大量的研究表明,在大型语料库上,预训练模型(PTMs)可以学习通用语言表示,这有利于下游的自然语言处理任务,并避免了从零训练新模型。随着计算能力的发展,深度模型(如Transformer)的融合,以及训练技能的不断提高,PTMs的架构已经由浅向深发展。第一代PTMs旨在学习良好的词嵌入,由于下游任务不再需要这些模型,因此它们的计算效率通常非常低,如Skip-Gram和GloVe。这些预先训练的词嵌入方法虽然能够捕获词语的语义,但与语境无关,不能捕获语境中的多义消歧、句法结构、语义角色等高级概念。第二代PTMs集中学习语境词嵌入,如ELMo、OpenAI GPT和BERT等。这些预训练的深度预训练神经网络可以捕获通用语言表示,并将捕获的特征作为先验知识带入到下游任务。
鉴于深度预训练模型优异的效果与性能,我们将其引入到中文医疗同义词挖掘任务中。如果我们想使用深度预训练模型来处理中文医疗同义词挖掘任务,我们必须找到一种契合任务特点的输入和输出方式,并且找到一种使用深度学习模型作为特征提取器的聚类算法。
发明内容
为了解决背景技术中的问题,本发明提供了一种基于深度预训练神经网络的中文医疗同义词聚类方法。本发明的目的在于利用深度预训练神经网络所包含的先验知识训练set-instance神经网络模型,以此来解决中文医疗同义词挖掘任务中缺少上下文信息的问题;同时利用训练好的set-instance神经网络模型对候选词表进行聚类操作。
本发明采用的技术方案如下,具体包括以下步骤:
1)将公开的中文医疗数据集中的同义词进行人工分类后组成多个同义词簇,将所有同义词簇组合后构建得到同义词簇集T;
所述同义词簇为同义词的集合,如(感冒,流感,流行性感冒)构成一个同义词簇;所述同义词簇集为同义词簇的集合;
2)基于步骤1)构建的同义词簇集T生成模型训练数据集;
3)基于预训练模型BERT构建set-instance神经网络模型结构,set-instance神经网络模型结构包括依次连接的输入层、BERT层和输出层;
4)训练set-instance神经网络模型;
5)使用步骤4)训练好的set-instance神经网络模型对候选同义词集中的每个词语进行聚类,生成候选同义词簇集;
6)使用步骤4)训练好的set-instance神经网络模型对步骤5)生成的候选同义词簇集进行合并,生成最终的候选同义词簇集。
所述步骤2)具体包括以下步骤:
遍历同义词簇集T中的每个同义词簇Ti,对每个同义词簇Ti执行下述步骤2.1)~步骤2.3)得到对应的正样本和负样本,所有同义词簇Ti对应的正样本和负样本组成模型训练数据集;
其中,T={T1,T2,…,Ti},1≤i≤Size(T);
2.1)对于当前同义词簇Ti,生成对应的第一子集Ti_sub和第二子集Tleft
其中,
Figure BDA0002986448810000021
Tleft=Ti-Ti_sub
2.2)从第二子集Tleft中随机选择一个词语ipos组成正样本(Ti_sub,ipos,1);
其中,ipos∈Tleft
2.3)对于每个正样本生成K个不同的负样本(Ti_sub,ineg,0);
其中,ineg∈T-Ti,ineg为集合T-Ti中的一个词语。
3、根据权利要求1所述的一种基于深度预训练神经网络的中文医疗同义词聚类方法,其特征在于,所述步骤3)具体为
3.1)输入层采用BERT形式的输入:
其中TOKEN的输入为:[cls]候选词[sep]同义词簇[sep],同义词簇中的不同词语使用“|”进行分隔;
其中,[cls]为BERT模型的特殊token,一般用于分类任务;[sep]为BERT模型的特殊token,一般用于分割句子;
SEGMENT的输入为:候选词对应编码为0,同义词簇对应编码为1;
POSITION的输入为:将候选词和同义词簇中的每个词语分别按阿拉伯数字顺序进行位置编码,每个词语的起始编码为0,符号[cls]、[sep]、“|”对应编码为0;如:“流感”的位置编码:“流”为“0”,“感”为“1”;
3.2)BERT层通过加载Google发布的BERT-Base-Chinese预训练参数,完成参数初始化;
3.3)输出层由两个全连接层和激活函数层组成,两个全连接层的权重系数(Weight)和偏置值(bias)从0~1中随机选出,两个全连接层中的激活函数选取Relu函数,最后一层全连接层的结果通过采用Sigmoid函数激活后得到输出值输出;(0~1)指0~1中的任意浮点数;
训练时将模型训练数据集中的正样本和负样本作为模型的输入。
所述步骤4)具体为:采用步骤2)的模型训练数据集对步骤3)构建的set-instance神经网络模型进行训练,选取二分类交叉熵函数作为最终损失函数,采用误差反向传播对set-instance神经网络模型的权值和偏置进行调整;根据训练过程中模型分类准确率选取神经网络模型参数,将分类准确率最大时对应的一组参数作为set-instance神经网络模型参数。
所述步骤(5)具体为:遍历候选同义词集V中的每个词语vk,并对词语vk执行下述步骤5.1)~5.3),从而完成候选同义词的聚类,得到候选同义词簇集C;
其中,vi∈V,1≤k≤Size(V);C={C1,C2,C3,…,Cm},m为候选同义词簇的个数;
5.1)当前词语vk分别与候选同义词簇集C中每个同义词簇Ci组成模型输入数据(Ci,vk),其中:步骤3.1)TOKEN输入中的候选词对应于词语vk,TOKEN输入中的同义词簇对应于同义词簇Ci
其中,Ci∈C,1≤i≤m;
5.2)将所有输入数据(Ci,vk)输入set-instance神经网络模型中,计算每个输入数据(Ci,vk)对应的概率p,概率p为当前词语vk归属同义词簇Ci的概率值;
并在计算得到的所有概率p中选取最大概率pmax输出;
5.3)给定阈值θ:
若pmax≥θ,则将当前词语vk加入到最大概率pmax对应的同义词簇Ci
若pmax<θ,则将当前词语vk构成一个新的同义词簇Cj,并将Cj加入到候选同义词簇集C。
所述步骤5.1)中初始的候选同义词簇集C为指定的集合或空集,指定的集合为根据业务需求设定的集合,如(感冒,流感,流行性感冒)和(蓝鼓膜,蓝鼓膜综合征)组成的初始候选同义词簇集;
初始的候选同义词簇集C为空集时,且当前词语vk为第一个候选词v1时,不执行步骤5.1)~5.3),候选词v1作为候选同义词簇C1,并加入候选同义词簇集C中;从第二个候选词v2开始执行步骤5.1)~5.3)。
所述步骤(6)具体为:对步骤(5)生成的候选同义词簇集C中的候选同义词簇Ci执行下述步骤6.1)~6.4),从而完成候选同义词簇的合并;
6.1)取候选同义词簇集C中的第一个候选同义词簇C1,将候选同义词簇C1分别与每个候选同义词簇Cj组成输入数据(C1,Cj);
其中,候选同义词簇Cj为在候选同义词簇集C中除候选同义词簇C1之外的其余候选同义词簇,C1,Cj∈C,j≠1;步骤3.1)TOKEN输入中的候选词对应于候选同义词簇Cj,TOKEN输入中的同义词簇对应于同义词簇C1
6.2)将所有输入数据(C1,Cj)输入到set-instance神经网络模型中,计算每个输入数据(C1,Cj)对应的概率pj,概率pj为当前两个候选同义词簇合并为一个同义词簇的概率值;
6.3)给定阈值θ,在所有输入数据(C1,Cj)中,将pj>θ时对应的所有候选同义词簇Cj组成候选同义词簇集O;
其中,
Figure BDA0002986448810000041
pj>θ表示当前两个候选同义词簇C1,Cj可以合并为一个同义词簇;
将C1和O中的所有同义词簇取并集组成新的同义词簇Ri,将Ri加入新的候选同义词簇集R,并将C1以及O中的所有同义词簇从候选同义词簇集C中删除;
其中,R初始化为空集;
6.4)若C为空集,完成候选同义词簇合并,输出候选同义词簇集R;否则返回步骤6.1)。
本发明的有益效果:
本发明一方面使用深度预训练神经网络所包含的先验知识训练set-instance神经网络模型,以此来解决中文医疗同义词挖掘任务中缺少上下文信息的问题。另一方面,本发明创造了一种聚类算法,该算法利用训练好的set-instance神经网络模型对候选词表进行聚类操作;且在真实数据集上取得了优秀的效果。
附图说明
图1为本发明的流程图;
图2为本发明的set-instance神经网络模型的基本结构示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步详细说明。
如图1所示,本发明的一种基于深度预训练神经网络的中文医疗同义词聚类方法,包括如下步骤:
步骤1):将中文医疗数据集CSKB中的同义词进行人工分类后构建得到同义词簇集T;
步骤2):基于步骤1)构建的同义词簇集T生成模型训练数据集:遍历同义词簇集T中的每个同义词簇Ti,对每个同义词簇Ti执行下述步骤2.1)~步骤2.3)得到对应的正样本和负样本,所有同义词簇Ti对应的正样本和负样本组成模型训练数据集;其中,T={T1,T2,…,Ti},1≤i≤Size(T);
如图1中的“Synonym Set”所示,(感冒,流感,流行性感冒),(蓝鼓膜,蓝鼓膜综合征)、(先天性神经不全,神经发育不全)分别属于同一个同义词簇;
2.1)对于当前同义词簇Ti,生成对应的第一子集Ti_sub和第二子集Tleft
其中,
Figure BDA0002986448810000051
Tleft=Ti-Ti_sub
2.2)从第二子集Tleft中随机选择一个词语ipos组成正样本(Ti_sub,ipos,1);其中,ipos∈Tleft
如图1中的“Sample”所示,正样本为{(感冒,流感),流行性感冒,1};
2.3)对于每个正样本生成K个不同的负样本(Ti_sub,ineg,0);其中,ineg∈T-Ti,ineg为集合T-Ti中的一个词语。
如图1中的“Sample”所示,负样本为{(感冒,流感),老年心肌病,0}、{(感冒),蓝鼓膜综合征,0}。
步骤3):构建如图2所述的set-instance神经网络模型;
基于语言模型BERT构建set-instance神经网络模型结构:set-instance神经网络模型结构包括依次连接的输入层、BERT层和输出层;
3.1)输入层采用BERT形式的输入:
其中TOKEN的输入为:[cls]候选词[sep]同义词簇[sep],同义词簇中的不同词语使用“|”进行分隔;如图2所示,候选词为“流行性感冒”,同义词簇为“流感,感冒”,流感和感冒通过“|”进行分隔;
SEGMENT的输入为:候选词对应编码为0,同义词簇对应编码为1,符号[cls]、第一个[sep]对应编码为0,第二个[sep]对应的编码为1;
POSITION的输入为:将候选词和同义词簇中的每个词语分别按阿拉伯数字顺序进行位置编码,每个词语的起始编码为0,符号[cls]、[sep]对应编码为0;
如:“流感”的位置编码为“流”:“0”,“感”:“1”;
“流行性感冒”的位置编码为“流”:“0”;“行”:“1”;“性”:“2”;“感”:“3”;“冒”:“4”;
3.2)BERT层通过加载Google发布的BERT-Base-Chinese预训练参数,完成参数初始化;
3.3)输出层中,全连接层中的权重系数(weights)和偏置值(bias)从0~1中随机选出,全连接层间的激活函数选取Relu函数;全连接层最后使用Sigmoid函数输出最终结果,(0~1)指0~1中的任意浮点数;
步骤4):训练set-instance神经网络模型,根据分类准确率的大小选取参数,最终确定一组令分类准确率最大的一组参数。
本发明的分类模型可以判断一个新的候选词是否属于某个同义词簇。在set-instance神经网络模型中,我们引入深度预训练模型BERT作为分类模型的一部分,并在同义词分类任务中进行微调;最后,BERT层会根据候选词和同义词簇动态生成一个带有先验知识的向量。
采用步骤2)的模型训练数据集对步骤3)构建的set-instance神经网络模型进行训练,选取均二分类交叉熵函数作为最终损失函数,采用误差反向传播对神经网络模型的权值和偏置进行调整。
步骤5):如图1中的“Synonym Sets Discovery Process”所示,使用训练好的set-instance神经网络模型对候选词集进行聚类。
所述步骤(5)具体为:遍历候选词集V中的每个词语vk,并对词语vk执行下述步骤5.1)~5.3),从而完成候选词集的聚类;其中,vi∈V,1≤k≤Size(V);
5.1)当前词语vk分别与候选同义词簇集C中每个同义词簇Ci组成模型输入数据(Ci,vk);其中:vk相当于步骤3.1)中的“候选词”,Ci相当于步骤3.1)中的同义词簇;
其中,Ci∈C,1≤i≤Size(C);
5.2)将所有输入数据(Ci,vk)输入set-instance神经网络模型中,计算每个输入数据(Ci,vk)对应的概率p,概率p为当前单词vk归属同义词簇Ci的概率值;
并在计算得到的所有概率p中选取最大概率pmax输出;
其中,Ci∈C,1≤i≤Size(C);
5.3)给定阈值θ:
若pmax≥θ,则将当前词语vk加入到最大概率pmax对应的同义词簇Ci
若pmax<θ,则将当前词语vk构成一个新的同义词簇Cj,并将Cj加入到候选同义词簇集C。
如图1中的“Cluster Initialization”中所示,(颅内神经瘤,颅神经瘤)、(脑神经瘤,脑神经肿瘤)分别属于不同的候选同义词簇。
步骤6):如图1中的“Set Generation Algorithm”所示,使用训练好的set-instance神经网络模型对候选的同义词簇集进行合并。
所述步骤(6)具体为:
6.1)取候选同义词簇集C中的第一个候选同义词簇C1,将候选同义词簇C1分别与每个候选同义词簇Cj组成输入数据(C1,Cj);
其中,候选同义词簇Cj为在候选同义词簇集C中除候选同义词簇C1之外的其余候选同义词簇,C1,Cj∈C,j≠1;步骤3.1)TOKEN输入中的候选词对应于候选同义词簇Cj,TOKEN输入中的同义词簇对应于同义词簇C1
6.2)将所有输入数据(C1,Cj)输入到set-instance神经网络模型中,计算每个输入数据(C1,Cj)对应的概率pij,概率pij为当前两个候选同义词簇合并为一个同义词簇的概率值;
6.3)给定阈值θ,在所有输入数据(C1,Cj)中,将pj>θ时对应的所有候选同义词簇Cj组成候选同义词簇集O;
其中,
Figure BDA0002986448810000071
pj>θ表示当前两个候选同义词簇C1,Cj可以合并为一个同义词簇;
将C1和O中的所有同义词簇取并集组成新的同义词簇Ri,将Ri加入新的候选同义词簇集R,并将C1以及O中的所有同义词簇从候选同义词簇集C中删除;
其中,R初始化为空集;
6.4)若C为空集,完成候选同义词簇合并,输出候选同义词簇集R;否则返回步骤6.1)。
如图1中的“Set Generation Algorithm”所示,将候选同义词簇(颅内神经瘤,颅神经瘤)、(脑神经瘤,脑神经肿瘤)合并成为一个新的同义词簇(颅内神经瘤,颅神经瘤,脑神经瘤,脑神经肿瘤)。
该方法在整理之后的医疗同义词簇集上的效果如下:
聚类方法 ARI NMI FMI
Kmeans 0.4722 0.8116 0.4864
DBSCAN 0.4470 0.8394 0.4728
set-instance 0.7176 0.9125 0.7293
注:
(1)Kmeans和DBSCAN是常用的聚类算法模型,set-instance是本发明的模型;
(2)ARI:Adjusted Rand index,ARI∈[-1,1],值越大聚类效果越好;
(3)NMI:Normalized Mutual Information,NMI∈[0,1],值越大聚类效果越好;
(4)FMI:Fowlkes and Mallows Index,FMI∈[0,1],值越大聚类效果越好;
(5)相较于Kmeans,本发明相同的数据集上的聚类指标ARI、NMI、FMI分别提高了24.54%、10.09%、24.29%;
(6)相较于DBSCAN,本发明相同的数据集上的聚类指标ARI、NMI、FMI分别提高了27.06%、7.31%、25.65%。

Claims (7)

1.一种基于深度预训练神经网络的中文医疗同义词聚类方法,包括如下步骤:
1)将公开的中文医疗数据集中的同义词进行分类后组成多个同义词簇,将所有同义词簇组合后构建得到同义词簇集T;
2)基于步骤1)构建的同义词簇集T生成模型训练数据集;
3)基于预训练模型BERT构建set-instance神经网络模型结构,set-instance神经网络模型结构包括依次连接的输入层、BERT层和输出层;
4)训练set-instance神经网络模型;
5)使用步骤4)训练好的set-instance神经网络模型对候选同义词集中的每个词语进行聚类,生成候选同义词簇集;
6)使用步骤4)训练好的set-instance神经网络模型对步骤5)生成的候选同义词簇集进行合并,生成最终的候选同义词簇集。
2.根据权利要求1所述的一种基于深度预训练神经网络的中文医疗同义词聚类方法,其特征在于,
所述步骤2)具体包括以下步骤:
遍历同义词簇集T中的每个同义词簇Ti,对每个同义词簇Ti执行下述步骤2.1)~步骤2.3)得到对应的正样本和负样本,所有同义词簇Ti对应的正样本和负样本组成模型训练数据集;
其中,T={T1,T2,…,Ti},1≤i≤Size(T);
2.1)对于当前同义词簇Ti,生成对应的第一子集Ti_sub和第二子集Tleft
其中,
Figure FDA0002986448800000011
Tleft=Ti-Ti_sub
2.2)从第二子集Tleft中随机选择一个词语ipos组成正样本(Ti_sub,ipos,1);
其中,ipos∈Tleft
2.3)对于每个正样本生成K个不同的负样本(Ti_sub,ineg,0);
其中,ineg∈T-Ti,ineg为集合T-Ti中的一个词语。
3.根据权利要求1所述的一种基于深度预训练神经网络的中文医疗同义词聚类方法,其特征在于,所述步骤3)具体为
3.1)输入层采用BERT形式的输入:
其中TOKEN的输入为:[cls]候选词[sep]同义词簇[sep],同义词簇中的不同词语使用“|”进行分隔;
SEGMENT的输入为:候选词对应编码为0,同义词簇对应编码为1;
POSITION的输入为:将候选词和同义词簇中的每个词语分别按阿拉伯数字顺序进行位置编码,每个词语的起始编码为0;
3.2)BERT层通过加载Google发布的BERT-Base-Chinese预训练参数,完成参数初始化;
3.3)输出层由两个全连接层和激活函数层组成,两个全连接层的权重系数和偏置值从0~1中随机选出,两个全连接层中的激活函数选取Relu函数,最后一层全连接层的结果通过采用Sigmoid函数激活后得到输出值输出。
4.根据权利要求1所述的一种基于深度预训练神经网络的中文医疗同义词聚类方法,其特征在于,所述步骤4)具体为:采用步骤2)的模型训练数据集对步骤3)构建的set-instance神经网络模型进行训练,选取二分类交叉熵函数作为最终损失函数,采用误差反向传播对set-instance神经网络模型的权值和偏置进行调整;根据训练过程中模型分类准确率选取神经网络模型参数,将分类准确率最大时对应的一组参数作为set-instance神经网络模型参数。
5.根据权利要求3所述的一种基于深度预训练神经网络的中文医疗同义词聚类方法,其特征在于,所述步骤(5)具体为:遍历候选同义词集V中的每个词语vk,并对词语vk执行下述步骤5.1)~5.3),从而完成候选同义词的聚类,得到候选同义词簇集C;
其中,vi∈V,1≤k≤Size(V);C={C1,C2,C3,...,Cm},m为候选同义词簇的个数;
5.1)当前词语vk分别与候选同义词簇集C中每个同义词簇Ci组成模型输入数据(Ci,vk),其中:步骤3.1)TOKEN输入中的候选词对应于词语vk,TOKEN输入中的同义词簇对应于同义词簇Ci
其中,Ci∈C,1≤i≤m;
5.2)将所有输入数据(Ci,vk)输入set-instance神经网络模型中,计算每个输入数据(Ci,vk)对应的概率p,概率p为当前词语vk归属同义词簇Ci的概率值;
并在计算得到的所有概率p中选取最大概率pmax输出;
5.3)给定阈值θ:
若pmax≥θ,则将当前词语vk加入到最大概率pmax对应的同义词簇Ci
若pmax<θ,则将当前词语vk构成一个新的同义词簇Cj,并将Cj加入到候选同义词簇集C。
6.根据权利要求5所述的一种基于深度预训练神经网络的中文医疗同义词聚类方法,其特征在于,所述步骤5.1)中初始的候选同义词簇集C为空集,当前词语vk为第一个候选词v1时,不执行步骤5.1)~5.3),候选词v1作为候选同义词簇C1,并加入候选同义词簇集C中;从第二个候选词v2开始执行步骤5.1)~5.3)。
7.根据权利要求3所述的一种基于深度预训练神经网络的中文医疗同义词聚类方法,其特征在于,所述步骤(6)具体为:对步骤(5)生成的候选同义词簇集C中的候选同义词簇Ci执行下述步骤6.1)~6.4),从而完成候选同义词簇的合并;
6.1)取候选同义词簇集C中的第一个候选同义词簇C1,将候选同义词簇C1分别与每个候选同义词簇Cj组成输入数据(C1,Cj);
其中,候选同义词簇Cj为在候选同义词簇集C中除候选同义词簇C1之外的其余候选同义词簇,C1,Cj∈C,j≠1;步骤3.1)TOKEN输入中的候选词对应于候选同义词簇Cj,TOKEN输入中的同义词簇对应于同义词簇C1
6.2)将所有输入数据(C1,Cj)输入到set-instance神经网络模型中,计算每个输入数据(C1,Cj)对应的概率pj,概率pj为当前两个候选同义词簇合并为一个同义词簇的概率值;
6.3)给定阈值θ,在所有输入数据(C1,Cj)中,将pj>θ时对应的所有候选同义词簇Cj组成候选同义词簇集O;
其中,
Figure FDA0002986448800000031
pj>θ表示当前两个候选同义词簇C1,Cj可以合并为一个同义词簇;
将C1和O中的所有同义词簇取并集组成新的同义词簇Ri,将Ri加入新的候选同义词簇集R,并将C1以及O中的所有同义词簇从候选同义词簇集C中删除;
其中,R初始化为空集;
6.4)若C为空集,完成候选同义词簇合并,输出候选同义词簇集R;否则返回步骤6.1)。
CN202110301422.2A 2021-03-22 2021-03-22 基于深度预训练神经网络的中文医疗同义词聚类方法 Active CN113111180B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110301422.2A CN113111180B (zh) 2021-03-22 2021-03-22 基于深度预训练神经网络的中文医疗同义词聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110301422.2A CN113111180B (zh) 2021-03-22 2021-03-22 基于深度预训练神经网络的中文医疗同义词聚类方法

Publications (2)

Publication Number Publication Date
CN113111180A true CN113111180A (zh) 2021-07-13
CN113111180B CN113111180B (zh) 2022-01-25

Family

ID=76710246

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110301422.2A Active CN113111180B (zh) 2021-03-22 2021-03-22 基于深度预训练神经网络的中文医疗同义词聚类方法

Country Status (1)

Country Link
CN (1) CN113111180B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113836901A (zh) * 2021-09-14 2021-12-24 灵犀量子(北京)医疗科技有限公司 一种中英文医学同义词数据清洗方法及系统
CN115080764A (zh) * 2022-07-21 2022-09-20 神州医疗科技股份有限公司 基于知识图谱及聚类算法的医学相似实体分类方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110069779A (zh) * 2019-04-18 2019-07-30 腾讯科技(深圳)有限公司 医疗文本的症状实体识别方法及相关装置
US10482185B1 (en) * 2019-02-27 2019-11-19 Capital One Services, Llc Methods and arrangements to adjust communications
CN110598005A (zh) * 2019-09-06 2019-12-20 中科院合肥技术创新工程院 一种面向公共安全事件的多源异构数据知识图谱构建方法
CN111898366A (zh) * 2020-07-29 2020-11-06 平安科技(深圳)有限公司 文献主题词聚合方法、装置、计算机设备及可读存储介质
CN112232374A (zh) * 2020-09-21 2021-01-15 西北工业大学 基于深度特征聚类和语义度量的不相关标签过滤方法
CN112487206A (zh) * 2020-12-09 2021-03-12 中国电子科技集团公司第三十研究所 一种自动构建数据集的实体关系抽取方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10482185B1 (en) * 2019-02-27 2019-11-19 Capital One Services, Llc Methods and arrangements to adjust communications
CN110069779A (zh) * 2019-04-18 2019-07-30 腾讯科技(深圳)有限公司 医疗文本的症状实体识别方法及相关装置
CN110598005A (zh) * 2019-09-06 2019-12-20 中科院合肥技术创新工程院 一种面向公共安全事件的多源异构数据知识图谱构建方法
CN111898366A (zh) * 2020-07-29 2020-11-06 平安科技(深圳)有限公司 文献主题词聚合方法、装置、计算机设备及可读存储介质
CN112232374A (zh) * 2020-09-21 2021-01-15 西北工业大学 基于深度特征聚类和语义度量的不相关标签过滤方法
CN112487206A (zh) * 2020-12-09 2021-03-12 中国电子科技集团公司第三十研究所 一种自动构建数据集的实体关系抽取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIAN HU等: "Enhancing Text Clustering by Leveraging Wikipedia Semantics", 《PROCEEDINGS OF THE 31ST ANNUAL INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL》 *
李小涛等: "一种基于词义向量模型的词语语义相似度算法", 《自动化学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113836901A (zh) * 2021-09-14 2021-12-24 灵犀量子(北京)医疗科技有限公司 一种中英文医学同义词数据清洗方法及系统
CN113836901B (zh) * 2021-09-14 2023-11-14 灵犀量子(北京)医疗科技有限公司 一种中英文医学同义词数据清洗方法及系统
CN115080764A (zh) * 2022-07-21 2022-09-20 神州医疗科技股份有限公司 基于知识图谱及聚类算法的医学相似实体分类方法及系统
CN115080764B (zh) * 2022-07-21 2022-11-01 神州医疗科技股份有限公司 基于知识图谱及聚类算法的医学相似实体分类方法及系统

Also Published As

Publication number Publication date
CN113111180B (zh) 2022-01-25

Similar Documents

Publication Publication Date Title
Gu et al. Stack-captioning: Coarse-to-fine learning for image captioning
Zhang et al. Discovering new intents with deep aligned clustering
Lin et al. Discovering new intents via constrained deep adaptive clustering with cluster refinement
CN110609891B (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
CN111143576A (zh) 一种面向事件的动态知识图谱构建方法和装置
CN110033008B (zh) 一种基于模态变换与文本归纳的图像描述生成方法
CN108170848B (zh) 一种面向中国移动智能客服的对话场景分类方法
Lee et al. Query-efficient and scalable black-box adversarial attacks on discrete sequential data via bayesian optimization
CN113111180B (zh) 基于深度预训练神经网络的中文医疗同义词聚类方法
CN113255366B (zh) 一种基于异构图神经网络的方面级文本情感分析方法
Zhang et al. Sentiment classification for Chinese text based on interactive multitask learning
Lin et al. PS-mixer: A polar-vector and strength-vector mixer model for multimodal sentiment analysis
CN116152554A (zh) 基于知识引导的小样本图像识别系统
CN114722835A (zh) 基于lda和bert融合改进模型的文本情感识别方法
CN115510814A (zh) 一种基于双重规划的篇章级复杂问题生成方法
CN114417872A (zh) 一种合同文本命名实体识别方法及系统
CN115130538A (zh) 文本分类模型的训练方法、文本处理的方法、设备及介质
CN115687609A (zh) 一种基于Prompt多模板融合的零样本关系抽取方法
CN112231476B (zh) 一种改进的图神经网络科技文献大数据分类方法
CN112906820A (zh) 基于遗传算法的对抗卷积神经网络句子相似度计算方法
CN115510218A (zh) 一种基于对称对比学习的人岗匹配方法
CN113705197B (zh) 一种基于位置增强的细粒度情感分析方法
CN115062123A (zh) 一种对话生成系统的知识库问答对生成方法
CN114548117A (zh) 一种基于bert语义增强的因果关系抽取方法
Wang et al. Hierarchical multimodal fusion network with dynamic multi-task learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant