CN112417882A - 基于迁移学习的中医临床领域词嵌入学习方法及迁移方法 - Google Patents
基于迁移学习的中医临床领域词嵌入学习方法及迁移方法 Download PDFInfo
- Publication number
- CN112417882A CN112417882A CN202110093066.XA CN202110093066A CN112417882A CN 112417882 A CN112417882 A CN 112417882A CN 202110093066 A CN202110093066 A CN 202110093066A CN 112417882 A CN112417882 A CN 112417882A
- Authority
- CN
- China
- Prior art keywords
- word
- context
- central
- ppmi
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Pathology (AREA)
- Artificial Intelligence (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Machine Translation (AREA)
Abstract
本发明提出了一种基于迁移学习的中医临床领域词嵌入学习方法及迁移方法,针对中医临床领域是一个低资源的领域,采用了迁移学习的方法,基于实例的迁移学习扩大了低资源领域的数据资源;基于参数知识的迁移学习能够复用已训练好的模型参数,从而达到加快模型训练和节约训练成本的目的。同时改进了采样的方法,使用了基于PPMI的全局上下文随机负采样来解决中心词的上下文词并非都是真正临近于中心词的问题。
Description
技术领域
本发明涉及自然语言处理领域,尤其涉及基于迁移学习的中医临床领域词嵌入学习方法及迁移方法。
背景技术
在临床医学领域的研究中,对中医临床领域词嵌入的学习有助于对中医临床文本数据信息进行数据挖掘等任务,中医临床领域词嵌入也可应用于疾病预测、临床事件预测、医学概念消除歧义等研究场景。因为临床医学数据由于其隐私性等问题,研究人员无法获得足够大规模的数据训练高质量的词嵌入,甚至用来训练高质量的词嵌入的资源匮乏。
由于中医临床领域是一个低资源领域不能提供大量的具有结构化的领域内数据,所以现有很多研究人员使用一些简单的深度神经网络方法学习中医临床领域词嵌入。例如基于随机负采样的SG模型,也称SGNS模型。其基本思路对于词向量来说,词的语义关系可以通过向量的数学关系来表达。SGNS模型对每个目标词选择周围的上下文词作为正实例,对于每个正实例还选择了k个噪声样本作为负样本,通过词嵌入向量之间的数学关系,将嵌入移向相邻词并远离噪声词。
但实际上,中心词的不同上下文词与中心词的语义距离也是有很大差别的。对于同一中心词的不同上下文词,其对中心词的贡献度是不同的,中心词的上下文词并非都是真正临近于中心词。应当选择那些真正临近中心词的上下文词作为正样本,然后再去选择负样本。
因而,现有技术中主要存在的技术问题在于,当前中医临床领域数据匮乏的条件下如何能学习到高质量的词嵌入的研究,提高中医临床领域词嵌入向量的质量。
发明内容
本发明针对当前中医临床领域数据匮乏的条件下如何能学习到高质量的词嵌入的研究,提供一种利用迁移学习对匮乏的资源做补充的方法,提高中医临床领域词嵌入向量的质量。针对中医临床领域数据的特点,更改了采样方法以及权重的计算方法,以达到提升词嵌入向量质量的目的。
为了解决上述问题,本发明采用以下技术方案:
在基于迁移学习的中医临床领域词嵌入学习方法中,使用了基于PPMI全局上下文随机负采样方法,其具体实现步骤如下:
步骤1:初步选择SGNS模型作为随机负采样模型。
步骤2:设定中医临床文本词集,上下文窗口的大小,步长,负采样的个数的初始值分别为V,2c,η,k。
步骤4:对中医临床文本词集V进行循环遍历,从V的第一个词开始,直到词集结尾处。
步骤5:把遍历得到的第一个词作为中心词,记为,中心词相临近的上下文词记
为,将中心词和其上下文词组成词对,其中上下文词属于中心词的上下
文词词集,记作。并记录中心词分别与其所有上下文词组成的词对的出现情况。
,其中为先验概率的一个惩罚因子,,,,是在先验条件下的概率,是在先验条件下中心词和上下文词词对的PPMI值,是中心词和上下文词词对的概率,中心词的
概率,中心词的上下文词词集,count表示在给定区域中计算参数列表中的
数字项个数的函数;
步骤7:对中医临床文本词集V进行循环遍历,从V的第一个词开始,直到词集结尾处。
步骤9:预定义PPMI阈值范围:PPMI值递增序列中前20%的上下文词为负实例,
记作“-”;后80%的上下文词为正实例,记作“+”。对比是否是在阈值范围
内,若在前20%,则将中心词与上下文词形成的词对舍弃,并回到
步骤7。若不在前20%,进入步骤10;
步骤10:将中医临床文本词集V中的每个词都分别对应一条长度为1的线段,整个词
集就有|V|条线段。每一条线段都对应了当前上下文词与所有负样例的全部的PPMI值之
和,此时除了本身以外,其他词均为负样例。将负实例记为。其中上下文词与负实例
的PPMI 值计算如下:
,其中为先验概率的一个惩罚因子,,,,是在先验条件下的概率,是在先验条件下中心词和上下文词词对的PPMI值,是中心词和上下文词词对的概率,中心词的概
率,中心词的上下文词词集,count表示在给定区域中计算参数列表中的数
字项个数的函数;
然后将这条线段映射为长度是1的线段,那么每个词语的长度记作,,是当前上下文词所对应的词集V中的词,如图2所示,
图中、、分别表示整个词集线段中的第一个词、第二个词和第n个词;图中、、、m分别表示将线段均分为m个子线段,并标上刻度后的第一个子线段、第二个子线
段、第三个子线段和第m个子线段。
然后用查表的方式,将上述线段标上m个“刻度”,刻度之间的间隔是相等的,即长
度为1/m的m条等长线段,这些线段依次为第条,第条至第m条,我们随机生成之
间的数,在这个刻度尺上查寻就能抽中某个负样本。如图2所示。对上下文词进行上述采
样,获得了k个负实例,记作,将中心词、上下文词和负实例组成词对,。
步骤11:将上下文窗口进行循环遍历,从第一个上下文词开始,直到第2c个结束。
步骤12:将上下文词进行负采样算法所得到的k个负实例进行循环遍历,从第1个负实例开始,直到第k个负实例结束。
步骤16:输出词汇表中每次词对应的向量参数,即所有词的词向量。
基于迁移学习的中医临床领域词嵌入学习方法中也使用了实例迁移和参数迁移两种方法。在实例迁移方法中使用了跟中医临床领域相关领域的数据集作为迁移的实例。在参数迁移方法中首先使用了中医临床领域相关领域的数据集,训练出一个模型,得到一些模型参数,找出模型中与目标领域相似的部分,再将这些参数作为中医临床领域数据集训练时的先验分布,并将两个数据集的实例作为同一个数据集一起训练出中医临床领域数据集的模型参数。将基于实例迁移和参数迁移两种迁移方法相结合的迁移方法具体实现步骤如下所示:
步骤3:
进行以下步骤:
步骤302:对中医临床文本词集V进行循环遍历,从V的第一个词开始,直到词集结尾处;
步骤303:把遍历得到的第一个词作为中心词,记为,中心词相临近的上下文词记为,将中心词和其上下文词组成词对,其中上下文词属于中心词的上下文
词词集,记作,并记录中心词分别与其所有上下文词组成的词对
的出现情况;
,其中为先验概率的一个惩罚因子,,,,是在先验条件下的概率,是在先验条件
下中心词和上下文词词对的PPMI值,是中心词和上下文词词对的
概率,中心词的概率,中心词的上下文词词集,count表示在给定
区域中计算参数列表中的数字项个数的函数;
步骤305:对中医临床文本词集V进行循环遍历,从V的第一个词开始,直到词集结尾处;
步骤308:将中医临床文本词集V中的每个词都分别对应一条长度为1的线段,整个词
集具有|V|条线段,每一条线段均对应当前上下文词与所有负样例的全部的PPMI值之和,
此时除了本身以外,其他词均为负样例,将负实例记为。其中上下文词与负实例的
PPMI 值计算如下:
,其中为先验概率的一个惩罚因子,,,,是在先验条件下的概率,是在先验条件下中心词和上下文词词对的PPMI值,是中心词和上下文词词对的概率,中心词的概
率,中心词的上下文词词集,count表示在给定区域中计算参数列表中的数
字项个数的函数;
然后将这条线段映射为长度是1的线段,那么每个词语的长度记作,,是当前上下文词所对应的词集V中的词,如图2所示,
图中、、分别表示整个词集线段中的第一个词、第二个词和第n个词;图中、、、m分别表示将线段均分为m个子线段,并标上刻度后的第一个子线段、第二个子线
段、第三个子线段和第m个子线段。
步骤309:将上下文窗口进行循环遍历,从第一个上下文词开始,直到第2c个结束;
步骤310:将上下文词进行负采样算法所得到的k个负实例进行循环遍历,从第1个负实例开始,直到第k个负实例结束;
步骤6:
进行以下步骤:
步骤601:对中医临床文本词集V进行循环遍历,从V的第一个词开始,直到词集结尾处;
步骤602:把遍历得到的第一个词作为中心词,记为,中心词相临近的上下文词记为,将中心词和其上下文词组成词对,其中上下文词属于中心词的上下文
词词集,记作。并记录中心词分别与其所有上下文词组成的词对的出现情况;
,其中为先验概率的一个惩罚因子,,,,是在先验条件下的概率,是在先验条件下中心词和上下文词词对的PPMI值,是中心词和上下文词词对的概率,中心词的
概率,中心词的上下文词词集,count表示在给定区域中计算参数列表中的
数字项个数的函数;
步骤604:对中医临床文本词集V进行循环遍历,从V的第一个词开始,直到词集结尾处;
步骤606:预定义PPMI阈值范围:PPMI值递增序列中前20%的上下文词为负实例,记
作“-”;后80%的上下文词为正实例,记作“+”。对比是否是在阈值范围内,
若在前20%,则将中心词与上下文词形成的词对舍弃,并回到步
骤604。若不在前20%,进入步骤607;
步骤607:将中医临床文本词集V中的每个词都分别对应一条长度为1的线段,整个词
集具有|V|条线段,每一条线段均对应当前上下文词与所有负样例的全部的PPMI值之和,
此时除了本身以外,其他词均为负样例,将负实例记为。其中上下文词与负实例的
PPMI 值计算如下:
,其中为先验概率的一个惩罚因子,,,,是在先验条件下的概率,是在先验条件下中心词和上下文词词对的PPMI值,是中心词和上下文词词对的概率,中心词的概
率,中心词的上下文词词集,count表示在给定区域中计算参数列表中的数
字项个数的函数;
然后将这条线段映射为长度是1的线段,那么每个词语的长度记作,,是当前上下文词所对应的词集V中的词,如图2所示,
图中、、分别表示整个词集线段中的第一个词、第二个词和第n个词;图中、、、m分别表示将线段均分为m个子线段,并标上刻度后的第一个子线段、第二个子线
段、第三个子线段和第m个子线段。
步骤608:将上下文窗口进行循环遍历,从第一个上下文词开始,直到第2c个结束;
步骤609:将上下文词进行负采样算法所得到的k个负实例进行循环遍历,从第1个负实例开始,直到第k个负实例结束;
与现有技术相比,本发明的有益效果是:
本发明所使用的负采样方法,极大的改进了在确定中心词的前提下,如何选择与当前中心词更接近的上下文词;同时也改进了常规负样本的采样方法,使得上下文词能够按照贡献度来确定其权重。本发明也使用了迁移学习中实例迁移和参数迁移的方法,将两者结合解决了中医临床领域数据量匮乏的根本问题。在使用实例迁移和参数迁移解决低资源问题后,同时采用基于PPMI全局上下文随机负采样的方法,有效的提高了中医临床领域这一低资源领域词嵌入向量的质量。
本发明针对中医临床领域是一个低资源领域,采用了迁移学习的方法。基于实例的迁移学习扩大了低资源领域的数据资源;基于参数知识的迁移学习能够复用已训练好的模型参数,从而达到加快模型训练和节约训练成本的目的。同时改进了采样的方法,使用了基于PPMI的全局上下文随机负采样。来解决中心词的上下文词并非都是真正临近于中心词的问题。
本发明采用的迁移学习和基于正向点互信息值(PPMI)的全局上下文随机负采样相结合方法训练中医临床领域词嵌入,有效的提升了中医临床领域词嵌入的质量。对后续的医学领域的研究提供了高质量的词嵌入。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1是本发明中的PPMI矩阵计算图。
图2是本发明中的PPMI值映射为线段随机采样图。
图3是本发明中的基于PPMI随机负采样结果图。
图4是本发明中的基于点互信息不随机负采样结果图。
图5是本发明中的基于全局的上下文选择的SGNS结果对比图。
图6是本发明中的SGNS、MIX1、MIX2的CMCSM值柱状图。
图7是本发明中的对比实验图。
图8是本发明中的实验结果柱状图。
图9是本发明中的结合基于实例与基于参数知识实验结果柱状图。
图10是本发明中的对比实验结果图。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
现在结合说明书附图对本发明做进一步的说明。
在基于PPMI全局上下文随机负采样方法的实验中,选用中医临床记录文本作为任务场景,实验数据主要分为两个部分,
1)中医临床记录数据集,简称TCM。
2)中医树形概念树,简称TC。
TCM来源于一个实际的中医临床记录数据集,该数据集是由中医专家在2006年4月至2008年6月间的日常诊断过程中收集的,样例数据如表1所示,本发明研究的是中医临床记录中的中医概念词嵌入向量,所以只使用临床记录这个部分的数据,其中包含33301条实例条临床记录,每条实例都已做好分词预处理。如,其中一行中的分词包括:腹泻 大便 3次, 咳嗽,喉痒,鼻出热气,潮热,身软,背冷痛,头昏眼花,胃痛,肠鸣,下肢软,肛门坠,手心烧,口干饮水多,小便多,苔黄,舌红,脉细。其中一行的分词包括:咽喉不适,早晨喉干,有痰,白稠,气紧,动则汗出,苔薄黄,舌红。
表1 临床记录示例表
TC数据集来源于中医概念树公开数据,包含3617条实例,即3617个概念树中的概念,概念树分为3层,如表2所示。
表2 概念树数据集示例表
实验任务是使用基于PPMI的随机负采样方法进行采样通过TCM数据集训练得到TC数据
集,中医学概念树数中的概念的词嵌入向量,并通过CMCSM评估方法来度量训练最终得到的
概念的词嵌入向量的质量。实验结果如图3所示,其中PPMI with SGNS表示使用基于PPMI的
随机负采样方法的SGNS模型。其中CMCSM可由计算。其中CMCSM代表概念树中的概念词
的词嵌入向量的质量程度,N代表包含的词概念的组数,代表该组内包含的词概念个数,
j、k代表是当前组的第j、k个词,代表当前词,的相似度。同组内中医概念
的相似度越高,说明组内的概念相关度就越高,这也跟概念树的组内概念关系是一致的,所
以CMCSM也就可以用来度量中医临床文本记录的概念词词嵌入向量的质量。
基于PPMI的随机负采样相比于初始的SGNS,CMCSM值略有提升,但提升效果不是很明显,说明在该实验任务场景下,点互信息权重的随机负采样与词频权重的随机负采样差别不明显。
在上面实验的基础上,以基于点互信息的负采样方法来进行采样,不进行随机,直接选取PPMI值最小的作为负样例。实验结果如图4所示,其中PPMI with SGNS表示使用基于PPMI的随机负采样方法的SGNS模型,PPMI with SGNS不随机表示使用基于PPMI的不随机负采样方法的SGNS模型。
基于点互信息的负采样相比于初始的SGNS,CMCSM值有较高的值的提升,比起基于PPMI的随机负采样提升的要更多,说明在该实验任务场景下,点互信息越小的确实越不相关,负采样得到与当前上下文词更不相关的词更利于词嵌入向量质量的提升。
仔细观察两组实验,发现在数据量大的时候,点互信息的提升效果要比数据量小的时候多。造成上述实验提升不明显的原因,有可能是在低资源领域的训练数据集时,词与词之间的相关性差别不明显,因此点互信息的权重作用不明显。
在形成中心词上下文词对后,舍弃掉一部分词对。实验结果如图5所示,PPMI withSGNS表示使用基于PPMI的随机负采样方法的SGNS模型,PPMI with SGNS不随机表示使用基于PPMI的不随机负采样方法的SGNS模型,全局PPMI with SGNS不随机表示使用基于全局上下文PPMI的不随机负采样方法的SGNS模型。
实验的CMCSM值有很大提高。但是对比前三组实验提高的程度,我们发现数据量少的组通过全局上下文选择舍弃掉部分词对后提高最大,但是有理由怀疑是否是过滤后的特征空间过于小了,导致了过拟合。实验结果表明,全局的上下文选择对于词嵌入向量的质量有显著提高。
在基于实例迁移学习的试验中引入了两个数据集,一个是通用领域数据集,简称为UM;一个是西医临床医学文本,简称WM。UM来源于一个实际的医学生活网站爬取的自制数据集,本文研究的是中医临床记录中的中医概念词嵌入向量,所以只使用网页正文的这个部分的数据,其中包含16538条实例。每条实例都已做好分词预处理。WM来源于实际的西医临床记录数据集,其中包含78661条实例条临床记录,每条实例都已做好分词预处理,如表3所示。
表3 WM 数据集示例表
将UM与TCM混合成为新的MIX1数据集,将WM与TCM混合成为新的MIX2数据集,分别统计出MIX1,MIX2的CMCSM值。以传统的SNGS的CMCSM值结果作为基准线,得到的实验结果CMCSM值如图6所示,详细数据结果如表4所示。
表4 基于实例迁移学习结果
通过表4可以发现,MIX1,MIX2所包含的TC中的概念数,均有所增加,说明UM,WM都包含可以利用于TCM词嵌入向量学习的实例,这与使用迁移学习的理论相符。通过柱状图可以发现,相对于SGNS,MIX1,MIX2,CMCSM均有提高,说明基于实例的迁移和基于参数知识的迁移都对词嵌入向量的质量有所提高。同时,结合表4结果可以发现,MIX1,MIX2所包含在TC的概念树的中的概念词均有增多,说明通用领域中和相关领域中均包含了概念词,有效的扩大了目标领域的数据量。而MIX1使用的词数与总词频数均高于比MIX2的,但是同样作为基于实例的迁移,MIX2的CMCSM值比MIX1的高了0.1548,这个值接近MIX1的CMCSM值的2倍。将基于PPMI的不随机负采样方法也结合迁移学习与它本身,作为一组实验,将基于全局的PPMI不随机负采样方法结合迁移学习与它本身,作为一组对比实验,实验结果如图7和图8所示。在图7中,PPMI with SGNS不随机表示使用基于PPMI的不随机负采样方法的SGNS模型,MIX2PPMI with SGNS不随机表示在MIX2数据集上使用基于PPMI的不随机负采样方法的SGNS模型,全局PPMI with SGNS不随机表示使用基于全局上下文PPMI的不随机负采样方法的SGNS模型,全局MIX2 PPMI with SGNS不随机表示在MIX2数据集上使用基于全局上下文PPMI的不随机负采样方法的SGNS模型。
实验结果表明,两组的结果均有提升,说明迁移学习方法的可泛化性,在基于PPMI不随机负采样的SGNS模型中,迁移学习提供更多的实例,使得基于PPMI负采样得到的负实例,更接近真实的负实例,在参数更新的时候,使用这些更接近真实的负实例,使得参数更新得更准确。
在同时使用实例迁移和参数迁移的实验中使用的数据集与仅使用实例迁移的实验数据集相同。将WM先通过SGNS训练所得的参数模型,作为TCM数据集SGNS模型训练的初始先验经验,得到词嵌入向量,作为MIX3。实验结果如表5和图7所示。
表5 实验结果表
通过表5可以发现,SGNS, MIX3在包含概念数,使用词数,总词频数均与传统的SGNS模型这个基准线一致,却少于MIX1,MIX2。CMCSM值高于传统的SGNS的,说明基于参数知识迁移学习,确实贡献了一部分有效的先验分布。
通过表1可以发现MIX3的CMCSM值的提高程度不如MIX2,说明MIX3迁移的参数没有MIX2迁移实例知识对模型训练提供的贡献大。分析原因,SGNS模型的迭代停止条件是参数收敛,不再变化,基于参数的知识迁移提供了先验参数,使得参数更新减少了一段更新时间,节约了时间和设备成本,但是那些没有提供到先验知识的中心词的词向量由于更新次数的减少,没有达到更接近真实分布。
在此基础上,将MIX2与MIX3相结合,将基于实例的迁移与基于参数知识迁移学习相结合,即依旧使用MIX2作为训练数据,但将WM先通过SGNS训练所得的参数,作为MIX2数据集SGNS模型训练的初始先验经验,实验结果如表6所示。
表6 基于两种迁移学习结合实验对比结果
通过表6可以发现,MIX2+ MIX3在包含概念数,使用词数,总词频数均与传统的MIX2一致,但CMCSM值却比MIX2高0.0716,是4种实验方案之中最高的,但CMCSM提高值却并不等于MIX3,说明两种迁移学习方法提供的可用知识是有部分重合。
通过柱状图9发现,两种迁移学习方法结合使用效果最好,也从侧面说明基于参数的知识迁移并没有将所有可共享知识迁移给目标领域,基于参数知识的迁移学习和基于实例的参数学习,它们都贡献了自己在源领域的知识,有些知识是不重合的。
通过柱状图10发现,两种迁移学习方法对比在数据参数量较大,模型更新较久的实验组,表现出提升效果更好。在图10中,PPMI with SGNS不随机表示使用基于PPMI的不随机负采样方法的SGNS模型,MIX2 PPMI with SGNS不随机表示在MIX2数据集上使用基于PPMI的不随机负采样方法的SGNS模型,全局PPMI with SGNS不随机表示使用基于全局上下文PPMI的不随机负采样方法的SGNS模型,全局MIX2 PPMI with SGNS不随机表示在MIX2数据集上使用基于全局上下文PPMI的不随机负采样方法的SGNS模型,MIX3 PPMI with SGNS不随机表示在MIX3数据集上使用基于全局上下文PPMI的不随机负采样方法的SGNS模型,全局MIX3 PPMI with SGNS不随机表示在MIX3数据集上使用基于全局上下文PPMI的不随机负采样方法的SGNS模型。
以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。
Claims (2)
1.一种基于迁移学习的中医临床领域词嵌入学习方法,其特征在于,包括以下步骤:
步骤1:选择SGNS模型作为随机负采样模型;
步骤2:设定中医临床文本词集,上下文窗口的大小,步长,负采样的个数的初始值分别为V,2c,η,k;
步骤4:对中医临床文本词集V进行循环遍历,从V的第一个词开始,直到词集结尾处;
步骤5:把遍历得到的第一个词作为中心词,记为,中心词相临近的上下文词记为,
将中心词和其上下文词组成词对,其中上下文词属于中心词的上下文词词
集,记作;并记录中心词分别与其所有上下文词组成的词对的
出现情况;
,其中为先验概率的一个惩罚因子,,,,是在先验条件下的概率,是在先验条件下中心词和上下文词词对的PPMI值,是中心词和上下文词词对的概率,中心词的
概率,中心词的上下文词词集,count表示在给定区域中计算参数列表中的
数字项个数的函数;
步骤7:对中医临床文本词集V进行循环遍历,从V的第一个词开始,直到词集结尾处;
步骤9:预定义PPMI阈值范围:PPMI值递增序列中前20%的上下文词为负实例,记作
“-”;后80%的上下文词为正实例,记作“+”;对比是否是在阈值范围内,若在前20%,则将中心词与上下文词形成的词对舍弃,并回到步骤
7;若不在前20%,进入步骤10;
步骤10:将中医临床文本词集V中的每个词都分别对应一条长度为1的线段,整个词
集就有|V|条线段,每一条线段都对应了当前上下文词与所有负样例的全部的PPMI值之
和,此时除了本身以外,其他词均为负样例,将负实例记为,其中上下文词与负实例
的PPMI 值计算如下:
,其中为先验概率的一个惩罚因子,,,,是在先验条件下的概率,是在先验条件下中心词和上下文词词对的PPMI值,是中心词和上下文词词对的概率,中心词的概
率,中心词的上下文词词集,count表示在给定区域中计算参数列表中的数
字项个数的函数;
步骤11:将上下文窗口进行循环遍历,从第一个上下文词开始,直到第2c个结束;
步骤12:将上下文词进行负采样算法所得到的k个负实例进行循环遍历,从第1个负实例开始,直到第k个负实例结束;
步骤16:输出词汇表中每次词对应的向量参数,获得所有词的词向量。
2.一种基于迁移学习的中医临床领域词迁移方法,其特征在于,包括实例迁移和参数迁移两种迁移方法,具体实现步骤包括:
步骤3:进行以下步骤:
步骤302:对中医临床文本词集V进行循环遍历,从V的第一个词开始,直到词集结尾处;
步骤303:把遍历得到的第一个词作为中心词,记为,中心词相临近的上下文词记为
,将中心词和其上下文词组成词对,其中上下文词属于中心词的上下文词
词集,记作,并记录中心词分别与其所有上下文词组成的词对的
出现情况;
,其中为先验概率的一个惩罚因子,,,,是在先验条件下的概率,是在先验条件
下中心词和上下文词词对的PPMI值,是中心词和上下文词词对的
概率,中心词的概率,中心词的上下文词词集,count表示在给定
区域中计算参数列表中的数字项个数的函数;
步骤305:对中医临床文本词集V进行循环遍历,从V的第一个词开始,直到词集结尾处;
步骤308:将中医临床文本词集V中的每个词都分别对应一条长度为1的线段,整个词
集具有|V|条线段,每一条线段均对应当前上下文词与所有负样例的全部的PPMI值之和,
此时除了本身以外,其他词均为负样例,将负实例记为,其中上下文词与负实例的
PPMI 值计算如下:
,其中为先验概率的一个惩罚因子,,,,是在先验条件下的概率,是在先验条件下中心词和上下文词词对的PPMI值,是中心词和上下文词词对的概率,中心词的概
率,中心词的上下文词词集,count表示在给定区域中计算参数列表中的数
字项个数的函数;
步骤309:将上下文窗口进行循环遍历,从第一个上下文词开始,直到第2c个结束;
步骤310:将上下文词进行负采样算法所得到的k个负实例进行循环遍历,从第1个负实例开始,直到第k个负实例结束;
步骤6:进行以下步骤:
步骤601:对中医临床文本词集V进行循环遍历,从V的第一个词开始,直到词集结尾处;
步骤602:把遍历得到的第一个词作为中心词,记为,中心词相临近的上下文词记为
,将中心词和其上下文词组成词对,其中上下文词属于中心词的上下文词
词集,记作,并记录中心词分别与其所有上下文词组成的词对
的出现情况;
,其中为先验概率的一个惩罚因子,,,,是在先验条件下的概率,是在先验条件
下中心词和上下文词词对的PPMI值,是中心词和上下文词词对的
概率,中心词的概率,中心词的上下文词词集,count表示在给定
区域中计算参数列表中的数字项个数的函数;
步骤604:对中医临床文本词集V进行循环遍历,从V的第一个词开始,直到词集结尾处;
步骤607:将中医临床文本词集V中的每个词都分别对应一条长度为1的线段,整个词
集具有|V|条线段,每一条线段均对应当前上下文词与所有负样例的全部的PPMI值之和,
此时除了本身以外,其他词均为负样例,将负实例记为,其中上下文词与负实例的
PPMI 值计算如下:
,其中为先验概率的一个惩罚因子,,,,是在先验条件下的概率,是在先验条件下中心词和上下文词词对的PPMI值,是中心词和上下文词词对的概率,中心词的概
率,中心词的上下文词词集,count表示在给定区域中计算参数列表中的数
字项个数的函数;
步骤608:将上下文窗口进行循环遍历,从第一个上下文词开始,直到第2c个结束;
步骤609:将上下文词进行负采样算法所得到的k个负实例进行循环遍历,从第1个负实例开始,直到第k个负实例结束;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110093066.XA CN112417882A (zh) | 2021-01-25 | 2021-01-25 | 基于迁移学习的中医临床领域词嵌入学习方法及迁移方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110093066.XA CN112417882A (zh) | 2021-01-25 | 2021-01-25 | 基于迁移学习的中医临床领域词嵌入学习方法及迁移方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112417882A true CN112417882A (zh) | 2021-02-26 |
Family
ID=74782984
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110093066.XA Pending CN112417882A (zh) | 2021-01-25 | 2021-01-25 | 基于迁移学习的中医临床领域词嵌入学习方法及迁移方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112417882A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113344868A (zh) * | 2021-05-28 | 2021-09-03 | 山东大学 | 一种基于混合转移学习的无标记细胞分类筛查系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190188263A1 (en) * | 2016-06-15 | 2019-06-20 | University Of Ulsan Foundation For Industry Cooperation | Word semantic embedding apparatus and method using lexical semantic network and homograph disambiguating apparatus and method using lexical semantic network and word embedding |
CN110111337A (zh) * | 2019-04-16 | 2019-08-09 | 中山大学 | 一种基于图迁移学习的通用人体解析框架及其解析方法 |
CN110399595A (zh) * | 2019-07-31 | 2019-11-01 | 腾讯科技(成都)有限公司 | 一种文本信息标注的方法以及相关装置 |
CN111222339A (zh) * | 2020-01-13 | 2020-06-02 | 华南理工大学 | 一种基于对抗多任务学习的医疗咨询命名实体识别方法 |
CN111368087A (zh) * | 2020-03-23 | 2020-07-03 | 中南大学 | 基于多输入注意力网络的中文文本分类方法 |
-
2021
- 2021-01-25 CN CN202110093066.XA patent/CN112417882A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190188263A1 (en) * | 2016-06-15 | 2019-06-20 | University Of Ulsan Foundation For Industry Cooperation | Word semantic embedding apparatus and method using lexical semantic network and homograph disambiguating apparatus and method using lexical semantic network and word embedding |
CN110111337A (zh) * | 2019-04-16 | 2019-08-09 | 中山大学 | 一种基于图迁移学习的通用人体解析框架及其解析方法 |
CN110399595A (zh) * | 2019-07-31 | 2019-11-01 | 腾讯科技(成都)有限公司 | 一种文本信息标注的方法以及相关装置 |
CN111222339A (zh) * | 2020-01-13 | 2020-06-02 | 华南理工大学 | 一种基于对抗多任务学习的医疗咨询命名实体识别方法 |
CN111368087A (zh) * | 2020-03-23 | 2020-07-03 | 中南大学 | 基于多输入注意力网络的中文文本分类方法 |
Non-Patent Citations (6)
Title |
---|
OMER LEVY 等: "Linguistic Regularities in Sparse and ExplicitWord Representations", 《PROCEEDINGS OF THE EIGHTEENTH CONFERENCE ON COMPUTATIONAL LANGUAGE LEARNING》 * |
OMER LEVY 等: "Neural Word Embedding as Implicit Matrix Factorization", 《NIPS14: PROCEEDINGS OF THE 27TH INTERNATIONAL CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS》 * |
刘子晨 等: "基于词法匹配与词嵌入的医疗知识实体上下位关系抽取", 《计算机与数字工程》 * |
於张闲: "迁移学习在健康信息文本处理中的应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
潘俊: "词汇表示学习研究进展", 《情报学报》 * |
蒋云鹏: "基于用户行为序列的推荐算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113344868A (zh) * | 2021-05-28 | 2021-09-03 | 山东大学 | 一种基于混合转移学习的无标记细胞分类筛查系统 |
CN113344868B (zh) * | 2021-05-28 | 2023-08-25 | 山东大学 | 一种基于混合转移学习的无标记细胞分类筛查系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11580646B2 (en) | Medical image segmentation method based on U-Net | |
CN112308158B (zh) | 一种基于部分特征对齐的多源领域自适应模型及方法 | |
CN111444726B (zh) | 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置 | |
CN111241294B (zh) | 基于依赖解析和关键词的图卷积网络的关系抽取方法 | |
CN109871538A (zh) | 一种中文电子病历命名实体识别方法 | |
CN106897559B (zh) | 一种面向多数据源的症状体征类实体识别方法及装置 | |
CN108984526A (zh) | 一种基于深度学习的文档主题向量抽取方法 | |
CN109241255A (zh) | 一种基于深度学习的意图识别方法 | |
CN108628824A (zh) | 一种基于中文电子病历的实体识别方法 | |
CN111967495B (zh) | 一种分类识别模型构建方法 | |
CN108804677A (zh) | 结合多层级注意力机制的深度学习问题分类方法及系统 | |
CN106980609A (zh) | 一种基于词向量表示的条件随机场的命名实体识别方法 | |
CN110969626A (zh) | 基于3d神经网络的人脑核磁共振影像的海马体提取方法 | |
Myronenko et al. | Accounting for dependencies in deep learning based multiple instance learning for whole slide imaging | |
CN107247703A (zh) | 基于卷积神经网络和集成学习的微博情感分析方法 | |
CN110931128B (zh) | 非结构化医疗文本无监督症状自动识别方法、系统、装置 | |
CN109597876A (zh) | 一种基于强化学习的多轮对话答复选择模型及其方法 | |
CN111611877A (zh) | 基于多时空信息融合的抗年龄干扰的人脸识别方法 | |
CN109086794B (zh) | 一种基于t-lda主题模型的驾驶行为模式识方法 | |
CN110866134A (zh) | 一种面向图像检索的分布一致性保持度量学习方法 | |
CN110223712A (zh) | 一种基于双向卷积循环稀疏网络的音乐情感识别方法 | |
CN112883931A (zh) | 基于长短期记忆网络的实时真假运动判断方法 | |
CN113239211A (zh) | 一种基于课程学习的强化学习知识图谱推理方法 | |
CN108920451A (zh) | 基于动态阈值和多分类器的文本情感分析方法 | |
CN108090507A (zh) | 一种基于集成方法的医疗影像纹理特征处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210226 |
|
RJ01 | Rejection of invention patent application after publication |