CN112417882A - 基于迁移学习的中医临床领域词嵌入学习方法及迁移方法 - Google Patents

基于迁移学习的中医临床领域词嵌入学习方法及迁移方法 Download PDF

Info

Publication number
CN112417882A
CN112417882A CN202110093066.XA CN202110093066A CN112417882A CN 112417882 A CN112417882 A CN 112417882A CN 202110093066 A CN202110093066 A CN 202110093066A CN 112417882 A CN112417882 A CN 112417882A
Authority
CN
China
Prior art keywords
word
context
central
ppmi
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110093066.XA
Other languages
English (en)
Inventor
王亚强
靳含
舒红平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu University of Information Technology
Original Assignee
Chengdu University of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu University of Information Technology filed Critical Chengdu University of Information Technology
Priority to CN202110093066.XA priority Critical patent/CN112417882A/zh
Publication of CN112417882A publication Critical patent/CN112417882A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出了一种基于迁移学习的中医临床领域词嵌入学习方法及迁移方法,针对中医临床领域是一个低资源的领域,采用了迁移学习的方法,基于实例的迁移学习扩大了低资源领域的数据资源;基于参数知识的迁移学习能够复用已训练好的模型参数,从而达到加快模型训练和节约训练成本的目的。同时改进了采样的方法,使用了基于PPMI的全局上下文随机负采样来解决中心词的上下文词并非都是真正临近于中心词的问题。

Description

基于迁移学习的中医临床领域词嵌入学习方法及迁移方法
技术领域
本发明涉及自然语言处理领域,尤其涉及基于迁移学习的中医临床领域词嵌入学习方法及迁移方法。
背景技术
在临床医学领域的研究中,对中医临床领域词嵌入的学习有助于对中医临床文本数据信息进行数据挖掘等任务,中医临床领域词嵌入也可应用于疾病预测、临床事件预测、医学概念消除歧义等研究场景。因为临床医学数据由于其隐私性等问题,研究人员无法获得足够大规模的数据训练高质量的词嵌入,甚至用来训练高质量的词嵌入的资源匮乏。
由于中医临床领域是一个低资源领域不能提供大量的具有结构化的领域内数据,所以现有很多研究人员使用一些简单的深度神经网络方法学习中医临床领域词嵌入。例如基于随机负采样的SG模型,也称SGNS模型。其基本思路对于词向量来说,词的语义关系可以通过向量的数学关系来表达。SGNS模型对每个目标词选择周围的上下文词作为正实例,对于每个正实例还选择了k个噪声样本作为负样本,通过词嵌入向量之间的数学关系,将嵌入移向相邻词并远离噪声词。
但实际上,中心词的不同上下文词与中心词的语义距离也是有很大差别的。对于同一中心词的不同上下文词,其对中心词的贡献度是不同的,中心词的上下文词并非都是真正临近于中心词。应当选择那些真正临近中心词的上下文词作为正样本,然后再去选择负样本。
因而,现有技术中主要存在的技术问题在于,当前中医临床领域数据匮乏的条件下如何能学习到高质量的词嵌入的研究,提高中医临床领域词嵌入向量的质量。
发明内容
本发明针对当前中医临床领域数据匮乏的条件下如何能学习到高质量的词嵌入的研究,提供一种利用迁移学习对匮乏的资源做补充的方法,提高中医临床领域词嵌入向量的质量。针对中医临床领域数据的特点,更改了采样方法以及权重的计算方法,以达到提升词嵌入向量质量的目的。
为了解决上述问题,本发明采用以下技术方案:
在基于迁移学习的中医临床领域词嵌入学习方法中,使用了基于PPMI全局上下文随机负采样方法,其具体实现步骤如下:
步骤1:初步选择SGNS模型作为随机负采样模型。
步骤2:设定中医临床文本词集,上下文窗口的大小,步长,负采样的个数的初始值分别为V,2c,η,k。
步骤3:把这些初始值输入到SGNS模型中,引入新的模型参数值
Figure 977606DEST_PATH_IMAGE001
,词向量值E,并 对这两个参数进行随机初始化。
步骤4:对中医临床文本词集V进行循环遍历,从V的第一个词开始,直到词集结尾处。
步骤5:把遍历得到的第一个词作为中心词,记为
Figure 630304DEST_PATH_IMAGE002
,中心词相临近的上下文词记 为
Figure 531264DEST_PATH_IMAGE003
,将中心词
Figure 218597DEST_PATH_IMAGE002
和其上下文词
Figure 546811DEST_PATH_IMAGE003
组成词对
Figure 686805DEST_PATH_IMAGE004
,其中上下文词
Figure 125876DEST_PATH_IMAGE003
属于中心词
Figure 667716DEST_PATH_IMAGE002
的上下 文词词集,记作
Figure 432410DEST_PATH_IMAGE005
。并记录中心词
Figure 59700DEST_PATH_IMAGE002
分别与其所有上下文词组成的词对
Figure 305393DEST_PATH_IMAGE004
的出现情况。
步骤6:计算每一个词对
Figure 701739DEST_PATH_IMAGE004
的正向点互信息值即PPMI值,记作
Figure 371755DEST_PATH_IMAGE006
, 并根据所有词对的PPMI值形成
Figure 486341DEST_PATH_IMAGE006
矩阵。如图1所示,其中
Figure 532794DEST_PATH_IMAGE007
表示纵轴上第i个 词,
Figure 986910DEST_PATH_IMAGE008
表示横轴上第j个词。PPMI值的计算公式如下:
Figure 827827DEST_PATH_IMAGE009
,其中
Figure 429709DEST_PATH_IMAGE010
为先验概率的一个惩罚因子,
Figure 14274DEST_PATH_IMAGE011
Figure 385213DEST_PATH_IMAGE012
Figure 662610DEST_PATH_IMAGE013
Figure 751789DEST_PATH_IMAGE014
Figure 874466DEST_PATH_IMAGE003
在先验条件下的概率,
Figure 99911DEST_PATH_IMAGE015
是在先验条件下中心词和上下文词词对
Figure 548210DEST_PATH_IMAGE004
的PPMI值,
Figure 859105DEST_PATH_IMAGE016
是中心词和上下文词词对
Figure 519894DEST_PATH_IMAGE004
的概率,
Figure 862495DEST_PATH_IMAGE017
中心词
Figure 481695DEST_PATH_IMAGE002
的 概率,
Figure 279887DEST_PATH_IMAGE018
中心词
Figure 9945DEST_PATH_IMAGE002
的上下文词词集,count表示在给定区域中计算参数列表中的 数字项个数的函数;
步骤7:对中医临床文本词集V进行循环遍历,从V的第一个词开始,直到词集结尾处。
步骤8:将遍历得到的第一个词作为中心词
Figure 209983DEST_PATH_IMAGE002
,并将中心词与其组成的所有词对的 PPMI值按递增的顺序排列,形成PPMI值递增序列。
步骤9:预定义PPMI阈值范围:PPMI值递增序列中前20%的上下文词
Figure 937767DEST_PATH_IMAGE019
为负实例, 记作“-”;后80%的上下文词
Figure 19993DEST_PATH_IMAGE020
为正实例,记作“+”。对比
Figure 288163DEST_PATH_IMAGE006
是否是在阈值范围 内,若
Figure 545969DEST_PATH_IMAGE006
在前20%,则将中心词
Figure 506972DEST_PATH_IMAGE002
与上下文词
Figure 279756DEST_PATH_IMAGE003
形成的词对
Figure 86038DEST_PATH_IMAGE004
舍弃,并回到 步骤7。若
Figure 260667DEST_PATH_IMAGE006
不在前20%,进入步骤10;
步骤10:将中医临床文本词集V中的每个词
Figure 392571DEST_PATH_IMAGE002
都分别对应一条长度为1的线段,整个词 集就有|V|条线段。每一条线段都对应了当前上下文词
Figure 652651DEST_PATH_IMAGE003
与所有负样例的全部的PPMI值之 和,此时除了
Figure 262624DEST_PATH_IMAGE003
本身以外,其他词均为负样例。将负实例记为
Figure 291760DEST_PATH_IMAGE021
。其中上下文词
Figure 597495DEST_PATH_IMAGE003
与负实例
Figure 79292DEST_PATH_IMAGE021
的PPMI 值计算如下:
Figure 492956DEST_PATH_IMAGE022
,其中
Figure 579860DEST_PATH_IMAGE010
为先验概率的一个惩罚因子,
Figure 53567DEST_PATH_IMAGE023
Figure 22660DEST_PATH_IMAGE024
Figure 974436DEST_PATH_IMAGE025
Figure 978164DEST_PATH_IMAGE026
Figure 622772DEST_PATH_IMAGE021
在先验条件下的概率,
Figure 79161DEST_PATH_IMAGE027
是在先验条件下中心词和上下文词词对
Figure 100206DEST_PATH_IMAGE028
的PPMI值,
Figure 692862DEST_PATH_IMAGE029
是中心词和上下文词词对
Figure 508371DEST_PATH_IMAGE030
的概率,
Figure 452056DEST_PATH_IMAGE031
中心词
Figure 11214DEST_PATH_IMAGE032
的概 率,
Figure 723955DEST_PATH_IMAGE018
中心词
Figure 444786DEST_PATH_IMAGE002
的上下文词词集,count表示在给定区域中计算参数列表中的数 字项个数的函数;
然后将这条线段映射为长度是1的线段,那么每个词语的长度记作
Figure 872838DEST_PATH_IMAGE033
Figure 173369DEST_PATH_IMAGE034
Figure 6196DEST_PATH_IMAGE035
是当前上下文词
Figure 897928DEST_PATH_IMAGE003
所对应的词集V中的词
Figure 816206DEST_PATH_IMAGE002
,如图2所示, 图中
Figure 717166DEST_PATH_IMAGE036
Figure 138920DEST_PATH_IMAGE037
Figure 263871DEST_PATH_IMAGE038
分别表示整个词集线段中的第一个词、第二个词和第n个词;图中
Figure 607127DEST_PATH_IMAGE039
Figure 108516DEST_PATH_IMAGE040
Figure 650356DEST_PATH_IMAGE041
、m分别表示将线段均分为m个子线段,并标上刻度后的第一个子线段、第二个子线 段、第三个子线段和第m个子线段。
然后用查表的方式,将上述线段标上m个“刻度”,刻度之间的间隔是相等的,即长 度为1/m的m条等长线段,这些线段依次为第
Figure 149470DEST_PATH_IMAGE039
条,第
Figure 776760DEST_PATH_IMAGE040
条至第m条,我们随机生成
Figure 19523DEST_PATH_IMAGE042
之 间的数,在这个刻度尺上查寻就能抽中某个负样本。如图2所示。对上下文词
Figure 415869DEST_PATH_IMAGE003
进行上述采 样,获得了k个负实例,记作
Figure 85885DEST_PATH_IMAGE043
,将中心词
Figure 203401DEST_PATH_IMAGE002
、上下文词
Figure 984275DEST_PATH_IMAGE003
和负实例
Figure 500707DEST_PATH_IMAGE043
组成词对
Figure 341624DEST_PATH_IMAGE044
Figure 146769DEST_PATH_IMAGE045
步骤11:将上下文窗口进行循环遍历,从第一个上下文词开始,直到第2c个结束。
步骤12:将上下文词进行负采样算法所得到的k个负实例进行循环遍历,从第1个负实例开始,直到第k个负实例结束。
步骤13:根据所取的负实例更新模型的参数,记作
Figure 731334DEST_PATH_IMAGE046
步骤14:更新词向量,记作
Figure 102273DEST_PATH_IMAGE047
步骤15:重复步骤7至步骤14的操作,直到模型参数
Figure 114091DEST_PATH_IMAGE001
收敛。
步骤16:输出词汇表中每次词对应的向量参数,即所有词的词向量。
基于迁移学习的中医临床领域词嵌入学习方法中也使用了实例迁移和参数迁移两种方法。在实例迁移方法中使用了跟中医临床领域相关领域的数据集作为迁移的实例。在参数迁移方法中首先使用了中医临床领域相关领域的数据集,训练出一个模型,得到一些模型参数,找出模型中与目标领域相似的部分,再将这些参数作为中医临床领域数据集训练时的先验分布,并将两个数据集的实例作为同一个数据集一起训练出中医临床领域数据集的模型参数。将基于实例迁移和参数迁移两种迁移方法相结合的迁移方法具体实现步骤如下所示:
步骤1:将原有的中医临床领域数据集称作目标领域数据集,记为
Figure 937691DEST_PATH_IMAGE048
Figure 325947DEST_PATH_IMAGE048
的词集记为
Figure 816971DEST_PATH_IMAGE049
,它的模型参数集记为
Figure 999691DEST_PATH_IMAGE001
;将与中医临床领域相关领域的数据集称作源领域,记作
Figure 576165DEST_PATH_IMAGE050
Figure 502533DEST_PATH_IMAGE050
的词集记为
Figure 582485DEST_PATH_IMAGE051
,它的模型参数集记为
Figure 201685DEST_PATH_IMAGE052
步骤2:将源领域数据集
Figure 999877DEST_PATH_IMAGE050
的词集
Figure 750443DEST_PATH_IMAGE051
输入到模型中。并对模型参数值
Figure 684901DEST_PATH_IMAGE052
,词向量值 E这两个参数进行随机初始化。
步骤3:
进行以下步骤:
步骤301:将V,2c,η,k输入到所述SGNS模型中,引入模型参数值
Figure 475002DEST_PATH_IMAGE001
,词向量值E,并对所 述模型参数值
Figure 963753DEST_PATH_IMAGE001
和所述词向量值E进行随机初始化;
步骤302:对中医临床文本词集V进行循环遍历,从V的第一个词开始,直到词集结尾处;
步骤303:把遍历得到的第一个词作为中心词,记为
Figure 231923DEST_PATH_IMAGE002
,中心词相临近的上下文词记为
Figure 286467DEST_PATH_IMAGE003
,将中心词
Figure 247469DEST_PATH_IMAGE002
和其上下文词
Figure 754674DEST_PATH_IMAGE003
组成词对
Figure 826535DEST_PATH_IMAGE004
,其中上下文词
Figure 1165DEST_PATH_IMAGE003
属于中心词
Figure 133069DEST_PATH_IMAGE002
的上下文 词词集,记作
Figure 393149DEST_PATH_IMAGE053
,并记录中心词
Figure 3122DEST_PATH_IMAGE002
分别与其所有上下文词组成的词对
Figure 32257DEST_PATH_IMAGE004
的出现情况;
步骤304:计算每一个词对
Figure 69484DEST_PATH_IMAGE004
的PPMI值,记作
Figure 816860DEST_PATH_IMAGE006
,并根据所有词对的 PPMI值形成
Figure 433786DEST_PATH_IMAGE006
矩阵。如图1所示,其中
Figure 317428DEST_PATH_IMAGE054
表示纵轴上第i个词,
Figure 794065DEST_PATH_IMAGE055
表示横轴上第 j个词。PPMI值的计算公式如下:
Figure 763158DEST_PATH_IMAGE009
,其中
Figure 714933DEST_PATH_IMAGE010
为先验概率的一个惩罚因子,
Figure 984240DEST_PATH_IMAGE011
Figure 363269DEST_PATH_IMAGE012
Figure 819658DEST_PATH_IMAGE013
Figure 309546DEST_PATH_IMAGE014
Figure 433359DEST_PATH_IMAGE003
在先验条件下的概率,
Figure 248869DEST_PATH_IMAGE015
是在先验条件 下中心词和上下文词词对
Figure 192554DEST_PATH_IMAGE004
的PPMI值,
Figure 486132DEST_PATH_IMAGE016
是中心词和上下文词词对
Figure 198873DEST_PATH_IMAGE004
的 概率,
Figure 185284DEST_PATH_IMAGE017
中心词
Figure 616265DEST_PATH_IMAGE002
的概率,
Figure 713534DEST_PATH_IMAGE018
中心词
Figure 280781DEST_PATH_IMAGE002
的上下文词词集,count表示在给定 区域中计算参数列表中的数字项个数的函数;
步骤305:对中医临床文本词集V进行循环遍历,从V的第一个词开始,直到词集结尾处;
步骤306:将遍历得到的第一个词作为中心词
Figure 435164DEST_PATH_IMAGE002
,并将中心词与其组成的所有词对的 PPMI值按递增的顺序排列,形成PPMI值递增序列;
步骤307:预定义PPMI阈值范围:PPMI值递增序列中前20%的上下文词
Figure 353441DEST_PATH_IMAGE019
为负实例,记 作“-”;后80%的上下文词
Figure 988822DEST_PATH_IMAGE020
为正实例,记作“+”;
对比
Figure 879417DEST_PATH_IMAGE006
是否是在阈值范围内,若
Figure 4368DEST_PATH_IMAGE006
在前20%,则将中心词
Figure 347625DEST_PATH_IMAGE002
与 上下文词
Figure 52276DEST_PATH_IMAGE003
形成的词对
Figure 594115DEST_PATH_IMAGE004
舍弃,并回到步骤305;
步骤308:将中医临床文本词集V中的每个词
Figure 93230DEST_PATH_IMAGE002
都分别对应一条长度为1的线段,整个词 集具有|V|条线段,每一条线段均对应当前上下文词
Figure 720520DEST_PATH_IMAGE003
与所有负样例的全部的PPMI值之和, 此时除了
Figure 963283DEST_PATH_IMAGE003
本身以外,其他词均为负样例,将负实例记为
Figure 625208DEST_PATH_IMAGE056
。其中上下文词
Figure 29645DEST_PATH_IMAGE003
与负实例
Figure 409811DEST_PATH_IMAGE056
的 PPMI 值计算如下:
Figure 190685DEST_PATH_IMAGE022
,其中
Figure 910379DEST_PATH_IMAGE010
为先验概率的一个惩罚因子,
Figure 751296DEST_PATH_IMAGE023
Figure 353179DEST_PATH_IMAGE024
Figure 940674DEST_PATH_IMAGE025
Figure 311612DEST_PATH_IMAGE026
Figure 323430DEST_PATH_IMAGE021
在先验条件下的概率,
Figure 147030DEST_PATH_IMAGE027
是在先验条件下中心词和上下文词词对
Figure 535286DEST_PATH_IMAGE028
的PPMI值,
Figure 26310DEST_PATH_IMAGE029
是中心词和上下文词词对
Figure 209030DEST_PATH_IMAGE030
的概率,
Figure 785505DEST_PATH_IMAGE031
中心词
Figure 711872DEST_PATH_IMAGE032
的概 率,
Figure 995086DEST_PATH_IMAGE018
中心词
Figure 614286DEST_PATH_IMAGE002
的上下文词词集,count表示在给定区域中计算参数列表中的数 字项个数的函数;
然后将这条线段映射为长度是1的线段,那么每个词语的长度记作
Figure 412478DEST_PATH_IMAGE033
Figure 876957DEST_PATH_IMAGE034
Figure 342574DEST_PATH_IMAGE035
是当前上下文词
Figure 132675DEST_PATH_IMAGE003
所对应的词集V中的词
Figure 152584DEST_PATH_IMAGE002
,如图2所示, 图中
Figure 889596DEST_PATH_IMAGE036
Figure 944139DEST_PATH_IMAGE037
Figure 636633DEST_PATH_IMAGE038
分别表示整个词集线段中的第一个词、第二个词和第n个词;图中
Figure 409417DEST_PATH_IMAGE039
Figure 746858DEST_PATH_IMAGE040
Figure 655908DEST_PATH_IMAGE041
、m分别表示将线段均分为m个子线段,并标上刻度后的第一个子线段、第二个子线 段、第三个子线段和第m个子线段。
采用查表的方式,将上述线段标上m个刻度,刻度之间的间隔是相等的,得到长度 为1/m的m条等长线段,这些线段依次为第
Figure 787812DEST_PATH_IMAGE039
条,第
Figure 782313DEST_PATH_IMAGE040
条至第m条,随机生成
Figure 657865DEST_PATH_IMAGE042
之间的 数,在这个刻度尺上查寻抽中某个负样本;
步骤309:将上下文窗口进行循环遍历,从第一个上下文词开始,直到第2c个结束;
步骤310:将上下文词进行负采样算法所得到的k个负实例进行循环遍历,从第1个负实例开始,直到第k个负实例结束;
步骤311:根据所取的负实例更新模型的参数,记作
Figure 687001DEST_PATH_IMAGE046
步骤312:更新词向量,记作
Figure 927489DEST_PATH_IMAGE047
步骤313:重复步骤305至步骤312的操作,直到模型参数
Figure 674865DEST_PATH_IMAGE001
收敛;
步骤4:输出源领域数据集
Figure 88529DEST_PATH_IMAGE050
的模型参数集
Figure 237751DEST_PATH_IMAGE052
步骤5:将目标领域数据集
Figure 445878DEST_PATH_IMAGE048
和源领域数据集
Figure 414971DEST_PATH_IMAGE050
的词集
Figure 632326DEST_PATH_IMAGE049
Figure 573737DEST_PATH_IMAGE051
以及源领域数据 集
Figure 218345DEST_PATH_IMAGE050
的模型参数集
Figure 674734DEST_PATH_IMAGE052
输入到模型中。
步骤6:
进行以下步骤:
步骤601:对中医临床文本词集V进行循环遍历,从V的第一个词开始,直到词集结尾处;
步骤602:把遍历得到的第一个词作为中心词,记为
Figure 433130DEST_PATH_IMAGE002
,中心词相临近的上下文词记为
Figure 556944DEST_PATH_IMAGE003
,将中心词
Figure 372453DEST_PATH_IMAGE002
和其上下文词
Figure 50559DEST_PATH_IMAGE003
组成词对
Figure 609717DEST_PATH_IMAGE004
,其中上下文词
Figure 525720DEST_PATH_IMAGE003
属于中心词
Figure 512131DEST_PATH_IMAGE002
的上下文 词词集,记作
Figure 943112DEST_PATH_IMAGE005
。并记录中心词
Figure 40381DEST_PATH_IMAGE002
分别与其所有上下文词组成的词对
Figure 607629DEST_PATH_IMAGE004
的出现情况;
步骤603:计算每一个词对
Figure 30520DEST_PATH_IMAGE004
的PPMI值,记作
Figure 683218DEST_PATH_IMAGE006
,并根据所有词对的 PPMI值形成
Figure 584178DEST_PATH_IMAGE006
矩阵。如图1所示,其中
Figure 271511DEST_PATH_IMAGE007
表示纵轴上第i个词,
Figure 802987DEST_PATH_IMAGE008
表示横轴上第 j个词。PPMI值的计算公式如下:
Figure 942981DEST_PATH_IMAGE009
,其中
Figure 647632DEST_PATH_IMAGE010
为先验概率的一个惩罚因子,
Figure 189471DEST_PATH_IMAGE011
Figure 685656DEST_PATH_IMAGE012
Figure 312947DEST_PATH_IMAGE013
Figure 758971DEST_PATH_IMAGE014
Figure 420897DEST_PATH_IMAGE003
在先验条件下的概率,
Figure 90913DEST_PATH_IMAGE015
是在先验条件下中心词和上下文词词对
Figure 205499DEST_PATH_IMAGE004
的PPMI值,
Figure 251953DEST_PATH_IMAGE016
是中心词和上下文词词对
Figure 768385DEST_PATH_IMAGE004
的概率,
Figure 609302DEST_PATH_IMAGE017
中心词
Figure 945605DEST_PATH_IMAGE002
的 概率,
Figure 326908DEST_PATH_IMAGE018
中心词
Figure 697846DEST_PATH_IMAGE002
的上下文词词集,count表示在给定区域中计算参数列表中的 数字项个数的函数;
步骤604:对中医临床文本词集V进行循环遍历,从V的第一个词开始,直到词集结尾处;
步骤605:将遍历得到的第一个词作为中心词
Figure 709665DEST_PATH_IMAGE002
,并将中心词与其组成的所有词对的 PPMI值按递增的顺序排列,形成PPMI值递增序列;
步骤606:预定义PPMI阈值范围:PPMI值递增序列中前20%的上下文词
Figure 798843DEST_PATH_IMAGE019
为负实例,记 作“-”;后80%的上下文词
Figure 921520DEST_PATH_IMAGE020
为正实例,记作“+”。对比
Figure 117272DEST_PATH_IMAGE006
是否是在阈值范围内, 若
Figure 773029DEST_PATH_IMAGE006
在前20%,则将中心词
Figure 615083DEST_PATH_IMAGE002
与上下文词
Figure 541451DEST_PATH_IMAGE003
形成的词对
Figure 886981DEST_PATH_IMAGE004
舍弃,并回到步 骤604。若
Figure 240602DEST_PATH_IMAGE006
不在前20%,进入步骤607;
步骤607:将中医临床文本词集V中的每个词
Figure 38794DEST_PATH_IMAGE002
都分别对应一条长度为1的线段,整个词 集具有|V|条线段,每一条线段均对应当前上下文词
Figure 768853DEST_PATH_IMAGE003
与所有负样例的全部的PPMI值之和, 此时除了
Figure 765628DEST_PATH_IMAGE003
本身以外,其他词均为负样例,将负实例记为
Figure 293079DEST_PATH_IMAGE056
。其中上下文词
Figure 578567DEST_PATH_IMAGE003
与负实例
Figure 643475DEST_PATH_IMAGE056
的 PPMI 值计算如下:
Figure 901281DEST_PATH_IMAGE022
,其中
Figure 596705DEST_PATH_IMAGE010
为先验概率的一个惩罚因子,
Figure 369489DEST_PATH_IMAGE023
Figure 441350DEST_PATH_IMAGE024
Figure 615979DEST_PATH_IMAGE025
Figure 747883DEST_PATH_IMAGE026
Figure 273543DEST_PATH_IMAGE021
在先验条件下的概率,
Figure 149095DEST_PATH_IMAGE027
是在先验条件下中心词和上下文词词对
Figure 443810DEST_PATH_IMAGE028
的PPMI值,
Figure 746615DEST_PATH_IMAGE029
是中心词和上下文词词对
Figure 756641DEST_PATH_IMAGE030
的概率,
Figure 701463DEST_PATH_IMAGE031
中心词
Figure 585106DEST_PATH_IMAGE032
的概 率,
Figure 58812DEST_PATH_IMAGE018
中心词
Figure 27905DEST_PATH_IMAGE002
的上下文词词集,count表示在给定区域中计算参数列表中的数 字项个数的函数;
然后将这条线段映射为长度是1的线段,那么每个词语的长度记作
Figure 245260DEST_PATH_IMAGE033
Figure 983409DEST_PATH_IMAGE034
Figure 831279DEST_PATH_IMAGE035
是当前上下文词
Figure 287668DEST_PATH_IMAGE003
所对应的词集V中的词
Figure 43135DEST_PATH_IMAGE002
,如图2所示, 图中
Figure 432528DEST_PATH_IMAGE036
Figure 982458DEST_PATH_IMAGE037
Figure 191722DEST_PATH_IMAGE038
分别表示整个词集线段中的第一个词、第二个词和第n个词;图中
Figure 750880DEST_PATH_IMAGE039
Figure 463621DEST_PATH_IMAGE040
Figure 653293DEST_PATH_IMAGE041
、m分别表示将线段均分为m个子线段,并标上刻度后的第一个子线段、第二个子线 段、第三个子线段和第m个子线段。
采用查表的方式,将上述线段标上m个刻度,刻度之间的间隔是相等的,得到长度 为1/m的m条等长线段,这些线段依次为第
Figure 821625DEST_PATH_IMAGE039
条,第
Figure 918894DEST_PATH_IMAGE040
条至第m条,随机生成
Figure 17300DEST_PATH_IMAGE042
之间的 数,在这个刻度尺上查寻抽中某个负样本;
步骤608:将上下文窗口进行循环遍历,从第一个上下文词开始,直到第2c个结束;
步骤609:将上下文词进行负采样算法所得到的k个负实例进行循环遍历,从第1个负实例开始,直到第k个负实例结束;
步骤610:根据所取的负实例更新模型的参数,记作
Figure 174612DEST_PATH_IMAGE046
步骤611:更新词向量,记作
Figure 827310DEST_PATH_IMAGE047
步骤612:重复步骤604至步骤611的操作,直到模型参数
Figure 931533DEST_PATH_IMAGE001
收敛;
步骤7:输出目标领域数据集
Figure 618866DEST_PATH_IMAGE048
的模型参数集
Figure 947079DEST_PATH_IMAGE001
,即目标领域数据集
Figure 87073DEST_PATH_IMAGE048
的词集
Figure 791724DEST_PATH_IMAGE049
中所 有词的词向量。
与现有技术相比,本发明的有益效果是:
本发明所使用的负采样方法,极大的改进了在确定中心词的前提下,如何选择与当前中心词更接近的上下文词;同时也改进了常规负样本的采样方法,使得上下文词能够按照贡献度来确定其权重。本发明也使用了迁移学习中实例迁移和参数迁移的方法,将两者结合解决了中医临床领域数据量匮乏的根本问题。在使用实例迁移和参数迁移解决低资源问题后,同时采用基于PPMI全局上下文随机负采样的方法,有效的提高了中医临床领域这一低资源领域词嵌入向量的质量。
本发明针对中医临床领域是一个低资源领域,采用了迁移学习的方法。基于实例的迁移学习扩大了低资源领域的数据资源;基于参数知识的迁移学习能够复用已训练好的模型参数,从而达到加快模型训练和节约训练成本的目的。同时改进了采样的方法,使用了基于PPMI的全局上下文随机负采样。来解决中心词的上下文词并非都是真正临近于中心词的问题。
本发明采用的迁移学习和基于正向点互信息值(PPMI)的全局上下文随机负采样相结合方法训练中医临床领域词嵌入,有效的提升了中医临床领域词嵌入的质量。对后续的医学领域的研究提供了高质量的词嵌入。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1是本发明中的PPMI矩阵计算图。
图2是本发明中的PPMI值映射为线段随机采样图。
图3是本发明中的基于PPMI随机负采样结果图。
图4是本发明中的基于点互信息不随机负采样结果图。
图5是本发明中的基于全局的上下文选择的SGNS结果对比图。
图6是本发明中的SGNS、MIX1、MIX2的CMCSM值柱状图。
图7是本发明中的对比实验图。
图8是本发明中的实验结果柱状图。
图9是本发明中的结合基于实例与基于参数知识实验结果柱状图。
图10是本发明中的对比实验结果图。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
现在结合说明书附图对本发明做进一步的说明。
在基于PPMI全局上下文随机负采样方法的实验中,选用中医临床记录文本作为任务场景,实验数据主要分为两个部分,
1)中医临床记录数据集,简称TCM。
2)中医树形概念树,简称TC。
TCM来源于一个实际的中医临床记录数据集,该数据集是由中医专家在2006年4月至2008年6月间的日常诊断过程中收集的,样例数据如表1所示,本发明研究的是中医临床记录中的中医概念词嵌入向量,所以只使用临床记录这个部分的数据,其中包含33301条实例条临床记录,每条实例都已做好分词预处理。如,其中一行中的分词包括:腹泻 大便 3次, 咳嗽,喉痒,鼻出热气,潮热,身软,背冷痛,头昏眼花,胃痛,肠鸣,下肢软,肛门坠,手心烧,口干饮水多,小便多,苔黄,舌红,脉细。其中一行的分词包括:咽喉不适,早晨喉干,有痰,白稠,气紧,动则汗出,苔薄黄,舌红。
表1 临床记录示例表
Figure 333564DEST_PATH_IMAGE057
TC数据集来源于中医概念树公开数据,包含3617条实例,即3617个概念树中的概念,概念树分为3层,如表2所示。
表2 概念树数据集示例表
Figure 832678DEST_PATH_IMAGE058
实验任务是使用基于PPMI的随机负采样方法进行采样通过TCM数据集训练得到TC数据 集,中医学概念树数中的概念的词嵌入向量,并通过CMCSM评估方法来度量训练最终得到的 概念的词嵌入向量的质量。实验结果如图3所示,其中PPMI with SGNS表示使用基于PPMI的 随机负采样方法的SGNS模型。其中CMCSM可由
Figure 459969DEST_PATH_IMAGE059
计算。其中CMCSM代表概念树中的概念词 的词嵌入向量的质量程度,N代表包含的词概念的组数,
Figure 905994DEST_PATH_IMAGE060
代表该组内包含的词概念个数, j、k代表是当前组的第j、k个词,
Figure 833498DEST_PATH_IMAGE061
代表当前词
Figure 503514DEST_PATH_IMAGE062
Figure 618101DEST_PATH_IMAGE063
的相似度。同组内中医概念 的相似度越高,说明组内的概念相关度就越高,这也跟概念树的组内概念关系是一致的,所 以CMCSM也就可以用来度量中医临床文本记录的概念词词嵌入向量的质量。
基于PPMI的随机负采样相比于初始的SGNS,CMCSM值略有提升,但提升效果不是很明显,说明在该实验任务场景下,点互信息权重的随机负采样与词频权重的随机负采样差别不明显。
在上面实验的基础上,以基于点互信息的负采样方法来进行采样,不进行随机,直接选取PPMI值最小的作为负样例。实验结果如图4所示,其中PPMI with SGNS表示使用基于PPMI的随机负采样方法的SGNS模型,PPMI with SGNS不随机表示使用基于PPMI的不随机负采样方法的SGNS模型。
基于点互信息的负采样相比于初始的SGNS,CMCSM值有较高的值的提升,比起基于PPMI的随机负采样提升的要更多,说明在该实验任务场景下,点互信息越小的确实越不相关,负采样得到与当前上下文词更不相关的词更利于词嵌入向量质量的提升。
仔细观察两组实验,发现在数据量大的时候,点互信息的提升效果要比数据量小的时候多。造成上述实验提升不明显的原因,有可能是在低资源领域的训练数据集时,词与词之间的相关性差别不明显,因此点互信息的权重作用不明显。
在形成中心词上下文词对后,舍弃掉一部分词对。实验结果如图5所示,PPMI withSGNS表示使用基于PPMI的随机负采样方法的SGNS模型,PPMI with SGNS不随机表示使用基于PPMI的不随机负采样方法的SGNS模型,全局PPMI with SGNS不随机表示使用基于全局上下文PPMI的不随机负采样方法的SGNS模型。
实验的CMCSM值有很大提高。但是对比前三组实验提高的程度,我们发现数据量少的组通过全局上下文选择舍弃掉部分词对后提高最大,但是有理由怀疑是否是过滤后的特征空间过于小了,导致了过拟合。实验结果表明,全局的上下文选择对于词嵌入向量的质量有显著提高。
在基于实例迁移学习的试验中引入了两个数据集,一个是通用领域数据集,简称为UM;一个是西医临床医学文本,简称WM。UM来源于一个实际的医学生活网站爬取的自制数据集,本文研究的是中医临床记录中的中医概念词嵌入向量,所以只使用网页正文的这个部分的数据,其中包含16538条实例。每条实例都已做好分词预处理。WM来源于实际的西医临床记录数据集,其中包含78661条实例条临床记录,每条实例都已做好分词预处理,如表3所示。
表3 WM 数据集示例表
Figure 661624DEST_PATH_IMAGE064
将UM与TCM混合成为新的MIX1数据集,将WM与TCM混合成为新的MIX2数据集,分别统计出MIX1,MIX2的CMCSM值。以传统的SNGS的CMCSM值结果作为基准线,得到的实验结果CMCSM值如图6所示,详细数据结果如表4所示。
表4 基于实例迁移学习结果
Figure 912477DEST_PATH_IMAGE065
通过表4可以发现,MIX1,MIX2所包含的TC中的概念数,均有所增加,说明UM,WM都包含可以利用于TCM词嵌入向量学习的实例,这与使用迁移学习的理论相符。通过柱状图可以发现,相对于SGNS,MIX1,MIX2,CMCSM均有提高,说明基于实例的迁移和基于参数知识的迁移都对词嵌入向量的质量有所提高。同时,结合表4结果可以发现,MIX1,MIX2所包含在TC的概念树的中的概念词均有增多,说明通用领域中和相关领域中均包含了概念词,有效的扩大了目标领域的数据量。而MIX1使用的词数与总词频数均高于比MIX2的,但是同样作为基于实例的迁移,MIX2的CMCSM值比MIX1的高了0.1548,这个值接近MIX1的CMCSM值的2倍。将基于PPMI的不随机负采样方法也结合迁移学习与它本身,作为一组实验,将基于全局的PPMI不随机负采样方法结合迁移学习与它本身,作为一组对比实验,实验结果如图7和图8所示。在图7中,PPMI with SGNS不随机表示使用基于PPMI的不随机负采样方法的SGNS模型,MIX2PPMI with SGNS不随机表示在MIX2数据集上使用基于PPMI的不随机负采样方法的SGNS模型,全局PPMI with SGNS不随机表示使用基于全局上下文PPMI的不随机负采样方法的SGNS模型,全局MIX2 PPMI with SGNS不随机表示在MIX2数据集上使用基于全局上下文PPMI的不随机负采样方法的SGNS模型。
实验结果表明,两组的结果均有提升,说明迁移学习方法的可泛化性,在基于PPMI不随机负采样的SGNS模型中,迁移学习提供更多的实例,使得基于PPMI负采样得到的负实例,更接近真实的负实例,在参数更新的时候,使用这些更接近真实的负实例,使得参数更新得更准确。
在同时使用实例迁移和参数迁移的实验中使用的数据集与仅使用实例迁移的实验数据集相同。将WM先通过SGNS训练所得的参数模型,作为TCM数据集SGNS模型训练的初始先验经验,得到词嵌入向量,作为MIX3。实验结果如表5和图7所示。
表5 实验结果表
Figure 18973DEST_PATH_IMAGE066
通过表5可以发现,SGNS, MIX3在包含概念数,使用词数,总词频数均与传统的SGNS模型这个基准线一致,却少于MIX1,MIX2。CMCSM值高于传统的SGNS的,说明基于参数知识迁移学习,确实贡献了一部分有效的先验分布。
通过表1可以发现MIX3的CMCSM值的提高程度不如MIX2,说明MIX3迁移的参数没有MIX2迁移实例知识对模型训练提供的贡献大。分析原因,SGNS模型的迭代停止条件是参数收敛,不再变化,基于参数的知识迁移提供了先验参数,使得参数更新减少了一段更新时间,节约了时间和设备成本,但是那些没有提供到先验知识的中心词的词向量由于更新次数的减少,没有达到更接近真实分布。
在此基础上,将MIX2与MIX3相结合,将基于实例的迁移与基于参数知识迁移学习相结合,即依旧使用MIX2作为训练数据,但将WM先通过SGNS训练所得的参数,作为MIX2数据集SGNS模型训练的初始先验经验,实验结果如表6所示。
表6 基于两种迁移学习结合实验对比结果
Figure 620856DEST_PATH_IMAGE067
通过表6可以发现,MIX2+ MIX3在包含概念数,使用词数,总词频数均与传统的MIX2一致,但CMCSM值却比MIX2高0.0716,是4种实验方案之中最高的,但CMCSM提高值却并不等于MIX3,说明两种迁移学习方法提供的可用知识是有部分重合。
通过柱状图9发现,两种迁移学习方法结合使用效果最好,也从侧面说明基于参数的知识迁移并没有将所有可共享知识迁移给目标领域,基于参数知识的迁移学习和基于实例的参数学习,它们都贡献了自己在源领域的知识,有些知识是不重合的。
通过柱状图10发现,两种迁移学习方法对比在数据参数量较大,模型更新较久的实验组,表现出提升效果更好。在图10中,PPMI with SGNS不随机表示使用基于PPMI的不随机负采样方法的SGNS模型,MIX2 PPMI with SGNS不随机表示在MIX2数据集上使用基于PPMI的不随机负采样方法的SGNS模型,全局PPMI with SGNS不随机表示使用基于全局上下文PPMI的不随机负采样方法的SGNS模型,全局MIX2 PPMI with SGNS不随机表示在MIX2数据集上使用基于全局上下文PPMI的不随机负采样方法的SGNS模型,MIX3 PPMI with SGNS不随机表示在MIX3数据集上使用基于全局上下文PPMI的不随机负采样方法的SGNS模型,全局MIX3 PPMI with SGNS不随机表示在MIX3数据集上使用基于全局上下文PPMI的不随机负采样方法的SGNS模型。
以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (2)

1.一种基于迁移学习的中医临床领域词嵌入学习方法,其特征在于,包括以下步骤:
步骤1:选择SGNS模型作为随机负采样模型;
步骤2:设定中医临床文本词集,上下文窗口的大小,步长,负采样的个数的初始值分别为V,2c,η,k;
步骤3:将V,2c,η,k输入到所述SGNS模型中,引入模型参数值
Figure 486767DEST_PATH_IMAGE001
,词向量值E,并对所述模 型参数值
Figure 872749DEST_PATH_IMAGE001
和所述词向量值E进行随机初始化;
步骤4:对中医临床文本词集V进行循环遍历,从V的第一个词开始,直到词集结尾处;
步骤5:把遍历得到的第一个词作为中心词,记为
Figure 121328DEST_PATH_IMAGE002
,中心词相临近的上下文词记为
Figure 985379DEST_PATH_IMAGE003
, 将中心词
Figure 268592DEST_PATH_IMAGE002
和其上下文词
Figure 559896DEST_PATH_IMAGE003
组成词对
Figure 295771DEST_PATH_IMAGE004
,其中上下文词
Figure 963513DEST_PATH_IMAGE003
属于中心词
Figure 101233DEST_PATH_IMAGE002
的上下文词词 集,记作
Figure 563439DEST_PATH_IMAGE005
;并记录中心词
Figure 786609DEST_PATH_IMAGE002
分别与其所有上下文词组成的词对
Figure 992463DEST_PATH_IMAGE004
的 出现情况;
步骤6:计算每一个词对
Figure 781427DEST_PATH_IMAGE004
的PPMI值,记作
Figure 677184DEST_PATH_IMAGE006
,并根据所有词对的PPMI 值形成
Figure 387651DEST_PATH_IMAGE006
矩阵,PPMI值的计算公式如下:
Figure 131616DEST_PATH_IMAGE007
,其中
Figure 243928DEST_PATH_IMAGE008
为先验概率的一个惩罚因子,
Figure 47936DEST_PATH_IMAGE009
Figure 245699DEST_PATH_IMAGE010
Figure 793355DEST_PATH_IMAGE011
Figure 760174DEST_PATH_IMAGE012
Figure 663DEST_PATH_IMAGE003
在先验条件下的概率,
Figure 154563DEST_PATH_IMAGE013
是在先验条件下中心词和上下文词词对
Figure 505910DEST_PATH_IMAGE004
的PPMI值,
Figure 327236DEST_PATH_IMAGE014
是中心词和上下文词词对
Figure 738626DEST_PATH_IMAGE004
的概率,
Figure 442139DEST_PATH_IMAGE015
中心词
Figure 331598DEST_PATH_IMAGE002
的 概率,中心词
Figure 855300DEST_PATH_IMAGE002
的上下文词词集,count表示在给定区域中计算参数列表中的 数字项个数的函数;
步骤7:对中医临床文本词集V进行循环遍历,从V的第一个词开始,直到词集结尾处;
步骤8:将遍历得到的第一个词作为中心词
Figure 980864DEST_PATH_IMAGE002
,并将中心词与其组成的所有词对的PPMI 值按递增的顺序排列,形成PPMI值递增序列;
步骤9:预定义PPMI阈值范围:PPMI值递增序列中前20%的上下文词
Figure 674013DEST_PATH_IMAGE018
为负实例,记作 “-”;后80%的上下文词
Figure 204352DEST_PATH_IMAGE019
为正实例,记作“+”;对比
Figure 957544DEST_PATH_IMAGE006
是否是在阈值范围内,若
Figure 635650DEST_PATH_IMAGE006
在前20%,则将中心词
Figure 132490DEST_PATH_IMAGE002
与上下文词
Figure 782915DEST_PATH_IMAGE003
形成的词对
Figure 441429DEST_PATH_IMAGE004
舍弃,并回到步骤 7;若
Figure 544514DEST_PATH_IMAGE006
不在前20%,进入步骤10;
步骤10:将中医临床文本词集V中的每个词
Figure 579466DEST_PATH_IMAGE002
都分别对应一条长度为1的线段,整个词 集就有|V|条线段,每一条线段都对应了当前上下文词
Figure 349976DEST_PATH_IMAGE003
与所有负样例的全部的PPMI值之 和,此时除了
Figure 976130DEST_PATH_IMAGE003
本身以外,其他词均为负样例,将负实例记为
Figure 832090DEST_PATH_IMAGE020
,其中上下文词
Figure 670733DEST_PATH_IMAGE003
与负实例
Figure 30170DEST_PATH_IMAGE020
的PPMI 值计算如下:
Figure 296067DEST_PATH_IMAGE021
,其中
Figure 108165DEST_PATH_IMAGE008
为先验概率的一个惩罚因子,
Figure 750499DEST_PATH_IMAGE022
Figure 227092DEST_PATH_IMAGE023
Figure 460627DEST_PATH_IMAGE024
Figure 25601DEST_PATH_IMAGE025
Figure 206046DEST_PATH_IMAGE020
在先验条件下的概率,
Figure 274496DEST_PATH_IMAGE026
是在先验条件下中心词和上下文词词对
Figure 882195DEST_PATH_IMAGE027
的PPMI值,
Figure 731203DEST_PATH_IMAGE028
是中心词和上下文词词对
Figure 449760DEST_PATH_IMAGE029
的概率,
Figure 903875DEST_PATH_IMAGE030
中心词
Figure 682475DEST_PATH_IMAGE031
的概 率,中心词
Figure 478710DEST_PATH_IMAGE002
的上下文词词集,count表示在给定区域中计算参数列表中的数 字项个数的函数;
然后将这条线段映射为长度是1的线段,那么每个词语的长度记作
Figure 787332DEST_PATH_IMAGE032
Figure 736833DEST_PATH_IMAGE033
Figure 498116DEST_PATH_IMAGE034
是当前上下文词
Figure 620792DEST_PATH_IMAGE003
所对应的词集V中的词
Figure 783920DEST_PATH_IMAGE002
采用查表的方式,将上述线段标上m个刻度,刻度之间的间隔是相等的,得到长度为1/m 的m条等长线段,这些线段依次为第
Figure 904323DEST_PATH_IMAGE035
条,第
Figure 418481DEST_PATH_IMAGE036
条至第m条,随机生成
Figure 279602DEST_PATH_IMAGE037
之间的数,在这 个刻度尺上查寻抽中某个负样本;
步骤11:将上下文窗口进行循环遍历,从第一个上下文词开始,直到第2c个结束;
步骤12:将上下文词进行负采样算法所得到的k个负实例进行循环遍历,从第1个负实例开始,直到第k个负实例结束;
步骤13:根据所取的负实例更新模型的参数,记作
Figure 297237DEST_PATH_IMAGE038
步骤14:更新词向量,记作
Figure 588541DEST_PATH_IMAGE039
步骤15:重复步骤7至步骤14的操作,直到模型参数
Figure 324416DEST_PATH_IMAGE001
收敛;
步骤16:输出词汇表中每次词对应的向量参数,获得所有词的词向量。
2.一种基于迁移学习的中医临床领域词迁移方法,其特征在于,包括实例迁移和参数迁移两种迁移方法,具体实现步骤包括:
步骤1:将原有的中医临床领域数据集标记为目标领域数据集,记为
Figure 992157DEST_PATH_IMAGE040
Figure 864299DEST_PATH_IMAGE040
的词集记为
Figure 592083DEST_PATH_IMAGE041
,其模型参数集记为
Figure 815254DEST_PATH_IMAGE001
将与中医临床领域相关领域的数据集标记为源领域,记作
Figure 21107DEST_PATH_IMAGE042
Figure 292295DEST_PATH_IMAGE042
的词集记为
Figure 456560DEST_PATH_IMAGE043
,其模 型参数集记为
Figure 901448DEST_PATH_IMAGE044
步骤2:将源领域数据集
Figure 114255DEST_PATH_IMAGE042
的词集
Figure 226567DEST_PATH_IMAGE043
输入到随机负采样模型中,并对模型参数值
Figure 30575DEST_PATH_IMAGE044
,词 向量值E这两个参数进行随机初始化;
步骤3:进行以下步骤:
步骤301:将V,2c,η,k输入到SGNS模型中,引入模型参数值
Figure 228339DEST_PATH_IMAGE001
,词向量值E,并对所述模型 参数值
Figure 572732DEST_PATH_IMAGE001
和所述词向量值E进行随机初始化;
步骤302:对中医临床文本词集V进行循环遍历,从V的第一个词开始,直到词集结尾处;
步骤303:把遍历得到的第一个词作为中心词,记为
Figure 539551DEST_PATH_IMAGE002
,中心词相临近的上下文词记为
Figure 514460DEST_PATH_IMAGE003
,将中心词
Figure 199520DEST_PATH_IMAGE002
和其上下文词
Figure 550867DEST_PATH_IMAGE003
组成词对
Figure 106613DEST_PATH_IMAGE004
,其中上下文词
Figure 518003DEST_PATH_IMAGE003
属于中心词
Figure 424779DEST_PATH_IMAGE002
的上下文词 词集,记作
Figure 110975DEST_PATH_IMAGE045
,并记录中心词
Figure 52386DEST_PATH_IMAGE002
分别与其所有上下文词组成的词对
Figure 389606DEST_PATH_IMAGE004
的 出现情况;
步骤304:计算每一个词对
Figure 518099DEST_PATH_IMAGE004
的PPMI值,记作
Figure 211248DEST_PATH_IMAGE006
,并根据所有词对的 PPMI值形成
Figure 803904DEST_PATH_IMAGE006
矩阵,PPMI值的计算公式如下:
Figure 557096DEST_PATH_IMAGE007
,其中
Figure 438464DEST_PATH_IMAGE008
为先验概率的一个惩罚因子,
Figure 404146DEST_PATH_IMAGE009
Figure 54571DEST_PATH_IMAGE010
Figure 978664DEST_PATH_IMAGE011
Figure 144066DEST_PATH_IMAGE012
Figure 179018DEST_PATH_IMAGE003
在先验条件下的概率,
Figure 683949DEST_PATH_IMAGE013
是在先验条件 下中心词和上下文词词对
Figure 513365DEST_PATH_IMAGE004
的PPMI值,
Figure 369325DEST_PATH_IMAGE014
是中心词和上下文词词对
Figure 942389DEST_PATH_IMAGE004
的 概率,
Figure 364143DEST_PATH_IMAGE015
中心词
Figure 630040DEST_PATH_IMAGE002
的概率,中心词
Figure 84472DEST_PATH_IMAGE002
的上下文词词集,count表示在给定 区域中计算参数列表中的数字项个数的函数;
步骤305:对中医临床文本词集V进行循环遍历,从V的第一个词开始,直到词集结尾处;
步骤306:将遍历得到的第一个词作为中心词
Figure 561065DEST_PATH_IMAGE002
,并将中心词与其组成的所有词对的 PPMI值按递增的顺序排列,形成PPMI值递增序列;
步骤307:预定义PPMI阈值范围:PPMI值递增序列中前20%的上下文词
Figure 997862DEST_PATH_IMAGE018
为负实例,记作 “-”;后80%的上下文词
Figure 359574DEST_PATH_IMAGE019
为正实例,记作“+”;
对比
Figure 274440DEST_PATH_IMAGE006
是否是在阈值范围内,若
Figure 874049DEST_PATH_IMAGE006
在前20%,则将中心词
Figure 216168DEST_PATH_IMAGE002
与上 下文词
Figure 268438DEST_PATH_IMAGE003
形成的词对
Figure 986995DEST_PATH_IMAGE004
舍弃,并回到步骤305;
步骤308:将中医临床文本词集V中的每个词
Figure 441110DEST_PATH_IMAGE002
都分别对应一条长度为1的线段,整个词 集具有|V|条线段,每一条线段均对应当前上下文词
Figure 16448DEST_PATH_IMAGE003
与所有负样例的全部的PPMI值之和, 此时除了
Figure 556014DEST_PATH_IMAGE003
本身以外,其他词均为负样例,将负实例记为
Figure 78262DEST_PATH_IMAGE046
,其中上下文词
Figure 121304DEST_PATH_IMAGE003
与负实例
Figure 70806DEST_PATH_IMAGE046
的 PPMI 值计算如下:
Figure 832089DEST_PATH_IMAGE021
,其中
Figure 158028DEST_PATH_IMAGE008
为先验概率的一个惩罚因子,
Figure 117893DEST_PATH_IMAGE022
Figure 238296DEST_PATH_IMAGE023
Figure 486875DEST_PATH_IMAGE024
Figure 347996DEST_PATH_IMAGE025
Figure 365631DEST_PATH_IMAGE020
在先验条件下的概率,
Figure 922514DEST_PATH_IMAGE026
是在先验条件下中心词和上下文词词对
Figure 455126DEST_PATH_IMAGE027
的PPMI值,
Figure 857289DEST_PATH_IMAGE028
是中心词和上下文词词对
Figure 729430DEST_PATH_IMAGE029
的概率,
Figure 457214DEST_PATH_IMAGE030
中心词
Figure 414806DEST_PATH_IMAGE031
的概 率,中心词
Figure 675203DEST_PATH_IMAGE002
的上下文词词集,count表示在给定区域中计算参数列表中的数 字项个数的函数;
然后将这条线段映射为长度是1的线段,那么每个词语的长度记作
Figure 308310DEST_PATH_IMAGE032
Figure 753198DEST_PATH_IMAGE033
Figure 762742DEST_PATH_IMAGE034
是当前上下文词
Figure 609475DEST_PATH_IMAGE003
所对应的词集V中的词
Figure 679062DEST_PATH_IMAGE002
采用查表的方式,将上述线段标上m个刻度,刻度之间的间隔是相等的,得到长度为1/m 的m条等长线段,这些线段依次为第
Figure 611246DEST_PATH_IMAGE035
条,第
Figure 221219DEST_PATH_IMAGE036
条至第m条,随机生成
Figure 188038DEST_PATH_IMAGE037
之间的数,在这 个刻度尺上查寻抽中某个负样本;
步骤309:将上下文窗口进行循环遍历,从第一个上下文词开始,直到第2c个结束;
步骤310:将上下文词进行负采样算法所得到的k个负实例进行循环遍历,从第1个负实例开始,直到第k个负实例结束;
步骤311:根据所取的负实例更新模型的参数,记作
Figure 897368DEST_PATH_IMAGE038
步骤312:更新词向量,记作
Figure 579498DEST_PATH_IMAGE039
步骤313:重复步骤305至步骤312的操作,直到模型参数
Figure 930845DEST_PATH_IMAGE001
收敛;
步骤4:输出源领域数据集
Figure 548908DEST_PATH_IMAGE042
的模型参数集
Figure 694718DEST_PATH_IMAGE044
步骤5:将目标领域数据集
Figure 601495DEST_PATH_IMAGE040
和源领域数据集
Figure 490953DEST_PATH_IMAGE042
的词集
Figure 166785DEST_PATH_IMAGE041
Figure 749076DEST_PATH_IMAGE043
以及源领域数据集
Figure 939886DEST_PATH_IMAGE042
的模型参数集
Figure 633036DEST_PATH_IMAGE044
输入到模型中;
步骤6:进行以下步骤:
步骤601:对中医临床文本词集V进行循环遍历,从V的第一个词开始,直到词集结尾处;
步骤602:把遍历得到的第一个词作为中心词,记为
Figure 163374DEST_PATH_IMAGE002
,中心词相临近的上下文词记为
Figure 916566DEST_PATH_IMAGE003
,将中心词
Figure 532356DEST_PATH_IMAGE002
和其上下文词
Figure 29196DEST_PATH_IMAGE003
组成词对
Figure 476358DEST_PATH_IMAGE004
,其中上下文词
Figure 400452DEST_PATH_IMAGE003
属于中心词
Figure 769116DEST_PATH_IMAGE002
的上下文词 词集,记作
Figure 538489DEST_PATH_IMAGE005
,并记录中心词
Figure 43420DEST_PATH_IMAGE002
分别与其所有上下文词组成的词对
Figure 935152DEST_PATH_IMAGE004
的出现情况;
步骤603:计算每一个词对
Figure 522604DEST_PATH_IMAGE004
的PPMI值,记作
Figure 361247DEST_PATH_IMAGE006
,并根据所有词对的 PPMI值形成
Figure 720684DEST_PATH_IMAGE006
矩阵,PPMI值的计算公式如下:
Figure 986580DEST_PATH_IMAGE007
,其中
Figure 860995DEST_PATH_IMAGE008
为先验概率的一个惩罚因子,
Figure 237750DEST_PATH_IMAGE009
Figure 717273DEST_PATH_IMAGE010
Figure 888491DEST_PATH_IMAGE011
Figure 453465DEST_PATH_IMAGE012
Figure 633910DEST_PATH_IMAGE003
在先验条件下的概率,
Figure 30257DEST_PATH_IMAGE013
是在先验条件 下中心词和上下文词词对
Figure 637956DEST_PATH_IMAGE004
的PPMI值,
Figure 159067DEST_PATH_IMAGE014
是中心词和上下文词词对
Figure 143203DEST_PATH_IMAGE004
的 概率,
Figure 597318DEST_PATH_IMAGE015
中心词
Figure 375919DEST_PATH_IMAGE002
的概率,中心词
Figure 968891DEST_PATH_IMAGE002
的上下文词词集,count表示在给定 区域中计算参数列表中的数字项个数的函数;
步骤604:对中医临床文本词集V进行循环遍历,从V的第一个词开始,直到词集结尾处;
步骤605:将遍历得到的第一个词作为中心词
Figure 11933DEST_PATH_IMAGE002
,并将中心词与其组成的所有词对的 PPMI值按递增的顺序排列,形成PPMI值递增序列;
步骤606:预定义PPMI阈值范围:PPMI值递增序列中前20%的上下文词
Figure 958505DEST_PATH_IMAGE018
为负实例,记作 “-”;后80%的上下文词
Figure 985367DEST_PATH_IMAGE019
为正实例,记作“+”;
对比
Figure 45727DEST_PATH_IMAGE006
是否是在阈值范围内,若
Figure 271172DEST_PATH_IMAGE006
在前20%,则将中心词
Figure 391575DEST_PATH_IMAGE002
与上 下文词
Figure 640153DEST_PATH_IMAGE003
形成的词对
Figure 504204DEST_PATH_IMAGE004
舍弃,并回到步骤604,若
Figure 521839DEST_PATH_IMAGE006
不在前20%,进入步骤 607;
步骤607:将中医临床文本词集V中的每个词
Figure 813143DEST_PATH_IMAGE002
都分别对应一条长度为1的线段,整个词 集具有|V|条线段,每一条线段均对应当前上下文词
Figure 549017DEST_PATH_IMAGE003
与所有负样例的全部的PPMI值之和, 此时除了
Figure 13497DEST_PATH_IMAGE003
本身以外,其他词均为负样例,将负实例记为
Figure 151217DEST_PATH_IMAGE046
,其中上下文词
Figure 347843DEST_PATH_IMAGE003
与负实例
Figure 571014DEST_PATH_IMAGE046
的 PPMI 值计算如下:
Figure 42447DEST_PATH_IMAGE021
,其中
Figure 831411DEST_PATH_IMAGE008
为先验概率的一个惩罚因子,
Figure 464518DEST_PATH_IMAGE022
Figure 909406DEST_PATH_IMAGE023
Figure 918950DEST_PATH_IMAGE024
Figure 562421DEST_PATH_IMAGE025
Figure 629079DEST_PATH_IMAGE020
在先验条件下的概率,
Figure 561262DEST_PATH_IMAGE026
是在先验条件下中心词和上下文词词对
Figure 108918DEST_PATH_IMAGE027
的PPMI值,
Figure 810158DEST_PATH_IMAGE028
是中心词和上下文词词对
Figure 50647DEST_PATH_IMAGE029
的概率,
Figure 266864DEST_PATH_IMAGE030
中心词
Figure 618211DEST_PATH_IMAGE031
的概 率,中心词
Figure 585347DEST_PATH_IMAGE002
的上下文词词集,count表示在给定区域中计算参数列表中的数 字项个数的函数;
然后将这条线段映射为长度是1的线段,那么每个词语的长度记作
Figure 492123DEST_PATH_IMAGE032
Figure 443899DEST_PATH_IMAGE033
Figure 119731DEST_PATH_IMAGE034
是当前上下文词
Figure 702022DEST_PATH_IMAGE003
所对应的词集V中的词
Figure 96094DEST_PATH_IMAGE002
采用查表的方式,将上述线段标上m个刻度,刻度之间的间隔是相等的,得到长度为1/m 的m条等长线段,这些线段依次为第
Figure 789244DEST_PATH_IMAGE035
条,第
Figure 319582DEST_PATH_IMAGE036
条至第m条,随机生成
Figure 807195DEST_PATH_IMAGE037
之间的数,在这 个刻度尺上查寻抽中某个负样本;
步骤608:将上下文窗口进行循环遍历,从第一个上下文词开始,直到第2c个结束;
步骤609:将上下文词进行负采样算法所得到的k个负实例进行循环遍历,从第1个负实例开始,直到第k个负实例结束;
步骤610:根据所取的负实例更新模型的参数,记作
Figure 688564DEST_PATH_IMAGE038
步骤611:更新词向量,记作
Figure 982142DEST_PATH_IMAGE039
步骤612:重复步骤604至步骤611的操作,直到模型参数
Figure 629636DEST_PATH_IMAGE001
收敛;
步骤7:输出目标领域数据集
Figure 553730DEST_PATH_IMAGE040
的模型参数集
Figure 391236DEST_PATH_IMAGE001
,即目标领域数据集
Figure 426188DEST_PATH_IMAGE040
的词集
Figure 196698DEST_PATH_IMAGE041
中所有 词的词向量。
CN202110093066.XA 2021-01-25 2021-01-25 基于迁移学习的中医临床领域词嵌入学习方法及迁移方法 Pending CN112417882A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110093066.XA CN112417882A (zh) 2021-01-25 2021-01-25 基于迁移学习的中医临床领域词嵌入学习方法及迁移方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110093066.XA CN112417882A (zh) 2021-01-25 2021-01-25 基于迁移学习的中医临床领域词嵌入学习方法及迁移方法

Publications (1)

Publication Number Publication Date
CN112417882A true CN112417882A (zh) 2021-02-26

Family

ID=74782984

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110093066.XA Pending CN112417882A (zh) 2021-01-25 2021-01-25 基于迁移学习的中医临床领域词嵌入学习方法及迁移方法

Country Status (1)

Country Link
CN (1) CN112417882A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113344868A (zh) * 2021-05-28 2021-09-03 山东大学 一种基于混合转移学习的无标记细胞分类筛查系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190188263A1 (en) * 2016-06-15 2019-06-20 University Of Ulsan Foundation For Industry Cooperation Word semantic embedding apparatus and method using lexical semantic network and homograph disambiguating apparatus and method using lexical semantic network and word embedding
CN110111337A (zh) * 2019-04-16 2019-08-09 中山大学 一种基于图迁移学习的通用人体解析框架及其解析方法
CN110399595A (zh) * 2019-07-31 2019-11-01 腾讯科技(成都)有限公司 一种文本信息标注的方法以及相关装置
CN111222339A (zh) * 2020-01-13 2020-06-02 华南理工大学 一种基于对抗多任务学习的医疗咨询命名实体识别方法
CN111368087A (zh) * 2020-03-23 2020-07-03 中南大学 基于多输入注意力网络的中文文本分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190188263A1 (en) * 2016-06-15 2019-06-20 University Of Ulsan Foundation For Industry Cooperation Word semantic embedding apparatus and method using lexical semantic network and homograph disambiguating apparatus and method using lexical semantic network and word embedding
CN110111337A (zh) * 2019-04-16 2019-08-09 中山大学 一种基于图迁移学习的通用人体解析框架及其解析方法
CN110399595A (zh) * 2019-07-31 2019-11-01 腾讯科技(成都)有限公司 一种文本信息标注的方法以及相关装置
CN111222339A (zh) * 2020-01-13 2020-06-02 华南理工大学 一种基于对抗多任务学习的医疗咨询命名实体识别方法
CN111368087A (zh) * 2020-03-23 2020-07-03 中南大学 基于多输入注意力网络的中文文本分类方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
OMER LEVY 等: "Linguistic Regularities in Sparse and ExplicitWord Representations", 《PROCEEDINGS OF THE EIGHTEENTH CONFERENCE ON COMPUTATIONAL LANGUAGE LEARNING》 *
OMER LEVY 等: "Neural Word Embedding as Implicit Matrix Factorization", 《NIPS14: PROCEEDINGS OF THE 27TH INTERNATIONAL CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS》 *
刘子晨 等: "基于词法匹配与词嵌入的医疗知识实体上下位关系抽取", 《计算机与数字工程》 *
於张闲: "迁移学习在健康信息文本处理中的应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
潘俊: "词汇表示学习研究进展", 《情报学报》 *
蒋云鹏: "基于用户行为序列的推荐算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113344868A (zh) * 2021-05-28 2021-09-03 山东大学 一种基于混合转移学习的无标记细胞分类筛查系统
CN113344868B (zh) * 2021-05-28 2023-08-25 山东大学 一种基于混合转移学习的无标记细胞分类筛查系统

Similar Documents

Publication Publication Date Title
US11580646B2 (en) Medical image segmentation method based on U-Net
CN112308158B (zh) 一种基于部分特征对齐的多源领域自适应模型及方法
CN111444726B (zh) 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置
CN111241294B (zh) 基于依赖解析和关键词的图卷积网络的关系抽取方法
CN109871538A (zh) 一种中文电子病历命名实体识别方法
CN106897559B (zh) 一种面向多数据源的症状体征类实体识别方法及装置
CN108984526A (zh) 一种基于深度学习的文档主题向量抽取方法
CN109241255A (zh) 一种基于深度学习的意图识别方法
CN108628824A (zh) 一种基于中文电子病历的实体识别方法
CN111967495B (zh) 一种分类识别模型构建方法
CN108804677A (zh) 结合多层级注意力机制的深度学习问题分类方法及系统
CN106980609A (zh) 一种基于词向量表示的条件随机场的命名实体识别方法
CN110969626A (zh) 基于3d神经网络的人脑核磁共振影像的海马体提取方法
Myronenko et al. Accounting for dependencies in deep learning based multiple instance learning for whole slide imaging
CN107247703A (zh) 基于卷积神经网络和集成学习的微博情感分析方法
CN110931128B (zh) 非结构化医疗文本无监督症状自动识别方法、系统、装置
CN109597876A (zh) 一种基于强化学习的多轮对话答复选择模型及其方法
CN111611877A (zh) 基于多时空信息融合的抗年龄干扰的人脸识别方法
CN109086794B (zh) 一种基于t-lda主题模型的驾驶行为模式识方法
CN110866134A (zh) 一种面向图像检索的分布一致性保持度量学习方法
CN110223712A (zh) 一种基于双向卷积循环稀疏网络的音乐情感识别方法
CN112883931A (zh) 基于长短期记忆网络的实时真假运动判断方法
CN113239211A (zh) 一种基于课程学习的强化学习知识图谱推理方法
CN108920451A (zh) 基于动态阈值和多分类器的文本情感分析方法
CN108090507A (zh) 一种基于集成方法的医疗影像纹理特征处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210226

RJ01 Rejection of invention patent application after publication