CN111160020A - 一种具有多种子模块信息的中文词向量生成方法 - Google Patents

一种具有多种子模块信息的中文词向量生成方法 Download PDF

Info

Publication number
CN111160020A
CN111160020A CN201911172979.XA CN201911172979A CN111160020A CN 111160020 A CN111160020 A CN 111160020A CN 201911172979 A CN201911172979 A CN 201911172979A CN 111160020 A CN111160020 A CN 111160020A
Authority
CN
China
Prior art keywords
word
model
character
sub
context
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911172979.XA
Other languages
English (en)
Other versions
CN111160020B (zh
Inventor
朱鹏
程大伟
杨芳洲
罗轶凤
钱卫宁
周傲英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Guandian Technology Co Ltd
East China Normal University
Original Assignee
Shanghai Guandian Technology Co Ltd
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Guandian Technology Co Ltd, East China Normal University filed Critical Shanghai Guandian Technology Co Ltd
Priority to CN201911172979.XA priority Critical patent/CN111160020B/zh
Publication of CN111160020A publication Critical patent/CN111160020A/zh
Application granted granted Critical
Publication of CN111160020B publication Critical patent/CN111160020B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明提出了一种具有多种子模块信息的中文词向量生成方法,其特点是采用包括单词、字符、部首、成分、字形和拼音的六种子模块信息与注意力机制融合方法,以学习改进的汉字嵌入表示形式,将其融合到具有适当权重的词嵌入中,生成高精度的词向量。本发明与现有技术相比具有根据注意机制为每种子模块信息分配适当的权重,以减少语义含义较少的子模块的权重,提高子模块的权重,具有更丰富语义含义的模块,改善了中文单词嵌入,实现了可观的性能提升。

Description

一种具有多种子模块信息的中文词向量生成方法
技术领域
本发明涉及自然语言处理技术领域,尤其是一种具有多种子模块信息的中文词向量生成方法。
背景技术
近年来,多个分布式表示,即词嵌入,基于深度神经网络的模型已经提出这为上游NLP任务奠定了坚实的基础,例如命名实体识别、文本分类、机器翻译、问题解答等,正确表达单词是自然语言处理(NLP)的最基本任务,其他正在进行的NLP任务的执行取决于单词的表示方式。传统的词嵌入方法着重于根据词的上下文来学习词的表示形式信息,并且这些方法对于IndoEuropean语言(在其书写系统中使用拉丁文字)有效。但是,对于汉藏语言,学习单词仅基于上下文信息的表示可能会省略一些重要的语义信息。这些语言中的单词通常由多个字符组成,每个字符还可以由多个字符组成笔画级子模块,其中包含丰富的语义信息可以学习以补充单词的表示形式。但是,此类信息实际上不仅被传统的词嵌入模型忽视,例如Word2vec、GloVe、WordRank和fastText,还被最新的词嵌入模型忽视,例如GPT、ELMo和BERT。
目前,为了提高中文水平词嵌入,已经开始整合字符级别和笔画级子模块信息。但是,这些方法要么只考虑一种子模块信息,而忽略其他一些重要的子模块信息,要么对某些利用的多种子模块信息给予同等的权重,即使某些子模块信息不是那么紧密与单词的语义有关。因此,表达某种语义含义的重要子模块信息没有正确地嵌入到最终的单词表示中,否则可以进一步提高表示的准确性。
现有技术的嵌入方法往往会给所使用的子模块以相等的权重,但平等对待子模块可能会使不太重要的信息强化,使重要的信息弱化,影响生成出来的词向量的精度。
发明内容
本发明的目的是针对现有技术的不足而设计的一种具有多种子模块信息的中文词向量生成方法,采用多种子模块信息与注意力机制融合方法,从而学习词语、汉字、部首、组件、字形和拼音中包含的信息,将其融合到具有适当权重的词嵌入中,生成的词向量精度高,有效解决了以相等权重对待子模块信息,使不太重要的信息强化,使重要的信息弱化的问题,为中文词向量的生成和应用工作提供了一个新的解决方案。
本发明的目的是这样实现的:一种具有多种子模块信息的中文词向量生成方法,具体操作步骤如下:
步骤1,背景和定义阶段:对词向量的背景以及在训练词向量的一些基本定义;
步骤2,模型定义阶段:采用包含六种子模块的ICWE模型,通过这些子模块的组合,基于注意力机制以学习改进的中文单词嵌入信息,所述每一子模块的信息中都隐含了一个中文单词的语义;所述ICWE模型为输入层、投影层、注意层和输出层构成的前馈神经网络;所述六种子模块分别为:上下文单词、字符、部首、组件、字形和拼音子模块;
步骤3,实验阶段:用于评估模型的基本实验设置,包括训练语料库,参数设置,基线模型以及评估任务和数据集。
上述步骤1所述背景和定义阶段的具体步骤如下:
a、在中文中字符是具有自己含义的书写系统的基本标志,一个单词通常由多个字符组成,并表达一个单词的完整含义,字符与各种字符形成信息相关联,例如组件,部首和字形,所述字符可以进一步分为多个有意义的组成部分,并且这些组成部分之一可以被视为部首;所述部首传达了字符的词汇含义,表示有关该字符与什么相关的一些提示信息,并且多个字符可以共享相同的部首,表示该含义这些字符与相同的提示相关信息,例如,包含偏旁“目”的字符的含义通常与眼睛相关,而包含偏旁“钅”的字符的含义通常与金属相关;所述字形告诉所包含的组件如何在结构上进行组合,以用相似的形状描述相应的概念;此外,拼音还可以告诉人物的发音方式,这通常与人物中某些成分的发音保持一致,因此它也与人物的语义密切相关。
b、使用q个句子将训练语料库D表示为:D =(s1;s2;…;sq),将目标单词的上下文窗口大小表示为t,对于句子中的单词wi,将wi上下文词落入上下文窗口的序列表示为:Wi=(wi-t;wi+1;…;wi+1;wi+t),其上下文词中包含的wi上下文字符序列,如Chai =(chai1;…;chaim);包含在上下文字符中的上下文组件序列为:Comi =(comi1;…;comil);包含在上下文字符中的上下文偏旁序列为:Ri =(ri1;…;rik);上下文字符中包含的上下文字形序列当Gi =(gi1;…;gis)时,其上下文字符的拼音序列为:Pi =(pi1;; pio)。此外,分别将wi上下文词、字符、部首、组件和拼音子模块的向量分别表示为:(vwi-t;vwi-1;…;vwi+1;vwi+t)、(vchai1;…;vchaim)、(vri1;…;vrik)、(vcomi1;…;vcomil)、(vgi1;…;vgis)和(vpi1;…;vpio)。
上述步骤2所述模型定义阶段的具体步骤如下:
a、输入和投影层:对于单词wi,首先将与所有上下文子模块关联的嵌入向量与随机初始化的值一起输入到输入层,然后随着模型训练的发展对嵌入向量进行更新。在投影层中,每种上下文子模块都会生成一个隐藏状态,其中一种上下文子模块的隐藏状态计算为的输入向量的平均值上下文子模块,将投影层中对应于上下文单词、字符、部首、成分、字形和拼音的隐藏状态分别表示为:hi_1、hi_2、hi_3、hi_4、hi_5和hi_6。
b、注意力层:对于单词wi分别获得了hi_1,hi_2,hi_3,hi_4,hi_5和hi_6六个不同子模块隐藏的嵌入,然后,在注意层中将这些嵌入适当地组合在一起,以生成wi的整体隐藏嵌入,其中每个隐藏嵌入都分配有适当的权重,从而表明此类子模块信息对于表达整体语义的重要性,为不同种类的子模块信息分配适当的权重可以减少子模块的权重语义含义,并以更丰富的语义含义增强子模块的权重,从而避免使用不太重要的信息来控制单词的语义含义。
c、在输出层中ICWE模型计算通过注意机制获得的目标单词wi在其整体隐藏状态下出现的对数似然,对于给定的主体语料D,ICWE模型的目标是使每个语料D’句子中包含的所有单词的总对数似然性最大化,可通过遵循CBOW模型中实现的负采样方法来优化此目标函数,所述负采样是一种用于提高训练速度的方法并提高单词嵌入的质量,除了更新所有训练样本的权重之外,负采样仅更新所有权重的一小部分,以减少梯度下降计算的计算量。当整个优化过程完成后可以获取语料库中每个不同单词的最终输出向量,同时还可以获得所有不同子模块的最终嵌入表示,所述子模块最初是随机向量。
上述步骤3所述实验阶段的具体步骤如下:
a、训练语料库:在1.1 GB的Wikipedia数据集上训练模型,该数据集包含2019年2月2日转储的所有中文Wikipedia文章,首先使用Gensim工具包将下载的压缩文件转换为文本格式,然后通过OpenCC工具包将所有字符标准化为简体中文字符,保留Unicode值介于0x4E00和0x9FA5之间的汉字,丢弃其他字符后使用Jieba工具包将文本分割成单词。
b、子模块来源:从训练语料库中,可以从单词的上下文中获取中文单词的单词和字符子模块,进一步使用JWE模型的组件字典和部首字典来获取单词的字符形成子模块,以进行模型训练,对于字形子模块,由于没有可用的开源字形字典,使用了GWE模型训练有素的字形嵌入,因此仅需调整权重以将字符的字形嵌入合并到通过模型训练进行单词嵌入,而不是针对目标汉字训练新的字形嵌入;对于拼音子模块使用python包pypinyin中包含的拼音字典,并且可以通过调用pypinyin接口来获取字符的拼音子模块;在获得语料库中包含的所有目标词的子模块之后,训练模型以相应地生成最终单词嵌入和子模块嵌入。
c、参数设定:设定了一些用于模型训练的实验参数,其中参考了各种子模块的词汇量和嵌入量纲大小、训练批次大小、关注层大小、目标函数优化和学习率,此外,在不考虑它们的子模块信息的情况下,训练了包含在语料库中的音译词的嵌入,例如“沙发(sofa)”和“咖啡(coffee)等”,因为从这些词中获得的语义信息很少子模块。
d、基准模型:评估了以下五个模型,并将它们与ICWE模型进行比较,这些基准模型包括:Word2vec模型中选择了CBOW模型实现作为该发明的基准模型;CWE模型将字符级信息组合到中文单词嵌入中;SCWE模型将从其他语言中提取的语义信息组合到单词嵌入中;JWE模型从组件和部首中提取语义信息以改善单词嵌入;cw2vec模型使用笔划级别的信息来改进单词嵌入。
e、评估任务:通过基准化词嵌入的准确性,评估了ICWE模型在两个常见任务,即词相似性任务和词类比任务上的性能;词相似度任务旨在评估单词嵌入反映两个单词之间的语义接近度和相关性的能力,单词对的相似度得分计算为Spearman等级相关系数;选择两个汉字数据集进行相似性评估,即wordsim-240和wordsim-296数据集,其wordim-240数据集中所有单词都包含在训练语料库中,而wordim-296中的两个单词不包含在训练语料库中,所以从标准wordim-296数据集中删除了这两个单词,得到了wordim-294数据集;词类比任务检查词嵌入推断不同词对之间语义关系的能力,给定两对单词,一个单词类比测试试图确定是否从一个单词对反映的语义关系类似于另一个单词对的语义关系,如果两个单词对的两个语义间隔之间的距离小于给定的阈值,则将两个单词对中的一个视为另一个单词对的类比。使用常用的中文单词类比数据集,该数据集包含1124个测试实例,其每个测试实例包含从三个类比类别之一中选择的两对单词:例如,“城市”(677个元组)、“州”(175个元组)和“家庭”(272个元组),所有测试实例中包含的所有单词都包含在该发明的训练语料库中。
本发明与现有技术相比具有如下有益的技术效果:
1)ICWE通过融合多种子模块信息来学习改进的中文单词嵌入,其中根据注意机制为每种子模块信息分配适当的权重;
2)采用包括单词、字符、部首、成分、字形和拼音的六种子模块信息,以学习改进的汉字嵌入表示形式;
3)ICWE采用中文单词嵌入方法,它试图从众多子模块中丰富单词的语义;
4)采用注意力机制融合各种语义信息,为不同种类的子模块信息分配适当的权重,以减少语义含义较少的子模块的权重,提高子模块的权重,具有更丰富语义含义的模块;
5)使用三个公共数据集上的两个NLP任务评估了本发明的模型,实验结果表明,本发明与五个基准模型相比大大改善了中文单词嵌入,并实现了可观的性能提升。
附图说明
图1为本发明的模型架构图;
图2为“智慧”这个词的六种子模块示意图;
图3为本发明的实验参数设置示意图;
图4为在单词相似性任务上的表现效果图;
图5为在单词类比任务上的表现效果图;
图6为ICWE通过使用注意力层和平均层实现的性能对比效果图;
图7为ICWE通过使用繁体中文字符中包含的组件信息和简体字中包含的组件实现的性能效果对比图;
图8为具有单词子模块的基本设置中的实验效果图;
图9为拼音和组件子模块分别添加到两个基本设置中的实验效果图。
具体实施方式
通过以下具体实施例对本发明作进一步的详细说明。
实施例1
参阅附图1,本发明按下述步骤进行中文词向量的生成,具体操作步骤如下:
步骤1,背景和定义阶段:说明了词向量的背景以及在本发明中训练词向量的一些基本定义,其具体步骤如下:
a、在中文中字符是具有自己含义的书写系统的基本标志,一个单词通常由多个字符组成,并表达一个单词的完整含义,所述字符与各种字符形成信息相关联,例如组件,部首和字形,字符可以进一步分为多个有意义的组成部分,并且这些组成部分之一可以被视为部首;所述部首传达了字符的词汇含义,表示有关该字符与什么相关的一些提示信息,并且多个字符可以共享相同的部首,表示该含义这些字符与相同的提示相关信息,例如,包含偏旁“目”的字符的含义通常与眼睛相关,而包含偏旁“钅”的字符的含义通常与金属相关;所述字形告诉所包含的组件如何在结构上进行组合,以用相似的形状描述相应的概念;此外,拼音还可以告诉人物的发音方式,这通常与人物中某些成分的发音保持一致,因此它也与人物的语义密切相关。
b、使用q个句子将训练语料库D表示为:D =(s1;s2;…;sq),将目标单词的上下文窗口大小表示为t,对于句子中的单词wi,将wi上下文词落入上下文窗口的序列表示为:Wi=(wi-t;wi+1;…;wi+1;wi+t),上下文词中包含的wi上下文字符序列,如Chai =(chai1;…;chaim),包含在上下文字符中的上下文组件序列为:Comi =(comi1;…;comil),包含在上下文字符中的上下文偏旁序列为:Ri =(ri1;…;rik),上下文字符中包含的上下文字形序列当Gi =(gi1;…;gis)时,上下文字符的拼音序列为:Pi =(pi1;; pio)。此外,将wi上下文词、字符、部首、组件和拼音子模块的向量分别表示为:(vwi-t;vwi-1;…;vwi+1;vwi+t)、(vchai1;…;vchaim)、(vri1;…;vrik)、(vcomi1;…;vcomil)、(vgi1;…;vgis)和(vpi1;…;vpio)。
参阅附图2,例如:智慧这个词的向量可以用智慧的单词、字符、偏旁、组件部分,以及智慧的拼音“zhi hui”,再加上字形这些信息表示的词向量。
步骤2,模型定义阶段:采用包含:上下文单词、字符、部首、成分、字形和拼音子模块的ICWE模型,这六种子模块信息中的每一种都隐含了一个中文单词的语义,通过适当组合这些子模块,基于注意力机制以学习改进的中文单词嵌入信息,所述每一子模块的信息中都隐含了一个中文单词的语义;所述ICWE模型为输入层、投影层、注意层和输出层构成的前馈神经网络; 所述步骤2的具体步骤如下:
a、输入和投影层:对于单词wi,首先将与所有上下文子模块关联的嵌入向量与随机初始化的值一起输入到输入层,随着模型训练的发展对嵌入向量进行更新;在投影层中,每种上下文子模块都会生成一个隐藏状态,其中一种上下文子模块的隐藏状态计算为的输入向量的平均值上下文子模块,将投影层中对应于上下文单词、字符、部首、成分、字形和拼音的隐藏状态分别以hi_1、hi_2、hi_3、hi_4、hi_5和hi_6表示。
b、注意力层:对于单词wi,六个不同的子模块获得了hi_1、hi_2、hi_3、hi_4、hi_5和hi_6六个隐藏的嵌入,并在注意层中将这些嵌入适当地组合在一起,以生成wi的整体隐藏嵌入,其中每个隐藏嵌入都分配有适当的权重,从而表明此类子模块信息对于表达整体语义的重要性以及这个词的意思,为不同种类的子模块信息分配适当的权重可以减少子模块的权重语义含义,并以更丰富的语义含义增强子模块的权重,从而避免使用不太重要的信息来控制单词的语义含义。
c、在输出层中ICWE首先计算通过注意机制获得的目标单词wi在其整体隐藏状态下出现的对数似然,对于给定的主体语料D,ICWE的目标是使每个语料D’句子中包含的所有单词的总对数似然性最大化,可以通过遵循CBOW模型中实现的负采样方法来优化此目标函数,所述负采样是一种用于提高训练速度的方法并提高单词嵌入的质量,除了更新所有训练样本的权重之外,负采样仅更新所有权重的一小部分,以减少梯度下降计算的计算量,整个优化过程完成后,可以获取语料库中每个不同单词的最终输出向量。除了随着整个优化过程的结束,还可以获得所有不同子模块的最终嵌入表示,这些子模块最初是随机向量。
步骤3,实验阶段:设置用于评估模型的基本实验设置,包括训练语料库、参数设置、基准模型以及评估任务和数据集,其具体步骤如下:
a、训练语料库:在1.1 GB的Wikipedia数据集上训练模型,该数据集包含2019年2月2日转储的所有中文Wikipedia文章,使用Gensim工具包将下载的压缩文件转换为文本格式,然后通过OpenCC工具包将所有字符标准化为简体中文字符,保留Unicode值介于0x4E00和0x9FA5之间的汉字,其他字符将被丢弃后,使用Jieba工具包将文本分割成单词。
b、子模块来源:从训练语料库中,从单词的上下文中获取中文单词的单词和字符子模块,使用JWE的组件字典和部首字典来获取单词的字符形成子模块并进行模型训练;对于字形子模块由于没有可用的开源字形字典,使用了GWE训练有素的字形嵌入,仅需调整权重以将字符的字形嵌入合并到通过模型训练进行单词嵌入,而不是针对目标汉字训练新的字形嵌入;对于拼音子模块使用python包pypinyin中包含的拼音字典,并通过调用pypinyin接口来获取字符的拼音子模块,在获得语料库中包含的所有目标词的子模块之后,训练模型以相应地生成最终单词嵌入和子模块嵌入。
c、参数设定:设定一些用于模型训练的实验参数,其中参考了各种子模块的词汇量和嵌入量纲大小、训练批次大小、关注层大小以及目标函数优化和学习率,在不考虑它们的子模块信息的情况下,训练了包含在语料库中的音译词的嵌入,例如“沙发(sofa)”和“咖啡(coffee)等”,因为从这些词中获得的语义信息很少子模块。
d、基准模型: 采用 CBOW、CWE、SCWE、JWE和cw2vec五种基准模型对本发明中的ICWE模型进行评估,所述CBOW是从Word2vec选择;所述CWE将字符级信息组合到中文单词嵌入中;所述SCWE将从其他语言中提取的语义信息组合到中文单词嵌入中;所述JWE从组件和部首中提取语义信息以改善中文单词嵌入;所述cw2vec使用笔划级别的信息改善中文单词嵌入;
e、评估任务:通过基准化词嵌入的准确性,评估了模型在两个常见任务,即词相似性任务和词类比任务上的性能,所述词相似度单词相似度任务旨在评估单词嵌入反映两个单词之间的语义接近度和相关性的能力,单词对的相似度得分计算为Spearman等级相关系数,选择两个汉字数据集进行相似性评估,即wordsim-240和wordsim-296数据集;所述wordim-240中的所有单词都包含在训练语料库中,而wordim-296中的两个单词不包含在该发明的训练语料库中,所以在标准wordim-296数据集中删除了这两个单词,得到的wordim-294数据集;所述词类比词类比任务检查词嵌入推断不同词对之间语义关系的能力,给定两对单词,一个单词类比测试试图确定是否从一个单词对反映的语义关系类似于另一个单词对的语义关系,如果两个单词对的两个语义间隔之间的距离小于给定的阈值,则将两个单词对中的一个视为另一个单词对的类比。本发明使用常用的中文单词类比数据集,该数据集包含1124个测试实例,每个测试实例包含从三个类比类别之一中选择的两对单词,例如:“城市”(677个元组)、“州”(175个元组)和“家庭”(272个元组),所有测试实例中包含的所有单词都包含在该发明的训练语料库中。
参考附图3,设置训练模型的一些参数,其中单词数量为200000;字符数量为50000;部首数量为300;组件数量为14000;字形数量为9000;拼音数量为500;单词向量维度为128;字符向量维度为128;部首向量维度为128;组件向量维度为128;字形向量维度为128;拼音向量维度为128;训练时批处理的向量为128;注意力层神经元的个数为128;训练时优化方法采用SGD,学习率是0.1。
本发明对ICWE模型和五个基准模型实现的总体性能进行了比较和基准测试,其实验效果如下:
参阅附图4,在单词相似任务上,ICWE模型取得了显著的改善,在所有的基准模型中,CBOW模型实现了最低的性能,cw2vec模型实现了最佳的性能,而ICWE模型在两个数据集上都超过了CBOW模型0.1的差距,并且也远远超过了cw2vec模型,CBOW模型之所以达到最低的性能,是因为它没有考虑中文词本身所包含的语义信息,只考虑了词的上下文信息。包括ICWE模型在内的其他模型通过将包含在中文单词本身中的语义信息嵌入到最终的单词嵌入中来获得更好的性能。
参阅附图5,在单词类比任务上,ICWE模型也优于所有基线模型,并且使用从ICWE模型学习的中文单词表示可以更好地推断不同单词对之间的语义关系。可以看出ICWE模型的表现领先于其他模式,特别是JWE模型以明显的优势领先。ICWE模型优于所有基准模型的原因是,包含在多个子模块中的信息通过注意机制正确地集成到最终单词嵌入中,进一步验证了本发明的动机。
参考附图6,在单词相似性和单词类比任务上,使用注意力层的效果要好于使用平均层的效果。其背后的原因是,注意机制的确协调了不同种类的子模块信息以形成最终的词嵌入,可以让不那么重要的子模块占小的权重,让重要的子模块占大的权重,从而产生更好的词向量。不同种类的子模块包含不同的信息,有的信息起重要作用,而有的信息基本不起作用。因此,在将其信息嵌入最终词表示形式时,应该区分所考虑的子模块,注意力机制可以发挥作用。为了验证注意力机制如何影响最终文字嵌入,用平均层替换注意力层,而其他实验设置未发生变化。
汉字是象形文字,而繁体汉字保留的象形文字信息要比简体字多,汉字是传统汉字中包含的许多原始的和复杂的象形文字成分,被简化为更简单的成分,甚至简化了的汉字也删除了某些成分,以便于书写和传播。因此,可以从相同汉字的不同版本,相同组件的各种简化和复杂版本中学习各种语义信息。为了验证组件版本如何影响最终中文单词嵌入后,本发明对用传统汉字替换简体汉字时ICWE模型的性能变化进行了基准测试。
参阅附图7,在两个任务上使用繁体汉字的效果明显好于使用简体字,其原因是传统字符中包含的原始复杂成分确实可以提供更丰富的语义信息,并且帮助改善单词嵌入。
本发明采用包括:上下文单词、字符、部首、组件、字形和拼音的六种子模块信息来改进中文单词的嵌入,而每种子模块信息所发挥的作用是多种多样的,为了验证每种子模块如何影响最终的表示结果,该发明对当将这些子模块信息与注意层进行增量组合以训练词嵌入时,ICWE模型的性能变化进行了基准测试。在这里,选择“子模块”一词作为最基本的基准设置,因为它包含的信息比其他种类的子模块要丰富得多,然后,一个接一个地添加其他种类的子模块,
参阅附图8,分别列出了ICWE模型的总体性能和性能提升,值得注意的是,本发明使用繁体中文字符来获取组件子模块,可以看到,随着越来越多的子模块信息逐渐组合在一起进行训练,总体性能稳步提高,并且ICWE在这六种子模块信息中均达到了最佳性能。这样做的原因很简单,因为将更多的语义信息嵌入到单词嵌入中,并且组合了更多的子模块信息。但是,在不同的评估任务和数据集之间,相同种类的子模块带来的性能改进并不一致。可以看到,一些新组合的子模块可能比其他一些子模块在评估任务上产生更多的性能改进,而在其他评估任务上却产生较少的性能改进。例如,拼音子模块在词相似性评估任务的WS-240数据集上产生最大的性能改进,而在词类比评估任务上产生次少的性能改进;字形子模块在词相似性评估任务的WS-240数据集,而产生最少的性能提升类比评估任务。此外,还可以看到,即使在同一评估任务的不同数据集上,也会出现相似的不一致情况。因此,无法正确判断哪种子模块包含更重要的语义信息,并且无法在多个评估任务和数据集之间产生更大的性能改进,其背后的原因主要有两个方面。一方面,这些多种子模块信息是彼此不独立,但相互关联彼此之间的相互影响,从而抑制了随后组合用于单词表示的子模块的效果,因为它们所包含的语义信息已与先前的子模块部分地嵌入其中。另一方面,语义信息是从不同的种类的子模块对于不同的评估任务和数据集具有不同的重要性,因此,相同类型的子模块在各种评估任务和数据集中,信息可能无法始终如一地产生比其他子模块更好的性能提升。
为了进一步验证事实,多种子模块信息是耦合且相互关联的,本发明对拼音子模块和组件子模块分别添加到两个基本基准设置,即设置I和设置II中的拼音子模块和组件子模块如何影响ICWE的性能进行了基准测试,其中单词,字符和字形子模块是包括在设置I中,包括单词,字符和部首的子模块,包括在设置II中。
参阅附图9,可以看到,与设置I相比,设置II的拼音子模块和组件子模块的性能增量更大,这意味着拼音中包含的语义信息子模块和组件子模块在不同程度上与其他子模块耦合并相互关联。此外,通过两个基本设置,在所有评估任务上,组件子模块都比拼音子模块产生更大的性能提升,这意味着组件子模块中包含的语义信息更有用,以提高ICWE模型的绩效。值得注意的是,拼音子模块和组件子模块在逐渐逐渐提高性能时,与它们带来的性能提升不一致结合单词子模块,可能的原因是,同一个子模块被组合到具有不同权重的词嵌入中,因此最终的词嵌入中包含的总体语义信息在具有不同基本基准设置的情况下变化很大,其中某些子模块信息被压低,一些子模块信息被增强。
以上仅为本发明最佳实施例,但本发明专利的保护范围并不限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明专利构思加以等同替换或改变,都属于本发明转来的保护范围。

Claims (4)

1.一种具有多种子模块信息的中文词向量生成方法,其特征在于按下述步骤进行中文词向量的生成:
步骤1,背景和定义阶段:对词向量的背景以及在训练词向量的一些基本定义;
步骤2,模型定义阶段:采用包括:上下文单词、字符、部首、组件、字形和拼音子模块的ICWE模型,通过这些子模块的组合,基于注意力机制以学习改进的中文单词嵌入信息,所述每一子模块的信息中都隐含了一个中文单词的语义;所述ICWE模型为输入层、投影层、注意层和输出层构成的前馈神经网络;
步骤3,实验阶段:用于评估模型的基本实验设置,包括训练语料库、参数设置、基准模型以及评估任务和数据集。
2.根据权利要求1所述具有多种子模块信息的中文词向量生成方法,其特征在于所述背景和定义阶段的具体步骤如下:
步骤1.1,在中文中字符是具有自己含义的书写系统的基本标志,一个单词通常由多个字符组成,并表达一个单词的完整含义,字符与各种字符形成组件、部首和字形的信息相关联,所述字符为多个有意义的组成部分,并且这些组成部分之一可以被视为部首;所述部首传达了字符的词汇含义,表示有关该字符与什么相关的一些提示信息,并且多个字符可以共享相同的部首,表示该含义这些字符与相同的提示相关信息;所述字形告诉所包含的组件如何在结构上进行组合,以用相似的形状描述相应的概念,以及拼音与人物的语义密切相关;
步骤1.2,采用q个句子将训练语料库D表示为D =(s1;s2;…;sq),将目标单词的上下文窗口大小表示为t;对于句子中的单词wi,将wi上下文词落入上下文窗口的序列表示为:Wi =(wi-t;wi+1;…;wi+1;wi+t),上下文词中包含的wi上下文字符序列,包含在上下文字符中的上下文组件序列为:Comi =(comi1;…;comil),包含在上下文字符中的上下文偏旁序列为:Ri =(ri1;…;rik);上下文字符中包含的上下文字形序列当Gi =(gi1;…;gis)时,上下文字符的拼音序列为:Pi =(pi1;; pio);将wi上下文词、字符、部首、组件和拼音子模块的向量分别表示为:(vwi-t;vwi-1;…;vwi+1;vwi+t)、(vchai1;…;vchaim)、(vri1;…;vrik)、(vcomi1;…;vcomil)、(vgi1;…;vgis)和(vpi1;…;vpio)。
3.根据权利要求1所述具有多种子模块信息的中文词向量生成方法,其特征在于所述模型定义阶段的具体步骤如下:
a、在输入和投影层中,对于单词wi,首先将与所有上下文子模块关联的嵌入向量与随机初始化的值一起输入到输入层,然后随着模型训练的发展对嵌入向量进行更新;在投影层中,每种上下文子模块都会生成一个隐藏状态,其中一种上下文子模块的隐藏状态计算为的输入向量的平均值上下文子模块,并将投影层中对应于上下文单词、字符、部首、成分、字形和拼音的隐藏状态分别表示为:hi_1,hi_2,hi_3,hi_4,hi_5和hi_6;
b、在输出层中,ICWE模型计算通过注意机制获得的目标单词wi在其整体隐藏状态下出现的对数似然,对于给定的主体语料D,ICWE模型的目标是使每个语料D’句子中包含的所有单词的总对数似然性最大化,并通过遵循CBOW模型中实现的负采样方法来优化此目标函数,整个优化过程完成后,可以获取语料库中每个不同单词的最终输出向量和所有不同子模块的最终嵌入表示,所述子模块最初是随机向量;所述负采样是一种用于提高训练速度的方法并提高单词嵌入的质量,除了更新所有训练样本的权重之外,负采样仅更新所有权重的一小部分,以减少梯度下降计算的计算量。
4.根据权利要求1所述具有多种子模块信息的中文词向量生成方法,其特征在于所述实验阶段的具体步骤如下:
a、 语料库的训练
使用Gensim工具包将下载的压缩文件转换为文本格式,然后通过OpenCC工具包将所有字符标准化为简体中文字符,保留Unicode值介于0x4E00和0x9FA5之间的汉字,丢弃其他字符后使用Jieba工具包将文本分割成单词为训练语料库;
b、子模块的来源
从训练语料库中,从单词的上下文中获取中文单词的单词和字符子模块,然后使用JWE模型的组件字典和部首字典来获取单词的字符形成子模块,在获得语料库中包含的所有目标词的子模块之后,训练模型以相应地生成最终单词嵌入和子模块嵌入;所述字形子模块使用GWE模型训练有素的字形,并调整权重后将字符的字形嵌入合并到通过模型训练进行单词嵌入,对于拼音子模块使用python包pypinyin中包含的拼音字典,通过调用pypinyin接口来获取字符的拼音子模块;
c、参数的设定
设定用于模型训练的实验参数,其中参考了各子模块的词汇量和嵌入量纲大小、训练批次大小、关注层大小、目标函数优化和学习率,所述模型训练包含在语料库中的音译词的嵌入;
d、基准模型的选择
采用 CBOW模型、CWE模型、SCWE模型、JWE模型和cw2vec模型为基准模型对ICWE模型进行评估,所述CBOW模型是从Word2vec模型中选择;所述CWE模型将字符级信息组合到中文单词嵌入中;所述SCWE模型将从其他语言中提取的语义信息组合到中文单词嵌入中;所述JWE模型从组件和部首中提取语义信息以改善中文单词嵌入;所述cw2vec模型使用笔划级别的信息改善中文单词嵌入;
e、任务和数据集的评估
通过基准化词嵌入的准确性,对ICWE模型的词相似性任务和词类比任务上的性能进行评估,其词相似性任务上的性能评估为单词嵌入反映两个单词之间的语义接近度和相关性能力的评估,并以单词对的相似度得分计算为Spearman等级相关系数;所述词相似性任务选择wordsim-240和wordsim-294数据集进行词相似性评估;所述wordim-240数据集中的所有单词都包含在训练语料库中;所述wordsim-294由标准wordim-296数据集中删除了两个不包含在训练语料库中的单词得到;所述词类比任务采用1124个测试实例的中文单词类比数据集检查词嵌入推断不同词对之间语义关系的能力;所述测试实例中的所有单词都包含在训练语料库中;所述每个测试实例包含从三个类比类别中之一选择的两对单词。
CN201911172979.XA 2019-11-26 2019-11-26 一种具有多种子模块信息的中文词向量生成方法 Active CN111160020B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911172979.XA CN111160020B (zh) 2019-11-26 2019-11-26 一种具有多种子模块信息的中文词向量生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911172979.XA CN111160020B (zh) 2019-11-26 2019-11-26 一种具有多种子模块信息的中文词向量生成方法

Publications (2)

Publication Number Publication Date
CN111160020A true CN111160020A (zh) 2020-05-15
CN111160020B CN111160020B (zh) 2023-05-12

Family

ID=70556158

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911172979.XA Active CN111160020B (zh) 2019-11-26 2019-11-26 一种具有多种子模块信息的中文词向量生成方法

Country Status (1)

Country Link
CN (1) CN111160020B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131864A (zh) * 2020-09-10 2020-12-25 上海交通大学 一种基于自注意机制的中文词向量训练方法
CN113220865A (zh) * 2021-04-15 2021-08-06 山东师范大学 一种文本相似词汇检索方法、系统、介质及电子设备
CN114707467A (zh) * 2022-03-18 2022-07-05 浙江大学 一种基于自注意力机制的自动化拼音转汉字方法
CN116341537A (zh) * 2023-05-23 2023-06-27 中债金科信息技术有限公司 多粒度词向量的评估方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595590A (zh) * 2018-04-19 2018-09-28 中国科学院电子学研究所苏州研究院 一种基于融合注意力模型的中文文本分类方法
CN109992783A (zh) * 2019-04-03 2019-07-09 同济大学 中文词向量建模方法
CN110427608A (zh) * 2019-06-24 2019-11-08 浙江大学 一种引入分层形声特征的中文词向量表示学习方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595590A (zh) * 2018-04-19 2018-09-28 中国科学院电子学研究所苏州研究院 一种基于融合注意力模型的中文文本分类方法
CN109992783A (zh) * 2019-04-03 2019-07-09 同济大学 中文词向量建模方法
CN110427608A (zh) * 2019-06-24 2019-11-08 浙江大学 一种引入分层形声特征的中文词向量表示学习方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TAO, H., TONG, S., ZHAO, H., XU, T., JIN, B., & LIU, Q: "A Radical-Aware Attention-Based Model for Chinese Text Classification", 《PROCEEDINGS OF THE AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131864A (zh) * 2020-09-10 2020-12-25 上海交通大学 一种基于自注意机制的中文词向量训练方法
CN113220865A (zh) * 2021-04-15 2021-08-06 山东师范大学 一种文本相似词汇检索方法、系统、介质及电子设备
CN113220865B (zh) * 2021-04-15 2022-06-24 山东师范大学 一种文本相似词汇检索方法、系统、介质及电子设备
CN114707467A (zh) * 2022-03-18 2022-07-05 浙江大学 一种基于自注意力机制的自动化拼音转汉字方法
CN116341537A (zh) * 2023-05-23 2023-06-27 中债金科信息技术有限公司 多粒度词向量的评估方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111160020B (zh) 2023-05-12

Similar Documents

Publication Publication Date Title
CN111160020A (zh) 一种具有多种子模块信息的中文词向量生成方法
CN107273358B (zh) 一种基于管道模式的端到端英文篇章结构自动分析方法
CN109977234A (zh) 一种基于主题关键词过滤的知识图谱补全方法
CN110502753A (zh) 一种基于语义增强的深度学习情感分析模型及其分析方法
CN109948158A (zh) 基于环境元嵌入和深度学习的情感倾向性分析方法
CN107463553A (zh) 针对初等数学题目的文本语义抽取、表示与建模方法和系统
CN107870901A (zh) 从翻译源原文生成相似文的方法、程序、装置以及系统
US10732937B2 (en) Programming by voice
CN110085215A (zh) 一种基于生成对抗网络的语言模型数据增强方法
CN112926337B (zh) 一种结合重构句法信息的端到端方面级情感分析方法
US20220414332A1 (en) Method and system for automatically generating blank-space inference questions for foreign language sentence
CN113408535B (zh) 一种基于中文字符级特征和语言模型的ocr纠错方法
CN114218379B (zh) 一种面向智能问答系统的无法回答问题的归因方法
CN106528538A (zh) 智能识别情绪的方法及装置
CN110532575A (zh) 文本翻译方法及装置
KR20220043505A (ko) 문서 요약장치 및 방법
CN114528398A (zh) 一种基于交互双重图卷积网络的情感预测方法及系统
CN111126061A (zh) 对联信息生成方法和装置
CN114282592A (zh) 一种基于深度学习的行业文本匹配模型方法及装置
CN114239589A (zh) 语义理解模型的鲁棒性评估方法、装置及计算机设备
CN111563148A (zh) 一种基于词组多样性的对话生成方法
CN110610006A (zh) 基于笔画和字形的形态学双通道中文词嵌入方法
CN115858736A (zh) 一种基于情感提示微调的情感文本生成方法
CN112464673B (zh) 融合义原信息的语言含义理解方法
Chadha et al. BERTQA--Attention on Steroids

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant