CN111027595A - 双阶段语义词向量生成方法 - Google Patents
双阶段语义词向量生成方法 Download PDFInfo
- Publication number
- CN111027595A CN111027595A CN201911132191.6A CN201911132191A CN111027595A CN 111027595 A CN111027595 A CN 111027595A CN 201911132191 A CN201911132191 A CN 201911132191A CN 111027595 A CN111027595 A CN 111027595A
- Authority
- CN
- China
- Prior art keywords
- word
- vector
- layer
- training
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000013598 vector Substances 0.000 title claims abstract description 134
- 238000000034 method Methods 0.000 title claims abstract description 65
- 230000001537 neural effect Effects 0.000 claims abstract description 33
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 15
- 238000013528 artificial neural network Methods 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 57
- 239000011159 matrix material Substances 0.000 claims description 41
- 230000006870 function Effects 0.000 claims description 24
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 7
- 238000012795 verification Methods 0.000 claims description 6
- 210000002569 neuron Anatomy 0.000 claims description 5
- 238000007476 Maximum Likelihood Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 238000011478 gradient descent method Methods 0.000 claims description 2
- 238000005096 rolling process Methods 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 claims description 2
- 238000007477 logistic regression Methods 0.000 claims 1
- 238000012706 support-vector machine Methods 0.000 abstract description 18
- 230000000694 effects Effects 0.000 abstract description 8
- 230000007547 defect Effects 0.000 abstract description 5
- 238000000605 extraction Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 238000010200 validation analysis Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 2
- 235000008331 Pinus X rigitaeda Nutrition 0.000 description 1
- 235000011613 Pinus brutia Nutrition 0.000 description 1
- 241000018646 Pinus brutia Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 210000004205 output neuron Anatomy 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了双阶段语义词向量生成方法,该方法包括5个步骤:文本矩阵化;特征提取器的构建;语义识别;神经语言模型的构建;义项词向量的生成。本发明使用多个神经网络为多义词的不同语义生成了对应的词向量,解决了传统词级嵌入式中多义词只对应一个词向量的缺陷,且使用的语料库大小在可接受范围内;同时采用卷积神经网络(CNN)和支持向量机(SVM)结合的方式,一方面利用了卷积神经网络的特征提取能力,一方面利用了SVM的泛化性以及鲁棒性,使得词义识别的效果更优,从而使得生成的语义词向量质量更高。
Description
技术领域
本发明属于神经网络领域,具体涉及一种双阶段语义词向量生成方法。
背景技术
词的表示问题是自然语言处理中的关键问题之一。词的表示方法是否适当,直接影响着句法分析、语义表示和篇章理解等任务的建模方法,也影响着信息检索、问答系统等应用系统的准确性和鲁棒性。
目前中文词的表示策略可以归纳为3种:传统的0-1表示,基于潜在语义信息的分布式表示和基于神经网络语言模型的分布式表示。传统的0-1表示有两方面问题:一方面0-1表示造成了数据稀疏,使得该种方式生成的词向量占用大量的空间;另一方面0-1表示只能区分不同的词语,但对于词义的表示没有任何贡献。基于神经网络语言模型很好地解决了维度灾害等问题,代表性工具有Word2vec、glove等。但是它仍在存在另一个问题,它是一种词级表示方式,即只为一个词语生成一个词向量,而不能为多义词的不同词义生成不同的词向量,这会对下游任务造成一定的干扰,从而影响下游任务的效果。于是词义级表示方式开始被研究,它根据词语在语料中的语义为其生成特定的语义词向量。
目前,词义嵌入类的模型主要有两类:双阶段型和融合型。在双阶段型中,词义识别过程和词向量生成过程是串行的,而融合型模型则在词向量生成过程中完成词义的识别。国外最早使用双阶段模式的是Schutze,他在1998年提出了上下文分组识别,以期望最大化为目标进行聚类来识别词义,然后生成词义向量。2010年,Reisinger和Moone将上下文表示为一元语法的特征向量,采用MovFV聚类的方法来完成词义识别。Sense2vec工具对词语添加了词性信息,以区分同义词的不同词义,但是它没有考虑不同词义的词性可能相同。后续双阶段模型的思路都与以上方法类似,都是在词义识别算法或文本建模方面进行优化。融合型模型利用词义识别和词向量生成本质上都需要对文本上下文进行计算的共通性,将两个过程合并为一个,以减小计算消耗。Neelakantan在Word2vec模型的基础上进行扩展,为每个多义词初始化固定数量的词向量,然后在语言模型的训练过程中选择合适的词向量进行更新。这一方法最大的限制在于它假设每个多义词具有相同数量的词义,而这一假设与事实悬殊较大。Yang Liu等人发现词向量生成过程中仅利用了词语的局部信息,对于全局信息并没有使用,所以他们利用这一缺陷,在词向量生成过程中加入文本的主题信息,提出了TWE模型来生成语义词向量。
近年来涌现了ELMo、GPT、Bert等利用深度学习模型以及大语料库进行语言模型训练的模型。ELMo使用LSTM进行语言模型建模,模型训练完成后,对于下游任务,先将其文本输入ELMo模型,然后使用网络前3层的输出共同进行词表示。Bert则使用当前较流行的Transformer进行建模,并且使用更大的语料库进行模型训练,而下游任务直接在此训练好的模型上进行微调即可,只是在输入输出方面需要稍作修改。这些模型虽然被证明在许多NLP任务上表现很好,但是它们并没有生成具体的词向量,缺少应用灵活性。
目前,国内在词表示方面和词向量生成工具方面的研究较少,曾琦利用LDA模型对主题进行建模并对多义词进行语义标注。孙茂松利用中文知识库HowNet得到义原向量来进行进一步的词向量的学习。李国佳在词义识别阶段使用了K-Means聚类构建了一个双阶段模型,该方法的缺点与Neelakantan的方法类似,需要提前为K-Means算法设定中心簇数目,相当于需要提前确定词义生成的个数,可扩展性不够好。
总结已有的方法可以得知:0-1表示的缺点在于造成了维数灾害以及缺乏语义信息;词级别嵌入的缺点在于1)拥有多种词义的词语训练生成的词向量更加偏向于语料中出现更多的语义,语料中出现较少的语义被弱化;2)计算与某多义词相似度较高的结果中出现语义互不相关的内容;3)破坏了词向量空间原本的三角不等性,使得其质量下降;词义级别嵌入中,融合型模型可以压缩词向量的生成过程,但是其效果基于其所使用的聚类算法的效果,而目前大多数聚类算法的效果表现不如有监督模型分类算法。双阶段型模型忽略了词义识别和词向量生成过程之间的相似性,两个过程串行完成,效率低下,但是其对于生成词向量的质量有很高的保证。
改进现有的词向量生成工具word2vec、glove等,为具有多个义项的词语生成多个词向量,从而在下游任务中,对多义词使用具有义项区别的义项词向量,使得下游任务对于文本语义的捕获更加准确,从而使得下游任务的效果更好。
发明内容
针对上述问题,本发明认为,词向量的生成过程是一次性的,而下游任务对于词向量的使用是多次的,则生成质量更高的词向量的需求大于对词向量生成过程减少时间开销的需求,所以本发明基于神经网络对于样本特征的提取能力,提出一种结合卷积神经网络(CNN)和支持向量机(SVM)的双阶段语义词向量生成方法,由于包含特征提取器的构建、词义识别以及神经语言模型的构建、义项词向量生成两个阶段,可以生成高质量的语义词向量供下游任务使用。该方法包括如下5个步骤:
步骤1:文本矩阵化
从获取的文本中挑选出含有多义词w的子句si,将此子句si与多义词w在该子句si的义项类别ci组成一条训练样本(si,ci),将这样的样本组成的集合称为数据集,i=1,2,...,n。所述文本矩阵化就是将含有多义词w的子句si转换成一个q行M列的数据矩阵Di,其中q是子句si转化成的数据矩阵的行数。
步骤2:特征提取器的构建
基于卷积神经网络(CNN)构建一个特征提取器,该特征提取器的结构包含6层,分别是输入层、卷积层、池化层、全连接层1、全连接层2和输出层。利用步骤1的文本矩阵化将语料库中每个训练样本(si,ci)中的si转换成对应的数据矩阵Di作为所述特征提取器的输入,最终得到训练样本中子句si中w被预测为每个义项的概率值;使用交叉熵损失函数及反向调节算法对所述特征提取器的网络参数进行更新,在所述特征提取器训练好之后,保持所述特征提取器中各网络参数不变,采用验证数据矩阵集合验证训练好的所述特征提取器,得到验证完成的所述特征提取器;将含有多义词w的训练样本重新输入验证完成的所述特征提取器,则全连接层1重新输出的Fi即为特征提取器提取到的子句si的特征向量。
步骤3:多义词语义识别
采用分类器SVM进行多义词语义识别;对每条训练样本使用步骤2得到的特征向量Fi作为所述分类器SVM的输入,对所述分类器SVM进行训练,对于训练好的分类器SVM,将由步骤2得到的训练样本si的特征向量Fi作为输入,即可对样本子句si中多义词w的语义进行识别,得到其预测义项类别
步骤4:神经语言模型的构建
构建一个神经语言模型,对所述神经语言模型的训练集进行处理,构建一棵哈夫曼树H,使用哈夫曼树结构构建输出层,加速所述神经语言模型的计算过程,使用层次Softmax(Hier archical Softmax)算法完成所述神经语言模型的输出层的正向传播和反向调节。
步骤5:义项词向量的生成
义项词向量的生成,主要在于所述神经语言模型各层网络参数的更新,即层次Softmax算法的正向传播过程及反向调节过程,最终得到每个词语的义项词向量。
本发明使用多个神经网络为多义词的不同语义生成了对应的词向量,解决了传统词级嵌入式中多义词只对应一个词向量的缺陷,且使用的语料库大小在可接受范围内。本发明采用卷积神经网络(CNN)和支持向量机(SVM)结合的方式,一方面利用了卷积神经网络的特征提取能力,一方面利用了SVM的泛化性以及鲁棒性,使得词义识别的效果更优,从而生成的语义词向量质量更高。
附图说明
图1为语义识别过程示意图
图2为义项词向量生成流程图
图3为文本矩阵化的过程示意图
图4为特征提取器结构示意图
图5为神经语言模型示意图
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
本发明提出的双阶段语义词向量生成方法分为三个阶段,并由5个步骤组成。其中第一阶段是文本矩阵化;第二阶段包括特征提取器的构建、语义识别2个步骤;第三阶段包括神经语言模型的构建、义项词向量的生成2个步骤。
步骤1:文本矩阵化
从获取的文本中挑选出含有多义词w的子句si,构成集合Dw={s1,s2,s3...}(即含有歧义词的子句集合),将此子句si与多义词w在该子句的义项类别ci组成一条训练样本(si,ci),将这样的样本集合称为数据集,i=1,2,...,n。
取所述集合Dw中出现频率最高的L个字符构成字汇表,为所述字汇表构建一个数据矩阵V,其大小记为L行M列,其中第r行对应字汇表中第r个字符的向量表示,即V中的每一行表示该行对应字符的初始化向量。矩阵V的值使用标准正态分布进行初始化,L是字汇表的大小。
如图3所示,对所述数据集中每个训练样本(si,ci)的子句si进行文本矩阵化,所述文本矩阵化就是将含有多义词w的子句si转换成一个q行M列的数据矩阵Di,其中q是子句si转化成的数据矩阵的行数,其大小不超过所述训练语料库中最长的子句具有的字符的个数,且q值由用户根据实际情况指定,q<L;Di是子句si中每个字的字符向量经过拼接之后又做了行数处理之后的结果。拼接的做法是,根据子句si的第k个字符从字汇表数据矩阵V中得到这个字符的向量表示,将其作为数据矩阵Di第k行的值,k=1,2,...,q。行数处理的做法是,若Di的行数大于q,则只取其前q行,若Di的行数小于q,则补相应行数的0使其行数达到q。
步骤2:特征提取器的构建
本发明基于卷积神经网络(CNN)构建一个特征提取器,该特征提取器的结构如图4所示,所述特征提取器包含6层,分别是输入层、卷积层、池化层、全连接层1、全连接层2和输出层,其中,每一层的作用分别描述如下:
输入层:利用步骤1的文本矩阵化将样本(si,ci)中的si转换成对应的数据矩阵Di作为所述特征提取器的输入;
卷积层:利用多个卷积核与矩阵Di进行卷积运算抽取出每个训练样本中的子句si的局部特征,得到多个特征图,其中,为每个不同窗口大小的卷积共设置了256个卷积核,卷积的窗口值设置为[3,4,5];
池化层:使用最大池化,通过降采样的方法对卷积层得到的所述多个特征图进行压缩,得到池化后的特征图,然后将其拼接得到列向量Ei;
全连接层1:根据该层的权重参数矩阵将所述列向量Ei转化为列向量Fi,该列向量Fi的维度设置为128。Fi表示所述特征提取器提取到的si的特征向量;
全连接层2:通过全连接层1得到的si的特征向量Fi来计算si中多义词w被预测为每个义项的可能性,该可能性被表示为一个列向量。全连接层1和全连接层2之间使用dropout函数舍弃部分特征,防止所述特征提取器模型过拟合,提高所述特征提取器模型的泛化能力。所述全连接层2的维度与多义词w的义项数一致;
输出层:使用Softmax函数将全连接层2得到的所述列向量的长度转化为1,得到子句si中w被预测为每个义项的概率值。
将由步骤1得到的文本矩阵化后的数据集按照8:2的比例分为训练集和验证集,然后使用交叉熵损失函数及反向调节算法对所述特征提取器的网络参数进行更新。当网络中的参数都收敛之后,保持所述网络中各网络参数不变,即得到训练完成的所述特征提取器。最后将含有多义词w的样本重新输入验证完成的所述特征提取器,则全连接层1重新输出的Fi即为特征提取器提取到的子句si的特征向量。训练集和验证集都是在训练过程中使用的,网络一边训练一边验证。
步骤3:多义词语义识别
本发明将多义词语义识别作为分类任务来处理,采用分类器SVM进行多义词语义识别。对每条训练样本使用步骤2得到的特征向量Fi作为分类器SVM的输入,以式(1)作为目标函数,对所述分类器SVM进行训练。分类器SVM模型的核心问题是寻求出在多维空间中能够区分正负类样本的最优分离超平面whyperx+b=0,其中whyper和b分别代表了该超平面的法向量与截距。式(1)中C为惩罚系数;ξ为松弛变量;xi(即Fi)为子句si的特征向量;yi(即义项类别ci)为xi对应的类别标记。φ(x)为从低维空间到高维空间的非线性映射函数。
s.t.yi(whyperφ(xi)+b)≥1-ξi,C>0,ξi≥0,i=1,2,...,n (1)
步骤4:神经语言模型的构建
构建一个神经语言模型,所述神经语言模型的训练采用训练集D。首先,对于神经语言模型的训练集D(即歧义词与非歧义词的文本集合),按照步骤1的方法构建含有多义词w的文本集合Dw={s1,s2,s3...},并构建集合Dr=D-Dw。然后对于Dw中每条文本si,使用步骤1的文本矩阵化方法将其转换成矩阵Di,使用步骤2构建好的特征提取器得到si的特征向量,按照步骤3中多义词识别过程得到子句si中多义词w的预测义项类别然后将文本si中多义词w替换为w′,其中即将多义词w与其预测义项类别进行字符串连接。最终得到新的文本集合D′w={s′1,s′2,s′3...}。合并集合,得到新的训练集D′=D′w+Dr。
然后,对所述训练集D′中的训练样本进行分词、去停用词,然后统计每个词语的词频,按照词频降序排序,选取前l个词形成词汇表,并按照步骤1中的方式,为该词汇表构建一个数据矩阵V′,矩阵的大小为l行m列。根据词汇表中各词语的词频构建一棵哈夫曼树H。
最后,初始化包含三层网络的神经语言模型,使用当前词语wt的上下文context(wt)={wt-1,wt+1,...,wt-k,wt+k},其中,k是预先选取的上下文窗口的大小,本实施例中设置为3,训练所述神经语言模型,预测当前词wt。所述神经语言模型的结构如图5所示,所述神经语言模型每一层的作用如下所示:
输出层:对传统神经语言模型的输出层进行了优化。使用哈夫曼树结构构建输出层,加速所述神经语言模型的计算过程,使用层次Softmax(Hierarchical Softmax)完成输出层的正向传播和反向调节,即投影层到输出层的Softmax是沿着哈夫曼树一层一层的完成的。此处的哈夫曼树即上文中的H。哈夫曼树中的每个叶子节点类似神经网络输出Softmax层的神经元,除根节点外的内部节点类似于神经网络隐藏层的神经元,根节点存储由投影层获得的环境向量
步骤5:义项词向量的生成
义项词向量的生成,主要在于所述神经语言模型各层网络参数的更新,即Hierarchical S oftmax算法的正向传播过程及反向调节过程。具体如下:
首先进行参数定义:
wt表示目标输出词语
Hierarchical Softmax算法正向传播的核心是找到所有合适的内部结点参数向量,使得训练样本达到最大似然。它每次训练使用一条训练样本,将正向传播过程中每一次二叉分支视作一次分类过程,将左分支(即编码为0的分支)视为正类,将右分支(即编码为1的分支)视作负类,使用sigmoid函数预测分类的概率。
其中σ(x,θ)为sigmoid函数,公式如下:
则对于目标输出词wt,其最大似然函数为:
反向调节过程,Hierarchical Softmax算法用负的对数似然函数作为损失函数,使用梯度下降法,对参数及生成根结点词向量的相关向量,即context(wt)中词语的向量进行更新,公式如式(5)-(8)所示,η代表所述神经语言模型的学习率
每次更新要将数据矩阵V′中词语wi的词向量进行更新,在下一次读取词语wi的词向量时,使用已经更新后的向量。迭代训练,直到所述神经语言模型收敛,最终数据矩阵V′中的各个行向量就是每个词语的义项词向量。此阶段的流程图如图2所示。
本发明使用多个神经网络为多义词的不同语义生成了对应的词向量,解决了传统词级嵌入式中多义词只对应一个词向量的缺陷,且使用的语料库大小在可接受范围内。本发明采用卷积神经网络(CNN)和支持向量机(SVM)结合的方式,一方面利用了卷积神经网络的特征提取能力,一方面利用了SVM的泛化性以及鲁棒性,使得词义识别的效果更优,从而生成的语义词向量质量更高。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围。凡采用等同替换或等效替换,这些变化是显而易见,一切利用本发明构思的发明创造均在保护之列。
Claims (2)
1.一种双阶段语义词向量生成方法,其特征在于,该方法分为三个阶段,并由5个步骤组成,其中第一阶段是文本矩阵化;第二阶段包括特征提取器的构建、语义识别两个步骤;第三阶段包括神经语言模型的构建、义项词向量的生成两个步骤:
步骤1:文本矩阵化
从获取的文本中挑选出含有多义词w的子句si,构成集合Dw={s1,s2,s3...},即含有歧义词的子句集合,将子句si与多义词w在该子句的义项类别ci组成一条训练样本(si,ci),将这样的训练样本集合称为数据集,i=1,2,...,n;
取所述集合Dw中出现频率最高的L个字符构成字汇表,为所述字汇表构建一个数据矩阵V,其大小记为L行M列,其中第r行对应字汇表中第r个字符的向量表示,即V中的每一行表示该行对应字符的初始化向量,矩阵V的值使用标准正态分布进行初始化,L是字汇表的大小;
对所述数据集中每个训练样本(si,ci)的子句si进行文本矩阵化,所述文本矩阵化就是将含有多义词w的子句si转换成一个q行M列的数据矩阵Di,其中q是子句si转化成的数据矩阵Di的行数,其大小不超过所述获取的文本中最长的子句具有的字符的个数,且q值由用户根据实际情况指定,q<L;Di是子句si中每个字的字符向量经过拼接之后又做了行数处理之后的结果;拼接的做法是,根据子句si的第k个字符从字汇表数据矩阵V中查得这个字符的向量表示,将其作为数据矩阵Di第k行的值,k=1,2,...,q,行数处理的做法是,若Di的行数大于q,则只取其前q行,若Di的行数小于q,则补相应行数的0使其行数达到q;
步骤2:特征提取器的构建
基于卷积神经网络(CNN)构建一个特征提取器,该特征提取器的结构包含6层,分别是输入层、卷积层、池化层、全连接层1、全连接层2和输出层,其中,每一层的作用分别描述如下:
输入层:利用步骤1的文本矩阵化将所述数据集中每个训练样本(si,ci)中的si转换成对应的数据矩阵Di作为所述特征提取器的输入;
卷积层:利用多个卷积核与矩阵Di进行卷积运算抽取出每个训练样本中的子句si的局部特征,得到多个特征图,其中,为每个不同窗口大小的卷积共设置了256个卷积核,卷积的窗口值设置为[3,4,5];
池化层:使用最大池化,通过降采样的方法对卷积层得到的所述多个特征图进行压缩,得到池化后的特征图,然后将其拼接得到列向量Ei;
全连接层1:根据该层的权重参数矩阵将所述列向量Ei转化为列向量Fi,该列向量Fi的维度设置为128,Fi表示所述特征提取器提取到的si的特征向量;
全连接层2:通过全连接层1得到的si的特征向量Fi来计算si中多义词w被预测为每个义项的可能性,该可能性被表示为一个列向量,全连接层1和全连接层2之间使用dropout函数舍弃部分特征,防止所述特征提取器模型过拟合,提高所述特征提取器模型的泛化能力,所述全连接层2的维度与多义词w的义项数一致;
输出层:使用Softmax函数将全连接层2得到的所述列向量的长度转化为1,得到训练样本中子句si中w被预测为每个义项的概率值;
将由步骤1得到的文本矩阵化后的数据集按照8:2的比例分为训练集和验证集,然后使用交叉熵损失函数及反向调节算法对所述特征提取器的网络参数进行更新;当所述特征提取器的网络参数都收敛之后,保持所述特征提取器中各网络参数不变,即得到训练及验证完成的所述特征提取器;最后将含有多义词w的训练样本重新输入所述训练及验证完成的所述特征提取器,则全连接层1重新输出的Fi即为特征提取器提取到的子句si的特征向量;所述训练集和所述验证集都是在训练过程中使用的,所述特征提取器一边训练一边验证;
步骤3:多义词语义识别
将多义词语义识别作为分类任务处理,采用分类器SVM进行多义词语义识别;对每条训练样本使用步骤2得到的特征向量Fi作为所述分类器SVM的输入,以下式作为目标函数,对所述分类器SVM进行训练:
s.t.yi(whyperφ(xi)+b)≥1-ξi,C>0,ξi≥0,i=1,2,...,n
所述分类器SVM的核心问题是寻求出在多维空间中能够区分正负类样本的最优分离超平面whyperx+b=0,其中whyper和b分别代表了该超平面的法向量与截距;C为惩罚系数;ξ为松弛变量;xi即Fi,为子句si的特征向量;yi即义项类别ci,为xi对应的类别标记;φ(x)为从低维空间到高维空间的非线性映射函数;
步骤4:神经语言模型的构建
构建一个神经语言模型,所述神经语言模型的训练采用训练集D,首先,对于神经语言模型的训练集D,按照步骤1的方法构建含有多义词w的文本集合Dw={s1,s2,s3...},并构建集合Dr=D-Dw,然后对于Dw中每条文本si,使用步骤1的文本矩阵化方法将其转换成矩阵Di,使用步骤2构建好的特征提取器得到si的特征向量Fi,按照步骤3中多义词识别过程得到样本si中多义词w的预测义项类别然后将文本si中多义词w替换为w′,其中即将多义词w与其预测义项类别进行字符串连接,最终得到新的文本集合D′w={s′1,s′2,s′3...},合并集合,得到新的训练集D′=D′w+Dr;
然后,对所述训练集D′中的训练样本进行分词、去停用词,然后统计每个词语的词频,按照词频降序排序,选取前l个词形成词汇表,并按照步骤1中的方式,为该词汇表构建一个数据矩阵V′,矩阵的大小为l行m列,根据词汇表中各词语的词频构建一棵哈夫曼树H;
最后,初始化所述神经语言模型,使用当前词语wt的上下文context(wt)={wt-1,wt+1,...,wt-k,wt+k},其中,k是预先选取的上下文窗口的大小,训练所述神经语言模型,预测当前词wt;所述神经语言模型的结构包含三层网络,其中每一层网络的作用如下:
输出层:使用哈夫曼树结构构建输出层,加速所述神经语言模型的计算过程,使用层次Softmax(Hierarchical Softmax)算法完成输出层的正向传播和反向调节,即投影层到输出层的Softmax是沿着哈夫曼树一层一层的完成的,此处的哈夫曼树即H,哈夫曼树中的每个叶子节点类似神经网络输出Softmax层的神经元,除根节点外的内部节点类似于神经网络隐藏层的神经元,根节点存储由投影层获得的环境向量
步骤5:义项词向量的生成
义项词向量的生成,主要在于所述神经语言模型各层网络参数的更新,即层次Softmax算法的正向传播过程及反向调节过程,具体如下:
首先进行参数定义:
wt表示目标输出词语
Hierarchical Softmax算法正向传播过程的核心是找到所有合适的内部结点参数向量,使得训练样本达到最大似然,它每次训练使用一条训练样本,将正向传播过程中每一次二叉分支视作一次分类过程,将左分支即编码为0的分支,视为正类,将右分支即编码为1的分支视作负类,使用sigmoid函数预测分类的概率;
其中σ(x,θ)为sigmoid函数,公式如下:
则对于目标输出词wt,其最大似然函数为:
反向调节过程为Hierarchical Softmax算法用负的对数似然函数作为损失函数,使用梯度下降法,对参数及生成根结点词向量的相关向量,即context(wt)中词语的向量进行更新,如以下几个公式所示,η代表所述神经语言模型的学习率:
2.根据权利要求1所述的双阶段语义词向量生成方法,其特征在于,所述步骤4中选取的上下文窗口的大小k设置为3。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911132191.6A CN111027595B (zh) | 2019-11-19 | 2019-11-19 | 双阶段语义词向量生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911132191.6A CN111027595B (zh) | 2019-11-19 | 2019-11-19 | 双阶段语义词向量生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111027595A true CN111027595A (zh) | 2020-04-17 |
CN111027595B CN111027595B (zh) | 2022-05-03 |
Family
ID=70200629
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911132191.6A Expired - Fee Related CN111027595B (zh) | 2019-11-19 | 2019-11-19 | 双阶段语义词向量生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111027595B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111709249A (zh) * | 2020-05-29 | 2020-09-25 | 北京百度网讯科技有限公司 | 多语种模型的训练方法、装置、电子设备和存储介质 |
CN111966825A (zh) * | 2020-07-16 | 2020-11-20 | 电子科技大学 | 一种基于机器学习的电网设备缺陷文本分类方法 |
CN112115238A (zh) * | 2020-10-29 | 2020-12-22 | 电子科技大学 | 一种基于bert和知识库的问答方法和系统 |
CN112732900A (zh) * | 2021-01-04 | 2021-04-30 | 山东众阳健康科技集团有限公司 | 一种电子病历文本摘要抽取方法 |
CN112926344A (zh) * | 2021-03-13 | 2021-06-08 | 中国科学院新疆理化技术研究所 | 基于词向量替换数据增强的机器翻译模型训练方法、装置、电子设备及存储介质 |
CN113011555A (zh) * | 2021-02-09 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备及存储介质 |
CN113095087A (zh) * | 2021-04-30 | 2021-07-09 | 哈尔滨理工大学 | 一种基于图卷积神经网络的中文词义消歧方法 |
CN113256190A (zh) * | 2021-07-15 | 2021-08-13 | 腾讯科技(深圳)有限公司 | 资源召回方法及装置 |
CN113779196A (zh) * | 2021-09-07 | 2021-12-10 | 大连大学 | 一种融合多层次信息的海关同义词识别方法 |
CN114496105A (zh) * | 2022-01-24 | 2022-05-13 | 武汉大学 | 一种基于多语义网络的单步逆合成方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170200065A1 (en) * | 2016-01-13 | 2017-07-13 | Adobe Systems Incorporated | Image Captioning with Weak Supervision |
CN107895000A (zh) * | 2017-10-30 | 2018-04-10 | 昆明理工大学 | 一种基于卷积神经网络的跨领域语义信息检索方法 |
CN107978373A (zh) * | 2017-11-23 | 2018-05-01 | 吉林大学 | 一种基于共训练的半监督生物医学事件抽取方法 |
CN108874772A (zh) * | 2018-05-25 | 2018-11-23 | 太原理工大学 | 一种多义词词向量消歧方法 |
CN109992783A (zh) * | 2019-04-03 | 2019-07-09 | 同济大学 | 中文词向量建模方法 |
US20190243871A1 (en) * | 2018-02-08 | 2019-08-08 | Cavium, Llc | Architecture for irregular operations in machine learning infference engine |
CN110134786A (zh) * | 2019-05-14 | 2019-08-16 | 南京大学 | 一种基于主题词向量与卷积神经网络的短文本分类方法 |
CN110442874A (zh) * | 2019-08-09 | 2019-11-12 | 南京邮电大学 | 一种基于词向量的中文词义预测方法 |
-
2019
- 2019-11-19 CN CN201911132191.6A patent/CN111027595B/zh not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170200065A1 (en) * | 2016-01-13 | 2017-07-13 | Adobe Systems Incorporated | Image Captioning with Weak Supervision |
CN107895000A (zh) * | 2017-10-30 | 2018-04-10 | 昆明理工大学 | 一种基于卷积神经网络的跨领域语义信息检索方法 |
CN107978373A (zh) * | 2017-11-23 | 2018-05-01 | 吉林大学 | 一种基于共训练的半监督生物医学事件抽取方法 |
US20190243871A1 (en) * | 2018-02-08 | 2019-08-08 | Cavium, Llc | Architecture for irregular operations in machine learning infference engine |
CN108874772A (zh) * | 2018-05-25 | 2018-11-23 | 太原理工大学 | 一种多义词词向量消歧方法 |
CN109992783A (zh) * | 2019-04-03 | 2019-07-09 | 同济大学 | 中文词向量建模方法 |
CN110134786A (zh) * | 2019-05-14 | 2019-08-16 | 南京大学 | 一种基于主题词向量与卷积神经网络的短文本分类方法 |
CN110442874A (zh) * | 2019-08-09 | 2019-11-12 | 南京邮电大学 | 一种基于词向量的中文词义预测方法 |
Non-Patent Citations (3)
Title |
---|
IGNAZIO GALLO ET AL.: "Semantic Text Encoding for Text Classification Using Convolutional Neural Networks", 《2017 14TH IAPR INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITION》 * |
唐波: "多义词向量的优化研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
陈锦程: "基于知识库分布式表示方法的词位扩展", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111709249A (zh) * | 2020-05-29 | 2020-09-25 | 北京百度网讯科技有限公司 | 多语种模型的训练方法、装置、电子设备和存储介质 |
CN111966825A (zh) * | 2020-07-16 | 2020-11-20 | 电子科技大学 | 一种基于机器学习的电网设备缺陷文本分类方法 |
CN112115238A (zh) * | 2020-10-29 | 2020-12-22 | 电子科技大学 | 一种基于bert和知识库的问答方法和系统 |
CN112115238B (zh) * | 2020-10-29 | 2022-11-15 | 电子科技大学 | 一种基于bert和知识库的问答方法和系统 |
CN112732900B (zh) * | 2021-01-04 | 2022-07-29 | 山东众阳健康科技集团有限公司 | 一种电子病历文本摘要抽取方法 |
CN112732900A (zh) * | 2021-01-04 | 2021-04-30 | 山东众阳健康科技集团有限公司 | 一种电子病历文本摘要抽取方法 |
CN113011555A (zh) * | 2021-02-09 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备及存储介质 |
CN113011555B (zh) * | 2021-02-09 | 2023-01-31 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备及存储介质 |
CN112926344A (zh) * | 2021-03-13 | 2021-06-08 | 中国科学院新疆理化技术研究所 | 基于词向量替换数据增强的机器翻译模型训练方法、装置、电子设备及存储介质 |
CN112926344B (zh) * | 2021-03-13 | 2023-11-17 | 中国科学院新疆理化技术研究所 | 基于词向量替换数据增强的机器翻译模型训练方法、装置、电子设备及存储介质 |
CN113095087B (zh) * | 2021-04-30 | 2022-11-25 | 哈尔滨理工大学 | 一种基于图卷积神经网络的中文词义消歧方法 |
CN113095087A (zh) * | 2021-04-30 | 2021-07-09 | 哈尔滨理工大学 | 一种基于图卷积神经网络的中文词义消歧方法 |
CN113256190B (zh) * | 2021-07-15 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 资源召回方法及装置 |
CN113256190A (zh) * | 2021-07-15 | 2021-08-13 | 腾讯科技(深圳)有限公司 | 资源召回方法及装置 |
CN113779196A (zh) * | 2021-09-07 | 2021-12-10 | 大连大学 | 一种融合多层次信息的海关同义词识别方法 |
CN113779196B (zh) * | 2021-09-07 | 2024-02-13 | 大连大学 | 一种融合多层次信息的海关同义词识别方法 |
CN114496105A (zh) * | 2022-01-24 | 2022-05-13 | 武汉大学 | 一种基于多语义网络的单步逆合成方法及系统 |
CN114496105B (zh) * | 2022-01-24 | 2024-08-23 | 武汉大学 | 一种基于多语义网络的单步逆合成方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111027595B (zh) | 2022-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111027595B (zh) | 双阶段语义词向量生成方法 | |
CN108595632B (zh) | 一种融合摘要与主体特征的混合神经网络文本分类方法 | |
CN110866117B (zh) | 一种基于语义增强与多层次标签嵌入的短文本分类方法 | |
CN108984745B (zh) | 一种融合多知识图谱的神经网络文本分类方法 | |
CN110413986B (zh) | 一种改进词向量模型的文本聚类多文档自动摘要方法及系统 | |
CN110969020B (zh) | 基于cnn和注意力机制的中文命名实体识别方法、系统及介质 | |
CN108009148B (zh) | 基于深度学习的文本情感分类表示方法 | |
CN104834747B (zh) | 基于卷积神经网络的短文本分类方法 | |
CN112667818B (zh) | 融合gcn与多粒度注意力的用户评论情感分析方法及系统 | |
CN112347268A (zh) | 一种文本增强的知识图谱联合表示学习方法及装置 | |
CN110263325B (zh) | 中文分词系统 | |
CN111078833B (zh) | 一种基于神经网络的文本分类方法 | |
CN111984791B (zh) | 一种基于注意力机制的长文分类方法 | |
CN113407660B (zh) | 非结构化文本事件抽取方法 | |
CN111222318B (zh) | 基于双通道双向lstm-crf网络的触发词识别方法 | |
CN110765755A (zh) | 一种基于双重选择门的语义相似度特征提取方法 | |
CN111400494B (zh) | 一种基于GCN-Attention的情感分析方法 | |
CN117236338B (zh) | 一种稠密实体文本的命名实体识别模型及其训练方法 | |
CN112966525A (zh) | 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法 | |
CN114564563A (zh) | 一种基于关系分解的端到端实体关系联合抽取方法及系统 | |
CN117010387A (zh) | 融合注意力机制的RoBERTa-BiLSTM-CRF语音对话文本命名实体识别系统 | |
CN114254645A (zh) | 一种人工智能辅助写作系统 | |
CN114036938B (zh) | 一种融合主题信息和词向量提取文本特征的新闻分类方法 | |
CN112948588B (zh) | 一种用于情报快速整编的中文文本分类方法 | |
CN113204640A (zh) | 一种基于注意力机制的文本分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220503 |