CN109992783B - 中文词向量建模方法 - Google Patents

中文词向量建模方法 Download PDF

Info

Publication number
CN109992783B
CN109992783B CN201910266000.9A CN201910266000A CN109992783B CN 109992783 B CN109992783 B CN 109992783B CN 201910266000 A CN201910266000 A CN 201910266000A CN 109992783 B CN109992783 B CN 109992783B
Authority
CN
China
Prior art keywords
chinese
layer
lstm
word
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910266000.9A
Other languages
English (en)
Other versions
CN109992783A (zh
Inventor
徐斌辰
康琦
马璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201910266000.9A priority Critical patent/CN109992783B/zh
Publication of CN109992783A publication Critical patent/CN109992783A/zh
Application granted granted Critical
Publication of CN109992783B publication Critical patent/CN109992783B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本发明公开了一种中文词向量建模方法。本发明一种中文词向量建模方法,包括:利用BPE算法对中文笔画进行自适应的组合,构造汉字子块并利用注意力机制完成汉字内部结构的组合与表示;通过CNN结构对已完成的汉字表示进行信息提取利用Highway network进行细粒度信息增强;考虑到中文语法的复杂性在语义提取阶段构造了双向LSTM结构进行语义编码,构造了以汉字自适应组合层、形态学信息提取层、细粒度信息增强层与语义信息提取层为基本组件的端对端的深度神经语言模型。本发明的有益效果:本发明创造性的构造了不同于n‑gram的输入形式,将中文笔画与偏旁部首进行自适应的融合构成汉字子块。

Description

中文词向量建模方法
技术领域
本发明涉及自然语言处理领域,具体涉及一种中文词向量建模方法。
背景技术
词向量已经成为任何基于深度学习自然语言处理系统的重要组成部分。自然语言处理系统在固定长度的密集向量中编码单词和语句,从而通过神经网络极大地改进文本数据的处理。近年来人们提出了大量的词嵌入的方法。最常用的模型是Word2VEC和GloVe,它们都是基于分布假设的无监督方法且在各种语言下均可使用。考虑到中文汉字形态学的复杂性越来越多学者开始研究中文词向量的建模方式。香港理工大学学者最早提出利用汉字部首信息作为CBOW,Skip-Gram的组件训练词向量;中科大相关学者提出利用外部语言来获取语义信息,计算词与单字之间的相似度来表示其贡献的不同以改进词向量的训练;随着计算机视觉的发展台湾大学的学者提出基于CNN图像卷积的词向量表示方式提高了字符嵌入的表示能力。近来有中外学者也开始研究词向量对一词多义的表示能力。
传统技术存在以下技术问题:
现有中文词向量建模方法都只是简单引入部首笔画等信息同时无法对未登录词进行合理的表示。词向量表示对于许多自然语言处理任务至关重要。大多数现有方法通过为每个单词分配不同的向量来学习上下文信息,并且对形态学的关注较少,并且对未登录词的处理存在问题。未登录词对自然语言处理任务有巨大的影响,优秀的未登录词的处理方式对自然语言处理下游任务有巨大的提升。
发明内容
本发明要解决的技术问题是提供一种中文词向量建模方法,本发明创造性的构造了不同于n-gram的输入形式,将中文笔画与偏旁部首进行自适应的融合构成汉字子块,成功的解决了未登录词与网络流行词的表示;同时本发明探索了中文汉字笔画的相对长短信息,更好地完成了中文词向量的表示。本发明主要从词向量训练的角度解决未登录词问题,拆解单字为已收入用户词典的笔画,从而对所有汉字进行表征。
为了解决上述技术问题,本发明提供了一种中文词向量建模方法,包括:利用BPE算法对中文笔画进行自适应的组合,构造汉字子块并利用注意力机制完成汉字内部结构的组合与表示;通过CNN结构对已完成的汉字表示进行信息提取利用Highwaynetwork进行细粒度信息增强;考虑到中文语法的复杂性在语义提取阶段构造了双向LSTM结构进行语义编码,构造了以汉字自适应组合层、形态学信息提取层、细粒度信息增强层与语义信息提取层为基本构建的端对端的深度神经语言模型;包括以下几个部分:
P1:爬取数据与偏旁部首笔画拆分
首先,符号词汇表初始化为下表1所包含的32个基本笔画或者部首;每个汉字表示成一系列部首和笔画的下标;通过迭代的计数每个笔画,部首,以及部首组合出现的次数,算法把最长出现的笔画组合对替换成一个新的字符,例如把(“一”,“丨”)替换为(“十”);新产生的字符如下列表2所示;表格中笔画的上标表示笔画的长短,“丨1”代表长度较短的竖,“丨2”则代表长竖;
P2:通过BPE+算法自适应完成笔画组合构成中文子块
考虑到形似的部首可能因为个别笔画的长度差异导致截然不同的语义信息,在此基础上本发明提出了BPE+算法;BPE+可以根据特征输入预测笔画的长短;因此,模型具有分别不同长短的笔画组成的汉字信息的能力,例如区别‘土’和‘工’;训练集手工标注了180个部首,输出的笔画长度限制在3至7之间;在实施过程中采用了应用广泛的机器学习模型Xgboost;
Xgboost是一种提升树模型,他能够把许多树模型集成在一起,形成一个很强的分类器;该算法思想就是不断地添加树,不断地进行特征分裂来生长一棵树,每次添加一个树,其实是学习一个新函数,去拟合上次预测的残差;当训练完成得到k棵树,要预测一个样本的分数,其实就是根据这个样本的特征,在每棵树中会落到对应的一个叶子节点,每个叶子节点就对应一个分数,最后只需要将每棵树对应的分数加起来就是该样本的预测值;
由于Xgboost泛化能力比较强,即使在默认参数下预测准确率比较高,因此在自回归的预测笔画长度时,唯一需要调节的超参数就是笔画的数量;C表示输入的文字数据集;ci表示由一系列笔画
Figure GDA0002640841800000031
组成的文字;文字ci的频率被表示为fi.l指待预测的笔画长度.n表示字块的个数;H表示被标注的部首数据集;hi即第i个部首.BPE+的算法流程如下所示:
P3:形态学提取层(形态学提取):通过Attention机制与CNN提取中文汉字形态学信息
形态学提取是由自注意力机制和字块级别的CNN组成;自注意力机制计算了一系列输入的字块中,任意两个字块的相关程度;本发明中的模型使用了多头注意力机制,以此探测更为丰富的字块内部联系,详细的计算过程如下所示:
Figure GDA0002640841800000032
Figure GDA0002640841800000033
Figure GDA0002640841800000034
Figure GDA0002640841800000035
MultiHead(Q,K,V)=Concat(h1,...,hn)Wo (5)
headi=Attention(QWi Q,KWi K,VWi V) (6)
注意力机制层Attention的输入包括输入序列(Q)和键值对(K-V);根据多头自注意力机制MultiHead的定义,Q,K,V是同源;P表示经过模型学习得到的位置嵌入矩阵,E表示输入的词向量矩阵,dk表示K的维度,W0,WQ,WV,WK指不同的映射矩阵,Wi指对不同头的映射,T表示矩阵的转置;hi、headi表示不同头的注意力;Relu、softmax表示激活函数;concat指对矩阵进行拼接。
经过自注意机制对上下文字块的关联表示,CNN紧接着用来融合临近字块的词嵌入信息;最后,为了降低接下来模型的计算复杂度,经过卷积CNN的字嵌入信息通过随着时间的最大池层来抽取出最重要的字块特征;
P4:细粒度信息强化层(RFI):通过Highwaynetwork完成细粒度信息增强
作为形态学提取层和语义信息提取层之间的过渡,本模型采用了高速神经网络;该网络结构可以映射重要的特征到有差异有区别度的子空间中;把CNN的输出计作y,⊙表示两个矩阵的点积;和LSTM的结构类似,t表示传送门,(1-t)表示遗忘门;g,σ表示激活函数;W表示映射矩阵;b表示偏置。单层的高速神经网络的计算过程如下:
z=t⊙g(WHy+bH)+(1-t)⊙y (7)
t=σ(WTy+bT) (8)
P5:语义信息提取层(语义信息提取):通过双层双向LSTM完成汉字语义信息提取[t1,t2,t3,...,tN]包含N个字符的输入,前向语言模型计算了给定[t1,t2,t3,...,tk-1]时,输出第k个字符为tk的概率;后向语言模型与前向语言模型类似,区别在于它的输入是后序语言序列(tk+1,tk+2,...,tN),预测第k个字符为tk的概率,其中ΘLSTM表示前向或后向LSTM,通过前面两层得到的字块级别的字嵌入信息输入到基于LSTM结构的双向语言模型中;LSTM能都获取长范围的时序依赖关系,经过许多验证,LSTM比传统的RNN效果表现的都优越;双向的语义信息捕捉过程如下:
Figure GDA0002640841800000051
最终,得到LSTM的隐藏状态单元的输出以后,本模型添加了全联接层和softmax来获得待预测词的概率分布;根据最大似然估计的理论,优化目标是使得p(x)=p(x1)(1-p(x2))p(x3)…最大化(这里x1和x3是正例,x2是负例,由于目标函数是求正例的概率,所以1-p(x)是负例的概率)训练过程的迭代的目标是最小化负对数损失函数(NLL):
Figure GDA0002640841800000052
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一项所述方法的步骤。
一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任一项所述的方法。
本发明的有益效果:
本发明创造性的构造了不同于n-gram的输入形式,将中文笔画与偏旁部首进行自适应的融合构成汉字子块,成功的解决了未登录词与网络流行词的表示;同时本发明探索了中文汉字笔画的相对长短信息,更好地完成了中文词向量的表示。本发明主要从词向量训练的角度解决未登录词问题,拆解单字为已收入用户词典的笔画,从而对所有汉字进行表征。
附图说明
图1是现有中文词向量建模方法的模型示意图。
图2是本发明中文词向量建模方法中的经过自注意力机制抽取的字块关系可以可视化的展现示意图。
图3是本发明中文词向量建模方法的模型示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
现有中文词向量建模方法都只是简单引入部首笔画等信息,考虑到中文汉字形态学的复杂性与多样性简单的n-gram模型并不能很好的完成语义表征,本发明提出了一种中文汉字的变长表示方法并利用注意力机制地探索了汉字笔画组合的内部关系与更高自由度的空间联系,并设计了精妙的模型强化了形态学细粒度的信息并与语义信息相融合强化了词向量的表征能力。本发明具体包括1.建立了一种称为BPE+的新方法,以自适应地生成可变长度的笔画表示,从而打破了笔画n-gram的限制。2.设计了一种更为精细的提取中文语料语意信息的网络结构,包括形态学信息提取层(形态学提取),细粒度信息强化层(RFI),以及信息融合提取层(语义信息提取)。
本发明利用BPE算法对中文笔画进行自适应的组合,构造汉字字块并利用注意力机制完成汉字内部结构的组合与表示;通过CNN结构对已完成的汉字表示进行信息提取利用Highwaynetwork进行细粒度信息增强;考虑到中文语法的复杂性在语义提取阶段构造了双向LSTM结构进行语义编码,构造了以汉字自适应组合层、形态学信息提取层、细粒度信息增强层与语义信息提取层为基本构建的端对端的深度神经语言模型。包括以下几个部分:
P1:爬取数据与偏旁部首笔画拆分
首先,符号词汇表初始化为下表1所包含的32个基本笔画或者部首。每个汉字表示成一系列部首和笔画的下标。通过迭代的计数每个笔画,部首,以及部首组合出现的次数,算法把最长出现的笔画组合对替换成一个新的字符,例如把(“一”,“丨”)替换为(“十”)。新产生的字符如下列表2所示。表格中笔画的上标表示笔画的长短,“丨1”代表长度较短的竖,“丨2”则代表长竖。
表1
Figure GDA0002640841800000071
表2
Figure GDA0002640841800000081
P2:通过BPE+算法自适应完成笔画组合构成中文子块
考虑到形似的部首可能因为个别笔画的长度差异导致截然不同的语义信息,在此基础上本发明提出了BPE+算法。BPE+可以根据特征输入预测笔画的长短。因此,模型具有分别不同长短的笔画组成的汉字信息的能力,例如区别‘土’和‘工’。训练集手工标注了180个部首,输出的笔画长度限制在3至7之间。在实施过程中采用了应用广泛的机器学习模型Xgboost。
Xgboost是一种提升树模型,他能够把许多树模型集成在一起,形成一个很强的分类器。该算法思想就是不断地添加树,不断地进行特征分裂来生长一棵树,每次添加一个树,其实是学习一个新函数,去拟合上次预测的残差。当训练完成得到k棵树,要预测一个样本的分数,其实就是根据这个样本的特征,在每棵树中会落到对应的一个叶子节点,每个叶子节点就对应一个分数,最后只需要将每棵树对应的分数加起来就是该样本的预测值。
由于Xgboost泛化能力比较强,即使在默认参数下预测准确率比较高,因此在自回归的预测笔画长度时,唯一需要调节的超参数就是笔画的数量。C表示输入的文字数据集;ci表示由一系列笔画
Figure GDA0002640841800000082
组成的文字。文字ci的频率被表示成fi;ll指待预测的笔画长度.n表示字块的个数;H表示被标注的部首数据集;hi即第i个部首.BPE+的算法流程如下所示:
Figure GDA0002640841800000091
P3:形态学提取层(形态学提取):通过Attention机制与CNN提取中文汉字形态学信息
形态学提取是由自注意力机制和字块级别的CNN组成。自注意力机制计算了一系列输入的字块中,任意两个字块的相关程度。本发明中的模型使用了多头注意力机制,以此探测更为丰富的字块内部联系详细的计算过程如下所示:
Figure GDA0002640841800000092
Figure GDA0002640841800000093
Figure GDA0002640841800000094
Figure GDA0002640841800000095
MultiHead(Q,K,V)=Concat(h1,...,hn)Wo (5)
headi=Attention(QWi Q,KWi K,VWi V) (6)
注意力机制层Attention的输入包括输入序列(Q)和键值对(K-V);根据多头自注意力机制MultiHead的定义,Q,K,V是同源;P表示经过模型学习得到的位置嵌入矩阵,E表示输入的词向量矩阵,dk表示K的维度,WO,WQ,WV,WK指不同的映射矩阵,Wi指对不同头的映射,T表示矩阵的转置;hi、headi表示不同头的注意力;Relu、softmax表示激活函数;concat指对矩阵进行拼接。
经过自注意力机制抽取的字块关系可以可视化的展现为图2,颜色的深浅表示联系程度的强弱。自注意力机制可以习得多个子空间内表示的字块联系。
经过自注意机制对上下文字块的关联表示,CNN紧接着用来融合临近字块的词嵌入信息。最后,为了降低接下来模型的计算复杂度,经过卷积CNN的字嵌入信息通过随着时间的最大池层来抽取出最重要的字块特征。
P4:细粒度信息强化层(RFI):通过Highwaynetwork完成细粒度信息增强
作为形态学提取层和语义信息提取层之间的过渡,本模型采用了高速神经网络;该网络结构可以映射重要的特征到有差异有区别度的子空间中;把CNN的输出计作y,⊙表示两个矩阵的点积;和LSTM的结构类似,t表示传送门,(1-t)表示遗忘门;g,σ表示激活函数;W表示映射矩阵;b表示偏置。单层的高速神经网络的计算过程如下:
z=t⊙g(WHy+bH)+(1-t)⊙y (7)
t=σ(WTy+bT) (8)
P5:语义信息提取层(语义信息提取):通过双层双向LSTM完成汉字语义信息提取,包含N个字符的输入,前向语言模型计算了给定[t1,t2,t3,...,tk-1]时,输出第k个字符为tk的概率。后向语言模型与前向语言模型类似,区别在于它的输入是后序语言序列(tk+1,tk+2,...,tN),预测第k个字符为tktk的概率,ΘLSTM表示前向或后向LSTM。通过前面两层得到的字块级别的字嵌入信息输入到基于LSTM结构的双向语言模型中。LSTM能都获取长范围的时序依赖关系,经过许多验证,LSTM比传统的RNN效果表现的都优越。双向的语义信息捕捉过程如下:
Figure GDA0002640841800000111
最终,得到LSTM的隐藏状态单元的输出以后,本模型添加了全联接层和softmax来获得待预测词的概率分布。根据最大似然估计的理论,训练过程的迭代的目标是最小化负对数损失函数(NLL):
Figure GDA0002640841800000112
为了评估模型的有效性,比较了下面几种中文广泛使用的词向量,实验证明了的本发明的结果是state-of-the-art的,在的QA机器阅读理解任务上的模型甚至超越了BERT-chinese。
Word2vec:是一种有效且高效的学习单词嵌入的神经模型,包括两种方法,即skip-gram和cbow。它们都将被视为的基线模型。
Glove:是一种word-baseembeddinglearningmodel他通过共现矩阵来对先验知识进行建模从而学习语义信息,与word2vec相同glove适用于任何语言CWE:是一个基于角色的模型,旨在学习中文单词嵌入,通过联合学习字符和单词嵌入来利用字符级信息。
GWE:(SuandLee2017)利用像素级信息,利用卷积自动编码器从字体图像中利用字符特征。
JWE:(XinandSong2017)将汉语单词拆分为字符的组成部分,作为部首超集
这是第一次尝试利用subunitlearningembedding,但这个模型对subpiece的学习本质上依旧是定长的,同时JWE并没在汉字的结构信息上进行探索
cw2vec:设计一种通过使用n-gram来利用笔画特征的极简主义方法。对上面的单词嵌入使用相同的维度(300)大小,通过与模型在四个任务上的模型表现,证明了本方法在中文语义信息提取上的优越性,这四个任务分别是:
1.词语相似度:单词相似性任务旨在评估单词嵌入对于语义相似单词的表示能力。作为标准度量,采用Spearman等级相关系数来比较wordsim240和wordsim296中的字嵌入质量。
2.词语推断:在类比任务这个词中,完成了句子“aistobascasto_”。一个例子是“水果比蔬菜,正如苹果比白菜”。公平起见,评估完全相同的测试数据集。通过函数3CosMul和3CosAdd计算相似单词的预测。
3.文分分类:可以在句子级别测试嵌入一词。为了公平起见,采用相同的实验条件作为基于复旦语料库的Xu的方法。在每个类别中,80%的文档用作训练集,而其余文档用作评估性能的测试集。最终的分类是用LIBLINEAR完成的。
4.文本问答:此任务提出了对字嵌入的更高要求。诸如Dureader,Sogou和CMRC之类的多个数据集被合成为用于问答的一般语料库,其中排除了是-否类型问题。验证和评估的数据集的数量分别为116106,19348和19377。将F1作为量化指标。生成的字嵌入的性能在QANet中得到验证。进一步与Bert-Chineses进行比较。
如下表所示,本发明所提出的词嵌入模型AWE在6个指标中有4个指标都超过其他的方法。具体信息参加下表3。
表3
(S1-WORDSIM240,S2-WORDSIM296,A1-WORDANALOGY3COSADD,A22-WORDANALOGY3COSMUL,TC-TEXTCLASSIFICATION,QA-QUESTIONANSWERING)
Figure GDA0002640841800000131
以敦煌一词为例本发明利用BPE算法将该词表示为如图表示的组合,利用形态学信息提取层、细粒度信息增强层与语义信息提取层为基本组件构建了端对端的深度神经语言模型。
以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims (4)

1.一种中文词向量建模方法,其特征在于,包括:利用BPE算法对中文笔画进行自适应的组合,构造汉字字块并利用注意力机制完成汉字内部结构的组合与表示;通过CNN结构对已完成的汉字表示进行信息提取利用Highway network进行细粒度信息增强;考虑到中文语法的复杂性在语义提取阶段构造了双向LSTM结构进行语义编码,构造了以汉字自适应组合层、形态学信息提取层、细粒度信息增强层与语义信息提取层为基本组件的端对端的深度神经语言模型;包括以下几个部分:
P1:爬取数据与偏旁部首笔画拆分;
P2:通过BPE+算法自适应完成笔画组合构成中文字块;
考虑到形似的部首可能因为个别笔画的长度差异导致截然不同的语义信息,在此基础上提出了BPE+算法;BPE+根据特征输入预测笔画的长短;因此,模型具有分别不同长短的笔画组成的汉字信息的能力;训练集手工标注了180个部首,输出的笔画长度限制在3至7之间;在实施过程中采用了应用广泛的机器学习模型Xgboost;
Xgboost是一种提升树模型,他能够把许多树模型集成在一起,形成一个很强的分类器;该算法思想就是不断地添加树,不断地进行特征分裂来生长一棵树,每次添加一个树,其实是学习一个新函数,去拟合上次预测的残差;当训练完成得到k棵树,要预测一个样本的分数,其实就是根据这个样本的特征,在每棵树中会落到对应的一个叶子节点,每个叶子节点就对应一个分数,最后只需要将每棵树对应的分数加起来就是该样本的预测值;
Xgboost在自回归的预测笔画长度时,需要调节的超参数是笔画的数量;C表示输入的文字数据集;ci表示由一系列笔画
Figure FDA0002642116700000011
组成的文字;文字ci的频率被表示成fi;l指待预测的笔画长度;n表示字块的个数;H表示被标注的部首数据集;hi即第i个部首;BPE+的算法流程如下所示:
算法输入是文字数据集C=[c1,c2,…,cn],ci=(wi,fi),H=[h1,h2,…,hn],hi=(si,li),n;
算法输出是:更新后的文字数据集C;
其中步骤1:基于Xgboost训练笔画长度识别分类器;步骤2:进入循环主体直到生成n个字块停止循环;步骤3:遍历文字数据集C中的每一个文字ci
步骤4:基于文字ci在语料中的频率记录所有二元组出现的频率;步骤5:出现频次最高的二元组记为当前轮次选中的字块wfre;步骤6:根据包括该字块的最频繁出现的字的所有笔画,预测字块wfre的笔画长度;步骤7:利用生成的字块wfre更新文字数据集;步骤8:遍历完一次文字数据集跳出当前循环;步骤9:判断是否达到主体循环中止条件,达到则终止;
其中,步骤2-9为主体循环,终止条件为直到生成n个字块;步骤3-8为内部循环,用以生成当前轮次的输出字块;
P3:形态学提取层:通过Attention机制与CNN提取中文汉字形态学信息;
形态学提取层是由自注意力机制和字块级别的CNN组成;自注意力机制计算了一系列输入的字块中,任意两个字块的相关程度;模型使用了多头注意力机制,以此探测更为丰富的字块内部联系,详细的计算过程如下所示:
Figure FDA0002642116700000021
Figure FDA0002642116700000022
Figure FDA0002642116700000023
Figure FDA0002642116700000024
MultiHead(Q,K,V)=Concat(h1,...,hn)WO (5)
Figure FDA0002642116700000031
注意力机制层Attention的输入包括输入序列Q和键值对K-V;根据多头自注意力机制MultiHead的定义,Q,K,V是同源;P表示经过模型学习得到的位置嵌入矩阵,E表示输入的词向量矩阵,dk表示K的维度,WO,WQ,WV,WK指不同的映射矩阵,Wi指对不同头的映射,T表示矩阵的转置;headi表示不同头的注意力;Relu、softmax表示激活函数;concat指对矩阵进行拼接;
经过自注意机制对上下文字块的关联表示,CNN紧接着用来融合临近字块的词嵌入信息;最后,为了降低接下来模型的计算复杂度,经过卷积CNN的字嵌入信息通过随着时间的最大池化层来抽取出最重要的字块特征;
P4:细粒度信息强化层:通过Highway network完成细粒度信息增强;
作为形态学提取层和语义信息提取层之间的过渡,本模型采用了Highway network;该网络结构映射重要的特征到有差异有区别度的子空间中;把CNN的输出计作y,⊙表示两个矩阵的点积;和LSTM的结构类似,t表示传送门,(1-t)表示遗忘门;g,σ表示激活函数;W表示映射矩阵;b表示偏置;单层的Highway network的计算过程如下:
z=t⊙g(WHy+bH)+(1-t)⊙y (7)
t=σ(WTy+bT) (8)
P5:语义信息提取层:通过双层双向LSTM完成汉字语义信息提取;
输入包含N个字符,前向语言模型计算了给定[t1,t2,t3,...,tk-1]时,输出第k个字符为tk的概率;后向语言模型与前向语言模型类似,区别在于它的输入是后序语言序列(tk+1,tk+2,...,tN),预测第k个字符为tk的概率;ΘLSTM表示前向或后向LSTM,
Figure FDA0002642116700000032
表示前向LSTM,
Figure FDA0002642116700000033
表示后向LSTM,其中,通过前面两层得到的字块级别的字嵌入信息输入到基于LSTM结构的双向语言模型中;LSTM能都获取长范围的时序依赖关系,经过许多验证,LSTM比传统的RNN效果表现的都优越;双向的语义信息捕捉过程如下:
Figure FDA0002642116700000041
最终,得到LSTM的隐藏状态单元的输出以后,本模型添加了全联接层和softmax来获得待预测词的概率分布;根据最大似然估计的理论,训练过程的迭代的目标是最小化负对数损失函数:
Figure FDA0002642116700000042
2.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1所述方法的步骤。
3.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1所述方法的步骤。
4.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1所述的方法。
CN201910266000.9A 2019-04-03 2019-04-03 中文词向量建模方法 Active CN109992783B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910266000.9A CN109992783B (zh) 2019-04-03 2019-04-03 中文词向量建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910266000.9A CN109992783B (zh) 2019-04-03 2019-04-03 中文词向量建模方法

Publications (2)

Publication Number Publication Date
CN109992783A CN109992783A (zh) 2019-07-09
CN109992783B true CN109992783B (zh) 2020-10-30

Family

ID=67132202

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910266000.9A Active CN109992783B (zh) 2019-04-03 2019-04-03 中文词向量建模方法

Country Status (1)

Country Link
CN (1) CN109992783B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377914B (zh) * 2019-07-25 2023-01-06 腾讯科技(深圳)有限公司 字符识别方法、装置及存储介质
CN110610006B (zh) * 2019-09-18 2023-06-20 中国科学技术大学 基于笔画和字形的形态学双通道中文词嵌入方法
CN110705315B (zh) * 2019-10-09 2022-12-30 宁波深擎信息科技有限公司 一种基于通道和空间维度的词向量训练方法
CN110728153A (zh) * 2019-10-15 2020-01-24 天津理工大学 基于模型融合的多类别情感分类方法
CN112784531B (zh) * 2019-11-05 2024-02-27 北京大学 一种基于深度学习和部件拼接的中文字形及字库生成方法
CN110852102B (zh) * 2019-11-14 2023-09-05 北京香侬慧语科技有限责任公司 一种中文的词性标注方法、装置、存储介质及电子设备
CN111027595B (zh) * 2019-11-19 2022-05-03 电子科技大学 双阶段语义词向量生成方法
CN111160020B (zh) * 2019-11-26 2023-05-12 华东师范大学 一种具有多种子模块信息的中文词向量生成方法
CN111079377B (zh) * 2019-12-03 2022-12-13 哈尔滨工程大学 一种面向中文医疗文本命名实体识别的方法
CN111027562B (zh) * 2019-12-06 2023-07-18 中电健康云科技有限公司 基于多尺度cnn和结合注意力机制的rnn的光学字符识别方法
CN111222338A (zh) * 2020-01-08 2020-06-02 大连理工大学 基于预训练模型和自注意力机制的生物医学关系抽取方法
CN111460820B (zh) * 2020-03-06 2022-06-17 中国科学院信息工程研究所 一种基于预训练模型bert的网络空间安全领域命名实体识别方法和装置
CN111832301A (zh) * 2020-07-28 2020-10-27 电子科技大学 一种基于自适应部件n元组的中文词向量生成方法
CN112070139B (zh) * 2020-08-31 2023-12-26 三峡大学 基于bert与改进lstm的文本分类方法
CN112131864A (zh) * 2020-09-10 2020-12-25 上海交通大学 一种基于自注意机制的中文词向量训练方法
CN112162734B (zh) * 2020-10-23 2022-03-08 福州大学 一种面向深度学习的模型生成方法
CN113220865B (zh) * 2021-04-15 2022-06-24 山东师范大学 一种文本相似词汇检索方法、系统、介质及电子设备
CN116684631B (zh) * 2023-08-02 2023-09-29 北京点聚信息技术有限公司 一种针对公文的图像压缩方法
CN117195877B (zh) * 2023-11-06 2024-01-30 中南大学 一种电子病历的词向量生成方法、系统、设备及存储介质
CN117648681B (zh) * 2024-01-30 2024-04-05 北京点聚信息技术有限公司 一种ofd版式电子文档隐藏信息提取嵌入方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10217030B2 (en) * 2017-06-14 2019-02-26 International Business Machines Corporation Hieroglyphic feature-based data processing
CN107832458B (zh) * 2017-11-27 2021-08-10 中山大学 一种字符级的基于嵌套深度网络的文本分类方法
CN107977361B (zh) * 2017-12-06 2021-05-18 哈尔滨工业大学深圳研究生院 基于深度语义信息表示的中文临床医疗实体识别方法
CN109299262B (zh) * 2018-10-09 2022-04-15 中山大学 一种融合多粒度信息的文本蕴含关系识别方法

Also Published As

Publication number Publication date
CN109992783A (zh) 2019-07-09

Similar Documents

Publication Publication Date Title
CN109992783B (zh) 中文词向量建模方法
CN111368996B (zh) 可传递自然语言表示的重新训练投影网络
CN109840287B (zh) 一种基于神经网络的跨模态信息检索方法和装置
CN107992597B (zh) 一种面向电网故障案例的文本结构化方法
WO2022227207A1 (zh) 文本分类方法、装置、计算机设备和存储介质
Chen et al. Research on text sentiment analysis based on CNNs and SVM
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN108830287A (zh) 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN111291556B (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN107025284A (zh) 网络评论文本情感倾向的识别方法及卷积神经网络模型
CN112395393B (zh) 一种基于多任务多示例的远程监督关系抽取方法
CN109214006A (zh) 图像增强的层次化语义表示的自然语言推理方法
CN111046179A (zh) 一种面向特定领域开放网络问句的文本分类方法
CN111414481A (zh) 基于拼音和bert嵌入的中文语义匹配方法
CN112989033B (zh) 基于情绪类别描述的微博情绪分类方法
CN113392209A (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
Grzegorczyk Vector representations of text data in deep learning
Zhang et al. Quantifying the knowledge in a DNN to explain knowledge distillation for classification
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
Chen et al. Deep neural networks for multi-class sentiment classification
CN112818118A (zh) 基于反向翻译的中文幽默分类模型
CN116383387A (zh) 一种基于事理逻辑的联合事件抽取方法
CN106021402A (zh) 用于跨模态检索的多模态多类Boosting框架构建方法及装置
CN114510946A (zh) 基于深度神经网络的中文命名实体识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant