CN109992783B

CN109992783B - 中文词向量建模方法

Info

Publication number: CN109992783B
Application number: CN201910266000.9A
Authority: CN
Inventors: 徐斌辰; 康琦; 马璐
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2019-04-03
Filing date: 2019-04-03
Publication date: 2020-10-30
Anticipated expiration: 2039-04-03
Also published as: CN109992783A

Abstract

本发明公开了一种中文词向量建模方法。本发明一种中文词向量建模方法，包括：利用BPE算法对中文笔画进行自适应的组合，构造汉字子块并利用注意力机制完成汉字内部结构的组合与表示；通过CNN结构对已完成的汉字表示进行信息提取利用Highway network进行细粒度信息增强；考虑到中文语法的复杂性在语义提取阶段构造了双向LSTM结构进行语义编码，构造了以汉字自适应组合层、形态学信息提取层、细粒度信息增强层与语义信息提取层为基本组件的端对端的深度神经语言模型。本发明的有益效果：本发明创造性的构造了不同于n‑gram的输入形式，将中文笔画与偏旁部首进行自适应的融合构成汉字子块。

Description

中文词向量建模方法

技术领域

本发明涉及自然语言处理领域，具体涉及一种中文词向量建模方法。

背景技术

词向量已经成为任何基于深度学习自然语言处理系统的重要组成部分。自然语言处理系统在固定长度的密集向量中编码单词和语句，从而通过神经网络极大地改进文本数据的处理。近年来人们提出了大量的词嵌入的方法。最常用的模型是Word2VEC和GloVe，它们都是基于分布假设的无监督方法且在各种语言下均可使用。考虑到中文汉字形态学的复杂性越来越多学者开始研究中文词向量的建模方式。香港理工大学学者最早提出利用汉字部首信息作为CBOW,Skip-Gram的组件训练词向量；中科大相关学者提出利用外部语言来获取语义信息，计算词与单字之间的相似度来表示其贡献的不同以改进词向量的训练；随着计算机视觉的发展台湾大学的学者提出基于CNN图像卷积的词向量表示方式提高了字符嵌入的表示能力。近来有中外学者也开始研究词向量对一词多义的表示能力。

传统技术存在以下技术问题：

现有中文词向量建模方法都只是简单引入部首笔画等信息同时无法对未登录词进行合理的表示。词向量表示对于许多自然语言处理任务至关重要。大多数现有方法通过为每个单词分配不同的向量来学习上下文信息，并且对形态学的关注较少，并且对未登录词的处理存在问题。未登录词对自然语言处理任务有巨大的影响，优秀的未登录词的处理方式对自然语言处理下游任务有巨大的提升。

发明内容

本发明要解决的技术问题是提供一种中文词向量建模方法，本发明创造性的构造了不同于n-gram的输入形式，将中文笔画与偏旁部首进行自适应的融合构成汉字子块，成功的解决了未登录词与网络流行词的表示；同时本发明探索了中文汉字笔画的相对长短信息，更好地完成了中文词向量的表示。本发明主要从词向量训练的角度解决未登录词问题，拆解单字为已收入用户词典的笔画，从而对所有汉字进行表征。

为了解决上述技术问题，本发明提供了一种中文词向量建模方法，包括：利用BPE算法对中文笔画进行自适应的组合，构造汉字子块并利用注意力机制完成汉字内部结构的组合与表示；通过CNN结构对已完成的汉字表示进行信息提取利用Highwaynetwork进行细粒度信息增强；考虑到中文语法的复杂性在语义提取阶段构造了双向LSTM结构进行语义编码，构造了以汉字自适应组合层、形态学信息提取层、细粒度信息增强层与语义信息提取层为基本构建的端对端的深度神经语言模型；包括以下几个部分：

P1:爬取数据与偏旁部首笔画拆分

首先，符号词汇表初始化为下表1所包含的32个基本笔画或者部首；每个汉字表示成一系列部首和笔画的下标；通过迭代的计数每个笔画，部首，以及部首组合出现的次数，算法把最长出现的笔画组合对替换成一个新的字符，例如把(“一”,“丨”)替换为(“十”)；新产生的字符如下列表2所示；表格中笔画的上标表示笔画的长短，“丨¹”代表长度较短的竖，“丨²”则代表长竖；

P2:通过BPE+算法自适应完成笔画组合构成中文子块

考虑到形似的部首可能因为个别笔画的长度差异导致截然不同的语义信息，在此基础上本发明提出了BPE+算法；BPE+可以根据特征输入预测笔画的长短；因此，模型具有分别不同长短的笔画组成的汉字信息的能力，例如区别‘土’和‘工’；训练集手工标注了180个部首，输出的笔画长度限制在3至7之间；在实施过程中采用了应用广泛的机器学习模型Xgboost；

Xgboost是一种提升树模型，他能够把许多树模型集成在一起，形成一个很强的分类器；该算法思想就是不断地添加树，不断地进行特征分裂来生长一棵树，每次添加一个树，其实是学习一个新函数，去拟合上次预测的残差；当训练完成得到k棵树，要预测一个样本的分数，其实就是根据这个样本的特征，在每棵树中会落到对应的一个叶子节点，每个叶子节点就对应一个分数，最后只需要将每棵树对应的分数加起来就是该样本的预测值；

由于Xgboost泛化能力比较强，即使在默认参数下预测准确率比较高，因此在自回归的预测笔画长度时，唯一需要调节的超参数就是笔画的数量；C表示输入的文字数据集；c_i表示由一系列笔画

组成的文字；文字c_i的频率被表示为f_i.l指待预测的笔画长度.n表示字块的个数；H表示被标注的部首数据集；h_i即第i个部首.BPE+的算法流程如下所示：

P3:形态学提取层(形态学提取)：通过Attention机制与CNN提取中文汉字形态学信息

形态学提取是由自注意力机制和字块级别的CNN组成；自注意力机制计算了一系列输入的字块中，任意两个字块的相关程度；本发明中的模型使用了多头注意力机制，以此探测更为丰富的字块内部联系，详细的计算过程如下所示：

MultiHead(Q，K，V)＝Concat(h₁，...，h_n)W^o (5)

head_i＝Attention(QW_i ^Q，KW_i ^K，VW_i ^V) (6)

注意力机制层Attention的输入包括输入序列(Q)和键值对(K-V)；根据多头自注意力机制MultiHead的定义，Q，K，V是同源；P表示经过模型学习得到的位置嵌入矩阵，E表示输入的词向量矩阵，d_k表示K的维度，W⁰，W^Q，W^V，W^K指不同的映射矩阵，W_i指对不同头的映射，T表示矩阵的转置；h_i、head_i表示不同头的注意力；Relu、softmax表示激活函数；concat指对矩阵进行拼接。

经过自注意机制对上下文字块的关联表示，CNN紧接着用来融合临近字块的词嵌入信息；最后，为了降低接下来模型的计算复杂度，经过卷积CNN的字嵌入信息通过随着时间的最大池层来抽取出最重要的字块特征；

P4：细粒度信息强化层(RFI)：通过Highwaynetwork完成细粒度信息增强

作为形态学提取层和语义信息提取层之间的过渡，本模型采用了高速神经网络；该网络结构可以映射重要的特征到有差异有区别度的子空间中；把CNN的输出计作y，⊙表示两个矩阵的点积；和LSTM的结构类似，t表示传送门，(1-t)表示遗忘门；g，σ表示激活函数；W表示映射矩阵；b表示偏置。单层的高速神经网络的计算过程如下：

z＝t⊙g(W_Hy+b_H)+(1-t)⊙y (7)

t＝σ(W_Ty+b_T) (8)

P5：语义信息提取层(语义信息提取)：通过双层双向LSTM完成汉字语义信息提取[t₁，t₂，t₃，...，t_N]包含N个字符的输入，前向语言模型计算了给定[t₁，t₂，t₃，...，t_k-1]时，输出第k个字符为t_k的概率；后向语言模型与前向语言模型类似，区别在于它的输入是后序语言序列(t_k+1，t_k+2，...，t_N)，预测第k个字符为t_k的概率，其中Θ_LSTM表示前向或后向LSTM，通过前面两层得到的字块级别的字嵌入信息输入到基于LSTM结构的双向语言模型中；LSTM能都获取长范围的时序依赖关系，经过许多验证，LSTM比传统的RNN效果表现的都优越；双向的语义信息捕捉过程如下：

最终，得到LSTM的隐藏状态单元的输出以后，本模型添加了全联接层和softmax来获得待预测词的概率分布；根据最大似然估计的理论，优化目标是使得p(x)＝p(x₁)(1-p(x₂))p(x₃)…最大化(这里x₁和x₃是正例，x₂是负例，由于目标函数是求正例的概率，所以1-p(x)是负例的概率)训练过程的迭代的目标是最小化负对数损失函数(NLL):

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一项所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一项所述方法的步骤。

一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行任一项所述的方法。

本发明的有益效果：

本发明创造性的构造了不同于n-gram的输入形式，将中文笔画与偏旁部首进行自适应的融合构成汉字子块，成功的解决了未登录词与网络流行词的表示；同时本发明探索了中文汉字笔画的相对长短信息，更好地完成了中文词向量的表示。本发明主要从词向量训练的角度解决未登录词问题，拆解单字为已收入用户词典的笔画，从而对所有汉字进行表征。

附图说明

图1是现有中文词向量建模方法的模型示意图。

图2是本发明中文词向量建模方法中的经过自注意力机制抽取的字块关系可以可视化的展现示意图。

图3是本发明中文词向量建模方法的模型示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

现有中文词向量建模方法都只是简单引入部首笔画等信息，考虑到中文汉字形态学的复杂性与多样性简单的n-gram模型并不能很好的完成语义表征，本发明提出了一种中文汉字的变长表示方法并利用注意力机制地探索了汉字笔画组合的内部关系与更高自由度的空间联系，并设计了精妙的模型强化了形态学细粒度的信息并与语义信息相融合强化了词向量的表征能力。本发明具体包括1.建立了一种称为BPE+的新方法，以自适应地生成可变长度的笔画表示，从而打破了笔画n-gram的限制。2.设计了一种更为精细的提取中文语料语意信息的网络结构，包括形态学信息提取层(形态学提取)，细粒度信息强化层(RFI),以及信息融合提取层(语义信息提取)。

本发明利用BPE算法对中文笔画进行自适应的组合，构造汉字字块并利用注意力机制完成汉字内部结构的组合与表示；通过CNN结构对已完成的汉字表示进行信息提取利用Highwaynetwork进行细粒度信息增强；考虑到中文语法的复杂性在语义提取阶段构造了双向LSTM结构进行语义编码，构造了以汉字自适应组合层、形态学信息提取层、细粒度信息增强层与语义信息提取层为基本构建的端对端的深度神经语言模型。包括以下几个部分：

P1:爬取数据与偏旁部首笔画拆分

首先，符号词汇表初始化为下表1所包含的32个基本笔画或者部首。每个汉字表示成一系列部首和笔画的下标。通过迭代的计数每个笔画，部首，以及部首组合出现的次数，算法把最长出现的笔画组合对替换成一个新的字符，例如把(“一”,“丨”)替换为(“十”)。新产生的字符如下列表2所示。表格中笔画的上标表示笔画的长短，“丨¹”代表长度较短的竖，“丨²”则代表长竖。

表1

表2

P2:通过BPE+算法自适应完成笔画组合构成中文子块

考虑到形似的部首可能因为个别笔画的长度差异导致截然不同的语义信息，在此基础上本发明提出了BPE+算法。BPE+可以根据特征输入预测笔画的长短。因此，模型具有分别不同长短的笔画组成的汉字信息的能力，例如区别‘土’和‘工’。训练集手工标注了180个部首，输出的笔画长度限制在3至7之间。在实施过程中采用了应用广泛的机器学习模型Xgboost。

Xgboost是一种提升树模型，他能够把许多树模型集成在一起，形成一个很强的分类器。该算法思想就是不断地添加树，不断地进行特征分裂来生长一棵树，每次添加一个树，其实是学习一个新函数，去拟合上次预测的残差。当训练完成得到k棵树，要预测一个样本的分数，其实就是根据这个样本的特征，在每棵树中会落到对应的一个叶子节点，每个叶子节点就对应一个分数，最后只需要将每棵树对应的分数加起来就是该样本的预测值。

由于Xgboost泛化能力比较强，即使在默认参数下预测准确率比较高，因此在自回归的预测笔画长度时，唯一需要调节的超参数就是笔画的数量。C表示输入的文字数据集；c_i表示由一系列笔画

组成的文字。文字c_i的频率被表示成f_i；ll指待预测的笔画长度.n表示字块的个数；H表示被标注的部首数据集；h_i即第i个部首.BPE+的算法流程如下所示：

P3：形态学提取层(形态学提取)：通过Attention机制与CNN提取中文汉字形态学信息

形态学提取是由自注意力机制和字块级别的CNN组成。自注意力机制计算了一系列输入的字块中，任意两个字块的相关程度。本发明中的模型使用了多头注意力机制，以此探测更为丰富的字块内部联系详细的计算过程如下所示：

MultiHead(Q，K，V)＝Concat(h₁，...，h_n)W^o (5)

head_i＝Attention(QW_i ^Q，KW_i ^K，VW_i ^V) (6)

注意力机制层Attention的输入包括输入序列(Q)和键值对(K-V)；根据多头自注意力机制MultiHead的定义，Q,K,V是同源；P表示经过模型学习得到的位置嵌入矩阵，E表示输入的词向量矩阵，d_k表示K的维度，W^O,W^Q,W^V,W^K指不同的映射矩阵，W_i指对不同头的映射，T表示矩阵的转置；h_i、head_i表示不同头的注意力；Relu、softmax表示激活函数；concat指对矩阵进行拼接。

经过自注意力机制抽取的字块关系可以可视化的展现为图2，颜色的深浅表示联系程度的强弱。自注意力机制可以习得多个子空间内表示的字块联系。

经过自注意机制对上下文字块的关联表示，CNN紧接着用来融合临近字块的词嵌入信息。最后，为了降低接下来模型的计算复杂度，经过卷积CNN的字嵌入信息通过随着时间的最大池层来抽取出最重要的字块特征。

作为形态学提取层和语义信息提取层之间的过渡，本模型采用了高速神经网络；该网络结构可以映射重要的特征到有差异有区别度的子空间中；把CNN的输出计作y，⊙表示两个矩阵的点积；和LSTM的结构类似，t表示传送门，(1-t)表示遗忘门；g,σ表示激活函数；W表示映射矩阵；b表示偏置。单层的高速神经网络的计算过程如下：

z＝t⊙g(W_Hy+b_H)+(1-t)⊙y (7)

t＝σ(W_Ty+b_T) (8)

P5:语义信息提取层(语义信息提取)：通过双层双向LSTM完成汉字语义信息提取，包含N个字符的输入，前向语言模型计算了给定[t₁，t₂，t₃，...，t_k-1]时，输出第k个字符为t_k的概率。后向语言模型与前向语言模型类似，区别在于它的输入是后序语言序列(t_k+1，t_k+2，...，t_N)，预测第k个字符为t_kt_k的概率，Θ_LSTM表示前向或后向LSTM。通过前面两层得到的字块级别的字嵌入信息输入到基于LSTM结构的双向语言模型中。LSTM能都获取长范围的时序依赖关系，经过许多验证，LSTM比传统的RNN效果表现的都优越。双向的语义信息捕捉过程如下：

最终，得到LSTM的隐藏状态单元的输出以后，本模型添加了全联接层和softmax来获得待预测词的概率分布。根据最大似然估计的理论，训练过程的迭代的目标是最小化负对数损失函数(NLL):

为了评估模型的有效性，比较了下面几种中文广泛使用的词向量，实验证明了的本发明的结果是state-of-the-art的，在的QA机器阅读理解任务上的模型甚至超越了BERT-chinese。

Word2vec:是一种有效且高效的学习单词嵌入的神经模型，包括两种方法，即skip-gram和cbow。它们都将被视为的基线模型。

Glove:是一种word-baseembeddinglearningmodel他通过共现矩阵来对先验知识进行建模从而学习语义信息，与word2vec相同glove适用于任何语言CWE:是一个基于角色的模型，旨在学习中文单词嵌入，通过联合学习字符和单词嵌入来利用字符级信息。

GWE:(SuandLee2017)利用像素级信息，利用卷积自动编码器从字体图像中利用字符特征。

JWE：(XinandSong2017)将汉语单词拆分为字符的组成部分，作为部首超集

这是第一次尝试利用subunitlearningembedding，但这个模型对subpiece的学习本质上依旧是定长的，同时JWE并没在汉字的结构信息上进行探索

cw2vec：设计一种通过使用n-gram来利用笔画特征的极简主义方法。对上面的单词嵌入使用相同的维度(300)大小，通过与模型在四个任务上的模型表现，证明了本方法在中文语义信息提取上的优越性，这四个任务分别是：

1.词语相似度：单词相似性任务旨在评估单词嵌入对于语义相似单词的表示能力。作为标准度量，采用Spearman等级相关系数来比较wordsim240和wordsim296中的字嵌入质量。

2.词语推断：在类比任务这个词中，完成了句子“aistobascasto_”。一个例子是“水果比蔬菜，正如苹果比白菜”。公平起见，评估完全相同的测试数据集。通过函数3CosMul和3CosAdd计算相似单词的预测。

3.文分分类：可以在句子级别测试嵌入一词。为了公平起见，采用相同的实验条件作为基于复旦语料库的Xu的方法。在每个类别中，80％的文档用作训练集，而其余文档用作评估性能的测试集。最终的分类是用LIBLINEAR完成的。

4.文本问答：此任务提出了对字嵌入的更高要求。诸如Dureader，Sogou和CMRC之类的多个数据集被合成为用于问答的一般语料库，其中排除了是-否类型问题。验证和评估的数据集的数量分别为116106,19348和19377。将F1作为量化指标。生成的字嵌入的性能在QANet中得到验证。进一步与Bert-Chineses进行比较。

如下表所示，本发明所提出的词嵌入模型AWE在6个指标中有4个指标都超过其他的方法。具体信息参加下表3。

表3

(S1-W_ORDSIM240，S2-W_ORDSIM296，A1-W_ORDA_NALOGY3_COSADD，A22-W_ORDA_NALOGY3_COSMUL，TC-T_EXTC_{LASSIFICATION}，QA-Q_UESTIONA_NSWERING)

以敦煌一词为例本发明利用BPE算法将该词表示为如图表示的组合，利用形态学信息提取层、细粒度信息增强层与语义信息提取层为基本组件构建了端对端的深度神经语言模型。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种中文词向量建模方法，其特征在于，包括：利用BPE算法对中文笔画进行自适应的组合，构造汉字字块并利用注意力机制完成汉字内部结构的组合与表示；通过CNN结构对已完成的汉字表示进行信息提取利用Highway network进行细粒度信息增强；考虑到中文语法的复杂性在语义提取阶段构造了双向LSTM结构进行语义编码，构造了以汉字自适应组合层、形态学信息提取层、细粒度信息增强层与语义信息提取层为基本组件的端对端的深度神经语言模型；包括以下几个部分：

P1:爬取数据与偏旁部首笔画拆分；

P2:通过BPE+算法自适应完成笔画组合构成中文字块；

考虑到形似的部首可能因为个别笔画的长度差异导致截然不同的语义信息，在此基础上提出了BPE+算法；BPE+根据特征输入预测笔画的长短；因此，模型具有分别不同长短的笔画组成的汉字信息的能力；训练集手工标注了180个部首，输出的笔画长度限制在3至7之间；在实施过程中采用了应用广泛的机器学习模型Xgboost；

Xgboost在自回归的预测笔画长度时，需要调节的超参数是笔画的数量；C表示输入的文字数据集；c_i表示由一系列笔画

组成的文字；文字c_i的频率被表示成f_i；l指待预测的笔画长度；n表示字块的个数；H表示被标注的部首数据集；h_i即第i个部首；BPE+的算法流程如下所示：

算法输入是文字数据集C＝[c₁，c₂，…，c_n]，c_i＝(w_i，f_i)，H＝[h₁，h₂，…，h_n]，h_i＝(s_i，l_i)，n；

算法输出是：更新后的文字数据集C；

其中步骤1：基于Xgboost训练笔画长度识别分类器；步骤2：进入循环主体直到生成n个字块停止循环；步骤3：遍历文字数据集C中的每一个文字c_i；

步骤4：基于文字c_i在语料中的频率记录所有二元组出现的频率；步骤5：出现频次最高的二元组记为当前轮次选中的字块w_fre；步骤6：根据包括该字块的最频繁出现的字的所有笔画，预测字块w_fre的笔画长度；步骤7：利用生成的字块w_fre更新文字数据集；步骤8：遍历完一次文字数据集跳出当前循环；步骤9：判断是否达到主体循环中止条件，达到则终止；

其中，步骤2-9为主体循环，终止条件为直到生成n个字块；步骤3-8为内部循环，用以生成当前轮次的输出字块；

P3:形态学提取层：通过Attention机制与CNN提取中文汉字形态学信息；

形态学提取层是由自注意力机制和字块级别的CNN组成；自注意力机制计算了一系列输入的字块中，任意两个字块的相关程度；模型使用了多头注意力机制，以此探测更为丰富的字块内部联系，详细的计算过程如下所示：

MultiHead(Q，K，V)＝Concat(h₁，...，h_n)W^O (5)

注意力机制层Attention的输入包括输入序列Q和键值对K-V；根据多头自注意力机制MultiHead的定义，Q,K,V是同源；P表示经过模型学习得到的位置嵌入矩阵，E表示输入的词向量矩阵，d_k表示K的维度，W^O,W^Q,W^V,W^K指不同的映射矩阵，W_i指对不同头的映射，T表示矩阵的转置；head_i表示不同头的注意力；Relu、softmax表示激活函数；concat指对矩阵进行拼接；

经过自注意机制对上下文字块的关联表示，CNN紧接着用来融合临近字块的词嵌入信息；最后，为了降低接下来模型的计算复杂度，经过卷积CNN的字嵌入信息通过随着时间的最大池化层来抽取出最重要的字块特征；

P4：细粒度信息强化层：通过Highway network完成细粒度信息增强；

作为形态学提取层和语义信息提取层之间的过渡，本模型采用了Highway network；该网络结构映射重要的特征到有差异有区别度的子空间中；把CNN的输出计作y，⊙表示两个矩阵的点积；和LSTM的结构类似，t表示传送门，(1-t)表示遗忘门；g,σ表示激活函数；W表示映射矩阵；b表示偏置；单层的Highway network的计算过程如下：

z＝t⊙g(W_Hy+b_H)+(1-t)⊙y (7)

t＝σ(W_Ty+b_T) (8)

P5:语义信息提取层：通过双层双向LSTM完成汉字语义信息提取；

输入包含N个字符，前向语言模型计算了给定[t₁，t₂，t₃，...，t_k-1]时，输出第k个字符为t_k的概率；后向语言模型与前向语言模型类似，区别在于它的输入是后序语言序列(t_k+1，t_k+2，...，t_N)，预测第k个字符为t_k的概率；Θ_LSTM表示前向或后向LSTM，

表示前向LSTM,

表示后向LSTM，其中，通过前面两层得到的字块级别的字嵌入信息输入到基于LSTM结构的双向语言模型中；LSTM能都获取长范围的时序依赖关系，经过许多验证，LSTM比传统的RNN效果表现的都优越；双向的语义信息捕捉过程如下：

最终，得到LSTM的隐藏状态单元的输出以后，本模型添加了全联接层和softmax来获得待预测词的概率分布；根据最大似然估计的理论，训练过程的迭代的目标是最小化负对数损失函数:

2.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1所述方法的步骤。

3.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1所述方法的步骤。

4.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1所述的方法。