CN110427608B

CN110427608B - 一种引入分层形声特征的中文词向量表示学习方法

Info

Publication number: CN110427608B
Application number: CN201910549589.3A
Authority: CN
Inventors: 张寅�; 毛晨炀; 庄越挺
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-06-24
Filing date: 2019-06-24
Publication date: 2021-06-08
Anticipated expiration: 2039-06-24
Also published as: CN110427608A

Abstract

本发明公开了一种基于分层形声特征增强的中文词向量表示技术。采用分层形声特征增强的中文词向量表示方法，可以较大地提升中文词向量的效果。本发明包括如下步骤：1)首先运用爬虫工具抓取中文词语的相关形态和发音信息；2)通过对形态和发音信息的分层组合，构成形态特征和声音特征，构建词语的特征表示；3)通过注意力机制对输入部分的形声特征进行权重调节；4)采用解耦预测和混合预测联合的训练方式来训练词向量的表示。和现有技术相比，本发明结合了中文词语多层次的形态和发音信息，并采用解耦预测和混合预测联合的方式，系统地进行词向量的训练，形成独具一格的中文词向量表示技术，创造性地提升了中文词向量的效果。

Description

一种引入分层形声特征的中文词向量表示学习方法

技术领域

本发明涉及神经网络和深度学习方法在中文词向量上的应用，尤其涉及神经网络中选取中文词语特征信息、中文词向量训练的技术方法。

背景技术

词向量表示，又叫做词语的表示学习，是指将自然语言中的词语表示映射到向量空间中实数向量的过程，使得词语能够被计算机识别和使用。词向量表示是自然语言处理中非常重要的基础工作，词语作为文本数据中基础的语义单元，是短语、句子、段落和文档等更高级别文本表示的基石，因而许多自然语言处理的高层应用都依赖于词向量表示。词向量表示被应用在大量的自然语言处理任务中，并能够直接提升任务的最终效果，例如命名实体识别、语义检索、文本分类、机器翻译、标题生成、问答系统等。

发明内容

本发明的目的解决现有技术中存在的问题，并提供一种引入分层形声特征的中文词向量表示学习方法。

本发明具体采用的技术方案如下：

一种引入分层形声特征的中文词向量表示学习方法，其步骤如下：

1)获取中文词语形声特征的语料基础，所述的语料基础包括汉字简体、汉字繁体、词语拼音、汉字拼音、部首、笔画、五笔输入法、仓颉标识、Unicode、规范汉字编号；

2)对于给定的中文文本进行预处理，形成训练语料；然后针对训练语料构建模型输入，构建过程如下：

2.1)对训练语料从形态和发音两个维度，以及从词语、汉字和子字三个层级构建中文词语分层形声特征；在词级别上，用词语本身和词语拼音代表词语层级上的特征；在字级别上，用汉字的字形和汉字拼音代表汉字层级上的特征；在子字级别上，用汉字部件和汉字拼音的声母和韵母来代表子字层级上的特征；

2.2)抽取训练语料中的命名实体；若训练语料中的词语为命名实体，则将其分层形声特征中的汉字层级及子字层级上的特征去除，仅采用词语层级上的特征作为其分层形声特征；

2.3)通过注意力机制，计算词语与汉字、子词部分的相似度，从而改变单个汉字、子字特征对于整个词语的贡献；

2.4)模型的输入为中心词w_t和上下文{w_t-n，...w_t-1，w_t+1...，w_t+n}，对于中心词采用经过注意力机制后的词语层级、汉字层级和子字层级的特征作为输入，对于上下文仅采用经过注意力机制前的汉字层级和子字层级的特征作为输入；

3)采用解耦预测和混合预测结合的方式进行模型训练，得到中文词向量的表示。

基于上述技术方案，各步骤可采用如下具体方式实现。

优选的，所述的步骤1)中，所述中文词语形声特征的语料基础采用Scrapy的爬虫框架在汉语词典和新华字典上爬取获得。

优选的，所述的步骤2)中，所述的预处理包括剔除非中文信息、中文繁体转化为简体、分词以及去除停用词。

优选的，所述的步骤2.1)中，构建中文词语分层形声特征的具体方法为：

对于给定的中文文本，设滑动窗口大小为2n+1，n为调节参数，对句子sentence＝{w₁，w₂，...，w_M}进行子采样，其中M为句子中的词语总数，得到单个训练样本为{w_t-n，...w_t，...w_t+n}，中心词为w_t，上下文为{w_t-n，...，w_t-1，w_t+1...，w_t+n}；

对于词语w_i，其词语层级的特征为：

word_level_i＝lookup(w_i)+lookup(wpinyin_i)

式中：wpinyin_i表示词语w_i的拼音；lookup(X)函数代表对在向量表中查询X特征对应的向量，查询得到的向量记作v_X；

词语w_i的汉字序列长度为N_i，则其汉字层级的特征为：

式中：char_i，j表示词语wi的汉字序列中第j个汉字，cpinyin_i，j表示词语w_i的汉字序列中第j个汉字的汉字拼音；

词语w_i的部件序列长度为Mc_i，则该词语子字层级的部件特征为：

式中：cmp_i，j表示词语w_i的部件序列中第j个部件；

词语w_i的声母和韵母序列总长度为Ma_i，则该词语子字层级的声母和韵母特征为：

式中：alp_i，j表示词语w_i的部件序列中第j个声母或韵母。

优选的，所述的步骤2.2)中，所述命名实体包括人名、地名和机构名，命名实体通过HanLP抽取。

优选的，所述的步骤2.3)中，通过注意力机制，计算词语与汉字、子词部分的相似度，从而改变单个汉字、子字特征对于整个词语的贡献的具体方法为：

式中：a_char_level_i表示经过注意力机制后的汉字层级上的特征，a_subchar_cmp_i表示经过注意力机制后的子字层级上的部件特征，a_subchar_alp_i表示经过注意力机制后的子字层级上的声母和韵母特征；softmax(·)表示softmax函数；

优选的，所述的步骤3)的具体实现方式为：

3.1)在解耦预测部分中，将中心词和上下文的特征单独拆开，各部分特征单独预测上下文；

首先，对于中心词w_t和上下文w_j的第k个输入特征h_t，j，k，预测的条件概率被定义为：

式中：V表示整个词语表；

然后，将所有输入特征的上下文的条件概率的对数似然求和，作为解耦预测部分的目标函数：

L_d(w_j|w_t)＝∑_klogp(w_j|h_t，j，k)

对于以w_t为中心词的整个窗口样本的目标函数为：

3.2)在混合预测部分中，将汉字层级和子字层级的特征添加到词语上作为特征，来预测上下文词语；

对于所有输入特征h_t，j，k求均值：

式中：N表示中心词w_t和上下文w_j的输入特征数量；

混合特征部分所预测的条件概率被定义为：

然后将该条件概率p(w_j|a_t，j)的对数似然作为混合特征部分的目标函数：

L_m(w_j|w_t)＝log p(w_j|a_t，j)

对于以w_t为中心词的整个窗口样本的目标函数为：

3.3)最终将解耦预测部分和混合预测部分的模型目标函数相加，作为模型的总目标函数：

L_total(w_t)＝L_d(w_t)+L_m(w_t)

3.4)基于该总目标函数对模型进行训练，得到中文词向量的表示。

作为优选，本发明通过步骤3)得到的词向量表示可以应用在不同的自然语言处理任务中，并能够直接提升任务的最终效果，可以应用的自然语言处理任务包括命名实体识别、语义检索、文本分类、机器翻译、标题生成、问答系统等。

和现有技术相比，本发明结合了中文词语多层次的形态和发音信息，并采用解耦预测和混合预测联合的方式，系统地进行词向量的训练，形成独具一格的中文词向量表示技术，创造性地提升了中文词向量的效果。

附图说明

图1为Skip-gram模型示意图。

图2是需要获取的中文词语的形声特征数据。

图3是发明构建的中文词语分层形声特征。

图4是中文文本语料预处理的方法。

图5是本发明整体的模型图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步阐述和说明。

如图1所示，本发明主要基于Skip-gram模型，模型采用神经网络的方式，首先查询对应词语的词向量，并通过输入词语前向传播来预测一系列输出词语，反向传播调整词向量，使得输出词语在词表上的概率最大。模型训练完毕后，词表中的词向量即为训练形成的最终词向量。下面具体描述本发明的实现过程。

本发明中引入分层形声特征的中文词向量表示学习方法的步骤如下：

1)采用Scrapy的爬虫框架在汉语词典和新华字典上爬取中文词语形声特征的语料基础，其中语料基础包括汉字简体、汉字繁体、词语拼音、汉字拼音、部首、笔画、五笔输入法、仓颉标识、Unicode、规范汉字编号。

2)对于给定的中文文本进行预处理，形成训练语料。如图4所示，以中文维基百科语料为例，预处理包括剔除非中文信息、中文繁体转化为简体、分词以及去除停用词。

然后针对训练语料构建模型输入，构建过程如下：

2.1)对训练语料从形态和发音两个维度，以及从词语、汉字和子字三个层级构建中文词语分层形声特征，如图2所示。在词级别上，用词语本身和词语拼音代表词语层级上的特征；在字级别上，用汉字的字形和汉字拼音代表汉字层级上的特征；在子字级别上，用汉字部件和汉字拼音的声母和韵母来代表子字层级上的特征。本步骤中，如图3所示，构建中文词语分层形声特征的具体方法为：

对于给定的中文文本，设滑动窗口大小为2n+1，n为调节参数，对句子sentence＝{w₁，w₂，...，w_M}进行子采样，其中M为句子中的词语总数，得到单个训练样本为{w_t-n，...，w_t，...，w_t+n}，中心词为w_t，上下文为{w_t-n，...，w_t-1，w_t+1...，w_t+n}；

对于词语w_i，其词语层级的特征为：

word_level_i＝lookup(w_i)+lookup(wpinyin_i)

词语w_i的汉字序列长度为N_i，则其汉字层级的特征为：

式中：char_i，j表示词语w_i的汉字序列中第j个汉字，cpinyin_i，j表示词语w_i的汉字序列中第j个汉字的汉字拼音；

式中：cmp_i，j表示词语w_i的部件序列中第j个部件；

式中：alp_i，j表示词语w_i的部件序列中第j个声母或韵母。

2.2)通过HanLP抽取训练语料中的命名实体，命名实体包括人名、地名和机构名。若训练语料中的词语为命名实体，则将该词语在2.1)步骤中得到的三级分层形声特征中的汉字层级及子字层级上的特征去除，仅采用词语层级上的特征作为其分层形声特征；若训练语料中的词语不是命名实体，则不作处理，仍然采用词语、汉字和子字三个层级的分层形声特征。

2.3)通过注意力机制，计算词语与汉字、子词部分的相似度，从而改变单个汉字、子字特征对于整个词语的贡献，具体计算方法为：

式中：a_char_level_i表示经过注意力机制后的汉字层级上的特征，a_subchar_cmp_i表示经过注意力机制后的子字层级上的部件特征，a_subchar_alp_i表示经过注意力机制后的子字层级上的声母和韵母特征；softmax(·)表示softmax函数。

2.4)模型的输入为中心词w_t和上下文{w_t-n，...，w_t-1，w_t+1...，w_t+n}，对于中心词采用经过注意力机制后的词语层级、汉字层级和子字层级的特征作为输入，对于上下文仅采用经过注意力机制前的汉字层级和子字层级的特征作为输入；

3)采用解耦预测和混合预测结合的方式进行模型训练，得到中文词向量的表示。本发明的整体模型如图5所示，其目标函数包括两个部分：分别通过解耦预测部分和混合预测部分两部分进行训练。解耦预测部分单独使用词语的分层形声特征去预测目标词语，混合预测部分将汉字层和子字层的形声特征补充到词语层上来预测目标词语。

本步骤的具体实现方式为：

式中：V表示整个词语表；

L_d(w_j|w_t)＝Σ_klog p(w_j|h_t，j_，k)

对于以w_t为中心词的整个窗口样本的目标函数为：

对于所有输入特征h_t，j，k求均值：

式中：N表示中心词w_t和上下文w_j的输入特征数量；

混合特征部分所预测的条件概率被定义为：

L_m(w_j|w_t)＝log p(w_j|a_t，j)

对于以w_t为中心词的整个窗口样本的目标函数为：

L_total(w_t)＝L_d(w_t)+L_m(w_t)

本发明通过上述步骤得到的词向量表示可以应用在大量的自然语言处理任务中，并能够直接提升任务的最终效果，可以应用的自然语言处理任务包括命名实体识别、语义检索、文本分类、机器翻译、标题生成、问答系统等。

下面将上述方法应用至具体实施例中，具体的实施步骤如前所述，实施例中主要展示其效果。。

实施例

为了测试上述引入分层形声特征的中文词向量表示学习方法的实际效果，以下为实施例。本实施例中方法的具体步骤如前所述，不再赘述，下面主要展示上述方法的测试效果。

1)爬取中文词语的形声特征数据，以“财富”一词为例，如下：

词语	财富
		词语拼音	cáifù
汉字	财，富
		汉字拼音	cái，fù
声母和韵母	c，ái，f，d
		部件	贝，才，宀，一，口，田

2)将中文维基百科作为词向量训练语料，在经过语料预处理后，得到的训练语料的样例如下：

数学利用符号语言研究数量结构变化空间概念一门学科某种角度看形式科学一种数学透过抽象化逻辑推理计数基础数学知识团体生活中不可或缺一环数学基本概念完善早古埃及美索不达米亚古印度古代数学文本可观古希腊今日数学领域中包括科学工程医学经济学金融学数学领域称为数学激起新数学发现导致全新学科发展物理学西方语言中数学词源自于古希腊语其有学习学问科学狭义技术性数学研究语源形容词学习用功指数学英语汉字数学一词中国宋元时期多指象数之学含有数学意义秦九韶数学九章永乐大典记数书九章宋代周密所著语料形式为空格分隔的词语序列。

3)假定设置单边窗口大小调节参数n为l，则整个窗口大小为3，逐行采样，得到以3个词为一组的训练语料，例如“小明骑车上学”。

4)针对每一组训练语料，以“小明骑车上学”为例，则中心词为“骑车”，上下文为“小明上学”，得到2组训练样例(骑车，小明)、(骑车，上学)。

5)按照3)～4)步骤重复，得到整体训练语料，样例为(骑车，小明)。

6)对于训练样例(骑车，小明)，按照分层形声特征构建中心词和上下文特征如下：

中心词：骑车

上下文：小明

汉字	小明
		汉字拼音	xiǎo、míng
声母和韵母	x、iǎo、m、íng
		部件	小、日、月

7)按照中心词和上下文特征作为模型的输入部分，预测目标上下文词“小明”，完成一次训练。

8)完成所有的训练语料即完成一次全样本训练。

9)完成训练后得到模型(MDWE+A)中的中文词向量。词向量在语义相似度任务结果如下表：

词向量模型在wordsim-240和wordsim-297上的斯皮尔曼相关系数(％)

词向量在类比推理任务结果如下表：

中文词向量模型在CA8数据集形态类比上类比推理任务的正确率(％)

中文词向量模型在CA8数据集语义类比上类比推理任务的正确率(％)

词向量在文本任务结果如下表：

中文词向量模型在THUCNews数据集1上文本分类任务的正确率(％)

中文词向量模型在THUCNews数据集2上文本分类任务的正确率(％)

以上所述的实施例只是本发明的一种较佳的方案，然其并非用以限制本发明。有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。