CN111476036A

CN111476036A - 一种基于中文单词特征子串的词嵌入学习方法

Info

Publication number: CN111476036A
Application number: CN202010280002.6A
Authority: CN
Inventors: 刘勇国; 郑子强; 李巧勤; 杨尚明
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-04-10
Filing date: 2020-04-10
Publication date: 2020-07-31

Abstract

本发明公开了一种基于中文单词特征子串的词嵌入学习方法，包括：S1：获取中文文本，并处理为相应的词序列；S2：从词序列中获取中文目标单词及其上下文单词，将中文目标单词拆分为若干个汉字；对每个汉字在中文字典中进行检索，并对每个汉字的拼音、笔画和结构特征进行编码并串联，生成特征子串；S3：采用二元对数似然法构建基于中文目标单词对上下文单词嵌入的预测模型及训练，得到词嵌入表示。本发明整合了汉字的笔画、结构和拼音特征，解决汉字单一特征无法完整捕获汉字语义信息的问题；并提出了特征子串以捕获汉字形态和拼音信息及其关系，不同长度的特征子串可表示汉字的部分特征或多种特征组合，提供了中文单词的细粒度特征表示。

Description

一种基于中文单词特征子串的词嵌入学习方法

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于中文单词特征子串的词嵌入学习方法。

背景技术

词嵌入，也称为词的分布式表示，可以将词的语义编码为低维向量空间，并很好地捕获语义信息。目前，词嵌入作为输入特征已被证明在许多自然语言处理(NaturalLanguage Processing，NLP)任务中都是有效的，如提取文本词干、命名实体识别、文本分类和机器翻译等。设计学习词嵌入的有效模型对理解单词的语义是至关重要的。

目前大多数方法都是基于对目标单词及其上下文单词之间的关系进行建模，以此来学习词嵌入，如CBOW模型通过上下文预测目标单词，SG模型通过目标单词预测上下文，在此基础上，Glove模型通过创建共现矩阵以记录目标单词和上下文单词在语料库中共同出现的次数。这些方法主要应用于欧洲语言，如带有拉丁字母的英语，但是直接应用于其他语系时，词嵌入学习效果却很差，如中文、日文和韩文等。

汉语是象形文字，是对象的图形表示，中文单词由具有丰富语义信息的汉字组成。目前，已有许多学者提出了利用汉字信息和汉字内部信息来学习中文词嵌入的方法，CWE模型旨在利用字信息来提高词嵌入的质量，以共同学习字和词嵌入，在此基础上，JWE模型引入了部首和部件信息，cw2vec模型则利用了笔画信息。

在汉字中，以“您”字为例，“心”是部首，但是无法表达“您”的语义信息。除了部首外，部件是非常重要的信息，用来和部首组合构成完整的汉字。“您”可以分解成三个部件，“亻”，“尔”，“心”，其中，仅有“尔”和“您”在语义上稍微相关。而实际上，汉字中也存在部首、部件与汉字本身意义完全不相关的字，如“叶”字，因此仅靠部首和部件信息无法有效得到中文词嵌入。

除了组成部分，笔画信息也十分重要。通常情况下，当一个字确定时，它的笔画顺序就确定。但是也有例外，比如“工”和“土”的笔画顺序相同，通过笔画不能确定汉字。值得肯定的，通过笔画信息可以捕获字的主要含义，但是在已有的n元笔画研究中，需要手动定义参数，这可能会导致捕获汉字的不完整语义。

综上，利用汉字的单一特征难以有效捕获汉字的语义信息。

发明内容

本发明所要解决的技术问题是现有技术中针对中文的词嵌入方法大多利用汉字的单一特征或部分组合特征难以有效捕获汉字的语义信息，词嵌入效果差的问题，本发明提供了解决上述问题的一种基于中文单词特征子串的词嵌入学习方法，本发明主要设计了特征子串来整合汉字的结构、笔画和拼音特征，以捕获中文单词的形态和拼音信息，解决汉字单一特征无法完整捕获汉字语义信息的问题，并利用目标单词来预测上下文单词，从而学习中文单词的嵌入；本发明方法可以增强词嵌入的效果，为汉语自然语言处理、文本挖掘等领域的实践提供必要的技术支持。

本发明通过下述技术方案实现：

一种基于中文单词特征子串的词嵌入学习方法，该方法包括以下步骤：

S1：获取中文文本，并通过预处理得到相应的词序列；

S2：从步骤S1得到的词序列中获取中文目标单词及其上下文单词，将中文目标单词拆分为若干个汉字；对每个汉字在中文字典中进行检索，并对每个汉字的拼音、笔画和结构特征进行编码并串联，生成特征子串来表示汉字的部分特征或多个特征；

S3：根据步骤S2将中文目标单词表示为具有拼音、笔画和结构特征的特征子串，采用二元对数似然法构建基于中文目标单词对上下文单词嵌入的预测模型，并对预测模型进行训练，将上下文单词嵌入作为输出结果，得到最终的词嵌入表示。

工作原理是：基于现有技术中针对中文的词嵌入方法大多利用汉字的单一特征或部分组合特征难以有效捕获汉字的语义信息，词嵌入效果差的问题，本发明提出了一种基于中文单词特征子串的词嵌入学习方法，本发明采用上述方案整合了汉字的笔画、结构和拼音特征，解决汉字单一特征无法完整捕获汉字语义信息的问题；并提出了特征子串以捕获汉字形态和拼音信息及其关系，不同长度的特征子串可表示汉字的部分特征或多种特征组合，提供了中文单词的细粒度特征表示；并采用二元对数似然法构建基于中文目标单词对上下文单词嵌入的预测模型，耗时少、速度快，利用中文目标单词来预测上下文单词，从而有效地实现了中文的词嵌入学习。

本发明方法可以增强词嵌入的效果，为汉语自然语言处理、文本挖掘等领域的实践提供必要的技术支持；本发明方法不仅适用于中文目标单词的词嵌入，也适用于与汉语相似的其他语言，如日语和汉语。

进一步地，所述步骤S2中对每个汉字的拼音、笔画和结构特征进行编码，包括：

构建拼音特征，汉字的拼音由声母、韵母和音调组成，采用26个小写字母对声母和韵母进行编码，并使用5个大写英文符号表示音调，同时对音调进行对应编码；

构建笔画特征，根据现代汉语通用字表，将笔画分为五种类型，包括横、竖、撇、点、折，并采用阿拉伯数字1至5对其对应编码；

构建结构特征，根据笔画在平面空间中的不同组合，汉字全体字组合模式分为四大类13 小类，采用区别于笔画特征的阿拉伯数字对其13小类进行对应编码。

进一步地，所述步骤S2中对每个汉字的拼音、笔画和结构特征进行串联，生成特征子串来表示汉字的部分特征或多个特征；包括：

将每个汉字的拼音、笔画和结构编码进行串联，然后定义一个大小从1到编码长度L的滑动窗口生成特征子串，每个特征子串都有一个d维的嵌入，从而生成特征子串来表示汉字的部分特征或多个特征；

其中，设定中文目标单词的编码长度为L，则生成

个特征子串。

进一步地，所述步骤S3具体包括：

S31：从语料库中给定一个中文文本，词序列表示为w₁,…,w_t,…,w_N，其中w_t为中文目标单词，N表示词的数量，w_t的上下文单词表示为：

C_t＝{w_t+i},(i∈[-c,0)∪(0,c])

其中c表示中文目标单词w_t的上下文窗口大小，使用w_c表示C_t中的单词，即w_c∈C_t；

S32：采用二元对数似然法构建基于中文目标单词对上下文单词嵌入的预测模型；对于中文目标单词w_t，将中文目标单词w_t所在的所有样本句子作为正样本，并从语料库中随机抽取单词替换正样本中的上下文单词构成等量的负样本，保证正负样本数量均衡；给定一个上下文单词w_c∈C_t，通过使用二元对数损失得到以下负对数似然：

其中

表示负样本集合，w_u表示负样本中的上下文单词，s(w_t,w_c)为得分函数；将逻辑损失函数表示为l(x)＝log(1+e^-x)，则目标函数可以重写为：

S33：随机初始化特征子串和上下文单词的嵌入，基于标准梯度法优化步骤S32中的目标函数，并进行模型训练，将上下文的词嵌入作为输出结果，得到最终的词嵌入表示。

进一步地，利用预先爬取的指定数量的汉字及其特征信息构成中文字典，采用搜狗实验室的全网新闻数据SogouCA作为语料库，对预测模型进行优化和训练。

本发明与现有技术相比，具有如下的优点和有益效果：

1、本发明方法整合了汉字的笔画、结构和拼音特征，解决汉字单一特征无法完整捕获汉字语义信息的问题；并提出了特征子串以捕获汉字形态和拼音信息及其关系，不同长度的特征子串可表示汉字的部分特征或多种特征组合，提供了中文单词的细粒度特征表示；并采用二元对数似然法构建基于中文目标单词对上下文单词嵌入的预测模型，耗时少、速度快，利用中文目标单词来预测上下文单词，从而有效地实现了中文的词嵌入学习；

2、本发明方法在各项评估任务结果中，本发明方法得到的结果均比基于其他模型方法的效果更好，说明了本方法的有效性；本发明方法可以增强词嵌入的效果，为汉语自然语言处理、文本挖掘等领域的实践提供必要的技术支持；本发明方法不仅适用于中文目标单词的词嵌入，也适用于与汉语相似的其他语言，如日语和汉语。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明一种基于中文单词特征子串的词嵌入学习方法流程图。

图2为本发明一种基于中文单词特征子串的词嵌入学习方法的中文词嵌入训练流程图。

图3为本发明特征子串构建过程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例

如图1至图3所示，本发明一种基于中文单词特征子串的词嵌入学习方法，该方法包括以下步骤：

S1：获取中文文本，并通过预处理得到相应的词序列；

引入结构特征，可以有效解决汉字部件相同但语义不同的问题，如“叶”和“古”；引入拼音特征，可以有效解决笔画相同但语义不同的问题，如“工(gong)”和“土(tu)”。

具体地，所述步骤S2中对每个汉字的拼音、笔画和结构特征进行编码，包括：

构建拼音特征，汉字的拼音由声母、韵母和音调组成，声母是韵母前面的辅音，共同构成完整的音节。本发明使用26个小写字母对声母和韵母进行编码，并使用5个大写英文符号表示音调，同时对音调进行编码，编码方式如表1所示。如“您”，声母是n，韵母是in，音调是二声(阳平)，则编码后的拼音特征为“ninB”。

表1音调特征编码

音调	阴平	阳平	上声	去声	轻声
						符号	ˉ	ˊ	ˇ	ˋ	无
编码	A	B	C	D	E

构建笔画特征，笔画是汉字的基本单位，中文书写系统为笔画提供了书写顺序。根据中华人民共和国新闻出版署发布的《现代汉语通用字表》，将笔画分为五种类型，包括横、竖、撇、点、折，并采用阿拉伯数字1至5对其对应编码；如表2所示。

表2笔画特征编码

构建结构特征，与线性排列的字母单词不同，汉字是以一定结构的字符组成，字符又由笔画组成，根据笔画在平面空间中的不同组合，汉字全体字组合模式可以分为四大类13小类，由于笔画特征的编码为1至5，因此为了不和笔画特征编码混淆，字体结构特征编码格式如表3所示。

表3结构特征编码

结构	编码	结构	编码
				左右	66	左包围	79
左中右	67	左上包围	86
				上下	68	右上包围	87
上中下	69	左下包围	88
				全包围	76	嵌套	89
上包围	77	单一	96
				下包围	78

具体地，如图3所示，以“艰苦”来说明特征子串的构建过程，特征子串的构建分为三个步骤：

1)选择一个中文目标单词，将单词拆分为单个汉字；

2)将每个汉字在中文字典中进行检索，根据上述构建拼音特征、构建笔画特征、构建结构特征的方法分别对拼音、笔画和结构进行编码；

3)将每个汉字的拼音、笔画和结构编码进行串联，然后定义一个大小从1到编码长度的滑动窗口生成特征子串，每个特征子串都有一个d维的嵌入，一般取100、200或300，最终取值需要根据任务评估指标的好坏来确定，在本发明实施例中d取100。

通过上述步骤1)至3)构建的单词特征子串可以用来表示汉字的部分特征或多个特征，如特征子串“54”表示部首“又”，特征子串“67kuC”包含了结构和拼音特征。

假设单词的编码长度为L，则一共可以生成

个特征子串。

具体地，所述步骤S3具体包括：

将中文目标单词表示为具有笔画，结构和拼音特征的特征子串，基于目标单词对上下文词嵌入的预测进行建模。从语料库中给定一个中文文本，词序列表示为w₁,…,w_t,…,w_N，其中w_t为中文目标单词，N表示词的数量，w_t的上下文单词表示为：

C_t＝{w_t+i},(i∈[-c,0)∪(0,c])

其中c表示中文目标单词w_t的上下文窗口大小，使用w_c表示C_t中的单词，即w_c∈C_t；则本发明的词嵌入学习的目的是最大化以下的对数似然，计算公式为：

给定中文目标单词w_t，使用softmax函数对预测单词w_c的概率进行建模，计算公式为：

其中s(w_t,w_c)为得分函数，将基于特征子串的词w_t和上下文单词w_c的相似度映射到实数

中，计算如下：

其中F(w_t)表示中文目标单词w_t的特征子串集合，q∈F(w_t)表示中文目标单词w_t的特征子串，v_q表示特征子串q的嵌入，

表示单词w_c的嵌入，“·”表示向量点乘操作。

由于在最大化对数似然时，需要N次操作，这是十分耗时的，因此本发明将预测上下文单词的问题转换为一组独立的二元分类问题，以便独立地预测上下文单词是否存在。于是，本发明采用二元对数似然法构建基于中文目标单词对上下文单词嵌入的预测模型；对于中文目标单词w_t，将中文目标单词w_t所在的所有样本句子作为正样本，并从语料库中随机抽取单词替换正样本中的上下文单词构成等量的负样本，保证正负样本数量均衡；给定一个上下文单词w_c∈C_t，通过使用二元对数损失得到以下负对数似然：

其中

随机初始化特征子串和上下文单词的嵌入，基于标准梯度法优化上述目标函数，并进行模型训练，在训练过程之后，将上下文的词嵌入作为输出结果，得到最终的词嵌入表示。

具体地，利用预先爬取的指定数量的汉字及其特征信息构成中文字典，采用搜狗实验室的全网新闻数据SogouCA作为语料库，对预测模型进行优化和训练。其中：

中文字典：从漢典(https://www.zdic.net/)爬取的汉字及其特征，包括拼音、结构和笔画信息。

语料库：搜狗实验室的全网新闻数据SogouCA，来自若干新闻站点2012年6月至7月期间国内，国际、体育、社会和娱乐等18个频道的新闻数据，提供URL和正文信息。该语料库包含中文的简体和繁体，使用OpenCC工具将繁体转换为简体，并使用jieba分词工具对语料库进行分词。

本发明训练中文词嵌入所用数据为搜狗实验室的全网新闻数据SogouCA，分别使用了四个评估任务来评估本发明提出的中文词嵌入的效果。单词类比用于衡量模型能力，以探索单词之间的语义关系；单词相似度用于评估模型捕获单词之间语义相关和语义相近的能力；文本分类是一种在NLP任务中常用的验证词嵌入的方法，文本分类使用的是复旦数据集，包含 20个不同主题的文档；命名实体识别用于验证词嵌入的有效性，数据集为Sighan2006 NER。

本发明在单词类比、单词相似度、文本分类和命名实体识别任务上评估了本发明方法的有效性，并与现有的多个词嵌入学习模型进行了实验对比，实验结果如表4所示。

表4评估任务结果

本发明提出了一种基于中文单词特征子串的词嵌入学习方法，本发明采用上述方案整合了汉字的笔画、结构和拼音特征，解决汉字单一特征无法完整捕获汉字语义信息的问题；并提出了特征子串以捕获汉字形态和拼音信息及其关系，不同长度的特征子串可表示汉字的部分特征或多种特征组合，提供了中文单词的细粒度特征表示；并采用二元对数似然法构建基于中文目标单词对上下文单词嵌入的预测模型，耗时少、速度快，利用中文目标单词来预测上下文单词，从而有效地实现了中文的词嵌入学习。

由表4可以看到，在各项评估任务结果中，本发明方法得到的结果均比基于其他模型方法的效果更好，说明了本方法的有效性。本发明方法可以增强词嵌入的效果，为汉语自然语言处理、文本挖掘等领域的实践提供必要的技术支持；本发明方法不仅适用于中文目标单词的词嵌入，也适用于与汉语相似的其他语言，如日语和汉语。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于中文单词特征子串的词嵌入学习方法，其特征在于，该方法包括以下步骤：

S1：获取中文文本，并通过预处理得到相应的词序列；

2.根据权利要求1所述的一种基于中文单词特征子串的词嵌入学习方法，其特征在于，所述步骤S2中对每个汉字的拼音、笔画和结构特征进行编码，包括：

构建结构特征，根据笔画在平面空间中的不同组合，汉字全体字组合模式分为四大类13小类，采用区别于笔画特征的阿拉伯数字对其13小类进行对应编码。

3.根据权利要求1或2所述的一种基于中文单词特征子串的词嵌入学习方法，其特征在于，所述步骤S2中对每个汉字的拼音、笔画和结构特征进行串联，生成特征子串来表示汉字的部分特征或多个特征；包括：

其中，设定中文目标单词的编码长度为L，则生成

个特征子串。

4.根据权利要求1所述的一种基于中文单词特征子串的词嵌入学习方法，其特征在于，所述步骤S3具体包括：

C_t＝{w_t+i},(i∈[-c,0)∪(0,c])

其中

5.根据权利要求1或4所述的一种基于中文单词特征子串的词嵌入学习方法，其特征在于，利用预先爬取的指定数量的汉字及其特征信息构成中文字典，采用搜狗实验室的全网新闻数据SogouCA作为语料库，对预测模型进行优化和训练。