CN109815476B

CN109815476B - 一种基于中文语素和拼音联合统计的词向量表示方法

Info

Publication number: CN109815476B
Application number: CN201811465623.0A
Authority: CN
Inventors: 潘坚跃; 刘祝平; 潘艺旻; 王译田; 陈文康; 王汝英; 李欣荣; 赵光俊; 周航帆; 魏伟; 刘畅; 李艳
Original assignee: Tianjin Richsoft Electric Power Information Technology Co ltd; State Grid Information and Telecommunication Co Ltd; Hangzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Current assignee: Tianjin Richsoft Electric Power Information Technology Co ltd; State Grid Information and Telecommunication Co Ltd; Hangzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2018-12-03
Filing date: 2018-12-03
Publication date: 2023-03-24
Anticipated expiration: 2038-12-03
Also published as: CN109815476A

Abstract

一种基于中文语素和拼音联合统计的词向量表示方法，包括如下步骤：①采集互联网文本信息构建语料库，对构建的语料库进行正文清洗和分词处理；②对中文语料进行分词处理后转为不保留声调信息的拼音信息，然后分别对语素和拼音特征在训练集语料和全文档中统计词频和逆文档概率作统计权重TF_c、IDF_c、TF_p和IDF_p；③基于上下文语素和拼音联合统计的中文词表示模型，构造中文单个语素表示向量；④在步骤③的基础上训练一个三层神经网络以用于中心目标词的预测。该方法可满足离线词典和语料数据规模的适应性、可直接学习大规模无标注的互联网信息文本数据、可提高常规的词嵌入模型对于中文语言差异特性的兼顾性、可提高对错别字词语的表示和识别准确性。

Description

一种基于中文语素和拼音联合统计的词向量表示方法

技术领域：

本发明属于自然语言处理技术领域，涉及中文词向量表示模型，尤其涉及一种基于中文语素和拼音联合统计的词向量表示方法。

背景技术：

目前，自然语言处理技术应用到了各个方面，文本中的词表示技术是自然语言处理领域的基础性研究。中文词表示技术是将中文汉字表达为数据向量形式，应用于神经网络语言模型，数据表示作为前期预备工作，它的表达优劣严重影响了语言模型学习训练和场景应用的性能。

通常完成文本数据分析进行自然语言处理工作需要挖掘海量文本语料信息，而随着互联网时代的信息高速增长，文本数据的规范化和结构化程度日益减弱。此外在广泛的互联网信息生产和分发评论中，国内外约占75％的用户习惯于使用拼音输入进行中文编辑，然而一方面由于用户书写行为的准确率和复查率较低；另一方面不同地区对于相同文本的发音习惯不同，在一定程度上造成了错别字的出现。其中错别字的主要存在形式包括：字错音不错(例：典[电]力)、同音不同词(例：错事[措施])、方言式错别字(例：cong zheng[重整])等以上三种。错别字不仅会影响分词结果，还将影响中文词向量表示模型的表现性能。

目前现有的正则表达式、向量空间和词向量等表示方法，无法满足离线词典和语料数据规模的适应性，难以直接学习大规模无标注的互联网信息文本数据。同时常规的词嵌入模型对于中文语言差异特性的兼顾性较差，对错别字词语的表示和识别准确性较低。

发明内容：

本发明的目的主要针对现有中文词表示技术研究的一些不足之处，提出了一种基于中文语素和拼音联合统计的词向量表示方法，该方法可满足离线词典和语料数据规模的适应性、可直接学习大规模无标注的互联网信息文本数据、可提高常规的词嵌入模型对于中文语言差异特性的兼顾性、可提高对错别字词语的表示和识别准确性。

如上构思，本发明的技术方案是：一种基于中文语素和拼音联合统计的词向量表示方法，其特征在于：包括如下步骤：

①采集互联网文本信息构建语料库，对构建的语料库进行正文清洗和分词处理；

②对中文语料进行分词处理后转为不保留声调信息的拼音信息，然后分别对语素和拼音特征在训练集语料和全文档中统计词频和逆文档概率作统计权重TF_c、IDF_c、TF_p和IDF_p；

③基于上下文语素和拼音联合统计的中文词表示模型，对于给定长度语句S＝[x₁,x₂,...,x_K]，其中x_K为第K个语素，通过一个固定大小窗口内的上下文语素来预测中心目标词x_i，构造中文单个语素表示向量；

④在步骤③的基础上训练一个三层神经网络以用于中心目标词的预测，该神经网络包括输入层、一个隐含层和输出层，其输入层特征为基于语素、拼音和词频统计的融合特征，输出层为softmax层用于预测中心目标词，输入层与输出层包含节点数量均等于词汇表的大小。

上述步骤③的具体步骤是：对于给定长度语句S＝[x₁,x₂,...,x_K]，其中x_K为第K个语素，通过一个固定大小窗口内的上下文语素来预测中心目标词x_i，该步骤以(2m+1)为窗口大小，将中心语素的前m个和后m个语素{x_i-m,...,x_i-1,x_i+1,...,x_i+m}及其对应的拼音作one-hot编码，生成语素向量组C_i＝{c_i-m,...,c_i-1,c_i+1,...,c_i+m}，其中c_i-m为语素x_i-m编码后大小为T×1的语素向量，同理，生成拼音向量组P_i＝{p_i-m,...,p_i-1,p_i+1,...,p_i+m}，构造中文单个语素表示向量d_i为：

其中i仅表示为窗口中心位于语素x_i位置。

上述步骤④中输入层和输出层神经元节点数量等于词汇表大小T，其输入特征即为d_i，输出层采用softmax函数激活用于预测中心目标词，隐含层将输入层节点乘上输入权重矩阵W_T×N得到

隐含层经过输出权重矩阵W'_N×T得到z_i＝W'^T _N×T·U_N＝W'^T·W^T·d_i，则有输出层对z_i进行softmax激活，

其中，x_i表示中心目标词，U_N为隐含层输出向量，w'_j表示输出权向量矩阵中的第j列向量。

上述目标中心词x_i的损失函数为：

最后采用梯度下降法来求解目标函数，即只需对上述一个样本的损失梯度求解，获得更新表达式为：

输入权重矩阵，

输出权重矩阵，

本发明在连续词袋模型CBOW的基础上，结合了中文语料语素和其发音拼音的向量特征并将语素和拼音词频统计特征作为向量权重一同构成中文词向量表达。利用中文表达和拼音文法使语素本身提升了对错别字/词的不稳定性，通过拼音特征加强对语素文本的建模，使词向量对中文文本的错别字具有更高的兼容性，为中文词表示效果带来提升。

附图说明：

图1为本发明方法的主要框架图。

图2为传统连续词袋模型的网络结构。

图3为本发明方法的中文词表示模型示意图。

图4为本发明方法的中文词表示网络结构。

图5为本发明方法在语义相似度任务上的评价结果，由此图可确定本发明生成的中文词向量表示形式对于互联网语料错别字具有更高的兼容性，包含更准确的语义信息。

图6为本发明方法的类比推理任务上的评价结果，由此图可确定本发明生成的中文词向量表示形式包含更准确的语义信息。

具体实施方式：

为了使本发明的目的、技术方案和优点更加清楚，下面将结合本发明的具体实施方案和附图做进一步详细描述。另显然，所描述额实施例仅是本发明的部分实施例，而不是全部的应用场景。

本发明提供了一种基于语素和拼音联合统计的中文词向量表示方法，该方法包括如下步骤：

1.词表示向量的生成，需要大的语料库支持，语料库的构建主要采集于互联网新闻咨询、论坛媒体信息和维基百科的开源文本语料库。本发明采集了维基百科中文数据集作为通用语料库，国家电网浙江省电力公司官网新闻数据作为专业语料库。其中维基百科中文数据集包含1.38亿个中文词语，排重后词典大小为39.7万；电力新闻语料包含18.65万个中文词语，排重后词典大小为3.15万。

对构造语料库数据进行预处理首先使用opencc将存在繁体字文本转化为简体中文，后根据统计的1893个停用词对语料做去停用词操作。完成语料库的清洗后使用基于规则和统计的结巴分词对文本进行分词操作，首先基于前缀词典进行词扫描，前缀词典指词典中的词按照前缀包含的顺序排列形成的层级包含结构；然后将词看作节点，一种分词方案则对应着从第一个字到最后一个字的一条分词路径，基于前缀词典可以快速构建包含全部可能分词结果的有向无环图，基于标注语料，使用动态规划的方法即可以获得最大概率路径，并将其作为最终的分词结果。本发明中使用结巴分词默认的精确模式，例如测试语料原文：“‘创新是引领发展的第一动力，作为我们基层一线员工，你解决了实际工作中的每一个小问题，其实就是一种创新。’镜头里的黄金娟从容淡定地讲述着自己对创新的理解。”直接分词结果和去停用词后分词结果分别为：“创新/是/引领/发展/的/第一/动力/作为/我们/基层/一线/员工/你/解决/了/实际/工作/中/的/每/一个/小/问题/其实/就是/一种/创新/镜头/头里/的/黄金/娟/从容/淡定/地/讲述/着/自己/对/创新/的/理解”(直接分词结果)和“创新/引领/发展/第一/动力/基层/一线/员工/解决/实际/工作/中/小/问题/一种/创新/镜头/黄金/娟/从容/淡定/讲述/创新/理解”(去停用词分词结果)。

2.中文词表示向量的生成方法中，结合中文语料的语素和拼音特征及词频统计信息。首先要对分词后语料使用pypinyin转为发音拼音表示，另外考虑到中文拼音输入法本身不需要标记声调，因此在将语素转为拼音信息时不保留声调信息；然后分别对语素和拼音特征在训练集语料和全文档中统计词频和逆文档概率作统计权重TF_c、IDF_c、TF_p和IDF_p，结构设计如图1所示。此外由于文本中存在部分特定性姓名、专有地名会影响分词结果和后续词向量表达，在本方法中将全文本素材词频数小于10的语素将其从语料中删除。

3.本方法中在使用结合语素和拼音联合统计的中文词表示模型的基础上，考虑到对于中文文本的阅读，通常词序的排布对于阅读理解的影响较小，因此参考了连续词袋模型CBOW(Continuous Bag-of-Words)的滑动窗口预测方法，如图2所示，设计了结合语素和拼音联合统计的中文词表示模型及其网络结构，如图3和图4所示。对于给定长度语句S＝[x₁,x₂,...,x_K]，其中x_K为第K个语素。通过一个固定大小窗口内的上下文语素来预测中心目标词，该步骤以(2m+1)为窗口大小，本实例中m取值为2，将中心语素的前m个和后m个语素{x_i-m,...,x_i-1,x_i+1,...,x_i+m}及其对应的拼音作one-hot编码，生成语素向量组C_i＝{c_i-m,...,c_i-1,c_i+1,...,c_i+m}，其中c_i-m为语素x_i-m编码后大小为T×1的语素向量，同理，生成拼音向量组P_i＝{p_i-m,...,p_i-1,p_i+1,...,p_i+m}。然后构造中文单个语素表示向量d_i为，

其中i仅表示为窗口中心位于语素x_i位置，且d_i为输入特征。

在本方法中，网络输入层和输出层神经元节点数量等于词汇表大小T，根据多次实验发现，其值选定为200时会取得比较好的结果。输出层采用softmax函数激活，用于预测中心目标词。网络隐含层对输入层节点所采用输入权重矩阵W_T×N由于计算效率，采用得到U_N，

隐含层经过输出权重矩阵W'_N×T得到z_i＝W'^T _N×T·U_N＝W'^T·W^T·d_i。然后网络输出层对z_i进行softmax激活得到，

4.本方法定义目标中心词x_i的损失函数为，

输入权重矩阵，

输出权重矩阵，

本方法构造了中文语素和拼音表达及其统计特征联合构成中文词向量表达模式，与仅基于中文语素的CBOW连续词袋模型和将中文词语与组成词语语素的汉字联合训练的CWE(character-enhanced word embeddding model)在计算语义相似度任务中表现出优势，表现了本发明生成的中文词向量表示形式对于互联网语料错别字具有更高的兼容性，蕴含更准确的语义信息。

以上所述为本发明的具体实施例及所运用的技术原理，若依本发明的构想所作的改变，其所产生的功能作用仍未超出说明书及附图所包含的额内容，仍应属本发明的保护范围。

Claims

1.一种基于中文语素和拼音联合统计的词向量表示方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的一种基于中文语素和拼音联合统计的词向量表示方法，其特征在于：

其中i仅表示为窗口中心位于语素x_i位置。

3.根据权利要求1所述的一种基于中文语素和拼音联合统计的词向量表示方法，其特征在于：

4.根据权利要求1所述的一种基于中文语素和拼音联合统计的词向量表示方法，其特征在于：

上述中心目标词x_i的损失函数为：

最后采用梯度下降法来求解目标函数，即只需对一个样本的损失梯度求解，获得更新表达式为：

输入权重矩阵，

输出权重矩阵，