CN109902292B

CN109902292B - 中文词向量处理方法及其系统

Info

Publication number: CN109902292B
Application number: CN201910074889.0A
Authority: CN
Inventors: 孟亚磊; 刘继明; 刘松; 陈浮; 金兰
Original assignee: ITIBIA TECHNOLOGIES (SUZHOU) CO LTD
Current assignee: ITIBIA TECHNOLOGIES (SUZHOU) CO LTD
Priority date: 2019-01-25
Filing date: 2019-01-25
Publication date: 2023-05-09
Anticipated expiration: 2039-01-25
Also published as: CN109902292A

Abstract

本发明公开了中文词向量处理方法及系统，首先，对训练语料分词，得到待训练向量的词列表；然后，对每个待训练词语，确定其对应的n元字根及其代号表示形式，n元字根是词包含的连续n个字根；再按照设定的维度参数，对各词以及各n元字根的语义向量进行初始化；根据分词后的语料、当前各词向量及n元字根向量，对词向量和字根向量进行训练，完成指定轮次训练后结束。结合汉字字形构成的特点，选择了字根作为基本单元，将词语表示为n元字根的形式；一方面字根本身具有较强的表意能力，另一方面中文词的平均字根数更接近英文单词的平均字母数，本发明能够在更合适的粒度层次上刻画词语的语义，并且能化解未登录词的表征难题。

Description

中文词向量处理方法及其系统

技术领域

本发明涉及一种中文词向量处理方法及其系统，属于自然语言处理技术领域。

背景技术

词向量是计算语言学中的概念，其基本思路基于分布式假设：“一个词的语义是由上下文的语义所确定的，如果两个词经常出现的上下文相似，那么这两个词的语义也相似”。在具体操作上词向量是将单词映射到一个语义空间当中，用该空间中的一个稠密、低维、连续的向量来表示单词的语法及语义特征。目前词向量已经作为基础语义计算工具，在许多自然语言处理任务中广泛运用。

目前，主流词向量训练算法，都是针对英文的语料特点设计出来的。英文有一个重要特点是单词由若干个字母组成，单词之间有空格分开。而在中文语料中词语之间没有空格，而且绝大多数词语长度在2～4字之间，平均长度远远小于英文单词。因此在训练中文词向量时，首先需要对语料进行合理的分词；而且Word2Vec、GloVe等主流词向量训练方法的在中文语料上生成的词向量语义表征效果不佳。

当前，国内根据中文自身特点也提出了一些词向量训练方法，如字词联合的训练方案、基于笔画的训练方案等。但需要指出的是，字、词本身确实能表示语义，但粒度过大，而且难以应对未登录词。基本笔画本身不能表征语义，而以此为基础发展出的训练方法虽然能有效应对未登录词的语义表示，但因为基本单元粒度过小导致词的编码过长，从而增加了运算复杂度，同时影响了词向量的效果。

发明内容

本发明的目的是克服现有技术存在的不足，提供一种中文词向量处理方法及其系统。

本发明的目的通过以下技术方案来实现：

中文词向量处理方法，特点是：包括以下步骤：

1)对训练语料分词，得到待训练向量的词列表；

2)对每个待训练词语，确定其对应的n元字根及其代号表示形式，n元字根是词包含的连续n个字根；

3)按照设定的维度参数，对各词以及各n元字根的语义向量进行初始化；

4)根据分词后的语料、当前各词向量及n元字根向量，对词向量和字根向量进行训练，完成指定轮次训练后结束。

进一步地，上述的中文词向量处理方法，其中，步骤1)，以分词方法或工具对语料进行分词，所述分词方法为基于词典的最大匹配方法、全切分路径选择方法、基于字序列标注的方法或基于转移的分词方法，所述分词工具为开源工具或闭源分词工具。

进一步地，上述的中文词向量处理方法，其中，步骤1)，将语料中的一系列句子从汉字序列切分为词序列，经统计得到语料中出现过的词构成的词表，对训练语料分词后得到的词列表进行过滤，按照停用词表去除不含实际意义的虚词、标点等，或者设置一个阈值th去除出现频次低的罕见词。

进一步地，上述的中文词向量处理方法，其中，步骤2)，以n元字根作为词的表示方式，字根是由若干笔划交叉连接而形成的相对不变的结构，字根具有特定的语义信息，既是字形构成的基本单元，也可作为表达语义的基本元素。

进一步地，上述的中文词向量处理方法，其中，步骤3)，词向量的维度根据语料规模、词汇量、表义需求、空间开销确定，对各词以及各n元字根的语义向量采用随机初始化或按指定概率分布的方式分配初始值。

进一步地，上述的中文词向量处理方法，其中，步骤4)，训练过程是计算每个词的当前向量与其目标向量的误差，通过反向传播的方式，对词向量及n元字根向量进行更新。

进一步地，上述的中文词向量处理方法，其中，以损失函数计算每个词的当前向量与其目标向量的误差。

进一步地，上述的中文词向量处理方法，其中，在训练过程每轮迭代中，对语料词列表每个词w，找到词w对应全部n元字根的向量，按照公式(1)计算词w与上下文词con的语义距离：

公式中Dis(w,con)表示当前词w与上下文词con的相似度得分；R(w)表示w所对应的n元字根集合，ele表示R(w)中的元素；

表示ele与con对应向量的点积运算；

从训练语料中抽取p个非上下文词作为负样例词，并且计算误差得分Loss(w,con)：

第一步，对于上下文词con与每个负样例词con’，按照公式(2)，计算出con与w的中间得分Score(w,con)；

Score(w,con)＝logσ(Dis(w,con)) 公式(2)

其中log是以2为底的对数函数，σ表示神经网络激活的sigmod函数，σ(x)＝1/(1+e^-x),其中e表示自然对数的底，约为2.71828；

第二步，按照公式(3)计算最终误差得分：

其中，con’是抽取到的负样例词，Score(w,con’)表示当前词w与负样例词con’的中间得分；

得到Loss(w,con)之后，计算误差的变化梯度，更新n元字根和上下文词con的向量。

进一步地，上述的中文词向量处理方法，其中，目标向量通过基于上下文的方式确定，或通过指定同义词、近义词的方式确定。

本发明中文词向量处理系统，包含：

语料预处理单元，对训练语料分词、统计语料中出现过的词汇表、按目的对词表进行过滤，得到待训练向量的各词；

字根编码单元，确定各中文字词的字根序列表示形式，以及字根与字符编码映射关系，并按照选定参数n，得到待训练的各n元字根；

向量初始化单元，按照选定的向量维度d及初始化策略，对要训练的各词、各n元字根的向量进行初始值分配；对于已经过训练得到向量的部分词、n元字根，沿用训练结果作为初始值；

向量训练单元，按照选定的迭代次数、上下文窗口大小、负样例数量参数，执行词向量、n元字根向量的训练过程。

本发明与现有技术相比具有显著的优点和有益效果，具体体现在以下方面：

本发明结合汉字字形构成的特点，选择了字根作为基本单元，将词语表示为n元字根的形式；与现有其他词向量训练方法相比，一方面字根本身具有较强的表意能力，另一方面中文词的平均字根数更接近英文单词的平均字母数，本发明能够在更合适的粒度层次上刻画词语的语义，并且能化解未登录词的表征难题。

本发明通过词对应的n元字根更细致地刻画该词的语法与语义特征，有助于提高中文词向量的准确性，取得更好的工程效果，解决现有技术中的问题。

本发明的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明具体实施方式了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书中所特别指出的结构来实现和获得。

附图说明

图1：本发明方法的流程示意图；

图2：在实际场景下具体实施例的流程示意图；

图3：图2中流程所使用的局部语料的处理动作示意图；

图4：本发明系统的架构示意图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现详细说明具体实施方案。

中文词向量训练方法的流程，如图1所示，具体步骤为：

S101：对训练语料分词，得到待训练向量的词列表

词向量的训练需要较大规模的语料，用来训练的语料可以自行采集、选取开放语料，也可以从第三方获取。准备好语料之后需要以分词方法或工具对训练语料进行分词，将语料中的一系列句子从汉字序列切分为词序列。随后经过统计可以得到语料中出现过的词构成的词表，即为待训练词列表。

具体地，分词方法采用基于词典的最大匹配方法、全切分路径选择方法、基于字序列标注的方法或基于转移的分词方法等任何一种。具体分词工具可以是任何开源工具或闭源分词工具，这些工具提供多种分词算法与策略供用户选择，支持添加自定义词典、新词发现等功能，这里以jieba分词工具的精确模式为例。

对于分词之前的语料片段：“高校为各行各业培养了大量优秀人才，未来仍需继续努力。”分词之后如果用斜杠隔开，形式为“高校/为/各行各业/培养/了/大量/优秀人才/，/未来/仍/需/继续/努力/。”但为了在语料形式上与英文保持兼容，词之间通常采用空格隔开。这样，整个训练语料就转变为很长的词列表形式，可以统计得到其中出现过不少于一次的词构成的列表，不同词语出现的频次不同。为了提高后续处理效率，可以用词表将各词保存起来，使用时直接从词表中读取。

进一步地，可以对训练语料分词后得到的词表进行过滤操作，比如按照停用词表去除不含实际意义的虚词、标点等，也可以设置一个阈值th来去除出现频次太低的罕见词，以提高词向量训练的针对性。

S102：对每个待训练词语，确定其对应的n元字根及其代号表示形式(n元字根是指表征该词的连续n个字根)。

为便于理解，对中文字词的“n元字根”做进一步解释。前文已经提到，字根同时可作为字形构成单元和基本表意单元，于是，中文字词就能用字根序列形式表示。比如“村庄”可表示成“木、寸、广、土”，“碧绿”可以表示成“王、白、石、纟、彐、水”。

具体地，为了拆分结果的确定性，必须确立字根粒度的标准以及拆分原则，学界与业界有多种不同的实施方案。比如王永民先生在五笔字型编码方案当中就收录了大约130个字根，确立了“取大优先，兼顾直观，能连不交，能散不连”的拆分方案，并安排在A～Z的字母键位上。而张建铭、张婉如在《汉字字根》一书中则收录了1200多个字根，也确立了拆分方案。需要注意的是，这里主要以五笔字型编码方案举例，是为了便于理解，本发明并不局限于具体字根拆分或编码方案。

n元字根指的是一个字或词分解为字根序列之后，其中连续n个字根构成的单元。以“碧绿”一词为例，其对应的2元字根为“王、白”(第1～2个字根)、“白、石”(第2～3个字根)、“石、纟”(第3～4个字根)、“纟、彐”(第4～5个字根)、“彐、水”(第5～6个字根)；其对应的3元字根为“王、白、石”(第1～3个字根)、“白、石、纟”(第2～4个字根)、“石、纟、彐”(第3～5个字根)、“纟、彐、水”(第4～6个字根)；其对应的4元字根为“王、白、石、纟”(第1～4个字根)、“白、石、纟、彐”(第2～5个字根)、“石、纟、彐、水”(第3～6个字根)。以此类推，对于包含字根较多的字词，还可得到其5元、6元等n元字根。

本发明中，n是正整数，取值是动态可调的。优选地，n的取值通常在1～6之间。对于同一个词，在确定该词对应的各n元字根时，n的取值可以只取1个(比如，只确定该词对应的全部3元字根)，也可以取多个(比如，确定该词对应的3元字根和4元字根)。

为了便于处理，n元字根可以用指定的代码进行表示。比如，按照五笔字型编码输入方案，每个字根对应一个字母键位(例如“王”对应字母G，“白”对应字母R，“石”对应字母D)，则n元字根均可以表示为字母序列。

具体地，为了兼容语料中包含不能拆分为字根序列的内容(如英文单词)，同时更好地捕捉语义，可以进行特殊处理。比如用大小写来区分n元字根表示与英文单词，或者在原形前面增加一个字母z等。

S103：按照设定的维度参数，对各词以及各n元字根的语义向量进行初始化；

词向量的维度由训练者根据语料规模、词汇量、表义需求、空间开销等因素综合确定。优选地，词向量维度通常在50至300之间；

对各词以及n元字根的向量可以采用随机初始化或按指定概率分布的方式分配初始值。其中，相同词、相同n元字根的字根，会分得同一个向量。优选地，指定概率分布可以是0～1分布。

为了方法的有效性，避免无效的初始化：比如不能给各词与n元字根的向量都分配相等的向量；又比如，不能给某些词或n元字根分配一个元组全部为0的向量；等等。

另外，如果已经拥有生成的某些词、n元字根对应的向量，那么方法训练时，这些词及n元字根对应的向量可以不再重新初始化，而是可以沿用之前的训练结果，直接参与训练。

S104：根据分词后的训练语料、当前各词向量及n元字根向量，对所述词向量和所述字根向量进行训练，在完成指定轮次训练后结束。

训练可以选择分词后语料的全部或部分词进行，训练过程可以通过多层神经网络实现。训练过程是计算每个词的当前向量与其目标向量的误差，通过反向传播的方式，对词向量的及n元字根向量进行更新。其中目标向量可以通过基于上下文的方式确定，也可以通过指定同义词、近义词的方式确定。在语料中遍历完每个词计算更新一遍称为一轮，在完成训练者指定的轮数之后，训练结束。

根据分词后语料、当前各词向量及n元字根向量进行训练，其具体步骤为：

1)对分词后的语料进行遍历，对于其中每个词执行：确定该词在语料中一个或多个上下文词；

2)对于该词对应的每个上下文词，执行：(a)根据该词对应的各n元字根向量与该上下文词的向量，计算该词与该上下文词的语义距离；(b)根据该词与该上下文词的语义距离，更新该上下文词与该词各n元字根对应的向量。

在执行遍历时，可以选择基于窗口的策略来完成遍历过程。具体语义距离的计算方面，可以采用余弦相似度方式，也可以采用欧式距离等方法。可选地，训练过程可以使用负采样策略来优化训练结果，即对于每一个当前词，采用随机选择或者从非上下文中挑选的方式确定一个或多个负样例词，训练目标是使得当前词与上下文词的语义距离更近，而与非负样例词的语义距离更远。

为了便于理解，基于上述说明，提供实际应用场景下一种具体实施例，如图2所示。

S201，使用分词工具(如jieba)对待训练的语料进行分词，统计得到语料中出现过的全部词汇，去除掉不需要训练的词(如停用词以及出现次数小于阈值th的词等)；

S202，对于待训练的词列表，按照事先确定的n元字根选取策略(如，选取3元、4元与5元字根)，逐一选取每个词对应的所有n元字根，并将其按照事先确立的编码方式(如五笔字型编码86版)，获取各n元字根对应的字母序列；

S203，按照事先确定的词向量维度d(如200维)与初始化策略(如随机初始化)，为待训练词表中每个词、每个n元字根都建立一个维度为d的向量，并分配初始值；

S204，在分词之后的中文语料中，从头开始，每次选择一个词作为“当前词w”，逐一迭代。如果遍历完训练语料中全部的词，则完成一轮训练，跳转到S208；否则跳转到S205；

S205，以当前词w为中心，按照事先确定的窗口大小k(例如10)，向前后各移动k个词的距离建立上下文窗口(不含w自身)；每次从上下文窗口的词表内选择一个词作为“上下文词con”，如果已经遍历完上下文窗口中全部的词，则跳转到S204迭代下一个中心词；否则，跳转到S206；

S206，对于当前词w，根据S202中的词与对应的n元字根对应关系，找到当前词w对应全部n元字根的向量，按照公式(1)计算当前词w与上下文词con的语义距离：

公式中Dis(w,con)表示当前词w与上下文词con的相似度得分；R(w)表示在S202中w所对应的n元字根集合，ele表示R(w)中的元素(即某个n元字根)；

表示ele与con对应向量的点积运算；跳转到S207；

S207，从训练语料中抽取p个非上下文词作为负样例词，并且按照公式(2)计算误差得分Loss(w,con)：

第一步，对于上下文词con与每个负样例词con’，按照公式(2)，计算出con与w的中间得分Score(w,con)。

Score(w,con)＝logσ(Dis(w,con)) 公式(2)

其中log是以2为底的对数函数，σ表示神经网络激活的sigmod函数，σ(x)＝1/(1+e^-x),其中e表示自然对数的底，约等于2.71828。

第二步，按照公式(3)计算最终误差得分：

其中，con’是抽取到的负样例词，Score(w,con’)表示当前词w与负样例词con’的中间得分。

得到Loss(w,con)之后，计算误差的变化梯度，更新n元字根和上下文词con的向量；跳转S205。

S208，每完成一轮遍历，则判断是否完成了实现设定的迭代轮数(如20轮)，如果已完成，则训练任务结束；否则跳转到S204开始新一轮训练。

在上述步骤中。S206与S207是最重要的步骤，为便于理解，结合图3，对这两步举例说明。

图3为图2中流程所使用的部分语料的相关处理动作示意图。

如图3，假定语料中有语句片段“疑难问题解决”，分词后得到该语句中的三个词语“疑难”、“问题”、“解决”。

假定此时选定“问题”为中心词w，选定“疑难”为上下文词con，提取中心词w映射的所有n元字根S(w)，比如，“问题”对应3元字根编码包括“ukd”、“kdj”、“djg”等。然后，根据公式(1)、公式(2)和公式(3)计算损失得分Loss(w,con)，进而计算梯度，然后更新con与w的所有n元字根对应的向量。

本发明中文词向量处理系统，如图4所示，包括：

语料预处理单元41：用于完成对训练语料分词、统计语料中出现过的词汇表、按特定目的对词表进行过滤等，得到待训练向量的各词。

字根编码单元42，用于按照选定的方案确定各中文字词的字根序列表示形式，以及字根与字符编码映射关系，并按照选定参数n，得到待训练的各n元字根。

向量初始化单元43：用于按照选定的向量维度d及初始化策略，对要训练的各词、各n元字根的向量进行初始值分配。对于已经过训练得到向量的部分词、n元字根，可以沿用训练结果作为初始值。

向量训练单元44：按照选定的迭代次数、上下文窗口大小、负样例数量等参数，执行词向量、n元字根向量的训练过程。

在训练过程的每轮迭代中，对于训练语料中的所有词，执行：

1)确定该词在训练语料中一个或多个上下文词；

2)对于该词对应的每个上下文词，执行：(a)根据该对应的各n元字根向量与该上下文词的向量，计算该词与该上下文词的语义距离；(b)根据该词与该上下文词的语义距离，更新该上下文词与该词各n元字根对应的向量。

综上所述，本发明结合汉字字形构成的特点，选择了字根作为基本单元，将词语表示为n元字根的形式；与现有其他词向量训练方法相比，一方面字根本身具有较强的表意能力，另一方面中文词的平均字根数更接近英文单词的平均字母数，本发明能够在更合适的粒度层次上刻画词语的语义，并且能化解未登录词的表征难题。

需要说明的是：以上所述仅为本发明的优选实施方式，并非用以限定本发明的权利范围；同时以上的描述，对于相关技术领域的专门人士应可明了及实施，因此其它未脱离本发明所揭示的精神下所完成的等效改变或修饰，均应包含在申请专利范围中。

Claims

1.中文词向量处理方法，其特征在于：包括以下步骤：

1)对训练语料分词，得到待训练向量的词列表；

4)根据分词后的语料、当前各词向量及n元字根向量，对词向量和字根向量进行训练，完成指定轮次训练后结束；

其中,训练过程是计算每个词的当前向量与其目标向量的误差，即以损失函数计算每个词的当前向量与其目标向量的误差,通过反向传播的方式，对词向量及n元字根向量进行更新；

在训练过程每轮迭代中，对语料词列表每个词w，找到词w对应全部n元字根的向量，按照公式(1)计算词w与上下文词con的语义距离：

表示ele与con对应向量的点积运算；

Score(w,con)＝logσ(Dis(w,con)) 公式(2)

第二步，按照公式(3)计算最终误差得分：

2.根据权利要求1所述的中文词向量处理方法，其特征在于：步骤1)，以分词方法或工具对语料进行分词，所述分词方法为基于词典的最大匹配方法、全切分路径选择方法、基于字序列标注的方法或基于转移的分词方法，所述分词工具为开源工具或闭源分词工具。

3.根据权利要求1所述的中文词向量处理方法，其特征在于：步骤1)，将语料中的一系列句子从汉字序列切分为词序列，经统计得到语料中出现过的词构成的词表，对训练语料分词后得到的词列表进行过滤，按照停用词表去除不含实际意义的虚词、标点，或者设置一个阈值th去除出现频次低的罕见词。

4.根据权利要求1所述的中文词向量处理方法，其特征在于：步骤2)，以n元字根作为词的表示方式，字根是由若干笔画交叉连接而形成的相对不变的结构，字根具有特定的语义信息，既是字形构成的基本单元，也可作为表达语义的基本元素。

5.根据权利要求1所述的中文词向量处理方法，其特征在于：步骤3)，词向量的维度根据语料规模、词汇量、表义需求、空间开销确定，对各词以及各n元字根的语义向量采用随机初始化或按指定概率分布的方式分配初始值。

6.根据权利要求1所述的中文词向量处理方法，其特征在于：目标向量通过基于上下文的方式确定，或通过指定同义词、近义词的方式确定。

7.中文词向量处理系统，其特征在于：包含：

向量训练单元，按照选定的迭代次数、上下文窗口大小、负样例数量参数，执行词向量、n元字根向量的训练过程；

训练过程是计算每个词的当前向量与其目标向量的误差，即以损失函数计算每个词的当前向量与其目标向量的误差,通过反向传播的方式，对词向量及n元字根向量进行更新；

表示ele与con对应向量的点积运算；

Score(w,con)＝logσ(Dis(w,con)) 公式(2)

第二步，按照公式(3)计算最终误差得分：