CN110008341A

CN110008341A - 一种自适应错词和生词的印尼新闻文本分类方法

Info

Publication number: CN110008341A
Application number: CN201910250650.4A
Authority: CN
Inventors: 杨国武; 陈浩; 吴尽昭; 黄勇; 杨晓强; 熊菊霞; 熊招辉; 王子裕
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2019-07-12
Anticipated expiration: 2039-03-29
Also published as: CN110008341B

Abstract

本发明提供了一种自适应错词和生词的印尼新闻文本分类方法，根据印尼新闻数据训练词到向量的神经网络模型，得到词到向量的映射字典；训练自适应错词和生词的词向量生成模型以及字到向量的映射字典；利用有标签的新闻语料训练文本分类模型；利用所述自适应错词和生词的词向量生成模型以及字到向量的映射字典，得到词向量，从而完成印尼新闻文本的分类。本发明通过上述方法解决了现有的深度学习方法预测时错词和生词对预测结果的干扰的问题，让拼写错误的词语的词向量接近正确的词向量，进而有效地提高了分类的准确率。

Description

一种自适应错词和生词的印尼新闻文本分类方法

技术领域

本发明属于文本分类技术领域，尤其涉及一种自适应错词和生词的印尼新闻文本分类方法。

背景技术

现有的文本分类方法主要有两种，一种是基于词袋模型的传统文本分类方法，比如朴素贝叶斯，决策树等，该方法的缺点是忽略了词语之间的顺序，因此在分类时不能很好地提取到文本的上下文特征；另一种是基于词向量的深度学习方法，比如卷积神经网络，循环神经网络等，该方法相比于传统的方法能取得更好的效果，但该方法的缺点是依赖词向量来表示一个词语，如果预测时遇到训练时未出现的生词，或者拼写错误的词就会干扰模型的预测。

发明内容

针对现有技术中的上述不足，本发明提供的一种自适应错词和生词的印尼新闻文本分类方法解决了现有的深度学习方法预测时错词和生词对预测结果的干扰的问题。

为了达到以上目的，本发明采用的技术方案为：

本方案提供一种自适应错词和生词的印尼新闻文本分类方法，包括如下步骤：

一种自适应错词和生词的印尼新闻文本分类方法，其特征在于，包括如下步骤：

S1、根据印尼新闻数据训练词到向量的神经网络模型，得到词到向量的映射字典word2vector；

S2、根据所述词到向量的映射字典word2vector，训练自适应错词和生词的词向量生成模型以及字到向量的映射字典char2vector；

S3、根据所述自适应错词和生词的词向量生成模型以及字到向量的映射字典char2vector，利用有标签的新闻语料训练文本分类模型；

S4、根据所述文本分类模型对待分类新闻进行分词，并利用所述自适应错词和生词的词向量生成模型以及字到向量的映射字典char2vector，得到词向量，从而完成印尼新闻文本的分类。

再进一步地，所述步骤S1具体为：

根据印尼新闻数据利用印尼新闻语料以及连续词袋模型CBOW训练词向量，得到词到向量的映射字典word2vector，其中，所述词到向量的映射字典word2vector的表达式如下：

word2vector＝{'word₁':X₁,'word₂':X₂...'word_m':X_m}

其中，word_m表示词到向量的映射字典word2vector中的第m个单词，X_m表示单词word_m的词向量，m表示单词个数。

再进一步地，所述步骤S2包括如下步骤：

S201、随机初始化一个字到向量的映射字典char2vector＝{'char₁':V₁,'char₂':V₂...'char_p':V_p'},其中，char_p表示字到向量的映射字典char2vector中的第p个字符，其中，V_p表示字到向量的映射字典char2vector中第P个字符的字向量，p表示字到向量的映射字典char2vector中不同字符的数量；

S202、将所述词到向量的映射字典word2vector中的每个单词分成字符序列，并通过字到向量的映射字典char2vector将字符编码成向量，得到每个单词的矩阵表示{V₁,V₂...V_k},其中，V_k表示字到向量的映射字典char2vector中第k个字符的字向量，k表示该单词的字符个数；

S203、将所述每个单词的矩阵表示{V₁,V₂...V_k}作为输入，通过查找word2vector，得到所述单词的词向量x'作为标签，训练自适应错词和生词的词向量生成模型，从而完成对自适应错词和生词的词向量生成模型的训练。

再进一步地，所述步骤S203中自适应错词和生词的词向量生成模型的表达式如下：

H_t＝tanh(W_hv_t+W_uH_t-1+b_h)*sigmoid(W_a*H_t-1)？

lossA＝(x-x')²

其中，H_t表示单词的第t个字符输入自适应错词和生词的词向量生成模型后隐藏层的输出值，W_h、W_u、b_h、W_a分别表示自适应错词和生词的词向量生成模型的参数，模型在训练时参数不断更新，k表示单词的长度，x表示自适应错词和生词的词向量生成模型输出的词向量，x'表示查找word2vector字典得到的词向量，lossA表示自适应错词和生词的词向量生成模型输出的向量和真实向量之间的平方损失，tanh(·)表示双曲正切函数，sigmoid(·)表示S型生长曲线函数，t表示自适应错词和生词的词向量生成模型中单词的字符数，V_t表示第t个字符的字向量。

再进一步地，所述步骤S3包括如下步骤：

S301、根据所述自适应错词和生词的词向量生成模型以及字到向量的映射字典char2vector，将用于训练的新闻样本进行分词，得到单词序列{word₁,word₂...word_n}，其中，n表示新闻的长度；

S302、将所述单词序列中的每个单词分割成字符序列{char₁,char₂...char_k}，并通过字到向量的映射字典char2vector利用有标签的新闻语料，得到单词的矩阵表示{V₁,V₂...V_k}，其中，V_k表示单词中第k个字符的字向量，k表示单词矩阵中的字符个数；

S303、将每个单词的矩阵表示{V₁,V₂...V_k}输入到自适应错词和生词的词向量生成模型，输出单词的词向量，得到新闻的矩阵表示{x₁,x₂...x_n}，其中，x_n表示新闻的矩阵中第n个词的词向量，n表示新闻的长度。

S304、根据所述新闻的矩阵表示训练印尼新闻文本分类模型，从而完成文本分类模型的训练。

再进一步地，所述步骤S304中文本分类模型的表达式如下：

lossB＝-logP_c(c*)

其中，x_i表示新闻中第i个词的词向量，n表示新闻的长度，W'、W、b'、b分别是分类模型中最后两层的参数，且在训练的时候不断更新，c*表示新闻的标签，P_c表示分类模型预测的新闻属于每一类的概率,softmax(·)表示归一化指数函数，P_c(c*)表示模型预测新闻为类别c*的概率，lossB表示分类模型预测值和真实标签之间的交叉熵损失。

再进一步地，所述步骤S4具体为：

S401、将每个单词的矩阵表示{V₁,V₂...V_k}输入到自适应错词和生词的词向量生成模型，输出单词的词向量，得到新闻的矩阵表示{x₁,x₂...x_m}，其中，x_m表示新闻中第m个词的词向量，m表示该新闻的单词个数；

S402、根据所述新闻的矩阵表示{x₁,x₂...x_m}输入到步骤S304的文本分类模型中，得到每一个类别的概率，选出概率最大的新闻类别，从而完成印尼新闻文本的分类。

再进一步地，所述步骤S402中选出概率最大的新闻类别的表达式如下：

C＝arg max(P_c)

其中，x_i表示新闻中第i个词的词向量，n表示新闻的长度，W'、W、b'以及b分别是分类模型最后两层的参数，且在训练的时候不断更新，P_c表示分类模型预测的新闻属于每一类的概率，C表示模型预测的概率最大的一类，soft max(·)表示归一化指数函数，arg max(·)表示最大值自变量点集函数。

本发明的有益效果：

本发明提供了一种自适应错词和生词的印尼新闻文本分类方法，根据印尼新闻数据训练词到向量的神经网络模型，得到词到向量的映射字典word2vector；训练自适应错词和生词的词向量生成模型以及字到向量的映射字典char2vector；利用有标签的新闻语料训练文本分类模型；利用所述自适应错词和生词的词向量生成模型以及字到向量的映射字典char2vector，得到词向量，从而完成印尼新闻文本的分类。本发明通过上述方法解决了现有的深度学习方法预测时错词和生词对预测结果的干扰的问题，让拼写错误的词语的词向量接近正确的词向量，进而有效地提高了分类的准确率。

附图说明

图1为本发明的方法流程图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

实施例

如图1所示，本发明公开了一种自适应错词和生词的印尼新闻文本分类方法，其实现方法如下：

S1、根据印尼新闻数据训练词到向量的神经网络模型，得到词到向量的映射字典word2vector，其具体为：

word2vector＝{'word₁':X₁,'word₂':X₂...'word_m':X_m}

其中，word_m表示词到向量的映射字典word2vector中的第m个单词，X_m表示单词word_m的词向量，m表示单词个数，

本实施例中，部份单词的词向量如下：

{‘raga’:['0.4552','0.4962','0.4928','0.0773','-0.970'...]}，

{‘besok’:['0.7360','-0.238','0.1156','0.9753','0.1345'...']}，

{‘marshanda’:['0.4417','0.3370','-0.774','-0.801','0.7968'...]}，

…}；

S2、根据所述词到向量的映射字典word2vector，训练自适应错词和生词的词向量生成模型AVME以及字到向量的映射字典char2vector，包括如下步骤：

S201、随机初始化一个字到向量的映射字典char2vector＝{'char₁':V₁,'char₂':V₂...'char_p':V_p'},其中，char_p表示字符到向量的字典char2vector中的第p个字符，其中，V_p表示字到向量的映射字典char2vector中第P个字符的字向量，p表示字到向量的映射字典char2vector中不同字符的数量，

本实施例中，部份字符的字向量如下：

{‘a’:['-0.328','-0.477','0.4409','0.9935','-0.586'...],‘b’:['0.4793','0.0744','0.9731','0.0574','0.8759'...]…}；

S202、将所述词到向量的映射字典word2vector中的每个单词分成字符序列，并通过字到向量的映射字典char2vector将字符编码成向量，得到每个单词的矩阵表示{V₁,V₂...V_k},其中，V_k表示字到向量的映射字典char2vector中第k个字符的字向量，k表示该单词的字符个数，

本实施例中，单词raga分割成[’r’,’a’,’g’,’a’],其中’r’对应的字向量为['0.5389','-0.584','-0.467','-0.052','0.5586'...]，’a’对应的字向量为['-0.328','-0.477','0.4409','0.9935','-0.586'...]，’g’对应的字向量为['-0.140','-0.975','-0.754','0.8447','0.3282'...]，则raga的矩阵表示为：

[['0.5389','-0.584','-0.467','-0.052','0.5586'...]

['-0.328','-0.477','0.4409','0.9935','-0.586'...]

['-0.140','-0.975','-0.754','0.8447','0.3282'...]

['-0.328','-0.477','0.4409','0.9935','-0.586'...]]；

S203、将所述每个单词的矩阵表示{V₁,V₂...V_k}作为输入，通过查找word2vector，得到所述单词的词向量x'作为标签，训练自适应错词和生词的词向量生成模型，从而完成对自适应错词和生词的词向量生成模型的训练，其中，

所述自适应错词和生词的词向量生成模型的表达式如下：

H_t＝tanh(W_hv_t+W_uH_t-1+b_h)*sigmoid(W_a*H_t-1)？

lossA＝(x-x')²

其中，H_t表示单词的第t个字符输入自适应错词和生词的词向量生成模型后隐藏层的输出值，W_h、Wu、b_h、W_a分别表示模型的参数，模型在训练时参数不断更新，k表示单词的长度，x表示自适应错词和生词的词向量生成模型输出的词向量，x'表示查找word2vector字典得到的词向量，lossA表示自适应错词和生词的词向量生成模型输出的向量和真实向量之间的平方损失，tanh(·)表示双曲正切函数，sigmoid(·)表示S型生长曲线函数，t表示单词的字符数，V_t表示第t个字符的字向量，

本实施例中，将‘raga’的矩阵表示输入自适应错词和生词的词向量生成模型的中，输出词向量x＝['-0.502','-0.819','0.9042','0.6500','-0.548'...],通过查找word2vector得到‘raga’的词向量x'＝['0.4552','0.4962','0.9042','0.0773','-0.970'...]，故求得损失lossA＝(-0.502-0.4552)²+(-0.819-0.4962)²+(0.9042-0.9042)²+(0.6500+0.548)²…，在不断优化损失之后，lossA趋近于0，自适应错词和生词的词向量生成模型的模型输出的单词‘raga’的词向量x＝['0.4551','0.4962','0.4928','0.0774','-0.970'...]；

S3、根据所述自适应错词和生词的词向量生成模型以及字到向量的映射字典char2vector，利用有标签的新闻语料训练文本分类模型，包括如下步骤：

S302、将所述单词序列中的每个单词分割成字符序列{char₁,char₂...char_k}，并通过字到向量的映射字典char2vector利用有标签的新闻语料，得到单词的矩阵表示{V₁,V₂...V_k}，其中，V_k表示单词中第k个字符的字向量，k表示单词矩阵中的字符个数，

本实施例中，将单词‘marshanda’分割成字符序列['m','a','r','s','h','a','n','d','a'],通过查找char2vector字典得到单词‘marshanda’的矩阵表示：

[['-0.009','0.2395','-0.797','0.3049','0.0452'...]

['0.5389','-0.584','-0.467','-0.052','0.5586'...]

['0.9450','0.5651','-0.500','0.7767','-0.975'...]

['0.1508','-0.215','0.7573','0.8700','0.2676'...]

['-0.328','-0.477','0.4409','0.9935','-0.586'...]

…]；

S303、将每个单词的矩阵表示{V₁,V₂...V_k}输入到自适应错词和生词的词向量生成模型，输出单词的词向量，得到新闻的矩阵表示{x₁,x₂...x_n}，其中，x_n表示新闻的矩阵中第n个词的词向量，n表示新闻的长度，

本实施例中，将‘marshanda’的矩阵表示输入自适应错词和生词的词向量生成模型中，得到‘marshanda’的词向量['0.4417','0.3370','-0.774','-0.801','0.7968'...]，同理也得到其他单词的词向量，从而得到新闻的矩阵表示：[['0.4417','0.3370','-0.774','-0.801','0.7968'...]['0.2718','0.0703','0.8658','0.8663','0.0322'...]…]。

S304、根据所述新闻的矩阵表示训练印尼新闻文本分类模型，从而完成文本分类模型的训练，其中，

所述文本分类模型的表达式如下：

lossB＝-log P_c(c*)

其中，x_i表示新闻中第i个词的词向量，n表示新闻的长度，W'、W、b'以及b分别是分类模型最后两层的参数，且在训练的时候不断更新，c*表示新闻的标签，P_c为分类模型预测的该新闻属于每一类的概率,soft max(·)表示归一化指数函数，P_c(c*)表示模型预测新闻为类别c*的概率，lossB表示分类模型预测值和真实标签之间的交叉熵损失；

本实施例中，若分类任务的新闻类别分别有0-体育，1-政治，2-娱乐，3-经济，以为政治新闻为例，即c*＝1，将该新闻的矩阵表示输入分类模型中，得到该新闻属于各类的概率分别为P_c＝[0.12,0.13,0.5,0.25],所以P_c(c*)＝0.13，lossB＝-log(0.13)，在不断优化损失之后，lossB趋近于0，最后输出的该新闻属于每一类的概率分别为P_c＝[0.013,0.98,0.005,0.002]；

S4、根据所述文本分类模型对待分类新闻进行分词，并利用所述自适应错词和生词的词向量生成模型以及字到向量的映射字典char2vector，得到词向量，从而完成印尼新闻文本的分类，其具体为：

S402、根据所述新闻的矩阵表示{x₁,x₂...x_m}输入到步骤S304的文本分类模型中，得到每一个类别的概率，选出概率最大的新闻类别，从而完成印尼新闻文本的分类，其中，选出概率最大的新闻类别的表达式如下：

C＝arg max(P_c)

其中，x_i表示新闻中第i个词的词向量，n表示新闻的长度，W'、W、b'以及b分别是分类模型最后两层的参数，且在训练的时候不断更新，P_c表示分类模型预测的该新闻属于每一类的概率，C表示模型预测的概率最大的一类，soft max(·)表示归一化指数函数，argmax(·)表示最大值自变量点集函数。

本发明通过上述方法解决了现有的深度学习方法预测时错词和生词对预测结果的干扰的问题，让拼写错误的词语的词向量接近正确的词向量，进而有效地提高了分类的准确率。

Claims

1.一种自适应错词和生词的印尼新闻文本分类方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的自适应错词和生词的印尼新闻文本分类方法，其特征在于，所述步骤S1具体为：

word2vector＝{'word₁':X₁,'word₂':X₂...'word_m':X_m}

3.根据权利要求1所述的自适应错词和生词的印尼新闻文本分类方法，其特征在于，所述步骤S2包括如下步骤：

4.根据权利要求3所述的自适应错词和生词的印尼新闻文本分类方法，其特征在于，所述步骤S203中自适应错词和生词的词向量生成模型的表达式如下：

H_t＝tanh(W_hv_t+W_uH_t-1+b_h)*sigmoid(W_a*H_t-1)？

lossA＝(x-x')²

5.根据权利要求1所述的自适应错词和生词的印尼新闻文本分类方法，其特征在于，所述步骤S3包括如下步骤：

6.根据权利要求5所述的自适应错词和生词的印尼新闻文本分类方法，其特征在于，所述步骤S304中文本分类模型的表达式如下：

lossB＝-logP_c(c*)

7.根据权利要求5所述的自适应错词和生词的印尼新闻文本分类方法，其特征在于，所述步骤S4具体为：

8.根据权利要求7所述的自适应错词和生词的印尼新闻文本分类方法，其特征在于，所述步骤S402中选出概率最大的新闻类别的表达式如下：

C＝argmax(P_c)

其中，x_i表示新闻中第i个词的词向量，n表示新闻的长度，W'、W、b'以及b分别是分类模型最后两层的参数，且在训练的时候不断更新，P_c表示分类模型预测的新闻属于每一类的概率，C表示模型预测的概率最大的一类，softmax(·)表示归一化指数函数，argmax(·)表示最大值自变量点集函数。