CN110008341A - 一种自适应错词和生词的印尼新闻文本分类方法 - Google Patents

一种自适应错词和生词的印尼新闻文本分类方法 Download PDF

Info

Publication number
CN110008341A
CN110008341A CN201910250650.4A CN201910250650A CN110008341A CN 110008341 A CN110008341 A CN 110008341A CN 201910250650 A CN201910250650 A CN 201910250650A CN 110008341 A CN110008341 A CN 110008341A
Authority
CN
China
Prior art keywords
word
vector
news
indicate
adaptive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910250650.4A
Other languages
English (en)
Other versions
CN110008341B (zh
Inventor
杨国武
陈浩
吴尽昭
黄勇
杨晓强
熊菊霞
熊招辉
王子裕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910250650.4A priority Critical patent/CN110008341B/zh
Publication of CN110008341A publication Critical patent/CN110008341A/zh
Application granted granted Critical
Publication of CN110008341B publication Critical patent/CN110008341B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Abstract

本发明提供了一种自适应错词和生词的印尼新闻文本分类方法,根据印尼新闻数据训练词到向量的神经网络模型,得到词到向量的映射字典;训练自适应错词和生词的词向量生成模型以及字到向量的映射字典;利用有标签的新闻语料训练文本分类模型;利用所述自适应错词和生词的词向量生成模型以及字到向量的映射字典,得到词向量,从而完成印尼新闻文本的分类。本发明通过上述方法解决了现有的深度学习方法预测时错词和生词对预测结果的干扰的问题,让拼写错误的词语的词向量接近正确的词向量,进而有效地提高了分类的准确率。

Description

一种自适应错词和生词的印尼新闻文本分类方法
技术领域
本发明属于文本分类技术领域,尤其涉及一种自适应错词和生词的印尼新闻文本分类方法。
背景技术
现有的文本分类方法主要有两种,一种是基于词袋模型的传统文本分类方法,比如朴素贝叶斯,决策树等,该方法的缺点是忽略了词语之间的顺序,因此在分类时不能很好地提取到文本的上下文特征;另一种是基于词向量的深度学习方法,比如卷积神经网络,循环神经网络等,该方法相比于传统的方法能取得更好的效果,但该方法的缺点是依赖词向量来表示一个词语,如果预测时遇到训练时未出现的生词,或者拼写错误的词就会干扰模型的预测。
发明内容
针对现有技术中的上述不足,本发明提供的一种自适应错词和生词的印尼新闻文本分类方法解决了现有的深度学习方法预测时错词和生词对预测结果的干扰的问题。
为了达到以上目的,本发明采用的技术方案为:
本方案提供一种自适应错词和生词的印尼新闻文本分类方法,包括如下步骤:
一种自适应错词和生词的印尼新闻文本分类方法,其特征在于,包括如下步骤:
S1、根据印尼新闻数据训练词到向量的神经网络模型,得到词到向量的映射字典word2vector;
S2、根据所述词到向量的映射字典word2vector,训练自适应错词和生词的词向量生成模型以及字到向量的映射字典char2vector;
S3、根据所述自适应错词和生词的词向量生成模型以及字到向量的映射字典char2vector,利用有标签的新闻语料训练文本分类模型;
S4、根据所述文本分类模型对待分类新闻进行分词,并利用所述自适应错词和生词的词向量生成模型以及字到向量的映射字典char2vector,得到词向量,从而完成印尼新闻文本的分类。
再进一步地,所述步骤S1具体为:
根据印尼新闻数据利用印尼新闻语料以及连续词袋模型CBOW训练词向量,得到词到向量的映射字典word2vector,其中,所述词到向量的映射字典word2vector的表达式如下:
word2vector={'word1':X1,'word2':X2...'wordm':Xm}
其中,wordm表示词到向量的映射字典word2vector中的第m个单词,Xm表示单词wordm的词向量,m表示单词个数。
再进一步地,所述步骤S2包括如下步骤:
S201、随机初始化一个字到向量的映射字典char2vector={'char1':V1,'char2':V2...'charp':Vp'},其中,charp表示字到向量的映射字典char2vector中的第p个字符,其中,Vp表示字到向量的映射字典char2vector中第P个字符的字向量,p表示字到向量的映射字典char2vector中不同字符的数量;
S202、将所述词到向量的映射字典word2vector中的每个单词分成字符序列,并通过字到向量的映射字典char2vector将字符编码成向量,得到每个单词的矩阵表示{V1,V2...Vk},其中,Vk表示字到向量的映射字典char2vector中第k个字符的字向量,k表示该单词的字符个数;
S203、将所述每个单词的矩阵表示{V1,V2...Vk}作为输入,通过查找word2vector,得到所述单词的词向量x'作为标签,训练自适应错词和生词的词向量生成模型,从而完成对自适应错词和生词的词向量生成模型的训练。
再进一步地,所述步骤S203中自适应错词和生词的词向量生成模型的表达式如下:
Ht=tanh(Whvt+WuHt-1+bh)*sigmoid(Wa*Ht-1)?
lossA=(x-x')2
其中,Ht表示单词的第t个字符输入自适应错词和生词的词向量生成模型后隐藏层的输出值,Wh、Wu、bh、Wa分别表示自适应错词和生词的词向量生成模型的参数,模型在训练时参数不断更新,k表示单词的长度,x表示自适应错词和生词的词向量生成模型输出的词向量,x'表示查找word2vector字典得到的词向量,lossA表示自适应错词和生词的词向量生成模型输出的向量和真实向量之间的平方损失,tanh(·)表示双曲正切函数,sigmoid(·)表示S型生长曲线函数,t表示自适应错词和生词的词向量生成模型中单词的字符数,Vt表示第t个字符的字向量。
再进一步地,所述步骤S3包括如下步骤:
S301、根据所述自适应错词和生词的词向量生成模型以及字到向量的映射字典char2vector,将用于训练的新闻样本进行分词,得到单词序列{word1,word2...wordn},其中,n表示新闻的长度;
S302、将所述单词序列中的每个单词分割成字符序列{char1,char2...chark},并通过字到向量的映射字典char2vector利用有标签的新闻语料,得到单词的矩阵表示{V1,V2...Vk},其中,Vk表示单词中第k个字符的字向量,k表示单词矩阵中的字符个数;
S303、将每个单词的矩阵表示{V1,V2...Vk}输入到自适应错词和生词的词向量生成模型,输出单词的词向量,得到新闻的矩阵表示{x1,x2...xn},其中,xn表示新闻的矩阵中第n个词的词向量,n表示新闻的长度。
S304、根据所述新闻的矩阵表示训练印尼新闻文本分类模型,从而完成文本分类模型的训练。
再进一步地,所述步骤S304中文本分类模型的表达式如下:
lossB=-logPc(c*)
其中,xi表示新闻中第i个词的词向量,n表示新闻的长度,W'、W、b'、b分别是分类模型中最后两层的参数,且在训练的时候不断更新,c*表示新闻的标签,Pc表示分类模型预测的新闻属于每一类的概率,softmax(·)表示归一化指数函数,Pc(c*)表示模型预测新闻为类别c*的概率,lossB表示分类模型预测值和真实标签之间的交叉熵损失。
再进一步地,所述步骤S4具体为:
S401、将每个单词的矩阵表示{V1,V2...Vk}输入到自适应错词和生词的词向量生成模型,输出单词的词向量,得到新闻的矩阵表示{x1,x2...xm},其中,xm表示新闻中第m个词的词向量,m表示该新闻的单词个数;
S402、根据所述新闻的矩阵表示{x1,x2...xm}输入到步骤S304的文本分类模型中,得到每一个类别的概率,选出概率最大的新闻类别,从而完成印尼新闻文本的分类。
再进一步地,所述步骤S402中选出概率最大的新闻类别的表达式如下:
C=arg max(Pc)
其中,xi表示新闻中第i个词的词向量,n表示新闻的长度,W'、W、b'以及b分别是分类模型最后两层的参数,且在训练的时候不断更新,Pc表示分类模型预测的新闻属于每一类的概率,C表示模型预测的概率最大的一类,soft max(·)表示归一化指数函数,arg max(·)表示最大值自变量点集函数。
本发明的有益效果:
本发明提供了一种自适应错词和生词的印尼新闻文本分类方法,根据印尼新闻数据训练词到向量的神经网络模型,得到词到向量的映射字典word2vector;训练自适应错词和生词的词向量生成模型以及字到向量的映射字典char2vector;利用有标签的新闻语料训练文本分类模型;利用所述自适应错词和生词的词向量生成模型以及字到向量的映射字典char2vector,得到词向量,从而完成印尼新闻文本的分类。本发明通过上述方法解决了现有的深度学习方法预测时错词和生词对预测结果的干扰的问题,让拼写错误的词语的词向量接近正确的词向量,进而有效地提高了分类的准确率。
附图说明
图1为本发明的方法流程图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
实施例
如图1所示,本发明公开了一种自适应错词和生词的印尼新闻文本分类方法,其实现方法如下:
S1、根据印尼新闻数据训练词到向量的神经网络模型,得到词到向量的映射字典word2vector,其具体为:
根据印尼新闻数据利用印尼新闻语料以及连续词袋模型CBOW训练词向量,得到词到向量的映射字典word2vector,其中,所述词到向量的映射字典word2vector的表达式如下:
word2vector={'word1':X1,'word2':X2...'wordm':Xm}
其中,wordm表示词到向量的映射字典word2vector中的第m个单词,Xm表示单词wordm的词向量,m表示单词个数,
本实施例中,部份单词的词向量如下:
{‘raga’:['0.4552','0.4962','0.4928','0.0773','-0.970'...]},
{‘besok’:['0.7360','-0.238','0.1156','0.9753','0.1345'...']},
{‘marshanda’:['0.4417','0.3370','-0.774','-0.801','0.7968'...]},
…};
S2、根据所述词到向量的映射字典word2vector,训练自适应错词和生词的词向量生成模型AVME以及字到向量的映射字典char2vector,包括如下步骤:
S201、随机初始化一个字到向量的映射字典char2vector={'char1':V1,'char2':V2...'charp':Vp'},其中,charp表示字符到向量的字典char2vector中的第p个字符,其中,Vp表示字到向量的映射字典char2vector中第P个字符的字向量,p表示字到向量的映射字典char2vector中不同字符的数量,
本实施例中,部份字符的字向量如下:
{‘a’:['-0.328','-0.477','0.4409','0.9935','-0.586'...],‘b’:['0.4793','0.0744','0.9731','0.0574','0.8759'...]…};
S202、将所述词到向量的映射字典word2vector中的每个单词分成字符序列,并通过字到向量的映射字典char2vector将字符编码成向量,得到每个单词的矩阵表示{V1,V2...Vk},其中,Vk表示字到向量的映射字典char2vector中第k个字符的字向量,k表示该单词的字符个数,
本实施例中,单词raga分割成[’r’,’a’,’g’,’a’],其中’r’对应的字向量为['0.5389','-0.584','-0.467','-0.052','0.5586'...],’a’对应的字向量为['-0.328','-0.477','0.4409','0.9935','-0.586'...],’g’对应的字向量为['-0.140','-0.975','-0.754','0.8447','0.3282'...],则raga的矩阵表示为:
[['0.5389','-0.584','-0.467','-0.052','0.5586'...]
['-0.328','-0.477','0.4409','0.9935','-0.586'...]
['-0.140','-0.975','-0.754','0.8447','0.3282'...]
['-0.328','-0.477','0.4409','0.9935','-0.586'...]];
S203、将所述每个单词的矩阵表示{V1,V2...Vk}作为输入,通过查找word2vector,得到所述单词的词向量x'作为标签,训练自适应错词和生词的词向量生成模型,从而完成对自适应错词和生词的词向量生成模型的训练,其中,
所述自适应错词和生词的词向量生成模型的表达式如下:
Ht=tanh(Whvt+WuHt-1+bh)*sigmoid(Wa*Ht-1)?
lossA=(x-x')2
其中,Ht表示单词的第t个字符输入自适应错词和生词的词向量生成模型后隐藏层的输出值,Wh、Wu、bh、Wa分别表示模型的参数,模型在训练时参数不断更新,k表示单词的长度,x表示自适应错词和生词的词向量生成模型输出的词向量,x'表示查找word2vector字典得到的词向量,lossA表示自适应错词和生词的词向量生成模型输出的向量和真实向量之间的平方损失,tanh(·)表示双曲正切函数,sigmoid(·)表示S型生长曲线函数,t表示单词的字符数,Vt表示第t个字符的字向量,
本实施例中,将‘raga’的矩阵表示输入自适应错词和生词的词向量生成模型的中,输出词向量x=['-0.502','-0.819','0.9042','0.6500','-0.548'...],通过查找word2vector得到‘raga’的词向量x'=['0.4552','0.4962','0.9042','0.0773','-0.970'...],故求得损失lossA=(-0.502-0.4552)2+(-0.819-0.4962)2+(0.9042-0.9042)2+(0.6500+0.548)2…,在不断优化损失之后,lossA趋近于0,自适应错词和生词的词向量生成模型的模型输出的单词‘raga’的词向量x=['0.4551','0.4962','0.4928','0.0774','-0.970'...];
S3、根据所述自适应错词和生词的词向量生成模型以及字到向量的映射字典char2vector,利用有标签的新闻语料训练文本分类模型,包括如下步骤:
S301、根据所述自适应错词和生词的词向量生成模型以及字到向量的映射字典char2vector,将用于训练的新闻样本进行分词,得到单词序列{word1,word2...wordn},其中,n表示新闻的长度;
S302、将所述单词序列中的每个单词分割成字符序列{char1,char2...chark},并通过字到向量的映射字典char2vector利用有标签的新闻语料,得到单词的矩阵表示{V1,V2...Vk},其中,Vk表示单词中第k个字符的字向量,k表示单词矩阵中的字符个数,
本实施例中,将单词‘marshanda’分割成字符序列['m','a','r','s','h','a','n','d','a'],通过查找char2vector字典得到单词‘marshanda’的矩阵表示:
[['-0.009','0.2395','-0.797','0.3049','0.0452'...]
['0.5389','-0.584','-0.467','-0.052','0.5586'...]
['0.9450','0.5651','-0.500','0.7767','-0.975'...]
['0.1508','-0.215','0.7573','0.8700','0.2676'...]
['-0.328','-0.477','0.4409','0.9935','-0.586'...]
…];
S303、将每个单词的矩阵表示{V1,V2...Vk}输入到自适应错词和生词的词向量生成模型,输出单词的词向量,得到新闻的矩阵表示{x1,x2...xn},其中,xn表示新闻的矩阵中第n个词的词向量,n表示新闻的长度,
本实施例中,将‘marshanda’的矩阵表示输入自适应错词和生词的词向量生成模型中,得到‘marshanda’的词向量['0.4417','0.3370','-0.774','-0.801','0.7968'...],同理也得到其他单词的词向量,从而得到新闻的矩阵表示:[['0.4417','0.3370','-0.774','-0.801','0.7968'...]['0.2718','0.0703','0.8658','0.8663','0.0322'...]…]。
S304、根据所述新闻的矩阵表示训练印尼新闻文本分类模型,从而完成文本分类模型的训练,其中,
所述文本分类模型的表达式如下:
lossB=-log Pc(c*)
其中,xi表示新闻中第i个词的词向量,n表示新闻的长度,W'、W、b'以及b分别是分类模型最后两层的参数,且在训练的时候不断更新,c*表示新闻的标签,Pc为分类模型预测的该新闻属于每一类的概率,soft max(·)表示归一化指数函数,Pc(c*)表示模型预测新闻为类别c*的概率,lossB表示分类模型预测值和真实标签之间的交叉熵损失;
本实施例中,若分类任务的新闻类别分别有0-体育,1-政治,2-娱乐,3-经济,以为政治新闻为例,即c*=1,将该新闻的矩阵表示输入分类模型中,得到该新闻属于各类的概率分别为Pc=[0.12,0.13,0.5,0.25],所以Pc(c*)=0.13,lossB=-log(0.13),在不断优化损失之后,lossB趋近于0,最后输出的该新闻属于每一类的概率分别为Pc=[0.013,0.98,0.005,0.002];
S4、根据所述文本分类模型对待分类新闻进行分词,并利用所述自适应错词和生词的词向量生成模型以及字到向量的映射字典char2vector,得到词向量,从而完成印尼新闻文本的分类,其具体为:
S401、将每个单词的矩阵表示{V1,V2...Vk}输入到自适应错词和生词的词向量生成模型,输出单词的词向量,得到新闻的矩阵表示{x1,x2...xm},其中,xm表示新闻中第m个词的词向量,m表示该新闻的单词个数;
S402、根据所述新闻的矩阵表示{x1,x2...xm}输入到步骤S304的文本分类模型中,得到每一个类别的概率,选出概率最大的新闻类别,从而完成印尼新闻文本的分类,其中,选出概率最大的新闻类别的表达式如下:
C=arg max(Pc)
其中,xi表示新闻中第i个词的词向量,n表示新闻的长度,W'、W、b'以及b分别是分类模型最后两层的参数,且在训练的时候不断更新,Pc表示分类模型预测的该新闻属于每一类的概率,C表示模型预测的概率最大的一类,soft max(·)表示归一化指数函数,argmax(·)表示最大值自变量点集函数。
本发明通过上述方法解决了现有的深度学习方法预测时错词和生词对预测结果的干扰的问题,让拼写错误的词语的词向量接近正确的词向量,进而有效地提高了分类的准确率。

Claims (8)

1.一种自适应错词和生词的印尼新闻文本分类方法,其特征在于,包括如下步骤:
S1、根据印尼新闻数据训练词到向量的神经网络模型,得到词到向量的映射字典word2vector;
S2、根据所述词到向量的映射字典word2vector,训练自适应错词和生词的词向量生成模型以及字到向量的映射字典char2vector;
S3、根据所述自适应错词和生词的词向量生成模型以及字到向量的映射字典char2vector,利用有标签的新闻语料训练文本分类模型;
S4、根据所述文本分类模型对待分类新闻进行分词,并利用所述自适应错词和生词的词向量生成模型以及字到向量的映射字典char2vector,得到词向量,从而完成印尼新闻文本的分类。
2.根据权利要求1所述的自适应错词和生词的印尼新闻文本分类方法,其特征在于,所述步骤S1具体为:
根据印尼新闻数据利用印尼新闻语料以及连续词袋模型CBOW训练词向量,得到词到向量的映射字典word2vector,其中,所述词到向量的映射字典word2vector的表达式如下:
word2vector={'word1':X1,'word2':X2...'wordm':Xm}
其中,wordm表示词到向量的映射字典word2vector中的第m个单词,Xm表示单词wordm的词向量,m表示单词个数。
3.根据权利要求1所述的自适应错词和生词的印尼新闻文本分类方法,其特征在于,所述步骤S2包括如下步骤:
S201、随机初始化一个字到向量的映射字典char2vector={'char1':V1,'char2':V2...'charp':Vp'},其中,charp表示字到向量的映射字典char2vector中的第p个字符,其中,Vp表示字到向量的映射字典char2vector中第P个字符的字向量,p表示字到向量的映射字典char2vector中不同字符的数量;
S202、将所述词到向量的映射字典word2vector中的每个单词分成字符序列,并通过字到向量的映射字典char2vector将字符编码成向量,得到每个单词的矩阵表示{V1,V2...Vk},其中,Vk表示字到向量的映射字典char2vector中第k个字符的字向量,k表示该单词的字符个数;
S203、将所述每个单词的矩阵表示{V1,V2...Vk}作为输入,通过查找word2vector,得到所述单词的词向量x'作为标签,训练自适应错词和生词的词向量生成模型,从而完成对自适应错词和生词的词向量生成模型的训练。
4.根据权利要求3所述的自适应错词和生词的印尼新闻文本分类方法,其特征在于,所述步骤S203中自适应错词和生词的词向量生成模型的表达式如下:
Ht=tanh(Whvt+WuHt-1+bh)*sigmoid(Wa*Ht-1)?
lossA=(x-x')2
其中,Ht表示单词的第t个字符输入自适应错词和生词的词向量生成模型后隐藏层的输出值,Wh、Wu、bh、Wa分别表示自适应错词和生词的词向量生成模型的参数,模型在训练时参数不断更新,k表示单词的长度,x表示自适应错词和生词的词向量生成模型输出的词向量,x'表示查找word2vector字典得到的词向量,lossA表示自适应错词和生词的词向量生成模型输出的向量和真实向量之间的平方损失,tanh(·)表示双曲正切函数,sigmoid(·)表示S型生长曲线函数,t表示自适应错词和生词的词向量生成模型中单词的字符数,Vt表示第t个字符的字向量。
5.根据权利要求1所述的自适应错词和生词的印尼新闻文本分类方法,其特征在于,所述步骤S3包括如下步骤:
S301、根据所述自适应错词和生词的词向量生成模型以及字到向量的映射字典char2vector,将用于训练的新闻样本进行分词,得到单词序列{word1,word2...wordn},其中,n表示新闻的长度;
S302、将所述单词序列中的每个单词分割成字符序列{char1,char2...chark},并通过字到向量的映射字典char2vector利用有标签的新闻语料,得到单词的矩阵表示{V1,V2...Vk},其中,Vk表示单词中第k个字符的字向量,k表示单词矩阵中的字符个数;
S303、将每个单词的矩阵表示{V1,V2...Vk}输入到自适应错词和生词的词向量生成模型,输出单词的词向量,得到新闻的矩阵表示{x1,x2...xn},其中,xn表示新闻的矩阵中第n个词的词向量,n表示新闻的长度。
S304、根据所述新闻的矩阵表示训练印尼新闻文本分类模型,从而完成文本分类模型的训练。
6.根据权利要求5所述的自适应错词和生词的印尼新闻文本分类方法,其特征在于,所述步骤S304中文本分类模型的表达式如下:
lossB=-logPc(c*)
其中,xi表示新闻中第i个词的词向量,n表示新闻的长度,W'、W、b'、b分别是分类模型中最后两层的参数,且在训练的时候不断更新,c*表示新闻的标签,Pc表示分类模型预测的新闻属于每一类的概率,softmax(·)表示归一化指数函数,Pc(c*)表示模型预测新闻为类别c*的概率,lossB表示分类模型预测值和真实标签之间的交叉熵损失。
7.根据权利要求5所述的自适应错词和生词的印尼新闻文本分类方法,其特征在于,所述步骤S4具体为:
S401、将每个单词的矩阵表示{V1,V2...Vk}输入到自适应错词和生词的词向量生成模型,输出单词的词向量,得到新闻的矩阵表示{x1,x2...xm},其中,xm表示新闻中第m个词的词向量,m表示该新闻的单词个数;
S402、根据所述新闻的矩阵表示{x1,x2...xm}输入到步骤S304的文本分类模型中,得到每一个类别的概率,选出概率最大的新闻类别,从而完成印尼新闻文本的分类。
8.根据权利要求7所述的自适应错词和生词的印尼新闻文本分类方法,其特征在于,所述步骤S402中选出概率最大的新闻类别的表达式如下:
C=argmax(Pc)
其中,xi表示新闻中第i个词的词向量,n表示新闻的长度,W'、W、b'以及b分别是分类模型最后两层的参数,且在训练的时候不断更新,Pc表示分类模型预测的新闻属于每一类的概率,C表示模型预测的概率最大的一类,softmax(·)表示归一化指数函数,argmax(·)表示最大值自变量点集函数。
CN201910250650.4A 2019-03-29 2019-03-29 一种自适应错词和生词的印尼新闻文本分类方法 Active CN110008341B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910250650.4A CN110008341B (zh) 2019-03-29 2019-03-29 一种自适应错词和生词的印尼新闻文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910250650.4A CN110008341B (zh) 2019-03-29 2019-03-29 一种自适应错词和生词的印尼新闻文本分类方法

Publications (2)

Publication Number Publication Date
CN110008341A true CN110008341A (zh) 2019-07-12
CN110008341B CN110008341B (zh) 2023-01-17

Family

ID=67169012

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910250650.4A Active CN110008341B (zh) 2019-03-29 2019-03-29 一种自适应错词和生词的印尼新闻文本分类方法

Country Status (1)

Country Link
CN (1) CN110008341B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111625647A (zh) * 2020-05-25 2020-09-04 红船科技(广州)有限公司 一种无监督的新闻自动分类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893349A (zh) * 2016-03-31 2016-08-24 新浪网技术(中国)有限公司 类目标签匹配映射方法及装置
US20180052908A1 (en) * 2016-08-16 2018-02-22 Ebay Inc. Semantic reverse search indexing of publication corpus
CN108399230A (zh) * 2018-02-13 2018-08-14 上海大学 一种基于卷积神经网络的中文财经新闻文本分类方法
CN108875065A (zh) * 2018-07-02 2018-11-23 电子科技大学 一种基于内容的印尼新闻网页推荐方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893349A (zh) * 2016-03-31 2016-08-24 新浪网技术(中国)有限公司 类目标签匹配映射方法及装置
US20180052908A1 (en) * 2016-08-16 2018-02-22 Ebay Inc. Semantic reverse search indexing of publication corpus
CN108399230A (zh) * 2018-02-13 2018-08-14 上海大学 一种基于卷积神经网络的中文财经新闻文本分类方法
CN108875065A (zh) * 2018-07-02 2018-11-23 电子科技大学 一种基于内容的印尼新闻网页推荐方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
INTUITION ENGINEERING: "Chars2vec:character-based language model for handling real world texts with spelling and...", 《HACKERNOON》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111625647A (zh) * 2020-05-25 2020-09-04 红船科技(广州)有限公司 一种无监督的新闻自动分类方法
CN111625647B (zh) * 2020-05-25 2023-05-02 王旭 一种无监督的新闻自动分类方法

Also Published As

Publication number Publication date
CN110008341B (zh) 2023-01-17

Similar Documents

Publication Publication Date Title
CN109657239B (zh) 基于注意力机制和语言模型学习的中文命名实体识别方法
Akhtar et al. Feature selection and ensemble construction: A two-step method for aspect based sentiment analysis
Sprechmann et al. Memory-based parameter adaptation
CN106897371B (zh) 中文文本分类系统及方法
Putthividhya et al. Bootstrapped named entity recognition for product attribute extraction
CN110008338B (zh) 一种融合gan和迁移学习的电商评价情感分析方法
Tur et al. Combining active and semi-supervised learning for spoken language understanding
US11250042B2 (en) Taxonomy enrichment using ensemble classifiers
CN101561805B (zh) 文档分类器生成方法和系统
Mamgain et al. Sentiment analysis of top colleges in India using Twitter data
WO2017006104A1 (en) Improved artificial neural network for language modelling and prediction
CN109933808B (zh) 一种基于动态配置解码的神经机器翻译方法
CN110765260A (zh) 一种基于卷积神经网络与联合注意力机制的信息推荐方法
CN108228569B (zh) 一种基于松散条件下协同学习的中文微博情感分析方法
US20230394245A1 (en) Adversarial Bootstrapping for Multi-Turn Dialogue Model Training
CN108038492A (zh) 一种基于深度学习的感性词向量及情感分类方法
WO2021139107A1 (zh) 情感智能识别方法、装置、电子设备及存储介质
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN110647919A (zh) 一种基于k-均值聚类和胶囊网络的文本聚类方法及系统
US20200320112A1 (en) Personalized dynamic content via content tagging and transfer learning
CN109840328A (zh) 深度学习商品评论文本情感倾向分析方法
CN109299357B (zh) 一种老挝语文本主题分类方法
CN110309515B (zh) 实体识别方法及装置
US20220164546A1 (en) Machine Learning Systems and Methods for Many-Hop Fact Extraction and Claim Verification
CN110008341A (zh) 一种自适应错词和生词的印尼新闻文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant