CN109657064A - 一种文本分类方法及装置 - Google Patents
一种文本分类方法及装置 Download PDFInfo
- Publication number
- CN109657064A CN109657064A CN201910151793.XA CN201910151793A CN109657064A CN 109657064 A CN109657064 A CN 109657064A CN 201910151793 A CN201910151793 A CN 201910151793A CN 109657064 A CN109657064 A CN 109657064A
- Authority
- CN
- China
- Prior art keywords
- training sample
- word
- model
- participle list
- word frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 94
- 239000011159 matrix material Substances 0.000 claims abstract description 60
- 238000005520 cutting process Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 21
- 238000012360 testing method Methods 0.000 claims description 18
- 230000014509 gene expression Effects 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 10
- 239000013589 supplement Substances 0.000 claims description 8
- 238000002790 cross-validation Methods 0.000 claims description 4
- 238000013461 design Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 239000000047 product Substances 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 206010028916 Neologism Diseases 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种文本分类方法,包括:获取训练样本;对所述训练样本进行分词,得到分词列表;根据所述分词列表确定词频文档矩阵,并计算分词列表中各词语的TF‑IDF值矩阵;将所述词语作为变量输入模型,根据CV图获取最佳λ值和最优变量个数范围;将所述最优λ值作为参数拟合lasso回归模型,并输出特征变量;以特征词的词频文档矩阵创建训练容器;构建所述训练样本的SLDA有监督模型;通过Lasso回归模型得到的特征变量集合,并根据所述特征变量集合更新所述词频文档矩阵;在所述词频文档矩阵上应用训练好的SLDA模型,输出预测结果和预测概率。本发明成本低且效率高,可推广性强,可以剔除人的主观因素对结果的影响。
Description
技术领域
本发明涉及互文字处理领域,尤其涉及一种文本分类方法及装置。
背景技术
当今世界普遍存在的短文本,它们具有长度较短、内容较少、语义特征稀疏的特点。传统的K近邻(KNN)、朴素贝叶斯、支持向量机(SVM)和决策树等算法不适用于语义特征稀疏、词语共现性低、用词不规范、存在干扰的短文本分类场景上。
目前主流的短文本分类方法有三种:一种是基于搜索引擎,将短文本作为查询利用搜索引擎返回结果进行文本扩充,再利用传统方法进行文本分类;一种是利用外部大规模语料库进行文本扩充和文本分类;另一种是基于LDA模型得到的主题进行特征加权用于文本分类。三者各有其优缺点,其中LDA模型是无监督模型,不能利用已有的短文本类标注信息,为了克服这个困难,人们提出了SLDA模型,一个伴随有类标注信息的监督LDA模型。
有监督的LDA主题模型仍然需要对文本进行大量的清洗。特别是对于短文本来说,语言稀疏,特征较少,本身就包含冗余的噪声数据,这必然会对模型性能造成影响。另一方面,用某些特征作为文本的特征,通常是文中的词。但是不是所有词都能很好的代表文本的特性,把所有词都用上理论上能反应最多的信息量,但是会导致非常高的维度,带来的是计算量的攀升和噪音的干扰。
发明内容
本发明提供了一种文本分类方法,成本低且效率高,可推广性强,可以剔除人的主观因素对结果的影响。
本发明的第一方面提供了一种文本分类方法,包括:
获取训练样本;
对所述训练样本进行分词,得到分词列表;
根据所述分词列表确定词频文档矩阵,并计算分词列表中各词语的TF-IDF值矩阵;
将所述词语作为变量输入模型,根据CV图获取最佳λ值和最优变量个数范围;
将所述最优λ值作为参数拟合lasso回归模型,并输出特征变量;
以特征词的词频文档矩阵创建训练容器;
构建所述训练样本的SLDA有监督模型;
通过Lasso回归模型得到的特征变量集合,并根据所述特征变量集合更新所述词频文档矩阵;
在所述词频文档矩阵上应用训练好的SLDA模型,输出预测结果和预测概率。
在第一方面的一种设计中,所述方法还包括:
去除所述训练样本的中的数字、字母和特殊字符;
根据正则表达式匹配训练样本中的固定模板语句,并去除所述训练样本的中的前缀和后缀。
在第一方面的一种设计中,所述对训练样本进行分词,得到分词列表之后,所述方法还包括:
在所述分词列表中进行人名识别以及外部词典的补充;
对所述分词列表进行词性标注,并统计词性信息。
在第一方面的一种设计中,所述对训练样本进行分词,包括:
调用Java中文分词工具Ansj,分别对训练样本进行全切分、原子切分、N最短路径的粗切分。
在第一方面的一种设计中,所述对分词列表进行词性标注,并统计词性信息包括:
对所述分词列表进行词性标注,并统计词性信息,得到如下分词列表:
nword={Dd(wn,wv,wnr,wnz,wuserdefine),d=1,...,dtr};
其中wn表示名词,wv表示动词,wnr表示名词代词,wnz表示其它专有名词,wuserdefine表示用户自定义词,dtr表示文本的数目。
在第一方面的一种设计中,所述在词频文档矩阵上应用训练好的SLDA模型,输出预测结果和预测概率之后,所述方法还包括:
进行5折交叉验证评估模型在测试样本上的稳定性,构建准确率、召回率、F值等指标评估模型准确性和泛化能力。
本发明的第二方面提供了一种文本分类装置,包括:
获取模块,用于获取训练样本;
处理模块,用于对所述训练样本进行分词,得到分词列表;
根据所述分词列表确定词频文档矩阵,并计算分词列表中各词语的TF-IDF值矩阵;
将所述词语作为变量输入模型,根据CV图获取最佳λ值和最优变量个数范围;
将所述最优λ值作为参数拟合lasso回归模型,并输出特征变量;
以特征词的词频文档矩阵创建训练容器;
构建所述训练样本的SLDA有监督模型;
通过Lasso回归模型得到的特征变量集合,并根据所述特征变量集合更新所述词频文档矩阵;
输出模块,用于在所述词频文档矩阵上应用训练好的SLDA模型,输出预测结果和预测概率。
在第二方面的一种设计中,所述处理模块还用于:
去除所述训练样本的中的数字、字母和特殊字符;
根据正则表达式匹配训练样本中的固定模板语句,并去除所述训练样本的中的前缀和后缀。
在第二方面的一种设计中,所述处理模块还用于:
在所述分词列表中进行人名识别以及外部词典的补充;
对所述分词列表进行词性标注,并统计词性信息。
在第二方面的一种设计中,所述处理模块还用于:
调用Java中文分词工具Ansj,分别对训练样本进行全切分、原子切分、N最短路径的粗切分。
从以上技术方案可以看出,本发明实施例具有以下优点:
本发明实施例中,提供了一种文本分类方法,获取训练样本;对所述训练样本进行分词,得到分词列表;根据所述分词列表确定词频文档矩阵,并计算分词列表中各词语的TF-IDF值矩阵;将所述词语作为变量输入模型,根据CV图获取最佳λ值和最优变量个数范围;将所述最优λ值作为参数拟合lasso回归模型,并输出特征变量;以特征词的词频文档矩阵创建训练容器;构建所述训练样本的SLDA有监督模型;通过Lasso回归模型得到的特征变量集合,并根据所述特征变量集合更新所述词频文档矩阵;在所述词频文档矩阵上应用训练好的SLDA模型,输出预测结果和预测概率。通过上述方式,成本低且效率高,可推广性强,可以剔除人的主观因素对结果的影响。
附图说明
图1为本发明实施例中文本分类方法一个实施例示意图;
图2为本发明实施例中文本分类装置一个实施例示意图。
具体实施方式
本发明实施例提供了一种文本分类方法,成本低且效率高,可推广性强,可以剔除人的主观因素对结果的影响。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
请参阅图1,本发明实施例中文本分类方法一个实施例包括:
101、获取训练样本;
本实施例中,可以对训练样本进行预处理:去除训练样本中的数字、字母和特殊字符;并正则表达式匹配训练样本中的固定模板语句,对无意义的前缀和后缀进行丢弃处理。
102、对训练样本进行分词,得到分词列表;
本实施例中,可以调用Java中文分词工具Ansj,分别实现全切分、原子切分、N最短路径的粗切分,根据隐马尔科夫模型和viterbi算法,达到最优路径的规划。
进行人名识别、外部词典补充和自定义词典的补充;
完成词性标注,统计词性信息,加上自定义词语,得到重点词语列表:
nword={Dd(wn,wv,wnr,wnz,wuserdefine),d=1,...,dtr};
其中wn表示名词,wv表示动词,wnr表示名词代词,wnz表示其它专有名词,wuserdefine表示用户自定义词,dtr表示文本的数。
103、根据分词列表确定词频文档矩阵,并计算分词列表中各词语的TF-IDF值矩阵;
计算nword中的每个词语对每篇文档的TF-IDF值:
TFIDFi,j=TFi,j×IDFi;
TF(词频)指的是某一个给定的词语在该文档中出现的频率:
分子是该词在文档中的出现次数,而分母则是在文档中所有词语的出现次数之和。IDF(逆向文档频率)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文档数目除以包含该词语的文档的数目,再将得到的商取对数得到:
其中|D|为语料库中的文档总数,|{d∈D:t∈d}|为包含该词的文档数,加1保证分母不为0。
104、将词语作为变量输入模型,根据CV图获取最佳λ值和最优变量个数范围;
将所有词语作为变量输入模型,由CV图判断最佳λ值以及最优变量个数范围;
以最优λ值作为参数拟合lasso回归模型,输出系数不为0的变量作为特征变量。
105、将最优λ值作为参数拟合lasso回归模型,并输出特征变量;
106、以特征词的词频文档矩阵创建训练容器;
107、构建训练样本的SLDA有监督模型;
108、通过Lasso回归模型得到的特征变量集合,并根据特征变量集合更新词频文档矩阵;
以特征词的词频文档矩阵创建训练容器:
DTMtrain=[ni,fs,i=1,...,dtr,fs∈FS];
针对训练样本构建SLDA有监督的主题模型;
去除测试样本中的数字、字母和特殊字符;
使用正则表达式匹配测试样本中的固定模板语句,对无意义的前缀和后缀进行丢弃处理;
基于中文分词技术拆分文本,生成测试样本的词频文档矩阵;
以Lasso回归模型得到的特征变量集合更新测试样本的词频文档矩阵:
DTMtest=[ni,fs,i=1,...,dtr,fs∈FS]。
109、在词频文档矩阵上应用训练好的SLDA模型,输出预测结果和预测概率。
具体的,以下举一个具体的实例对本申请实施例进行说明,从业务系统中抽取2017年6月1日至6月30日营销1000号需求单信息数据,基于人工判断工单分类后形成有12类问题标注的处理数据,共2127行66列。抽取其中70%样本量共1499条记录作为训练样本数据,30%样本量共628条记录作为测试样本数据。本次实验以问题分类1“营销数据治理工具是否有功能支持”为例。实验中,实验参数选取如表1所示:
表1
对于训练文本,执行以下步骤:
去除训练样本中的数字、字母和特殊字符等无意义信息;
使用正则表达式匹配训练样本中的固定模板语句,对无意义的前缀“涉及菜单XXX涉及账号XXX”和后缀“菜单路径XXX”进行丢弃处理,保留需求单标题、处理原因和具体内容部分。
基于中文分词技术拆分文本,摘取动词和名词,结合自定义词语作为语料库,初始化词频文档矩阵和降维用的TF-IDF矩阵:
对于train={doci,i=1,...,1499},应用中文分词技术,形成维度为(ki,1499)的分词列表,其中i为训练样本顺序标号,ki为第i篇文档的词语个数;
由现有的工单相关知识库添加用户自定义词语
wuserdefine={业扩,退费,...,录错,回退};
摘取动词、名词、名词代词和专有名词,形成维度为(nzi,1499)的共计150576个词语的动词名词列表,结合wuserdefine初始化词频文档矩阵:
DTMtrain=[ni,d,i=1,...,1499];
利用初始化的词频文档矩阵计算各词语的TF-IDF值矩阵,用于Lasso回归模型,进而达到降维的目的。
TF-IDFlasso={tfidfi,d,i=1,...,1499};
针对TF-IDF矩阵拟合Lasso回归模型,同时进行变量筛选和复杂度调整:
将所有词语作为变量拟合Lasso回归模型,由CV图判断最佳λ值以及最优变量个数范围,得到λ.min=0.00224973,最佳变量个数在190~490个之间;
提取以λ.min作为最优参数时的模型回归系数,筛选系数不为0的变量作为特征变量FS={d,coef(d)≠0},共计208个,在推荐变量个数范围内。
由Lasso回归结果更新文档词频矩阵,然后针对训练样本应用SLDA模型进行训练,在测试文本上进行模型效果评估:
更新DTMtrain=[ni,d,i=1,...,1499]为DTMtrain=[ni,fs,i=1,...,1499,fs∈FS],应用SLDA模型进行训练;
去除测试样本中的数字、字母和特殊字符;
使用正则表达式匹配测试样本中的固定模板语句,对无意义的前缀和后缀进行丢弃处理;
基于中文分词技术拆分文本,生成测试样本的词频文档矩阵;
以Lasso回归模型得到的特征变量集合更新测试样本的词频文档矩阵:
DTMtest=[ni,fs,i=1,...,628,fs∈FS];
在DTMtest上应用训练好的SLDA模型,输出预测结果和预测概率;
进行5折交叉验证评估模型在测试样本上的稳定性,结果如表2所示,在得到测试文本预测类别之后,将预测结果与测试文本真实结果用准确率、召回率、F值等指标评估模型准确性和泛化能力,结果如表3所示。结果表明本发明具有良好稳定性和预测能力,在总共12个问题分类的数据数据上,平均达到了80%的预测精确度,最高达到了90%以上的预测精确度。
表2
表3
可选地,方法还包括:
去除训练样本的中的数字、字母和特殊字符;
根据正则表达式匹配训练样本中的固定模板语句,并去除训练样本的中的前缀和后缀。
可选地,对训练样本进行分词,得到分词列表之后,方法还包括:
在分词列表中进行人名识别以及外部词典的补充;
对分词列表进行词性标注,并统计词性信息。
可选地,对训练样本进行分词,包括:
调用Java中文分词工具Ansj,分别对训练样本进行全切分、原子切分、N最短路径的粗切分。
可选地,对分词列表进行词性标注,并统计词性信息包括:
对分词列表进行词性标注,并统计词性信息,得到如下分词列表:
nword={Dd(wn,wv,wnr,wnz,wuserdefine),d=1,...,dtr};
其中wn表示名词,wv表示动词,wnr表示名词代词,wnz表示其它专有名词,wuserdefine表示用户自定义词,dtr表示文本的数目。
可选地,在词频文档矩阵上应用训练好的SLDA模型,输出预测结果和预测概率之后,方法还包括:
进行5折交叉验证评估模型在测试样本上的稳定性,构建准确率、召回率、F值等指标评估模型准确性和泛化能力。
本发明实施例中,提供了一种文本分类方法,获取训练样本;对训练样本进行分词,得到分词列表;根据分词列表确定词频文档矩阵,并计算分词列表中各词语的TF-IDF值矩阵;将词语作为变量输入模型,根据CV图获取最佳值和最优变量个数范围;将最优值作为参数拟合lasso回归模型,并输出特征变量;以特征词的词频文档矩阵创建训练容器;构建训练样本的SLDA有监督模型;通过Lasso回归模型得到的特征变量集合,并根据特征变量集合更新词频文档矩阵;在词频文档矩阵上应用训练好的SLDA模型,输出预测结果和预测概率。通过上述方式,成本低且效率高,可推广性强,可以剔除人的主观因素对结果的影响。
请参阅图2,本发明实施例中文本分类装置一个实施例包括:
获取模块201,用于获取训练样本;
处理模块202,用于对训练样本进行分词,得到分词列表;
根据分词列表确定词频文档矩阵,并计算分词列表中各词语的TF-IDF值矩阵;
将词语作为变量输入模型,根据CV图获取最佳λ值和最优变量个数范围;
将最优λ值作为参数拟合lasso回归模型,并输出特征变量;
以特征词的词频文档矩阵创建训练容器;
构建训练样本的SLDA有监督模型;
通过Lasso回归模型得到的特征变量集合,并根据特征变量集合更新词频文档矩阵;
输出模块203,用于在词频文档矩阵上应用训练好的SLDA模型,输出预测结果和预测概率。
可选地,处理模块202还用于:
去除训练样本的中的数字、字母和特殊字符;
根据正则表达式匹配训练样本中的固定模板语句,并去除训练样本的中的前缀和后缀。
可选地,处理模块202还用于:
在分词列表中进行人名识别以及外部词典的补充;
对分词列表进行词性标注,并统计词性信息。
可选地,处理模块202还用于:
调用Java中文分词工具Ansj,分别对训练样本进行全切分、原子切分、N最短路径的粗切分。
本实施例中,获取模块获取训练样本;处理模块对训练样本进行分词,得到分词列表;根据分词列表确定词频文档矩阵,并计算分词列表中各词语的TF-IDF值矩阵;将词语作为变量输入模型,根据CV图获取最佳λ值和最优变量个数范围;将最优λ值作为参数拟合lasso回归模型,并输出特征变量;以特征词的词频文档矩阵创建训练容器;构建训练样本的SLDA有监督模型;通过Lasso回归模型得到的特征变量集合,并根据特征变量集合更新词频文档矩阵;输出模块在词频文档矩阵上应用训练好的SLDA模型,输出预测结果和预测概率。通过上述方式,成本低且效率高,可推广性强,可以剔除人的主观因素对结果的影响。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种文本分类方法,其特征在于,包括:
获取训练样本;
对所述训练样本进行分词,得到分词列表;
根据所述分词列表确定词频文档矩阵,并计算分词列表中各词语的TF-IDF值矩阵;
将所述词语作为变量输入模型,根据CV图获取最佳λ值和最优变量个数范围;
将所述最优λ值作为参数拟合lasso回归模型,并输出特征变量;
以特征词的词频文档矩阵创建训练容器;
构建所述训练样本的SLDA有监督模型;
通过Lasso回归模型得到的特征变量集合,并根据所述特征变量集合更新所述词频文档矩阵;
在所述词频文档矩阵上应用训练好的SLDA模型,输出预测结果和预测概率。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
去除所述训练样本的中的数字、字母和特殊字符;
根据正则表达式匹配训练样本中的固定模板语句,并去除所述训练样本的中的前缀和后缀。
3.根据权利要求2所述的方法,其特征在于,所述对训练样本进行分词,得到分词列表之后,所述方法还包括:
在所述分词列表中进行人名识别以及外部词典的补充;
对所述分词列表进行词性标注,并统计词性信息。
4.根据权利要求3所述的方法,其特征在于,所述对训练样本进行分词,包括:
调用Java中文分词工具Ansj,分别对训练样本进行全切分、原子切分、N最短路径的粗切分。
5.根据权利要求4中所述的方法,其特征在于,所述对分词列表进行词性标注,并统计词性信息包括:
对所述分词列表进行词性标注,并统计词性信息,得到如下分词列表:
nword={Dd(wn,wv,wnr,wnz,wuserdefine),d=1,...,dtr};
其中wn表示名词,wv表示动词,wnr表示名词代词,wnz表示其它专有名词,wuserdefine表示用户自定义词,dtr表示文本的数目。
6.根据权利要求5所述的方法,其特征在于,所述在词频文档矩阵上应用训练好的SLDA模型,输出预测结果和预测概率之后,所述方法还包括:
进行5折交叉验证评估模型在测试样本上的稳定性,构建准确率、召回率、F值等指标评估模型准确性和泛化能力。
7.一种文本分类装置,其特征在于,包括:
获取模块,用于获取训练样本;
处理模块,用于对所述训练样本进行分词,得到分词列表;
根据所述分词列表确定词频文档矩阵,并计算分词列表中各词语的TF-IDF值矩阵;
将所述词语作为变量输入模型,根据CV图获取最佳λ值和最优变量个数范围;
将所述最优λ值作为参数拟合lasso回归模型,并输出特征变量;
以特征词的词频文档矩阵创建训练容器;
构建所述训练样本的SLDA有监督模型;
通过Lasso回归模型得到的特征变量集合,并根据所述特征变量集合更新所述词频文档矩阵;
输出模块,用于在所述词频文档矩阵上应用训练好的SLDA模型,输出预测结果和预测概率。
8.根据权利要求7所述的装置,其特征在于,所述处理模块还用于:
去除所述训练样本的中的数字、字母和特殊字符;
根据正则表达式匹配训练样本中的固定模板语句,并去除所述训练样本的中的前缀和后缀。
9.根据权利要求8所述的装置,其特征在于,所述处理模块还用于:
在所述分词列表中进行人名识别以及外部词典的补充;
对所述分词列表进行词性标注,并统计词性信息。
10.根据权利要求9所述的装置,其特征在于,所述处理模块还用于:
调用Java中文分词工具Ansj,分别对训练样本进行全切分、原子切分、N最短路径的粗切分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910151793.XA CN109657064A (zh) | 2019-02-28 | 2019-02-28 | 一种文本分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910151793.XA CN109657064A (zh) | 2019-02-28 | 2019-02-28 | 一种文本分类方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109657064A true CN109657064A (zh) | 2019-04-19 |
Family
ID=66123380
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910151793.XA Pending CN109657064A (zh) | 2019-02-28 | 2019-02-28 | 一种文本分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109657064A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188199A (zh) * | 2019-05-21 | 2019-08-30 | 北京鸿联九五信息产业有限公司 | 一种用于智能语音交互的文本分类方法 |
CN110287324A (zh) * | 2019-06-27 | 2019-09-27 | 成都冰鉴信息科技有限公司 | 一种针对粗粒度文本分类的数据动态标注方法及装置 |
CN111783438A (zh) * | 2020-05-22 | 2020-10-16 | 贵州电网有限责任公司 | 实现工单分析的热词检测方法 |
CN112036120A (zh) * | 2020-08-31 | 2020-12-04 | 上海硕恩网络科技股份有限公司 | 一种技能短语抽取方法 |
CN112463928A (zh) * | 2020-12-10 | 2021-03-09 | 毛彬 | 一种面向领域评估预测的技术清单生成方法和系统 |
CN116522908A (zh) * | 2023-07-04 | 2023-08-01 | 西安羚控电子科技有限公司 | 指挥控制系统消息管理方法及装置 |
-
2019
- 2019-02-28 CN CN201910151793.XA patent/CN109657064A/zh active Pending
Non-Patent Citations (1)
Title |
---|
杨博文: "家庭财产对婚姻纠纷的影响——基于裁判文书数据的研究", 《万方数据库》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188199A (zh) * | 2019-05-21 | 2019-08-30 | 北京鸿联九五信息产业有限公司 | 一种用于智能语音交互的文本分类方法 |
CN110287324A (zh) * | 2019-06-27 | 2019-09-27 | 成都冰鉴信息科技有限公司 | 一种针对粗粒度文本分类的数据动态标注方法及装置 |
CN110287324B (zh) * | 2019-06-27 | 2023-08-08 | 成都冰鉴信息科技有限公司 | 一种针对粗粒度文本分类的数据动态标注方法及装置 |
CN111783438A (zh) * | 2020-05-22 | 2020-10-16 | 贵州电网有限责任公司 | 实现工单分析的热词检测方法 |
CN112036120A (zh) * | 2020-08-31 | 2020-12-04 | 上海硕恩网络科技股份有限公司 | 一种技能短语抽取方法 |
CN112463928A (zh) * | 2020-12-10 | 2021-03-09 | 毛彬 | 一种面向领域评估预测的技术清单生成方法和系统 |
CN116522908A (zh) * | 2023-07-04 | 2023-08-01 | 西安羚控电子科技有限公司 | 指挥控制系统消息管理方法及装置 |
CN116522908B (zh) * | 2023-07-04 | 2023-12-05 | 西安羚控电子科技有限公司 | 指挥控制系统消息管理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109657064A (zh) | 一种文本分类方法及装置 | |
CN108304468B (zh) | 一种文本分类方法以及文本分类装置 | |
CN102576358B (zh) | 单词对取得装置、单词对取得方法及其程序 | |
CN111125349A (zh) | 基于词频和语义的图模型文本摘要生成方法 | |
CN106021572B (zh) | 二元特征词典的构建方法和装置 | |
KR20150037924A (ko) | 제품 인식에 근거한 정보 분류 기법 | |
CN111309916B (zh) | 摘要抽取方法和装置、存储介质和电子装置 | |
CN112633011B (zh) | 融合词语义与词共现信息的研究前沿识别方法及设备 | |
Nigam et al. | Machine learning based approach to sentiment analysis | |
CN112860896A (zh) | 语料泛化方法及用于工业领域的人机对话情感分析方法 | |
Ranjan et al. | Document classification using lstm neural network | |
Baowaly et al. | Predicting the helpfulness of game reviews: A case study on the steam store | |
Eke et al. | The significance of global vectors representation in sarcasm analysis | |
Alam et al. | Social media content categorization using supervised based machine learning methods and natural language processing in bangla language | |
CN110019821A (zh) | 文本类标训练方法和识别方法、相关装置及存储介质 | |
Manojkumar et al. | An experimental investigation on unsupervised text summarization for customer reviews | |
Tizhoosh et al. | Poetic features for poem recognition: A comparative study | |
CN108475265B (zh) | 获取未登录词的方法与装置 | |
CN107729509B (zh) | 基于隐性高维分布式特征表示的篇章相似度判定方法 | |
Palm | Sentiment classification of Swedish Twitter data | |
CN115269846A (zh) | 文本处理方法、装置、电子设备及存储介质 | |
CN109947947A (zh) | 一种文本分类方法、装置及计算机可读存储介质 | |
Shah et al. | A new approach to lexical disambiguation of Arabic text | |
Siddiqui | Sarcasm detection from Twitter database using text mining algorithms | |
CN113536802A (zh) | 小语种文本数据的情感判别方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190419 |