CN108710651B - 一种大规模客户投诉数据自动分类方法 - Google Patents
一种大规模客户投诉数据自动分类方法 Download PDFInfo
- Publication number
- CN108710651B CN108710651B CN201810431307.5A CN201810431307A CN108710651B CN 108710651 B CN108710651 B CN 108710651B CN 201810431307 A CN201810431307 A CN 201810431307A CN 108710651 B CN108710651 B CN 108710651B
- Authority
- CN
- China
- Prior art keywords
- complaint
- text data
- classifier
- complaint text
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/01—Customer relationship services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Molecular Biology (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Finance (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种大规模客户投诉数据自动分类方法,包括以下步骤:收集投诉文本数据,并进行预处理;构建第一投诉分类器和第二投诉分类器;根据过滤规则,满足过滤规则分配第一分类标签;不满足过滤规则使用第一投诉分类器进行分类;有第一分类标签的投诉文本数据,没有对应第二投诉分类器,且第一分类标签条目大于第一门限值,则增加一个第二投诉分类器,进行再分类,得到第二分类标签;有对应第二投诉分类器,进行再分类,得到第二分类标签;本发明构建分类器,将投诉文本数据转化为向量,进行分类,通过生成特征词表和TF‑IDF权重值进行聚类和再分类,从而对投诉文本数据进行多层分类,实现快速而准确的对投诉数据文本进行分类。
Description
技术领域
本发明涉及数据处理研究领域,特别涉及一种大规模客户投诉数据自动分类方法。
背景技术
客户投诉是客户对一个企业在产品质量、服务水平、服务态度等多方位问题的集中式反馈的具体表现,也是企业收集客户意见、整理客户建议的有效途径;因此,高效的客户投诉数据分类方法,能够及时洞察和发现客户投诉信息的变化,提高客户管理的相应速度和服务水平。
随着移动互联网技术及应用的发展,可以通过微信、移动应用程序等方式快速地进行投诉,这也就产生大量的、非结构化的客户投诉文本数据,而且,随着语音识别技术的发展,大量的客户投诉语音可以快速的被识别为文本数据,这时,就需要对其文本数据进行及时处理,并准确地挖掘海量投诉文本信息中所蕴含的各种问题;而现有技术难以适应新的需求,会造成大量投诉数据的堆积,无法及时进行处理,且准确度不高。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种大规模客户投诉数据自动分类方法。
本发明的目的通过以下的技术方案实现:
一种大规模客户投诉数据自动分类方法,包括以下步骤:
S1、收集投诉文本数据,对投诉文本数据进行预处理;
S2、构建第一投诉分类器和第二投诉分类器;
S3、根据过滤规则,对预处理后的投诉文本数据进行过滤,满足过滤规则的投诉文本数据,分配第一分类标签;不满足过滤规则的投诉文本数据,使用第一投诉分类器进行分类;
S4、得到第一分类标签的投诉文本数据,没有对应第二投诉分类器,且第一分类标签投诉文本数据条目大于第一门限值,则将第一分类标签投诉文本数据增加一个第二投诉分类器,对第一分类标签进行分类,得到第二分类标签;有对应第二投诉分类器,则用第二投诉分类器进行再分类,得到第二分类标签。
步骤S1中,所述预处理包括投诉文本数据分词、去除标点符号、停用词;
所述投诉文本数据分词是使用中文分词工具将中文文本中的汉字序列切分成一个一个单独的词;所述停用词是将没有实际含义的词整理出一个停用词表,分词后,将停用词表中的词去掉。
步骤S2中,先构建第一投诉分类器和第二投诉分类器,其中第一投诉分类器的构建过程如下:
T1、对投诉文本数据进行预处理;
T2、使用投诉文本数据生成投诉字典;
T3、将投诉文本数据转化为序列向量,然后转化为等长向量,长度小于m的向量在后面补0,m=200;得到二维向量;
T4、构建CNN+LSTM神经网络模型,包括六个神经网络层:嵌入层,SpatialDropout1D层,一维卷积层,MaxPooling1D层,LSTM层,Dense层;
T5、将投诉文本数据进行随机划分,80%的投诉文本数据为训练集,用于模型训练;20%的投诉文本数据为验证集,用于确定模型的网络结构和模型的参数;将训练集数据输入CNN+LSTM神经网络模型,每一轮训练过程如下:二维向量输入嵌入层,得到三维向量;经过SpatialDropout1D层,防止过拟合后,输入一维卷积层进行时域卷积,得到时域信号;再经过MaxPooling1D层,即池化层对时域信号进行最大值池化,并将结果输入LSTM层,最后经Dense层得到每条投诉文本数据属于各类别的概率;每一轮训练集训练完,用验证集测试模型的损失函数、准确率;将上述过程迭代,进行训练,当验证集的损失连续两轮训练没有减少或迭代训练轮数达到10轮,则停止训练,取分类性能最好的模型,即取训练中预测准确率最高的模型参数,进行保存。
第二投诉分类器的构建过程如下:
U1、对投诉文本数据进行预处理;
U2、计算投诉文本数据中每个词语的权重,计算过程为:
TF-IDF权重值=TF×IDF,
其中,TF为词频,IDF为逆向文档频率;
其中,t为特征词在投诉文本数据中的词数,T为投诉文本数据中所有字词的总词数;
其中,N为投诉文本数据的总数,n为出现特征词的投诉文本数据总数;
U3、投诉文本数据选择TF-IDF权重值前N的词语,生成特征词表W;
U4、根据特征词表W和TF-IDF权重值,将投诉文本数据转化为TF-IDF权重向量;
U5、使用KMeans聚类方法对TF-IDF权重向量进行聚类计算聚类后的平均轮廓系数,根据平均轮廓系数选择聚类模型,得到K个类簇以及每个类簇的质心。
在步骤S3中,符合过滤规则的投诉文本数据,直接根据过滤规则获得第一分类标签,不符合过滤规则的投诉文本数据,则通过第一投诉分类器进行分类,使用第一投诉分类器的分类过程如下:
V1、对投诉文本数据进行预处理;
V2、将预处理后的投诉文本数据转化为序列向量,得到二维向量;
V3、将二维向量输入CNN+LSTM模型,得到投诉文本数据第一分类标签,即第一分类类别。
在步骤S4中,在获得第一分类标签的基础上,投诉文本数据没有对应的第二投诉分类器且条目数大于第一门限的投诉文本数据,增加一个对应的第二投诉分类器;使用第二投诉分类器进行再分类;使用第二投诉分类器的分类过程如下:
W1、对新的投诉文本数据进行预处理;
W2、预处理后的投诉文本数据根据特征词表和TF-IDF权重值,生成TF-IDF权重向量;
W3、依次比较新的TF-IDF权重向量和K个质心的距离,选择距离最小的质心类别为新的TF-IDF权重向量类别。
本发明与现有技术相比,具有如下优点和有益效果:
本发明构建神经网络模型,形成分类器,将投诉文本数据转化为向量,用过滤规则对向量转化并进行分类,继续进行二次分类,通过生成特征词表和TF-IDF权重值进行聚类,从而对投诉文本数据使用分类器进行多层分类,实现快速而准确的对投诉数据文本进行分类,不会造成大量数据的堆积,能够及时洞察和发现客户投诉信息的变化,提高客户管理的相应速度和服务水平。
附图说明
图1是本发明所述一种大规模客户投诉数据自动分类方法的流程图;
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例1
如图1所示,一种大规模客户投诉数据自动分类方法,包括以下步骤:
第一步:收集投诉文本数据,对投诉文本数据进行预处理;预处理过程包括对投诉文本数据进行分词、去除标点符号、停用词;投诉文本数据分词是使用中文分词工具将中文文本中的汉字序列切分成一个一个单独的词;停用词是将没有实际含义的词整理出一个停用词表,分词后,将停用词表中的词去掉
第二步:构建第一投诉分类器和第二投诉分类器;构建第一投诉分类器的过程如下:
T1、对投诉文本数据进行预处理;
T2、使用投诉文本数据生成投诉字典,并统计字典长度n_words;
T3、将投诉文本数据转化为word下标的序列向量,然后转化为长度为max_len的等长向量,max-len=m=200,长度不够的向量在后面补0;得到形如(n_sample,max_len)的二维向量,n_sample为投诉文本数据的数量;
T4、构建CNN+LSTM神经网络模型,包括六个神经网络层:嵌入层,SpatialDropout1D层,一维卷积层,MaxPooling1D层,LSTM层,Dense层;
嵌入层的参数设置如下:input_dim设置为词典长度78753,output_dim设置为128,input_length设置为文本向量长度200。SpatialDropout1D层的rate设置为0.3;卷积层的时域窗长度为6,输出维度为100;MaxPooling1D层的池化窗口大小设为4;LSTM层输出维度为200,dropout参数设为0.2;Dense层激活函数为“softmax”函数,输出维度为类别个数5;
T5、将投诉文本数据进行随机划分,80%的投诉文本数据为训练集,用于模型训练;20%的投诉文本数据为验证集,用于确定模型的网络结构和模型的参数;将训练集数据输入CNN+LSTM神经网络模型,每一轮训练过程如下:二维向量输入嵌入层,得到三维向量;经过SpatialDropout1D层,防止过拟合后,输入一维卷积层进行时域卷积,得到时域信号;再经过MaxPooling1D层,即池化层对时域信号进行最大值池化,并将结果输入LSTM层,最后经Dense层得到每条投诉文本数据属于各类别的概率;每一轮训练集训练完,用验证集测试模型的损失函数、准确率;将上述过程迭代,进行训练,当验证集的损失连续两轮训练没有减少或迭代训练轮数达到10轮,则停止训练,取分类性能最好的模型,即取训练中预测准确率最高的模型参数,进行保存。
构建第二投诉分类器的过程如下:
U1、对投诉文本数据进行预处理;
U2、用TF-IDF算法计算投诉文本数据中每个词语的权重,计算过程为:
TF-IDF权重值=TF×IDF,
其中,TF为词频,IDF为逆向文档频率;
其中,t为特征词在投诉文本数据中的词数,T为投诉文本数据中所有字词的总词数;
其中,N为投诉文本数据的总数,n为出现特征词的投诉文本数据总数;
U3、投诉文本数据选择TF-IDF权重值前N的词语,N=30,生成特征词表W;
U4、根据特征词表W和TF-IDF权重值,将每个投诉文本数据转化为一条对应的TF-IDF权重向量;
U5、使用KMeans聚类方法对TF-IDF权重向量进行聚类计算聚类后的平均轮廓系数,系数越接近1,聚类效果越好;比较轮廓系数,根据平均轮廓系数选择聚类模型,得到K个类簇以及每个类簇的质心,K=4。
第三步:根据过滤规则,指定一个或若干个设定的词在一个投诉文本中出现的次数,k为出现次数,n为设定次数,当k≥n,则满足过滤条件;对预处理后的投诉文本数据进行过滤处理,满足过滤规则的投诉文本数据,分配第一分类标签,即第一分类类别;不满足过滤规则的投诉文本数据,使用第一投诉分类器进行分类;
使用第一投诉分类器的分类过程如下:
V1、对投诉文本数据进行预处理;
V2、将预处理后的投诉文本数据转化为word下标的序列向量,得到(n_sample,max_len)二维向量;
V3、将(n_sample,max_len)二维向量输入CNN+LSTM模型,得到投诉文本数据第一分类标签,即第一分类类别。
第四步:得到第一分类标签的投诉文本数据,没有对应第二投诉分类器,且第一分类标签投诉文本数据条目大于第一门限值,则将第一分类标签投诉文本数据增加一个第二投诉分类器,对第一分类标签进行分类,得到第二分类标签;有对应第二投诉分类器,则用第二投诉分类器进行再分类,得到第二分类标签。
使用第二投诉分类器的分类过程如下:
W1、对新的投诉文本数据进行预处理;
W2、预处理后的投诉文本数据根据特征词表和TF-IDF权重值,生成TF-IDF权重向量;
W3、依次比较新的TF-IDF权重向量和K个质心的距离,选择距离最小的质心类别为新的TF-IDF权重向量类别,完成分类。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (7)
1.一种大规模客户投诉数据自动分类方法,其特征在于,包括以下步骤,
S1、收集投诉文本数据,对投诉文本数据进行预处理;
S2、构建第一投诉分类器和第二投诉分类器;所述第一投诉分类器用于得到投诉文本数据第一分类标签,所述第二投诉分类器用于得到投诉文本数据第二分类标签;所述第一投诉分类器构建过程如下:
T1、对投诉文本数据进行预处理;所述预处理包括投诉文本数据分词、去除标点符号、去除停用词;
T2、使用投诉文本数据生成投诉字典;
T3、将投诉文本数据转化为序列向量,然后转化为等长向量,长度小于200的向量在后面补0,得到二维向量;
T4、构建CNN+LSTM神经网络模型,包括六个神经网络层:嵌入层、SpatialDropout1D层,一维卷积层,MaxPooling1D层,LSTM层,Dense层;
T5、将投诉文本数据进行随机划分,80%的投诉文本数据为训练集,用于模型训练;20%的投诉文本数据为验证集,用于确定模型的网络结构和模型的参数;将训练集数据输入CNN+LSTM神经网络模型,每一轮训练过程如下:二维向量输入嵌入层,得到三维向量;经过SpatialDropout1D层,防止过拟合后,输入一维卷积层进行时域卷积,得到时域信号;再经过MaxPooling1D层,即池化层对时域信号进行最大值池化,并将结果输入LSTM层,最后经Dense层得到每条投诉文本数据属于各类别的概率;每一轮训练集训练完,用验证集测试模型的损失函数、准确率;迭代训练,当验证集的损失连续两轮没有减少或迭代训练轮数达到10轮,则停止训练,取分类性能最好的模型,即取训练中预测准确率最高的模型参数,进行保存;
所述第二投诉分类器构建过程如下:
U1、对投诉文本数据进行预处理;
U2、计算投诉文本数据中每个词语的TF-IDF权重值;计算过程为:
TF-IDF权重值=TF×IDF,
其中,TF为词频,IDF为逆向文档频率;
其中,t为特征词在投诉文本数据中的词数,T为投诉文本数据中所有字词的总词数;
其中,N为投诉文本数据的总数,n为出现特征词的投诉文本数据总数;
U3、投诉文本数据选择TF-IDF权重值排前H的词语,生成特征词表W;
U4、根据特征词表W和TF-IDF权重值,将投诉文本数据转化为TF-IDF权重向量;
U5、使用KMeans聚类方法对TF-IDF权重向量进行聚类计算聚类后的平均轮廓系数,根据平均轮廓系数选择聚类模型,得到K个类簇以及每个类簇的质心;平均轮廓系数的计算如下:
对于投诉文本数据中第i个元素Xi,计算Xi到同簇的其他投诉文本数据的平均距离ai;计算Xi到其他簇的平均距离bij,投诉文本数据的轮廓系数为:
其中,bi={min(bi1,bi2,…bij)};
再将所有投诉文本数据的轮廓系数求平均,得到聚类后的平均轮廓系数;
S3、根据过滤规则,对预处理后的投诉文本数据进行过滤,满足过滤规则的投诉文本数据,分配第一分类标签;不满足过滤规则的投诉文本数据,使用第一投诉分类器进行分类;
S4、得到第一分类标签的投诉文本数据,当没有对应第二投诉分类器,且第一分类标签投诉文本数据条目大于第一门限值,则将第一分类标签投诉文本数据增加一个第二投诉分类器,对第一分类标签进行分类,得到第二分类标签;当有对应第二投诉分类器,则用第二投诉分类器进行再分类,得到第二分类标签。
2.根据权利要求1所述的一种大规模客户投诉数据自动分类方法,其特征在于,步骤S1中,所述预处理包括投诉文本数据分词、去除标点符号、去除停用词。
3.根据权利要求2所述的一种大规模客户投诉数据自动分类方法,其特征在于,所述投诉文本数据分词是使用中文分词工具将中文文本中的汉字序列切分成一个一个单独的词;所述去除停用词是将没有实际含义的词整理出一个停用词表,分词后,将停用词表中的词去掉。
4.根据权利要求1所述的一种大规模客户投诉数据自动分类方法,其特征在于,步骤S3中,所述过滤规则为:指定一个或若干个设定的词在一个投诉文本数据中出现的次数,k为出现次数,p为设定次数,当k≥p,则满足过滤规则。
5.根据权利要求1所述的一种大规模客户投诉数据自动分类方法,其特征在于,步骤S3中,第一投诉分类器的分类过程如下:
V1、对投诉文本数据进行预处理;
V2、将预处理后的投诉文本数据转化为序列向量,得到二维向量;
V3、将二维向量输入CNN+LSTM模型,得到投诉文本数据第一分类标签,即第一分类类别。
6.根据权利要求1所述的一种大规模客户投诉数据自动分类方法,其特征在于,步骤S4中,所述第一门限值为1000。
7.根据权利要求1所述的一种大规模客户投诉数据自动分类方法,其特征在于,步骤S4中,第二投诉分类器的分类过程如下:
W1、对新的投诉文本数据进行预处理;
W2、预处理后的投诉文本数据根据特征词表和TF-IDF权重值,生成TF-IDF权重向量;
W3、依次比较新的TF-IDF权重向量和K个质心的距离,选择距离最小的质心类别为新的TF-IDF权重向量类别。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810431307.5A CN108710651B (zh) | 2018-05-08 | 2018-05-08 | 一种大规模客户投诉数据自动分类方法 |
PCT/CN2018/106844 WO2019214133A1 (zh) | 2018-05-08 | 2018-09-21 | 一种大规模客户投诉数据自动分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810431307.5A CN108710651B (zh) | 2018-05-08 | 2018-05-08 | 一种大规模客户投诉数据自动分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108710651A CN108710651A (zh) | 2018-10-26 |
CN108710651B true CN108710651B (zh) | 2022-03-25 |
Family
ID=63867816
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810431307.5A Active CN108710651B (zh) | 2018-05-08 | 2018-05-08 | 一种大规模客户投诉数据自动分类方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN108710651B (zh) |
WO (1) | WO2019214133A1 (zh) |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109872162B (zh) * | 2018-11-21 | 2023-06-16 | 创新先进技术有限公司 | 一种处理用户投诉信息的风控分类识别方法及系统 |
CN109783636B (zh) * | 2018-12-12 | 2023-03-28 | 重庆邮电大学 | 一种基于分类器链的汽车评论主题提取方法 |
CN109620203A (zh) * | 2018-12-18 | 2019-04-16 | 安徽心之声医疗科技有限公司 | 一种基于一维卷积神经网络的心电信号特征自动提取方法 |
CN109800309A (zh) * | 2019-01-24 | 2019-05-24 | 华中师范大学 | 课堂话语类型分类方法及装置 |
CN110377731A (zh) * | 2019-06-18 | 2019-10-25 | 深圳壹账通智能科技有限公司 | 投诉文本处理方法、装置、计算机设备及存储介质 |
CN112685555B (zh) * | 2019-10-17 | 2023-04-18 | 中国移动通信集团浙江有限公司 | 投诉工单质量检测方法及装置 |
CN111753083A (zh) * | 2020-05-10 | 2020-10-09 | 北京工业大学 | 一种基于svm参数优化的投诉举报文本分类方法 |
CN111708880A (zh) * | 2020-05-12 | 2020-09-25 | 北京明略软件系统有限公司 | 类簇的识别系统及方法 |
CN111797194B (zh) * | 2020-05-20 | 2024-04-02 | 北京三快在线科技有限公司 | 文本风险检测方法、装置、电子设备及存储介质 |
CN111625578B (zh) * | 2020-05-26 | 2023-12-08 | 辽宁大学 | 适用于文化科技融合领域时间序列数据的特征提取方法 |
CN113810212B (zh) * | 2020-06-15 | 2023-04-18 | 中国移动通信集团浙江有限公司 | 5g切片用户投诉的根因定位方法及装置 |
CN111930939A (zh) * | 2020-07-08 | 2020-11-13 | 泰康保险集团股份有限公司 | 一种文本检测的方法及装置 |
CN111861201A (zh) * | 2020-07-17 | 2020-10-30 | 南京汇宁桀信息科技有限公司 | 一种基于大数据分类算法的政务智能派单的方法 |
CN112182211B (zh) * | 2020-09-25 | 2023-12-05 | 国网数字科技控股有限公司 | 文本分类方法及装置 |
CN112163069B (zh) * | 2020-09-27 | 2024-04-12 | 广东工业大学 | 一种基于图神经网络节点特征传播优化的文本分类方法 |
CN112231473A (zh) * | 2020-09-29 | 2021-01-15 | 河海大学 | 一种基于多模态深度神经网络模型的商品分类方法 |
CN112488551B (zh) * | 2020-12-11 | 2023-04-07 | 浪潮云信息技术股份公司 | 一种基于XGBoost算法的热线智能派单方法 |
CN112632965B (zh) * | 2020-12-25 | 2024-05-03 | 上海德拓信息技术股份有限公司 | 一种针对政府服务热线领域的工单自动分类方法 |
CN112667812A (zh) * | 2020-12-30 | 2021-04-16 | 云南电网有限责任公司 | 供电服务客户电量电费诉求识别方法 |
CN112784910A (zh) * | 2021-01-28 | 2021-05-11 | 武汉市博畅软件开发有限公司 | 一种垃圾数据深度过滤方法及系统 |
CN112836509A (zh) * | 2021-02-22 | 2021-05-25 | 西安交通大学 | 一种专家系统知识库构建方法及系统 |
CN113284007B (zh) * | 2021-05-27 | 2023-07-04 | 国网电力科学研究院武汉能效测评有限公司 | 基于电力保险套餐的用电信息处理系统及其处理方法 |
CN113378950A (zh) * | 2021-06-22 | 2021-09-10 | 深圳市查策网络信息技术有限公司 | 一种长文本的无监督分类方法 |
CN113554241B (zh) * | 2021-09-02 | 2024-04-26 | 国网山东省电力公司泰安供电公司 | 一种基于用户用电投诉行为的用户分层方法及预测方法 |
CN113837778A (zh) * | 2021-10-28 | 2021-12-24 | 国网辽宁省电力有限公司阜新供电公司 | 基于改进狼群优化K-means的用户投诉聚类分析方法 |
CN113987185A (zh) * | 2021-11-03 | 2022-01-28 | 国网天津市电力公司 | 面向国网云架构的html数据的自动分类方法 |
CN114969321B (zh) * | 2022-03-14 | 2024-03-22 | 北京工业大学 | 基于多权重自训练的环境类投诉举报文本分类方法 |
CN115204318B (zh) * | 2022-09-15 | 2022-12-02 | 天津汇智星源信息技术有限公司 | 事件自动层级分类方法及电子设备 |
CN116266266B (zh) * | 2022-11-08 | 2024-02-20 | 美的集团(上海)有限公司 | 多音字消歧方法、装置、设备及存储介质 |
CN115935245B (zh) * | 2023-03-10 | 2023-05-26 | 吉奥时空信息技术股份有限公司 | 一种政务热线案件自动分类分拨方法 |
CN116662282B (zh) * | 2023-06-06 | 2023-11-03 | 苏州五优好房信息技术有限公司 | 一种基于多维数据的服务数据处理共享系统 |
CN116933114A (zh) * | 2023-06-12 | 2023-10-24 | 浙江大学 | 一种基于cnn-lstm的直流微电网检测方法及装置 |
CN117726345A (zh) * | 2023-11-30 | 2024-03-19 | 北京领雁科技股份有限公司 | 一种投诉数据的处理方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7493233B1 (en) * | 2005-12-30 | 2009-02-17 | At&T Intellectual Property Ii, L.P. | Forecasting a volume associated with an outcome based on analysis of text strings |
CN107169035A (zh) * | 2017-04-19 | 2017-09-15 | 华南理工大学 | 一种混合长短期记忆网络和卷积神经网络的文本分类方法 |
CN107273500A (zh) * | 2017-06-16 | 2017-10-20 | 中国电子技术标准化研究院 | 文本分类器生成方法、文本分类方法、装置及计算机设备 |
CN107844559A (zh) * | 2017-10-31 | 2018-03-27 | 国信优易数据有限公司 | 一种文件分类方法、装置及电子设备 |
CN107961007A (zh) * | 2018-01-05 | 2018-04-27 | 重庆邮电大学 | 一种结合卷积神经网络和长短时记忆网络的脑电识别方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160379281A1 (en) * | 2015-06-24 | 2016-12-29 | Bank Of America Corporation | Compliance violation early warning system |
CN106874279B (zh) * | 2015-12-11 | 2021-01-15 | 腾讯科技(深圳)有限公司 | 生成应用类别标签的方法及装置 |
US20180032874A1 (en) * | 2016-07-29 | 2018-02-01 | Ca, Inc. | Document analysis system that uses process mining techniques to classify conversations |
CN106909654B (zh) * | 2017-02-24 | 2020-07-21 | 北京时间股份有限公司 | 一种基于新闻文本信息的多级分类系统及方法 |
CN107798033B (zh) * | 2017-03-01 | 2021-07-02 | 中南大学 | 一种公安领域案件文本的分类方法 |
CN107729919A (zh) * | 2017-09-15 | 2018-02-23 | 国网山东省电力公司电力科学研究院 | 基于大数据技术的深化投诉穿透分析方法 |
CN107861942B (zh) * | 2017-10-11 | 2021-10-26 | 国网浙江省电力有限公司营销服务中心 | 一种基于深度学习的电力疑似投诉工单识别方法 |
-
2018
- 2018-05-08 CN CN201810431307.5A patent/CN108710651B/zh active Active
- 2018-09-21 WO PCT/CN2018/106844 patent/WO2019214133A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7493233B1 (en) * | 2005-12-30 | 2009-02-17 | At&T Intellectual Property Ii, L.P. | Forecasting a volume associated with an outcome based on analysis of text strings |
CN107169035A (zh) * | 2017-04-19 | 2017-09-15 | 华南理工大学 | 一种混合长短期记忆网络和卷积神经网络的文本分类方法 |
CN107273500A (zh) * | 2017-06-16 | 2017-10-20 | 中国电子技术标准化研究院 | 文本分类器生成方法、文本分类方法、装置及计算机设备 |
CN107844559A (zh) * | 2017-10-31 | 2018-03-27 | 国信优易数据有限公司 | 一种文件分类方法、装置及电子设备 |
CN107961007A (zh) * | 2018-01-05 | 2018-04-27 | 重庆邮电大学 | 一种结合卷积神经网络和长短时记忆网络的脑电识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108710651A (zh) | 2018-10-26 |
WO2019214133A1 (zh) | 2019-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108710651B (zh) | 一种大规模客户投诉数据自动分类方法 | |
WO2021208719A1 (zh) | 基于语音的情绪识别方法、装置、设备及存储介质 | |
CN107609121B (zh) | 基于LDA和word2vec算法的新闻文本分类方法 | |
CN106383877B (zh) | 一种社交媒体在线短文本聚类和话题检测方法 | |
CN109165294B (zh) | 一种基于贝叶斯分类的短文本分类方法 | |
CN111008274B (zh) | 特征扩展卷积神经网络的案件微博观点句识别构建方法 | |
CN112069310B (zh) | 基于主动学习策略的文本分类方法及系统 | |
CN111191442B (zh) | 相似问题生成方法、装置、设备及介质 | |
CN102289522A (zh) | 一种对于文本智能分类的方法 | |
CN107908642B (zh) | 基于分布式平台的行业文本实体提取方法 | |
CN109446423B (zh) | 一种新闻以及文本的情感判断系统及方法 | |
CN111767397A (zh) | 一种电力系统二次设备故障短文本数据分类方法 | |
CN113780007A (zh) | 语料筛选方法、意图识别模型优化方法、设备及存储介质 | |
CN111428028A (zh) | 基于深度学习的信息分类方法及相关设备 | |
CN110928981A (zh) | 一种文本标签体系搭建及完善迭代的方法、系统及存储介质 | |
Ramasundaram et al. | Text categorization by backpropagation network | |
CN112529638A (zh) | 基于用户分类和深度学习的服务需求动态预测方法及系统 | |
CN114896392A (zh) | 工单数据的聚类方法、装置、电子设备及存储介质 | |
CN114579768A (zh) | 一种实现设备智能运维知识库的维修方法 | |
CN113178189A (zh) | 一种信息分类方法及装置、信息分类模型训练方法及装置 | |
TWI734085B (zh) | 使用意圖偵測集成學習之對話系統及其方法 | |
CN108804422B (zh) | 一种科技论文文本建模方法 | |
CN108460119B (zh) | 一种使用机器学习提升技术支持效率的系统 | |
CN115796635A (zh) | 基于大数据和机器学习的银行数字化转型成熟度评价系统 | |
CN115827871A (zh) | 互联网企业分类的方法、装置和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |