CN107908716A - 基于词向量模型的95598工单文本挖掘方法和装置 - Google Patents

基于词向量模型的95598工单文本挖掘方法和装置 Download PDF

Info

Publication number
CN107908716A
CN107908716A CN201711106044.2A CN201711106044A CN107908716A CN 107908716 A CN107908716 A CN 107908716A CN 201711106044 A CN201711106044 A CN 201711106044A CN 107908716 A CN107908716 A CN 107908716A
Authority
CN
China
Prior art keywords
work order
electric power
corpus
vector
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711106044.2A
Other languages
English (en)
Inventor
谢季川
宗振国
刘宏国
张春秋
田晓
孙国梁
秦子炀
郝儒
郝一儒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201711106044.2A priority Critical patent/CN107908716A/zh
Publication of CN107908716A publication Critical patent/CN107908716A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于词向量模型的95598工单文本挖掘方法和装置,获取95598工单文本,并对95598工单文本进行分词处理,得到电力工单语料库;采用Word2vec模型对电力工单语料库进行训练,得到词向量;将词向量输入Word2vec模型,构建电力工单词典,并调整电力工单语料库中分词;结合电力工单语料库,利用TF‑IDF方法赋权得到段落向量;将段落向量输入SVM分类器进行训练,得到电力工单文本分类模型。本发明采用神经网络语言模型对工单文本进行训练,形成词向量,在词向量的基础上,作为其他模型的输入,实现进一步的文本挖掘分析,能够帮助客服人员了解客户诉求,提供更优质便捷的服务。

Description

基于词向量模型的95598工单文本挖掘方法和装置
技术领域
本发明涉及工单文本挖掘领域,具体涉及一种基于词向量模型的95598工单文本挖掘方法和装置。
背景技术
95598客服中心作为电网公司与客户交流的窗口,每天都要处理大量来自客户的诉求,形成大量的工单文本数据。目前,针对电力工单数据的文本挖掘已经取得进展,但在方法上仍有可以改进之处。
当前电力工单文本挖掘(Text Mining)主要有语料分析、文本分类(Textclassification)两方面,如客户诉求分析、客户满意度预测,电力标签特征词典、工单自动分类。文本挖掘最基础的环节就是文本表示,电力工单的文本表示多采用LDA主题模型进行特征提取。主题模型可以实现有效的降维,发现文档的潜在主题,但是主题模型需要大量的样本进行学习,训练难度大并且非常耗时,影响了分类的效率,而且无法捕捉词与词之间的共现关系。
综上所述,现有技术中对于电力工单的文本训练难度大,分类效率低,无法捕捉词与词之间的共现关系的不足,尚缺乏有效的解决方案。
发明内容
为了克服上述现有技术的不足,本发明提供了一种基于词向量模型的95598工单文本挖掘方法和装置,采用神经网络语言模型进行训练得到词向量,在词向量的基础上进行相应文本挖掘。
本发明所采用的技术方案是:
一种基于词向量模型的95598工单文本挖掘方法,包括以下步骤:
获取95598工单文本,并对95598工单文本进行分词处理,得到电力工单语料库;
采用Word2vec模型对电力工单语料库进行训练,得到词向量;
将词向量输入Word2vec模型,构建电力工单词典,并调整电力工单语料库中分词;
结合电力工单语料库,利用TF-IDF方法赋权得到段落向量;
将段落向量输入SVM分类器进行训练,得到电力工单文本分类模型。
进一步的,所述95598工单文本包括故障报修、业务咨询、服务申请、信息查询、意见、投诉、客户催办、综合业务举报、表扬、建议、订阅信息和业扩报装工单文本。
进一步的,所述获取95598工单文本,并对95598工单文本进行分词处理,得到电力工单语料库,包括:
运用数据采集工具获取用于训练的95598工单文本;
结合工单文本相关的词典和jieba分词工具对95598工单文本进行中文文本预处理,得到电力工单语料库。
进一步的,所述中文文本预处理包括分词处理和去停用词处理两个过程。
进一步的,所述采用Word2vec模型对电力工单语料库进行训练,得到词向量,包括:
利用Word2vec模型对电力工单语料库进行训练,得到模型文件,该模型文件包括电力工单文本词语及其对应的词向量;
输出电力工单文本词语及其对应的词向量。
进一步的,所述将词向量输入Word2vec模型,构建电力工单词典,并调整电力工单语料库中分词,包括:
读取模型文件中每一个词和其对应的词向量;
将词向量作为Word2vec模型的输入,利用Word2vec模型附带函数,计算所输入的词向量与其他所有词的余弦相似度;
如果两个词的余弦相似度超过阈值,则将该词补充到电力工单词典中;
利用电力工单词典中词语来调整电力工单语料库中句子的分词。
进一步的,所述结合电力工单语料库,利用TF-IDF方法赋权得到段落向量,包括:
结合电力工单语料库中语句,根据词频利用TF-IDF方法对语句中词向量赋权;
将赋权后的词向量相加来构造段落向量,来表示句子特征。
进一步的,所述将段落向量输入SVM分类器进行训练,得到电力工单文本分类模型,包括:
将段落向量进行预处理,根据专家经验添加类别标识,得到作为分类器输入的向量集合;
从向量集合中选取一定量的数据作为训练集合,一定量的数据作为测试集合;
利用libsvm工具构建训练工单文本分类器;
将训练集合数据输入训练工单文本分类器进行训练,得到工单文本分类模型;
将测试集合数据输入训练工单文本分类器,验证工单文本分类模型分类的精度,并进行交叉验证,调整工单文本分类模型参数,得到高精度的工单文本分类模型。
一种计算机装置,用于95598工单文本挖掘,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤,包括:
获取95598工单文本,并对95598工单文本进行分词处理,得到电力工单语料库;
采用Word2vec模型对电力工单语料库进行训练,得到词向量;
将词向量输入Word2vec模型,构建电力工单词典,并调整电力工单语料库分词;
结合电力工单语料库,利用TF-IDF方法赋权得到段落向量;
将段落向量输入SVM分类模型进行训练,得到电力工单文本分类模型。
一种计算机可读存储介质,其上存储有用于95598工单文本挖掘的计算机程序,该程序被处理器执行时实现以下步骤:
获取95598工单文本,并对95598工单文本进行分词处理,得到电力工单语料库;
采用Word2vec模型对电力工单语料库进行训练,得到词向量;
将词向量输入Word2vec模型,构建电力工单词典,并调整电力工单语料库分词;
结合电力工单语料库,利用TF-IDF方法赋权得到段落向量;
将段落向量输入SVM分类模型进行训练,得到电力工单文本分类模型。
与现有技术相比,本发明的有益效果是:
(1)本发明结合电力工单特点,通过分析电力工单文本挖掘的现状,运用神经网络语言模型对工单文本进行训练,形成词向量;在词向量的基础上,作为其他模型的输入,实现进一步的文本挖掘分析,能够帮助客服人员了解客户诉求,提供更优质便捷的服务;
(2)本发明通过词向量找寻与已有词汇相似的词补充加入到电力工单词典中,不断丰富词典内容;利用电力工单语料库,利用TF-IDF方法赋权得到段落向量段落向量,将段落向量作为SVM多分类的输入进行训练分类,构建分类模型,提高了分类模型的精度,满足实际分类需要。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1是本发明实施例公开的基于词向量模型的95598工单文本挖掘方法流程图;
图2a是本发明实施例公开的CBoW结构图;
图2b是本发明实施例公开的Skip-gram结构图;
图3是本发明实施例公开的训练生成95598工单文本的词向量流程图;
图4是本发明实施例公开的词向量结构图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
如图1所示,本实施例提供了一种基于词向量模型的95598工单文本挖掘方法,包括以下步骤:
步骤101:对95598工单文本进行预处理,训练生成95598工单文本的词向量
词向量(word embedding)将每个词映射成一个固定长度的短向量,既能够降低维度,又能够把词与上下文的联系体现出来。词向量可以通过神经网络训练语言模型可以得到。神经网络语言模型(NNLM)由Bengio等人于2001年正式提出,2013年,Mikolov等人提出了CBOW(Continuous Bagof-Words)和Skip-gram模型,其中,CBoW和Skip-gram结构图如图2a和图2b所示。
CBoW的优化目标是:给定词序列w1,w2,w3,…,wT,最大化下式,
其中,P(wt|wt-c,…wt-1.wt+1,…,wt+c)采用log-linear(Softmax)模型用于正确分类当前词,通过用t-n+1…t-1,t+1,…t+n-1的word作为输入,目标是正确分类得到第t个word。而Skip-gram模型相反,通过输入为当前word,经过projection的特征提取去预测该word周围的C个词,给定词序列w1,w2,w3,…,wT,最大化下式,
其中,c是上下文的大小,P(wt+j|wt)采用softmax方程,vw和vTw为对应的输入和输出词向量。
本发明使用的Word2vec便由Google公司依据这两种模型实现,在输出层采用Huffman编码计算层次Softmax,具有模型简单、训练速度快的特点。
对电力工单进行文本挖掘,属于特定领域挖掘,没有现成的词向量,因此首先是要训练生成95598工单文本的词向量。本发明使用Word2Vec模型进行训练,主要流程如3图所示。训练生成95598工单文本的词向量具体过程为:
在进行模型训练之前,需要对工单文本进行预处理,主要包含工单文本收集、文本分词和电力工单语料库处理。
步骤101-1:95598工单文本收集,获取95598工单文本
目前营销系统内95598工单主要被分为故障报修、业务咨询、服务申请、投诉举报等12大类,每一大类又有二级子类、三级子类。运用数据采集工具获取用于训练的获取95598工单文本,2016年8月至2017年8月95598工单统计如表1所示:
表1某省2016年8月至2017年8月投诉工单分布统计表
业务类型 本期数 比例(%)
故障报修 418684 53.43
业务咨询 167472 21.37
服务申请 98748 12.6
信息查询 42584 5.43
意见 35748 4.56
投诉 13824 1.76
客户催办 2851 0.36
综合业务 2228 0.28
举报 1036 0.13
表扬 402 0.05
建议 57 0.01
订阅信息 19 0
业扩报装 2 0
其中,故障报修、业务咨询、服务申请三类工单占87%。将工单受理内容整理到文本中,每一行代表一个工单。工单受理内容主要形式是“问题总结+描述”,例如“【电能表异常】客户来电反映,户号为06157*****的电能表异常显示;现申请对电表进行现场检查,请相关工作人员核实处理”,是大类为“服务申请”类型的工单受理内容。
因此下一步进行分词,需要考虑去除停用词以及电力领域自身特点。
步骤101-2:对95598工单文本进行分词处理,得到电力工单语料库
文本分词属于特殊领域的分词,采用jieba分词对文本工单句子进行分词,得到电力工单语料库。在分词时需要结合电力领域词典取得更好效果,同时工单受理内容存有大量无用信息,可利用停用词进行处理。因此,结合工单文本相关的词典和jieba分词工具对95598工单文本进行分词处理和去停用词处理,得到电力工单语料库。
如步骤101-1中提到的工单文本内容直接用jieba分词后根据词性以及停用词处理后如下“电能表异常客户来电反映户号电能表异常显示申请电表进行现场检查相关工作人员核实处理”,如“现场检查”属于电力领域的特殊词汇可以通过加入电力特征词典进行处理。前期我们通过专家经验初步形成一个简单词典但并不完善,而Word2vec最大的特点恰好就是对于词性的判断,在词向量完成训练的同时可以根据结果不断对电力工单特征词典的进行补充。
步骤101-3:采用Word2vec模型对电力工单语料库进行训练,得到词向量
将经过分词处理的电力工单语料库利用Python工具包Gensim中的Word2vec模型进行训练,Word2vec主要参数如下:
表2参数表
参数 解释
sg 设置训练算法
size 特征向量的维度
window 最大距离
alpha 学习速率
seed 随机数发生器
min_count 字典做截断,词频小于不计算
hs: 采用hierarchica·softmax技巧
negative Negativesamping
模型训练完成后,得到vectors.bin这个模型文件。vectors.bin这个文件包括文档中电力工单文本词语和其对应的词向量,词向量维度是之前设置的,本实施例中设置为50维,结果如图4所示。
步骤102:利用词向量构建电力工单词典和电力工单文本分类模型
在词向量的基础上结合其他方法,进行进一步的文本挖掘,可以应用到电力领域工单词典构建,也可以作为SVM等分类器的输出对电力工单文本进行分类。
步骤102-1:构建电力工单词典
电力领域工单词典前期通过专家经验总结产生,后面可以通过词向量找寻与已有词汇相似的词补充加入到电力工单词典中,不断丰富词典内容。Word2vec本身提供distance的应用,首先,读取模型文件中每一个词和其对应的向量,将词向量作为Word2vec模型的输入,使用Word2vec模型附带函数,计算所输入的词向量与其他所有词的余弦相似度,如果两个词的余弦相似度超过阈值,则将该词补充到电力工单词典中,同时利用电力工单词典中词语来调整电力工单语料库中句子的分词。
步骤102-2:构建电力工单文本分类模型
电力文本工单分类,属于监督学习。根据之前人工分类结果作为依据,构建分类模型。因为文本工单分类需以语句为最小单位作为输入,所以采用根据词频进行赋权对语句中词向量相加,来表示句子,构造输入向量,保证向量维度,再结合SVM进行构建多分类文本模型。但是这样做忽略了单词之间的排列顺序即上下文的影响,在文本短时有不错效果。为处理可变长度文本的总结性方法,Quoc Le和Tomas Mikolov提出了Doc2Vec方法。除了增加一个段落向量以外,这个方法几乎等同于Word2Vec。因此,构建电力工单文本分类模型的具体过程为:
(1)结合电力工单语料库,利用TF-IDF方法赋权得到段落向量
结合电力工单语料库中语句,根据词频利用TF-IDF方法对语句中词向量赋权;将赋权后的词向量相加来构造段落向量,来表示句子特征,保证向量维度。
(2)将段落向量输入SVM分类器进行训练,得到电力工单文本分类模型
将段落向量进行预处理,根据专家经验添加类别标识,得到作为分类器输入的向量集合;从向量集合中选取一定量的数据作为训练集合,一定量的数据作为测试集合;利用libsvm工具构建训练工单文本分类器;将训练集合数据输入训练工单文本分类器进行训练,得到工单文本分类模型;将测试集合数据输入训练工单文本分类器,验证工单文本分类模型分类的精度,并进行交叉验证,调整工单文本分类模型参数,得到高精度的工单文本分类模型,使分类模型的精度满足实际分类需要。
本发明提出的基于词向量模型的95598工单文本挖掘方法,采用神经网络语言模型对电力工单文本训练,形成电力词向量,并在电力词向量的基础上进行更多进一步的文本挖掘的过程,丰富电力文本挖掘分析的方法。
本发明结合电力工单特点,通过分析电力工单文本挖掘的现状,运用神经网络语言模型对工单文本进行训练,形成词向量;在词向量的基础上,作为其他模型的输入,实现进一步的文本挖掘分析,能够帮助客服人员了解客户诉求,提供更优质便捷的服务;
本发明还通过词向量找寻与已有词汇相似的词补充加入到电力工单词典中,不断丰富词典内容;利用电力工单语料库,利用TF-IDF方法赋权得到段落向量段落向量,将段落向量作为SVM多分类的输入进行训练分类,构建分类模型,提高了分类模型的精度,满足实际分类需要。
实施例二
本实施例的目的是提供一种计算机装置,用于95598工单文本挖掘,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤,包括:
获取95598工单文本,并对95598工单文本进行分词处理,得到电力工单语料库;
采用Word2vec模型对电力工单语料库进行训练,得到词向量;
将词向量输入Word2vec模型,构建电力工单词典,并调整电力工单语料库中分词;
结合电力工单语料库,利用TF-IDF方法赋权得到段落向量;
将段落向量输入SVM分类器进行训练,得到电力工单文本分类模型。
实施例三
本实施例的目的是提供一种计算机可读存储介质,其上存储有用于95598工单文本挖掘的计算机程序,该程序被处理器执行时实现以下步骤:
获取95598工单文本,并对95598工单文本进行分词处理,得到电力工单语料库;
采用Word2vec模型对电力工单语料库进行训练,得到词向量;
将词向量输入Word2vec模型,构建电力工单词典,并调整电力工单语料库中分词;
结合电力工单语料库,利用TF-IDF方法赋权得到段落向量;
将段落向量输入SVM分类器进行训练,得到电力工单文本分类模型。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (10)

1.一种基于词向量模型的95598工单文本挖掘方法,其特征是,包括以下步骤:
获取95598工单文本,并对95598工单文本进行分词处理,得到电力工单语料库;
采用Word2vec模型对电力工单语料库进行训练,得到词向量;
将词向量输入Word2vec模型,构建电力工单词典,并调整电力工单语料库中分词;
结合电力工单语料库,利用TF-IDF方法赋权得到段落向量;
将段落向量输入SVM分类器进行训练,得到电力工单文本分类模型。
2.根据权利要求1所述的基于词向量模型的95598工单文本挖掘方法,其特征是,所述95598工单文本包括故障报修、业务咨询、服务申请、信息查询、意见、投诉、客户催办、综合业务举报、表扬、建议、订阅信息和业扩报装工单文本。
3.根据权利要求1所述的基于词向量模型的95598工单文本挖掘方法,其特征是,所述获取95598工单文本,并对95598工单文本进行分词处理,得到电力工单语料库,包括:
运用数据采集工具获取用于训练的95598工单文本;
结合工单文本相关的词典和jieba分词工具对95598工单文本进行中文文本预处理,得到电力工单语料库。
4.根据权利要求3所述的基于词向量模型的95598工单文本挖掘方法,其特征是,所述中文文本预处理包括分词处理和去停用词处理两个过程。
5.根据权利要求3所述的基于词向量模型的95598工单文本挖掘方法,其特征是,所述采用Word2vec模型对电力工单语料库进行训练,得到词向量,包括:
利用Word2vec模型对电力工单语料库进行训练,得到模型文件,该模型文件包括电力工单文本词语及其对应的词向量;
输出电力工单文本词语及其对应的词向量。
6.根据权利要求5所述的基于词向量模型的95598工单文本挖掘方法,其特征是,所述将词向量输入Word2vec模型,构建电力工单词典,并调整电力工单语料库中分词,包括:
读取模型文件中每一个词和其对应的词向量;
将词向量作为Word2vec模型的输入,使用Word2vec模型附带函数,计算所输入的词向量与其他所有词的余弦相似度;
如果两个词的余弦相似度超过阈值,则将该词补充到电力工单词典中;
利用电力工单词典中词语来调整电力工单语料库中句子的分词。
7.根据权利要求1所述的基于词向量模型的95598工单文本挖掘方法,其特征是,所述结合电力工单语料库,利用TF-IDF方法赋权得到段落向量,包括:
结合电力工单语料库中语句,根据词频利用TF-IDF方法对语句中词向量赋权;
将赋权后的词向量相加来构造段落向量,来表示句子特征。
8.根据权利要求1所述的基于词向量模型的95598工单文本挖掘方法,其特征是,所述将段落向量输入SVM分类器进行训练,得到电力工单文本分类模型,包括:
将段落向量进行预处理,根据专家经验添加类别标识,得到作为分类器输入的向量集合;
从向量集合中选取一定量的数据作为训练集合,一定量的数据作为测试集合;
利用libsvm工具构建训练工单文本分类器;
将训练集合数据输入训练工单文本分类器进行训练,得到工单文本分类模型;
将测试集合数据输入训练工单文本分类器,验证工单文本分类模型分类的精度,并进行交叉验证,调整工单文本分类模型参数,得到高精度的工单文本分类模型。
9.一种计算机装置,用于95598工单文本挖掘,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现以下步骤,包括:
获取95598工单文本,并对95598工单文本进行分词处理,得到电力工单语料库;
采用Word2vec模型对电力工单语料库进行训练,得到词向量;
将词向量输入Word2vec模型,构建电力工单词典,并调整电力工单语料库中分词;
结合电力工单语料库,利用TF-IDF方法赋权得到段落向量;
将段落向量输入SVM分类器进行训练,得到电力工单文本分类模型。
10.一种计算机可读存储介质,其上存储有用于95598工单文本挖掘的计算机程序,其特征在于,该程序被处理器执行时实现以下步骤:
获取95598工单文本,并对95598工单文本进行分词处理,得到电力工单语料库;
采用Word2vec模型对电力工单语料库进行训练,得到词向量;
将词向量输入Word2vec模型,构建电力工单词典,并调整电力工单语料库中分词;
结合电力工单语料库,利用TF-IDF方法赋权得到段落向量;
将段落向量输入SVM分类器进行训练,得到电力工单文本分类模型。
CN201711106044.2A 2017-11-10 2017-11-10 基于词向量模型的95598工单文本挖掘方法和装置 Pending CN107908716A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711106044.2A CN107908716A (zh) 2017-11-10 2017-11-10 基于词向量模型的95598工单文本挖掘方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711106044.2A CN107908716A (zh) 2017-11-10 2017-11-10 基于词向量模型的95598工单文本挖掘方法和装置

Publications (1)

Publication Number Publication Date
CN107908716A true CN107908716A (zh) 2018-04-13

Family

ID=61844856

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711106044.2A Pending CN107908716A (zh) 2017-11-10 2017-11-10 基于词向量模型的95598工单文本挖掘方法和装置

Country Status (1)

Country Link
CN (1) CN107908716A (zh)

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596470A (zh) * 2018-04-19 2018-09-28 浙江大学 一种基于TensorFlow框架的电力设备缺陷文本处理方法
CN108897798A (zh) * 2018-06-12 2018-11-27 广东电网有限责任公司 用电客服工单分类方法、装置以及电子设备
CN109271497A (zh) * 2018-08-31 2019-01-25 华南理工大学 一种基于词向量的事件驱动服务匹配方法
CN109389418A (zh) * 2018-08-17 2019-02-26 国家电网有限公司客户服务中心 基于lda模型的供电服务客户诉求识别方法
CN109408802A (zh) * 2018-08-28 2019-03-01 厦门快商通信息技术有限公司 一种提升句向量语义的方法、系统及存储介质
CN109558486A (zh) * 2018-10-30 2019-04-02 国家电网有限公司客户服务中心 电力客服客户诉求智能识别方法
CN109741190A (zh) * 2018-12-27 2019-05-10 清华大学 一种个股公告分类的方法、系统及设备
CN109783637A (zh) * 2018-12-12 2019-05-21 国网浙江省电力有限公司杭州供电公司 基于深度神经网络的电力检修文本挖掘方法
CN109873755A (zh) * 2019-03-02 2019-06-11 北京亚鸿世纪科技发展有限公司 一种基于变体词识别技术的垃圾短信分类引擎
CN109885768A (zh) * 2019-02-18 2019-06-14 中国联合网络通信集团有限公司 工单处理方法、装置及系统
CN109977420A (zh) * 2019-04-12 2019-07-05 出门问问信息科技有限公司 离线语义识别调整方法、装置、设备及存储介质
CN110378808A (zh) * 2019-07-24 2019-10-25 广东电网有限责任公司 一种基于基因重组及特征聚类的电力营销稽查方法及系统
CN110442873A (zh) * 2019-08-07 2019-11-12 云南电网有限责任公司信息中心 一种基于cbow模型的热点工单获取方法及装置
CN110532552A (zh) * 2019-08-16 2019-12-03 杭州云徙科技有限公司 一种智能i-Service客服机器人的服务方法、系统及终端
CN110955777A (zh) * 2019-12-11 2020-04-03 国网河北省电力有限公司电力科学研究院 一种基于95598工单提升客服质量的方法
CN110990567A (zh) * 2019-11-25 2020-04-10 国家电网有限公司 一种增强领域特征的电力审计文本分类方法
CN111159349A (zh) * 2019-12-30 2020-05-15 佰聆数据股份有限公司 基于自然语言处理技术的电力诉求工单自动分类方法、系统、存储介质及计算机设备
CN111178054A (zh) * 2019-12-05 2020-05-19 国网浙江省电力有限公司杭州供电公司 基于神经网络语言模型向量化的文本处理方法
CN111177389A (zh) * 2019-12-30 2020-05-19 佰聆数据股份有限公司 基于nlp技术的电费通知与催收客户诉求的分类方法、系统及存储介质
CN111475601A (zh) * 2020-04-09 2020-07-31 云南电网有限责任公司电力科学研究院 一种电力工单热点主题获取方法及装置
CN111489032A (zh) * 2020-04-09 2020-08-04 北京理工大学 一种预测航天产品装配工时的处理方法及装置
CN111680127A (zh) * 2020-06-11 2020-09-18 暨南大学 一种面向年报的公司名称和关系抽取方法
CN111708868A (zh) * 2020-01-15 2020-09-25 国网浙江省电力有限公司杭州供电公司 电力运检事件的文本分类方法及装置、设备
CN112069317A (zh) * 2020-09-07 2020-12-11 北京理工大学 一种装配工时的获取方法及处理器
CN112419096A (zh) * 2020-12-04 2021-02-26 国网江苏省电力有限公司南京供电分公司 基于nlp信息萃取与少样本自学习的用户用电诉求工单自动流转方法
CN112488736A (zh) * 2020-12-15 2021-03-12 济南市城乡建设数字化中心 一种住建领域政务热线工单数据分析方法及系统
CN112541351A (zh) * 2020-12-08 2021-03-23 济南市城乡建设数字化中心 一种住建领域政务热线工单派发方法及系统
CN112632965A (zh) * 2020-12-25 2021-04-09 上海德拓信息技术股份有限公司 一种针对政府服务热线领域的工单自动分类方法
CN112667812A (zh) * 2020-12-30 2021-04-16 云南电网有限责任公司 供电服务客户电量电费诉求识别方法
CN112860893A (zh) * 2021-02-08 2021-05-28 国网河北省电力有限公司营销服务中心 短文本分类方法及终端设备
CN113836898A (zh) * 2021-09-23 2021-12-24 国网江苏省电力有限公司淮安供电分公司 一种电力系统自动派单方法
CN116611453A (zh) * 2023-07-19 2023-08-18 天津奇立软件技术有限公司 基于大数据的智能派单跟单方法及系统、存储介质
CN116720944A (zh) * 2023-08-10 2023-09-08 山景智能(北京)科技有限公司 银行流水打标方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615696A (zh) * 2015-01-23 2015-05-13 国家电网公司 一种95598知识库系统及建设方法
CN105760493A (zh) * 2016-02-18 2016-07-13 国网江苏省电力公司电力科学研究院 一种电力营销服务热点95598工单自动分类方法
CN105824922A (zh) * 2016-03-16 2016-08-03 重庆邮电大学 一种融合深层特征和浅层特征的情感分类方法
CN106294684A (zh) * 2016-08-06 2017-01-04 上海高欣计算机系统有限公司 词向量的文本分类方法及终端设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615696A (zh) * 2015-01-23 2015-05-13 国家电网公司 一种95598知识库系统及建设方法
CN105760493A (zh) * 2016-02-18 2016-07-13 国网江苏省电力公司电力科学研究院 一种电力营销服务热点95598工单自动分类方法
CN105824922A (zh) * 2016-03-16 2016-08-03 重庆邮电大学 一种融合深层特征和浅层特征的情感分类方法
CN106294684A (zh) * 2016-08-06 2017-01-04 上海高欣计算机系统有限公司 词向量的文本分类方法及终端设备

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
PENG WANG ET AL: "Semantic Expansion using Word Embedding Clustering and Convolutional Neural Network for Improving Short Text Classification", 《NEUROCOMPUTING》 *
QUOC LE ET AL: "Distributed Representations of Sentences and Documents", 《PROCEEDINGS OF THE 31 ST INTERNATIONAL CONFERENCE ON MACHINE》 *
丁麒 等: "基于文本数据挖掘技术的95598业务工单主题分析应用", 《电力需求侧管理》 *
顾斌 等: "基于词典扩充的电力客服工单情感倾向性分析", 《现代电子技术》 *
黄旭: "基于机器学习的汉语短文本分类方法研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596470A (zh) * 2018-04-19 2018-09-28 浙江大学 一种基于TensorFlow框架的电力设备缺陷文本处理方法
CN108897798A (zh) * 2018-06-12 2018-11-27 广东电网有限责任公司 用电客服工单分类方法、装置以及电子设备
CN109389418A (zh) * 2018-08-17 2019-02-26 国家电网有限公司客户服务中心 基于lda模型的供电服务客户诉求识别方法
CN109408802A (zh) * 2018-08-28 2019-03-01 厦门快商通信息技术有限公司 一种提升句向量语义的方法、系统及存储介质
CN109271497A (zh) * 2018-08-31 2019-01-25 华南理工大学 一种基于词向量的事件驱动服务匹配方法
CN109558486A (zh) * 2018-10-30 2019-04-02 国家电网有限公司客户服务中心 电力客服客户诉求智能识别方法
CN109783637A (zh) * 2018-12-12 2019-05-21 国网浙江省电力有限公司杭州供电公司 基于深度神经网络的电力检修文本挖掘方法
CN109741190A (zh) * 2018-12-27 2019-05-10 清华大学 一种个股公告分类的方法、系统及设备
CN109885768A (zh) * 2019-02-18 2019-06-14 中国联合网络通信集团有限公司 工单处理方法、装置及系统
CN109873755A (zh) * 2019-03-02 2019-06-11 北京亚鸿世纪科技发展有限公司 一种基于变体词识别技术的垃圾短信分类引擎
CN109873755B (zh) * 2019-03-02 2021-01-01 北京亚鸿世纪科技发展有限公司 一种基于变体词识别技术的垃圾短信分类引擎
CN109977420A (zh) * 2019-04-12 2019-07-05 出门问问信息科技有限公司 离线语义识别调整方法、装置、设备及存储介质
CN109977420B (zh) * 2019-04-12 2023-04-07 出门问问创新科技有限公司 离线语义识别调整方法、装置、设备及存储介质
CN110378808A (zh) * 2019-07-24 2019-10-25 广东电网有限责任公司 一种基于基因重组及特征聚类的电力营销稽查方法及系统
CN110442873A (zh) * 2019-08-07 2019-11-12 云南电网有限责任公司信息中心 一种基于cbow模型的热点工单获取方法及装置
CN110532552A (zh) * 2019-08-16 2019-12-03 杭州云徙科技有限公司 一种智能i-Service客服机器人的服务方法、系统及终端
CN110990567A (zh) * 2019-11-25 2020-04-10 国家电网有限公司 一种增强领域特征的电力审计文本分类方法
CN111178054A (zh) * 2019-12-05 2020-05-19 国网浙江省电力有限公司杭州供电公司 基于神经网络语言模型向量化的文本处理方法
CN110955777A (zh) * 2019-12-11 2020-04-03 国网河北省电力有限公司电力科学研究院 一种基于95598工单提升客服质量的方法
CN111159349A (zh) * 2019-12-30 2020-05-15 佰聆数据股份有限公司 基于自然语言处理技术的电力诉求工单自动分类方法、系统、存储介质及计算机设备
CN111177389A (zh) * 2019-12-30 2020-05-19 佰聆数据股份有限公司 基于nlp技术的电费通知与催收客户诉求的分类方法、系统及存储介质
CN111708868A (zh) * 2020-01-15 2020-09-25 国网浙江省电力有限公司杭州供电公司 电力运检事件的文本分类方法及装置、设备
CN111489032A (zh) * 2020-04-09 2020-08-04 北京理工大学 一种预测航天产品装配工时的处理方法及装置
CN111475601A (zh) * 2020-04-09 2020-07-31 云南电网有限责任公司电力科学研究院 一种电力工单热点主题获取方法及装置
CN111680127A (zh) * 2020-06-11 2020-09-18 暨南大学 一种面向年报的公司名称和关系抽取方法
CN112069317A (zh) * 2020-09-07 2020-12-11 北京理工大学 一种装配工时的获取方法及处理器
CN112419096A (zh) * 2020-12-04 2021-02-26 国网江苏省电力有限公司南京供电分公司 基于nlp信息萃取与少样本自学习的用户用电诉求工单自动流转方法
CN112541351B (zh) * 2020-12-08 2023-09-05 济南市城乡建设数字化中心 一种住建领域政务热线工单派发方法及系统
CN112541351A (zh) * 2020-12-08 2021-03-23 济南市城乡建设数字化中心 一种住建领域政务热线工单派发方法及系统
CN112488736A (zh) * 2020-12-15 2021-03-12 济南市城乡建设数字化中心 一种住建领域政务热线工单数据分析方法及系统
CN112632965A (zh) * 2020-12-25 2021-04-09 上海德拓信息技术股份有限公司 一种针对政府服务热线领域的工单自动分类方法
CN112632965B (zh) * 2020-12-25 2024-05-03 上海德拓信息技术股份有限公司 一种针对政府服务热线领域的工单自动分类方法
CN112667812A (zh) * 2020-12-30 2021-04-16 云南电网有限责任公司 供电服务客户电量电费诉求识别方法
CN112860893A (zh) * 2021-02-08 2021-05-28 国网河北省电力有限公司营销服务中心 短文本分类方法及终端设备
CN112860893B (zh) * 2021-02-08 2023-02-28 国网河北省电力有限公司营销服务中心 短文本分类方法及终端设备
CN113836898A (zh) * 2021-09-23 2021-12-24 国网江苏省电力有限公司淮安供电分公司 一种电力系统自动派单方法
CN116611453A (zh) * 2023-07-19 2023-08-18 天津奇立软件技术有限公司 基于大数据的智能派单跟单方法及系统、存储介质
CN116611453B (zh) * 2023-07-19 2023-10-03 天津奇立软件技术有限公司 基于大数据的智能派单跟单方法及系统、存储介质
CN116720944A (zh) * 2023-08-10 2023-09-08 山景智能(北京)科技有限公司 银行流水打标方法及装置
CN116720944B (zh) * 2023-08-10 2023-12-19 山景智能(北京)科技有限公司 银行流水打标方法及装置

Similar Documents

Publication Publication Date Title
CN107908716A (zh) 基于词向量模型的95598工单文本挖掘方法和装置
WO2018218705A1 (zh) 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN104820629A (zh) 一种智能的舆情突发事件应急处理系统及方法
CN105095187A (zh) 一种搜索意图识别方法及装置
CN111274814B (zh) 一种新型的半监督文本实体信息抽取方法
CN110188047A (zh) 一种基于双通道卷积神经网络的重复缺陷报告检测方法
CN108052505A (zh) 文本情感分析方法及装置、存储介质、终端
CN106682089A (zh) 一种基于RNNs的短信自动安全审核的方法
CN106294330B (zh) 一种科技文本挑选方法及装置
CN110598219A (zh) 一种面向豆瓣网电影评论的情感分析方法
CN113434688B (zh) 用于舆情分类模型训练的数据处理方法和装置
CN109684447A (zh) 一种基于文本挖掘的电网调度运行日志故障信息分析方法
CN112561718A (zh) 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法
CN115858758A (zh) 一种多非结构化数据识别的智慧客服知识图谱系统
CN107679680A (zh) 一种金融走势预测方法、装置、设备及存储介质
CN110516057A (zh) 一种信访问题答复方法及装置
Fu et al. A sentiment-aware trading volume prediction model for P2P market using LSTM
CN113030633B (zh) 基于ga-bp神经网络的配电网故障大数据分析方法和系统
CN112559741B (zh) 核电设备缺陷记录文本分类方法、系统、介质及电子设备
CN114492392A (zh) 一种基于短语向量构造的年报风险挖掘系统和方法
CN112348352B (zh) 基于大数据分析的电力预算建议方案自动生成方法
CN117370574A (zh) 提高电力主设备知识图谱嵌入模型性能的缺陷分析方法
CN110705638A (zh) 一种利用深度网络学习模糊信息特征技术的信用评级预测分类方法
CN110162781A (zh) 一种金融文本主观句自动识别方法
CN110399617A (zh) 审计数据处理方法、系统和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180413