CN109389418A - 基于lda模型的供电服务客户诉求识别方法 - Google Patents
基于lda模型的供电服务客户诉求识别方法 Download PDFInfo
- Publication number
- CN109389418A CN109389418A CN201810938775.1A CN201810938775A CN109389418A CN 109389418 A CN109389418 A CN 109389418A CN 201810938775 A CN201810938775 A CN 201810938775A CN 109389418 A CN109389418 A CN 109389418A
- Authority
- CN
- China
- Prior art keywords
- theme
- text
- word
- probability
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 14
- 238000012360 testing method Methods 0.000 claims abstract description 11
- 230000008569 process Effects 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 238000007635 classification algorithm Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 2
- 230000032258 transport Effects 0.000 claims 1
- 238000003909 pattern recognition Methods 0.000 abstract description 2
- 238000012545 processing Methods 0.000 description 4
- 238000009412 basement excavation Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- 108091006149 Electron carriers Proteins 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0282—Rating or review of business operators or products
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Artificial Intelligence (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Accounting & Taxation (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Probability & Statistics with Applications (AREA)
- Human Resources & Organizations (AREA)
- Entrepreneurship & Innovation (AREA)
- Water Supply & Treatment (AREA)
- Game Theory and Decision Science (AREA)
- Tourism & Hospitality (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及模式识别的方法,具体涉及一种基于LDA模型的供电服务客户诉求识别方法。识别方法包括如下过程:文本预处理:将工单中的文本进行文本分词及文本量化,主要对文本长内容按照一定的规则进行切分;LDA主题生成:在全量样本中随机选择样本作为训练样本和测试样本,通过对训练样本的训练得到性能参数,再通过测试样本进行测试并得出识别率较高的性能参数,运用性能参数生成识别文本对工单中包含的客户诉求识别;自动化文本分类。本发明的优点在于:本方法提出利用LDA主题模型运用在全量客服工单中识别多个客户诉求,对文本数据充分挖掘并应用到实际工作中。
Description
技术领域:
本发明涉及模式识别的方法,具体涉及一种基于LDA模型的供电服务客户诉求识别方法。
背景技术:
随着互联网+、大数据、云计算等信息技术飞速发展,大部分信息已经由纸质载体过渡到电子载体,而在这些信息中,大部分是非结构化或半结构化的文本信息。如何有效管理、挖掘、分析海量非结构化数据中蕴藏的信息,已成为大数据领域的重挑战。在非结构化数据中,文本数据占据重要地位。对于拥有大量文本数据的企业,如何有效的利用这部分数据资源决定着企业将来的发展。在电力行业客服中心的数据中,如何对工单数据进行处理,从而精准的识别工单中客户的诉求,甚至挖掘隐含诉求同时及时的发现新增突增诉求,这对提升服务的质量及客户的满意程度至关重要。
对文本数据中信息的挖掘常用的方法主要有两种,一种是早期的空间向量模型,数据基础是基于线性代数的几何变化,主要通过空间向量的形式表示非结构化和半结构化的数据,将文本数据表示为数学上可分析处理的形式,但存在一个问题就是文档特征向量具有惊人的维度,且占用内存较大,运行效率较低,如果使用此方法,需要进行合理的降维,但是由于每个文本特征向量维数不一致,一定程度上增加了数学处理的难度。另外一种是主题模型,依据的数学基础是概率统计的分布模型,主要是对文档内容的潜在模式的挖掘,且有良好的数学基础和灵活的拓展性,其中基于LDA模型对文本数据的挖掘更是得到广泛应用,此模型作为一种能够自动确定隐含主题的个数,拥有很好的主题适应能力。
在电力客户的工单中,每条工单的客户诉求并不全是单一诉求,精确识别每条工单的全部诉求尤为重要;在机器学习分类的文本分类技术中,机器学习分类算法只能识别单个诉求,无法满足一条工单含有多个诉求的情况,而主题模型中LDA模型对于文本中多个主题可以自动准确的识别,故本发明创新性的将LDA模型与工单数据进行结合,精准识别每条工单中客户的全部诉求。
发明内容:
本发明主要基于LDA模型对供电服务客户工单中的文本数据进行诉求识别,通过LDA模型对处理后的文本数据进行挖掘分析,识别工单中客户全部诉求,以便准确定位各客户的在用电方面的问题,从而使客服中心更加精确的进行服务,提升服务质量,进而提高客户的用电满意度。
工单中对于客户诉求的记录由客服人员加工转换记录,文本内容较长,没有很好的简化统一,存在同一工单有多个诉求的工单,且同一诉求的记录方式也有所差异。
基于LDA模型的供电服务客户诉求识别方法,包括文本预处理, LDA主题生成模型,文本自动分类。文本预处理阶段分两步,一步是文本分词,二是文本量化;依据LDA主题生成模型的过程中,通过训练文本的θ和p(θ),θ为主题向量机标识每列每个主题在文档中出现的概率,p(θ)为主题向量θ的Dirichlet分布,再得出两个控制参数α和β,α为p(θ)分布的参数,用于生成一个主题θ向量:β为各个主题对应的单词概率分布矩阵p(w|z),通过控制参数α和β就确定了主题模型,模型生成识别文本的算法如下:(1)选定一个主题向量θ,确定每个主题被选择的概率;(2)从主题向量θ中选择一个主题z,按主题z的词概率分布生成一个词,该词即为识别文本;对未识别的停电工单进行抽取并生成测试文本,通过人为对测试文本进行停电原因识别,对得出的控制参数α和β是否合理进行调试。由于需人为判定α和β是否合理,有一定局限性,在测试样本中,识别的主题可以概括95%以上的工单,并对全量工单依据分类算法模型及词库和所有主题实现自动化文本分类。
一种基于LDA模型的供电服务客户诉求识别方法,包括如下过程:
步骤1:文本预处理:将工单中的文本进行文本分词及文本量化,主要对文本长内容按照一定的规则进行切分;
步骤2:LDA主题生成:在全量样本中随机选择样本作为训练样本和测试样本,通过对训练样本的训练得到性能参数,再通过测试样本进行测试并得出识别率较高的性能参数,运用性能参数生成识别文本对工单中包含的客户诉求识别;
步骤3:自动化文本分类:最后根据识别的主题及对应的词库,结合分类算法对全量客服工单实现自动化的分类。
优选方案,所述步骤2具体过程为:
将文档集中每篇文档的主题以概率分布的形式给出,即一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”,一篇文档中,每个词语出现的概率为:
矩阵表示为:
其中:
“文档-词语”:矩阵表示每个文档中每个单词的词频,即出现的概率;
“主题-词语”:矩阵表示每个主题中每个单词的出现概率;
“文档-主题”:矩阵表示每个文档中每个主题出现的概率;
先选定一个主题向量θ,确定每个主题被选择的概率;然后生成每个单词的时候,从主体分布向量θ中选择一个主题z,按主题z的单词概率分布生成一个单词;
LDA的联合概率为
其中:
θ是主题向量,向量的每一列表示每个主题在文档中出现的概率,该向量为非负的归一化向量;
p(θ):θ的分布,具体为Dirichiket分布;
N:要生成的文档的单词个数;
wn:生成的第n个单词w;
zn:选择的主题;
p(z|θ):给定θ时主题z的概率分布;
p(w|z):给定主题z时单词w的分布。
步骤3中的优选方案为:SVM分类算法。SVM方法巧妙的地方在于:应用核函数的展开定理,就不需要知道非线性映射的显式表达式;由于是在高维特征空间中建立线性学习机,所以与线性模型相比,不但几乎不增加计算的复杂性,而且在某种程度上避免了“维数灾难”。这种算法在与LDA主题模型进行结合,可以很好的解决诉求主题中对应词库中的词较多时产生的高维度问题,从而实现对新的工单数据进行自动分类的效果。
本发明的优点在于:
(一)本方法提出利用LDA主题模型运用在全量客服工单中识别多个客户诉求,对文本数据充分挖掘并应用到实际工作中。
(二)把LDA模型与分类算法进行结合,实现对工单数据的的自动化分类。
附图说明:
图1是LDA识别模型中的模型训练流程图。
图2是本发明方法流程图。
具体实施方式:
实施例:
一种基于LDA模型的供电服务客户诉求识别方法,本方法针对全量客户工单进行自动化识别客户诉求,并形成客户诉求体系,以实现及时的侦查识别新增诉求与及时预警服务风险的目的,为提前制定服务策略提供依据;包括如下步骤:
步骤1:文本预处理:将工单中的文本进行文本分词及文本量化,主要对文本长内容按照一定的规则进行切分,剔除停用词;停用词是指对文本分析无影响的语气助词、量大且无效的词汇、标点符号等等,通过文本预处理形成专业词库和同义词库,以便提高对新数据进行分词的准确性和有效性;
通过在本项目中调用封存的jar包,该包中通过开发的java程序一方面实现分词工具的调用,在调用ICTCLAS分词工具,为保证分词结果准确和有效性,加入电力行业专业词库和同义词库,比如专业词‘三相不平衡’、‘三相负荷’、‘三相平衡’均统一定义为同义词‘三相问题’,专业词‘时间不要这么长’、‘时间过长’、‘时间跨度长’、‘时间太长’、‘时间长’均统一定义为同义词‘时间过长’等等,最终完善形成2835个电力专业词,以及1305个同义词。
步骤2:LDA主题生成:在全量样本中随机选择1万条样本作为训练样本和测试样本,通过对训练样本的训练得到性能参数,再通过测试样本进行测试并得出识别率较高的性能参数,运用性能参数生成识别文本对工单中包含的客户诉求识别;比如工单内容为‘客户来电反映上址变压房没电,导致一带停电,要求我局尽快派员核查处理,联系人:毕先生,联系电话:15915950746’,通过文本预处理,最后分词结果为‘处理’、‘导致’、‘电话’、‘多户停电’、‘反映’、‘核查’、‘来电’、‘要求’,通过TF-IDF文本量化后分别为0.069、0.144、0.679、0.109、0.050、0.085、0.051、0.082,通过LDA主题生成‘导致-多户停电’,最后形成的客户诉求为‘多户停电’。
本实施例中,由于数据量较大,故在全量样本中随机选择1万条样本,依据LDA模型识别工单中包含的客户诉求,结合业务知识及逻辑,定义各个主题的业务意义,形成客户诉求热点体系表,以及各诉求热点对应的应用于分词中的词库。
LDA方法生成的文档可以包含多个主题,该模型使用下面的算法生成一个文档:
Choose parameterθ~p(θ);
For each of the N words:
Choose a topic~p(z|θ);
Choose a word~p(w|z);
其中:
θ是主题向量,向量的每一列表示每个主题在文档中出现的概率,该向量为非负的归一化向量;
p(θ):θ的分布,具体为Dirichiket分布;
N:要生成的文档的单词个数;
wn:生成的第n个单词w;
zn:选择的主题;
p(z|θ):给定θ时主题z的概率分布;
p(w|z):给定主题z时单词w的分布;
主题模型主要解决的问题为如何生成主题。
所述步骤2具体过程为:将文档集中每篇文档的主题以概率分布的形式给出,即一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”,一篇文档中,每个词语出现的概率为:
矩阵表示为:
其中:
“文档-词语”:矩阵表示每个文档中每个单词的词频,即出现的概率;
“主题-词语”:矩阵表示每个主题中每个单词的出现概率;
“文档-主题”:矩阵表示每个文档中每个主题出现的概率。
先选定一个主题向量θ,确定每个主题被选择的概率。然后生成每个单词的时候,从主体分布向量θ中选择一个主题z,按主题z的单词概率分布生成一个单词。
LDA的联合概率为
LDA的三层表示如下:
(一)α和β:语料级别的参数,也就是每个文档都一样,因此生成过程只采样一次。
(二)θ:文档级别的变量,每个文档对应一个θ,也就是每个文档产生各个主题z的概率是不同的,所有生成每个文档采样一次θ。
(三)z和w:单词级别变量,z由θ生成,w由z和β共同生成,一个单词w对应一个主题z。
故LDA模型主要是从给定的输入语料中学习训练两个控制参数α和β,学习出了这两个控制参数就确定了模型,便可以用来生成文档。
步骤3:自动化文本分类:最后根据识别的主题及对应的词库,结合SVM分类算法对全量客服工单实现自动化的分类,比如说多户停电诉求主题对应的词库包含‘处理’、‘导致’、‘电话’、‘多户停电’、‘反映’、‘核查’、‘来电’、‘要求’,同时结合包含多户停电诉求主题的其他工单进行丰富词库,最终形成各个诉求主题分别对应各自词库;之后结合SVM分类算法对全量客服工单实现自动分类,以及当新的工单数据产生之后,也可结合分类算法,对新产生的工单数据进行分类,以识别客户诉求。
结合LDA模型与SVM分类算法,可在某种程度上避免了“维数灾难”。通过与LDA主题模型进行结合,可以很好的解决诉求主题中对应词库中的词较多时产生的高维度问题,从而实现对新的工单数据进行快速的自动分类效果。
Claims (3)
1.一种基于LDA模型的供电服务客户诉求识别方法,其特征在于,包括如下过程:
步骤1:文本预处理:将工单中的文本进行文本分词及文本量化,主要对文本长内容按照一定的规则进行切分;
步骤2:LDA主题生成:在全量样本中随机选择样本作为训练样本和测试样本,通过对训练样本的训练得到性能参数,再通过测试样本进行测试并得出识别率较高的性能参数,运用性能参数生成识别文本对工单中包含的客户诉求识别;
步骤3:自动化文本分类:最后根据识别的主题及对应的词库,结合分类算法对全量客服工单实现自动化的分类。
2.根据权利要求1所述一种基于LDA模型的供电服务客户诉求识别方法,其特征在于,所述步骤2具体过程为:
将文档集中每篇文档的主题以概率分布的形式给出,即一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”,一篇文档中,每个词语出现的概率为:
矩阵表示为:
其中:
“文档-词语”:矩阵表示每个文档中每个单词的词频,即出现的概率;
“主题-词语”:矩阵表示每个主题中每个单词的出现概率;
“文档-主题”:矩阵表示每个文档中每个主题出现的概率;
先选定一个主题向量θ,确定每个主题被选择的概率;然后生成每个单词的时候,从主体分布向量θ中选择一个主题z,按主题z的单词概率分布生成一个单词;
LDA的联合概率为
其中:
θ是主题向量,向量的每一列表示每个主题在文档中出现的概率,该向量为非负的归一化向量;
p(θ):θ的分布,具体为Dirichiket分布;
N:要生成的文档的单词个数;
wn:生成的第n个单词w;
zn:选择的主题;
p(z|θ):给定θ时主题z的概率分布;
p(w|z):给定主题z时单词w的分布。
3.根据权利要求1或2所述一种基于LDA模型的供电服务客户诉求识别方法,其特征在于,所述步骤3中的分类算法为SVM分类算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810938775.1A CN109389418A (zh) | 2018-08-17 | 2018-08-17 | 基于lda模型的供电服务客户诉求识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810938775.1A CN109389418A (zh) | 2018-08-17 | 2018-08-17 | 基于lda模型的供电服务客户诉求识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109389418A true CN109389418A (zh) | 2019-02-26 |
Family
ID=65417536
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810938775.1A Pending CN109389418A (zh) | 2018-08-17 | 2018-08-17 | 基于lda模型的供电服务客户诉求识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109389418A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109993649A (zh) * | 2019-03-13 | 2019-07-09 | 王亚萍 | 一种先导式纳税咨询服务推送方法 |
CN110955777A (zh) * | 2019-12-11 | 2020-04-03 | 国网河北省电力有限公司电力科学研究院 | 一种基于95598工单提升客服质量的方法 |
CN111126842A (zh) * | 2019-12-24 | 2020-05-08 | 中国银行股份有限公司 | 工单分类方法及装置 |
CN111241288A (zh) * | 2020-01-17 | 2020-06-05 | 烟台海颐软件股份有限公司 | 一种大集中电力客户服务中心的突发事件感知系统以及构建方法 |
CN112488736A (zh) * | 2020-12-15 | 2021-03-12 | 济南市城乡建设数字化中心 | 一种住建领域政务热线工单数据分析方法及系统 |
CN112749079A (zh) * | 2019-10-31 | 2021-05-04 | 中国移动通信集团浙江有限公司 | 软件测试的缺陷分类方法、装置及计算设备 |
CN113344432A (zh) * | 2021-06-29 | 2021-09-03 | 云南电网有限责任公司信息中心 | 一种区域性客户服务风险的判断方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105930347A (zh) * | 2016-04-05 | 2016-09-07 | 浙江远传信息技术股份有限公司 | 基于文本分析的停电原因识别系统 |
CN106250372A (zh) * | 2016-08-17 | 2016-12-21 | 国网上海市电力公司 | 一种用于电力系统的中文电力数据文本挖掘方法 |
CN106844424A (zh) * | 2016-12-09 | 2017-06-13 | 宁波大学 | 一种基于lda的文本分类方法 |
CN107861942A (zh) * | 2017-10-11 | 2018-03-30 | 国网浙江省电力公司电力科学研究院 | 一种基于深度学习的电力疑似投诉工单识别方法 |
CN107908716A (zh) * | 2017-11-10 | 2018-04-13 | 国网山东省电力公司电力科学研究院 | 基于词向量模型的95598工单文本挖掘方法和装置 |
CN108304442A (zh) * | 2017-11-20 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 一种文本信息处理方法、装置及存储介质 |
CN108363691A (zh) * | 2018-02-09 | 2018-08-03 | 国网江苏省电力有限公司电力科学研究院 | 一种用于电力95598工单的领域术语识别系统及方法 |
-
2018
- 2018-08-17 CN CN201810938775.1A patent/CN109389418A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105930347A (zh) * | 2016-04-05 | 2016-09-07 | 浙江远传信息技术股份有限公司 | 基于文本分析的停电原因识别系统 |
CN106250372A (zh) * | 2016-08-17 | 2016-12-21 | 国网上海市电力公司 | 一种用于电力系统的中文电力数据文本挖掘方法 |
CN106844424A (zh) * | 2016-12-09 | 2017-06-13 | 宁波大学 | 一种基于lda的文本分类方法 |
CN107861942A (zh) * | 2017-10-11 | 2018-03-30 | 国网浙江省电力公司电力科学研究院 | 一种基于深度学习的电力疑似投诉工单识别方法 |
CN107908716A (zh) * | 2017-11-10 | 2018-04-13 | 国网山东省电力公司电力科学研究院 | 基于词向量模型的95598工单文本挖掘方法和装置 |
CN108304442A (zh) * | 2017-11-20 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 一种文本信息处理方法、装置及存储介质 |
CN108363691A (zh) * | 2018-02-09 | 2018-08-03 | 国网江苏省电力有限公司电力科学研究院 | 一种用于电力95598工单的领域术语识别系统及方法 |
Non-Patent Citations (1)
Title |
---|
刘兴平: "电力企业投诉工单文本挖掘模型", 《电力需求侧管理》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109993649A (zh) * | 2019-03-13 | 2019-07-09 | 王亚萍 | 一种先导式纳税咨询服务推送方法 |
CN112749079A (zh) * | 2019-10-31 | 2021-05-04 | 中国移动通信集团浙江有限公司 | 软件测试的缺陷分类方法、装置及计算设备 |
CN112749079B (zh) * | 2019-10-31 | 2023-12-26 | 中国移动通信集团浙江有限公司 | 软件测试的缺陷分类方法、装置及计算设备 |
CN110955777A (zh) * | 2019-12-11 | 2020-04-03 | 国网河北省电力有限公司电力科学研究院 | 一种基于95598工单提升客服质量的方法 |
CN111126842A (zh) * | 2019-12-24 | 2020-05-08 | 中国银行股份有限公司 | 工单分类方法及装置 |
CN111241288A (zh) * | 2020-01-17 | 2020-06-05 | 烟台海颐软件股份有限公司 | 一种大集中电力客户服务中心的突发事件感知系统以及构建方法 |
CN112488736A (zh) * | 2020-12-15 | 2021-03-12 | 济南市城乡建设数字化中心 | 一种住建领域政务热线工单数据分析方法及系统 |
CN113344432A (zh) * | 2021-06-29 | 2021-09-03 | 云南电网有限责任公司信息中心 | 一种区域性客户服务风险的判断方法及装置 |
CN113344432B (zh) * | 2021-06-29 | 2022-05-13 | 云南电网有限责任公司信息中心 | 一种区域性客户服务风险的判断方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109389418A (zh) | 基于lda模型的供电服务客户诉求识别方法 | |
WO2018000269A1 (zh) | 一种基于数据挖掘和众包的数据标注方法及系统 | |
CN106934069B (zh) | 数据检索方法及系统 | |
CN107886231B (zh) | 客服的服务质量评价方法与系统 | |
CN104281615A (zh) | 一种投诉处理的方法和系统 | |
CN108363691A (zh) | 一种用于电力95598工单的领域术语识别系统及方法 | |
CN114528845A (zh) | 异常日志的分析方法、装置及电子设备 | |
CN111652667A (zh) | 一种企业主要相关自然人实体数据对齐方法 | |
CN113570380A (zh) | 基于语义分析的业务投诉处理方法、装置、设备及计算机可读存储介质 | |
CN112685374B (zh) | 日志分类方法、装置及电子设备 | |
CN109284504A (zh) | 利用深度学习模型的证券研报分析方法及装置 | |
CN107766560A (zh) | 客服服务流程的评价方法和系统 | |
CN111221873A (zh) | 基于关联网络的企业间同名人识别方法及系统 | |
CN118035411A (zh) | 客服语音质检方法、装置、设备及存储介质 | |
CN117592470A (zh) | 大语言模型驱动的低成本公报数据抽取方法 | |
CN112749079B (zh) | 软件测试的缺陷分类方法、装置及计算设备 | |
CN110866394A (zh) | 公司名称识别方法及装置、计算机设备及可读存储介质 | |
CN114461665B (zh) | 用于生成语句转换模型的方法、装置及计算机程序产品 | |
CN115618264A (zh) | 数据资产的主题分类方法、装置、设备和介质 | |
CN112561714B (zh) | 基于nlp技术的核保风险预测方法、装置及相关设备 | |
CN114925674A (zh) | 文件合规性检查方法、装置、电子设备及存储介质 | |
CN112307157B (zh) | 申诉意见挖掘方法和装置 | |
Kumaresh et al. | Mining software repositories for defect categorization | |
CN114036949B (zh) | 基于资讯信息分析的投资策略确定方法及装置 | |
US20220237388A1 (en) | Method and apparatus for generating table description text, device and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190226 |
|
RJ01 | Rejection of invention patent application after publication |