CN110442873A

CN110442873A - 一种基于cbow模型的热点工单获取方法及装置

Info

Publication number: CN110442873A
Application number: CN201910726132.5A
Authority: CN
Inventors: 张逸彬; 吴玮; 陈晨; 金瑞琼; 郭超
Original assignee: Information Center of Yunnan Power Grid Co Ltd
Current assignee: Information Center of Yunnan Power Grid Co Ltd
Priority date: 2019-08-07
Filing date: 2019-08-07
Publication date: 2019-11-12

Abstract

本申请公开一种基于CBOW模型的热点工单获取方法及装置，所述方法包括：获取ITSM工单管理系统中的工单，构建语料；对语料中的特征文本进行处理，获得多个词条；将词条随机划分为训练数据集和应用数据集；用CBOW模型将训练数据集中的词条映射为第一词向量数据集，获得词向量空间模型；用词向量空间模型训练应用数据集，获得第二词向量数据集；计算第二词向量数据集中任意两个第二词向量之间的语义相似度；将语义相似度大于第一预设阈值的第二词向量聚类，将聚类后第二词向量对应的词条作为目标词条；计算聚类后每一类下目标词条的TF‑IDF值，获取特征关键词，该特征关键词对应的工单为热点工单。采用前述方法，可提高热点工单获取效率。

Description

一种基于CBOW模型的热点工单获取方法及装置

技术领域

本申请涉及电力信息系统技术领域，尤其涉及以一种基于CBOW模型的热点工单获取方法及装置。

背景技术

在电力信息系统中，用户可以通过电力客户服务呼叫热线、电力网上营业厅或者电力信息呼叫中心等渠道提出业务诉求或者意见建议。用户提出业务诉求或者意见建议时，电力信息系统中的ITSM(IT Service Management，IT服务管理)工单管理系统会产生相应的工单，这种情况下，电力客服部门首先要将大量的工单进行聚类，获取工单类型，然后将不同类型的工单派发给相应的电力部门进行处理，以便及时处理用户的业务诉求或者意见建议。在上述聚类的工单中，数量最多的工单类型反映了用户诉求的热点，即热点工单，通过获取热点工单，再对热点工单做针对性分析和预防处理，有效提升电力服务质量。

目前热点工单主要依靠人工获取，电力客服部门的客服人员根据工单的关键词进行聚类，然后将数量最多的工单类型作为热点工单。由于目前主要依赖人工获取热点工单，效率较低，尤其在工单数量较多的情况下，无法第一时间获取准确获取热点工单类型，因此亟需开发一种效率高的热点工单获取方法。

发明内容

本申请提供了一种基于CBOW模型的热点工单获取方法及装置，以解决现有技术依靠人工获取热点工单，导致效率较低的问题。

第一方面，本申请实施例提供一种基于CBOW模型的热点工单获取方法，包括：

获取ITSM工单管理系统中的工单，构建语料，所述语料中包含多个特征文本；

对所述语料中的特征文本进行处理，获得多个词条；

将所述词条随机划分为训练数据集和应用数据集；

利用CBOW模型将训练数据集中的词条映射为第一词向量数据集；

根据所述第一词向量数据集构建词向量空间模型；

利用所述词向量空间模型训练所述应用数据集，获得第二词向量数据集；

计算所述第二词向量数据集中的任意两个第二词向量之间的语义相似度；

将所述语义相似度大于第一预设阈值的第二词向量聚类，将聚类后的第二词向量对应的词条作为目标词条；

计算所述目标词条的TF-IDF值；

将所述TF-IDF值大于第二预设阈值的目标词条作为特征关键词；

获取热点工单，所述热点工单为所述特征关键词对应的工单。

结合第一方面，在一种实现方式中，所述获取ITSM工单管理系统中的工单数据，构建语料，包括：

获取ITSM工单管理系统中的工单，将所述工单中的文本整合，获得特征文本；

将所述特征文本的集合作为所述语料。

结合第一方面，在一种实现方式中，对所述语料中的特征文本进行处理，获得多个词条，包括：

构建专业词典，所述词典中包含多个专业词汇；

利用所述专业词汇对所述语料中的特征文本进行划分，获得多个分词；

将语义相同的分词进行合并，获得词条。

结合第一方面，在一种实现方式中，所述构建专业词典包括：

收集电力操作手册中的专业术语、电力系统中各环节的功能名称及电力设计技术文档中的专业词汇；

整理所述专业术语、功能名称和专业词汇，形成专业词典。

结合第一方面，在一种实现方式中，所述计算所述第二词向量数据集中的任意两个第二词向量之间的语义相似度，包括：

利用以下公式计算语义相似度：

其中，x和y为所述第二词向量数据集中的任意两个第二词向量，且x≠y，cos(θ)为x和y之间的余弦相似度，x_i为x的各分量，y_i为y的各分量，i＝1……n。

第二方面，本申请实施例部分提供了一种基于CBOW模型的热点工单获取装置，所述装置包括：

语料构建模块，用于获取ITSM工单管理系统中的工单，构建语料，所述语料中包含多个特征文本；

特征文本处理模块，用于对所述语料中的特征文本进行处理，获得多个词条；

词条划分模块，用于将所述词条随机划分为训练数据集和应用数据集；

第一词向量数据集获取模块，用于利用CBOW模型将训练数据集中的词条映射为第一词向量数据集；

词向量空间模型构建模块，用于根据所述第一词向量数据集构建词向量空间模型；

第二词向量数据集获取模块，用于利用所述词向量空间模型训练所述应用数据集，获得第二词向量数据集；

语义相似度计算模块，用于计算所述第二词向量数据集中的任意两个第二词向量之间的语义相似度；

目标词条获取模块，用于将所述语义相似度大于第一预设阈值的第二词向量聚类，将聚类后的第二词向量对应的词条作为目标词条；

TF-IDF值计算模块，用于计算所述目标TF-IDF值词条的；

特征关键词获取模块，用于将所述TF-IDF值大于第二预设阈值的目标词条作为特征关键词；

热点工单获取模块，用于获取热点工单，所述热点工单为所述特征关键词对应的工单。

结合第二方面，在一种实现方式中，所述语料构建模块，包括：

特征文本获取单元，用于获取ITSM工单管理系统中的工单，将所述工单中的文本整合，获得特征文本；

语料获取单元，将所述特征文本的集合作为所述语料。

结合第二方面，在一种实现方式中，所述特征文本处理模块，包括：

专业词典构建单元，用于构建专业词典，所述词典中包含多个专业词汇；

特征文本划分单元，用于利用所述专业词汇对所述语料中的特征文本进行划分，获得多个分词；

词条获取单元，用于将语义相同的分词进行合并，获得词条。

结合第二方面，在一种实现方式中，所述专业词典构建单元，包括：

收集子单元，用于收集电力操作手册中的专业术语、电力系统中各环节的功能名称及电力设计技术文档中的专业词汇；

专业词典形成子单元，用于整理所述专业术语、功能名称和专业词汇，形成专业词典。

结合第二方面，在一种实现方式中，所述语义相似度计算模块，包括：

利用以下公式计算语义相似度：

本申请提供一种基于CBOW模型的热点工单获取方法及装置，所述方法包括：获取ITSM工单管理系统中的工单，构建语料；对所述语料中的特征文本进行处理，获得多个词条；将所述词条随机划分为训练数据集和应用数据集；利用CBOW模型将训练数据集中的词条映射为第一词向量数据集；根据第一词向量数据集构建词向量空间模型；利用所述词向量空间模型训练所述应用数据集，获得第二词向量数据集；计算所述第二词向量数据集中的任意两个第二词向量之间的语义相似度；将所述语义相似度大于第一预设阈值的第二词向量聚类，将聚类后的第二词向量对应的词条作为目标词条；计算聚类后每一类下的目标词条的TF-IDF值，然后根据所述TF-IDF值，获取特征关键词，该特征关键词对应的工单即为热点工单。采用前述的方法，可提高热点工单获取效率，尤其在工单数量较多的情况下，可第一时间获取热点工单类型，进而准确快速的定位用户诉求热点，有效提升电力服务质量。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种基于CBOW模型的热点工单获取方法的流程示意图；

图2是本申请实施例提供的一种基于CBOW模型的热点工单获取装置的结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

参照图1，示出了一种基于CBOW模型的热点工单获取方法，所述方法包括以下步骤：

步骤101，获取ITSM工单管理系统中的工单，构建语料，所述语料中包含多个特征文本。

本步骤中，首先获取ITSM工单管理系统中的工单，例如，以15天的工单作为基础数据；电力信息系统中产生的工单相对比较复杂，通常不能直接使用，因此需要将获取的工单构建语料，构建语料具体方法是：将所述工单中的文本整合，获得特征文本；将所述特征文本的集合作为所述语料。本步骤的目的是将ITSM工单管理系统中产生的复杂的工单处理成特征文本，方便后续使用。

其中，将所述工单中的文本整合，获得特征文本的具体方法是：结合工单中的标题、描述以及历史解决方案字段形成特征文本。

步骤102，对所述语料中的特征文本进行处理，获得多个词条。

本步骤中，将步骤101获得的语料预处理，获得多个词条，也就是说，将特征文本处理为词条，方便后续使用，具体处理方法为：首先构建专业词典，所述词典中包含多个专业词汇；然后利用所述专业词汇对所述语料中的特征文本进行划分，获得多个分词；最后将语义相同的分词进行合并，获得词条。

由于电力系统的专业性较强，因此首先要构建专业词典，然后对照专业词典中的专业词汇对步骤101中的特征文本进行分词，具体分词方法可以利用分词器进行分词，例如：jieba分词器，当然，还可以利用其它的分词器，本申请不做具体限定；分词之后，标注词性和词频，根据标注的词性，将其中的停用词去除，例如：标点符号、虚词以及连词等，同时，将语义相同的词(同义词)合并，最终获得的词条。

步骤103，将所述词条随机划分为训练数据集和应用数据集。

该步骤中，将步骤102中获得的词条随机划分为训练数据集和应用数据集，也就是说，提取词条中部分作为训练数据集，其余作为应用数据集，所述训练数据集和应用数据集均包含一定数量的词条。

步骤104，利用CBOW模型将训练数据集中的词条映射为第一词向量数据集；

步骤105，根据所述第一词向量数据集构建词向量空间模型。

该实施例中，利用CBOW模型将步骤103中划分的训练数据集中的各词条映射为相应的第一词向量，该第一词向量组成第一词向量数据集，根据所述第一词向量数据集构建词向量空间模型；CBOW模型为已知模型，具体训练过程参照相关现有技术，在此不做详细描述。利用已知模型对训练数据集训练，得到词向量空间模型，这种情况下，每一批工单均需重新构建一个词向量空间模型，提高准确性。

步骤106，利用所述词向量空间模型训练所述应用数据集，获得第二词向量数据集。

该步骤中，将步骤105中获得的词向量空间模型用来训练步骤103获得的应用数据集，将应用数据集中的词条映射为第二词向量，该第二词向量组成第二词向量数据集。

步骤107，计算所述第二词向量数据集中的任意两个第二词向量之间的语义相似度；

步骤108，将所述语义相似度大于第一预设阈值的第二词向量聚类，将聚类后的第二词向量对应的词条作为目标词条。

可选地，所述计算所述第二词向量数据集中的任意两个第二词向量之间的语义相似度，包括：

利用以下公式计算语义相似度：

本实施例中，首先利用余弦相似度公式计算获取任意两个第二词向量的空间距离，根据所述空间距离，获取所述第二词向量数据集中的任意两个第二词向量之间的语义相似度，并将语义相似度在一定阈值内的一簇词聚类，具体的，当所述语义相似度大于第一预设阈值0.7，则对应的两个词向量可以聚为一类，以此类推，可将第二词向量数据集完成聚类。

步骤109，计算所述目标词条的TF-IDF值；

TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。用以评估目标词条在某一类中的重要程度，其计算方法为：词频(TF)＝某个词条在某一类出现的总次数/该类中的总词条数；逆文档频率(IDF)＝log(词条库的类型总数/包含该词的类型数+1)，为了避免分母为0，所以在分母上加1，因此：TF-IDF值＝TF*IDF。

由以上可知：TF-IDF值与该词条的出现频率成正比，且与在整个聚类后所有类型中的出现次数成反比。

步骤110，将所述TF-IDF值大于第二预设阈值的目标词条作为特征关键词；

其中，计算出目标词条的TF-IDF值之后，进行排序，选取其中第二预设阈值作为特征关键词。该特征关键词是在某一类中出现频率较高的，也就是出现次数较高的，因此，该特征关键词对应的工单即为热点工单。

步骤111，获取热点工单，所述热点工单为所述特征关键词对应的工单。

本实施例中，首先计算聚类后每一类下的目标词条的TF-IDF值，然后根据所述TF-IDF值，获取特征关键词，该特征关键词对应的工单即为热点工单。该热点工单可以用来分析信息电力系统中的客户服务热点，准确定位客户需求，在面临大规模问题爆发时，能够迅速定位到具体问题并及时解决，提高电力服务的及时性；此外，通过聚类分析有助于发现电力系统中长期存在的问题。

可选地，所述构建专业词典包括：

整理所述专业术语、功能名称和专业词汇，形成专业词典。

其中，所述专业词典包括：电力项目管理、电费退补、抄核收、购售电合同等。

本实施例中，首先收集电力系统中相关的专业术语、功能名称和专业词汇，然后过滤重复项以及合并同义词，整理所述专业术语、功能名称和专业词汇，进而形成专业词典。所述专业词典作为工单分词的参照，以使工单分词更专业和准确。

本申请实施例公开一种基于CBOW模型的热点工单获取方法，所述方法包括：获取ITSM工单管理系统中的工单，构建语料；对所述语料中的特征文本进行处理，获得多个词条；将所述词条随机划分为训练数据集和应用数据集；利用CBOW模型将训练数据集中的词条映射为第一词向量数据集；根据第一词向量数据集构建词向量空间模型；利用所述词向量空间模型训练所述应用数据集，获得第二词向量数据集；计算所述第二词向量数据集中的任意两个第二词向量之间的语义相似度；将所述语义相似度大于第一预设阈值的第二词向量聚类，将聚类后的第二词向量对应的词条作为目标词条；计算聚类后每一类下的目标词条的TF-IDF值，然后根据所述TF-IDF值，获取特征关键词，该特征关键词对应的工单即为热点工单。采用前述的方法，可提高热点工单获取效率，尤其在工单数量较多的情况下，可第一时间获取热点工单类型，进而准确快速的定位用户诉求热点，有效提升电力服务质量。

参照图2，示出了一种基于CBOW模型的热点工单获取装置，所述装置包括：

语料构建模块201，用于获取ITSM工单管理系统中的工单，构建语料，所述语料中包含多个特征文本；

特征文本处理模块202，用于对所述语料中的特征文本进行处理，获得多个词条；

词条划分模块203，用于将所述词条随机划分为训练数据集和应用数据集；

第一词向量数据集获取模块204，用于利用CBOW模型将训练数据集中的词条映射为第一词向量数据集；

词向量空间模型构建模块205，用于根据所述第一词向量数据集构建词向量空间模型；

第二词向量数据集获取模块206，用于利用所述词向量空间模型训练所述应用数据集，获得第二词向量数据集；

语义相似度计算模块207，用于计算所述第二词向量数据集中的任意两个第二词向量之间的语义相似度；

目标词条获取模块208，用于将所述语义相似度大于第一预设阈值的第二词向量聚类，将聚类后的第二词向量对应的词条作为目标词条；

TF-IDF值计算模块209，用于计算所述目标TF-IDF值词条的；

特征关键词获取模块210，用于将所述TF-IDF值大于第二预设阈值的目标词条作为特征关键词；

热点工单获取模块211，用于获取热点工单，所述热点工单为所述特征关键词对应的工单。

语料获取单元，将所述特征文本的集合作为所述语料。

利用以下公式计算语义相似度：

本说明书中各个实施例之间相同相似的部分互相参见即可。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例中的说明即可。

以上结合具体实施方式和范例性实例对本申请进行了详细说明，不过这些说明并不能理解为对本申请的限制。本领域技术人员理解，在不偏离本申请精神和范围的情况下，可以对本申请技术方案及其实施方式进行多种等价替换、修饰或改进，这些均落入本申请的范围内。本申请的保护范围以所附权利要求为准。

Claims

1.一种基于CBOW模型的热点工单获取方法，其特征在于，包括：

对所述语料中的特征文本进行处理，获得多个词条；

将所述词条随机划分为训练数据集和应用数据集；

根据所述第一词向量数据集构建词向量空间模型；

计算所述目标词条的TF-IDF值；

2.根据权利要求1所述的方法，其特征在于，所述获取ITSM工单管理系统中的工单数据，构建语料，包括：

将所述特征文本的集合作为所述语料。

3.根据权利要求2所述的方法，其特征在于，对所述语料中的特征文本进行处理，获得多个词条，包括：

构建专业词典，所述词典中包含多个专业词汇；

将语义相同的分词进行合并，获得词条。

4.根据权利要求3所述的方法，其特征在于，所述构建专业词典包括：

整理所述专业术语、功能名称和专业词汇，形成专业词典。

5.根据权利要求1所述的方法，其特征在于，所述计算所述第二词向量数据集中的任意两个第二词向量之间的语义相似度，包括：

利用以下公式计算语义相似度：

6.一种基于CBOW模型的热点工单获取装置，其特征在于，所述装置包括：

TF-IDF值计算模块，用于计算所述目标TF-IDF值词条的；

7.根据权利要求6所述的装置，其特征在于，所述语料构建模块，包括：

语料获取单元，将所述特征文本的集合作为所述语料。

8.根据权利要求7所述的装置，其特征在于，所述特征文本处理模块，包括：

9.根据权利要求8所述的装置，其特征在于，所述专业词典构建单元，包括：

10.根据权利要求6所述的装置，其特征在于，所述语义相似度计算模块，包括：

利用以下公式计算余弦相似度：