CN110442873A - 一种基于cbow模型的热点工单获取方法及装置 - Google Patents
一种基于cbow模型的热点工单获取方法及装置 Download PDFInfo
- Publication number
- CN110442873A CN110442873A CN201910726132.5A CN201910726132A CN110442873A CN 110442873 A CN110442873 A CN 110442873A CN 201910726132 A CN201910726132 A CN 201910726132A CN 110442873 A CN110442873 A CN 110442873A
- Authority
- CN
- China
- Prior art keywords
- work order
- entry
- term vector
- data set
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 239000013598 vector Substances 0.000 claims abstract description 120
- 238000012549 training Methods 0.000 claims abstract description 35
- 238000012545 processing Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 238000013461 design Methods 0.000 claims description 6
- 238000005259 measurement Methods 0.000 claims description 6
- 238000013480 data collection Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 11
- 230000005611 electricity Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/06—Electricity, gas or water supply
Abstract
本申请公开一种基于CBOW模型的热点工单获取方法及装置,所述方法包括:获取ITSM工单管理系统中的工单,构建语料;对语料中的特征文本进行处理,获得多个词条;将词条随机划分为训练数据集和应用数据集;用CBOW模型将训练数据集中的词条映射为第一词向量数据集,获得词向量空间模型;用词向量空间模型训练应用数据集,获得第二词向量数据集;计算第二词向量数据集中任意两个第二词向量之间的语义相似度;将语义相似度大于第一预设阈值的第二词向量聚类,将聚类后第二词向量对应的词条作为目标词条;计算聚类后每一类下目标词条的TF‑IDF值,获取特征关键词,该特征关键词对应的工单为热点工单。采用前述方法,可提高热点工单获取效率。
Description
技术领域
本申请涉及电力信息系统技术领域,尤其涉及以一种基于CBOW模型的热点工单获取方法及装置。
背景技术
在电力信息系统中,用户可以通过电力客户服务呼叫热线、电力网上营业厅或者电力信息呼叫中心等渠道提出业务诉求或者意见建议。用户提出业务诉求或者意见建议时,电力信息系统中的ITSM(IT Service Management,IT服务管理)工单管理系统会产生相应的工单,这种情况下,电力客服部门首先要将大量的工单进行聚类,获取工单类型,然后将不同类型的工单派发给相应的电力部门进行处理,以便及时处理用户的业务诉求或者意见建议。在上述聚类的工单中,数量最多的工单类型反映了用户诉求的热点,即热点工单,通过获取热点工单,再对热点工单做针对性分析和预防处理,有效提升电力服务质量。
目前热点工单主要依靠人工获取,电力客服部门的客服人员根据工单的关键词进行聚类,然后将数量最多的工单类型作为热点工单。由于目前主要依赖人工获取热点工单,效率较低,尤其在工单数量较多的情况下,无法第一时间获取准确获取热点工单类型,因此亟需开发一种效率高的热点工单获取方法。
发明内容
本申请提供了一种基于CBOW模型的热点工单获取方法及装置,以解决现有技术依靠人工获取热点工单,导致效率较低的问题。
第一方面,本申请实施例提供一种基于CBOW模型的热点工单获取方法,包括:
获取ITSM工单管理系统中的工单,构建语料,所述语料中包含多个特征文本;
对所述语料中的特征文本进行处理,获得多个词条;
将所述词条随机划分为训练数据集和应用数据集;
利用CBOW模型将训练数据集中的词条映射为第一词向量数据集;
根据所述第一词向量数据集构建词向量空间模型;
利用所述词向量空间模型训练所述应用数据集,获得第二词向量数据集;
计算所述第二词向量数据集中的任意两个第二词向量之间的语义相似度;
将所述语义相似度大于第一预设阈值的第二词向量聚类,将聚类后的第二词向量对应的词条作为目标词条;
计算所述目标词条的TF-IDF值;
将所述TF-IDF值大于第二预设阈值的目标词条作为特征关键词;
获取热点工单,所述热点工单为所述特征关键词对应的工单。
结合第一方面,在一种实现方式中,所述获取ITSM工单管理系统中的工单数据,构建语料,包括:
获取ITSM工单管理系统中的工单,将所述工单中的文本整合,获得特征文本;
将所述特征文本的集合作为所述语料。
结合第一方面,在一种实现方式中,对所述语料中的特征文本进行处理,获得多个词条,包括:
构建专业词典,所述词典中包含多个专业词汇;
利用所述专业词汇对所述语料中的特征文本进行划分,获得多个分词;
将语义相同的分词进行合并,获得词条。
结合第一方面,在一种实现方式中,所述构建专业词典包括:
收集电力操作手册中的专业术语、电力系统中各环节的功能名称及电力设计技术文档中的专业词汇;
整理所述专业术语、功能名称和专业词汇,形成专业词典。
结合第一方面,在一种实现方式中,所述计算所述第二词向量数据集中的任意两个第二词向量之间的语义相似度,包括:
利用以下公式计算语义相似度:
其中,x和y为所述第二词向量数据集中的任意两个第二词向量,且x≠y,cos(θ)为x和y之间的余弦相似度,xi为x的各分量,yi为y的各分量,i=1……n。
第二方面,本申请实施例部分提供了一种基于CBOW模型的热点工单获取装置,所述装置包括:
语料构建模块,用于获取ITSM工单管理系统中的工单,构建语料,所述语料中包含多个特征文本;
特征文本处理模块,用于对所述语料中的特征文本进行处理,获得多个词条;
词条划分模块,用于将所述词条随机划分为训练数据集和应用数据集;
第一词向量数据集获取模块,用于利用CBOW模型将训练数据集中的词条映射为第一词向量数据集;
词向量空间模型构建模块,用于根据所述第一词向量数据集构建词向量空间模型;
第二词向量数据集获取模块,用于利用所述词向量空间模型训练所述应用数据集,获得第二词向量数据集;
语义相似度计算模块,用于计算所述第二词向量数据集中的任意两个第二词向量之间的语义相似度;
目标词条获取模块,用于将所述语义相似度大于第一预设阈值的第二词向量聚类,将聚类后的第二词向量对应的词条作为目标词条;
TF-IDF值计算模块,用于计算所述目标TF-IDF值词条的;
特征关键词获取模块,用于将所述TF-IDF值大于第二预设阈值的目标词条作为特征关键词;
热点工单获取模块,用于获取热点工单,所述热点工单为所述特征关键词对应的工单。
结合第二方面,在一种实现方式中,所述语料构建模块,包括:
特征文本获取单元,用于获取ITSM工单管理系统中的工单,将所述工单中的文本整合,获得特征文本;
语料获取单元,将所述特征文本的集合作为所述语料。
结合第二方面,在一种实现方式中,所述特征文本处理模块,包括:
专业词典构建单元,用于构建专业词典,所述词典中包含多个专业词汇;
特征文本划分单元,用于利用所述专业词汇对所述语料中的特征文本进行划分,获得多个分词;
词条获取单元,用于将语义相同的分词进行合并,获得词条。
结合第二方面,在一种实现方式中,所述专业词典构建单元,包括:
收集子单元,用于收集电力操作手册中的专业术语、电力系统中各环节的功能名称及电力设计技术文档中的专业词汇;
专业词典形成子单元,用于整理所述专业术语、功能名称和专业词汇,形成专业词典。
结合第二方面,在一种实现方式中,所述语义相似度计算模块,包括:
利用以下公式计算语义相似度:
其中,x和y为所述第二词向量数据集中的任意两个第二词向量,且x≠y,cos(θ)为x和y之间的余弦相似度,xi为x的各分量,yi为y的各分量,i=1……n。
本申请提供一种基于CBOW模型的热点工单获取方法及装置,所述方法包括:获取ITSM工单管理系统中的工单,构建语料;对所述语料中的特征文本进行处理,获得多个词条;将所述词条随机划分为训练数据集和应用数据集;利用CBOW模型将训练数据集中的词条映射为第一词向量数据集;根据第一词向量数据集构建词向量空间模型;利用所述词向量空间模型训练所述应用数据集,获得第二词向量数据集;计算所述第二词向量数据集中的任意两个第二词向量之间的语义相似度;将所述语义相似度大于第一预设阈值的第二词向量聚类,将聚类后的第二词向量对应的词条作为目标词条;计算聚类后每一类下的目标词条的TF-IDF值,然后根据所述TF-IDF值,获取特征关键词,该特征关键词对应的工单即为热点工单。采用前述的方法,可提高热点工单获取效率,尤其在工单数量较多的情况下,可第一时间获取热点工单类型,进而准确快速的定位用户诉求热点,有效提升电力服务质量。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种基于CBOW模型的热点工单获取方法的流程示意图;
图2是本申请实施例提供的一种基于CBOW模型的热点工单获取装置的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
本申请提供了一种基于CBOW模型的热点工单获取方法及装置,以解决现有技术依靠人工获取热点工单,导致效率较低的问题。
参照图1,示出了一种基于CBOW模型的热点工单获取方法,所述方法包括以下步骤:
步骤101,获取ITSM工单管理系统中的工单,构建语料,所述语料中包含多个特征文本。
本步骤中,首先获取ITSM工单管理系统中的工单,例如,以15天的工单作为基础数据;电力信息系统中产生的工单相对比较复杂,通常不能直接使用,因此需要将获取的工单构建语料,构建语料具体方法是:将所述工单中的文本整合,获得特征文本;将所述特征文本的集合作为所述语料。本步骤的目的是将ITSM工单管理系统中产生的复杂的工单处理成特征文本,方便后续使用。
其中,将所述工单中的文本整合,获得特征文本的具体方法是:结合工单中的标题、描述以及历史解决方案字段形成特征文本。
步骤102,对所述语料中的特征文本进行处理,获得多个词条。
本步骤中,将步骤101获得的语料预处理,获得多个词条,也就是说,将特征文本处理为词条,方便后续使用,具体处理方法为:首先构建专业词典,所述词典中包含多个专业词汇;然后利用所述专业词汇对所述语料中的特征文本进行划分,获得多个分词;最后将语义相同的分词进行合并,获得词条。
由于电力系统的专业性较强,因此首先要构建专业词典,然后对照专业词典中的专业词汇对步骤101中的特征文本进行分词,具体分词方法可以利用分词器进行分词,例如:jieba分词器,当然,还可以利用其它的分词器,本申请不做具体限定;分词之后,标注词性和词频,根据标注的词性,将其中的停用词去除,例如:标点符号、虚词以及连词等,同时,将语义相同的词(同义词)合并,最终获得的词条。
步骤103,将所述词条随机划分为训练数据集和应用数据集。
该步骤中,将步骤102中获得的词条随机划分为训练数据集和应用数据集,也就是说,提取词条中部分作为训练数据集,其余作为应用数据集,所述训练数据集和应用数据集均包含一定数量的词条。
步骤104,利用CBOW模型将训练数据集中的词条映射为第一词向量数据集;
步骤105,根据所述第一词向量数据集构建词向量空间模型。
该实施例中,利用CBOW模型将步骤103中划分的训练数据集中的各词条映射为相应的第一词向量,该第一词向量组成第一词向量数据集,根据所述第一词向量数据集构建词向量空间模型;CBOW模型为已知模型,具体训练过程参照相关现有技术,在此不做详细描述。利用已知模型对训练数据集训练,得到词向量空间模型,这种情况下,每一批工单均需重新构建一个词向量空间模型,提高准确性。
步骤106,利用所述词向量空间模型训练所述应用数据集,获得第二词向量数据集。
该步骤中,将步骤105中获得的词向量空间模型用来训练步骤103获得的应用数据集,将应用数据集中的词条映射为第二词向量,该第二词向量组成第二词向量数据集。
步骤107,计算所述第二词向量数据集中的任意两个第二词向量之间的语义相似度;
步骤108,将所述语义相似度大于第一预设阈值的第二词向量聚类,将聚类后的第二词向量对应的词条作为目标词条。
可选地,所述计算所述第二词向量数据集中的任意两个第二词向量之间的语义相似度,包括:
利用以下公式计算语义相似度:
其中,x和y为所述第二词向量数据集中的任意两个第二词向量,且x≠y,cos(θ)为x和y之间的余弦相似度,xi为x的各分量,yi为y的各分量,i=1……n。
本实施例中,首先利用余弦相似度公式计算获取任意两个第二词向量的空间距离,根据所述空间距离,获取所述第二词向量数据集中的任意两个第二词向量之间的语义相似度,并将语义相似度在一定阈值内的一簇词聚类,具体的,当所述语义相似度大于第一预设阈值0.7,则对应的两个词向量可以聚为一类,以此类推,可将第二词向量数据集完成聚类。
步骤109,计算所述目标词条的TF-IDF值;
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。用以评估目标词条在某一类中的重要程度,其计算方法为:词频(TF)=某个词条在某一类出现的总次数/该类中的总词条数;逆文档频率(IDF)=log(词条库的类型总数/包含该词的类型数+1),为了避免分母为0,所以在分母上加1,因此:TF-IDF值=TF*IDF。
由以上可知:TF-IDF值与该词条的出现频率成正比,且与在整个聚类后所有类型中的出现次数成反比。
步骤110,将所述TF-IDF值大于第二预设阈值的目标词条作为特征关键词;
其中,计算出目标词条的TF-IDF值之后,进行排序,选取其中第二预设阈值作为特征关键词。该特征关键词是在某一类中出现频率较高的,也就是出现次数较高的,因此,该特征关键词对应的工单即为热点工单。
步骤111,获取热点工单,所述热点工单为所述特征关键词对应的工单。
本实施例中,首先计算聚类后每一类下的目标词条的TF-IDF值,然后根据所述TF-IDF值,获取特征关键词,该特征关键词对应的工单即为热点工单。该热点工单可以用来分析信息电力系统中的客户服务热点,准确定位客户需求,在面临大规模问题爆发时,能够迅速定位到具体问题并及时解决,提高电力服务的及时性;此外,通过聚类分析有助于发现电力系统中长期存在的问题。
可选地,所述构建专业词典包括:
收集电力操作手册中的专业术语、电力系统中各环节的功能名称及电力设计技术文档中的专业词汇;
整理所述专业术语、功能名称和专业词汇,形成专业词典。
其中,所述专业词典包括:电力项目管理、电费退补、抄核收、购售电合同等。
本实施例中,首先收集电力系统中相关的专业术语、功能名称和专业词汇,然后过滤重复项以及合并同义词,整理所述专业术语、功能名称和专业词汇,进而形成专业词典。所述专业词典作为工单分词的参照,以使工单分词更专业和准确。
本申请实施例公开一种基于CBOW模型的热点工单获取方法,所述方法包括:获取ITSM工单管理系统中的工单,构建语料;对所述语料中的特征文本进行处理,获得多个词条;将所述词条随机划分为训练数据集和应用数据集;利用CBOW模型将训练数据集中的词条映射为第一词向量数据集;根据第一词向量数据集构建词向量空间模型;利用所述词向量空间模型训练所述应用数据集,获得第二词向量数据集;计算所述第二词向量数据集中的任意两个第二词向量之间的语义相似度;将所述语义相似度大于第一预设阈值的第二词向量聚类,将聚类后的第二词向量对应的词条作为目标词条;计算聚类后每一类下的目标词条的TF-IDF值,然后根据所述TF-IDF值,获取特征关键词,该特征关键词对应的工单即为热点工单。采用前述的方法,可提高热点工单获取效率,尤其在工单数量较多的情况下,可第一时间获取热点工单类型,进而准确快速的定位用户诉求热点,有效提升电力服务质量。
参照图2,示出了一种基于CBOW模型的热点工单获取装置,所述装置包括:
语料构建模块201,用于获取ITSM工单管理系统中的工单,构建语料,所述语料中包含多个特征文本;
特征文本处理模块202,用于对所述语料中的特征文本进行处理,获得多个词条;
词条划分模块203,用于将所述词条随机划分为训练数据集和应用数据集;
第一词向量数据集获取模块204,用于利用CBOW模型将训练数据集中的词条映射为第一词向量数据集;
词向量空间模型构建模块205,用于根据所述第一词向量数据集构建词向量空间模型;
第二词向量数据集获取模块206,用于利用所述词向量空间模型训练所述应用数据集,获得第二词向量数据集;
语义相似度计算模块207,用于计算所述第二词向量数据集中的任意两个第二词向量之间的语义相似度;
目标词条获取模块208,用于将所述语义相似度大于第一预设阈值的第二词向量聚类,将聚类后的第二词向量对应的词条作为目标词条;
TF-IDF值计算模块209,用于计算所述目标TF-IDF值词条的;
特征关键词获取模块210,用于将所述TF-IDF值大于第二预设阈值的目标词条作为特征关键词;
热点工单获取模块211,用于获取热点工单,所述热点工单为所述特征关键词对应的工单。
结合第二方面,在一种实现方式中,所述语料构建模块,包括:
特征文本获取单元,用于获取ITSM工单管理系统中的工单,将所述工单中的文本整合,获得特征文本;
语料获取单元,将所述特征文本的集合作为所述语料。
结合第二方面,在一种实现方式中,所述特征文本处理模块,包括:
专业词典构建单元,用于构建专业词典,所述词典中包含多个专业词汇;
特征文本划分单元,用于利用所述专业词汇对所述语料中的特征文本进行划分,获得多个分词;
词条获取单元,用于将语义相同的分词进行合并,获得词条。
结合第二方面,在一种实现方式中,所述专业词典构建单元,包括:
收集子单元,用于收集电力操作手册中的专业术语、电力系统中各环节的功能名称及电力设计技术文档中的专业词汇;
专业词典形成子单元,用于整理所述专业术语、功能名称和专业词汇,形成专业词典。
结合第二方面,在一种实现方式中,所述语义相似度计算模块,包括:
利用以下公式计算语义相似度:
其中,x和y为所述第二词向量数据集中的任意两个第二词向量,且x≠y,cos(θ)为x和y之间的余弦相似度,xi为x的各分量,yi为y的各分量,i=1……n。
本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。
以上结合具体实施方式和范例性实例对本申请进行了详细说明,不过这些说明并不能理解为对本申请的限制。本领域技术人员理解,在不偏离本申请精神和范围的情况下,可以对本申请技术方案及其实施方式进行多种等价替换、修饰或改进,这些均落入本申请的范围内。本申请的保护范围以所附权利要求为准。
Claims (10)
1.一种基于CBOW模型的热点工单获取方法,其特征在于,包括:
获取ITSM工单管理系统中的工单,构建语料,所述语料中包含多个特征文本;
对所述语料中的特征文本进行处理,获得多个词条;
将所述词条随机划分为训练数据集和应用数据集;
利用CBOW模型将训练数据集中的词条映射为第一词向量数据集;
根据所述第一词向量数据集构建词向量空间模型;
利用所述词向量空间模型训练所述应用数据集,获得第二词向量数据集;
计算所述第二词向量数据集中的任意两个第二词向量之间的语义相似度;
将所述语义相似度大于第一预设阈值的第二词向量聚类,将聚类后的第二词向量对应的词条作为目标词条;
计算所述目标词条的TF-IDF值;
将所述TF-IDF值大于第二预设阈值的目标词条作为特征关键词;
获取热点工单,所述热点工单为所述特征关键词对应的工单。
2.根据权利要求1所述的方法,其特征在于,所述获取ITSM工单管理系统中的工单数据,构建语料,包括:
获取ITSM工单管理系统中的工单,将所述工单中的文本整合,获得特征文本;
将所述特征文本的集合作为所述语料。
3.根据权利要求2所述的方法,其特征在于,对所述语料中的特征文本进行处理,获得多个词条,包括:
构建专业词典,所述词典中包含多个专业词汇;
利用所述专业词汇对所述语料中的特征文本进行划分,获得多个分词;
将语义相同的分词进行合并,获得词条。
4.根据权利要求3所述的方法,其特征在于,所述构建专业词典包括:
收集电力操作手册中的专业术语、电力系统中各环节的功能名称及电力设计技术文档中的专业词汇;
整理所述专业术语、功能名称和专业词汇,形成专业词典。
5.根据权利要求1所述的方法,其特征在于,所述计算所述第二词向量数据集中的任意两个第二词向量之间的语义相似度,包括:
利用以下公式计算语义相似度:
其中,x和y为所述第二词向量数据集中的任意两个第二词向量,且x≠y,cos(θ)为x和y之间的余弦相似度,xi为x的各分量,yi为y的各分量,i=1……n。
6.一种基于CBOW模型的热点工单获取装置,其特征在于,所述装置包括:
语料构建模块,用于获取ITSM工单管理系统中的工单,构建语料,所述语料中包含多个特征文本;
特征文本处理模块,用于对所述语料中的特征文本进行处理,获得多个词条;
词条划分模块,用于将所述词条随机划分为训练数据集和应用数据集;
第一词向量数据集获取模块,用于利用CBOW模型将训练数据集中的词条映射为第一词向量数据集;
词向量空间模型构建模块,用于根据所述第一词向量数据集构建词向量空间模型;
第二词向量数据集获取模块,用于利用所述词向量空间模型训练所述应用数据集,获得第二词向量数据集;
语义相似度计算模块,用于计算所述第二词向量数据集中的任意两个第二词向量之间的语义相似度;
目标词条获取模块,用于将所述语义相似度大于第一预设阈值的第二词向量聚类,将聚类后的第二词向量对应的词条作为目标词条;
TF-IDF值计算模块,用于计算所述目标TF-IDF值词条的;
特征关键词获取模块,用于将所述TF-IDF值大于第二预设阈值的目标词条作为特征关键词;
热点工单获取模块,用于获取热点工单,所述热点工单为所述特征关键词对应的工单。
7.根据权利要求6所述的装置,其特征在于,所述语料构建模块,包括:
特征文本获取单元,用于获取ITSM工单管理系统中的工单,将所述工单中的文本整合,获得特征文本;
语料获取单元,将所述特征文本的集合作为所述语料。
8.根据权利要求7所述的装置,其特征在于,所述特征文本处理模块,包括:
专业词典构建单元,用于构建专业词典,所述词典中包含多个专业词汇;
特征文本划分单元,用于利用所述专业词汇对所述语料中的特征文本进行划分,获得多个分词;
词条获取单元,用于将语义相同的分词进行合并,获得词条。
9.根据权利要求8所述的装置,其特征在于,所述专业词典构建单元,包括:
收集子单元,用于收集电力操作手册中的专业术语、电力系统中各环节的功能名称及电力设计技术文档中的专业词汇;
专业词典形成子单元,用于整理所述专业术语、功能名称和专业词汇,形成专业词典。
10.根据权利要求6所述的装置,其特征在于,所述语义相似度计算模块,包括:
利用以下公式计算余弦相似度:
其中,x和y为所述第二词向量数据集中的任意两个第二词向量,且x≠y,cos(θ)为x和y之间的余弦相似度,xi为x的各分量,yi为y的各分量,i=1……n。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910726132.5A CN110442873A (zh) | 2019-08-07 | 2019-08-07 | 一种基于cbow模型的热点工单获取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910726132.5A CN110442873A (zh) | 2019-08-07 | 2019-08-07 | 一种基于cbow模型的热点工单获取方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110442873A true CN110442873A (zh) | 2019-11-12 |
Family
ID=68433819
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910726132.5A Pending CN110442873A (zh) | 2019-08-07 | 2019-08-07 | 一种基于cbow模型的热点工单获取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110442873A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111475601A (zh) * | 2020-04-09 | 2020-07-31 | 云南电网有限责任公司电力科学研究院 | 一种电力工单热点主题获取方法及装置 |
CN111738596A (zh) * | 2020-06-22 | 2020-10-02 | 中国银行股份有限公司 | 工单派发方法及装置 |
CN112632965A (zh) * | 2020-12-25 | 2021-04-09 | 上海德拓信息技术股份有限公司 | 一种针对政府服务热线领域的工单自动分类方法 |
CN113094703A (zh) * | 2021-03-11 | 2021-07-09 | 北京六方云信息技术有限公司 | 针对web入侵检测的输出内容过滤方法及系统 |
CN115099373A (zh) * | 2022-08-26 | 2022-09-23 | 南京中孚信息技术有限公司 | 一种基于single-pass的文本聚类方法及其装置 |
CN112632965B (zh) * | 2020-12-25 | 2024-05-03 | 上海德拓信息技术股份有限公司 | 一种针对政府服务热线领域的工单自动分类方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103218603A (zh) * | 2013-04-03 | 2013-07-24 | 哈尔滨工业大学深圳研究生院 | 一种人脸自动标注方法及系统 |
CN103399891A (zh) * | 2013-07-22 | 2013-11-20 | 百度在线网络技术(北京)有限公司 | 网络内容自动推荐方法、装置和系统 |
CN104299182A (zh) * | 2014-10-08 | 2015-01-21 | 天津大学 | 基于聚类的城市基础设施突发事件的检测方法 |
CN105512277A (zh) * | 2015-12-04 | 2016-04-20 | 北京航空航天大学 | 一种面向图书市场书名的短文本聚类方法 |
CN106203886A (zh) * | 2016-07-26 | 2016-12-07 | 国网江苏省电力公司电力科学研究院 | 一种基于电力营销服务热点的营销业务服务风险评估方法 |
CN107066445A (zh) * | 2017-04-11 | 2017-08-18 | 华东师范大学 | 一种属性情感词向量的深度学习方法 |
CN107679144A (zh) * | 2017-09-25 | 2018-02-09 | 平安科技(深圳)有限公司 | 基于语义相似度的新闻语句聚类方法、装置及存储介质 |
CN107908716A (zh) * | 2017-11-10 | 2018-04-13 | 国网山东省电力公司电力科学研究院 | 基于词向量模型的95598工单文本挖掘方法和装置 |
CN108021558A (zh) * | 2017-12-27 | 2018-05-11 | 北京金山安全软件有限公司 | 关键词的识别方法、装置、电子设备和存储介质 |
CN108804595A (zh) * | 2018-05-28 | 2018-11-13 | 中山大学 | 一种基于word2vec的短文本表示方法 |
CN109344227A (zh) * | 2018-06-27 | 2019-02-15 | 中国建设银行股份有限公司 | 工单处理方法、系统和电子设备 |
-
2019
- 2019-08-07 CN CN201910726132.5A patent/CN110442873A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103218603A (zh) * | 2013-04-03 | 2013-07-24 | 哈尔滨工业大学深圳研究生院 | 一种人脸自动标注方法及系统 |
CN103399891A (zh) * | 2013-07-22 | 2013-11-20 | 百度在线网络技术(北京)有限公司 | 网络内容自动推荐方法、装置和系统 |
CN104299182A (zh) * | 2014-10-08 | 2015-01-21 | 天津大学 | 基于聚类的城市基础设施突发事件的检测方法 |
CN105512277A (zh) * | 2015-12-04 | 2016-04-20 | 北京航空航天大学 | 一种面向图书市场书名的短文本聚类方法 |
CN106203886A (zh) * | 2016-07-26 | 2016-12-07 | 国网江苏省电力公司电力科学研究院 | 一种基于电力营销服务热点的营销业务服务风险评估方法 |
CN107066445A (zh) * | 2017-04-11 | 2017-08-18 | 华东师范大学 | 一种属性情感词向量的深度学习方法 |
CN107679144A (zh) * | 2017-09-25 | 2018-02-09 | 平安科技(深圳)有限公司 | 基于语义相似度的新闻语句聚类方法、装置及存储介质 |
CN107908716A (zh) * | 2017-11-10 | 2018-04-13 | 国网山东省电力公司电力科学研究院 | 基于词向量模型的95598工单文本挖掘方法和装置 |
CN108021558A (zh) * | 2017-12-27 | 2018-05-11 | 北京金山安全软件有限公司 | 关键词的识别方法、装置、电子设备和存储介质 |
CN108804595A (zh) * | 2018-05-28 | 2018-11-13 | 中山大学 | 一种基于word2vec的短文本表示方法 |
CN109344227A (zh) * | 2018-06-27 | 2019-02-15 | 中国建设银行股份有限公司 | 工单处理方法、系统和电子设备 |
Non-Patent Citations (2)
Title |
---|
周顺先等: "基于Word2vector的文本特征化表示方法", 《重庆邮电大学学报(自然科学版)》 * |
顾斌等: "基于词典扩充的电力客服工单情感倾向性分析", 《现代电子技术》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111475601A (zh) * | 2020-04-09 | 2020-07-31 | 云南电网有限责任公司电力科学研究院 | 一种电力工单热点主题获取方法及装置 |
CN111738596A (zh) * | 2020-06-22 | 2020-10-02 | 中国银行股份有限公司 | 工单派发方法及装置 |
CN111738596B (zh) * | 2020-06-22 | 2024-03-22 | 中国银行股份有限公司 | 工单派发方法及装置 |
CN112632965A (zh) * | 2020-12-25 | 2021-04-09 | 上海德拓信息技术股份有限公司 | 一种针对政府服务热线领域的工单自动分类方法 |
CN112632965B (zh) * | 2020-12-25 | 2024-05-03 | 上海德拓信息技术股份有限公司 | 一种针对政府服务热线领域的工单自动分类方法 |
CN113094703A (zh) * | 2021-03-11 | 2021-07-09 | 北京六方云信息技术有限公司 | 针对web入侵检测的输出内容过滤方法及系统 |
CN115099373A (zh) * | 2022-08-26 | 2022-09-23 | 南京中孚信息技术有限公司 | 一种基于single-pass的文本聚类方法及其装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shaham et al. | Scrolls: Standardized comparison over long language sequences | |
US10831769B2 (en) | Search method and device for asking type query based on deep question and answer | |
Gupta et al. | Amazonqa: A review-based question answering task | |
CN110442873A (zh) | 一种基于cbow模型的热点工单获取方法及装置 | |
WO2023029420A1 (zh) | 一种电力用户诉求筛选方法、系统、电子设备和存储介质 | |
CN109446341A (zh) | 知识图谱的构建方法及装置 | |
CN112667794A (zh) | 一种基于孪生网络bert模型的智能问答匹配方法及系统 | |
CN106407280A (zh) | 查询目标匹配方法及装置 | |
JPWO2014033799A1 (ja) | 単語意味関係抽出装置 | |
CN104484380A (zh) | 个性化搜索方法及装置 | |
Wang et al. | Indexing by L atent D irichlet A llocation and an E nsemble M odel | |
Echeverry-Correa et al. | Topic identification techniques applied to dynamic language model adaptation for automatic speech recognition | |
JPWO2014002775A1 (ja) | 同義語抽出システム、方法および記録媒体 | |
CN109255012A (zh) | 一种机器阅读理解的实现方法以及装置 | |
CN112182145A (zh) | 文本相似度确定方法、装置、设备和存储介质 | |
Das et al. | A novel approach for automatic Bengali question answering system using semantic similarity analysis | |
Eldin et al. | An enhanced opinion retrieval approach via implicit feature identification | |
An et al. | Question similarity modeling with bidirectional long short-term memory neural network | |
Wei et al. | Embedding electronic health records for clinical information retrieval | |
CN115329207B (zh) | 智能销售信息推荐方法及系统 | |
Al Zamil et al. | A model based on multi-features to enhance healthcare and medical document retrieval | |
CN114255067A (zh) | 数据定价方法和装置、电子设备、存储介质 | |
KR20130113250A (ko) | 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템 | |
CN113157867A (zh) | 一种问答方法、装置、电子设备及存储介质 | |
CN112925910A (zh) | 一种辅助语料标注方法、装置、设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191112 |
|
RJ01 | Rejection of invention patent application after publication |