CN107665221A - 关键词的分类方法和装置 - Google Patents

关键词的分类方法和装置 Download PDF

Info

Publication number
CN107665221A
CN107665221A CN201610617877.4A CN201610617877A CN107665221A CN 107665221 A CN107665221 A CN 107665221A CN 201610617877 A CN201610617877 A CN 201610617877A CN 107665221 A CN107665221 A CN 107665221A
Authority
CN
China
Prior art keywords
keyword
vector
classification
target
object vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610617877.4A
Other languages
English (en)
Inventor
王天祎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201610617877.4A priority Critical patent/CN107665221A/zh
Publication of CN107665221A publication Critical patent/CN107665221A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Abstract

本申请公开了一种关键词的分类方法和装置。其中,该方法包括:获取向量集合和目标向量,其中,目标向量是将目标关键词进行向量化得到的,向量集合包括多个关键词集合中每个关键词的向量,多个关键词集合属于多个类别;对向量集合进行模型训练得到分类模型,其中,分类模型用于将目标关键词分为多个类别中的其中之一;将目标向量输入至分类模型中对目标关键词进行分类。本申请解决了现有技术中通过关键词的词根包含关系确定关键词的类别的方法鲁棒性差的技术问题。

Description

关键词的分类方法和装置
技术领域
本申请涉及关键词领域,具体而言,涉及一种关键词的分类方法和装置。
背景技术
在互联网时代,每天都有大量网络用户通过点击搜索引擎营销(Search EngineMarketing,简称SEM)广告访问网站,以购买商品。
SEM业务人员需要对账户里的关键词不断地调整,使类别、含义相同或相近的关键词分配在相同的推广单元内,这样既能够使关键词投放时发挥最大作用,又方便账户结构的管理。例如,挂壁电视、彩电都表示同一类型电视实体,iPhone、苹果手机、6s plus,甚至网络流行的“肾6”等都表示同一手机实体。虽然这些词字面不同,但是属于同一类别,应当分配到同一推广单元。
现有技术中,人工整理词根库,通过关键词的词根包含关系来确定关键词的类别。这种方法具有以下几个缺陷:一、需要耗费相当大的人力和时间去整理行业词根。二、现代社会行业众多,人工不能想到所有的词根。三、鲁棒性不强,例如,“洗衣罩”这个词并不属于类别“洗衣机”,要克服这种问题,需要设定非常多逻辑规则来规避。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种关键词的分类方法和装置,以至少解决现有技术中通过关键词的词根包含关系确定关键词的类别的方法鲁棒性差的技术问题。
根据本申请实施例的一个方面,提供了一种关键词的分类方法,包括:获取向量集合和目标向量,其中,所述目标向量是将目标关键词进行向量化得到的,所述向量集合包括多个关键词集合中每个关键词的向量,所述多个关键词集合属于多个类别;对所述向量集合进行模型训练得到分类模型,其中,所述分类模型用于将所述目标关键词分为所述多个类别中的其中之一;将所述目标向量输入至所述分类模型中对所述目标关键词进行分类。
进一步地,所述多个类别为N个类别,将所述目标向量输入至所述分类模型中对所述目标关键词进行分类包括:计算所述目标关键词与第j类别的相关系数Pj,其中,相关系数Pj是所述目标向量与所述第j类别所有关键词的向量的相似度的平均值,其中,j依次取1至N;从相关系数P1至相关系数PN这N个相关系数中筛选出最大的相关系数,将所述最大的相关系数关联的类别作为目标类别;将所述目标关键词划分为所述目标类别。
进一步地,计算所述目标关键词与第j类别的相关系数Pj包括:根据以下公式计算所述目标向量与所述第j类别所有关键词中每个关键词的向量的相似度:
其中, 表示所述目标向量,表示所述第j类别的关键词中任意一个关键词的向量,S1表示的相似度;将所述目标向量与所述第j类别所有关键词的向量的相似度的平均值作为所述相关系数Pj
进一步地,计算所述目标关键词与第j类别的相关系数Pj包括:根据以下公式计算所述目标向量与所述第j类别所有关键词中每个关键词的向量的相似度:
其中, 表示所述目标向量,表示所述第j类别的关键词中任意一个关键词的向量,S2表示的相似度;将所述目标向量与所述第j类别所有关键词的向量的相似度的平均值作为所述相关系数Pj
进一步地,获取向量集合和目标向量包括:根据多个关键词集合中的关键词训练出词向量模型,其中,所述词向量模型用于执行向量化处理;利用所述词向量模型对所述目标关键词进行向量化处理,得到所述目标向量;利用所述词向量模型对所述多个关键词集合中每个关键词进行向量化处理,得到所述向量集合。
进一步地,利用所述词向量模型对所述目标关键词进行向量化处理,得到所述目标向量包括:对所述目标关键词进行分词,得到所述目标关键词的第一分词集合;删除所述第一分词集合中的无语义词汇,得到所述目标关键词的第二分词集合;利用所述词向量模型对所述第二分词集合中每个分词进行向量化处理,得到所述第二分词集合中每个分词的向量;根据所述第二分词集合中每个分词的向量确定出所述目标向量。
进一步地,根据所述第二分词集合中每个分词的向量确定出所述目标向量包括:将所述第二分词集合中所有分词的向量之和作为所述目标向量;或者将所述第二分词集合中所有分词的向量的加权平均值作为所述目标向量。
根据本申请实施例的另一方面,还提供了一种关键词的分类装置,包括:获取单元,用于获取向量集合和目标向量,其中,所述目标向量是将目标关键词进行向量化得到的,所述向量集合包括多个关键词集合中每个关键词的向量,所述多个关键词集合属于多个类别;训练单元,用于对所述向量集合进行模型训练得到分类模型,其中,所述分类模型用于将所述目标关键词分为所述多个类别中的其中之一;分类单元,用于将所述目标向量输入至所述分类模型中对所述目标关键词进行分类。
进一步地,所述多个类别为N个类别,所述分类单元包括:计算子单元,用于计算所述目标关键词与第j类别的相关系数Pj,其中,相关系数Pj是所述目标向量与所述第j类别所有关键词的向量的相似度的平均值,其中,j依次取1至N;确定子单元,用于从相关系数P1至相关系数PN这N个相关系数中筛选出最大的相关系数,将所述最大的相关系数关联的类别作为目标类别;划分子单元,用于将所述目标关键词划分为所述目标类别。
进一步地,所述计算子单元用于:根据以下公式计算所述目标向量与所述第j类别所有关键词中每个关键词的向量的相似度:其中, 表示所述目标向量,表示所述第j类别的关键词中任意一个关键词的向量,S1表示的相似度;将所述目标向量与所述第j类别所有关键词的向量的相似度的平均值作为所述相关系数Pj
进一步地,所述计算子单元用于:根据以下公式计算所述目标向量与所述第j类别所有关键词中每个关键词的向量的相似度:其中, 表示所述目标向量,表示所述第j类别的关键词中任意一个关键词的向量,S2表示的相似度;将所述目标向量与所述第j类别所有关键词的向量的相似度的平均值作为所述相关系数Pj
进一步地,所述获取单元包括:训练子单元,用于根据多个关键词集合中的关键词训练出词向量模型,其中,所述词向量模型用于执行向量化处理;第一处理子单元,用于利用所述词向量模型对所述目标关键词进行向量化处理,得到所述目标向量;第二处理子单元,用于利用所述词向量模型对所述多个关键词集合中每个关键词进行向量化处理,得到所述向量集合。
进一步地,所述第一处理子单元包括:分词模块,用于对所述目标关键词进行分词,得到所述目标关键词的第一分词集合;删除模块,用于删除所述第一分词集合中的无语义词汇,得到所述目标关键词的第二分词集合;处理模块,用于利用所述词向量模型对所述第二分词集合中每个分词进行向量化处理,得到所述第二分词集合中每个分词的向量;确定模块,用于根据所述第二分词集合中每个分词的向量确定出所述目标向量。
进一步地,所述确定模块用于:将所述第二分词集合中所有分词的向量之和作为所述目标向量;或者将所述第二分词集合中所有分词的向量的加权平均值作为所述目标向量。
在本申请实施例中,将N(N≥2)个类别的关键词向量化,得到向量集合,对向量集合进行模型训练得到分类模型,将目标关键词向量化,得到目标向量,将目标向量输入分类模型,由分类模型对目标关键词进行分类,从而将目标关键词划分为N个类别中的某一个类别。本实施例并不根据关键词的词根包含关系确定关键词的类别,而是用同一类别的关键词在语句中的关联关系对目标关键词进行划分,达到了关键词的分类鲁棒性好的技术效果,进而解决了现有技术中通过关键词的词根包含关系确定关键词的类别的方法鲁棒性差的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种可选的关键词的分类方法的流程图;
图2是根据本申请实施例的向量空间的示意图;
图3是根据本申请实施例的另一种可选的关键词的分类方法的流程图;
图4是根据本申请实施例的关键词的分类装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面对本申请实施例所涉及的技术术语做出解释:
Word2Vec:词向量模型,自然语言处理领域中的一种通用的模型。
支持向量机(Support Vector Machine):机器学习领域一种通用的分类模型。
词袋模型:用向量去表示一个句子,向量的每一个位置表示一个词出现的频率,语料中所有的词构成了一个大的字典,如苹果手机可以表示为V1=[1,0,0,0,0,1...]两个1表示苹果和手机,即在字典中,第一个位置表示苹果,第六个位置表示手机。所以只要两个词在字面上不同,那么向量表示就会差别很大。如iphone的词袋模型表示可能是V2=[0,1,0,0,0...],狗的词袋模型可以是V3=[0,0,1,0,0,0....],这里虽然V1和V2描述的东西很类似,但V1和V2在向量空间里的距离却很远,以至于相比V1和V3毫无差别,但其实V1和V2要更相关。
根据本申请实施例,提供了一种关键词的分类方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本申请实施例的一种可选的关键词的分类方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取向量集合和目标向量,其中,目标向量是将目标关键词进行向量化得到的,向量集合包括多个关键词集合中每个关键词的向量,多个关键词集合属于多个类别。
步骤S104,对向量集合进行模型训练得到分类模型,其中,分类模型用于将目标关键词分为多个类别中的其中之一。
步骤S106,将目标向量输入至分类模型中对目标关键词进行分类。
每个关键词集合中的所有关键词是已经被划分为同一个类别的关键词,不同关键词集合中的关键词的类别不同。目标关键词是待分类的关键词,需要将目标关键词划分到已有的多个类别中的一个类别中。
本实施例将N(N≥2)个类别的关键词向量化,得到向量集合,对向量集合进行模型训练得到分类模型,将目标关键词向量化,得到目标向量,将目标向量输入分类模型,由分类模型对目标关键词进行分类,从而将目标关键词划分为N个类别中的某一个类别。本实施例并不根据关键词的词根包含关系确定关键词的类别,而是用同一类别的关键词在语句中的关联关系(通过向量体现,后文详述)对目标关键词进行划分,解决了现有技术中通过关键词的词根包含关系确定关键词的类别的方法鲁棒性差的技术问题,达到了关键词的分类鲁棒性好的技术效果。
可选地,多个类别为N个类别,将目标向量输入至分类模型中对目标关键词进行分类包括:计算目标关键词与第j类别的相关系数Pj,其中,相关系数Pj是目标向量与第j类别所有关键词的向量的相似度的平均值,其中,j依次取1至N;从相关系数P1至相关系数PN这N个相关系数中筛选出最大的相关系数,将最大的相关系数关联的类别作为目标类别;将目标关键词划分为目标类别。
将目标向量输入至分类模型中后,分类模型按照如下方法对目标关键词进行分类:计算目标向量与第j类别所有关键词的向量的相似度的平均值,得到目标关键词与第j类别的相关系数Pj,其中,j依次取1至N,从P1至PN这N个相关系数中筛选出最大的相关系数Pk,将最大的相关系数Pk关联的类别第K类别作为目标类别,将目标关键词划分为目标类别。
例如,已经分类的关键词有1000个,这1000个关键词被分为10类(即N=10),假设第1类别有200个关键词,分别计算目标关键词与第1类别的200个关键词的向量的相似度,并且求平均值,将得到的结果作为目标关键词与第1类别的相关系数P1。按照同样的方法,计算目标关键词与第2类别的相关系数P2、……、目标关键词与第10类别的相关系数P10。从相关系数P1、相关系数P2、……、相关系数P10这10个相关系数筛选出最大的相关系数,假设最大的相关系数是P2,则将第2类别作为目标类别,将目标关键词划分为目标类别,即,将目标关键词划分为第2类别。
可选地,计算目标关键词与第j类别的相关系数Pj包括:根据以下公式计算目标向量与第j类别所有关键词中每个关键词的向量的相似度:其中, 表示目标向量,表示第j类别的关键词中任意一个关键词的向量,S1表示的相似度;将目标向量与第j类别所有关键词的向量的相似度的平均值作为相关系数Pj
可选地,计算目标关键词与第j类别的相关系数Pj包括:根据以下公式计算目标向量与第j类别所有关键词中每个关键词的向量的相似度:其中, 表示目标向量,表示第j类别的关键词中任意一个关键词的向量,S2表示的相似度;将目标向量与第j类别所有关键词的向量的相似度的平均值作为相关系数Pj
以上两个公式都能够计算出两个向量的相似度。
将目标关键词和每个已经分类的关键词均向量化为多维向量,多维向量维度的值携带了该向量对应的关键词在语句中出现的位置信息。具体地,当目标关键词与某个关键词B在不同的语句中出现的位置很接近或者总是有类似的上下文时,目标向量的每个维度的值与关键词B对应的向量相应的维度的值相近,此时计算出的S1和S2的值比较大,这表明,向量与向量的相似度较高。当目标关键词与关键词B在大部分的语句中没有类似的上下文时,目标向量的每个维度的值与向量的对应的维度的值相差很大,计算出的S1和S2的值比较小,这表明,向量与向量的相似度较低。
可选地,获取向量集合和目标向量包括:根据多个关键词集合中的关键词训练出词向量模型,其中,词向量模型用于执行向量化处理;利用词向量模型对目标关键词进行向量化处理,得到目标向量;利用词向量模型对多个关键词集合中每个关键词进行向量化处理,得到向量集合。
根据多个关键词可以训练出词向量模型。词向量(Word2Vec)是一种序列化学习模型,被广泛应用于自然语言处理(Nature Language Processing)等领域。通过语料库(由很多文本句子组成的文本文件)的训练,它可以将语料库中的每一个词化成一个由若干维度实数值组成的向量,所有词生成的向量空间记为Ω。每个词的实数值向量被认为表征该词在众多句子成分中出现的位置关系。当两个关键词在不同的句子中经常有类似的上下文时,则这两个关键词的向量在向量空间Ω中的距离就是相近的,也就是在某种向量相似度度量下这两个关键词是相似的,可以认为这两个关键词属于同一个类别。例如,“苹果手机”和“Apple”这两个词在很多不同的句子中经常有类似的上下文,“苹果手机”和“Apple”这两个词在向量空间Ω中的距离是相近的,“苹果手机”和“Apple”这两个词是属于同一个类别的。再例如,“狗”和“小狗”这两个词在向量空间Ω中的距离是相近的,“猫”和“猫咪”这两个词在向量空间Ω中的距离是相近的,利用分类模型分类时,“狗”和“小狗”这两个词会划分到一个类别,“猫”和“猫咪”这两个词会划分到另一个类别,如图2所示。
可选地,利用词向量模型对目标关键词进行向量化处理,得到目标向量包括:对目标关键词进行分词,得到目标关键词的第一分词集合;删除第一分词集合中的无语义词汇,得到目标关键词的第二分词集合;利用词向量模型对第二分词集合中每个分词进行向量化处理,得到第二分词集合中每个分词的向量;根据第二分词集合中每个分词的向量确定出目标向量。
可选地,根据第二分词集合中每个分词的向量确定出目标向量包括:将第二分词集合中所有分词的向量之和作为目标向量;或者将第二分词集合中所有分词的向量的加权平均值作为目标向量。
无语义词汇指的是常规上意义不大的词,如“的”、“地”、“得”等。停用词词典中收录了很多无语义词汇,可以利用停用词词典删除第一分词集合中的无语义词汇。
使用词向量模型将第二分词集合中每一个分词进行向量化,得到第二分词集合中每一个分词的向量。
第二分词集合中每个分词的向量都是一个高维稠密向量,取第二分词集合中所有分词的向量的某个统计量(例如,加和、平均值等)作为目标向量,当统计量的选取方式不同时,得到的目标向量不同,即,获取目标向量的方法可以有多种,方法一:可以将第二分词集合中所有分词的向量之和作为目标向量。方法二:可以将第二分词集合中所有分词的向量的加权平均值作为目标向量。方法三:可以将第二分词集合中所有分词的向量的平均值作为目标向量。方法三可以认为是方法二的一种特例。
例如,某个目标关键词的第一分词集合是C1={k1,k2,k3,k4,k5},假设分词k2和分词k3是无语义词汇,那么该目标关键词的第二分词集合是C2={k1,k4,k5},使用词向量模型将分词k1,分词k4,分词k5分别向量化,得到分词k1的向量V1,分词k4的向量V4,分词k5的向量V5。可以将第二分词集合中所有分词的向量的加权平均值作为目标向量V,即目标向量V=w1×V1+w4×V4+w5×V5,其中,w1、w4、w5分别为向量V1、向量V4、向量V5的权重值。
本申请实施例得到的目标向量也是高维稠密向量,与传统的向量化方法(分词字典+词袋模型)相比,高维稠密向量能够使短语的向量表示更稠密,表达意义更丰富。例如,传统方法认为iPhone和iphone是完全不相干的词,但根据本申请实施例得到的iPhone的向量和iphone的向量的相似度很高,会将这两个词分为同一类,贴近实际,使得关键词分类的准确度更高,鲁棒性强。
将已经分类的关键词进行向量化得到向量集合的过程与将目标关键词进行向量化得到目标向量的过程是相同的,不再赘述。
图3是根据本申请实施例的另一种可选的关键词的分类方法的流程图,如图3所示,该方法包括如下步骤:
步骤S302,从数据库中获取语料。即,从数据库中获取目标关键词所在领域相关语料库。
步骤S304,训练词向量模型。利用词向量模型训练语料库,得到训练后模型。
词向量(Word2Vec)是一种序列化学习模型,被广泛应用于自然语言处理(NatureLanguage Processing)等领域。通过语料库(由很多文本句子组成的文本文件)的训练,它可以将语料库中的每一个词化成一个由若干维度实数值组成的向量,所有词生成的向量空间记为Ω。
步骤S306,从数据库中获取已经分类的关键词集合和待分类的目标关键词。
步骤S308,利用词向量模型对已经分类的关键词集合中每一个关键词向量化,得到向量集合,利用词向量模型对待分类的目标关键词向量化,得到目标向量。
将目标关键词和每个已经分类的关键词均向量化为多维向量,多维向量维度的值携带了该向量对应的关键词在语句中出现的位置信息。
当两个关键词在不同的句子中经常有类似的上下文时,则这两个关键词的向量在向量空间Ω中的距离就是相近的,也就是在某种向量相似度度量下这两个关键词是相似的,可以认为这两个关键词属于同一个类别。例如,“苹果手机”和“Apple”这两个词在很多不同的句子中经常有类似的上下文,“苹果手机”和“Apple”这两个词在向量空间Ω中的距离是相近的,“苹果手机”和“Apple”这两个词是属于同一个类别的。
步骤S310,利用分类的类别和向量集合训练分类模型。利用某种机器学习算法,如支持向量机等,对已有的分类类别和向量集合进行训练,生成有监督机器学习模型,即分类模型。
步骤S312,将目标向量输入分类模型,得到目标关键词的类别。利用分类模型对目标关键词进行分类,将目标关键词划分为已有的类别中的某一类。
本申请实施例可以同时对多个目标关键词进行分类,分类原理同上,不再赘述。
SEM业务人员将已经分类的关键词及其类别上传至账户。
本申请实施例中,不需要人工整理词根库,也不需要通过关键词的词根包含关系来确定关键词的类别,避免了人工对关键词进行分类主观性强、不准确的技术问题,达到了对关键词的分类客观、准确的技术效果,并且避免了传统的关键词分类方法耗费人力、分类速度慢、分类效率低的问题,使得关键词分类的准确度更高,鲁棒性强。
根据本申请实施例,还提供了一种关键词的分类装置。该关键词的分类装置可以执行上述关键词的分类方法,上述关键词的分类方法也可以通过该关键词的分类装置实施。
图4是根据本申请实施例的关键词的分类装置的示意图。如图4所示,该装置包括:获取单元42、训练单元44和分类单元46。
获取单元42,用于获取向量集合和目标向量,其中,目标向量是将目标关键词进行向量化得到的,向量集合包括多个关键词集合中每个关键词的向量,多个关键词集合属于多个类别。
训练单元44,用于对向量集合进行模型训练得到分类模型,其中,分类模型用于将目标关键词分为多个类别中的其中之一。
分类单元46,用于将目标向量输入至分类模型中对目标关键词进行分类。
可选地,多个类别为N个类别,分类单元46包括:计算子单元,用于计算目标关键词与第j类别的相关系数Pj,其中,相关系数Pj是目标向量与第j类别所有关键词的向量的相似度的平均值,其中,j依次取1至N;确定子单元,用于从相关系数P1至相关系数PN这N个相关系数中筛选出最大的相关系数,将最大的相关系数关联的类别作为目标类别;划分子单元,用于将目标关键词划分为目标类别。
可选地,计算子单元用于:根据以下公式计算目标向量与第j类别所有关键词中每个关键词的向量的相似度:其中, 表示目标向量,表示第j类别的关键词中任意一个关键词的向量,S1表示的相似度;将目标向量与第j类别所有关键词的向量的相似度的平均值作为相关系数Pj
可选地,计算子单元用于:根据以下公式计算目标向量与第j类别所有关键词中每个关键词的向量的相似度:其中, 表示目标向量,表示第j类别的关键词中任意一个关键词的向量,S2表示的相似度;将目标向量与第j类别所有关键词的向量的相似度的平均值作为相关系数Pj
可选地,获取单元42包括:训练子单元,用于根据多个关键词集合中的关键词训练出词向量模型,其中,词向量模型用于执行向量化处理;第一处理子单元,用于利用词向量模型对目标关键词进行向量化处理,得到目标向量;第二处理子单元,用于利用词向量模型对多个关键词集合中每个关键词进行向量化处理,得到向量集合。
可选地,第一处理子单元包括:分词模块,用于对目标关键词进行分词,得到目标关键词的第一分词集合;删除模块,用于删除第一分词集合中的无语义词汇,得到目标关键词的第二分词集合;处理模块,用于利用词向量模型对第二分词集合中每个分词进行向量化处理,得到第二分词集合中每个分词的向量;确定模块,用于根据第二分词集合中每个分词的向量确定出目标向量。
可选地,确定模块用于:将第二分词集合中所有分词的向量之和作为目标向量;或者将第二分词集合中所有分词的向量的加权平均值作为目标向量。
所述关键词的分类装置包括处理器和存储器,上述获取单元42、训练单元44和分类单元46等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来对目标关键词分类。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取向量集合和目标向量,其中,目标向量是将目标关键词进行向量化得到的,向量集合包括多个关键词集合中每个关键词的向量,多个关键词集合属于多个类别;对向量集合进行模型训练得到分类模型,其中,分类模型用于将目标关键词分为多个类别中的其中之一;将目标向量输入至分类模型中对目标关键词进行分类。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种关键词的分类方法,其特征在于,包括:
获取向量集合和目标向量,其中,所述目标向量是将目标关键词进行向量化得到的,所述向量集合包括多个关键词集合中每个关键词的向量,所述多个关键词集合属于多个类别;
对所述向量集合进行模型训练得到分类模型,其中,所述分类模型用于将所述目标关键词分为所述多个类别中的其中之一;
将所述目标向量输入至所述分类模型中对所述目标关键词进行分类。
2.根据权利要求1所述的方法,其特征在于,所述多个类别为N个类别,将所述目标向量输入至所述分类模型中对所述目标关键词进行分类包括:
计算所述目标关键词与第j类别的相关系数Pj,其中,相关系数Pj是所述目标向量与所述第j类别所有关键词的向量的相似度的平均值,其中,j依次取1至N;
从相关系数P1至相关系数PN这N个相关系数中筛选出最大的相关系数,将所述最大的相关系数关联的类别作为目标类别;
将所述目标关键词划分为所述目标类别。
3.根据权利要求2所述的方法,其特征在于,计算所述目标关键词与第j类别的相关系数Pj包括:
根据以下公式计算所述目标向量与所述第j类别所有关键词中每个关键词的向量的相似度:
其中, 表示所述目标向量,表示所述第j类别的关键词中任意一个关键词的向量,S1表示的相似度;
将所述目标向量与所述第j类别所有关键词的向量的相似度的平均值作为所述相关系数Pj
4.根据权利要求2所述的方法,其特征在于,计算所述目标关键词与第j类别的相关系数Pj包括:
根据以下公式计算所述目标向量与所述第j类别所有关键词中每个关键词的向量的相似度:
其中, 表示所述目标向量,表示所述第j类别的关键词中任意一个关键词的向量,S2表示的相似度;
将所述目标向量与所述第j类别所有关键词的向量的相似度的平均值作为所述相关系数Pj
5.根据权利要求1所述的方法,其特征在于,获取向量集合和目标向量包括:
根据多个关键词集合中的关键词训练出词向量模型,其中,所述词向量模型用于执行向量化处理;
利用所述词向量模型对所述目标关键词进行向量化处理,得到所述目标向量;
利用所述词向量模型对所述多个关键词集合中每个关键词进行向量化处理,得到所述向量集合。
6.根据权利要求5所述的方法,其特征在于,利用所述词向量模型对所述目标关键词进行向量化处理,得到所述目标向量包括:
对所述目标关键词进行分词,得到所述目标关键词的第一分词集合;
删除所述第一分词集合中的无语义词汇,得到所述目标关键词的第二分词集合;
利用所述词向量模型对所述第二分词集合中每个分词进行向量化处理,得到所述第二分词集合中每个分词的向量;
根据所述第二分词集合中每个分词的向量确定出所述目标向量。
7.根据权利要求6所述的方法,其特征在于,根据所述第二分词集合中每个分词的向量确定出所述目标向量包括:
将所述第二分词集合中所有分词的向量之和作为所述目标向量;或者
将所述第二分词集合中所有分词的向量的加权平均值作为所述目标向量。
8.一种关键词的分类装置,其特征在于,包括:
获取单元,用于获取向量集合和目标向量,其中,所述目标向量是将目标关键词进行向量化得到的,所述向量集合包括多个关键词集合中每个关键词的向量,所述多个关键词集合属于多个类别;
训练单元,用于对所述向量集合进行模型训练得到分类模型,其中,所述分类模型用于将所述目标关键词分为所述多个类别中的其中之一;
分类单元,用于将所述目标向量输入至所述分类模型中对所述目标关键词进行分类。
9.根据权利要求8所述的装置,其特征在于,所述多个类别为N个类别,所述分类单元包括:
计算子单元,用于计算所述目标关键词与第j类别的相关系数Pj,其中,相关系数Pj是所述目标向量与所述第j类别所有关键词的向量的相似度的平均值,其中,j依次取1至N;
确定子单元,用于从相关系数P1至相关系数PN这N个相关系数中筛选出最大的相关系数,将所述最大的相关系数关联的类别作为目标类别;
划分子单元,用于将所述目标关键词划分为所述目标类别。
10.根据权利要求9所述的装置,其特征在于,所述计算子单元用于:
根据以下公式计算所述目标向量与所述第j类别所有关键词中每个关键词的向量的相似度:
其中, 表示所述目标向量,表示所述第j类别的关键词中任意一个关键词的向量,S1表示的相似度;
将所述目标向量与所述第j类别所有关键词的向量的相似度的平均值作为所述相关系数Pj
CN201610617877.4A 2016-07-29 2016-07-29 关键词的分类方法和装置 Pending CN107665221A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610617877.4A CN107665221A (zh) 2016-07-29 2016-07-29 关键词的分类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610617877.4A CN107665221A (zh) 2016-07-29 2016-07-29 关键词的分类方法和装置

Publications (1)

Publication Number Publication Date
CN107665221A true CN107665221A (zh) 2018-02-06

Family

ID=61122068

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610617877.4A Pending CN107665221A (zh) 2016-07-29 2016-07-29 关键词的分类方法和装置

Country Status (1)

Country Link
CN (1) CN107665221A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108470065A (zh) * 2018-03-22 2018-08-31 北京航空航天大学 一种异常评论文本的确定方法及装置
CN109033077A (zh) * 2018-07-03 2018-12-18 龙马智芯(珠海横琴)科技有限公司 时间类型的识别方法、装置、存储介质、电子装置
CN111160017A (zh) * 2019-12-12 2020-05-15 北京文思海辉金信软件有限公司 关键词抽取方法、话术评分方法以及话术推荐方法
CN111179935A (zh) * 2018-11-12 2020-05-19 中移(杭州)信息技术有限公司 一种语音质检的方法和设备
CN111552851A (zh) * 2020-04-24 2020-08-18 浙江每日互动网络科技股份有限公司 类型确定方法及装置、设备和计算机可读存储介质
CN111782801A (zh) * 2019-05-17 2020-10-16 北京京东尚科信息技术有限公司 一种对关键词进行分组的方法和装置
CN112579769A (zh) * 2019-09-30 2021-03-30 北京国双科技有限公司 关键词的聚类方法、装置、存储介质和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009032046A (ja) * 2007-07-27 2009-02-12 Institute Of Physical & Chemical Research 分類装置、分類方法、ならびに、プログラム
CN103020122A (zh) * 2012-11-16 2013-04-03 哈尔滨工程大学 一种基于半监督聚类的迁移学习方法
CN103744905A (zh) * 2013-12-25 2014-04-23 新浪网技术(中国)有限公司 垃圾邮件判定方法和装置
CN105516499A (zh) * 2015-12-14 2016-04-20 北京奇虎科技有限公司 一种对短信进行分类的方法、装置、通信终端及服务器

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009032046A (ja) * 2007-07-27 2009-02-12 Institute Of Physical & Chemical Research 分類装置、分類方法、ならびに、プログラム
CN103020122A (zh) * 2012-11-16 2013-04-03 哈尔滨工程大学 一种基于半监督聚类的迁移学习方法
CN103744905A (zh) * 2013-12-25 2014-04-23 新浪网技术(中国)有限公司 垃圾邮件判定方法和装置
CN105516499A (zh) * 2015-12-14 2016-04-20 北京奇虎科技有限公司 一种对短信进行分类的方法、装置、通信终端及服务器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
江大鹏: "基于词向量的短文本分类方法研究", 《万方数据库》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108470065A (zh) * 2018-03-22 2018-08-31 北京航空航天大学 一种异常评论文本的确定方法及装置
CN108470065B (zh) * 2018-03-22 2020-11-03 北京航空航天大学 一种异常评论文本的确定方法及装置
CN109033077A (zh) * 2018-07-03 2018-12-18 龙马智芯(珠海横琴)科技有限公司 时间类型的识别方法、装置、存储介质、电子装置
CN111179935A (zh) * 2018-11-12 2020-05-19 中移(杭州)信息技术有限公司 一种语音质检的方法和设备
CN111179935B (zh) * 2018-11-12 2022-06-28 中移(杭州)信息技术有限公司 一种语音质检的方法和设备
CN111782801A (zh) * 2019-05-17 2020-10-16 北京京东尚科信息技术有限公司 一种对关键词进行分组的方法和装置
CN111782801B (zh) * 2019-05-17 2024-02-06 北京京东尚科信息技术有限公司 一种对关键词进行分组的方法和装置
CN112579769A (zh) * 2019-09-30 2021-03-30 北京国双科技有限公司 关键词的聚类方法、装置、存储介质和电子设备
CN111160017A (zh) * 2019-12-12 2020-05-15 北京文思海辉金信软件有限公司 关键词抽取方法、话术评分方法以及话术推荐方法
CN111160017B (zh) * 2019-12-12 2021-09-03 中电金信软件有限公司 关键词抽取方法、话术评分方法以及话术推荐方法
CN111552851A (zh) * 2020-04-24 2020-08-18 浙江每日互动网络科技股份有限公司 类型确定方法及装置、设备和计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN107665221A (zh) 关键词的分类方法和装置
CN103744981B (zh) 一种基于网站内容用于网站自动分类分析的系统
CN102289522B (zh) 一种对于文本智能分类的方法
CN110532451A (zh) 针对政策文本的检索方法和装置、存储介质、电子装置
CN102841946B (zh) 商品数据检索排序及商品推荐方法和系统
CN105095187A (zh) 一种搜索意图识别方法及装置
CN108073568A (zh) 关键词提取方法和装置
CN107301171A (zh) 一种基于情感词典学习的文本情感分析方法和系统
CN106021362A (zh) 查询式的图片特征表示的生成、图片搜索方法和装置
CN106156372B (zh) 一种互联网网站的分类方法及装置
CN110633373A (zh) 一种基于知识图谱和深度学习的汽车舆情分析方法
CN109299258A (zh) 一种舆情事件检测方法、装置及设备
CN107562742A (zh) 一种图像数据处理方法及装置
CN105022754A (zh) 基于社交网络的对象分类方法及装置
CN107437038A (zh) 一种网页篡改的检测方法及装置
CN107895303B (zh) 一种基于ocean模型的个性化推荐的方法
CN110516074A (zh) 一种基于深度学习的网站主题分类方法及装置
CN110990676A (zh) 一种社交媒体热点主题提取方法与系统
CN110222260A (zh) 一种搜索方法、装置及存储介质
CN107491447A (zh) 建立查询改写判别模型、查询改写判别的方法和对应装置
CN107220745A (zh) 一种意图行为数据的识别方法、系统及设备
CN108268470A (zh) 一种基于演化聚类的评论文本分类提取方法
CN108153781A (zh) 提取业务领域的关键词的方法和装置
CN107861945A (zh) 金融数据分析方法、应用服务器及计算机可读存储介质
CN109359198A (zh) 一种文本分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20180206

RJ01 Rejection of invention patent application after publication