CN108241650B - 训练分类标准的训练方法和装置 - Google Patents

训练分类标准的训练方法和装置 Download PDF

Info

Publication number
CN108241650B
CN108241650B CN201611209307.8A CN201611209307A CN108241650B CN 108241650 B CN108241650 B CN 108241650B CN 201611209307 A CN201611209307 A CN 201611209307A CN 108241650 B CN108241650 B CN 108241650B
Authority
CN
China
Prior art keywords
classification
training
keyword set
unlabeled
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611209307.8A
Other languages
English (en)
Other versions
CN108241650A (zh
Inventor
王天祎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201611209307.8A priority Critical patent/CN108241650B/zh
Publication of CN108241650A publication Critical patent/CN108241650A/zh
Application granted granted Critical
Publication of CN108241650B publication Critical patent/CN108241650B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Abstract

本发明公开了一种训练分类标准的训练方法及装置。其中,该方法包括:采用有标注关键词集和未标注关键词集进行多次相互训练的方法得到训练分类标准,与现有技术相比,采用了词向量集合有标注和未标注的关键词共同对分类算法进行分类训练,使得经交叉分类训练得到的训练分类标准,更加准确。从而解决了现有技术中存在的分类准确度不高的问题,提高了现有技术中分类的准确度和鲁棒性。

Description

训练分类标准的训练方法和装置
技术领域
本发明涉及语言处理领域,具体而言,涉及训练分类标准的训练方法和装置。
背景技术
在互联网时代,每天都有大量网民通过点击搜索引擎营销(Search EngineMarketing)广告访问网站,完成转化或购买行为。SEM业务人员需要对账户里的关键词不断地调整,使类别、含义相同或相近的关键词分配在相同的推广单元内。这样既能使不同类别、含义的关键词在投放时发挥最大作用,又方便账户结构的管理。
由于关键词经常一词多义,或者有一些衍生的同义词。如挂壁电视、彩电都表示同一类型电视实体,iPhone、苹果手机、6s plus,甚至网络流行的“肾六”等产品词都表示同一手机实体。虽然这些词字面不同,但表达相同的类别,应该被分配到同一推广单元。
传统办法只能靠人工整理词根库,通过关键词的词根包含关系来确定关键词的类别。不仅需要耗费相当大的人力和时间去整理行业词根并且因为行业丰富,词根不能穷举,人工并不能想到所有的词根。而且通过包含关键词确定的类别的鲁棒性也不强,如“洗衣机罩”这个词并不属于“洗衣机”类别,却被划分到“洗衣机”的类别。而要克服这种问题,需要设定非常多的逻辑规则来规避。
目前针对于上述问题,现有技术先将关键词向量化,再结合一种机器学习分类算法完成分类可以取得比较好的效果。
词向量(Word2Vec)模型是一种序列化学习模型,是被广泛应用于自然语言处理(Nature Language Processing)等领域的一种通用的技术。通过语料库(由很多文本句子组成的文本文件)的训练,它可以将语料库的中的每一个词序列化成一个由若干维度实数值组成的向量,所有词生成的向量空间记为Ω。在学术界,每个词的实数值向量被认为表征该词在众多句子成分中出现的位置关系。如在某电商语料中,词“Apple”和词“苹果手机”在不同句子中总是有类似的上下文,那么在该词向量(Word2Vec)模型中,词“Apple”和词“苹果手机”在向量空间Ω中的距离就是相近的,也就是在某种向量相似度度量下相近,也即词“Apple”和词“苹果手机”就被认为是相似或相近的。
也就是说,词向量模型可以把字面不同,但语义相同或相似的词映射成向量空间Ω中距离相近的向量。如图1所示,犬类和小狗很相近,猫和喵喵很相近,分类时,犬类和小狗会分到一类,猫和喵喵会分到另一类,不需要人工去总结和整理词根,仅需要判断那些待分类的关键词,与账户里哪些已分类、有标注分类的关键词,在向量空间Ω中在某种相似度度量下更相似即可。
但是现有技术中利用上述词向量(Word2Vec)模型将关键词向量化后的分类的准确度不高,一些词语虽然很接近却有不同的含义,虽然不属于同一类,却因为较为接近而被分到了同一类中,比如肾6和肾药,针对于该问题尚未提出有效的解决方案。
发明内容
本发明提供了一种训练分类标准的训练方法和装置,解决现有技术中分类准确度不高的问题,以提高现有技术中分类的准确度和鲁棒性。
根据本实施例的一个方面,提供了一种训练分类标准的训练方法,包括:一种训练分类标准的训练方法,其特征在于,包括:获取关键词集,其中,所述关键词集包括:有标注关键词集和未标注关键词集,所述有标注关键词集由目标词集中的已标注的关键词及其标注构成,所述未标注关键词集由所述目标词集中的未标注的关键词构成;预处理所述关键词集中的所有所述关键词,并对预处理后的所述关键词集中的每个所述关键词进行向量化处理,获取向量化后的有标注关键词集和未标注关键词集;利用不同的分类算法对所述向量化后的有标注关键词集和未标注关键词集进行多次分类训练,得到所述未标注关键词集的每种所述分类算法的最终训练分类标准。
进一步地,,利用不同的分类算法对所述向量化后的有标注关键词集和未标注关键词集进行多次分类训练,得到所述未标注关键词集的每种所述分类算法的最终训练分类标准包括:利用第一种分类算法和第二种分类算法分别对所述向量化后的有标注关键词集进行多次分类训练,得到每种所述分类算法的训练分类标准;从所述向量化后的未标注关键词集中选取出部分向量化后的未标注关键词构成部分子集,并利用所述第一种分类算法的训练分类标准对所述部分子集进行分类训练,通过所述分类训练更新所述第一种分类算法的训练分类标准;从所述部分子集中筛选出最符合更新后的所述第一种分类算法的训练分类标准的所述向量化后的未标注关键词作为部分样本,并对所述部分样本进行标注;将标注后的所述部分样本利用第二种分类算法的训练分类标准进行分类训练,通过所述分类训练更新所述第二种分类算法的训练分类标准;对调分类算法并从向量化的未标注关键词集中重新选取所述部分子集进行分类训练,得到每种分类算法对于未标注关键词集的最终训练分类标准。
进一步地,对调分类算法并从向量化的未标注关键词集中重新选取所述部分子集进行训练,得到每种分类算法对于未标注关键词集的最终训练分类标准包括:将所述第二种分类算法作为新的第一种分类算法,将所述第一种分类算法作为新的第二种分类算法;返回从所述向量化后的未标注关键词集中选取出部分向量化后的未标注关键词构成部分子集,并利用所述第一种分类算法的训练分类标准对所述部分子集进行分类训练,通过所述分类训练更新所述第一种分类算法的训练分类标准的步骤,反复从所述向量化后的未标注关键词集中选取所述部分子集进行对调分类算法的分类训练,直至满足预设限定条件;将最后一次更新后的每种所述分类算法的训练分类标准作为所述未标注关键词集的每种所述分类算法的最终训练分类标准。
进一步地,所述限定条件为预设定的步长。
进一步地,从所述部分子集中筛选出最符合更新后的所述第一种分类算法的训练分类标准的所述向量化后的未标注关键词作为部分样本包括:根据第一种分类算法的训练分类标准以及设定阈值,从所述部分子集中选取分类正确性置信度最高的所述向量化后的未标注关键词作为部分样本,其中所述分类正确性置信度是概率。
进一步地,得到每种分类算法对于未标注关键词集的最终训练分类标准之后还包括:利用所述向量化后的有标注关键词集交叉验证每种所述分类算法的最终训练分类标准,从中选取分类效果最佳的作为最佳训练分类标准。
进一步地,利用所述最佳训练分类标准对所述向量化的未标注关键词集进行分类训练,获得所述未标注关键词集中未标注的关键词对应的标注,并将更新标注后的目标词集的数据上传至数据库。
进一步地,所述预处理包括切词操作、去停用词操作和/或去标点操作。
进一步地,所述对预处理后的所述关键词集中的每个关键词进行向量化处理包括:利用词向量模型将所述预处理后的关键词集中的所述每个关键词映射成一个固定长度的实数值向量;把所述每个关键词的所有映射的实数值向量加和取平均,得到所述每个关键词的向量表示。
根据本实施例的另一方面,提供了一种训练分类标准的训练装置。根据本发明的训练分类标准的训练装置包括:获取单元,用于获取关键词集,其中,所述关键词集包括:有标注关键词集和未标注关键词集,所述有标注关键词集由目标词集中的已标注的关键词及其标注构成,所述未标注关键词集由所述目标词集中的未标注的关键词构成;处理单元,用于预处理所述关键词集中的所有所述关键词,并对预处理后的所述关键词集中的每个所述关键词进行向量化处理,获取向量化后的有标注关键词集和未标注关键词集;训练单元,用于利用不同的分类算法对所述向量化后的有标注关键词集和未标注关键词集进行多次分类训练,得到所述未标注关键词集的每种所述分类算法的最终训练分类标准。
进一步地,训练单元包括:第一训练子单元,用于对向量化后的有标注关键词集利用分类算法进行多次分类训练得到每种分类算法的训练分类标准;第二训练子单元,用于从向量化的未标注关键词集中选取部分子集,利用一种分类算法的训练分类标准对部分子集进行分类训练,选取最符合训练分类标准的部分样本进行标注;第三训练子单元,用于将标注后的部分样本利用另一种分类算法的训练分类标准进行分类训练;第四训练子单元,用于对调分类算法并从向量化的未标注关键词集中重新选取部分子集进行训练,得到每种分类算法对于未标注关键词集的最终训练分类标准。
进一步地,处理单元包括:预处理子单元,用于对有标注关键词集和未标注关键词集中的关键词进行预处理,预处理包括切词操作、去停用词操作和/或去标点操作;向量化子单元,用于对预处理后的关键词集中的每个关键词进行向量化。
进一步地,处理单元包括:映射子单元,用于利用词向量模型将预处理后的关键词集中的每个关键词映射成一个固定长度的实数值向量;计算子单元,用于把每个关键词的所有映射的实数值向量加和取平均,得到每个关键词的向量表示。
进一步地,第二训练子单元包括:第一选择模块,用于根据第一种分类算法的训练分类标准,设定阈值选取分类正确性置信度最高的部分样本,分类正确性置信度是概率。
进一步地,第四训练子单元包括:第二选择模块,用于反复选取部分子集进行对调分类算法训练直到满足限定条件,得到每种分类算法对于未标注关键词集的最终训练分类标准。
进一步地,第四训练子单元还包括:验证模块,用于利用向量化后的有标注关键词集交叉验证选择最终训练分类标准中的最佳训练分类标准。
进一步地:验证模块包括:预测子模块,用于利用最佳训练分类标准对向量化的未标注关键词集进行分类训练,获得所述未标注关键词集中未标注的关键词对应的标注,并将更新标注后的目标词集的数据上传至数据库。
根据实施例,采用了获取关键词集,其中,关键词集包括:有标注关键词集和未标注关键词集,有标注关键词集由目标词集中的已标注的关键词和标注构成,未标注关键词集由目标词集中的未标注的关键词构成;利用预训练好的词向量模型对预处理后的关键词集中的每个关键词进行向量化;对向量化后的有标注关键词集和未标注关键词集利用分类算法进行多次分类训练得到训练分类标准。通过本发明解决了现有技术中的分类准确度不高的问题,提高了现有技术中分类的准确度和鲁棒性。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明的词向量示意图;
图2是根据本发明实施例的训练分类标准的训练方法流程图;
图3是根据本发明实施例的训练分类标准的训练方法具体流程图;
图4是根据本发明实施例的训练分类标准的训练装置示意图;
图5是根据本发明实施例的训练分类标准时对调分类算法的流程图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例提供了一种训练分类标准的训练方法。图2是根据本发明实施例的一种训练分类标准的训练方法的流程图。如图2所示,该方法包括步骤如下:
步骤S102,获取关键词集,其中,关键词集包括:有标注关键词集和未标注关键词集,有标注关键词集由目标词集中的已标注的关键词及其标注构成,未标注关键词集由目标词集中的未标注的关键词构成;
步骤S104,预处理关键词集中的所有关键词,并对预处理后的关键词集中的每个关键词进行向量化处理,获取向量化后的有标注关键词集和未标注关键词集;
步骤S106,利用不同的分类算法对向量化后的有标注关键词集和未标注关键词集进行多次分类训练,得到未标注关键词集的每种分类算法的最终训练分类标准。
在上述步骤,采用有标注关键词集和未标注关键词集进行多次相互训练的方法得到训练分类标准,与现有技术相比,本实施例采用了词向量集合有标注和未标注的关键词共同对分类算法进行训练,使得训练得到的训练分类标准,更加准确。从而解决了现有技术中存在的分类准确度不高的问题,提高了现有技术中分类的准确度和鲁棒性。
上述步骤S106利用不同的分类算法对向量化后的有标注关键词集和未标注关键词集进行多次分类训练,在一个可选的实施方式中,具体包括:
步骤S202,利用分类算法对向量化后的有标注关键词集进行多次分类训练得到每种分类算法的训练分类标准;此处,多次分类训练优选进行两次分类训练,每次分类训练可以采用相同的分类算法,也可以采用不相同的分类算法,优选不相同的分类算法。当然,也可以选择三种以上的分类算法交叉进行分类训练。
该步骤是为了利用有标注的关键词集训练每种分类算法的训练分类标准,例如,如果采用的两种分类算法是支持向量机和朴素贝叶斯,则将有标注关键词集中的关键词代入到支持向量机算法中进行运算,得到支持向量机算法对于有标注关键词集中的每个关键词进行分类运算时的规则(训练分类标准),即为训练完成。同理,将有标注关键词集中的关键词代入到朴素贝叶斯算法中进行运算,得到朴素贝叶斯算法对于有标注关键词集中的每个关键词进行分类运算时的规则,即为训练完成。训练完成时,支持向量机算法中将关键词进行分类的运算标准已经改变,变为由有标注关键词集训练后的支持向量机算法的训练分类标准;朴素贝叶斯算法中将关键词进行分类的运算标准也已改变,变为由有标注关键词集训练后的朴素贝叶斯算法的训练分类标准。
步骤S2041,从向量化后的未标注关键词集中选取出部分向量化后的未标注关键词构成部分子集,并利用第一种分类算法的训练分类标准对部分子集进行分类训练,通过分类训练更新第一种分类算法的训练分类标准;
步骤S2042,从部分子集中筛选出最符合更新后的第一种分类算法的训练分类标准的向量化后的未标注关键词作为部分样本,并对部分样本进行标注;
上述步骤中,部分子集是未标注关键词集中任意一些关键词的集合,该集合的大小可以根据需要选取,可以通过步长限制,也就是该步骤执行的次数,在限定步长的情况下,每一次选取的部分子集可以包含相同的关键词,也可以包含完全不相同的关键词,每一次选取的部分子集可以是完全不相同的,也可以有部分重叠。再利用步骤S202中训练后得到的某一种分类算法的训练分类标准对选取的部分子集进行分类训练,也就是将部分子集中的关键词代入到训练S202中得到的某一种训练后的分类算法中,对该部分子集进行训练。
例如,随机选取部分子集S,利用M1算法对S进行分类,根据分类置信度,设定阈值选取分类正确性置信度最高的样本若干,将这部分样本根据模型M1的训练分类标准进行标注。该步骤的目的是利用M1算法模型训练未标注关键词集中的一部分关键词(也就是部分子集),再从这一部分关键词中选出比较符合M1算法模型的几个关键词(也就是部分样本),把这几个关键词作为暂时符合标准的关键词,也就是暂时确定分类位置的关键词,所以将这几个关键词进行一下标注。
上述步骤中,选取最符合训练分类标准的部分样本进行标注时,所选取的标准在一个可选的实施方式中,包括根据第一种分类算法的训练分类标准,设定阈值选取分类正确性置信度最高的部分样本,分类正确性置信度是概率。
例如,在朴素贝叶斯算法模型中,设置阈值为一个大于某个概率的值,从部分子集中寻找大于该概率的值的范围内的所有向量化的未标注的关键词作为置信度最高的部分样本,也就是在大于该概率的值的范围内的样本作为最接近所要分到类别的样本。
在支持向量机算法模型中,寻找待分类别就是寻找与几个类别距离最远的一条分割线,而设置阈值为远离分割线某个类别的点的分布概率,小于某个概率的值时作为阈值,小于某个概率时证明在该位置处,这些点随着概率的值的减少,分布在分割线两边的点也越来越少,也就是越来越接近分割线,而分割线就是最终的分类,小于某个概率的值的范围内的样本即为最接近所要分到类别的样本。
通过上述分类正确性置信度的筛选,可以增加分类的准确性。
步骤S206,再将标注后的部分样本利用另一种分类算法的训练分类标准进行分类训练;优选将标注后的部分样本利用第二种分类算法的训练分类标准进行分类训练,通过分类训练更新第二种分类算法的训练分类标准;该步骤中另外一种分类算法是有别于步骤S204中采用的分类算法,比如步骤S204中采用M1算法模型,此处就采用M2算法模型,此步骤的目的是将上一步骤S204中那些暂时做了标注的关键词,也即暂时找到分类的关键词,重新利用M2算法模型进行分类训练,以更新M2算法模型的训练分类标准,也就是M2从M1算法模型的分类中学习到了M1的特点,此时得到的M2算法模型的训练分类标准综合了M1算法模型和M2算法模型的训练类别的特点。
步骤S208,对调分类算法并从向量化的未标注关键词集中重新选取部分子集进行分类训练,得到每种分类算法对于未标注关键词集的最终训练分类标准。对该步骤中对调分类算法进行举例说明:在该步骤中重复步骤S204,但是将步骤S204中M1换成M2算法模型,然后执行步骤S204,也就是从向量化的未标注关键词集中重新选取部分子集使用M2算法模型进行训练。
此处的M2算法模型中的训练分类标准与步骤S204时的M2算法模型不相同,此处的M2算法模型中的训练分类标准是步骤S206中,已经通过训练从M1算法模型的分类中学习到了M1的特点的M2算法模型的训练分类标准,这是因为不论是M1算法模型还是M2算法模型每经过一次训练均会更新一次训练分类标准。下面举例对该步骤进行全面说明,随机选取部分子集S’,利用M2算法对S’进行分类训练,根据分类置信度,设定阈值选取分类正确性置信度最高的样本若干,将这部分样本根据模型M2的分类训练标准进行标注。再将暂时做了标注的关键词重新用M1算法模型训练,重新得到M1算法模型的训练分类标准,也就是M1又从M2算法模型的分类中学习到了M2的分类特点。通过上述步骤,让两种分类算法相互学习,相互改变训练分类标准,从而使得训练分类标准更加准确。
图5是根据本发明实施例的训练分类标准时对调分类算法的流程图,上述步骤S208另一种可选的实施方式为:如图中步骤S2081,判断是否满足预设条件,如果没有满足预设条件,如图中步骤S2082,则将第二种分类算法作为新的第一种分类算法,将第一种分类算法作为新的第二种分类算法;返回从向量化后的未标注关键词集中选取出部分向量化后的未标注关键词构成部分子集,并利用第一种分类算法的训练分类标准对部分子集进行分类训练,通过分类训练更新第一种分类算法的训练分类标准的步骤,反复从向量化后的未标注关键词集中选取部分子集进行对调分类算法的分类训练,直至满足预设限定条件;如图中步骤S2083,将最后一次更新后的每种分类算法的训练分类标准作为未标注关键词集的每种分类算法的最终训练分类标准。
由于在搜索引擎营销时所截获的关键词可能是语句,也可能带有标点等各种符号,也可能是短语,或者是比较长的词,所以在对关键词进行向量化前需要对关键词进行预处理,在一个可选的实施例中,具体包括:
对有标注关键词集和未标注关键词集中的关键词进行预处理,预处理包括切词操作、去停用词操作和/或去标点操作;
对预处理后的关键词集中的每个关键词进行向量化。
上述步骤对从网络上所截获的关键词进行分类分为有标注关键词和未标注关键词,无论有无标注均进行预处理,如果关键词就是简单词不存在标点符号等,可以不进行预处理,或者只对需要的进行预处理。
通过上述步骤中对关键词进行预处理的过程保证了关键词均为简单词,在后续向量化的步骤中以及训练中,能够更加准确的定位到关键词,并增强关联性,使得在后续的分类训练中的关键词的分类更为准确,增加鲁棒性。
在使用关键词对分类算法模型进行训练前,需要将关键词进行向量化,在一个可选的实施方式中为:利用词向量模型将预处理后的关键词集中的每个关键词映射成一个固定长度的实数值向量;把每个关键词的所有映射的实数值向量加和取平均,得到每个关键词的向量表示。
通过上述步骤将关键词转化为向量,从而便于在分类算法模型中进行运算分类。
上述步骤S102到S208中,反复对调分类算法并从向量化的未标注关键词集中重新选取部分子集进行训练,该过程的限制在一个可选的实施方式中,反复选取部分子集进行对调分类算法训练直到满足限定条件,限定条件为预设定的步长。
当满足步长时,结束对调,此时,两种分类算法均为已经经过训练改变过的分类算法模型,有各自对应的训练分类标准,加入的算法模型是y=f(x),则该训练分类标准就是运算规则f。
可以通过设定步长等循环结束的条件,控制分类算法模型的训练程度与训练时间。
在经过反复训练两种分类算法模型的训练分类标准后,需要进行验证,验证哪种分类算法模型的训练分类标准更能准确的将截获的关键词中未标注的关键词进行分类,在一个可选的实施方式中,验证的方法是利用向量化后的有标注关键词集交叉验证选择几种最终的训练分类标准中分类效果最佳的作为最佳训练分类标准。
通过使用已标注的关键词集进行验证,得到了分类更为准确的分类标准。
在一个可选的实施方式中,本实施例利用最佳训练分类标准对向量化的未标注关键词集进行分类训练,获得未标注关键词集中未标注的关键词对应的标注,并将更新标注后的目标词集的数据上传至数据库。
通过上述步骤,使得关键词得到了准确的分类标准,同时有很强的鲁棒性。
下面结合一个可选的实施例进行说明。
图3是根据本发明实施例的训练分类标准的训练方法的具体流程图,作为可选的实施方式,如图3所示,一个训练分类标准的训练方法具体过程可以如下:
当网民使用关键词进行搜索时,搜索引擎截获大量关键词,这些关键词被放于关键词数据库,然后可以将关键词数据库中的关键词进行比对,比对截获的关键词和关键词库中已有的关键词,将所截获关键词中在关键词数据库里已有的关键词作为有标注关键词,获取其在关键词数据库中的标注标签,所截获的关键词中在关键词库中没有的关键词是没有对应标注标签的,这部分关键词就是待标注的关键词,也就是待分类、待与其他有标注关键词建立联系的关键词。将有标注的关键词和没有标注的关键词都进行预处理后,利用词向量模型对预处理后的关键词进行向量化,使用向量化后的有标注的关键词集(有标注向量集)分别训练分类模型M1和分类模型M2,再从无标注的关键词集(无标注向量集)中随机采样,利用所采样本训练分类模型M1,再从被分类模型M1训练后的样本中再采样交给分类模型M2进行训练,将分类模型M2与M1交换再进行上述训练过程,反复训练分类模型M1与M2。
结合两种不同侧重点的模型的优点,使两种模型M1与M2取长补短,每次利用一个模型最置信的样本去迭代训练另外一个模型,相互学习,共同进步。
图4是根据本实施例的一种训练分类标准的训练装置的示意图。如图4所示,一种训练分类标准的训练装置包括:
获取单元42,用于获取关键词集,其中,关键词集包括:有标注关键词集和未标注关键词集,有标注关键词集由目标词集中的已标注的关键词及其标注构成,未标注关键词集由目标词集中的未标注的关键词构成;
处理单元44,用于预处理关键词集中的所有关键词,并对预处理后的关键词集中的每个关键词进行向量化处理,获取向量化后的有标注关键词集和未标注关键词集;
训练单元46,用于利用不同的分类算法对向量化后的有标注关键词集和未标注关键词集进行多次分类训练,得到未标注关键词集的每种分类算法的最终训练分类标准。
在一个可选的实施方式中,训练单元包括:
第一训练子单元,用于利用第一种分类算法和第二种分类算法分别对向量化后的有标注关键词集进行多次分类训练,得到每种分类算法的训练分类标准;
第二训练子单元,用于从向量化后的未标注关键词集中选取出部分向量化后的未标注关键词构成部分子集,并利用第一种分类算法的训练分类标准对部分子集进行分类训练,通过分类训练更新第一种分类算法的训练分类标准;从部分子集中筛选出最符合更新后的第一种分类算法的训练分类标准的向量化后的未标注关键词作为部分样本,并对部分样本进行标注;
第三训练子单元,用于将标注后的部分样本利用第二种分类算法的训练分类标准进行分类训练,通过分类训练更新第二种分类算法的训练分类标准;
第四训练子单元,用于对调分类算法并从向量化的未标注关键词集中重新选取部分子集进行训练,得到每种分类算法对于未标注关键词集的最终训练分类标准。
在一个可选的实施方式中,处理单元包括:
预处理子单元,用于对有标注关键词集和未标注关键词集中的关键词进行预处理,预处理包括切词操作、去停用词操作和/或去标点操作;
向量化子单元,用于对预处理后的关键词集中的每个关键词进行向量化。
在一个可选的实施方式中,处理单元包括:
映射子单元,用于利用词向量模型将预处理后的关键词集中的每个关键词映射成一个固定长度的实数值向量;
计算子单元,用于把每个关键词的所有映射的实数值向量加和取平均,得到每个关键词的向量表示。
在一个可选的实施方式中,第二训练子单元包括:
第一选择模块,用于根据第一种分类算法的训练分类标准,设定阈值选取分类正确性置信度最高的部分样本,分类正确性置信度是概率。
在一个可选的实施方式中,第四训练子单元包括:
第二选择模块,用于反复选取部分子集进行对调分类算法训练直到满足限定条件,得到每种分类算法对于未标注关键词集的最终训练分类标准。
在一个可选的实施方式中,第四训练子单元还包括:
验证模块,用于利用向量化后的有标注关键词集交叉验证选择最终训练分类标准中最佳训练分类标准。
在一个可选的实施方式中,验证模块包括:预测子模块,用于利用最佳训练分类标准对向量化的未标注关键词集进行分类训练,获得未标注关键词集中未标注的关键词对应的标注,并将更新标注后的目标词集的数据上传至数据库。
上述一种分类标准的训练装置实施例是与一种分类标准的训练方法相对应的,所以对于有益效果不再赘述。通过上述实施例的分析描述,相对于现有技术来说,上述实施例中的部分可选实施方式有以下技术上的效果:
本实施例,通过将文本的关键词映射成高维度稠密的向量,进而提升了对SEM账户关键词分类的鲁棒性,避免了传统办法耗费的人力和时间成本,使分类自动化进行。同时充分利用了训练数据中的有标注数据,以及无标注数据,提高了分类模型的准确度和鲁棒性。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、移动终端、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种训练分类标准的训练方法,其特征在于,包括:
获取关键词集,其中,所述关键词集包括:有标注关键词集和未标注关键词集,所述有标注关键词集由目标词集中的已标注的关键词及其标注构成,所述未标注关键词集由所述目标词集中的未标注的关键词构成;
预处理所述关键词集中的所有所述关键词,并对预处理后的所述关键词集中的每个所述关键词进行向量化处理,获取向量化后的有标注关键词集和未标注关键词集;
利用不同的分类算法对所述向量化后的有标注关键词集和未标注关键词集进行多次分类训练,得到所述未标注关键词集的每种所述分类算法的最终训练分类标准;
其中,利用不同的分类算法对所述向量化后的有标注关键词集和未标注关键词集进行多次分类训练,得到所述未标注关键词集的每种所述分类算法的最终训练分类标准包括:
利用第一种分类算法和第二种分类算法分别对所述向量化后的有标注关键词集进行多次分类训练,得到每种所述分类算法的训练分类标准;
从所述向量化后的未标注关键词集中选取出部分向量化后的未标注关键词构成部分子集,并利用所述第一种分类算法的训练分类标准对所述部分子集进行分类训练,通过所述分类训练更新所述第一种分类算法的训练分类标准;
从所述部分子集中筛选出最符合更新后的所述第一种分类算法的训练分类标准的所述向量化后的未标注关键词作为部分样本,并对所述部分样本进行标注;
将标注后的所述部分样本利用第二种分类算法的训练分类标准进行分类训练,通过所述分类训练更新所述第二种分类算法的训练分类标准;
对调分类算法并从向量化的未标注关键词集中重新选取所述部分子集进行分类训练,得到每种分类算法对于未标注关键词集的最终训练分类标准。
2.根据权利要求1所述的方法,其特征在于,对调分类算法并从向量化的未标注关键词集中重新选取所述部分子集进行训练,得到每种分类算法对于未标注关键词集的最终训练分类标准包括:
将所述第二种分类算法作为新的第一种分类算法,将所述第一种分类算法作为新的第二种分类算法;
返回从所述向量化后的未标注关键词集中选取出部分向量化后的未标注关键词构成部分子集,并利用所述第一种分类算法的训练分类标准对所述部分子集进行分类训练,通过所述分类训练更新所述第一种分类算法的训练分类标准的步骤,反复从所述向量化后的未标注关键词集中选取所述部分子集进行对调分类算法的分类训练,直至满足预设限定条件;
将最后一次更新后的每种所述分类算法的训练分类标准作为所述未标注关键词集的每种所述分类算法的最终训练分类标准。
3.根据权利要求2所述的方法,其特征在于,所述预设限定条件为预设定的步长。
4.根据权利要求1所述的方法,其特征在于,从所述部分子集中筛选出最符合更新后的所述第一种分类算法的训练分类标准的所述向量化后的未标注关键词作为部分样本包括:
根据第一种分类算法的训练分类标准以及设定阈值,从所述部分子集中选取分类正确性置信度最高的所述向量化后的未标注关键词作为部分样本,其中所述分类正确性置信度是概率。
5.根据权利要求1或2所述的方法,其特征在于,得到每种分类算法对于未标注关键词集的最终训练分类标准之后还包括:
利用所述向量化后的有标注关键词集交叉验证每种所述分类算法的最终训练分类标准,从中选取分类效果最佳的作为最佳训练分类标准。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:利用所述最佳训练分类标准对所述向量化的未标注关键词集进行分类训练,获得所述未标注关键词集中未标注的关键词对应的标注,并将更新标注后的目标词集的数据上传至数据库。
7.根据权利要求1所述的方法,其特征在于,所述预处理包括切词操作、去停用词操作和/或去标点操作。
8.根据权利要求1所述的方法,其特征在于,所述对预处理后的所述关键词集中的每个关键词进行向量化处理包括:
利用词向量模型将所述预处理后的关键词集中的所述每个关键词映射成一个固定长度的实数值向量;
把所述每个关键词的所有映射的实数值向量加和取平均,得到所述每个关键词的向量表示。
9.一种训练分类标准的训练装置,其特征在于,包括:
获取单元,用于获取关键词集,其中,所述关键词集包括:有标注关键词集和未标注关键词集,所述有标注关键词集由目标词集中的已标注的关键词及其标注构成,所述未标注关键词集由所述目标词集中的未标注的关键词构成;
处理单元,用于预处理所述关键词集中的所有所述关键词,并对预处理后的所述关键词集中的每个所述关键词进行向量化处理,获取向量化后的有标注关键词集和未标注关键词集;
训练单元,用于利用不同的分类算法对所述向量化后的有标注关键词集和未标注关键词集进行多次分类训练,得到所述未标注关键词集的每种所述分类算法的最终训练分类标准;
其中,所述训练单元包括:
第一训练子单元,用于利用第一种分类算法和第二种分类算法分别对所述向量化后的有标注关键词集进行多次分类训练,得到每种所述分类算法的训练分类标准;
第二训练子单元,用于从所述向量化后的未标注关键词集中选取出部分向量化后的未标注关键词构成部分子集,并利用所述第一种分类算法的训练分类标准对所述部分子集进行分类训练,通过所述分类训练更新所述第一种分类算法的训练分类标准;从所述部分子集中筛选出最符合更新后的所述第一种分类算法的训练分类标准的所述向量化后的未标注关键词作为部分样本,并对所述部分样本进行标注;
第三训练子单元,用于将标注后的所述部分样本利用第二种分类算法的训练分类标准进行分类训练,通过所述分类训练更新所述第二种分类算法的训练分类标准;
第四训练子单元,用于对调分类算法并从向量化的未标注关键词集中重新选取所述部分子集进行分类训练,得到每种分类算法对于未标注关键词集的最终训练分类标准。
CN201611209307.8A 2016-12-23 2016-12-23 训练分类标准的训练方法和装置 Active CN108241650B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611209307.8A CN108241650B (zh) 2016-12-23 2016-12-23 训练分类标准的训练方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611209307.8A CN108241650B (zh) 2016-12-23 2016-12-23 训练分类标准的训练方法和装置

Publications (2)

Publication Number Publication Date
CN108241650A CN108241650A (zh) 2018-07-03
CN108241650B true CN108241650B (zh) 2020-08-11

Family

ID=62704385

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611209307.8A Active CN108241650B (zh) 2016-12-23 2016-12-23 训练分类标准的训练方法和装置

Country Status (1)

Country Link
CN (1) CN108241650B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487811B (zh) * 2020-10-21 2021-07-06 上海旻浦科技有限公司 基于强化学习的级联信息提取系统及方法
CN113240113A (zh) * 2021-06-04 2021-08-10 北京富通东方科技有限公司 一种增强网络预测鲁棒性的方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102637172A (zh) * 2011-02-10 2012-08-15 北京百度网讯科技有限公司 网页分块标注方法与系统
CN103020249A (zh) * 2012-12-19 2013-04-03 苏州大学 分类器的构建方法及装置、中文文本情感分类方法及系统
CN104050240A (zh) * 2014-05-26 2014-09-17 北京奇虎科技有限公司 一种确定搜索查询词类别属性的方法和装置
CN104142912A (zh) * 2013-05-07 2014-11-12 百度在线网络技术(北京)有限公司 一种精确的语料类别标注方法及装置
CN105205043A (zh) * 2015-08-26 2015-12-30 苏州大学张家港工业技术研究院 一种新闻读者情绪的分类方法与系统
CN105912625A (zh) * 2016-04-07 2016-08-31 北京大学 一种面向链接数据的实体分类方法和系统
CN105930411A (zh) * 2016-04-18 2016-09-07 苏州大学 一种分类器训练方法、分类器和情感分类系统
CN105975573A (zh) * 2016-05-04 2016-09-28 北京广利核系统工程有限公司 一种基于knn的文本分类方法
CN106021223A (zh) * 2016-05-09 2016-10-12 Tcl集团股份有限公司 一种句子相似度的计算方法及系统
CN106202177A (zh) * 2016-06-27 2016-12-07 腾讯科技(深圳)有限公司 一种文本分类方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9195908B2 (en) * 2013-05-22 2015-11-24 Xerox Corporation Snow classifier context window reduction using class t-scores and mean differences
CN104361010A (zh) * 2014-10-11 2015-02-18 北京中搜网络技术股份有限公司 一种纠正新闻分类的自动分类方法
WO2016061252A1 (en) * 2014-10-14 2016-04-21 The University Of North Carolina At Chapel Hill Methods and compositions for prognostic and/or diagnostic subtyping of pancreatic cancer

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102637172A (zh) * 2011-02-10 2012-08-15 北京百度网讯科技有限公司 网页分块标注方法与系统
CN103020249A (zh) * 2012-12-19 2013-04-03 苏州大学 分类器的构建方法及装置、中文文本情感分类方法及系统
CN104142912A (zh) * 2013-05-07 2014-11-12 百度在线网络技术(北京)有限公司 一种精确的语料类别标注方法及装置
CN104050240A (zh) * 2014-05-26 2014-09-17 北京奇虎科技有限公司 一种确定搜索查询词类别属性的方法和装置
CN105205043A (zh) * 2015-08-26 2015-12-30 苏州大学张家港工业技术研究院 一种新闻读者情绪的分类方法与系统
CN105912625A (zh) * 2016-04-07 2016-08-31 北京大学 一种面向链接数据的实体分类方法和系统
CN105930411A (zh) * 2016-04-18 2016-09-07 苏州大学 一种分类器训练方法、分类器和情感分类系统
CN105975573A (zh) * 2016-05-04 2016-09-28 北京广利核系统工程有限公司 一种基于knn的文本分类方法
CN106021223A (zh) * 2016-05-09 2016-10-12 Tcl集团股份有限公司 一种句子相似度的计算方法及系统
CN106202177A (zh) * 2016-06-27 2016-12-07 腾讯科技(深圳)有限公司 一种文本分类方法及装置

Also Published As

Publication number Publication date
CN108241650A (zh) 2018-07-03

Similar Documents

Publication Publication Date Title
CN110502621B (zh) 问答方法、问答装置、计算机设备及存储介质
CN108959431B (zh) 标签自动生成方法、系统、计算机可读存储介质及设备
CN108121700B (zh) 一种关键词提取方法、装置及电子设备
CN107463658B (zh) 文本分类方法及装置
CN111639171A (zh) 一种知识图谱问答方法及装置
CN108304373B (zh) 语义词典的构建方法、装置、存储介质和电子装置
CN104199833B (zh) 一种网络搜索词的聚类方法和聚类装置
CN111078837B (zh) 智能问答信息处理方法、电子设备及计算机可读存储介质
CN106815252A (zh) 一种搜索方法和设备
CN104199965A (zh) 一种语义信息检索方法
CN103823857B (zh) 基于自然语言处理的空间信息检索方法
CN105843799B (zh) 一种基于多源异构信息图模型的学术论文标签推荐方法
CN110321549B (zh) 基于序列化学习、关系挖掘、时序分析的新概念挖掘方法
US20200364216A1 (en) Method, apparatus and storage medium for updating model parameter
CN111078832A (zh) 一种智能客服的辅助应答方法及系统
CN106874397B (zh) 一种面向物联网设备的自动语义标注方法
CN111191031A (zh) 一种基于WordNet和IDF的非结构化文本的实体关系分类方法
CN114444507A (zh) 基于水环境知识图谱增强关系的上下文参数中文实体预测方法
CN110674301A (zh) 一种情感倾向预测方法、装置、系统及存储介质
CN111563097A (zh) 一种无监督式的题目聚合方法、装置、电子设备及存储介质
CN115146062A (zh) 融合专家推荐与文本聚类的智能事件分析方法和系统
CN110969005B (zh) 一种确定实体语料之间的相似性的方法及装置
CN108241650B (zh) 训练分类标准的训练方法和装置
CN114995903A (zh) 一种基于预训练语言模型的类别标签识别方法及装置
CN107122378B (zh) 对象处理方法、装置及移动终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant