CN108021605A

CN108021605A - 一种关键词分类方法和装置

Info

Publication number: CN108021605A
Application number: CN201711035198.7A
Authority: CN
Inventors: 倪嘉呈; 吴健君
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2017-10-30
Filing date: 2017-10-30
Publication date: 2018-05-11

Abstract

本发明实施例提供了一种关键词分类方法和装置，具体包括根据待分类关键词，查找人工配置的哈希词典，如果命中，则输出分类结果；如果不能命中，则进一步根据待分类关键词查找人工配置的多模匹配词典，如果命中，则输出分类结果；如果还不能命中，则进一步将待分类关键词进行切词处理，得到待分类关键词的文本特征；将文本特征输入预设的文本分类模型，得到每个分类的概率，将概率最高的分类作为分类结果输出。本申请的技术方案将人工配置和机器学习模型结合对关键词进行分类，从而在保持机器学习模型泛化能力的同时避免错误分类的出现，进而能够较好地解决目前的分类方法在出现分类错误时无法纠正的问题。

Description

一种关键词分类方法和装置

技术领域

本发明涉及网络搜索技术领域，特别是涉及一种关键词分了方法和装置。

背景技术

关键词源于英文"keywords"，特指单个媒体在制作使用索引时，所用到的词汇，是图书馆学中的词汇。关键词搜索是网络搜索索引主要方法之一，就是希望访问者了解的产品、服务和公司等的具体名称用语。在网络搜索中为了能够为用户提供更好的搜索服务，需要对关键词进行详尽的分析，而关键词分类是关键词分析中的重要问题。

本申请的发明人在实施本申请中的技术方案时发现，目前常用的分类方法主要有朴素贝叶斯、logistic回归、支持向量机等，通过预先标注的训练数据集训练得到机器学习模型，并用得到的机器学习模型对待分类关键词进行分类，但是，这种模式下对于具体的分类错误很难通过修正模型的来进行纠正。

发明内容

有鉴于此，本发明提供了一种关键词分类方法和装置，以解决目前的分类方法在出现分类错误时无法纠正的问题。

为了解决上述问题，本发明公开了一种关键词分类方法，具体包括步骤：

根据待分类关键词从人工配置的哈希词典进行查找，如果命中，则输出分类结果；

如果不能命中，则进一步根据所述待分类关键词查找人工配置的多模匹配词典，如果命中，则输出分类结果；

如果还不能命中，则进一步将所述待分类关键词进行切词处理，得到所述待分类关键词的文本特征；

将所述文本特征输入预设的文本分类模型，得到每个分类的概率，将概率最高的分类作为分类结果输出。

可选的，所述根据所述待分类关键词查找人工配置的多模匹配词典，如果命中，则输出分类结果，包括：

根据所述待分类关键词从所述多模匹配词典中进行查找；

如果存在与所述待分类关键词匹配的字符串，则取最长的字符串对应的分类结果予以输出。

可选的，所述文本分类模型通过如下训练步骤得到：

对预先获取的标注训练集中的分类样本的文本做切词处理，得到多个文本词条；

对所述文本词条进行二元特征组合和三元特征组合，得到所述文本的文本特征；

将所述文本特征和所述分类样本的分类标签用Softmax分类器进行训练，得到所述文本分类模型。

可选的，所述标注训练集的获取步骤包括：

响应用户的业务分析或人工标识，获取分类体系和样本；

根据所述分类体系对样本进行处理，得到分类样本，所有分类样本构成所述标注训练集。

相应的，为了保证上述方法的实施，本发明还提供了一种关键词分类装置，具体包括：

第一匹配模块，用于根据待分类关键词从人工配置的哈希词典进行查找，如果命中，则输出分类结果；

第二匹配模块，用于当所述第一匹配模块不能命中时，进一步根据所述待分类关键词查找人工配置的多模匹配词典，如果命中，则输出分类结果；

切词处理模块，用于如果第二匹配不能命中时，进一步将所述待分类关键词进行切词处理，得到所述待分类关键词的文本特征；

第三匹配模块，用于将所述文本特征输入预设的文本分类模型，得到每个分类的概率，将概率最高的分类作为分类结果输出。

可选的，所述第二匹配模块包括：

分类查找单元，用于根据所述待分类关键词从所述多模匹配词典中进行查找；

分类输出单元，用于如果存在与所述待分类关键词匹配的字符串，则取最长的字符串对应的分类结果予以输出。

可选的，还包括：

模型训练模块，用于训练所述文本分类模型的。

可选的，所述模型训练模块包括：

文本切词单元，用于对预先获取的标注训练集中的分类样本的文本做切词处理，得到多个文本词条；

特征组合单元，用于对所述文本词条进行二元特征组合和三元特征组合，得到所述文本的文本特征；

训练处理单元，用于将所述文本特征和所述分类样本的分类标签用Softmax分类器进行训练，得到所述文本分类模型。

可选的，所述模型训练模块还包括：

训练集获取单元，用于响应用户的业务分析或人工标识，获取分类体系和样本；并根据所述分类体系对样本进行处理，得到分类样本，所有分类样本构成所述标注训练集。

从上述技术方案可以看出，本发明提供了一种关键词分类方法和装置，具体包括根据待分类关键词，查找人工配置的哈希词典，如果命中，则输出分类结果；如果不能命中，则进一步根据待分类关键词查找人工配置的多模匹配词典，如果命中，则输出分类结果；如果还不能命中，则进一步将待分类关键词进行切词处理，得到待分类关键词的文本特征；将文本特征输入预设的文本分类模型，得到每个分类的概率，将概率最高的分类作为分类结果输出。本申请的技术方案将人工配置和机器学习模型结合对关键词进行分类，从而在保持机器学习模型泛化能力的同时避免错误分类的出现，进而能够较好地解决目前的分类方法在出现分类错误时无法纠正的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种关键词分类方法实施例的步骤流程图；

图2为本发明提供的一种关键词分类装置实施例的结构框图；

图3为本发明提供的另一种关键词分类装置的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

图1为本发明提供的一种关键词分类方法实施例的步骤流程图。

参照图1所示，本实施例提供的关键词分类方法应用于搜索引擎，用于对待分类关键词进行分类处理，并输出分类结果，以便能够对关键词进行分析，该关键词分类方法包括如下步骤：

S101：根据待分类关键词查找人工配置的哈希词典。

在需要对关键词进行分类时，根据待分类关键词从人工配置的哈希词典中进行查找，如果能够命中分类结果，则输出该分类结果，并结束分类。这里的哈希词典在词句计算机处理中又叫字典(dictionary)，其中包含有多个哈希表，哈希表中有自动生成或人工标注的哈希值，以便进行匹配查找。人工配置的哈希词典是指其中部分或全部哈希值是经过人工配置的，这样可以克服机器自动配置的僵化或错误。

S102：根据待分类关键词查找人工配置的多模匹配词典。

这里是指如果从人工配置的哈希词典中无法查找到相匹配的分类结果时，进一步从人工配置的多模匹配词典中进行查找。多模匹配词典是指基于解决多模匹配问题得到的字典，该字典中包括有多个元素，以便能够与待分类关键词进行匹配。具体的多模匹配是指在一个字符串中寻找多个模式字符字串的问题。该算法广泛应用于关键字过滤、入侵检测、病毒检测、分词等等问题中。多模问题一般有Trie树，AC算法，WM算法等等。具体过程如下：

首先根据待分类关键词从多模匹配词典中进行查找；

然后，如果能够查找到与待分类关键词的文本相匹配的字符串，因为这里的字符串为多个且长短不一，因此，将所匹配的字符串中最长的字符串相对应的分类结果予以输出。输出结果的同时结束查找。因为最长的字符串所属分类最为具体，即最长的字符串所属的分类最能反映关键词的的分类，因此选最长的字符串所属的分类作为分类结果。

S103：对待分类关键词进行切词处理。

即如果通过多模匹配词典的查找依然无法得到分类结果的，则进一步将待分类关键词的文本进行切词处理，并将切词得到的切词结果query->t₁,..t_m,进行二元特征组合与三元特征组合，并结合切词结果，得到得分类关键词的文本特征{<[t₁,…,t_m,t₁t₂,…,t_m- ₁t_m,t₁t₂t₃,…,t_m-2t_m-1t_m],label>}。

S104：将文本特征输入到文本分类模型，得到分类结果。

在得到待分类关键词的文本特征后，将该文本特征输入到预先训练好的文本分类模型进行计算，从而得到每个分类的概率，然后将概率最高的分类予以输出，从而得分类结果。

从上述技术方案可以看出，本实施例提供了一种关键词分类方法，具体包括根据待分类关键词，查找人工配置的哈希词典，如果命中，则输出分类结果；如果不能命中，则进一步根据待分类关键词查找人工配置的多模匹配词典，如果命中，则输出分类结果；如果还不能命中，则进一步将待分类关键词进行切词处理，得到待分类关键词的文本特征；将文本特征输入预设的文本分类模型，得到每个分类的概率，将概率最高的分类作为分类结果输出。本申请的技术方案将人工配置和机器学习模型结合对关键词进行分类，从而在保持机器学习模型泛化能力的同时避免错误分类的出现，进而能够较好地解决目前的分类方法在出现分类错误时无法纠正的问题。

本实施例中的文本分类模型通过如下步骤训练得到：

首先，对预先获取的标注训练集中的分类样本进行切词处理，其中，分类样本{<query,label>}，其中query为文本，label为分类标签，这里的切词是对文本query进行切词处理，得到文本的多个文本词条；

然后，对文本词条进行二元特征组合和三元特征组合，得到文本的文本特征。所谓二元特征组合是指将文本的多个文本词条中任选两个进行两两组合，从而得到文本特征；三亚特征组合与上述概念相同，即从中任选三个文本词条进行多次组合，从而得到文本特征。相对于二元特征组合来说，三元特征组合所能得到的文本特征更能反映实际特征，但计算量相对较大。

最后，将文本特征和分类样本的分类标签用Softmax分类器进行训练，从而得到该文本分类模型。

还有，前面提到的标注训练集通过如下步骤获取：

首先，响应用户的请求，具体包括业务分析请求或人工标识请求，并根据上述请求获取分类体系和样本；

然后，根据上述分类体系对样本进行处理，从而得到分类样本，所有分类样本就构成上述标注训练集。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

实施例二

图2为本发明提供的一种关键词分类装置实施例的结构框图。

参照图2所示，本实施例提供的关键词分类装置应用于搜索引擎，用于对待分类关键词进行分类处理，并输出分类结果，以便能够对关键词进行分析，该关键词分类装置具体包括第一匹配模块10、第二匹配模块20、切词处理模块30和第三匹配模块40。

第一匹配模块用于根据待分类关键词查找人工配置的哈希词典。

在需要对关键词进行分类时，根据待分类关键词从人工配置的哈希词典中进行查找，如果能够命中分类结果，则输出该分类结果，并结束分类。

第二匹配模块用于根据待分类关键词查找人工配置的多模匹配词典。

这里是指如果从人工配置的哈希词典中无法查找到相匹配的分类结果时，进一步从人工配置的多模匹配词典中进行查找。该模块包括分类查找单元和分类输出单元。

分类查找单元用于根据待分类关键词从多模匹配词典中进行查找；

分类输出单元在该分类查找单元能够查找到与待分类关键词的文本相匹配的字符串时，因为这里的字符串为多个且长短不一，因此，将所匹配的字符串中最长的字符串相对应的分类结果予以输出。输出结果的同时结束查找。

切词处理模块用于对待分类关键词进行切词处理。

第三匹配模块用于将文本特征输入到文本分类模型，得到分类结果。

从上述技术方案可以看出，本实施例提供了一种关键词分类装置，具体包括根据待分类关键词，查找人工配置的哈希词典，如果命中，则输出分类结果；如果不能命中，则进一步根据待分类关键词查找人工配置的多模匹配词典，如果命中，则输出分类结果；如果还不能命中，则进一步将待分类关键词进行切词处理，得到待分类关键词的文本特征；将文本特征输入预设的文本分类模型，得到每个分类的概率，将概率最高的分类作为分类结果输出。本申请的技术方案将人工配置和机器学习模型结合对关键词进行分类，从而在保持机器学习模型泛化能力的同时避免错误分类的出现，进而能够较好地解决目前的分类方法在出现分类错误时无法纠正的问题。

另外，本实施例提供的关键词分类装置还可以包括模型训练模块50，如图3所示，该模型训练模块用于得到文本分类模型。该模块具体包括文本切词单元、特征组合单元和训练处理单元。

文本切词单元用于对预先获取的标注训练集中的分类样本进行切词处理，其中，分类样本{<query,label>}，其中query为文本，label为分类标签，这里的切词是对文本query进行切词处理，得到文本的多个文本词条；

特征组合单元用于对文本词条进行二元特征组合和三元特征组合，得到文本的文本特征。

训练处理单元用于将文本特征和分类样本的分类标签用Softmax分类器进行训练，从而得到该文本分类模型。

还有，该模型训练模块还包括训练集获取单元，该单元用于响应用户的业务分析或人工标识，获取分类体系和样本；并根据上述分类体系对样本进行处理，从而得到分类样本，所有分类样本就构成上述标注训练集。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的技术方案进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种关键词分类方法，其特征在于，具体包括：

2.如权利要求1所述的关键词分类方法，其特征在于，所述根据所述待分类关键词查找人工配置的多模匹配词典，如果命中，则输出分类结果，包括：

根据所述待分类关键词从所述多模匹配词典中进行查找；

3.如权利要求1所述的关键词分类方法，其特征在于，所述文本分类模型通过如下训练步骤得到：

4.如权利要求3所述的关键词分类方法，其特征在于，所述标注训练集的获取步骤包括：

响应用户的业务分析或人工标识，获取分类体系和样本；

5.一种关键词分类装置，其特征在于，具体包括：

6.如权利要求5所述的关键词分类装置，其特征在于，所述第二匹配模块包括：

7.如权利要求5所述的关键词分类装置，其特征在于，还包括：

模型训练模块，用于训练所述文本分类模型的。

8.如权利要求7所述的关键词分类装置，其特征在于，所述模型训练模块包括：

9.如权利要求7所述的关键词分类装置，其特征在于，所述模型训练模块还包括：