CN104199822B

CN104199822B - 一种识别搜索对应的需求分类的方法和系统

Info

Publication number: CN104199822B
Application number: CN201410330444.1A
Authority: CN
Inventors: 杨锦峰; 吴峰
Original assignee: Beijing 58 Information Technology Co Ltd
Current assignee: Beijing 58 Information Technology Co Ltd
Priority date: 2014-07-11
Filing date: 2014-07-11
Publication date: 2018-05-18
Anticipated expiration: 2034-07-11
Also published as: CN104199822A

Abstract

本发明提供了一种识别搜索对应的需求分类的方法和系统。所述方法包括如下步骤：a)对输入的搜索词进行分词操作，得到至少一个关键词；b)提取所述关键词在神经网络语言模型中的模型向量；c)根据所述模型向量计算所述搜索词在多个需求分类下的相关性分数，并生成待识别向量；d)利用分类器对待识别向量进行判断，得到所述搜索词对应的需求分类。根据本发明的搜索识别方法和系统，可以识别用户输入的搜索关键词从而为用户匹配特定的需求分类信息类目，以便在该需求类目下进行针对性的分类信息查找，系统能够准确高效地对搜索需求进行识别。

Description

一种识别搜索对应的需求分类的方法和系统

技术领域

本发明涉及分类信息网站的搜索技术，特别是一种识别分类信息搜索对应的需求分类的方法和系统。

背景技术

搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息，在对信息进行组织和处理后，并将处理后的信息显示给用户，是为用户提供检索服务的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接清单等。随着互联网在全球范围内的迅速发展与成熟，网络上的信息资源不断丰富，信息数据量也在飞速膨胀，通过搜索引擎获取信息已经成为现代人获取信息的主要方式。

在线分类信息网站是基于WEB2.0技术的互联网应用模式，它很好地弥补了传统分类广告的不足。分类信息不仅信息量大，而且信息随时在线，永不丢失。更重要的利用分类搜索，可以保证用户在任何时间、任何地点，都能实现方便快捷的查询。在分类信息网站中，由于需求的导向，分类信息大多集中在房屋租赁、二手转让、求职招聘等直接关系到使用者切身短期利益的领域。当人们满足这类需求时，通常要通过比较多个信息，然后在这些海量信息中筛选出一个能最大程度满足自身需求的信息，再做出购买决策。因此，专门针对于分类信息网站的搜索技术成为影响分类信息网站用户使用体验的关键。

随着分类信息网站搜索引擎技术的发展，用户已经不仅仅满足于从搜索引擎中获取与搜索关键词匹配的内容，而是希望能够获得与自己搜索目的相关的结果。为了向使用者提供与搜索目的相关的搜索结果，就必须先对用户的搜索需求进行识别，才能够根据识别出的需求返回相应资料资源的搜索结果，或者根据识别出的需求对搜索结果进行相应形式的展现。因此对用户的搜索需求进行识别是提高搜索准确性和有效性的重要一环。

现有的分类信息搜索需求识别通常简单的采用匹配预置的大量关键词的方式，或以融合搜索引擎的搜索结果确定所述待识别query的需求类型或类目(分层类目)。采用匹配方法结合词典和范本,需要大量词及人力成本。而采用融合搜索引擎的搜索结果以增加搜索词的特征，会因搜索的排序结果，直接影响效果。

因此，需要一种识别搜索需求的方法和系统，以准确高效地对搜索需求进行识别。

发明内容

本发明的目的是提供一种识别搜索对应的需求分类的方法和系统。

根据本发明的实施例，所述方法包括如下步骤：a)对输入的搜索词进行分词操作，得到至少一个关键词；b)提取所述关键词在神经网络语言模型中的模型向量；c)根据所述模型向量计算所述搜索词在多个需求分类下的相关性分数，并生成待识别向量；d)利用分类器对待识别向量进行判断，得到所述搜索词对应的需求分类。

根据本发明的实施例，所述系统包括：分词模块、向量生成模块，以及分类器模块，所述分词模块对输入的词进行分词操作，得到关键词；所述向量生成模块用于根据所述关键词生成向所述分类器模块输出的待识别向量；所述分类器模块对所述向量生成模块输入的所述待识别向量进行判断，得到所述搜索词对应的需求分类。

根据本发明的分类信息搜索识别方法，通过对搜索词的分词，并利用神经网络语言模型对检索词进行向量化，再利用较少的热词进行相关性计算，实现对搜索的需求类别的识别。根据本发明的搜索识别方法，可以识别用户输入的搜索关键词从而为用户匹配特定的需求分类信息类目，以便在该需求类目下进行针对性的分类信息查找，系统能够准确高效地对搜索需求进行识别。

附图说明

参考随附的附图，本发明更多的目的、功能和优点将通过本发明实施方式的如下描述得以阐明，其中：

图1示意性示出了一种根据本发明实施例的用于识别搜索对应的需求分类的分类器的训练方法流程图。

图2示意性示出了一种根据本发明实施例的用于识别搜索对应的需求分类的方法流程图。

图3示意性示出了一种根据本发明实施例的用于识别搜索对应的需求分类的系统框图。

具体实施方式

通过参考示范性实施例，本发明的目的和功能以及用于实现这些目的和功能的方法将得以阐明。然而，本发明并不受限于以下所公开的示范性实施例；可以通过不同形式来对其加以实现。说明书的实质仅仅是帮助相关领域技术人员综合理解本发明的具体细节。

在下文中，将参考附图描述本发明的实施例。在附图中，相同的附图标记代表相同或类似的部件，或者相同或类似的步骤。

本发明提供了一种更为有效的识别搜索对应的需求分类的方法，利用神经网络语言模型可以在使用数量较少的热点词的情况下获得与搜索相对应的需求分类，同时不会受搜索结果影响。根据本发明的搜索识别方法，可以识别用户输入的搜索关键词，为用户匹配特定的需求分类信息类目，以便在该需求类目下进行针对性的分类信息查找。本发明利用神经网络语言模型将词转变为向量特征，以向量特征计算语义关系。在本发明一实施例中，除了词的向量特征，同时考虑用户搜索点击行为特征和/或用户个性化特征，从而提高了搜索需求识别的准确性。本发明的结果尤其可以应用于搜索分类跳转及搜索排序的领域。

搜索所对应的需求分类可以是各种信息的分类，例如房产分类、汽车分类、旅游分类等。再者，各分类下还可继续细分为多层子分类，以房产分类为例，其可以分为出租房、二手房等，其中出租房又可分为毛坯出租房、精装出租房等。根据本发明的一实施方式，需要先对分类器进行训练。图1示意性示出了一种根据本发明的用于识别搜索对应的需求分类的分类器的训练方法流程图，如图1所示：

步骤110，对所有训练用词进行分词操作，得到至少一个关键词。优选地，在分词操作中，还对训练用词进行停用词的过滤操作。所述停用词例如是在训练用词中不起搜索作用的连词，例如“的”、“和”等，以及各种标点符号。

例如，一个经过分词操作之前的训练用词为：“精装修的电梯房。”，则经过分词操作及过滤停用词操作得到的2个关键词可以为：“精装修”和“电梯房”，其中过滤掉了停用词“的”。

优选地，在对所有训练用词进行分词操作及过滤停用词操作之前，进行对各需求分类的文件进行预处理以过滤低质量文件。其中，低质量文件是包含非法、色情等垃圾内容的文件及词语，更优选地，低质量文件还包括浏览/搜索量小于阈值的文件及词语。

步骤120，利用得到的关键词在神经网络语言模型中获取各关键词的向量。即，每个关键词都在神经网络语言模型中获得一个与关键词对应的向量，即关键词的模型向量。

优选地，利用word2vec、SENNA、HLBL、RNNLM等工具中的任意一个获得关键词在神经网络语言模型中的模型向量。

步骤130，通过计算训练用词的模型向量与各需求分类的热点模型向量之间的距离，分析出训练用词与各需求分类的相关性分数，并生成训练用词的训练向量。

在一实施例中，需求分类下的热点模型向量为热点搜索词的模型向量。某一需求分类下的热点搜索词例如为该需求分类中较具有代表性、被搜索量较高的搜索词。热点搜索词可以为一个或多个。在一实施例中，热点搜索词可以包括至少一个关键词。在该实施例中，获得热点模型向量的方法包括：

对热点搜索词进行分词操作，得到至少一个关键词。在一示例中，所述分词操作中还包括对热点搜索词进行停用词的过滤操作，例如在热点搜索词中不起搜索作用的连词，例如“的”、“和”等。

之后，得到热点搜索词的关键词的模型向量。优选地，利用word2vec、SENNA、HLBL、RNNLM等工具中的任意一个获得关键词在神经网络语言模型中的模型向量。

再将热点搜索词的关键词的模型向量相加，从而获得热点模型向量。在本发明一些实施例中，可将热点搜索词的关键词的模型向量加权相加，获得热点模型向量。

在一实施例中，步骤130包括以下步骤，下面仅对计算某一训练用词与某一需求分类A(例如房产分类)的相关性分数为例进行说明：

a)计算训练用词的模型向量。在本示例中，将某个训练用词中的各关键词的模型向量进行求和。在一实施例中，将训练用词的各关键词的模型向量进行加权求和，例如将各关键词的模型向量分别乘以关键词在某一需求分类A的权重n，然后将各乘积相加，得到代表了某训练用词针对需求分类A的模型向量。

以训练用词“精装修的电梯房。”以及“房产”需求分类为例，假设：该训练用词中的关键词“精装修”的模型向量为v1，关键词“精装修”在房产分类的权重为n1；关键词“电梯房”的模型向量为v2，关键词“电梯房”在房产分类的权重为n2，则训练用词的模型向量v＝v1*n1+v2*n2。特别地，该训练用词的模型向量为仅包括关键词“精装修”以及关键词“电梯房”的所有训练用词(例如“精装修的电梯房”、“精装修电梯房”等)针对“房产”分类的模型向量。

优选地，利用特征选择算法求出各关键词在各需求分类的权重n，特征选择算法例如选自TFIDF、CHI、MI、TermEX等。

b)计算训练用词的模型向量与各需求分类的热点模型向量之间的距离。需求分类下的热点模型向量为热点搜索词的模型向量。某一需求分类下的热点搜索词例如为该需求分类中较具有代表性、被搜索量较高的搜索词。特别地，热点搜索词可以为一个或多个。

优选地，通过以下方式中的任意一种来确定某需求分类A的热点关键词或热点搜索词：1、利用特征选择算法算法计算出与需求分类A相关性最大的关键词或搜索词作为热点关键词或热点搜索词；2、选取在在需求分类A中用户搜索次数最多的关键词或搜索词作为热点关键词或热点搜索词；3、以人工配置的方式设置热点搜索词或热点关键词。

优选地，上述训练用词的模型向量与需求分类的热点模型向量之间的距离可以为余弦相似度、欧式距离等。

根据本发明的又一实施例，除上述在步骤a中先对各关键词的模型向量进行针对某需求分类A的加权操作，然后再求和得出训练用词的模型向量，以计算其与该需求分类A的热点模型向量之间的距离的方法之外，也可以在步骤a中不对各关键词的模型向量进行加权操作，而直接将各关键词的模型向量相加，将结果作为训练用词的模型向量，然后利用该模型向量直接计算与各需求分类的热点向量之间的距离。

c)根据步骤b中得到的距离，分析训练用词与各需求分类的相关性分数。具体地，在所述热点搜索词为一个的情况下，可将该训练用词的模型向量与各需求分类的热点向量的距离直接作为该训练用词与各需求分类的相关性分数。

在一些实施例中，热点向量具有多个，而利用多个上述距离来分析训练用词与每个需求分类的相关性分数的方式可以为以下方式中的任意一种：

1、将多个上述距离的平均值作为相关性分数；

2、将多个上述距离的最大值作为相关性分数；

3、将多个上述距离之和作为相关性分数，特别地，在此方式中，要求各需求分类的热点搜索词的数量相同；

4、将多个上述距离先加权再求和以作为相关性分数，特别地，该权重为热点搜索词在该热点搜索词所属的需求分类的权重，并且，在此方式中，要求各需求分类的热点搜索词的数量相同。优选地，利用特征选择算法计算该权重。

d)将训练用词在各个需求分类的相关性分数汇总，生成训练用词的训练向量。

下方的表1示意性示出了针对训练用词的训练向量的一例。

表1训练用词的训练向量的示意表

如表1所示，该训练用词的训练向量中分别包括了1月份以及8月份的某训练用词(例如“精装修的电梯房。”)与房产分类、旅游分类、招聘分类的相关性分数，以及，该训练用词在房产分类、旅游分类、招聘分类下的点击率(CTR)。其中，预设分类表示该训练用词预先设置的分类，即表示该训练用词应被识别成的类别。在表1所示示例中，该训练用词应被识别为房产类。

在一实施方式中，提取训练用词分类点击历史特征数据(以下，简称为点击特征)，并在生成训练用词的训练向量的过程中对点击特征予以考虑。例如将上述各个需求分类下的训练用词的相关性分数的汇总与点击特征相加，从而得到训练向量。点击特征可以从历史日志中直接提取。更优选地，点击特征可以包括以下内容：

1、各分类的搜索结果数；

2、搜索词在各分类下的点击率(CTR)；

3、搜索词的搜索点击时间；

4、搜索词的用户平均浏览/点击各分类次数；

5、搜索词的用户年龄组别平均浏览/点击各分类次数；

6、搜索词的用户地域；

7、最终点击分类。

在另一实施例中，可以在生成训练用词的训练向量中考虑用户个性化特征，例如将各个需求分类下的训练用词的相关性分数的汇总与用户个性化特征相加，从而得到训练向量。以在后述步骤中训练出针对用户习惯的更智能的分类器。用户个性化特征例如:用户3/7/30天内浏览分类的比例(倾向性)，用户性别，用户年龄段等。

下方的表2示意性示出了某3个用户分别在3天内在房产分类、旅游分类及招聘分类的浏览量的比例的一例。

表2用户个性化特征示意表

步骤140，利用训练用词的训练向量训练分类器。经过训练，分类器能够根据训练用词的训练向量，判断出该训练用词所属的需求分类。优选地，训练分类器的方法可以包括：SVM、MaxEnt、DBN Classifier、AdaBoost、GBDT等。

在一实施例中，利用训练用词的训练向量训练至少一个分类器。例如以如下步骤训练多分类器：首先，以不同的方法训练分类器，该不同的方法可以为上述的SVM、MaxEnt、DBN Classifier、AdaBoost、GBDT等方法中的不同的方法；然后，分别利用经过上述不同方法训练得到的分类器判断出训练用词的训练向量的需求分类；之后，将上述分别判断出的需求分类的结果进行融合，作为分类器对该训练用词的训练向量的需求分类的判断结果。在一实施例中，利用投票方法(Voting)、Boosting算法或加权求和等算法，对上述多个经过不同方法训练的分类器得到的判断结果进行融合；最后将所述判断结果与预期的需求分类进行比较，若判断结果与预设分类不相符，则修正分类器，从而使分类器的判断结果与预设分类相符实现对分类器进行训练。

对于本领域技术人员可以理解的是，本发明公开的上述方法可以适用于训练多个分类器，也可以仅训练单个分类器，以判断出该搜索词所属的需求分类。训练单分类器的方法可以为以下方法中的任意一种：SVM、MaxEnt、DBN Classifier、AdaBoost、GBDT等。

根据本发明另一实施例中，还可以训练体现用户个性化特征的分类器。在一实施例中，可以基于考虑用户个性化特征和/或点击特征的训练用词的训练向量，训练分类器。用户个性化特征例如:用户3/7/30天内浏览分类的比例(倾向性)，用户性别，用户年龄段等。根据本发明另一实施例中，点击特征和/或用户个性化特征未在训练用词的训练向量中体现，而单独作为一项训练向量放入分类器中，得到针对该训练向量的判断结果。之后将根据点击特征和/或用户个性化特征得到的判断结果与基于训练用词的训练向量得到的判断结果相融合，得到分类器最终的判断结果。最后将所述判断结果与预期的需求分类进行比较，若判断结果与预设分类不相符，则修正分类器，从而使分类器的最终判断结果与预设分类相符实现对分类器进行训练。

在一实施例中，在得到需求分类结果后可以针对另一层级的需求分类训练对应该层级的分类器，所述另一层级的需求分类例如为已识别出的需求分类的需求子分类。例如可以针对另一层级的需求分类再次执行上述步骤120，得到关键词在针对该另一层级的需求分类的神经网络语言模型中的模型向量。在另一实施例中，也可继续使用针对原层级的需求分类的神经网络语言模型。之后执行上述步骤130：在得到训练用词的模型向量后，计算训练用词的模型向量与该另一层级的需求分类的热点模型向量之间的距离；分析训练用词与所述另一层级的各需求分类的相关性分数；将训练用词与所述另一层级的各个需求分类的相关性分数汇总，生成一个针对该另一层级的需求分类的该训练向量。表3示意性示出了针对已识别的需求分类(房产类)的需求子分类的训练向量的一例。

表3针对需求子分类的训练向量示意表

如表3所示，该训练向量中分别包括了1月份、3月份以及8月份的某搜索词(例如“精装修的电梯房。”)在房产分类下的“租房”子分类、“二手房”子分类、“写字楼”子分类的相关性分数，以及，该训练用词在租房子分类、二手房子分类、写字楼子分类下的点击率(CTR)。预设分类表示该训练用词预先设置的分类，即表示该训练用词应被识别成的类别。在表3所示示例中，该训练用词应分别被识别为二手房、租房以及二手房。

之后如步骤140，将针对另一层级的需求分类的训练向量放入对应于该另一层级的需求分类的分类器中，对分类器进行训练。如此，例如，对于训练用词“在嘉铭桐城租房”来说，在识别该训练用词的需求分类为“房产”分类之后，还可以利用另一层级的需求分类的分类器进一步识别出其需求分类为“房产”分类中的“租房”子分类，从而使训练出的分类器的识别细度得以提高。

根据本发明的一实施例，当接收到一个搜索词时，可以利用根据本发明一实施例公开的分类器识别出该搜索对应的需求分类。其中，需求分类例如，房产分类、汽车分类、旅游分类等。再者，各分类下还可继续细分为多层子分类，以房产分类为例，其可以分为出租房、二手房等，其中出租房又可分为毛坯出租房、精装出租房等。图2示意性示出了一种根据本发明的识别搜索对应的需求的方法流程图。如图2所示：

步骤210，对搜索词进行分词操作，得到至少一个关键词。优选地，在分词操作中，还对搜索词进行停用词的过滤操作。所述停用词例如是在搜索词中不起搜索作用的连词，例如“的”、“和”等，以及各种标点符号。

优选地，在步骤210之前，还可以对搜索词进行预处理以过滤低质量文件。其中，低质量文件是包含非法、色情等垃圾内容的搜索词。

步骤220，提取关键词在神经网络语言模型中的向量。优选地，利用word2vec、SENNA、HLBL、RNNLM等工具中的任意一个训练神经网络语言模型。所涉及的神经网络语言模型可为训练分类器时所使用的同层次的神经网络语言模型。

步骤230，计算每个搜索词的模型向量分别与各需求分类的热点模型向量之间的距离，分析搜索词在多个需求分类下的相关性分数，并生成待识别向量。包括以下步骤：

a)计算搜索词的模型向量。对于某个搜索词而言，将其中的各关键词的模型向量进行求和。在一实施例中，将搜索词的各关键词的模型向量进行加权求和，例如，将各关键词的模型向量分别乘以关键词在某一需求分类A的权重n，然后相加，得到代表了某搜索词针对需求分类A的模型向量。

优选地，利用特征选择算法求出各关键词在各需求分类的权重n。

b)计算搜索词的模型向量与各需求分类的热点模型向量之间的距离。需求分类的热点模型向量为热点搜索词的模型向量。某一需求分类下的热点搜索词例如为该需求分类中较具有代表性、被搜索量较高的搜索词。特别地，热点搜索词可以为一个或多个。

在一实施例中，热点搜索词包括至少一个关键词。在该实施例中，获得热点模型向量的方法包括：

在一实施例中，通过以下方式中的任意一种来确定某需求分类A的热点关键词或热点搜索词：1、利用特征选择算法计算出与需求分类A相关性最大的关键词或搜索词作为热点关键词或热点搜索词；2、选取在需求分类A中用户搜索次数最多的关键词或搜索词作为热点关键词或热点搜索词；3、以人工配置的方式设置热点搜索词或热点关键词。

优选地，上述搜索词的模型向量与需求分类的热点模型向量之间的距离可以为余弦相似度、欧式距离等。

对于本领域技术人员可以理解的是，虽然在步骤a中先对各关键词的模型向量进行针对某需求分类A的加权操作，然后再求和得出搜索词的模型向量，以计算其与该需求分类A的热点模型向量之间的距离。然而不限于此，也可以在步骤a中不对各关键词的模型向量进行加权操作，而直接将各关键词的模型向量相加，将结果作为搜索词的模型向量，然后利用该模型向量直接计算与各需求分类的热点向量之间的距离。

c)根据步骤b中得到的距离，分析搜索词与各需求分类的相关性分数。具体地，在所述热点搜索词为一个的情况下，可将该搜索词的模型向量与各需求分类的热点向量的距离直接作为该搜索词与各需求分类的相关性分数。

优选地，所述热点向量具有多个，而利用多个上述距离来分析搜索词与每个需求分类的相关性分数的方式可以为以下方式中的任意一种：

1、将多个上述距离的平均值作为相关性分数；

2、将多个上述距离的最大值作为相关性分数；

4、将多个上述距离先加权再求和以作为相关性分数，特别地，该权重为热点搜索词在该热点搜索词所属的需求分类的权重，并且，在此方式中，要求各需求分类的热点搜索词的数量相同。优选地，利用特征选择算法计算该权重。d)将搜索词在各个需求分类的相关性分数汇总，生成待识别向量。

在一实施方式中，生成待识别向量中，除了搜索词在各个需求分类的相关性分数，还考虑搜索词的点击特征。例如将上述各个需求分类下的训练用词的相关性分数的汇总与点击特征相加，从而得到待识别向量。点击特征可以从历史日志中直接提取。更优选地，点击特征可以包括以下内容：

1、各分类的搜索结果数；

2、搜索词在各分类下的点击率(CTR)；

3、搜索词的搜索点击时间；

4、搜索词的用户平均浏览/点击各分类次数；

5、搜索词的用户年龄组别平均浏览/点击各分类次数；

6、搜索词的用户地域。

表4示意性示出了待识别向量的一例。

表4待识别向量的示意表

如表4所示，该待识别向量中分别包括了1月份以及8月份的某搜索词(例如“精装修的电梯房。”)与房产分类、旅游分类、招聘分类的相关性分数，以及，该搜索词在房产分类、旅游分类、招聘分类下的点击率(CTR)。

在另一实施例中，步骤230中，可以在生成待识别向量中考虑用户个性化特征，例如将上述各个需求分类下的搜索词的相关性分数的汇总与用户个性化特征相加，从而得到待识别向量，从而针对用户习惯的需求分类。用户个性化特征例如:用户3/7/30天内浏览分类的比例(倾向性)，用户性别，用户年龄段等。

步骤240，利用分类器对待识别向量进行判断，得出搜索词的需求分类。在一实施例中，分类器可以利用以下方法对搜索词进行需求分类的识别：SVM、MaxEnt、DBNClassifier、AdaBoost、GBDT等。

在一实施例中，在得到需求分类结果后可以针对另一层级的需求分类对搜索进行识别，所述另一层级的需求分类例如为所获得的需求分类的子分类。例如可以针对另一层级的需求分类再次执行上述步骤220，得到关键词在针对该另一层级的需求分类的神经网络语言模型中的模型向量。在另一实施例中，也可继续使用针对原层级的需求分类的神经网络语言模型。之后执行上述步骤230：在得到搜索词的模型向量后，计算搜索词的模型向量与该另一层级的需求分类的热点模型向量之间的距离；分析搜索词与所述另一层级的各需求分类的相关性分数；将搜索词与所述另一层级的各个需求分类的相关性分数汇总，生成一个针对该另一层级的需求分类的该搜索向量。表5示意性示出了针对已识别的需求分类(房产类)的需求子分类的待识别向量的一例。

表5针对需求子分类的待识别向量示意表

如表5所示，该待识别向量中分别包括了1月份、3月份以及8月份的某搜索词(例如“精装修的电梯房。”)在房产分类下的“租房”子分类、“二手房”子分类、“写字楼”子分类的相关性分数，以及，该搜索词在租房子分类、二手房子分类、写字楼子分类下的点击率(CTR)。

之后如步骤240，将针对另一层级的需求分类的待识别向量放入对应于该另一层级的需求分类的分类器中，进行识别。如此，例如对于搜索词“在嘉铭桐城租房”来说，分层分类器不仅可以判断该搜索词的需求分类为“房产”分类，还可以判断出其需求分类为“房产”分类中的“二手房”子分类，从而使识别出的结果识别细度得以提高。

图3示意性示出了根据本发明公开的实施例的识别搜索需求的系统框图，如图3所示：

在该实施例中识别搜索对应的需求分类的系统300包括：分词模块310、向量生成模块320，以及分类器模块330。

分词模块310，其对输入词(可以为训练用词、搜索词、热点搜索词等)进行分词操作以得到至少一个关键词。优选地，所述分词模块310还对输入词进行停用词的过滤操作。所述停用词例如是在搜索词中不起搜索作用的连词，例如“的”、“和”等，以及各种标点符号。其中某一需求分类的热点搜索词为在该需求分类中较具有代表性、被搜索量较高的搜索词。特别地，热点搜索词可以为一个或多个。在一实施例中，通过以下方式中的任意一种来确定某需求分类的热点关键词或热点搜索词：1、利用特征选择算法计算出与需求分类A相关性最大的关键词或搜索词(这里的“相关性”一词是否合适，请确认)作为热点关键词或热点搜索词；2、选取在在需求分类A中用户搜索次数最多的关键词或搜索词作为热点关键词或热点搜索词；3、以人工配置的方式设置热点搜索词或热点关键词。

向量生成模块320，其生成并向分类器模块330输出所述输入词的向量，例如输出搜索词的待识别向量、训练用词的训练向量。在一实施例中，向量生成模块320包括关键词模型向量生成模块321、搜索词模型向量生成模块322、需求相关性计算模块323、生成模块325，在另一实施例中，该系统还包括历史日志数据库324。下面对各模块分别进行说明：

关键词模型向量生成模块321，用于生成分词模块310输入的关键词在神经网络语言模型中的模型向量。本领域技术人员应该了解，关键词模型向量生成模块321也可以设置在向量生成模块320之外，而非局限于包括在向量生成模块320之中。在一实施方式中，利用word2vec、SENNA、HLBL、RNNLM等工具中的任意一个获得关键词在神经网络语言模型中的模型向量。

搜索词模型向量生成模块322，用于根据关键词模型向量生成模块321生成的各关键字的模型向量，生成这些关键字所对应的输入词的模型向量，例如可以生成搜索词的模型向量、生成训练用词的模型向量以及热点模型向量。其中，某一需求分类的热点模型向量为该需求分类下的热点搜索词的模型向量。在一实施例中，搜索词模型向量生成模块322将对应于同一输入词的各关键词的模型向量进行加权求和，例如，将各关键词的模型向量分别乘以关键词在某一需求分类A的权重n，然后相加，得到代表了该输入词针对需求分类A的模型向量。优选地，利用特征选择算法求出各关键词在各需求分类的权重n。

需求相关性计算模块323，用于计算搜索词模型向量生成模块322生成的搜索词或训练用词的模型向量与各需求分类的热点模型向量之间的距离，并分析搜索词或训练用词与各需求分类的相关性分数。

在一实施例中，上述搜索词或训练用词的模型向量与某一需求分类A的热点模型向量之间的距离可以为余弦相似度、欧式距离等。

在需求相关性计算模块323分析搜索词或训练用词与某一需求分类A的相关性分数时，可以有以下两种形式：

形式1：在所述热点搜索词为一个的情况下，可将该搜索词与该热点搜索词的距离直接作为该搜索词与某一需求分类A的相关性分数。

形式2：所述热点搜索词具有多个，而利用多个上述距离来分析搜索词与每个需求分类的相关性分数的方式可以为以下方式中的任意一种：

1、将多个上述距离的平均值作为相关性分数；

2、将多个上述距离的最大值作为相关性分数；

4将多个上述距离先加权再求和以作为相关性分数，特别地，该权重为热点搜索词在该热点搜索词所属的需求分类的权重，并且，在此方式中，要求各需求分类的热点搜索词的数量相同。优选地，利用特征选择算法计算该权重。

向量生成模块320优选还包括历史日志数据库324，其包含搜索词或训练用词的分类点击历史特征数据(以下，简称为点击特征)以及用户个性化特征。

生成模块325，用于将需求相关性计算模块323生成的搜索词或训练用词在各需求分类下的相关性分数生成待识别向量或训练向量。在一实施例中，将上述搜索词或训练用词在各需求分类下的相关性分数，以及，点击特征和/或用户个性化特征，生成待识别向量或训练向量。

分类器模块330，用于对由向量生成模块320输入的待识别向量或训练向量进行需求分类的判断，得到输入词对应的需求分类。分类器模块30包括至少一个分类器331以及分类器训练模块332。在一实施例中，对待识别向量或训练向量进行需求分类识别的方法可以包括：SVM、MaxEnt、DBN Classifier、AdaBoost、GBDT等。

在一实施例中，分类器训练模块332对分类器331进行训练。训练所述分类器的步骤如下：首先，针对同一训练向量以不同的方法训练多个分类器，该不同的方法可以为上述的SVM、MaxEnt、DBN Classifier、AdaBoost、GBDT等方法中的不同的方法；然后，分别利用上述多个以不同方法训练得来的分类器判断出该训练向量的需求分类；之后，将上述多个分类器分别判断出的需求分类的结果进行融合，作为分类器对某搜索词的需求分类的判断结果，在一实施例中，利用投票方法(Voting)、Boosting算法或加权求和等算法，对上述多个以不同方法训练的分类器得到的判断结果进行融合；最后将所述判断结果与该训练用词的预设分类进行比较，若判断结果与预设分类不相符，则修正所述分类器，从而实现对分类器进行训练。

在一实施例中，分类器训练模块332训练体现用户个性化特征的分类器331’。例如基于考虑用户个性化特征和/或点击特征的训练用词的训练向量，训练个性化分类器331’。用户个性化特征例如为:用户3/7/30天内浏览分类的比例(倾向性)，用户性别，用户年龄段等。在另一实施例中，将点击特征和/或用户个性化特征单独作为一项训练向量放入分类器331’中，得到针对该训练向量的判断结果。之后将根据点击特征和/或用户个性化特征得到的判断结果与基于训练用词的训练向量得到的判断结果相融合，得到分类器最终的判断结果，即训练用词的需求分类。若所述判断结果与预期的需求分类不相符，则修正分类器，从而使分类器331’的最终判断结果与预设分类相符，实现对分类器进行训练。

在一实施例中，分类器331为多个层级的分类器，一个层级的分类器对应一个层级的需求分类。其中一个层级的需求分类例如可以为另一个层级的需求分类的子分类。在一实施例中，在训练一个层级的分类器后可对另一个层级的分类器进行训练。例如当一个层级的分类器能够实现较为正确的识别后，可以将针对另一个层级的需求分类的训练向量用于对对应的另一个层级的分类器的识别。其中所述针对另一个层级的需求分类的训练向量可根据一实施例通过下列方式获得：

针对另一层级的需求分类的神经网络语言模型获得已识别的训练用词的关键词的模型向量。在另一实施例中，也可继续使用针对原层级的需求分类的神经网络语言模型。在计算得到训练用词的模型向量后，计算训练用词的模型向量与该另一层级的需求分类的热点模型向量之间的距离；分析训练用词与所述另一层级的各需求分类的相关性分数；将训练用词与所述另一层级的各个需求分类的相关性分数汇总，生成一个针对该另一层级的需求分类的该训练向量。

在分类器331为多个层级的分类器的实施方式中，可在识别出待识别向量的需求分类之后，对该待识别向量进行另一层级的需求分类识别，从而使需求分类的识别细度得以提高。

结合这里披露的本发明的说明和实践，本发明的其他实施例对于本领域技术人员都是易于想到和理解的。说明和实施例仅被认为是示例性的，本发明的真正范围和主旨均由权利要求所限定。

Claims

1.一种识别搜索对应的需求分类的方法，所述方法包括如下步骤：

a)对输入的搜索词进行分词操作，得到至少一个关键词；

b)提取所述关键词在神经网络语言模型中的模型向量；

c)根据所述模型向量计算所述搜索词在多个需求分类下的相关性分数，并生成待识别向量；所述待识别向量的生成包括以下步骤：

c1)根据所述关键词的模型向量计算所述搜索词的模型向量；其中，将所述关键词的模型向量分别乘以所述关键词在各需求分类的权重，然后将这些乘积相加，计算所述搜索词的模型向量；

c2)计算所述搜索词的模型向量与各个所述需求分类下的各热点模型向量之间的距离；其中，所述热点模型向量为所述各需求分类下的热点词在所述神经网络语言模型中的模型向量；

c3)根据所述距离分析所述搜索词与所述各需求分类的相关性分数；其中利用所述距离分析所述搜索词与所述各需求分类的相关性分数的方式选自以下方式中的任意一种：

方式1：将所述距离的平均值作为所述相关性分数；

方式2：将所述距离的最大值作为所述相关性分数；

方式3：将所述距离之和作为所述相关性分数；

方式4：将所述距离先加权再求和以作为所述相关性分数；

方式5；当所述热点词为一个时，所述搜索词的模型向量与各个所述需求分类下的各热点模型向量之间的距离直接作为所述搜索词与所述各需求分类的相关性分数；

c4)将所述搜索词与所述各需求分类的相关性分数汇总，并将所述各需求分类的相关性分数汇总与点击特征和/或用户个性化特征相加，生成待识别向量；

d)利用分类器对待识别向量进行判断，得到所述搜索词对应的需求分类，所述分类器的训练方法包括以下步骤：

d1)以不同的算法训练分类器，所述不同的方法选自SVM、MaxEnt、DBN Classifier、AdaBoost、GBDT；

d2)分别利用由所述不同算法训练的分类器判断出所述搜索词的需求分类；

d3)将所述分类器分别判断出的所述需求分类的结果进行融合，作为分类器对所述搜索词的需求分类的判断结果；

d4)将所述判断结果与预期的需求分类相比较，若所述判断结果与预期的需求分类不相符，则修正所述分类器。

2.根据权利要求1所述的方法，其特征在于，确定所述各需求分类下的所述热点词的方式选自下列任意一种：

方式1：利用特征选择算法分别计算出与各需求分类相关性最大的关键词或搜索词作为所述热点词；

方式2：选取在所述各需求分类中用户搜索次数最多的关键词或搜索词作为所述热点词；

方式3：以人工配置的方式设置所述热点词。

3.根据权利要求1所述的方法，其特征在于，所述距离为余弦相似度或欧式距离。

4.根据权利要求1所述的方法，其特征在于，所述点击特征包括以下特征数据中的至少一个：各个所述需求分类的搜索结果数、所述搜索词在所述各需求分类下的点击率、所述搜索词的搜索点击时间、点击各个所述需求分类的次数/所述搜索词的用户搜索次数、点击各个需求分类的次数/所述搜索词的用户年龄组别搜索次数、所述搜索词的用户地域。

5.根据权利要求1所述的方法，其特征在于，进行所述融合的算法选自Voting算法、Boosting算法或加权求和算法其中任意一种。

6.根据权利要求1所述的方法，其特征在于，在步骤d之前还包括，提取用户个性化特征，所述待识别向量的生成还考虑所述用户个性化特征。

7.根据权利要求1所述的方法，其特征在于，在得到所述搜索词的需求分类之后对所述搜索词在该需求分类的子类下进行识别。

8.一种识别搜索对应的需求分类的系统，所述系统包括：分词模块、向量生成模块，以及分类器模块，

所述分词模块对输入的词进行分词操作，得到关键词；

所述向量生成模块包括关键词模型向量生成模块、搜索词模型向量生成模块、需求相关性计算模块，以及生成模块，其中，

所述关键词模型向量生成模块用于获取神经网络语言模型中所述关键词的模型向量；

所述搜索词模型向量生成模块将所述搜索词中的各个所述关键词的模型向量分别乘以所述关键词在所述需求分类的权重，然后将这些乘积相加，计算出在所述需求分类下的所述搜索词的模型向量；

所述需求相关性计算模块用于计算所述搜索词的模型向量与多个需求分类的热点模型向量之间的距离，并分析得到所述搜索词与各个所述需求分类的相关性分数；其中利用所述距离分析所述搜索词与所述各需求分类的相关性分数的方式选自以下方式中的任意一种：

方式1：将所述距离的平均值作为所述相关性分数；

方式2：将所述距离的最大值作为所述相关性分数；

方式3：将所述距离之和作为所述相关性分数；

方式4：将所述距离先加权再求和以作为所述相关性分数；

所述生成模块用于将由所述需求相关性计算模块分析得出的所述搜索词与各个所述需求分类的相关性分数，将各需求分类的相关性分数汇总与点击特征和/或用户个性化特征相加，生成待识别向量；所述分类器模块对所述向量生成模块输入的所述待识别向量进行判断，得到所述搜索词对应的需求分类。

9.根据权利要求8所述的系统，其特征在于，所述距离为余弦相似度或欧式距离。

10.根据权利要求8所述的系统，其特征在于，所述分类器模块包括至少一个分类器以及分类器训练模块，所述分类器训练模块用于对所述分类器进行训练。

11.根据权利要求8所述的系统，其特征在于，所述分类器为多个层级的分类器，其中一个层级的分类器对应一个层级的需求分类。

12.根据权利要求8所述的系统，其特征在于，所述向量生成模块还包括历史日志数据库，所述历史日志数据库包含点击特征和/或用户个性化特征。