CN107301195B

CN107301195B - 生成用于搜索内容的分类模型方法、装置和数据处理系统

Info

Publication number: CN107301195B
Application number: CN201611090113.0A
Authority: CN
Inventors: 张伟德; 王俊晴; 刘博聪; 朱伟铖
Original assignee: Baidu USA LLC
Current assignee: Baidu USA LLC
Priority date: 2016-04-14
Filing date: 2016-11-30
Publication date: 2020-12-11
Anticipated expiration: 2036-11-30
Also published as: CN107301195A; US20170300533A1

Abstract

根据一个实施方案，收集一组预定查询，其中所述预定查询中的每一个均与预定类别(例如，网站的特定医疗类别或特定类型)相关联。对于所述预定查询中的每一个，使用与所述预定类别对应的注释词典来注释所述预定查询。基于所述预定查询的注释，从所述预定查询提取一个或多个特征。基于所述预定查询以及与所述预定查询相关联的特征来训练和生成与所述预定类别对应的分类模型。利用所述分类模型对用户进行分类以进行信息检索。

Description

生成用于搜索内容的分类模型方法、装置和数据处理系统

技术领域

本发明的实施方案总体涉及搜索内容。更特别地，本发明的实施方案涉及训练和创建分类模型并使用其对用户进行分类以进行医疗信息检索。

背景技术

大多数搜索引擎通常在其操作期间执行从运行于客户端装置上的浏览器来搜索网页。搜索引擎接收由用户输入的搜索词，并检索与所述搜索词相关联的网页搜索结果列表。搜索引擎基于某些准则将搜索结果显示为搜索列表的一系列子集。在搜索操作期间使用的一般准则是搜索词是完整地还是部分地出现在给定网页上、搜索字串出现在搜索结果中的次数、字母次序等。此外，用户可以通过点击鼠标按钮来决定打开链接以打开并浏览。可由搜索引擎来监控和收集用户与搜索结果的一些互动和/或用户信息，以随后提供更好的搜索。

通常，响应于搜索查询，执行搜索以识别和检索内容项目列表。接着将内容项目传回到搜索请求方。根据搜索引擎的质量，转向用户的内容项目可能是或可能不是用户实际想要的内容项目。为了向用户提供更好的内容服务，重要的是要知道或预测出用户想要什么，特别是在搜索医疗信息的领域中。对医学搜索查询的语义理解对于下面的检索系统来说是重要的。常规的搜索检索系统仅使用令牌化查询来匹配关键字，这未反映出搜索查询的真实意图。用户的医疗查询可反映出用户在医疗阶段的不同方面对获得答复的兴趣。缺乏用于确定用户的查询意图的有效方式。

发明内容

本申请的目的在于提供一种生成用于搜索内容的分类模型的计算机实施方法、装置和数据处理系统，以及一种用于搜索内容的计算机实施方法。

根据一个方面，一种生成用于搜索内容的分类模型的计算机实施方法可包括：接收一组预定查询，所述预定查询中的每一个与预定类别相关联；对于所述预定查询中的每一个：使用与所述预定类别对应的注释词典来注释所述预定查询，以及基于所述预定查询的注释，从所述预定查询提取一个或多个特征；以及基于所述预定查询以及与所述预定查询相关联的特征来训练和生成与所述预定类别对应的分类模型，其中利用所述分类模型对用户进行分类以进行信息检索。

根据另一个方面，一种生成用于搜索内容的分类模型的装置可包括：接收装置，接收一组预定查询，所述预定查询中的每一个与预定类别相关联；注释装置，使用与所述预定类别对应的注释词典来注释所述预定查询中的每一个；提取装置，基于所述预定查询中每一个的注释从所述预定查询中的每一个提取一个或多个特征；以及训练和生成装置，基于所述预定查询以及与所述预定查询相关联的特征来训练和生成与所述预定类别对应的分类模型，其中利用所述分类模型对用户进行分类以进行信息检索。

根据又一个方面，一种数据处理系统可包括根据本申请实施方案的生成用于搜索内容的分类模型的装置。

根据再一个方面，一种用于搜索内容的计算机实施方法可包括：从用户的客户端装置接收第一搜索查询，所述第一搜索查询具有一个或多个关键字；响应于所述第一搜索查询，使用多个注释词典来注释所述第一搜索查询的关键字，每个注释词典与多个类别中的一个对应；从所述第一搜索查询的经注释的关键字提取特征；由对所提取的特征应用多个分类模型来对所述用户进行分类；基于所述用户的分类在内容数据库中执行搜索以检索包含一个或多个内容项目的列表；以及将所述包含一个或多个内容项目的列表传送到所述客户端装置。

附图说明

本发明的实施方案在附图的各图中以举例而非限制的方式示出，附图中的相同参考数字指示类似元件。

图1A和图1B是示出根据本发明一些实施方案的用于搜索图像的系统配置的示例的框图。

图2是示出根据本发明一个实施方案的用户分类模型训练系统的示例的框图。

图3是示出根据本发明一个实施方案的训练分类模型的处理流程的图。

图4是示出根据本发明一个实施方案的用于注释和特征提取的过程的图。

图5是示出根据本发明一个实施方案的内容搜索系统的框图。

图6是示出根据本发明一个实施方案的使用分类模型搜索内容的处理流程的图。

图7是示出根据本发明一个实施方案的训练分类模型的过程的流程图。

图8是示出根据本发明一个实施方案的使用分类模型对用户进行分类的过程的流程图。

图9是示出根据一个实施方案的数据处理系统的框图。

具体实施方式

以下将参考所讨论的细节来描述本发明的各种实施方案和方面，附图将示出所述各种实施方案。以下描述和附图是对本发明的说明，而不应当解释为限制本发明。描述了许多特定细节以便提供对本发明各种实施方案的全面理解。然而，在某些示例中，并未描述众所周知的或常规的细节以便提供对本发明实施方案的简洁讨论。

本说明书中对“一个实施方案”或“一实施方案”的提及意味着结合该实施方案所描述的特定特征、结构或特性可包括在本发明的至少一个实施方案中。短语“在一个实施方案中”在本说明书中各个地方的出现不必全部是指同一实施方案。

根据一些实施方案，提供了一种用户分类系统(例如，医疗查询意图分类)以将医疗搜索查询分类成用户类别，其可用于导出用户意图。用户类别或意图可以用作医疗实践阶段的细粒度类别，其中查询答复映射到所述细粒度类别。分类系统利用离线的已知数据集来训练分类模型以将查询分类成预定类别(例如，意图类别)集。为预定类别，例如医疗信息检索领域、治疗、疾病、症状等构建注释词典集。基于从与预定类别相关联的网站爬获的数据构建注释词典。在训练期间，根据已知的搜索查询确定特征，其表示某些特征的存在。用于查询的特征至少包括字的n元语法、预定类别(例如，医疗类别)和相对令牌位置信息。因此，将每个查询转换成用于训练的特征集。

根据本发明的一个方面，收集预定查询集，其中预定查询中的每一个均与预定类别(例如，网站的特定医疗类别或特定类型)相关联。对于预定查询中的每一个而言，使用与预定类别相应的注释词典注释预定查询。基于预定查询的注释从预定查询提取一个或多个特征。基于预定查询以及与预定查询相关联的特征训练和生成与预定类别相应的分类模型。利用分类模型对用户进行分类以进行信息检索。

根据本发明的另一个方面，从用户的客户端装置接收第一搜索查询，所述第一搜索查询具有一个或多个关键字。响应于第一搜索查询，使用预定注释词典集注释搜索查询的关键字。每个注释词典与预定类别中的一个相对应。从第一搜索查询的所述注释的关键字提取特征。由对所述提取的特征应用一个或多个分类模型来对用户进行分类。基于用户的分类在内容数据库中执行搜索以检索一个或多个内容项目列表。将所述一个或多个内容项目列表传送到客户端装置。

图1A和图1B是示出根据本发明一些实施方案的用于搜索图像的系统配置的示例的框图。参考图1A，系统100包括但不限于通过网络103通信地联接到服务器104的一个或多个客户端装置101-102。客户端装置101-102可以是任何类型的客户端装置，诸如，个人计算机(例如，台式计算机、膝上型计算机和平板计算机)、“薄”客户端、个人数字助理(PDA)、支持网络的器具、智能手表或移动电话(例如，智能手机)等。网络103可以是任何类型的网络，诸如有线或无线的局域网(LAN)、诸如互联网的广域网(WAN)或其组合。

服务器104可以是任何类型的服务器或服务器集群，诸如网络或云服务器、应用服务器、后端服务器或其组合。在一个实施方案中，服务器104包括但不限于搜索引擎120、用户分类模块或系统110和用户分类模型115。服务器104还包括允许客户端(诸如，客户端装置101-102)存取由服务器104提供的资源或服务的接口(未示出)。所述接口可包括网络接口、应用编程接口(API)和/或命令行接口(CLI)。

例如，客户端(在这个示例中为客户端装置101的用户应用(例如，网络浏览器、移动应用))可向服务器104发送搜索查询，且由搜索引擎120通过网络103经由接口来接收所述搜索查询。响应于搜索查询，搜索引擎120从搜索查询提取一个或多个关键字(也称为搜索词)。搜索引擎120在内容数据库133中执行搜索以识别与关键字有关的内容项目列表，所述内容数据库可包括主要内容数据库130和/或辅助内容数据库131。主要内容数据库130(也称为主内容数据库)可以是一般内容数据库，而辅助内容数据库131(也称为二级内容数据库)可以是特殊内容数据库。搜索引擎120向客户端装置101传回具有列表中的至少一些内容项目的搜索结果页面，以在其中呈现。搜索引擎120可以是获自百度公司的

搜索引擎，或可替代地，搜索引擎120可表示

搜索引擎、Microsoft Bing^TM搜索引擎、

搜索引擎或一些其他搜索引擎。

搜索引擎(诸如，网络搜索引擎)是被设计成在万维网上搜索信息的软件系统。搜索结果通常被呈现在一系列结果(常称为搜索引擎结果页面)中。信息可以是网页、图像和其他类型的文件的混合。一些搜索引擎还挖掘数据库或开放式目录中可用的数据。不同于仅通过人工编辑器来维持的网络目录，搜索引擎还通过在网络爬虫上运行算法来维持实时信息。

网络搜索引擎通过存储关于许多网页的信息来运行，它们从页面的超文本标记语言(HTML)标记来检索所述网页。通过网络爬虫来检索这些页面，所述网络爬虫是遵循网站上的每个链接的自动化网络爬虫。搜索引擎接着分析每个页面的内容以确定其应如何被索引(例如，可以从标题、页面内容、标头或称为元标签的特殊字段来提取字)。将关于网页的数据存储在索引数据库中，以供在稍后的查询中使用。索引帮助尽可能快地找到与查询有关的信息。

当用户将查询输入到搜索引擎中时(通常是通过使用关键字)，引擎检查其索引并根据其标准提供最匹配网页的列表，通常具有包含文档标题及有时部分文本的简短概述。索引是由与数据一起存储的信息及信息的索引方法建构而成。搜索引擎查找与输入时完全一致的字或短语。一些搜索引擎提供先进的特征(称为接近搜索)，其允许用户定义关键字之间的距离。还存在基于概念的搜索，其中所述搜索涉及在包含你所搜索的字或短语的页面上使用统计分析。又，自然语言查询允许用户以与将向人询问问题的形式相同的形式来键入问题。

返回参考图1A，根据一个实施方案，响应于在服务器104处从客户端装置(在这个示例中为客户端装置101)接收的搜索查询，搜索引擎120在内容数据库133(诸如，主要内容数据库130和/或辅助内容数据库131)中执行搜索，以生成内容项目列表。可经由统一资源链接(URL)和/或统一资源标识符(URI)使每一个内容项目与特定内容提供者的特定网站的特定网页相关联。在一个实施方案中，主要内容数据库130存储已由网络爬虫收集的一般内容项目(例如，非赞助内容)。辅助内容数据库135存储与特定、已知或预定的内容提供者相关联的特定或特殊内容项目(例如，赞助内容)。可替代地，在不区分主要内容数据库130与辅助内容数据库131的情况下，可将内容数据库133实施为单个数据库。

网络爬虫是自动遍历网络的超文本结构的程序。在实践中，网络爬虫可运行于独立的计算机或服务器上，所述计算机或服务器中的每一个被配置成执行从URL下载文档的一个或多个进程或线程。网络爬虫接收所指派的URL，并在那些URL处下载文档。网络爬虫还可检索被已检索的文档引用的文档，以供由内容处理系统(未示出)和/或搜索引擎120处理。网络爬虫可以使用各种协议来下载与URL相关联的页面，诸如超文本传输协议(HTTP)和文件传送协议(FTP)。

参考图1A，服务器104还包括用户分类模块或系统110以使用一个或多个用户分类模型115来对发起搜索查询的用户进行分类以确定用户的类型或类别。可使用用户的类别或类型来确定用户可能做什么或用户想要接收什么信息(例如，用户意图)。基于用户分类，随后可在内容数据库133中执行搜索，例如，用于与所述用户分类(例如，用户的类型或类别)相关联的特定类型的内容。其结果是，可向用户提供更好的搜索结果(例如，专门配置用于用户或用户意图的某些类型的特殊内容或赞助内容)且可改进用户的满意度。

由用户分类模型训练系统150(也简称为训练系统)来训练和生成用户分类模型115(也简称为模型)，其可实施为网络上的单独服务器或可替代地与服务器104整合在一起。模型115可由训练系统150离线地训练和生成、加载到服务器104中并定期地从训练系统150进行更新。模型115中的每一个与若干预定类别、用户种类或信息类型(例如，医疗信息)中的一个相对应。模型115中的每一个可表示用户响应于搜索查询而可能感兴趣的或想要接收的信息的预定类别中的一个。

在信息检索领域中，重要的是要知道或预测用户真正想要接收什么。在网络上最流行的搜索之一是医疗信息搜索。出于说明的目的，贯穿本申请所描述的技术是针对医疗信息检索进行描述的。然而，所述技术可同样适用于其它类型的信息检索。在一个实施方案中，已对模型115中的每一个进行训练以响应于用户发起的搜索查询对用户进行分类并映射到预定类别中的一个，即，医疗类别。在一个实施方案中，信息的预定类别包括：1)医疗，2)医疗死亡，3)医疗症状，4)医学，5)医疗部门或设施，6)医疗实验室，7)价格和8)未知的(例如，一揽子类别)。

对于预定类别中的每一个而言，基于与预定类别对应的已知搜索查询集合来训练和生成模型。可从与特定预定类别相关联的已知网站集合来收集已知搜索查询集合。在一个实施方案中，可利用在搜索查询中的某些关键字以及这些关键字如何出现在搜索查询内而训练模型以导出用户意图。这些过程称为用于创建模型115的离线过程。随后，将模型115加载到服务器104中以实时地处理搜索查询，在这里称为在线过程。

响应于源于用户的客户端装置，如客户端装置101的搜索查询，将搜索查询馈送到模型115中的每一个。模型115中的每一个提供了指示符，其指示用户与对应于所述特定模型的预定类别相关联的可能性。换句话说，模型115中的每一个基于搜索查询预测用户是否对与所述特定模型相关联的特定类别的信息感兴趣。在一个实施方案中，模型115中的每一个提供用户对接受相应类别信息感兴趣的可能性。基于模型115所提供的可能性，例如，基于具有最高可能性的类别确定用户分类或用户意图。此后，可基于用户分类或用户意图(例如，目标内容)识别某些类型的内容并将其返回到用户，这可以反映出用户真正想要接收什么。在一个实施方案中，如果由模型预测的可能性在预定的阈值(例如，70％)以上，则将相应的搜索查询当作已知的查询且可将其添加到与用于后续训练目的的模型相关联的已知查询集合。

例如，根据一个实施方案，响应于搜索查询，搜索引擎120在主要内容数据库130中执行搜索以识别和检索一般内容项目列表。另外，用户分类系统100基于搜索查询对用户进行分类，所述搜索查询使用一个或多个分类模型115确定用户的类别或种类或用户寻求的信息类别或种类，其可表示用户的用户意图。基于用户分类，可在辅助内容数据库131中执行搜索以识别和检索特殊内容项目列表(例如，赞助内容)。之后，将具有一般和特殊内容项目的搜索结果返回到用户。在这里，特殊内容项目为基于用户意图而以用户为目的的特定内容，其可能更准确或更接近于用户真正想要的内容。

应注意，已仅出于示出的目的描述了服务器104的配置。服务器104可以是向多种最终用户装置提供前端搜索服务的网络服务器。可替代地，服务器104可为应用服务器或后端服务器，其向前端服务器(例如，网络服务器或一般内容服务器)提供特定或特殊的内容搜索服务。其他架构或配置也可能是可适用的。例如，如图1B中所示，内容数据库133可通过网络被维护和托管在作为内容服务器的独立服务器中。服务器133可以是网络服务器、应用服务器或后端服务器。可由与服务器104相同的实体或组织来组织和提供内容服务器133。可替代地，可由独立的实体或组织(例如，第三方内容提供者)来维护或托管内容服务器133，所述实体或组织负责收集内容数据库130-131中的内容及其元数据。还应注意，内容数据库/服务器133可包括主要内容数据库130和辅助内容数据库131。主要内容数据库130也可实施或维护在独立的内容服务器(称为主要内容服务器)中。类似地，辅助内容数据库131可实施或维护在独立的内容服务器(称为辅助内容服务器)中。

图2是示出根据本发明一个实施方案的用户分类模型训练系统的示例的框图。系统200可实施为图1A-1B的模型训练系统或服务器150的一部分。参考图2，根据一个实施方案，系统200包括用户分类模型训练系统/模块201，其可在软件、硬件或其组合中实施。例如，用户分类模型训练系统201可在加载在存储器中且由处理器(未示出)执行的软件中实施，其可通信地联接到存储一组已知查询230、注释词典240和用户分类模型250的永久存储装置202。

在一个实施方案中，用户分类模型训练系统201包括注释词典构建器211、查询注释模块212、特征提取模块214和模型训练引擎213。注释词典构建器211构建存储与相应的预定类别相关联的字或短语的一组注释词典240。查询注释模块212使用注释词典240对已知查询230的集合进行注释。特征提取模块214从注释查询提取预定特征集。在一个实施方案中，要提取的特征包括位置特征、字的n元语法特征和注释特征，其可分别由位置特征提取器221、字的n元语法特征提取器222和注释特征提取器223来提取。

随后，模型训练引擎213基于具有所提取特征的已注释的查询来训练和生成用户分类模型250。模型训练引擎213可以是支持向量机(SVM)兼容的训练引擎或任何其他机器学习系统。模型250可以是SVM兼容模型。在机器学习中，SVM(也称为支持向量网络)为具有分析用于分类和回归分析的数据的相关学习算法的监督学习模型。给定一个训练示例集合，将每一个标记成属于两个类别中的一个，SVM训练算法构建将新的示例分配到一个类别或另一个类别中的模型，这使其成为非概率二元线性分类器。SVM模型为对示例按空间中的点进行的表示，对其进行映射以由尽可能宽的明显间隙分隔单独类别的示例。随后，将新的示例映射到相同的空间中并基于其落在间隙的哪一侧而预测其属于一个类别。

除了执行线性分类外，SVM可使用所谓的核戏法有效地执行非线性分类，将其输入隐式地映射到高维特征空间中。当未标记数据时，监督学习是不可能的，且需要无监督学习，这会发现数据到组的自然聚类以及将新数据映射到这些形成的组。对支持向量机提供改进的聚类算法称为支持向量聚类且通常用于未标记数据时或仅将一些数据标记为用于分类通过的预处理时的应用中。

在一个实施方案中，现在参考图2和3，注释词典构建器211基于与预定类别中每一个对应的已知字和/或短语集合来构建对应于预定类别(例如，医疗、医疗死亡、医疗症状、医学、医疗部门或设施、医疗实验室、价格和/或未知的)的一组注释词典240。注释词典中的每一个存储已在与对应类别相关的领域中频繁使用的特定字和/或短语。可由网络爬虫301从属于所述类别的许多内容网站列表302来收集与特定类别相关联的字和短语。

一旦创建了注释词典240，查询注释模块212则使用注释词典240对一组已知查询230进行注释。在一个实施方案中，从已知查询230中的每一个提取一个或多个关键字。对于关键字中的每一个而言，查询注释模块212确定关键字是否包括在注释词典中的任意一个或多个中。如果关键字出现在注释词典中，查询注释模块212则注释或标记所述关键字与对应于所述特定注释词典的类别相关联。应注意，关键字可与一个以上类别相关联。因而生成一组经注释的查询303。

由特征提取模块214从经注释的查询303提取一个或多个特征的集合。在一个实施方案中，位置特征提取器221提取在搜索查询中的一个或多个关键字的位置特征。位置特征指示关键字在搜索查询内的位置，其可以是从搜索查询的起点或终点开始计算(例如，所偏移的)字的数目。另外，字的n元语法特征提取器222从搜索查询提取字的n元语法特征。在计算语言学和概率的领域中，n元语法是源于给定序列的文本或语音的连续序列的n个项目。根据应用，项目可以是音素、音节、字母、字或基对。此外，注释特征提取器223从经注释的搜索查询中提取注释特征。注释特征指示搜索查询包括属于特定注释词典的关键字。因此生成一组具有所提取的特征的经注释的查询304。随后，将具有特征的经注释的查询304馈送到模型训练引擎213中以训练一组分类模型250。

图4是示出根据本发明一个实施方案的用于注释和特征提取的过程的图。可利用所示的过程以离线创建分类模型或在线使用分类模型(以下将进一步地进行详细描述)进行搜索。参考图4，在线接收以用于搜索或离线接收的以用于建模的搜索查询401包括“Whatto do with bay stomachache？(要对婴儿胃痛做些什么)”的声明。随后，使用一组预定注释词典对查询401进行注释以生成经注释的查询402。在这个示例中，注释词典包括用于人/患者、治疗、死亡、症状、医学、部门、实验室、价格和未知的词典。其结果是，用类别“人”或“患者”注释术语“baby(婴儿)”。用类别“症状”注释术语“stomachache(胃痛)”。用类别“治疗”注释术语“what to do with(要做些什么)”。

随后，提取经注释的查询402的特征，包括位置特征列表403、n元语法特征列表404(在这个示例中为2元语法)以及注释特征列表405。位置特征列表403指示每个字或短语在查询中的位置。在这个示例中，术语“what to do with(要做些什么)”位于第一位置上；术语“baby(婴儿)”位于第二位置上；且术语“stomachache(胃痛)”位于第三或最后的位置上。注释特征指示与注释词典相关联的类别中的哪些包括查询的至少一个字或术语，在这个示例中，注释特征是：人、症状和治疗。随后，使用经注释的查询402和特征403-405来训练模型或使用模型进行在线搜索。

图5是示出根据本发明一个实施方案的内容搜索系统的框图。可基于使用一个或多个分类模型确定的用户意图把系统500看作在线搜索系统，其中所述分类模型是使用如上所述的模型训练系统而创建的。参考图5，根据一个实施方案，用户分类模块或系统110包括用户分类引擎513、查询注释模块512和特征提取模块514。用户分类引擎513可以是SVM兼容引擎，其可与图2的模型训练引擎213相同或相类似。查询注释模块512可与图2的查询注释模块212相同或相类似。特征提取模块514可与图2的特征提取模块214相同或相类似，其包括位置特征提取器221、字的n元语法特征提取器222和注释特征提取器223。

在一个实施方案中，现在参考图5和6，响应于搜索查询501，搜索引擎120调用用户分类系统110来使用一个或多个分类模型250对发起搜索查询501(例如，用户意图)的用户进行分类。在一个实施方案中，查询注释模块512使用注释词典240对搜索查询501(例如，图4的查询401)进行注释以生成经注释的查询602(例如，图4的经注释的查询402)。特征提取模块514从经注释的查询602提取特征，包括如上所述的位置特征(例如，图4的特征403)、n元语法特征(例如，特征404)以及注释特征(例如，图4的特征405)，其生成具有特征的经注释的查询603。用户分类引擎513基于具有特征的经注释的查询603，使用分类模型250对用户进行分类以生成用户分类或类别604。基于用户分类604，搜索引擎120在内容数据库133中执行搜索以识别和检索内容项目列表以生成搜索结果502。随后，将搜索结果返回到用户。在一个实施方案中，如果由模型预测的可能性在预定的阈值(例如，70％)以上，则将相应的搜索查询当作已知的查询且可将其添加到与用于后续训练目的的模型相关联的已知查询集合。

应注意，注释过程和特征提取过程与上面针对图2-4所述的过程相同或相类似。在一个实施方案中，将单个SVM引擎用作分类引擎513和模型训练引擎213。在离线训练过程期间，将已知查询集合馈送到SVM引擎中以生成模型集。在在线搜索过程期间，SVM引擎加载模型中的每一个的二进制数并处理在线接收的搜索查询以输出表示用户与相应的类别相关联的可能性(如概率)的指示符。其结果是，SVM生成与类别集合对应的概率集合。将选择具有最高概率的一个类别以进行搜索目的。在如图4中所示的示例中，用户最可能寻求对婴儿胃痛的治疗。因此，将执行对用于婴儿胃痛的医疗的搜索，这是因为用户最可能对接收医疗信息的类别感兴趣。

图7是示出根据本发明一个实施方案的训练分类模型的过程的流程图。过程700可以由处理逻辑来执行，所述处理逻辑包括硬件(例如，电路、专用逻辑等)、软件(例如，体现在非暂时性计算机可读介质上)或其组合。例如，过程700可以由图2的系统200执行。参考图7，在框701处，处理逻辑接收一组预定查询(例如，已知查询)，每个查询均与一个或多个已知类别相关联。在框702处，对于每个类别的每个查询，处理逻辑使用与所述类别对应的注释词典来注释查询的一个或多个关键字。在框703处，处理逻辑从经注释的查询提取一个或多个特征(例如，位置、n元语法和注释特征)。在框704处，处理逻辑使用训练引擎(例如，SVM)基于具有所提取特征的经注释的查询来训练与所述类别对应的分类模型。在框705处，处理逻辑基于对预定查询的训练生成一个或多个分类模型。每个模型与预定类别中的一个相对应。

图8是示出根据本发明一个实施方案的使用分类模型对用户进行分类的过程的流程图。过程800可以由处理逻辑来执行，所述处理逻辑包括硬件(例如，电路、专用逻辑等)、软件(例如，体现在非暂时性计算机可读介质上)或其组合。例如，过程800可以由图5的系统500执行。参考图8，在框801处，处理逻辑从用户接收用于搜索内容的具有一个或多个关键字的搜索查询。在框802处，处理逻辑使用一个或多个注释词典来注释搜索查询的关键字。每个注释词典存储与预定类别对应的术语或字。在框803处，处理逻辑从经注释的搜索查询提取一个或多个特征(例如，位置、n元语法和注释特征)。在框804处，处理逻辑对经注释的查询和特征应用一组分类模型以确定用户属于由分类模型所表示的类别的可能性(例如，概率)。在框805处，将具有最高可能性的类别选为与用户相关联。在框806处，依据用户的所选类别在内容数据库中执行搜索。

图9是示出可以与本发明一个实施方案一起使用的数据处理系统的示例的框图。例如，系统1500可以表示以上所描述的执行上述过程或方法中的任一个的任一数据处理系统(例如，上述客户端装置或服务器，例如以上所述服务器104、内容服务器133、分类模型训练系统150)。

系统1500可包括许多不同的组件。这些组件可以实现为集成电路(IC)、集成电路的部分、离散电子装置或适配于电路板的其他模块(诸如计算机系统的主板或插入卡)，或者实现为以其他方式并入计算机系统的底盘内的组件。

还应注意，系统1500旨在示出计算机系统的许多组件的高级视图。然而，应当理解的是，某些实现方式中可出现附加的组件，此外，其他实现方式中可出现所示组件的不同的布置。系统1500可以表示台式计算机、膝上型计算机、平板计算机、服务器、移动电话、媒体播放器、个人数字助理(PDA)、智能手表、个人通信器、游戏装置、网络路由器或集线器、无线接入点(AP)或中继器、机顶盒或其组合。此外，虽然仅示出了单个机器或系统，但是术语“机器”或“系统”还应当被理解为包括单独地或共同地执行一个(或多个)指令集以执行本文所讨论的任何一种或多种方法的机器或系统的任何集合。

在一个实施方案中，系统1500包括通过总线或互连件1510连接的处理器1501、存储器1503以及装置1505至1508。处理器1501可表示其中包括单个处理器内核或多个处理器内核的单个处理器或多个处理器。处理器1501可表示一个或多个通用处理器，诸如微处理器、中央处理单元(CPU)等。更具体地，处理器1501可以是复杂指令集计算(CISC)微处理器、精简指令集计算(RISC)微处理器、超长指令字(VLIW)微处理器、或实现其他指令集的处理器、或实现指令集组合的处理器。处理器1501还可以是一个或多个专用处理器，诸如专用集成电路(ASIC)、蜂窝或基带处理器、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、网络处理器、图形处理器、通信处理器、加密处理器、协同处理器、嵌入式处理器或能够处理指令的任何其他类型的逻辑。

处理器1501(其可以是低功率多核处理器插座，诸如超低电压处理器)可充当用于与所述系统的各种组件通信的主处理单元和中央集线器。这种处理器可以实现为片上系统(SoC)。处理器1501被配置成执行指令以执行本文所讨论的操作和步骤。系统1500还可包括与可选的图形子系统(显示控制器和/或显示装置)1504通信的图形接口，图形子系统(显示控制器和/或显示装置)1504可包括显示控制器、图形处理器和/或显示装置。

处理器1501可以与存储器1503通信，存储器1503在一个实施方案中可以通过多个存储器装置来实现以提供给定量的系统存储器。存储器1503可包括一个或多个易失性存储(或存储器)装置，诸如随机存取存储器(RAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、静态RAM(SRAM)或其他类型的存储装置。存储器1503可以存储包括由处理器1501或任何其他装置执行的指令序列的信息。例如，多种操作系统、装置驱动程序、固件(例如，输入输出基本系统或BIOS)和/或应用的可执行代码和/或数据可以加载到存储器1503中并由处理器1501执行。操作系统可以是任何种类的操作系统，例如像来自

公司的

操作系统、来自苹果公司的Mac

来自

公司的

或其他实时或嵌入式操作系统(诸如VxWorks)。

系统1500还可包括I/O装置，诸如装置1505至1508，包括网络接口装置1505、可选的输入装置1506以及其他可选的I/O装置1507。网络接口装置1505可包括无线收发器和/或网络接口卡(NIC)。无线收发器可以是WiFi收发器、红外收发器、蓝牙收发器、WiMax收发器、无线蜂窝电话收发器、卫星收发器(例如，全球定位系统(GPS)收发器)或其他射频(RF)收发器或其组合。NIC可以是以太网卡。

输入装置1506可包括鼠标、触摸板、触敏屏幕(其可以与显示装置1504集成在一起)、指示装置(诸如指示笔)和/或键盘(例如，物理键盘或作为触敏屏幕的一部分显示的虚拟键盘)。例如，输入装置1506可包括联接到触摸屏的触摸屏控制器。触摸屏和触摸屏控制器例如可以使用多种触摸灵敏度技术(包括但不限于电容、电阻、红外和表面声波技术)中的任一种来探测接触点和移动或其间断，以及可以使用用于确定与触摸屏发生的一个或多个接触点的其他接近传感器阵列或其他元件来探测接触点和移动或其间断。

I/O装置1507可包括音频装置。音频装置可包括扬声器和/或麦克风，以促进支持语音的功能，诸如语音识别、语音复制、数字记录和/或电话功能。其他I/O装置1507还可包括通用串行总线(USB)端口、并行端口、串行端口、打印机、网络接口、总线桥(例如，PCI-PCI桥)、传感器(例如，运动传感器，诸如加速度计、陀螺仪、磁强计、光传感器、罗盘、接近传感器等)或其组合。装置1507还可包括成像处理子系统(例如，摄像机)，所述成像处理子系统可包括用来促进摄像机功能(诸如录下照片和视频片段)的光学传感器，诸如电荷耦合装置(CCD)或互补金属氧化物半导体(CMOS)光学传感器。某些传感器可以通过传感器集线器(未示出)联接到互连件1510，而其他装置诸如键盘或热传感器可以由嵌入式控制器(未示出)来控制，这取决于系统1500的具体配置或设计。

为了提供对信息(诸如数据、应用、一个或多个操作系统等)的永久性存储，大容量存储装置(未示出)也可联接到处理器1501。在各种实施方案中，为了实现更薄且更轻的系统设计并且为了改进系统响应能力，这种大容量存储装置可以通过固态装置(SSD)实现。然而，在其他实施方案中，大容量存储装置可以主要使用硬盘驱动器(HDD)来实现，其中较小量的SSD存储装置充当SSD高速缓存以在断电事件期间实现对上下文状态以及其他此类信息的非易失性存储，从而使得在系统活动重新启动时能够实现快速上电。另外，闪存装置可以例如通过串行外围接口(SPI)联接到处理器1501。这种闪存装置可以提供对系统软件的非易失性存储，所述系统软件包括所述系统的基本输入/输出软件(BIOS)以及其他固件。

存储装置1508可包括计算机可访问的存储介质1509(也被称为机器可读存储介质或计算机可读介质)，其上存储有体现任何一种或多种本文所描述的方法或功能的一个或多个指令集或软件(例如，模块、单元和/或逻辑1528)。模块/单元/逻辑1528可以表示任一上述组件，例如像如上所描述的搜索引擎、编码器、交互日志模块。模块/单元/逻辑1528还可以在数据处理系统1500对其进行执行期间完全地或至少部分地驻留在存储器1503内和/或处理器1501内，存储器1503和处理器1501同样构成机器可访问的存储介质。模块/单元/逻辑1528还可以经由网络接口装置1505通过网络被发送或接收。

计算机可读存储介质1509也可以用来永久性地存储以上描述的一些软件功能。虽然计算机可读存储介质1509在示例性实施方案中被示为单个介质，但是术语“计算机可读存储介质”应当被认为包括存储一个或多个指令集的单个介质或多个介质(例如，集中式或分布式数据库和/或相关联的高速缓存和服务器)。术语“计算机可读存储介质”还应当被认为包括能够存储或编码指令集的任何介质，所述指令集用于由机器执行并且引起所述机器执行本发明的任何一种或多种方法。因此，术语“计算机可读存储介质”应当被认为包括但不限于固态存储器以及光学介质和磁性介质或者任何其他非暂时性机器可读介质。

本文所描述的模块/单元/逻辑1528、组件以及其他特征可以实现为离散硬件组件或集成在硬件组件(诸如ASICS、FPGA、DSP或类似装置)的功能中。另外，模块/单元/逻辑1528可以实现为硬件装置内的固件或功能电路。此外，模块/单元/逻辑1528可以以硬件装置和软件组件的任何组合实现。

应注意，虽然系统1500被示出为具有数据处理系统的各种组件，但是其不欲表示任何具体的架构或互连组件的方式；因为此类细节和本发明的实施方案没有密切关系。还应当认识到，具有更少组件或可能具有更多组件的网络计算机、手持计算机、移动电话、服务器和/或其他数据处理系统也可与本发明的实施方案一起使用。

前述详细描述中的一些部分已经依据在计算机存储器内对数据位进行的运算的算法和符号表示而呈现。这些算法描述和表示是数据处理领域中的技术人员所使用以便最有效地将他们的工作实质传达给本领域其他技术人员的方法。这里，算法通常被认为是产生所期望结果的有条理的操作序列。这些操作是指需要对物理量进行物理操控的操作。

然而，应当牢记，所有这些和类似的术语均意图与适当的物理量关联，并且仅仅是应用于这些量的便利的标记。除非在以上讨论中另外明确地说明清楚，否则应当了解，贯穿本说明书利用术语(诸如随附权利要求书中所阐述的术语)进行的讨论是指计算机系统或类似的电子计算装置的动作和处理，所述计算机系统或类似的电子计算装置操控数据(所述数据在计算机系统的寄存器和存储器内表示为物理(电子)量)，并将所述数据变换成其它数据(所述其它数据在计算机系统存储器或寄存器或其他此类信息存储装置、传输或显示装置内同样表示为物理量)。

各图中所示的技术可以使用存储和执行于一个或多个电子装置上的代码及数据来实施。此类电子装置使用计算机可读介质来存储和传达(在内部和/或通过网络与其他电子装置)代码及数据，所述计算机可读介质是诸如非暂时性计算机可读存储介质(例如，磁盘、光盘、随机存取存储器；只读存储器、闪存存储器装置、相变存储器)和暂时性计算机可读传输介质(例如，电子、光学、声学或其他形式的传播信号—诸如载波、红外信号、数字信号)。

前述附图中所描绘的过程或方法可以由处理逻辑来执行，所述处理逻辑包括硬件(例如，电路、专用逻辑等)、固件、软件(例如，包含在非暂时性计算机可读介质上)或两者的组合。尽管所述过程或方法在上文是依据一些有顺序操作来描述的，但是应当了解，所描述的操作中的一些可以按不同的次序执行。此外，一些操作可以并行地而不是顺序地执行。

在以上的说明书中，已经参考本发明的具体示例性实施方案对本发明的实施方案进行了描述。将显而易见的是：在不脱离如随附权利要求书中阐述的本发明的较宽泛的精神和范围的情况下，可以对其做出各种修改。因此，应当在说明性意义而不是限制性意义上来理解本说明书和附图。

Claims

1.一种生成用于搜索内容的分类模型的计算机实施方法，所述方法包括：

对于多个预定类别中的每一个，

接收一组预定查询，所述预定查询中的每一个与所述预定类别相关联；

对于所述预定查询中的每一个：

使用与所述预定类别对应的注释词典来注释所述预定查询，以及

基于所述预定查询的注释，从所述预定查询提取一个或多个特征；

基于所述预定查询以及与所述预定查询相关联的特征来训练和生成与所述预定类别对应的分类模型，其中利用所述分类模型确定用户属于所述预定类别的概率，由此生成多个分类模型，每一个分类模型与所述多个预定类别中的一个对应，

从所述用户的客户端装置接收第一搜索查询，所述第一搜索查询具有一个或多个关键字；

响应于所述第一搜索查询，使用多个注释词典来注释所述第一搜索查询的关键字；

从所述第一搜索查询的所注释的关键字提取特征；以及

由对所提取的特征应用所述多个分类模型来对所述用户进行分类。

2.如权利要求1所述的方法，其中所述注释词典包含与所述预定类别相关联的一组关键字，所述一组关键字是从与所述预定类别相关联的一个或多个预定内容服务器收集的。

3.如权利要求1所述的方法，其中从所述预定查询提取一个或多个特征包括：从所述预定查询的一个或多个关键字提取一个或多个位置特征，其中每个位置特征指示关键字在所述预定查询内的位置。

4.如权利要求3所述的方法，还包括从所述预定查询的一个或多个关键字提取一个或多个字的N元语法特征。

5.如权利要求4所述的方法，还包括从所述预定查询的一个或多个关键字提取一个或多个注释特征，其中每个注释特征指示是否在所述注释词典中找到了对应的关键字。

6.如权利要求1所述的方法，还包括：

基于所述用户的分类，在内容数据库中执行搜索以检索包含一个或多个内容项目的列表；以及

将所述包含一个或多个内容项目的列表传送到所述客户端装置。

7.一种生成用于搜索内容的分类模型的装置，包括：

接收装置，接收一组预定查询，所述预定查询中的每一个与预定类别相关联；

注释装置，使用与所述预定类别对应的注释词典来注释所述预定查询中的每一个；

提取装置，基于所述预定查询中每一个的注释从所述预定查询中的每一个提取一个或多个特征；

训练和生成装置，基于所述预定查询以及与所述预定查询相关联的特征来训练和生成与所述预定类别对应的分类模型，其中利用所述分类模型确定用户属于所述预定类别的概率，由此生成多个分类模型，每一个所述分类模型与多个所述预定类别中的一个对应；

从用户的客户端装置接收第一搜索查询的装置，所述第一搜索查询具有一个或多个关键字；

响应于所述第一搜索查询，使用多个注释词典来注释所述第一搜索查询的关键字的装置；

从所述第一搜索查询的所注释的关键字提取特征的装置；以及

由对所提取的特征应用所述多个分类模型来对所述用户进行分类的装置。

8.如权利要求7所述的装置，其中所述注释词典包含与所述预定类别相关联的一组关键字，所述一组关键字是从与所述预定类别相关联的一个或多个预定内容服务器收集的。

9.如权利要求7所述的装置，其中所述提取装置包括：从所述预定查询的一个或多个关键字提取一个或多个位置特征的装置，其中每个位置特征指示关键字在所述预定查询内的位置。

10.如权利要求9所述的装置，还包括：从所述预定查询的一个或多个关键字提取一个或多个字的N元语法特征的装置。

11.如权利要求10所述的装置，还包括：从所述预定查询的一个或多个关键字提取一个或多个注释特征的装置，其中每个注释特征指示是否在所述注释词典中找到了对应的关键字。

12.如权利要求7所述的装置，还包括：

基于所述用户的分类，在内容数据库中执行搜索以检索包含一个或多个内容项目的列表的装置；以及

将所述包含一个或多个内容项目的列表传送到所述客户端装置的装置。

13.一种数据处理系统，包括如权利要求7-12中任一项所述的生成用于搜索内容的分类模型的装置。

14.一种用于搜索内容的计算机实施方法，所述方法包括：

从用户的客户端装置接收与多个预定类别中的一个相关联的第一搜索查询，所述第一搜索查询具有一个或多个关键字；

响应于所述第一搜索查询，使用多个注释词典来注释所述第一搜索查询的关键字，每个所述注释词典与所述多个预定类别中的一个对应；

基于所述第一搜索查询的经注释的关键字从所述第一搜索查询提取特征；

由对所提取的特征应用多个分类模型来对所述用户进行分类，其中利用所述分类模型确定用户属于所述预定类别的概率，由此生成多个分类模型，其中所述多个分类模型中的每一个与多个预定类别中的一个对应并且基于一组预定查询以及与所述预定查询相关联的特征被训练；

基于所述用户的分类在内容数据库中执行搜索以检索包含一个或多个内容项目的列表；以及

15.如权利要求14所述的方法，其中所述注释词典中的每一个包含属于对应预定类别的一组关键字，所述一组关键字是从与所述对应预定类别相关联的一个或多个预定内容服务器收集的。

16.如权利要求14所述的方法，其中从所述预定查询提取一个或多个特征包括：从所述预定查询的一个或多个关键字提取一个或多个位置特征，其中每个位置特征指示关键字在所述预定查询内的位置。

17.如权利要求16所述的方法，还包括从所述预定查询的一个或多个关键字提取一个或多个字的N元语法特征。

18.如权利要求17所述的方法，还包括从所述预定查询的一个或多个关键字提取一个或多个注释特征，其中每个注释特征指示是否在所述注释词典中找到了对应的关键字。

19.如权利要求14所述的方法，其中由对所述提取的特征应用所述多个分类模型来对所述用户进行分类包括：生成与所述多个类别对应的多个指示符，每个指示符指示所述搜索查询属于对应的所述预定类别的可能性。

20.如权利要求19所述的方法，其中基于具有最高可能性的所述预定类别来确定所述用户的分类。