CN105589972A - 训练分类模型的方法及装置、对搜索词分类的方法及装置 - Google Patents
训练分类模型的方法及装置、对搜索词分类的方法及装置 Download PDFInfo
- Publication number
- CN105589972A CN105589972A CN201610016083.2A CN201610016083A CN105589972A CN 105589972 A CN105589972 A CN 105589972A CN 201610016083 A CN201610016083 A CN 201610016083A CN 105589972 A CN105589972 A CN 105589972A
- Authority
- CN
- China
- Prior art keywords
- classification
- word
- search word
- participle
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了训练分类模型的方法及装置、对搜索词分类的方法及装置。其中,训练搜索词分类模型的方法适于在计算设备中执行。该方法包括以下步骤。从用户历史搜索记录中获取搜索词的集合,并获取该集合中每个搜索词的类别。其中每个搜索词的类别是基于关键词分类词典得到的。获取每个搜索词中类别与其相同的分词。所获取的每个分词的属性包括该分词的分类贡献度特征。获取每个搜索词中类别与其相同的每个分词的关联词。所获取的每个关联词的属性包括表示这个关联词与相关联分词语义相似度的特征。利用每个搜索词的类别、每个搜索词中类别与其相同的分词和每个分词的关联词来训练分类模型。
Description
技术领域
本发明涉及互联网领域,尤其涉及训练分类模型的方法及装置、对搜索词分类的方法及装置。
背景技术
随着互联网的快速发展,网站平台(例如汽车之家)可以提供大量的例如资讯、新闻、广告等内容,以满足用户对信息的需求。然而,用户在面对大量信息时,经常需要输入搜索词并通过搜索引擎进行搜索,以获取用户所需要的内容。在根据搜索词进行搜索时,一个重要的环节是对搜索词进行分类,以确定用户的搜索意图。现有的搜索方案中,通常采用规则分类的方式,以判断搜索词是否与关键词表匹配。
然而,规则分类方式的识别范围很有限,分类的召回率较低。
发明内容
为此,本发明提供一种新的分类方案,有效的解决了上面至少一个问题。
根据本发明的一个方面,提供一种训练搜索词分类模型的方法,适于在计算设备中执行。该计算设备包括关键词存储器,适于存储关键词分类词典。该词典中每个关键词具有代表用户搜索意图的类别信息,该方法包括以下步骤。从用户历史搜索记录中获取搜索词的集合,并获取该集合中每个搜索词的类别。其中每个搜索词的类别是基于关键词分类词典得到的。获取每个搜索词中类别与其相同的分词。所获取的每个分词的属性包括该分词的分类贡献度特征。获取每个搜索词中类别与其相同的每个分词的关联词。所获取的每个关联词的属性包括表示这个关联词与相关联分词语义相似度的特征。利用每个搜索词的类别、每个搜索词中类别与其相同的分词和每个分词的关联词来训练分类模型。
可选地,在根据本发明的训练搜索词分类模型的方法中,获取该搜索词的集合中每个搜索词的类别的步骤包括:如果这个搜索词包括所述关键词分类词典中一个关键词,则将这个关键词的类别作为这个搜索词的类别;如果这个搜索词包括所述关键词分类词典中多个关键词,则将这多个关键词中优先级最高的关键词的类别作为该搜索词的类别。
可选地,在根据本发明的训练搜索词分类模型的方法中,获取每个搜索词中与其类别相同的分词的步骤包括:利用所述关键词分类词典对每个搜索词执行分词操作,并提取类别与这个搜索词相同的分词;利用下述公式计算所提取的每个分词的分类贡献特征:t=1/(n+x)其中,t为该分词的分类贡献值,n表示类别与这个搜索词相同的分词总数,x的取值范围为0.01-0.5。
可选地,在根据本发明的训练搜索词分类模型的方法中,获取每个搜索词中类别与其相同的每个分词的关联词的步骤包括:获取预定网站的至少一部分网页信息;利用所述关键词分类词典对所获取的网页信息执行分词操作,以生成分词集合;对该分词集合执行词聚类操作,以获取所获取的网页信息对应的词聚类模型;基于该词聚类模型,对所述每个分词执行词扩展操作,以获取每个分词的关联词。
可选地,在根据本发明的训练搜索词分类模型的方法中,利用所述关键词分类词典对所获取的网页信息执行分词操作,以生成分词集合的步骤包括:对执行分词操作所获取的分词执行去重操作,并将去重后的所有分词作为所述分词集合。
可选地,在根据本发明的训练搜索词分类模型的方法中,对所述分词集合执行词聚类操作的步骤包括:利用word2vec对该分词集合执行词聚类操作。
可选地,在根据本发明的训练搜索词分类模型的方法中,表示这个关联词与相关联分词语义相似度的特征为余弦距离。分类模型为SVM模型。
可选地,在根据本发明的训练搜索词分类模型的方法中,利用每个搜索词的类别、每个搜索词中类别与其相同的分词和每个分词的关联词来训练分类模型的步骤包括:将每个搜索词的类别、类别与这个搜索词相同的分词和类别与这个搜索词相同的每个分词的关联词转化为用向量表示的一条样本;利用所生成的每条样本对分类模型的参数进行训练。
根据本发明又一个方面,提供一种对搜索词分类的方法,适于在计算设备中执行。该方法包括以下步骤。对搜索词执行分词操作以生成一个或多个分词。将所生成的每个分词作为该搜索词的一个第一特征项,每个第一特征项的属性包括这个第一特征项的权重特征。查询每个第一特征项的关联词,并将这个第一特征项的每个关联词作为这个搜索词的一个第二特征项。每个第二特征项的属性包括该第二特征项与相关联的第一特征项的相似度特征值。将该搜索词的第一特征项和第二特征项代入到分类模型中,以返回这个搜索词的类别。
可选地,在根据本发明的对搜索词分类的方法中,每个第一特征项的权重特征为词频权重,该词频权重为这个第一特征项在所述搜索词中出现的次数与该搜索词的分词总数的比值。
可选地,在根据本发明的对搜索词分类的方法中,计算设备包括关键词存储器,适于存储关键词分类词典。该词典中每个关键词具有代表用户搜索意图的类别信息,在对搜索词执行分词操作之前,该方法还包括:对用户输入的搜索词进行归一化操作;根据关键词分类词典对经过归一化处理的搜索词执行分类查询,并返回所查询到的第一分类结果;如果未查询到该搜索词的第一分类结果,对该搜索词执行纠错操作,并对经过纠错的搜索词再次执行分类查询以返回第二分类结果;如果成功返回对搜索词的第一分类结果或第二分类结果,则不再执行对搜索词的分词操作。
可选地,根据本发明的对搜索词分类的方法还包括:如果对经过纠错的搜索词执行分类查询未返回第二分类结果,则对该搜索词执行模式串提取操作,以获取该搜索词的第三分类结果,并在获取第三分类结果成功时不再执行所述分词操作。
可选地,在根据本发明的对搜索词分类的方法中,在对所述搜索词执行分词操作之后,且生成所述第一特征项和第二特征项之前,该方法还包括:基于该分词操作得到的所有分词,如果所有分词包括所述关键词分类词典中一个关键词,则将这个关键词的类别作为这个搜索词的类别;如果所有分词包括所述关键词分类词典中多个关键词,则将这多个关键词中优先级最高的关键词的类别作为该搜索词的类别;在基于所有分词得到这个搜索词的类别时,不再生成所述第一特征项和所述第二特征项。
可选地,在根据本发明的对搜索词分类的方法中,分类模型是通过根据本发明的训练搜索词分类模型的方法得到的。
根据本发明又一个方面,提供一种训练搜索词分类模型的装置,适于在计算设备中驻留。该装置包括关键词存储器、第一获取单元、第二获取单元、第三获取单元和训练单元。关键词存储器适于存储关键词分类词典。该词典中每个关键词具有代表用户搜索意图的类别信息。第一获取单元适于从用户历史搜索记录中获取搜索词的集合,并获取该集合中每个搜索词的类别。其中每个搜索词的类别是基于关键词分类词典得到的。第二获取单元适于获取每个搜索词中类别与其相同的分词。所获取的每个分词的属性包括该分词的分类贡献度特征。第三获取单元适于获取每个搜索词中类别与其相同的每个分词的关联词。所获取的每个关联词的属性包括表示这个关联词与相关联分词语义相似度的特征。训练单元适于利用每个搜索词的类别、每个搜索词中类别与其相同的分词和每个分词的关联词来训练分类模型。
可选地,在根据本发明的训练搜索词分类模型的装置中,第一获取单元适于根据下述方式获取该搜索词的集合中每个搜索词的类别:如果这个搜索词包括所述关键词分类词典中一个关键词,则将这个关键词的类别作为这个搜索词的类别;如果这个搜索词包括所述关键词分类词典中多个关键词,则将这多个关键词中优先级最高的关键词的类别作为该搜索词的类别。
可选地,在根据本发明的训练搜索词分类模型的装置中,第二获取单元适于根据下述方式获取每个搜索词中与其类别相同的分词:利用所述关键词分类词典对每个搜索词执行分词操作,并提取类别与这个搜索词相同的分词;利用下述公式计算所提取的每个分词的分类贡献特征:t=1/(n+x)其中,t为该分词的分类贡献值,n表示类别与这个搜索词相同的分词总数,x的取值范围为0.01-0.5。
可选地,在根据本发明的训练搜索词分类模型的装置中,第三获取单元适于根据下述方式获取每个搜索词中类别与其相同的每个分词的关联词:获取预定网站的至少一部分网页信息;利用所述关键词分类词典对所获取的网页信息执行分词操作,以生成分词集合;对该分词集合执行词聚类操作,以获取所获取的网页信息对应的词聚类模型;基于该词聚类模型,对所述每个分词执行词扩展操作,以获取每个分词的关联词。
可选地,在根据本发明的训练搜索词分类模型的装置中,第三获取单元根据下述方式利用所述关键词分类词典对所获取的网页信息执行分词操作,以生成分词集合:对执行分词操作所获取的分词执行去重操作,并将去重后的所有分词作为所述分词集合。
可选地,在根据本发明的训练搜索词分类模型的装置中,第三获取单元根据下述方式对所述分词集合执行词聚类操作:利用word2vec对该分词集合执行词聚类操作。
可选地,在根据本发明的训练搜索词分类模型的装置中,表示一个关联词与相关联分词语义相似度的特征为余弦距离。分类模型为SVM模型。
可选地,在根据本发明的训练搜索词分类模型的装置中,训练单元适于根据下述方式利用每个搜索词的类别、每个搜索词中类别与其相同的分词和每个分词的关联词来训练分类模型:将每个搜索词的类别、类别与这个搜索词相同的分词和类别与这个搜索词相同的每个分词的关联词转化为用向量表示的一条样本;利用所生成的每条样本对分类模型的参数进行训练。
根据本发明又一个方面,提供一种对搜索词分类的装置,适于在计算设备中驻留。该装置包括分词单元、扩展单元和第一分类单元。分词单元适于对搜索词执行分词操作,并将所生成的每个分词作为该搜索词的一个第一特征项。每个第一特征项的属性包括这个第一特征项的权重特征。扩展单元适于查询每个第一特征项的关联词,并将这个第一特征项的每个关联词作为这个搜索词的一个第二特征项。每个第二特征项的属性包括该第二特征项与相关联的第一特征项的相似度特征值。第一分类单元适于将该搜索词的第一特征项和第二特征项代入到分类模型中,以返回这个搜索词的类别。
可选地,在根据本发明对搜索词分类的装置中,每个第一特征项的权重特征为词频权重,该词频权重为这个第一特征项在所述搜索词中出现的次数与该搜索词的分词总数的比值。
可选地,根据本发明对搜索词分类的装置还包括关键词存储器,适于存储关键词分类词典。该词典中每个关键词具有代表用户搜索意图的类别信息。对搜索词分类的装置还包括第二分类单元,适于在对搜索词执行分词操作之前,对用户输入的搜索词进行归一化操作。第二分类单元根据关键词分类词典对经过归一化处理的搜索词执行分类查询,并返回所查询到的第一分类结果。如果未查询到该搜索词的第一分类结果,第二分类单元对该搜索词执行纠错操作,并对经过纠错的搜索词再次执行分类查询以返回第二分类结果,如果成功返回对搜索词的第一分类结果或第二分类结果,则指示分词单元不再执行对搜索词的分词操作。
可选地,根据本发明对搜索词分类的装置还包括第三分类单元,适于在所述第二分类单元未返回第二分类结果时,对所述搜索词执行模式串提取操作,以获取该搜索词的第三分类结果,并在获取第三分类结果成功时指示所述分词单元不再执行所述分词操作。
可选地,根据本发明对搜索词分类的装置还包括第四分类单元,适于在所述分词单元对所述搜索词执行分词操作之后和生成所述第一特征项之前。基于分词操作得到的所有分词,如果所有分词包括所述关键词分类词典中一个关键词,第四分类单元将这个关键词的类别作为这个搜索词的类别。如果所有分词包括所述关键词分类词典中多个关键词,第四分类单元将这多个关键词中优先级最高的关键词的类别作为该搜索词的类别。在基于所有分词得到这个搜索词的类别时,第四分类单元指示分词单元不再生成所述第一特征项和指示所述扩展单元不再生成所述第二特征项。
可选地,在根据本发明对搜索词分类的装置中,分类模型是通过根据本发明的训练搜索词分类模型的装置得到的。
根据本发明又一个方面,提供一种计算设备,包括根据本发明的训练搜索词分类模型的装置。
根据本发明又一个方面,提供一种搜索引擎,包括根据本发明的对搜索词分类的装置。
根据本发明分类方案,可以根据对预定网站的用户历史搜索记录、关键词分类词典以及对预定网站的网页内容的学习结果,对搜索词的关联特征进行扩展,然后通过搜索词及其关联特征对机器模型进行训练,从而可以获取到分类准确度高的分类模型。另外,本发明的分类方案通过将规则分类方式与机器分类方式相结合,极大克服了规则分类识别率低的问题,具有很高的分类准确度和召回率。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本发明的示例性搜索引擎100的框图;
图2示出了根据本发明一些实施例的训练搜索词分类模型的方法200的流程图;
图3示出了根据本发明一些实施例的对搜索词分类的方法300的流程图;
图4示出了根据本发明一些实施例的对搜索词分类的方法400的流程图;
图5示出了根据本发明一些实施例的训练搜索词分类模型的装置500的框图;
图6示出了根据本发明一些实施例的对搜索词分类的装置600的框图;以及
图7示出了根据本发明一些实施例的对搜索词分类的装置700的框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明的示例性搜索引擎100的框图。
如图1所示,搜索引擎100包括索引器110、索引存储器120、检索器130、分类器140和用户接口150。索引器110适于对预定网站(例如汽车之家)的网页内容进行预处理,以便建立对网页内容的多个索引项。索引存储器120(例如索引数据库等)适于存储多个索引项及其对应的例如网页摘要、标题等内容,但不限于此。这里,索引器110例如可以通过抓取装置(例如网络爬虫等)抓取预定网站的内容信息。在搜索引擎100作为垂直搜索引擎时,索引器110例如也可以直接从网页存储设备(例如网页数据库等)获取网页信息。这里,对网页内容进行预处理例如为对网页中文章、帖子等内容的全文分词等分析,并建立对网页内容的索引。但不限于此,任何已知的建立索引的方式都可以应用在本发明的索引器110中。用户接口150适于在线获取用户输入的一个或多个搜索词(也可以称为查询词)。分类器140适于对用户输入的搜索词进行分类。这里的分类是指通过分类器140理解用户的搜索意图。根据所确定的分类类别,检索器130可以从索引存储器120中获取尽可能准确的查询结果,并尽可能使得查询结果相关性更好。需要说明的是,搜索引擎100的各个功能模块被简化描述为单个实体,但是每个功能可以分散到多个计算设备、计算集群或数据中心中,并且搜索引擎100的各个组件可以驻留在多个地理位置中。根据本发明提出了一种机器分类方式。机器分类方式通常需要对分类模型进行训练。分类器140可以应用经过训练的分类模型对搜索词进行分类。下面结合图2对应用在分类器140中的训练搜索词分类模型的方法进行说明。
图2示出了根据本发明一些实施例的训练搜索词分类模型的方法200的流程图。方法200适于在计算设备中执行。这里,计算设备可以是单独的服务器,或者分布式计算集群中的各个组件,本发明对此不做过多限制。另外,计算设备包括关键词存储器。该关键词存储器例如可以是计算设备的内存或者其他存储单元,本发明对此不做限定。关键词存储器适于存储关键词分类词典。该词典中每个关键词具有代表用户搜索意图的类别信息。这里。关键词分类词典例如可以包括上文提到的预定网站(例如汽车之家)所在领域内的标准数据词典、人工标注和线下挖掘数据等。
下面以汽车领域的分类词典为例进行说明,但本发明的关键词分类词典并不限于汽车领域。汽车领域的关键词的类别主要可分为找车类别和非找车类别。找车类别可以包括厂商、品牌、车系、车型等。非找车类例如可以包括经销商、论坛、视频、图片、试驾、零件、用品、车展、保养、改装、故障、卖车、维修、保险、售后、自驾、美容、装饰、报价、口碑、评测、问答等。每个具体类别的数据可以包括多个具体的关键词。在根据本发明一个实施例中,关键词分类词典的数据格式示例如下:
如图2所示,方法200始于步骤S210,从用户历史搜索记录中获取搜索词的集合,并获取该集合中每个搜索词的类别。这里,用户历史搜索记录通常来自于预定网站的访问日志,但不限于此。搜索词的集合例如可以是过去一个月内,用户搜索预定网站中页面、文章或者帖子等内容时输入的查询词的统计。在步骤S210中获取每个搜索词的类别可以是基于关键词分类词典实现的。例如,在一个搜索词包括关键词分类词典中一个关键词时,将这个关键词的类别作为这个搜索词的类别。而在搜索词包括关键词分类词典中多个关键词时,将这多个关键词中优先级最高的类别作为这个搜索词的类别。这里,每个关键词的类别还可以包括优先级信息。另外,每个搜索词的类别也可以是通过其他公知的方式所获取的,本发明对此不做限制。下文中将会对关键词分类的多种方式进行说明,为了简化描述,这里不再对搜索词类别获取方式进行赘述。根据本发明一个实施例,所获取的搜索词及其类别的数据示例如下:
搜索词 | 分类类型 | 分类类型id |
儿童座椅 | 汽车用品 | 27 |
坐垫 | 汽车用品 | 27 |
汽车保险怎么买 | 保险 | 35 |
朗逸改装 | 改装 | 31 |
周末改装车集锦 | 改装 | 31 |
发动机护板 | 零部件 | 26 |
汽车贴膜 | 美容 | 38 |
cs75发动机 | 零部件 | 26 |
避震漏油 | 故障 | 32 |
避震异响 | 故障 | 32 |
福特车怎么样 | 口碑 | 41 |
镀晶好不好 | 口碑 | 41 |
新速腾二保 | 保养 | 30 |
新轩逸首保 | 保养 | 30 |
随后,方法200进入步骤S220。在步骤S220中,获取每个搜索词中类别与其相同的分词。所获取的每个分词的属性包括该分词的分类贡献度特征。根据本发明一个实施例,获取搜索词中类别与其相同的分词过程具体如下所述。首先,搜索词需要被执行分词操作。这里,分词操作例如可根据关键词分类词典进行分词。例如,搜索词“奔驰跑车”被分词为“奔驰”和“跑车”。又例如,搜索词“五菱宏光s报价2014款1.5豪华”被分词为“五菱宏光\s\报价\2014款\1.5\豪华”。然后,搜索词所对应的每个分词的属性可以包括这个分词的分类贡献度特征。应当理解,一个搜索词的分词中通常会包括类别与这个搜索词相同的分词。例如,一个搜索词所包括的与其类别相同的分词为w1、w2...wn共n个。每个分词(例如wn)的分类贡献特征计算方式如下所示:
t=1/(n+x)其中,t为该分词的分类贡献值,n表示类别与这个搜索词相同的分词总数,x的取值范围为0.01-0.5。x值例如为0.1。
随后,方法进入步骤S230。在步骤S230中,获取每个搜索词中类别与其相同的每个分词的关联词。所获取的每个关联词的属性包括表示这个关联词与相关联分词语义相似度的特征。具体而言,要获取每个分词的关联词,需要进行数据准备。这里的数据装备通常是在执行步骤S230之前已完成的操作。所准备的数据可以称之为一个扩展词典。下面对预定网站为汽车之家为例,对扩展词典的生成过程进行说明。首先,获取预定网站的网页信息(例如,各种汽车类文章、帖子等内容)。然后,对所获取的网页信息执行分词操作,以获取对应网页信息的分词集合。这里,在执行分词操作时,可以选择对所获取的分词进行去重操作。其次,对分词集合执行词聚类操作。例如,根据本发明一个实施例可以利用开源工具word2vec进行词聚类操作。这里,word2vec可以将词语表示为向量形式,进而将对网页信息的处理转化为对向量空间中向量的运算。这样,词聚类操作可以计算出分词集合中词语之间的语义相似度,并且生成网页信息对应的词聚类模型。词聚类模型对应的数据集合就是扩展词典。语义相似度例如可以用词语之间的余弦(cosine)距离表示。在确定一个关键词时,可以通过词聚类模型计算这个关键词的关联词。根据本发明一个实施例,一个关键词以及与其相关的关联词的数据格式示例如下:
如上所述,通过步骤S210、S220和S230可以获取到从历史搜索记录中获取的每个搜索词的类别、每个搜索词中类别与其相同的分词和每个分词的关联词。为了进一步对步骤S210、S220和S230的执行过程进行说明,下面以搜索词“汽车贴膜”为例进行更具体的描述。首先通过步骤S210,可以知道“汽车贴膜”的类别为美容,类别ID为38。然后,通过步骤S220,可以确定类别与“汽车贴膜”相同的分词为“贴膜”,“贴膜”的分类贡献度特征为0.909091。在通过步骤S230确定“贴膜”的关联词和每个关联词的相关性信息后,所获取的关于搜索词“汽车贴膜”的相关数据示例如下:
随后,方法200执行步骤S240。在步骤S240中,利用每个搜索词的类别、每个搜索词中类别与其相同的分词和每个分词的关联词来训练分类模型。根据本发明一个实施例,分类模型为SVM(SupportVectorMachine,支持向量机)学习模型。SVM是一个有监督的机器学习模型,可以用于分类问题。为了简化描述,这里不再对SVM进行赘述。为了便于分类模型的计算,这里可以将每个搜索词的ID转化为特征向量。具体转换方式例如为One-hotRepresentation(一个长向量表示)是用一个很长的向量来表示一个词,向量的长度为词典的大小,向量的分量只有一个1,其他全为0,1的位置对应该词在词典中的位置。在步骤S240中,通过哈希(hash)表对ID分配一个词向量。例如,“镀膜”的id是3,则其特征向量表示为[0001000000000000...]。这里,每个搜索词的相关数据可以转化为用户向量表示的一条样本。这样,可以根据每一条样本对分类模型进行训练,以获取用于机器分类的经过训练的模型。
如上所述,根据本发明的方法200基于用户历史搜索记录、关键词分类词典,以及预定网站的网页信息,经过数据处理获取到可用于训练机器分类模型的样本,进而利用样本训练出分类准确度很高的分类模型。
图3示出了根据本发明一些实施例的对搜索词分类的方法300的流程图。这里对搜索词分类的方法300适于在计算设备中执行。这里,计算设备可以是单独的服务器,或者分布式计算集群中的各个组件,本发明对此不做过多限制。更具体地,方法300可以在根据本发明的分类器(140)中执行,但不限于此。
如图3所示,方法300始于步骤S310。在步骤S310中,对搜索词执行分词操作以生成一个或多个分词。具体而言,搜索词是在线根据用户对预订网站(例如汽车之家)内容的查询输入结果。这里对用户输入的方式不做过多限定,例如可以是文字输入、语音等方式。所输入的内容可以归一化为搜索词。
随后,方法300进入步骤S320。在步骤S320中,将步骤S310中生成的每个分词作为一个第一特征项。每个第一特征项的属性包括其权重特征。例如,权重特征为分词的词频(TermFrequency,TF)。一个分词的词频为该分词在搜索词中出现的次数与搜索词中分词总数的比值。
随后,方法300进入步骤S330。在步骤S330中,查询每个第一特征项的关联词,并将这个第一特征项的每个关联词作为这个搜索词的一个第二特征项。每个第二特征项的属性包括这个第二特征项与相关联的第一特征项的相似度特征值。这里,查询第一特征项的关联词是通过词聚类模型来查询的。这里的词聚类模型可以是步骤S230中所生成的,但不限于此。考虑到在线查询关联词会比较耗时,为了提高在线分类效率,这里可以在线下对一些分词进行提前查询,并将查询结果以key-value方式将分词及其关联词存储在一个词表中。这样,在需要获取分词的关联词时,可以直接从这个词表中查询,以提高分类效率。下面以搜索词“漆面镀晶”进行更具体的示例说明。“漆面镀晶”在分词操作后,生成两个分词“漆面”和“镀晶”,其权重特征值分别为:0.47619、0.47619。
“漆面”的关联词及相似度特征值如下:
漆:0.792601油漆:0.715072抛光:0.685086打蜡:0.681351镀后:0.602837蜡:0.589598镀膜:0.588997打腊:0.573639封釉:0.570923上光:0.562571划痕:0.55131护理:0.550871
“镀晶”的关联词及相似度特征值如下:
晶镀:0.604298镀晶液:0.603366镀晶膜:0.591985先镀:0.584102亚路发:0.58365镀瓷:0.567906镀:0.562394镀晶剂:0.560946镀过:0.553089渡膜:0.549001铂光:0.540932透明膜:0.540698度膜:0.532224美容店:0.532207
如上所述,“漆面镀晶”的特征包括2个第一特征项:“漆面”和“镀晶”,以及与这两个的第一特征项相关的第二特征项,以表格方式示例的“漆面镀晶”的特征数据如下:
随后,在步骤S340中,将搜索词的第一特征项和第二特征项代入到分类模型中,以返回这个搜索词的分类结果。这里,代入到分类模型的第一和第二特征项是以向量形式表示的。分类模型例如为通过方法200所训练的分类模型,但不限于此。如上所述,根据本发明的方法300可以对搜索词进行特征扩展操作,进而通过机器分类模型,可以对搜索词进行高准确度的分类。
图4示出了根据本发明一些实施例的对搜索词分类的方法400的流程图。对搜索词分类的方法400适于在计算设备中执行。这里,计算设备可以是单独的服务器,或者分布式计算集群中的各个组件,本发明对此不做过多限制。计算设备包括关键词存储器,始于存放关键词分类词典。该词典中每个关键词具有代表用户搜索意图的类别信息。
如图4所示,方法400始于步骤S410。在步骤S410中,对用户输入的搜索词进行归一化操作。根据本发明一个实施例,归一化操作包括对搜索词按字节进行遍历操作,将英文字母全部转换为小写,以及将中文繁体转换为简体,但不限于此。例如,“奥迪A6L”转换为“奥迪a6l”,“宝馬”转换为“宝马”。总之,方法400通过步骤S410对搜索词进行规范性表示。
随后,方法400进入步骤S420,根据关键词分类词典对经过归一化处理的搜索词执行分类查询,并返回所查询到的第一分类结果。例如,在搜索词为“奔驰sl级”,通过查询分类词典,可以确定第一分类结果为车系。
另外,如果通过步骤S420未成功对搜索词进行分类,方法400还可以选择执行步骤S430。在步骤S430中,对搜索词执行纠错操作,并对经过纠错的搜索词再次执行分类查询以返回第二分类结果。这里,之所以执行纠错操作,是因为搜索词有可能存在输入错误。纠错操作例如可以通过N-Gram语言模型来进行。N-Gram模型基于这样一种假设,第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。例如,“马沙拉蒂”经过纠错后正确的词是“玛莎拉蒂”,用户输入的搜索词“baoma”,纠错后为“宝马”。对经过纠错操作后的搜索词,可以再次通过关键词分类词表进行分类,以返回第二分类结果。
需要说明的是,步骤S410、S420和S430可以很大概率的对搜索词进行分类,但有可能未成功对搜索词进行分类。由此,在步骤S430中没有获取到第二分类结果时,方法400还可以选择执行步骤S440。在步骤S440中,对搜索词执行模式串提取操作,以获取该搜索词的第三分类结果。具体而言,模式串提取操作主要是提取特殊短语串。如果经过模式串提取后,获取到关键词,则返回类别作为第三分类结果。例如,搜索词为“30w左右的车”,在步骤S440中,通过正则表达式"[0-9.]{1,}(万|w){1}(元)?(左右|级)?"匹配出“30万元左右”这个价格模式串,在分类时认为是通过价格找车,即第三分类结果为找车类。
如果在步骤S440中未成功获取到第三分类结果,方法400可以执行步骤S450。步骤S350与前文中步骤S310一致,这里不再赘述。可选地,方法400还包括步骤S460。在步骤S460中,根据关键词分类词典,判断步骤S450中获取的分词的类别,然后确定搜索词的类别。具体地,如果所有分词包括关键词分类词典中一个关键词,则将这个关键词的类别作为这个搜索词的类别。如果所有分词包括关键词分类词典中多个关键词,则将这多个关键词中优先级最高的关键词的类别作为该搜索词的类别。如果步骤S460没有获取到搜索词的类别,方法400可以执行步骤S470、S480和S490,以便对搜索词进行基于分类模型的分类。其中,步骤S470与步骤S320一致,步骤S480与步骤S330一致,步骤S490与步骤S340一致,这里不再赘述。
如上所述,根据本发明的方法400可以将规则分类方式(基于关键词分类词典)和机器分类方式(例如经过训练的SVM模型)相结合,可以极大提高搜索词的分类准确度。例如,在利用方法400对汽车之家的搜索词进行分类时,有很高的召回率。
图5示出了根据本发明一些实施例的训练搜索词分类模型的装置500的框图。装置500适于驻留在计算设备中。这里,计算设备可以是单独的服务器,或者分布式计算集群中的各个组件,本发明对此不做过多限制。
如图5所示,装置500包括关键词存储器510、第一获取单元520、第二获取单元530、第三获取单元540和训练单元550。
关键词存储器510适于存储关键词分类词典。该词典中每个关键词具有代表用户搜索意图的类别信息。关键词分类词典例如可以包括上文提到的预定网站(例如汽车之家)所在领域内的标准数据词典、人工标注和线下挖掘数据等。
第一获取单元520适于从用户历史搜索记录中获取搜索词的集合,并获取该集合中每个搜索词的类别。其中,每个搜索词的类别是基于关键词分类词典得到的。在根据本发明一个实施例中,如果一个搜索词包括关键词分类词典中一个关键词,第一获取单元520将这个关键词的类别作为这个搜索词的类别。如果这个搜索词包括关键词分类词典中多个关键词,第一获取单元520将这多个关键词中优先级最高的关键词的类别作为该搜索词的类别。
第二获取单元530适于获取每个搜索词中类别与其相同的分词。所获取的每个分词的属性包括该分词的分类贡献度特征。具体而言,第二获取单元530首先利用所述关键词分类词典对每个搜索词执行分词操作,并提取类别与这个搜索词相同的分词。然后,第二获取单元530利用下述公式计算所提取的每个分词的分类贡献特征:
t=1/(n+x)其中,t为该分词的分类贡献值,n表示类别与这个搜索词相同的分词总数,x的取值范围为0.01-0.5。
第三获取单元540适于获取每个搜索词中类别与其相同的每个分词的关联词。所获取的每个关联词的属性包括表示这个关联词与相关联分词语义相似度的特征。具体地,在根据本发明一个实施例中,第三获取单元540首先获取预定网站的至少一部分网页信息。然后,第三获取单元540利用关键词分类词典对所获取的网页信息执行分词操作,还可以选择对执行分词操作所获取的分词执行去重操作,然后生成分词集合。随后,第三获取单元540对分词集合执行词聚类操作,以获取所获取的网页信息对应的词聚类模型。这里,第三获取单元540可以利用开源的word2vec对该分词集合执行词聚类操作。基于词聚类模型,第三获取单元540对每个分词执行词扩展操作,以获取每个分词的关联词。这里,表示关联词与相关联分词语义相似度的特征例如为余弦距离。
训练单元550适于利用每个搜索词的类别、每个搜索词中类别与其相同的分词和每个分词的关联词来训练分类模型。在根据本发明一个实施例中,分类模型为SVM模型。具体地,训练单元550首先将每个搜索词的类别、类别与这个搜索词相同的分词和类别与这个搜索词相同的每个分词的关联词转化为用向量表示的一条样本。然后,训练单元550利用所生成的每条样本对分类模型的参数进行训练。应注意,装置500的实施方式与基于图2对方法200的说明一致,这里不再赘述。
图6示出了根据本发明一些实施例的对搜索词分类的装置600的框图。装置600适于驻留在计算设备中。这里,计算设备可以是单独的服务器,或者分布式计算集群中的各个组件,本发明对此不做过多限制。也可以认为,根据本发明的分类器(160)可以包括装置600。
如图6所示,装置600包括分词单元610、扩展单元620和第一分类单元630。
分词单元610适于对搜索词执行分词操作,并将所生成的每个分词作为该搜索词的一个第一特征项。每个第一特征项的属性包括其权重特征。第一特征项的权重特征例如为词频权重。词频权重为第一特征项在所述搜索词中出现的次数与该搜索词的分词总数的比值。
扩展单元620,适于查询每个第一特征项的关联词,并将这个第一特征项的每个关联词作为这个搜索词的一个第二特征项。每个第二特征项的属性包括该第二特征项与相关联的第一特征项的相似度特征值。
第一分类单元630适于将搜索词的第一特征项和第二特征项代入到分类模型中,以返回这个搜索词的类别。这里,分类模型例如是通过上文中装置500获取的。
图7示出了根据本发明一些实施例的对搜索词分类的装置700的框图。如图7所示,装置700包括分词单元710、扩展单元720、第一分类单元730、关键词存储器740、第二分类单元750、第三分类单元760和第四分类单元770。其中,分词单元710、扩展单元720、第一分类单元730与图6中分词单元610、扩展单元620和第一分类单元630的实施方式一致,这里不再赘述。
关键词存储器740适于存放关键词分类词典。该词典中每个关键词具有代表用户搜索意图的类别信息。根据本发明一个实施例,第二分类单元750可以在分词单元710执行分词操作之前,对用户输入的搜索词进行归一化操作。然后,第二分类单元750根据关键词分类词典对经过归一化处理的搜索词执行分类查询,并返回所查询到的第一分类结果。如果未查询到该搜索词的第一分类结果,第二分类单元750对该搜索词执行纠错操作,并对经过纠错的搜索词再次执行分类查询以返回第二分类结果。如果成功返回对搜索词的第一分类结果或第二分类结果,第二分类单元750可以指示分词单元710不再执行对搜索词的分词操作。
第三分类单元760适于在第二分类单元750未成功返回第二分类结果时,对搜索词执行模式串提取操作,以获取该搜索词的第三分类结果,并在获取第三分类结果成功时指示分词单元710不再执行所述分词操作。
第四分类单元770,适于在分词单元710对搜索词执行分词操作之后和生成第一特征项之前,基于分词操作得到的所有分词执行基于关键词分类词典的分类操作。如果所有分词包括关键词分类词典中一个关键词,第四分类单元770将这个关键词的类别作为这个搜索词的类别。如果所有分词包括关键词分类词典中多个关键词,第四分类单元770将这多个关键词中优先级最高的关键词的类别作为该搜索词的类别。在基于所有分词得到这个搜索词的类别时,第四分类单元770指示分词单元710不再生成第一特征项和指示所述扩展单元720不再生成第二特征项。
A6、如A4所述的方法,其中,所述对所述分词集合执行词聚类操作的步骤包括:利用word2vec对该分词集合执行词聚类操作。A7、如A1-A6中任一项所述的方法,其中所述表示这个关联词与相关联分词语义相似度的特征为余弦距离。A8、如A1-A7中任一项所述的方法,其中,所述分类模型为SVM模型。A9、如A1-A8中任一项所述的方法,其中,所述利用每个搜索词的类别、每个搜索词中类别与其相同的分词和每个分词的关联词来训练分类模型的步骤包括:将每个搜索词的类别、类别与这个搜索词相同的分词和类别与这个搜索词相同的每个分词的关联词转化为用向量表示的一条样本;以及利用所生成的每条样本对分类模型的参数进行训练。B11、如B10所述的方法,其中,每个所述第一特征项的权重特征为词频权重,该词频权重为这个第一特征项在所述搜索词中出现的次数与该搜索词的分词总数的比值。B12、如B10或B11所述的方法,其中所述计算设备包括关键词存储器,适于存储关键词分类词典,该词典中每个关键词具有代表用户搜索意图的类别信息,在对搜索词执行分词操作之前,该方法还包括:对用户输入的搜索词进行归一化操作;根据关键词分类词典对经过归一化处理的搜索词执行分类查询,并返回所查询到的第一分类结果;如果未查询到该搜索词的第一分类结果,对该搜索词执行纠错操作,并对经过纠错的搜索词再次执行分类查询以返回第二分类结果;以及如果成功返回对搜索词的第一分类结果或第二分类结果,则不再执行对搜索词的分词操作。B13、如B11所述的方法,还包括:如果对经过纠错的搜索词执行分类查询未返回第二分类结果,则对该搜索词执行模式串提取操作,以获取该搜索词的第三分类结果,并在获取第三分类结果成功时不再执行所述分词操作。B14、如B11所述的方法,在对所述搜索词执行分词操作之后,且生成所述第一特征项和第二特征项之前,该方法还包括:基于该分词操作得到的所有分词,如果所有分词包括所述关键词分类词典中一个关键词,则将这个关键词的类别作为这个搜索词的类别;如果所有分词包括所述关键词分类词典中多个关键词,则将这多个关键词中优先级最高的关键词的类别作为该搜索词的类别;以及在基于所有分词得到这个搜索词的类别时,不再生成所述第一特征项和所述第二特征项。B15、如B10-B14中任一项所述的方法,其中,所述分类模型是通过如A1-A9中任一项所述的训练搜索词分类模型的方法得到的。C17、如C16所述的装置,其中所述第一获取单元适于根据下述方式获取该搜索词的集合中每个搜索词的类别:如果这个搜索词包括所述关键词分类词典中一个关键词,则将这个关键词的类别作为这个搜索词的类别;以及如果这个搜索词包括所述关键词分类词典中多个关键词,则将这多个关键词中优先级最高的关键词的类别作为该搜索词的类别。C18、如C16或C17所述的装置,其中,所述第二获取单元适于根据下述方式获取每个搜索词中与其类别相同的分词:利用所述关键词分类词典对每个搜索词执行分词操作,并提取类别与这个搜索词相同的分词;以及利用下述公式计算所提取的每个分词的分类贡献特征:
t=1/(n+x)其中,t为该分词的分类贡献值,n表示类别与这个搜索词相同的分词总数,x的取值范围为0.01-0.5。C19、如C16-C18中任一项所述的装置,其中,所述第三获取单元适于根据下述方式获取每个搜索词中类别与其相同的每个分词的关联词:获取预定网站的至少一部分网页信息;利用所述关键词分类词典对所获取的网页信息执行分词操作,以生成分词集合;对该分词集合执行词聚类操作,以获取所获取的网页信息对应的词聚类模型;以及基于该词聚类模型,对所述每个分词执行词扩展操作,以获取每个分词的关联词。C20、如C19所述的装置,其中,所述第三获取单元根据下述方式利用所述关键词分类词典对所获取的网页信息执行分词操作,以生成分词集合:对执行分词操作所获取的分词执行去重操作,并将去重后的所有分词作为所述分词集合。C21、如C19所述的装置,其中,所述第三获取单元根据下述方式对所述分词集合执行词聚类操作:利用word2vec对该分词集合执行词聚类操作。C22、如C16-C21中任一项所述的装置,其中所述表示这个关联词与相关联分词语义相似度的特征为余弦距离。C23、如C16-C22中任一项所述的装置,其中,所述分类模型为SVM模型。C24、如C16-C23中任一项所述的装置,其中,所述训练单元适于根据下述方式利用每个搜索词的类别、每个搜索词中类别与其相同的分词和每个分词的关联词来训练分类模型:将每个搜索词的类别、类别与这个搜索词相同的分词和类别与这个搜索词相同的每个分词的关联词转化为用向量表示的一条样本;以及利用所生成的每条样本对分类模型的参数进行训练。D26、如D25所述的装置,其中,每个所述第一特征项的权重特征为词频权重,该词频权重为这个第一特征项在所述搜索词中出现的次数与该搜索词的分词总数的比值。D27、如D25或D26所述的装置,还包括:关键词存储器,适于存储关键词分类词典,该词典中每个关键词具有代表用户搜索意图的类别信息;第二分类单元,适于在对搜索词执行分词操作之前,对用户输入的搜索词进行归一化操作,根据关键词分类词典对经过归一化处理的搜索词执行分类查询,并返回所查询到的第一分类结果,如果未查询到该搜索词的第一分类结果,对该搜索词执行纠错操作,并对经过纠错的搜索词再次执行分类查询以返回第二分类结果,和如果成功返回对搜索词的第一分类结果或第二分类结果,则指示所述分词单元不再执行对搜索词的分词操作。D28、如D26所述的装置,还包括第三分类单元,适于在所述第二分类单元未返回第二分类结果时,对所述搜索词执行模式串提取操作,以获取该搜索词的第三分类结果,并在获取第三分类结果成功时指示所述分词单元不再执行所述分词操作。D29、如权利要求D26所述的装置,还包括第四分类单元,适于:在所述分词单元对所述搜索词执行分词操作之后和生成所述第一特征项之前,基于分词操作得到的所有分词,如果所有分词包括所述关键词分类词典中一个关键词,则将这个关键词的类别作为这个搜索词的类别,如果所有分词包括所述关键词分类词典中多个关键词,则将这多个关键词中优先级最高的关键词的类别作为该搜索词的类别,在基于所有分词得到这个搜索词的类别时,指示分词单元不再生成所述第一特征项和指示所述扩展单元不再生成所述第二特征项。D30、如求D25-D29中任一项所述的装置,其中,所述分类模型是通过所述的训练搜索词分类模型的装置得到的。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。
Claims (10)
1.一种训练搜索词分类模型的方法,适于在计算设备中执行,该计算设备包括关键词存储器,适于存储关键词分类词典,该词典中每个关键词具有代表用户搜索意图的类别信息,该方法包括:
从用户历史搜索记录中获取搜索词的集合,并获取该集合中每个搜索词的类别,其中每个搜索词的类别是基于关键词分类词典得到的;
获取每个搜索词中类别与其相同的分词,所获取的每个分词的属性包括该分词的分类贡献度特征;
获取每个搜索词中类别与其相同的每个分词的关联词,所获取的每个关联词的属性包括表示这个关联词与相关联分词语义相似度的特征;以及
利用每个搜索词的类别、每个搜索词中类别与其相同的分词和每个分词的关联词来训练分类模型。
2.如权利要求1所述的方法,其中所述获取该搜索词的集合中每个搜索词的类别的步骤包括:
如果这个搜索词包括所述关键词分类词典中一个关键词,则将这个关键词的类别作为这个搜索词的类别;以及
如果这个搜索词包括所述关键词分类词典中多个关键词,则将这多个关键词中优先级最高的关键词的类别作为该搜索词的类别。
3.如权利要求1或2所述的方法,其中,所述获取每个搜索词中与其类别相同的分词的步骤包括:
利用所述关键词分类词典对每个搜索词执行分词操作,并提取类别与这个搜索词相同的分词;以及
利用下述公式计算所提取的每个分词的分类贡献特征:
t=1/(n+x)其中,t为该分词的分类贡献值,n表示类别与这个搜索词相同的分词总数,x的取值范围为0.01-0.5。
4.如权利要求1-3中任一项所述的方法,其中,所述获取每个搜索词中类别与其相同的每个分词的关联词的步骤包括:
获取预定网站的至少一部分网页信息;
利用所述关键词分类词典对所获取的网页信息执行分词操作,以生成分词集合;
对该分词集合执行词聚类操作,以获取所获取的网页信息对应的词聚类模型;
基于该词聚类模型,对所述每个分词执行词扩展操作,以获取每个分词的关联词。
5.如权利要求4所述的方法,其中,所述利用所述关键词分类词典对所获取的网页信息执行分词操作,以生成分词集合的步骤包括:
对执行分词操作所获取的分词执行去重操作,并将去重后的所有分词作为所述分词集合。
6.一种对搜索词分类的方法,适于在计算设备中执行,该方法包括:
对搜索词执行分词操作以生成一个或多个分词;
将所生成的每个分词作为该搜索词的一个第一特征项,每个第一特征项的属性包括这个第一特征项的权重特征;
查询每个第一特征项的关联词,并将这个第一特征项的每个关联词作为这个搜索词的一个第二特征项,每个第二特征项的属性包括该第二特征项与相关联的第一特征项的相似度特征值;以及
将该搜索词的第一特征项和第二特征项代入到分类模型中,以返回这个搜索词的类别。
7.一种训练搜索词分类模型的装置,适于在计算设备中驻留,该装置包括:
关键词存储器,适于存储关键词分类词典,该词典中每个关键词具有代表用户搜索意图的类别信息;
第一获取单元,适于从用户历史搜索记录中获取搜索词的集合,并获取该集合中每个搜索词的类别,其中每个搜索词的类别是基于关键词分类词典得到的;
第二获取单元,适于获取每个搜索词中类别与其相同的分词,所获取的每个分词的属性包括该分词的分类贡献度特征;
第三获取单元,适于获取每个搜索词中类别与其相同的每个分词的关联词,所获取的每个关联词的属性包括表示这个关联词与相关联分词语义相似度的特征;以及
训练单元,适于利用每个搜索词的类别、每个搜索词中类别与其相同的分词和每个分词的关联词来训练分类模型。
8.一种对搜索词分类的装置,适于在计算设备中驻留,该装置包括:
分词单元,适于对搜索词执行分词操作,并将所生成的每个分词作为该搜索词的一个第一特征项,每个第一特征项的属性包括这个第一特征项的权重特征;
扩展单元,适于查询每个第一特征项的关联词,并将这个第一特征项的每个关联词作为这个搜索词的一个第二特征项,每个第二特征项的属性包括该第二特征项与相关联的第一特征项的相似度特征值;以及
第一分类单元,适于将该搜索词的第一特征项和第二特征项代入到分类模型中,以返回这个搜索词的类别。
9.一种计算设备,包括如权利要求7所述的训练搜索词分类模型的装置。
10.一种搜索引擎,包括如权利要求8所述的对搜索词分类的装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610016083.2A CN105589972B (zh) | 2016-01-08 | 2016-01-08 | 训练分类模型的方法及装置、对搜索词分类的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610016083.2A CN105589972B (zh) | 2016-01-08 | 2016-01-08 | 训练分类模型的方法及装置、对搜索词分类的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105589972A true CN105589972A (zh) | 2016-05-18 |
CN105589972B CN105589972B (zh) | 2019-03-15 |
Family
ID=55929551
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610016083.2A Active CN105589972B (zh) | 2016-01-08 | 2016-01-08 | 训练分类模型的方法及装置、对搜索词分类的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105589972B (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599054A (zh) * | 2016-11-16 | 2017-04-26 | 福建天泉教育科技有限公司 | 一种题目分类及推送的方法及系统 |
CN106897919A (zh) * | 2017-02-28 | 2017-06-27 | 百度在线网络技术(北京)有限公司 | 用车类型预测模型建立、信息提供方法及装置 |
CN107273501A (zh) * | 2017-06-16 | 2017-10-20 | 合肥美的智能科技有限公司 | 语料生成方法及系统、智能设备和计算机装置 |
CN107480162A (zh) * | 2017-06-15 | 2017-12-15 | 北京百度网讯科技有限公司 | 基于人工智能的搜索方法、装置、设备及计算机可读存储介质 |
CN108304354A (zh) * | 2018-01-25 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 一种预测模型训练方法及装置、存储介质、电子设备 |
CN108491406A (zh) * | 2018-01-23 | 2018-09-04 | 深圳市阿西莫夫科技有限公司 | 信息分类方法、装置、计算机设备和存储介质 |
CN108763200A (zh) * | 2018-05-15 | 2018-11-06 | 达而观信息科技(上海)有限公司 | 中文分词方法及装置 |
CN108776679A (zh) * | 2018-05-30 | 2018-11-09 | 百度在线网络技术(北京)有限公司 | 一种搜索词的分类方法、装置、服务器及存储介质 |
CN108920666A (zh) * | 2018-07-05 | 2018-11-30 | 苏州思必驰信息科技有限公司 | 基于语义理解的搜索方法、系统、电子设备及存储介质 |
CN109800296A (zh) * | 2019-01-21 | 2019-05-24 | 四川长虹电器股份有限公司 | 一种基于用户真实意图的语意模糊识别方法 |
CN109828981A (zh) * | 2017-11-22 | 2019-05-31 | 阿里巴巴集团控股有限公司 | 一种数据处理方法及计算设备 |
CN110147426A (zh) * | 2017-12-01 | 2019-08-20 | 北京搜狗科技发展有限公司 | 一种查询文本的分类标签确定方法及相关装置 |
CN110955822A (zh) * | 2018-09-25 | 2020-04-03 | 北京京东尚科信息技术有限公司 | 商品搜索方法和装置 |
CN111061835A (zh) * | 2019-12-17 | 2020-04-24 | 医渡云(北京)技术有限公司 | 查询方法及装置、电子设备和计算机可读存储介质 |
CN106971000B (zh) * | 2017-04-12 | 2020-04-28 | 北京焦点新干线信息技术有限公司 | 一种搜索方法及装置 |
CN111291812A (zh) * | 2020-02-11 | 2020-06-16 | 浙江大华技术股份有限公司 | 属性类别的获取方法及装置、存储介质、电子装置 |
CN112507181A (zh) * | 2019-09-16 | 2021-03-16 | 百度在线网络技术(北京)有限公司 | 搜索请求分类方法、装置、电子设备及存储介质 |
CN113887245A (zh) * | 2021-12-02 | 2022-01-04 | 腾讯科技(深圳)有限公司 | 一种模型训练方法及相关装置 |
CN114040012A (zh) * | 2021-11-01 | 2022-02-11 | 东莞深创产业科技有限公司 | 一种信息查询推送方法、装置及计算机设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130060808A1 (en) * | 2009-05-27 | 2013-03-07 | International Business Machines Corporation | Document processing method and system |
CN103425710A (zh) * | 2012-05-25 | 2013-12-04 | 北京百度网讯科技有限公司 | 一种基于主题的搜索方法和装置 |
CN104111933A (zh) * | 2013-04-17 | 2014-10-22 | 阿里巴巴集团控股有限公司 | 获取业务对象标签、建立训练模型的方法及装置 |
CN104462272A (zh) * | 2014-11-25 | 2015-03-25 | 百度在线网络技术(北京)有限公司 | 搜索需求分析方法和装置 |
CN104537101A (zh) * | 2015-01-12 | 2015-04-22 | 杏树林信息技术(北京)有限公司 | 医学信息搜索引擎系统和搜索方法 |
-
2016
- 2016-01-08 CN CN201610016083.2A patent/CN105589972B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130060808A1 (en) * | 2009-05-27 | 2013-03-07 | International Business Machines Corporation | Document processing method and system |
CN103425710A (zh) * | 2012-05-25 | 2013-12-04 | 北京百度网讯科技有限公司 | 一种基于主题的搜索方法和装置 |
CN104111933A (zh) * | 2013-04-17 | 2014-10-22 | 阿里巴巴集团控股有限公司 | 获取业务对象标签、建立训练模型的方法及装置 |
CN104462272A (zh) * | 2014-11-25 | 2015-03-25 | 百度在线网络技术(北京)有限公司 | 搜索需求分析方法和装置 |
CN104537101A (zh) * | 2015-01-12 | 2015-04-22 | 杏树林信息技术(北京)有限公司 | 医学信息搜索引擎系统和搜索方法 |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599054B (zh) * | 2016-11-16 | 2019-12-24 | 福建天泉教育科技有限公司 | 一种题目分类及推送的方法及系统 |
CN106599054A (zh) * | 2016-11-16 | 2017-04-26 | 福建天泉教育科技有限公司 | 一种题目分类及推送的方法及系统 |
CN106897919A (zh) * | 2017-02-28 | 2017-06-27 | 百度在线网络技术(北京)有限公司 | 用车类型预测模型建立、信息提供方法及装置 |
CN106971000B (zh) * | 2017-04-12 | 2020-04-28 | 北京焦点新干线信息技术有限公司 | 一种搜索方法及装置 |
CN107480162A (zh) * | 2017-06-15 | 2017-12-15 | 北京百度网讯科技有限公司 | 基于人工智能的搜索方法、装置、设备及计算机可读存储介质 |
CN107273501A (zh) * | 2017-06-16 | 2017-10-20 | 合肥美的智能科技有限公司 | 语料生成方法及系统、智能设备和计算机装置 |
CN109828981A (zh) * | 2017-11-22 | 2019-05-31 | 阿里巴巴集团控股有限公司 | 一种数据处理方法及计算设备 |
CN110147426B (zh) * | 2017-12-01 | 2021-08-13 | 北京搜狗科技发展有限公司 | 一种查询文本的分类标签确定方法及相关装置 |
CN110147426A (zh) * | 2017-12-01 | 2019-08-20 | 北京搜狗科技发展有限公司 | 一种查询文本的分类标签确定方法及相关装置 |
CN108491406A (zh) * | 2018-01-23 | 2018-09-04 | 深圳市阿西莫夫科技有限公司 | 信息分类方法、装置、计算机设备和存储介质 |
CN108304354B (zh) * | 2018-01-25 | 2021-08-24 | 腾讯科技(深圳)有限公司 | 一种预测模型训练方法及装置、存储介质、电子设备 |
CN108304354A (zh) * | 2018-01-25 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 一种预测模型训练方法及装置、存储介质、电子设备 |
CN108763200A (zh) * | 2018-05-15 | 2018-11-06 | 达而观信息科技(上海)有限公司 | 中文分词方法及装置 |
CN108776679A (zh) * | 2018-05-30 | 2018-11-09 | 百度在线网络技术(北京)有限公司 | 一种搜索词的分类方法、装置、服务器及存储介质 |
CN108920666A (zh) * | 2018-07-05 | 2018-11-30 | 苏州思必驰信息科技有限公司 | 基于语义理解的搜索方法、系统、电子设备及存储介质 |
CN108920666B (zh) * | 2018-07-05 | 2021-02-26 | 苏州思必驰信息科技有限公司 | 基于语义理解的搜索方法、系统、电子设备及存储介质 |
CN110955822B (zh) * | 2018-09-25 | 2024-02-06 | 北京京东尚科信息技术有限公司 | 商品搜索方法和装置 |
CN110955822A (zh) * | 2018-09-25 | 2020-04-03 | 北京京东尚科信息技术有限公司 | 商品搜索方法和装置 |
CN109800296B (zh) * | 2019-01-21 | 2022-03-01 | 四川长虹电器股份有限公司 | 一种基于用户真实意图的语意模糊识别方法 |
CN109800296A (zh) * | 2019-01-21 | 2019-05-24 | 四川长虹电器股份有限公司 | 一种基于用户真实意图的语意模糊识别方法 |
CN112507181A (zh) * | 2019-09-16 | 2021-03-16 | 百度在线网络技术(北京)有限公司 | 搜索请求分类方法、装置、电子设备及存储介质 |
CN112507181B (zh) * | 2019-09-16 | 2023-09-29 | 百度在线网络技术(北京)有限公司 | 搜索请求分类方法、装置、电子设备及存储介质 |
CN111061835A (zh) * | 2019-12-17 | 2020-04-24 | 医渡云(北京)技术有限公司 | 查询方法及装置、电子设备和计算机可读存储介质 |
CN111061835B (zh) * | 2019-12-17 | 2023-09-22 | 医渡云(北京)技术有限公司 | 查询方法及装置、电子设备和计算机可读存储介质 |
CN111291812B (zh) * | 2020-02-11 | 2023-10-17 | 浙江大华技术股份有限公司 | 属性类别的获取方法及装置、存储介质、电子装置 |
CN111291812A (zh) * | 2020-02-11 | 2020-06-16 | 浙江大华技术股份有限公司 | 属性类别的获取方法及装置、存储介质、电子装置 |
CN114040012A (zh) * | 2021-11-01 | 2022-02-11 | 东莞深创产业科技有限公司 | 一种信息查询推送方法、装置及计算机设备 |
CN114040012B (zh) * | 2021-11-01 | 2023-04-21 | 东莞深创产业科技有限公司 | 一种信息查询推送方法、装置及计算机设备 |
CN113887245B (zh) * | 2021-12-02 | 2022-03-25 | 腾讯科技(深圳)有限公司 | 一种模型训练方法及相关装置 |
CN113887245A (zh) * | 2021-12-02 | 2022-01-04 | 腾讯科技(深圳)有限公司 | 一种模型训练方法及相关装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105589972B (zh) | 2019-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105589972A (zh) | 训练分类模型的方法及装置、对搜索词分类的方法及装置 | |
Liu et al. | Movie rating and review summarization in mobile environment | |
US9280535B2 (en) | Natural language querying with cascaded conditional random fields | |
US9910930B2 (en) | Scalable user intent mining using a multimodal restricted boltzmann machine | |
Do et al. | Legal question answering using ranking SVM and deep convolutional neural network | |
Asghar et al. | Sentiment analysis on youtube: A brief survey | |
US8296309B2 (en) | System and method for high precision and high recall relevancy searching | |
US11741384B2 (en) | Adaptable systems and methods for discovering intent from enterprise data | |
US20100125531A1 (en) | System and method for the automated filtering of reviews for marketability | |
US8768921B2 (en) | Computer-implemented information reuse | |
US20130080434A1 (en) | Systems and Methods for Contextual Analysis and Segmentation Using Dynamically-Derived Topics | |
US20120102057A1 (en) | Entity name matching | |
US20140006369A1 (en) | Processing structured and unstructured data | |
US11429792B2 (en) | Creating and interacting with data records having semantic vectors and natural language expressions produced by a machine-trained model | |
Strötgen et al. | An event-centric model for multilingual document similarity | |
WO2021121252A1 (en) | Comment-based behavior prediction | |
US20140040297A1 (en) | Keyword extraction | |
US9613135B2 (en) | Systems and methods for contextual analysis and segmentation of information objects | |
Li et al. | Customer voice sensor: A comprehensive opinion mining system for call center conversation | |
Ren et al. | Resource recommendation algorithm based on text semantics and sentiment analysis | |
Ren et al. | Hybrid Chinese text classification approach using general knowledge from Baidu Baike | |
CA3179975A1 (en) | Classification of user sentiment based on machine learning | |
Gunawan et al. | Dwipa ontology II: A semi-automatic ontology population process for Bali Tourism based on the ontology population methodology | |
Lavanya et al. | Sentiment classification of web opinion documents | |
Warnakulasooriya et al. | Automobile product ranking based on the singlish comments in social media platforms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20190808 Address after: Room 1110, Room 1111, Floor 11, Block 3 B, Danling Street, Haidian District, Beijing Patentee after: Che Zhi interconnect (Beijing) Technology Co., Ltd. Address before: Room 311, Enterprise Service Center, No. 1 Second Avenue, Airport International Logistics District, Tianjin Binhai New Area, 300300 Patentee before: TIANJIN CHESHIJIA TECHNOLOGY CO., LTD. |
|
TR01 | Transfer of patent right |