CN103577423B - 关键词分类方法及系统 - Google Patents

关键词分类方法及系统 Download PDF

Info

Publication number
CN103577423B
CN103577423B CN201210257075.9A CN201210257075A CN103577423B CN 103577423 B CN103577423 B CN 103577423B CN 201210257075 A CN201210257075 A CN 201210257075A CN 103577423 B CN103577423 B CN 103577423B
Authority
CN
China
Prior art keywords
key word
classification
similarity
sorted
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210257075.9A
Other languages
English (en)
Other versions
CN103577423A (zh
Inventor
顾湘余
黄云平
郭宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201210257075.9A priority Critical patent/CN103577423B/zh
Publication of CN103577423A publication Critical patent/CN103577423A/zh
Application granted granted Critical
Publication of CN103577423B publication Critical patent/CN103577423B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9574Browsing optimisation, e.g. caching or content distillation of access to content, e.g. by caching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种关键词分类方法,包括以下步骤:获取待分类关键词;在预存的关联表中查询是否存在与所述待分类关键词匹配的关键词,若是,则将所述预存的关联表中与所述关键词关联的类别确定为所述待分类关键词的类别,反之,则进行下一步骤;从预存的关联表中选取与所述待分类关键词相似的关键词;确定所述待分类关键词与所述被选取的关键词所属类别的相似度;根据所述待分类关键词与所述被选取的关键词所属类别的相似度确定所述待分类关键词的类别。本申请还提供了一种实现前述方法的关键词分类系统。本申请的关键词分类方法及系统,能够提高关键词分类效率,从而加快系统的响应速度,减少系统运算量。

Description

关键词分类方法及系统
技术领域
本申请涉及计算机数据处理技术领域,特别是涉及一种关键词分类方法及系统。
背景技术
在电子商务网站中,用户通常会通过输入关键词的方式来搜索其所需要的产品。一般情况下,用户输入的关键词通常都是单个的词或者由少数几个词组成的词组,这样可以更好的突出重点,搜索到其所需要的产品,但是因为输入的信息过少,可能导致输入的意义不明确,无法准确提供搜索结果,即可能出现大量与用户需求不相关的结果。因此,在这种情况下,往往需要事先对关键词进行分类,确定用户在输入某个关键词时,其所期望的搜索结果所属的类别,并主要展示该类别的产品,以提高搜索结果的准确性。
常见的对关键词进行分类的方法包括采用人工标注或者引入用户历史数据进行分类。
人工标注,即预先标注一部分关键词所属的类别,然后利用这些被标注了类别的关键词来训练一个分类器(分类模型),再利用训练好的分类器来预测未标注的关键词的类别。基于人工标注的方法,分类效果会受到标注的关键词个数的影响,若标注的较少,无法实现准确的分类,若标注的过多,则需要大量的人力和时间,效率会较低。
因为电子商务网站中会预先设定每个产品所属的类别,引入用户历史数据对关键词进行分类的过程为:获取用户在进行搜索后对搜索结果的点击数据;分析搜索结果中每一个被点击的结果所属的类别;将点击率较高的类别确定为当前关键词的类别。即根据用户在利用某一关键词进行搜索后的点击行为来反推当前关键词的类别。在此过程中,需要对搜索结果中每一个被点击的结果进行分析并确定类别,然后再根据各类别被点击的次数来确定关键词的类别。当搜索结果中,被点击的结果数量较多时,因为需要逐一计算,这就增加了计算量和计算时间,同时会消耗较多的系统资源,降低了关键词分类的效率。另外,此种方法,对于出现频率较高的关键词来说,具有较好的效果,但是,对于出现频率较低或者从未出现过的关键词,因为用户点击数据较少或者甚至没有,采用此种方法往往无法对出现频率较低或者从未出现过的关键词进行分类,因此,还需要采用额外的方法,例如人工统计等方式来实现分类,这同样会影响关键词分类的效率。
发明内容
本申请提供一种关键词分类方法及系统,能够解决关键词分类效率较低的问题。
为了解决上述问题,本申请公开了一种关键词分类方法,包括以下步骤:
获取待分类关键词;
在预存的关联表中查询是否存在与所述待分类关键词匹配的关键词,若是,则将所述预存的关联表中与所述关键词关联的类别确定为所述待分类关键词的类别,反之,则进行下一步骤;
从预存的关联表中选取与所述待分类关键词相似的关键词;
确定所述待分类关键词与所述被选取的关键词所属类别的相似度;
根据所述待分类关键词与所述被选取的关键词所属类别的相似度确定所述待分类关键词的类别。
进一步地,所述方法还包括确定预存的关联表,所述确定过程为:
获取用户历史查询数据,根据所述查询数据选取查询次数超过查询阈值的关键词;
获取所述关键词的用户历史点击数据,根据所述点击数据确定所述关键词所属的类别;
建立关联表,将所述关键词与其所属的类别的关联关系记载在关联表中。
进一步地,所述根据所述点击数据确定所述关键词所属的类别包括:
确定所有被点击的结果所对应的类别;
统计每一类别出现的次数;
将出现次数超过分类阈值的类别确定为当前关键词的类别。
进一步地,所述根据所述点击数据确定所述关键词所属的类别包括:
确定所有被点击的结果所对应的类别;
统计每一类别出现的次数;
计算关键词与所属类别的相似度;
将出现次数超过分类阈值且相似度超过相似阈值的类别确定为当前关键词的类别。
进一步地,所述选取与所述待分类关键词相似的关键词包括:
计算待分类关键词与预存的关联表中每一个关键词的相似度;
按照相似度值从大到小的顺序选取排在前面预定数量的关键词作为与所述待分类关键词相似的关键词,或者选取相似度值超过相似阈值的关键词作为与所述待分类关键词相似的关键词。
进一步地,所述计算待分类关键词与预存的关联表中每一个关键词的相似度包括:
确定当前类别与所述被选取的关键词中其所对应的所有关键词的平均相似度;
确定当前类别与所述被选取的关键词中其所对应的所有关键词的最大相似度;
确定当前类别与所述待分类关键词的文字内容相似度;
根据前述三者确定所述待分类关键词与当前类别的相似度。
进一步地,所述根据所述查询数据选取查询次数超过查询阈值的关键词之后还包括对选取的关键词进行扩展,所述扩展包括:
获取所述关键词的用户历史点击数据;
从历史点击数据中提取每一个被点击的搜索结果中所包含的关键词;
将所述提取的关键词作为扩展关键词。
进一步地,所述根据所述点击数据确定所述关键词所属的类别之后还包括对确定的类别进行扩展,所述扩展包括:
获取当前类别下电子商务网站卖家所发布的商品展示条目中被用户点击的条目;
提取每一个条目所属的类别;
将提取的类别作为扩展类别。
进一步地,所述根据所述待分类关键词与所述被选取的关键词所属类别的相似度确定所述待分类关键词的类别包括:
根据相似度对各类别进行排序,将排在前面预定数量的类别作为待分类关键词所属的类别;和/或
将相似度值超过预定值的类别作为待分类关键词所属的类别。
本申请还公开了一种关键词分类系统,包括:
待分类关键词获取模块,用于获取待分类关键词;
关键词匹配模块,用于在预存的关联表中查询是否存在与所述待分类关键词匹配的关键词,若是,则将所述预存的关联表中与所述关键词关联的类别确定为所述待分类关键词的类别,反之,则将查询结果传递给关键词选取模块;
关键词选取模块,用于从预存的关联表中选取与所述待分类关键词相似的关键词;
相似度确定模块,用于确定所述待分类关键词与所述被选取的关键词所属类别的相似度;
关键词类别确定模块,用于根据所述待分类关键词与所述被选取的关键词所属类别的相似度确定所述待分类关键词的类别。
进一步地,所述系统还包括关联表确定模块,用于确定预存的关联表,所述关联表确定模块包括:
用户历史查询数据获取单元,用于获取用户历史查询数据,根据所述查询数据选取查询次数超过查询阈值的关键词;
用户历史点击数据获取单元,用于获取所述关键词的用户历史点击数据,根据所述点击数据确定所述关键词所属的类别;
关联表建立单元,用于建立关联表,将所述关键词与其所属的类别的关联关系记载在关联表中。
进一步地,所述用户历史点击数据获取单元包括:
类别确定子单元,用于确定所有被点击的结果所对应的类别;
次数统计子单元,用于统计每一类别出现的次数;
类别确定子单元,用于将出现次数超过分类阈值的类别确定为当前关键词的类别。
进一步地,所述用户历史点击数据获取单元包括:
类别确定子单元,用于确定所有被点击的结果所对应的类别;
次数统计子单元,用于统计每一类别出现的次数;
相似度计算子单元,用于计算关键词与所属类别的相似度;
类别确定子单元,用于将出现次数超过分类阈值且相似度超过相似阈值的类别确定为当前关键词的类别。
进一步地,所述关键词选取模块包括:
相似度值计算单元,用于计算待分类关键词与预存的关联表中每一个关键词的相似度;
选取单元,用于按照相似度值从大到小的顺序选取排在前面预定数量的关键词作为与所述待分类关键词相似的关键词,或者选取相似度值超过相似阈值的关键词作为与所述待分类关键词相似的关键词。
进一步地,所述相似度值计算单元包括:
平均相似度确定子单元,用于确定当前类别与所述被选取的关键词中其所对应的所有关键词的平均相似度;
最大相似度确定子单元,用于确定当前类别与所述被选取的关键词中其所对应的所有关键词的最大相似度;
文字内容相似度确定子单元,用于确定当前类别与所述待分类关键词的文字内容相似度;
相似度确定子单元,用于根据前述三者确定所述待分类关键词与当前类别的相似度。
进一步地,所述关联表确定模块还包括关键词扩展单元,用于对选取的关键词进行扩展,所述扩展包括:
获取所述关键词的用户历史点击数据;
从历史点击数据中提取每一个被点击的搜索结果中所包含的关键词;
将所述提取的关键词作为扩展关键词。
进一步地,所述关联表确定模块还包括类别扩展单元,用于对确定的类别进行扩展,所述扩展包括:
获取当前类别下电子商务网站卖家所发布的商品展示条目中被用户点击的条目;
提取每一个条目所属的类别;
将提取的类别作为扩展类别。
进一步地,所述关键词类别确定模块包括:
排序确定单元,用于根据相似度对各类别进行排序,将排在前面预定数量的类别作为待分类关键词所属的类别;和/或
相似度值确定单元,用于将相似度值超过预定值的类别作为待分类关键词所属的类别。
与现有技术相比,本申请包括以下优点:
本申请的关键词分类方法及系统通过预先设置关联表来存储常见的关键词以及对应的类别,当待分类关键词为非常见关键词,在关联表中无法查询到时,通过从关联表中选取相似关键词,并计算该相似关键词对应的类别与待分类关键词的相似度的方式来确定待分类关键词的分类。前述过程中,主要通过实时获取相似关键词的用户历史数据,并根据这些历史数据来确定待分类关键词以及选取的相似关键词所对应的各类别的相似度,从而确定待分类关键词的类别。在此过程中,因为依照于已经分类的关联表,对于已经分类的关键词无需再分类,对于关联表中不存在的关键词再进行实时分类,从而可以减少计算量,提高分类处理的效率和速度,并避免重复分类而占用过多的系统资源。其次,利用关联表中对应关键词的用户历史数据来对关键词进行分类,可以使出现频率较低的关键词也能够准确分类,无需再额外处理,从而可以提高分类效率以及准确性。
另外,在分类过程中,除了考虑关联表中与待分类关键词相似的关键词,还会根据实际情况增加扩展关键词和/或类别,从而增加了类别和关键词的范围,提高了结果的准确性。
当然,实施本申请的任一产品不一定需要同时达到以上所述的所有优点。
附图说明
图1是本申请的关键词分类实现的系统架构图;
图2是本申请的关键词分类方法实施例一的流程图;
图3是本申请的关键词分类系统实施例一的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
本申请的关键词分类系统可以作为服务器中的一个功能模块设置于服务器中,也可以作为一个独立的系统与服务器进行数据交互。参照图1,示出实现本申请的关键词分类系统架构图,其作为独立的系统与服务器进行数据交互。首先,关键词分类系统从服务器中获取需要进行分类的关键词,从预存在服务器中的关联表中查询,并根据查询结果进行后续处理,若预存在服务器中的关联表中存在于该待分类关键词匹配的关键词,则直接将关联表中该关键词所对应的类别作为待分类关键词的类别,反之,则实时对待分类关键词进行分类。实时分类的过程主要为通过获取该关键词相关的历史数据来进行,依照历史数据确定该待分类关键词的最终类别。最后,关键词分类系统将实时的分类结果传递给服务器。
下面对本申请的关键词分类方法及系统进行详细的说明。
参照图2,示出本申请的一种关键词分类方法实施例一,包括以下步骤:
步骤101,获取待分类关键词。
步骤102,在预存的关联表中查询是否存在与所述待分类关键词匹配的关键词,若是,则将所述预存的关联表中与所述关键词关联的类别确定为所述待分类关键词的类别,反之,则进行下一步骤。
预存的关联表为预先根据用户历史数据确定,并存储在服务器中。具体的确定过程如下:
A1,获取用户历史查询数据,根据所述查询数据选取查询次数超过查询阈值的关键词;
A2,获取所述关键词的用户历史点击数据,根据所述点击数据确定所述关键词所属的类别;
A3,建立关联表,将所述关键词与其所属的类别的关联关系记载在关联表中。
查询阈值可以根据实际需要来设定,可以是40次、50次或者其他数值,本申请对此并不限定。
每个关键词所属的类别可能只有一个,也可能有多个。根据关键词进行查询后,会出现较多的查询结果,系统中预先会对所有产品进行分类,即每一个查询结果都会有其对应的类别。当用户根据自己的需求点击对应的查询结果,系统则会获取该查询结果所对应的类别。当用户点击多个查询结果,则可能会出现多个对应的类别,最后,对各个类别出现的次数进行统计,则可以确定出关键词所属的类别。也即,根据点击数据确定所述关键词所属的类别具体可以采用如下方式实现:
确定所有被点击的结果所对应的类别;
统计每一类别出现的次数;
将出现次数超过分类阈值的类别确定为当前关键词的类别。
确定了关键词所属类别之后,则可以建立每个关键词与其所属类别的关联表,从而便于后续使用查询。
可以理解,在确定关键词所属类别时,除了考虑点击次数,还可以考虑关键词与所属类别的相似度。即在确定了被点击的结果所对应的类别后,还包括计算关键词与所属类别的相似度,最终将相似度超过相似阈值,且出现次数超过分类阈值的类别确定为当前关键词的类别。采用此种方式,可以更好的保证关键词以及所属类别的相关性,从而提高关键词分类的准确性。
步骤103,从预存的关联表中选取与所述待分类关键词相似的关键词。
其中,选取与所述待分类关键词相似的关键词包括:
计算待分类关键词与预存的关联表中每一个关键词的相似度;
按照相似度值从大到小的顺序选取排在前面预定数量的关键词作为与所述待分类关键词相似的关键词,或者选取相似度值超过相似阈值的关键词作为与所述待分类关键词相似的关键词。
其中,相似度可以采用余弦公式计算,即,将需要计算相似度的二者用向量的形式表示,然后计算两个向量之间的夹角的余弦值,通过余弦值来表示二者的相似度,余弦值越大,相似度越高。
步骤104,确定所述待分类关键词与所述被选取的关键词所属类别的相似度。
待分类关键词与被选取的关键词所属类别的相似度可以直接由待分类关键词与该类别的文字描述的相似度来表示。此时可以采用余弦公式来计算两者的相似度,具体过程如前所述,在此不再赘述。
可以理解,为了使相似度更为客观准确,还可以采用如下方法来计算待分类关键词与被选取的关键词所属类别的相似度:
确定当前类别与所述被选取的关键词中其所对应的所有关键词的平均相似度;
确定当前类别与所述被选取的关键词中其所对应的所有关键词的最大相似度;
确定当前类别与所述待分类关键词的文字内容相似度;
根据前述三者确定所述待分类关键词与当前类别的相似度。
在此过程中,除了考虑待分类关键词与当前类别的问题内容相似度,还考虑了当前类别与被选取的关键词中其所对应的关键词的平均相似度以及最大相似度,可以使待分类关键词与当前类别的相似度更为客观和准确,从而提高分类结果的准确性。
例如,假设待分类的关键词为a,与待分类关键词a相关的两个关键词分别为a1,a2,每个相关关键词对应两个类别,其中,a1对应类别c1和c2,a2对应类别c1和c3,a1跟c1的相似度为w1,a1跟c2的相似度w2为,a2跟c1的相似度为w3,a2跟c3的相似度为w4。
那么采用前述方法来计算,a和c1的相似度的具体过程如下:
首先,因为类别c1对应的关键词包括a1和a2,那么可以确定c1与a1和a2的平均相关度,具体值为(w1+w3)÷2;
其次,确定c1与a1和a2的最大相似度,假设w3大于w1,那么w3为最大相似度;
再次,确定a和c1的文字内容相似度,假设最终计算值为w7。
那么,可以得出,a与c1的相似度为:x×(w1+w3)÷2+y×w3+z×w7。其中,x,y,z表示三种相似度的权重值,其具体的取值可以根据实际情况来设定,本申请对此并不限制。
步骤105,根据所述待分类关键词与所述被选取的关键词所属类别的相似度确定所述待分类关键词的类别。
待分类关键词的类别确定标准可以根据实际情况来设定。可以根据相似度对各类别进行排序,选取排在前面一定数量的类别作为待分类关键词所属的类别,例如,选取一个、两个、三个或者更多的类别作为待分类关键词所属的类别。也可以直接根据相似度值进行确定,将待分类关键词与所述被选取的关键词所属类别的相似度超过一定阈值的类别都确定为待分类关键词所属的类别。或者,可以采用前述二者结合的方式,即需要排序在一定数量,且相似度值超过一定阈值的类别才能作为待分类关键词所属的类别。
优选地,为了更好的对关键词进行分类,在前述步骤A1之后还可以包括以下步骤:
A11,对选取的关键词进行扩展。
所述扩展包括获取所述关键词的用户历史点击数据,提取每一个被点击的搜索结果中所包含的关键词,将所述提取的关键词作为扩展关键词。此时,前述步骤A2中所指的关键词同时包括步骤A1中得到的关键词(原始关键词)以及步骤A11中得到的扩展关键词,后续处理过程则相同,在此不再赘述。
优选地,为了更好的对关键词进行分类,在前述步骤A2之后还可以包括以下步骤:
A21,对确定的类别进行扩展。
所述扩展包括获取当前类别下电子商务网站卖家所发布的商品展示条目中被用户点击的条目,提取每一个条目所属的类别,将提取的类别作为扩展类别。此时,前述步骤A3所指的类别同时包括步骤A2中得到的类别(原始类别)以及步骤A21中得到的扩展类别,后续处理过程则相同,在此不再赘述。
优选地,为了提高选取的效率以及加快分类处理速度和效率,当预存的关联表中关键词包含扩展关键词时,还可以确定扩展关键词与原始关键词的权重,在选取相似关键词时,可以按照权重大小进行选取,从而保证权重较高的优先被选取,以提高效率。可以理解,每个关键词的权重可以由基础权重和加权权重组成。基础权重指预先统计的所有关键词的权重值,加权权重指在以原始关键词作为搜索条件进行搜索时,根据各关键词在被点击的搜索结果中出现的次数确定的权重值。
本申请的关键词分类方法通过预先设置关联表来存储常见的关键词以及对应的类别,当待分类关键词为非常见关键词,在关联表中无法查询到时,通过从关联表中选取相似关键词,并计算该相似关键词对应的类别与待分类关键词的相似度的方式来确定待分类关键词的分类。前述过程中,主要通过实时获取相似关键词的用户历史数据,并根据这些历史数据来确定待分类关键词以及选取的相似关键词所对应的各类别的相似度,从而确定待分类关键词的类别。在此过程中,因为依照于已经分类的关联表,对于已经分类的关键词无需再分类,可以直接使用原有分类。对于关联表中不存在的关键词再进行实时分类,从而可以减少计算量,提高分类处理的效率和速度,并避免重复分类而占用过多的系统资源。另外,利用关联表中对应关键词的用户历史数据来对关键词进行分类,可以使出现频率较低的关键词也能够准确分类,无需再额外处理,从而可以提高分类效率以及准确性。
另外,在分类过程中,除了考虑关联表中与待分类关键词相似的关键词,还会根据实际情况增加扩展关键词和/或类别,从而增加了类别和关键词的范围,提高了结果的准确性。
参照图3,示出本申请的关键词分类系统实施例一,包括待分类关键词获取模块10、关键词匹配模块20、关键词选取模块30、相似度确定模块40和关键词类别确定模块50。
待分类关键词获取模块10,用于获取待分类关键词。
关键词匹配模块20,用于在预存的关联表中查询是否存在与所述待分类关键词匹配的关键词,若是,则将所述预存的关联表中与所述关键词关联的类别确定为所述待分类关键词的类别,反之,则将查询结果传递给关键词选取模块。
关键词选取模块30,用于从预存的关联表中选取与所述待分类关键词相似的关键词。优选地,关键词选取模块包括相似度值计算单元和选取单元。相似度值计算单元,用于计算待分类关键词与预存的关联表中每一个关键词的相似度。选取单元,用于按照相似度值从大到小的顺序选取排在前面预定数量的关键词作为与所述待分类关键词相似的关键词,或者选取相似度值超过相似阈值的关键词作为与所述待分类关键词相似的关键词。
优选地,相似度值计算单元可以包括平均相似度确定子单元、最大相似度确定子单元、文字内容相似度确定子单元和相似度确定子单元。平均相似度确定子单元,用于确定当前类别与所述被选取的关键词中其所对应的所有关键词的平均相似度。最大相似度确定子单元,用于确定当前类别与所述被选取的关键词中其所对应的所有关键词的最大相似度。文字内容相似度确定子单元,用于确定当前类别与所述待分类关键词的文字内容相似度。相似度确定子单元,用于根据前述三者确定所述待分类关键词与当前类别的相似度。
相似度确定模块40,用于确定所述待分类关键词与所述被选取的关键词所属类别的相似度。
关键词类别确定模块50,用于根据所述待分类关键词与所述被选取的关键词所属类别的相似度确定所述待分类关键词的类别。优选地,关键词类别确定模块包括排序确定单元和/或相似度值确定单元。排序确定单元,用于根据相似度对各类别进行排序,将排在前面预定数量的类别作为待分类关键词所属的类别。相似度值确定单元,用于将相似度值超过预定值的类别作为待分类关键词所属的类别。
优选地,该系统还包括关联表确定模块,用于确定预存的关联表,所述关联表确定模块包括用户历史查询数据获取单元、用户历史点击数据获取单元和关联表建立单元。其中,用户历史查询数据获取单元,用于获取用户历史查询数据,根据所述查询数据选取查询次数超过查询阈值的关键词。用户历史点击数据获取单元,用于获取所述关键词的用户历史点击数据,根据所述点击数据确定所述关键词所属的类别。关联表建立单元,用于建立关联表,将所述关键词与其所属的类别的关联关系记载在关联表中。
优选地,用户历史点击数据获取单元包括类别确定子单元、次数统计子单元和类别确定子单元。类别确定子单元,用于确定所有被点击的结果所对应的类别。次数统计子单元,用于统计每一类别出现的次数。类别确定子单元,用于将出现次数超过分类阈值的类别确定为当前关键词的类别。
可以理解,用户历史点击数据获取单元也可以包括类别确定子单元,、次数统计子单元、相似度计算子单元和类别确定子单元。类别确定子单元,用于确定所有被点击的结果所对应的类别。次数统计子单元,用于统计每一类别出现的次数。相似度计算子单元,用于计算关键词与所属类别的相似度。类别确定子单元,用于将出现次数超过分类阈值且相似度超过相似阈值的类别确定为当前关键词的类别。
优选地,关联表确定模块还包括关键词扩展单元,用于对选取的关键词进行扩展,所述扩展包括获取所述关键词的用户历史点击数据;从历史点击数据中提取每一个被点击的搜索结果中所包含的关键词;将所述提取的关键词作为扩展关键词。
优选地,关联表确定模块还包括类别扩展单元,用于对确定的类别进行扩展,所述扩展包括获取当前类别下电子商务网站卖家所发布的商品展示条目中被用户点击的条目;提取每一个条目所属的类别;将提取的类别作为扩展类别。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本申请所提供的关键词分类方法及系统进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (18)

1.一种关键词分类方法,其特征在于,包括以下步骤:
获取待分类关键词;
在预存的关联表中查询是否存在与所述待分类关键词匹配的关键词,若是,则将所述预存的关联表中与所述关键词关联的类别确定为所述待分类关键词的类别,反之,则进行下一步骤;
从预存的关联表中选取与所述待分类关键词相似的关键词;
确定所述待分类关键词与所述被选取的关键词所属类别的相似度;
根据所述待分类关键词与所述被选取的关键词所属类别的相似度确定所述待分类关键词的类别。
2.如权利要求1所述的关键词分类方法,其特征在于,所述方法还包括确定预存的关联表,所述确定过程为:
获取用户历史查询数据,根据所述查询数据选取查询次数超过查询阈值的关键词;
获取所述关键词的用户历史点击数据,根据所述点击数据确定所述关键词所属的类别;
建立关联表,将所述关键词与其所属的类别的关联关系记载在关联表中。
3.如权利要求2所述的关键词分类方法,其特征在于,所述根据所述点击数据确定所述关键词所属的类别包括:
确定所有被点击的结果所对应的类别;
统计每一类别出现的次数;
将出现次数超过分类阈值的类别确定为当前关键词的类别。
4.如权利要求2所述的关键词分类方法,其特征在于,所述根据所述点击数据确定所述关键词所属的类别包括:
确定所有被点击的结果所对应的类别;
统计每一类别出现的次数;
计算关键词与所属类别的相似度;
将出现次数超过分类阈值且相似度超过相似阈值的类别确定为当前关键词的类别。
5.如权利要求1所述的关键词分类方法,其特征在于,所述选取与所述待分类关键词相似的关键词包括:
计算待分类关键词与预存的关联表中每一个关键词的相似度;
按照相似度值从大到小的顺序选取排在前面预定数量的关键词作为与所述待分类关键词相似的关键词,或者选取相似度值超过相似阈值的关键词作为与所述待分类关键词相似的关键词。
6.如权利要求5所述的关键词分类方法,其特征在于,所述计算待分类关键词与预存的关联表中每一个关键词的相似度包括:
确定当前类别与所述被选取的关键词中其所对应的所有关键词的平均相似度;
确定当前类别与所述被选取的关键词中其所对应的所有关键词的最大相似度;
确定当前类别与所述待分类关键词的文字内容相似度;
根据所述平均相似度、最大相似度和文字内容相似度确定所述待分类关键词与当前类别的相似度。
7.如权利要求2所述的关键词分类方法,其特征在于,所述根据所述查询数据选取查询次数超过查询阈值的关键词之后还包括对选取的关键词进行扩展,所述扩展包括:
获取所述关键词的用户历史点击数据;
从历史点击数据中提取每一个被点击的搜索结果中所包含的关键词;
将所述提取的关键词作为扩展关键词。
8.如权利要求2所述的关键词分类方法,其特征在于,所述根据所述点击数据确定所述关键词所属的类别之后还包括对确定的类别进行扩展,所述扩展包括:
获取当前类别下电子商务网站卖家所发布的商品展示条目中被用户点击的条目;
提取每一个条目所属的类别;
将提取的类别作为扩展类别。
9.如权利要求1所述的关键词分类方法,其特征在于,所述根据所述待分类关键词与所述被选取的关键词所属类别的相似度确定所述待分类关键词的类别包括:
根据相似度对各类别进行排序,将排在前面预定数量的类别作为待分类关键词所属的类别;和/或
将相似度值超过预定值的类别作为待分类关键词所属的类别。
10.一种关键词分类系统,其特征在于,包括:
待分类关键词获取模块,用于获取待分类关键词;
关键词匹配模块,用于在预存的关联表中查询是否存在与所述待分类关键词匹配的关键词,若是,则将所述预存的关联表中与所述关键词关联的类别确定为所述待分类关键词的类别,反之,则将查询结果传递给关键词选取模块;
关键词选取模块,用于从预存的关联表中选取与所述待分类关键词相似的关键词;
相似度确定模块,用于确定所述待分类关键词与所述被选取的关键词所属类别的相似度;
关键词类别确定模块,用于根据所述待分类关键词与所述被选取的关键词所属类别的相似度确定所述待分类关键词的类别。
11.如权利要求10所述的关键词分类系统,其特征在于,所述系统还包括关联表确定模块,用于确定预存的关联表,所述关联表确定模块包括:
用户历史查询数据获取单元,用于获取用户历史查询数据,根据所述查询数据选取查询次数超过查询阈值的关键词;
用户历史点击数据获取单元,用于获取所述关键词的用户历史点击数据,根据所述点击数据确定所述关键词所属的类别;
关联表建立单元,用于建立关联表,将所述关键词与其所属的类别的关联关系记载在关联表中。
12.如权利要求11所述的关键词分类系统,其特征在于,所述用户历史点击数据获取单元包括:
类别确定子单元,用于确定所有被点击的结果所对应的类别;
次数统计子单元,用于统计每一类别出现的次数;
类别确定子单元,用于将出现次数超过分类阈值的类别确定为当前关键词的类别。
13.如权利要求11所述的关键词分类系统,其特征在于,所述用户历史点击数据获取单元包括:
类别确定子单元,用于确定所有被点击的结果所对应的类别;
次数统计子单元,用于统计每一类别出现的次数;
相似度计算子单元,用于计算关键词与所属类别的相似度;
类别确定子单元,用于将出现次数超过分类阈值且相似度超过相似阈值的类别确定为当前关键词的类别。
14.如权利要求10所述的关键词分类系统,其特征在于,所述关键词选取模块包括:
相似度值计算单元,用于计算待分类关键词与预存的关联表中每一个关键词的相似度;
选取单元,用于按照相似度值从大到小的顺序选取排在前面预定数量的关键词作为与所述待分类关键词相似的关键词,或者选取相似度值超过相似阈值的关键词作为与所述待分类关键词相似的关键词。
15.如权利要求14所述的关键词分类系统,其特征在于,所述相似度值计算单元包括:
平均相似度确定子单元,用于确定当前类别与所述被选取的关键词中其所对应的所有关键词的平均相似度;
最大相似度确定子单元,用于确定当前类别与所述被选取的关键词中其所对应的所有关键词的最大相似度;
文字内容相似度确定子单元,用于确定当前类别与所述待分类关键词的文字内容相似度;
相似度确定子单元,用于根据所述平均相似度、最大相似度和文字内容相似度确定所述待分类关键词与当前类别的相似度。
16.如权利要求11所述的关键词分类系统,其特征在于,所述关联表确定模块还包括关键词扩展单元,用于对选取的关键词进行扩展,所述扩展包括:
获取所述关键词的用户历史点击数据;
从历史点击数据中提取每一个被点击的搜索结果中所包含的关键词;
将所述提取的关键词作为扩展关键词。
17.如权利要求11所述的关键词分类系统,其特征在于,所述关联表确定模块还包括类别扩展单元,用于对确定的类别进行扩展,所述扩展包括:
获取当前类别下电子商务网站卖家所发布的商品展示条目中被用户点击的条目;
提取每一个条目所属的类别;
将提取的类别作为扩展类别。
18.如权利要求10所述的关键词分类系统,其特征在于,所述关键词类别确定模块包括:
排序确定单元,用于根据相似度对各类别进行排序,将排在前面预定数量的类别作为待分类关键词所属的类别;和/或
相似度值确定单元,用于将相似度值超过预定值的类别作为待分类关键词所属的类别。
CN201210257075.9A 2012-07-23 2012-07-23 关键词分类方法及系统 Active CN103577423B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210257075.9A CN103577423B (zh) 2012-07-23 2012-07-23 关键词分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210257075.9A CN103577423B (zh) 2012-07-23 2012-07-23 关键词分类方法及系统

Publications (2)

Publication Number Publication Date
CN103577423A CN103577423A (zh) 2014-02-12
CN103577423B true CN103577423B (zh) 2016-12-07

Family

ID=50049228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210257075.9A Active CN103577423B (zh) 2012-07-23 2012-07-23 关键词分类方法及系统

Country Status (1)

Country Link
CN (1) CN103577423B (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933044B (zh) * 2014-03-17 2019-05-31 北京奇虎科技有限公司 应用卸载原因的分类方法及分类装置
CN105468621A (zh) * 2014-09-04 2016-04-06 上海尧博信息科技有限公司 一种专利检索用语义解码系统
CN105426369A (zh) * 2014-09-04 2016-03-23 上海尧博信息科技有限公司 一种专利检索用语义解码方法
CN104268287A (zh) * 2014-10-21 2015-01-07 中国建设银行股份有限公司 一种搜索提示方法及装置
CN105630827B (zh) * 2014-11-05 2019-04-02 阿里巴巴集团控股有限公司 一种信息处理方法、系统及辅助系统
CN105786810B (zh) * 2014-12-16 2019-07-12 阿里巴巴集团控股有限公司 类目映射关系的建立方法与装置
CN106326259A (zh) * 2015-06-26 2017-01-11 苏宁云商集团股份有限公司 搜索引擎中商品标签的构建方法、系统及搜索方法和系统
CN105989184A (zh) * 2015-08-25 2016-10-05 中国银联股份有限公司 一种分类方法及装置
CN105138680A (zh) * 2015-09-14 2015-12-09 郑州悉知信息科技股份有限公司 关键词分类方法、装置及产品搜索方法、装置
CN106980613B (zh) * 2016-01-15 2020-10-20 阿里巴巴集团控股有限公司 一种搜索导航方法及设备
CN105893606A (zh) * 2016-04-25 2016-08-24 深圳市永兴元科技有限公司 文本分类方法和装置
CN107766371B (zh) * 2016-08-19 2023-11-17 中兴通讯股份有限公司 一种文本信息分类方法及其装置
CN108241629A (zh) * 2016-12-23 2018-07-03 百度在线网络技术(北京)有限公司 关键词分组方法和装置
CN106649274A (zh) * 2016-12-27 2017-05-10 东华互联宜家数据服务有限公司 文本内容标签标记方法以及装置
CN108304417B (zh) * 2017-01-13 2021-09-17 北京京东尚科信息技术有限公司 信息处理方法和信息处理装置
CN107194769A (zh) * 2017-05-17 2017-09-22 东莞市华睿电子科技有限公司 一种基于用户搜索内容的商品推荐方法
CN107133358A (zh) * 2017-05-27 2017-09-05 郑州悉知信息科技股份有限公司 一种关键词分类方法及装置
CN107870984A (zh) * 2017-10-11 2018-04-03 北京京东尚科信息技术有限公司 识别搜索词的意图的方法和装置
CN108021605A (zh) * 2017-10-30 2018-05-11 北京奇艺世纪科技有限公司 一种关键词分类方法和装置
CN110019797A (zh) * 2017-11-15 2019-07-16 公安部户政管理研究中心 数据分类方法及装置
CN108491387B (zh) * 2018-03-20 2022-04-22 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN108734201B (zh) * 2018-04-26 2021-04-02 大连施米机电设备有限公司 基于分层原因分析法的核电厂经验反馈事件的分类方法及系统
CN110335114A (zh) * 2019-06-28 2019-10-15 香港乐蜜有限公司 产品的分类方法、装置及设备
CN111191614B (zh) * 2020-01-02 2023-08-29 中国建设银行股份有限公司 一种单据分类方法和装置
CN113724817A (zh) * 2021-08-31 2021-11-30 平安国际智慧城市科技股份有限公司 基于人工智能的知识推荐方法、装置、计算机设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1932817A (zh) * 2006-09-15 2007-03-21 陈远 通用互联网内容关键词交互系统
CN101087330A (zh) * 2006-06-09 2007-12-12 张逶 一种手机电话查询装置和方法
CN101196923A (zh) * 2006-11-28 2008-06-11 株式会社Opms 基于分类的广告系统和方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101087330A (zh) * 2006-06-09 2007-12-12 张逶 一种手机电话查询装置和方法
CN1932817A (zh) * 2006-09-15 2007-03-21 陈远 通用互联网内容关键词交互系统
CN101196923A (zh) * 2006-11-28 2008-06-11 株式会社Opms 基于分类的广告系统和方法

Also Published As

Publication number Publication date
CN103577423A (zh) 2014-02-12

Similar Documents

Publication Publication Date Title
CN103577423B (zh) 关键词分类方法及系统
CN103514181B (zh) 一种搜索方法和装置
CN102682001B (zh) 一种确定推荐词的方法及设备
JP5778255B2 (ja) 垂直検索に基づいたクエリの方法、システム、および装置
Qin et al. A new probabilistic model for rank aggregation
JP2013506189A (ja) クエリの一般属性に基づく情報の検索
CN103530299B (zh) 一种搜索结果的生成方法及装置
CN107491518A (zh) 一种搜索召回方法和装置、服务器、存储介质
JP2015537259A (ja) クリックスルー率に基づく検索結果の順位付け
TW201428513A (zh) 查詢詞融合方法,商品資訊發佈方法和搜尋方法及系統
US20090063294A1 (en) Scoring Feed Data Quality
CN103839172B (zh) 商品推荐方法及系统
CN106489146A (zh) 使用会话信息的查询重写
CN102043833A (zh) 一种基于查询词进行搜索的方法和搜索装置
CN106326318B (zh) 搜索方法及装置
JP6428795B2 (ja) モデル生成方法、単語重み付け方法、モデル生成装置、単語重み付け装置、デバイス、コンピュータプログラム及びコンピュータ記憶媒体
CN109325179A (zh) 一种内容推广的方法及装置
CN105869016A (zh) 一种基于卷积神经网络的点击通过率预估方法
CN104462327A (zh) 语句相似度的计算、搜索处理方法及装置
CN103123632A (zh) 搜索中心词确定方法及装置、搜索方法及搜索设备
CN112115709A (zh) 实体识别方法、装置、存储介质和电子设备
CN105786810B (zh) 类目映射关系的建立方法与装置
CN105550282A (zh) 利用多维数据预测用户兴趣的方法
CN105512298A (zh) 基于机器学习的感兴趣内容预测方法
CN103177374A (zh) 业务推荐方法和业务推荐系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant