CN103377232B - 标题关键词推荐方法及系统 - Google Patents

标题关键词推荐方法及系统 Download PDF

Info

Publication number
CN103377232B
CN103377232B CN201210125441.5A CN201210125441A CN103377232B CN 103377232 B CN103377232 B CN 103377232B CN 201210125441 A CN201210125441 A CN 201210125441A CN 103377232 B CN103377232 B CN 103377232B
Authority
CN
China
Prior art keywords
data
title
participle
participle data
key word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210125441.5A
Other languages
English (en)
Other versions
CN103377232A (zh
Inventor
朱道勇
董芳英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201210125441.5A priority Critical patent/CN103377232B/zh
Priority to TW101129976A priority patent/TW201344477A/zh
Priority to US13/866,953 priority patent/US9117006B2/en
Priority to EP13720670.2A priority patent/EP2842060A1/en
Priority to PCT/US2013/037537 priority patent/WO2013163062A1/en
Priority to JP2015509058A priority patent/JP5913736B2/ja
Publication of CN103377232A publication Critical patent/CN103377232A/zh
Priority to HK13114238.8A priority patent/HK1186806A1/zh
Application granted granted Critical
Publication of CN103377232B publication Critical patent/CN103377232B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web

Abstract

本申请公开了一种标题关键词推荐方法及系统,其中方法包括:接收数据对象;获取数据对象中标题的分词数据;从查询库中查询与所述标题的分词数据对应的关键词作为与所述标题相关的候选关键词;将候选关键词与所述标题的分词数据之间的相关性,与供求指数、基尼指数以及行业指数中的至少一个相结合来获取候选关键词与标题的分词数据之间的综合相关性;选择综合相关性排序前N个候选关键词作为所推荐的标题的关键词,N为自然数。本申请提供的方法及系统能够提供更为合理的标题关键词,使得数据对象获得更多的曝光量。

Description

标题关键词推荐方法及系统
技术领域
本申请涉及信息处理技术,尤其涉及一种标题关键词推荐方法及系统。
背景技术
在一些网站中,卖方用户为了使其产品、视频或图片等可以被访问网站的用户(以下简称搜索用户)看到,可以提供一些数据对象给网站。该数据对象通常包括用于描述产品的产品信息、用于描述视频的视频信息或用于描述图片的图片信息等文本数据,还可以包括图片、视频等。
通常,网站中的搜索引擎可以通过各数据对象的标题关键词来搜索与搜索用户的查询信息相关的数据对象。以数据对象的内容是用于描述产品的产品信息为例,在一些电子商务网站中,如果某条产品信息A的标题关键词被包括在搜索用户的查询信息中,则该条产品信息A将会被作为搜索结果,更有机会曝光显示给搜索用户。如果某条产品信息A的标题关键词总是不能或很多情况下不能被包括在搜索用户的查询信息中,则该条产品信息A的曝光量减小。可见,对于数据对象而言,选择合适的标题关键词,可以增大数据对象的曝光量,反之则会减小曝光量。另外,对于搜索用户而言,由于一些产品信息的标题关键词选择得不合适,因而使得搜索用户总是查询不到合适的产品信息或者查询到的产品信息与其查询意图不匹配,搜索用户不得不反复调整查询信息来进行查询,而搜索用户查询次数增多,会导致网站搜索引擎负荷增大。而且,如果搜索用户经常搜索不到合适的产品信息,也会降低用户体验。
为了使得数据对象的标题关键词尽可能地被包括在相关的查询信息中,可以通过对搜索日志全量进行分析来为数据对象推荐标题关键词。然而由于搜索日志全量的数据量庞大,运算过程复杂,对系统资源要求高,计算时间长,难以满足互联网领域中快速响应的要求。
发明内容
本申请针对现有技术中存在的问题,提供一种标题关键词推荐方法及系统,以增大数据对象的曝光量,而且所需计算量小,对系统资源要求低,计算时间短,能够满足互连网行业快速响应的业务要求。
本申请提供了一种标题关键词推荐方法,包括:
接收数据对象;
获取所述数据对象中标题的分词数据;
从查询库中查询与所述标题的分词数据对应的关键词作为与所述标题相关的候选关键词;所述查询库包括预先获取的分词数据以及各分词数据对应的关键词;
将所述候选关键词与所述标题的分词数据之间的相关性,与用于体现与所述候选关键词相关的供求关系的供求指数、用于体现基于所述候选关键词能够获得的数据对象曝光程度的基尼指数以及用于体现所述候选关键词与所述数据对象所属行业之间相关性的行业指数中的至少一个相结合,来获取所述候选关键词与所述标题的分词数据之间的综合相关性;
选择综合相关性排序前N个候选关键词作为推荐的所述标题的关键词,N为自然数。
本申请还提供了一种标题关键词推荐系统,包括:
接收模块,用于接收数据对象;
分词数据获取模块,与所述接收模块连接,用于获取所述数据对象中标题的分词数据;
查询模块,与所述分词数据获取模块连接,用于从查询库中查询与所述标题的分词数据对应的关键词作为与所述标题相关的候选关键词;所述查询库包括预先获取的分词数据以及各分词数据对应的关键词;
处理模块,与所述查询模块连接,用于将所述候选关键词与所述标题的分词数据之间的相关性,与用于体现与所述候选关键词相关的供求关系的供求指数、用于体现基于所述候选关键词能够获得的数据对象曝光程度的基尼指数以及用于体现所述候选关键词与所述数据对象所属行业之间相关性的行业指数中的至少一个相结合,来获取所述候选关键词与所述标题的分词数据之间的综合相关性;
选择模块,与所述处理模块连接,用于选择综合相关性排序前N个候选关键词作为推荐的所述标题的关键词,N为自然数。
本申请提供的标题关键词推荐方法及系统,在基于数据对象的标题的分词数据从查询库中获取候选关键词之后,将候选关键词与数据对象之间的相关性与供求指数、基尼指数以及行业指数这三者中的至少一者相结合来获取综合相关性,再根据综合相关性筛选出高质量的关键词作为标题的关键词。在获取综合相关性时,考虑基尼指数,则推荐的标题关键词可以使得数据对象具有更大的曝光量。如果考虑行业指数,则推荐的标题关键词可以使得数据对象在相关的行业中的曝光量增大。如果考虑供求指数,则相当于是根据当前的供求关系来推荐标题关键词,使得所推荐的标题关键词更加符合当前的供求关系,进而增大数据对象的曝光量。
此外,基于供求指数、基尼指数以及行业指数这三者中的至少一者来获取标题关键词,使得标题关键词能够体现当前的供求关系等。这样,标题的关键词被包括在相关查询信息中的几率增大,搜索用户无需反复调整查询信息即可查询到符合其意图的数据对象,能够减少搜索用户查询次数,减小搜索引擎的负荷。
而且,在本申请实施例提供的方法和系统中,在从查询库中获取候选关键词之后,可以基于候选关键词的供求指数、基尼指数和行业指数这几个指数来确定最终的标题关键词。而这几个指数可以预先获取,无需线上获取,这样,在线上推荐标题关键词时所涉及的计算量小,对系统资源要求低,而且可以满足快速响应的要求。
通过以下参照附图对优选实施例的说明,本申请的上述以及其它目的、特征和优点将更加明显。
附图说明
图1示例性示出本申请涉及到的操作环境的示意图;
图2示例性示出本申请标题关键词推荐方法实施例一的流程图;
图3示出本申请实施例中查询库中的数据组织形式;
图4示例性示出了一种电子商务平台的配置;
图5示例性示出了本申请标题关键词推荐方法实施例二的流程图;
图6示例性示出了图5中步骤202的具体步骤;
图7示例性示出了图5中步骤206的详细步骤;
图8示例性示出了本申请标题关键词推荐系统实施例的结构示意图。
具体实施方式
下面将详细描述本申请的实施例。应当注意,这里描述的实施例只用于举例说明,并不用于限制本申请。
图1示例性示出本申请涉及到的一种示例操作环境的示意图,标题关键词推荐系统1可以由一台或多台服务器组成,图1中以包括一台服务器11为例进行介绍。该服务器11中可以存储查询库11a,该查询库11a可以包括预先获取的分词数据以及各分词数据对应的关键词。
在本申请的实施例中,采用分词技术可以将一个字或词的序列分割成一个一个单独的字或词,分割出的这些单独的字或词称作分词数据。当对关键词应用分词技术时,可以将关键词看作是一个字或词的序列。基于不同的分词算法,可以获得不同的分词数据。
图2示例性示出本申请标题关键词推荐方法实施例一的流程图,包括:
步骤101、接收数据对象。具体地,服务器11可以接收数据对象,从而获取该数据对象的标题。
步骤102、获取数据对象中标题的分词数据。
具体地,服务器11可以采用各种分词技术获取标题的分词数据。标题的分词数据可以包括标题的核心名词、修饰名词和修饰词等。
其中,标题的核心名词是指能够表达该标题的核心含义的词,修饰名词是起到修饰作用的名词,修饰词是起到修饰作用的一些形容词或副词等,例如可以是一些描述颜色、尺寸、形状等的词。
例如,对于一个标题“红色MP3播放器”进行分词,可以获得“红色”、“MP3”和“播放器”这三条分词数据,其中“红色”是修饰词,“MP3”是修饰名词,“播放器”是核心名词。
步骤103、从查询库中查询与标题的分词数据对应的关键词作为与标题相关的候选关键词。查询库11a中包括预先获取的分词数据以及各分词数据对应的关键词。查询库11a中数据的组织形式可以采用倒排索引的形式,即建立从分词数据到关键词的映射,如图3所示。
在图3中,在查询库11a中分别建立了四个分词数据“红色”、“播放器”、“MP3”和“女装”到多个关键词的索引,分词数据“红色”对应于关键词A和关键词B,分词数据“播放器”对应于关键词C和关键词D,分词数据“MP3”对应于关键词A、关键词B和关键词C,分词数据“女装”对应于关键词A和关键词E。
在步骤103中,服务器11可以基于步骤102中获取的分词数据从查询库11a中查询。服务器11可以基于标题的所有分词数据从查询库11a中查询,也可以只基于标题的核心名词从查询库11a中查询。例如,如果标题的核心名词是“播放器”,则服务器11通过从查询库中查询,可以查询到分词数据“播放器”对应的关键词,即,关键词C和关键词D。
服务器11在查询出标题的分词数据对应的关键词之后,还可以获取各个关键词与分词数据的相关性,进而选择出与标题相关的候选关键词。可以将各关键词按照与分词数据的相关性排序,然后选择出排序靠前的一定数量的关键词作为与标题相关的候选关键词。候选关键词的数量可以根据系统的数据处理能力来设置,例如可以取排名前50的关键词作为候选关键词。
可以采用各种方式来获取各个关键词与分词数据的相关性,例如可以采用文本相关性方法,在本申请的实施例中并不限制具体的相关性算法。
步骤104、将候选关键词与标题的分词数据之间的相关性,与用于体现与候选关键词相关的供求关系的供求指数、用于体现基于候选关键词能够获得的数据对象曝光程度的基尼指数以及用于体现候选关键词与数据对象所属行业之间的相关性的行业指数中的至少一个相结合,来获取所述候选关键词与标题的分词数据之间的综合相关性。
在本申请的实施例中,综合相关性是指除了考虑候选关键词与标题的分词数据之间的相关性之外,还考虑了其他指数而获得的体现候选关键词与标题分词数据之间的相关程度的一个指数。
其中,供求指数的公式可以表示如下:
供求指数=与候选关键词相关的搜索量/供应的数据对象的数量 (1)
其中,供应的数据对象的数量可以由服务器从搜索引擎中获取。以电子商务领域为例,电子商务平台中的搜索引擎是指用于为电子商务平台中的用户提供搜索服务的引擎。例如,对于一个买家而言,当他希望搜索某一类产品时,可以通过向搜索引擎输入查询信息来获取搜索结果,查询信息可以包括多个搜索关键词,搜索引擎返回的搜索结果包括多个数据对象。搜索引擎在搜索时,可以基于数据对象的标题和属性等进行文本检索。
对于搜索引擎而言,与搜索关键词相关的数据对象数量庞大。为了提供最相关的结果,可以显示相关性较大的一些数据对象,其余的相关性较小的则不显示。例如,对于某个搜索关键词,如果返回结果数是1000条,则显示其中满足相关性要求的200条数据对象。将每条数据对象与搜索关键词之间的相关性(在本申请中称作mlr)分为从1档到12档这12个档位,对于第i条数据对象,mlr记为mlri。如果满足相关性要求的数据对象的条数小于200,例如为n条,则记mlr(n+1)、mlr(n+2)、......、mlr200均为0。利用公式sum(mlr1+...mlr200)/12+返回结果数*(1+mlr200)/2/12可以计算出总的供应的数据对象的数量(即,供求指数计算公式(1)中的分母)。其中,返回结果数是指与用户搜索关键词相关的所有数据对象的总数。
基尼指数可以用公式 来表示。将基于某一个关键词的数据对象依据各数据对象的曝光量分成n组,wi表示第i组的曝光占比。曝光占比是指每一组的曝光量与n组的总的曝光量的比值。
行业指数可以通过与数据对象相关的卖方用户主营行业(例如,可以来源于电子商务平台中的卖方用户属性)、数据对象所属行业(例如,可以来源于数据对象的属性)、关键词行业(例如,可以来源于搜索引擎返回的数据对象的行业)、行业相似度系数(来源于行业分析)等来诊断出候选关键词行业和数据对象所属行业之间的相关性。其中数据对象所属行业可以是指数据对象被发布(例如,可以是在电子商务平台中被发布)时所属的行业。
行业指数可以用如下公式(2)表示:
行业指数=M1*W1+M2*W2 (2)
其中,M1是关键词行业与数据对象所属行业之间的相似度系数,M2是关键词行业与卖方用户主营行业之间的相似度系数,W1和W2是权重值,例如,W1可以取值为0.75,W2可以取值为0.25。
利用公式(2)计算候选关键词的行业指数时,M1的值可以取候选关键词行业与数据对象所属行业之间的相似度系数,M2的值可以取候选关键词行业与卖方用户主营行业之间的相似度系数。
在获得了每个候选关键词的四类指数之后,即,候选关键词与标题的分词数据之间的相关性、供求指数、基尼指数和行业指数,可以分别为每个指数设置权重W11、W12、W13和W14,例如,这四个权重的取值可以分别是W11=0.4、W12=0.2、W13=0.1和W14=0.3。
根据一个实施例,可以将上述四个指数与各自的权重相乘来获得综合加权值,从而获得综合相关性。例如,可以通过线性回归的统计方法,经过归一化处理计算出综合相关性如下:综合相关性=1/(1+e-t),其中,t=各项指数的加权项+修正系数,e是自然对数的底数。其中,修正系数可以根据数据处理的需要来设置。
根据另一个实施例,也可以采用别的统计方法,不是将行业指数、供求指数和基尼指数这三个指数全部引入,而是将这三个指数中的一部分结合候选关键词与标题分词数据的相关性来计算综合相关性。
当然,在获取综合相关性时还可以考虑更多的指数,所考虑的指数应当能够获得合适的标题关键词,该合适的标题关键词可以提高数据对象的曝光量。
根据另一个实施例,各关键词的供求指数、基尼指数和行业指数等可以预先获取,例如可以将各个关键词的供求指数、基尼指数和行业指数等存储到一个指数库中。候选关键词与标题的分词数据之间的相关性可以存储在查询库中。在步骤103中获取候选关键词之后,从查询库中可以获取候选关键词与标题的分词数据之间的相关性,然后从指数库中可以获取各候选关键词对应的供求指数、基尼指数和行业指数。
步骤105、选择综合相关性排序前N个候选关键词作为推荐的标题的关键词,N为自然数。
在步骤105中,服务器11可以将各个候选关键词按照综合相关性从大到小的顺序排列,然后选择排序前N的候选关键词作为最终推荐的标题关键词。
对于卖方用户而言,在获取了服务器11推荐的标题关键词之后,可以依据服务器11所推荐的标题关键词修改他的标题,使得他的数据对象能够得到尽可能多的曝光量。
本申请提供的标题关键词推荐方法,在基于数据对象的标题的分词数据从查询库中获取候选关键词之后,将候选关键词与标题的分词数据之间的相关性与供求指数、基尼指数以及行业指数这三者中的至少一者相结合来获取综合相关性,再根据综合相关性筛选出高质量的关键词作为标题的关键词。在获取综合相关性时,考虑基尼指数,则推荐的标题关键词可以使得数据对象具有更大的曝光量。如果考虑行业指数,则推荐的标题关键词可以使得数据对象在相关的行业中的曝光量增大。如果考虑供求指数,则相当于是根据当前的供求关系来推荐标题关键词,使得所推荐的标题关键词更加符合当前的供求关系,进而增大数据对象的曝光量。
此外,基于供求指数、基尼指数以及行业指数这三者中的至少一者来获取标题关键词,使得标题的关键词能够体现当前的供求关系等。这样,标题的关键词被包括在相关查询信息中的几率增大,搜索用户无需反复调整查询信息即可查询到符合其意图的产品信息,能够减少搜索用户查询次数,减小搜索引擎的负荷。
而且,在本申请实施例提供的方法和系统中,在从查询库中获取候选关键词之后,可以基于候选关键词的供求指数、基尼指数和行业指数这几个指数来确定最终的标题关键词。而这几个指数可以预先获取,无需线上获取,这样,在线上推荐标题关键词时所涉及的计算量小,对系统资源要求低,而且可以满足快速响应的要求。
下面结合具体的电子商务平台的配置来更详细地描述本申请的实现方式。
图4示例性示出了一种电子商务平台的配置。该电子商务平台的配置包括基础数据层21、算法模型层(包括模型层22和算法层23)、应用接口层24。
基础数据层21为算法模型层和应用接口层24提供了基础数据,例如,关键词的分词数据21a、标题的分词数据21b、产品信息的属性数据21c和卖方用户数据21d等。例如,卖方用户数据21d包括该电子商务平台的会员的相关信息。
算法层23涉及关键词的各指数的算法23a、关键词与标题的分词数据的相关性算法23b、词与产品信息的关系算法23c、关键词与卖方用户数据关系算法23d等。词与产品信息的关系算法23c可以包括分词算法等。
模型层22涉及算法层23的各种算法对应的输出模型,例如基尼指数模型22a、供求指数模型22b、行业指数模型22c和相关性模型22d,模型层22还涉及关键词与产品信息相关性表22e和关键词与卖方用户表22f等。
应用接口层24涉及到各种具体的应用,例如,产品发布、优化的关键词推荐系统24a、招商系统24b、竞价词推荐系统24c以及其他应用24d。
在图4中还示出了计算模块25,该计算模块25可以进行从查询库中获取候选关键词的步骤、获取与卖方用户相关的标题关键词的步骤、获取各种指数的步骤,等等。
在该电子商务平台中还可以包括监控模块26,监控模块26可以进行业务监控。业务监控用于监控卖方用户是否会将所推荐的标题关键词添加到产品信息的标题中。
图5示例性示出了本申请标题关键词推荐方法实施例二的流程图。在实施例二中,主要以数据对象的内容是产品信息为例进行介绍。根据实施例二的方法包括以下步骤:
步骤201、接收产品信息。
步骤202、获取产品信息中标题的分词数据。
在步骤202中,可以从标题中获取初始分词数据;然后,获取各初始分词数据与产品信息之间的相关性;再从初始分词数据中选择与产品信息之间的相关性排名前M个初始分词数据作为标题的分词数据,M为自然数。
图6示例性示出了图5中步骤202的具体步骤,包括:
步骤2021、清洗产品信息的标题。例如,可以去除标题中的一些停词(stopword)、标点符号等。
步骤2022、分析该产品信息的标题,实现标题分词(可以通过分词词库来实现标题分词),获取标题的核心名词、修饰名词和修饰词等初始分词数据,并获得各个初始分词数据与产品信息之间的相关性。
可选地,可以通过行业融合性词库来获取各初始分词数据的权重。行业融合性词库包括通过行业数据分析得出的行业相关词库表以及与行业高度相关的核心词库。在步骤2022中获得初始分词数据之后,可以通过行业融合性词库来获取初始分词数据的行业与产品信息的行业(或卖方用户行业)之间的相似度,从而计算初始分词数据的权重。
可选地,在获取初始分词数据之后,可以通过分词融合性词库来对分词进行融合处理。
一些初始分词数据含义模糊,无法正确体现产品信息。例如经过标题分词处理后获得了一个分词数据“设备”,然而该分词数据无法明确该产品信息是属于何种行业的设备,例如无法确定该产品信息是属于电子设备还是机械设备或其他设备。
为了使得分词数据含义清楚,可以将该分词数据与其他词进行融合。例如,可以根据分词融合性词库来将该分词数据“设备”与其他分词融合。在分词融合性词库包括一些分词组合的对照表。当步骤2022中获取的初始分词数据出现在分词融合性词库中时,可以基于该分词融合性词库采用一定的策略来分析是否需要将该初始分词与一些修饰词组合在一起。
然后,可以依据各初始分词数据的权重和经过分词融合处理后的结果来综合分析各初始分词数据与产品信息之间的相关性。
步骤2023、根据上述相关性选择出最能体现产品信息的高质量的分词数据。例如,可以将各初始分词数据依照与产品信息之间的相关性从大到小排序,选择排名靠前的M个初始分词数据作为标题的分词数据。
接下来,返回图5,描述步骤203。在步骤203中,从查询库中查询与标题的分词数据对应的关键词作为与所述标题相关的候选关键词。
查询库中的数据的组织形式可以如图3所示。可以基于Sphinx、Lucene、Coreseek等文本检索算法来从查询库中获取候选关键词。
另外,也可以采用将Sphinx结合PostgreSQL获得的全文检索方法来从查询库中获取候选关键词。
步骤204、将各候选关键词与标题的分词数据之间的相关性,与各候选关键词的供求指数、基尼指数和行业指数中的至少一个相结合,获取各候选关键词与标题的分词数据之间的综合相关性。
步骤205、将各个候选关键词按照综合相关性排序,例如按照从大到小的顺序排列,选择排名前N个候选关键词作为推荐的标题关键词。
在图5所示的实施例中,还可以包括根据搜索日志获取所述查询库中的分词数据以及分词数据对应的关键词的步骤206。该步骤206是独立于步骤201-205之外的一个步骤,该步骤206可以以线下的方式执行,即该步骤206不是从步骤201接收到产品信息后开始执行,而是可以定期或不定期地以线下方式进行。
图7示例性示出了图5中步骤206的详细步骤,包括:
步骤2061、获取待添加到查询库中的关键词。例如,可以根据搜索日志中搜索关键词的搜索次数和搜索返回结果数来从搜索日志中获取待添加到查询库中的关键词。例如,可以筛选出搜索次数排名靠前的一定数量(例如,排名前40万)的搜索关键词作为待添加到查询库中的关键词。此处,搜索日志中的搜索关键词可以作为查询库中的关键词的来源。
在步骤2061中,还可以进行搜索关键词的清洗、过滤、修饰和合并,以获得高质量的搜索关键词。
步骤2062、获取待添加到查询库中的关键词的分词数据。可以通过分词词库和分词融合性词库来获取待添加到查询库中的关键词的分词数据。
还可以结合黑名单词库,去除掉那些属于黑名单词库中的分词数据。
步骤2063、在查询库中建立从获得的分词数据到关键词的倒排索引。
在步骤2061之后、步骤2062之前还可以获取待添加到查询库中的关键词的供求指数、基尼指数和行业指数等。获取各指数的方法与前述各实施例介绍的相同,各指数可以添加到一个指数库中。
通过上述步骤2061-2063,就实现了查询库的建立。
在图5所示的实施例中,如果从查询库中找不到候选关键词,则可以提供一个补充步骤,即,为当前接收到的产品信息的标题提供与该产品信息所属行业相关的关键词。
如同本文前面提及的,本申请实施例中的各个步骤,可以由一台服务器实现。可选地,也可以由多台服务器实现。例如,对于图5所示的实施例,可以由一台服务器执行步骤201-205,由另一台服务器执行步骤206。这两台服务器之间可以交互数据。
或者,可以将相同的处理由同一台服务器处理,提高数据处理效率。例如,对于步骤202和206,均涉及到获取分词数据的处理,这两个步骤可以由同一台应用服务器实现。其他步骤可以由另一台数据服务器实现。应用服务器功能单一,数据处理效率高,而且不会影响数据服务器中进行的处理。这样,通过应用服务器和数据服务器可以提高标题关键词的推荐效率。
图8示例性示出了本申请标题关键词推荐系统实施例的结构示意图,该系统包括接收模块31、分词数据获取模块32、查询模块33、处理模块34和选择模块35。接收模块31用于接收数据对象。分词数据获取模块32与接收模块31连接,用于获取数据对象中标题的分词数据。查询模块33与分词数据获取模块32连接,用于从查询库中查询与标题的分词数据对应的关键词作为与标题相关的候选关键词。处理模块34与查询模块33连接,用于将候选关键词与标题的分词数据之间的相关性,与用于体现与候选关键词相关的供求关系的供求指数、用于体现基于候选关键词能够获得的数据对象曝光程度的曝光指数以及用于体现候选关键词与所述数据对象所属行业之间的相关性的行业指数中的至少一个相结合,来获取候选关键词与标题的分词数据之间的综合相关性。选择模块35与处理模块34连接,用于选择综合相关性排序前N个候选关键词作为推荐的标题的关键词,N为自然数。
具体地,处理模块34可以用于通过将所述候选关键词与所述标题的分词数据之间的相关性、供求指数、基尼指数以及行业指数与它们各自的权重相乘而获得综合加权值来获得综合相关性。
其中,分词数据获取模块32可以包括初始分词数据获取单元321、相关性获取单元322和选择单元323。初始分词数据获取单元321用于从标题中获取初始分词数据。相关性获取单元322与初始分词数据获取单元321连接,用于获取各初始分词数据与数据对象之间的相关性。选择单元323与相关性获取单元322连接,用于从初始分词数据中选择与数据对象之间的相关性排名前M个初始分词数据作为所述标题的分词数据,M为自然数。
在以上技术方案的基础上,该系统还可以包括查询库模块36,该查询库模块36与查询模块33连接,用于根据搜索日志获取查询库中的分词数据以及分词数据对应的关键词。
该查询模块36可以包括搜索单元361、分词数据获取单元362和倒排索引单元363。搜索单元361用于从搜索日志中获取待添加到所述查询库中的关键词。分词数据获取单元362与搜索单元361连接,用于获取待添加到查询库中的关键词的分词数据。倒排索引单元363与搜索单元361和分词数据获取单元362连接,用于在查询库中建立从获得的分词数据到获得的关键词的倒排索引。
在以上技术方案的基础上,该系统还可以包括用于获取待添加到查询库中的关键词的供求指数、基尼指数和行业指数的模块。
本申请提供的方法及其步骤可以由具有数据处理能力的一个或多个处理设备例如一个或多个服务器运行计算机可执行指令来实现。服务器的存储介质中可以存储各种用于执行本申请提供的方法的各个步骤的指令。
本申请的系统中的各个模块可以由运行计算机可执行指令的一个或多个服务器实现。各个模块可以为该服务器运行计算机可执行指令时具有相应功能的设备组件。
虽然已参照典型实施例描述了本申请,但应当理解,所用的术语是说明和示例性、而非限制性的术语。由于本申请能够以多种形式具体实施而不脱离本申请的精神或实质,所以应当理解,上述实施例不限于任何前述的细节,而应在随附权利要求所限定的精神和范围内广泛地解释,因此落入权利要求或其等效范围内的全部变化和改型都应为随附权利要求所涵盖。

Claims (12)

1.一种标题关键词推荐方法,包括:
接收数据对象;
获取所述数据对象中标题的分词数据;
从查询库中查询与所述标题的分词数据对应的关键词作为与所述标题相关的候选关键词;所述查询库包括预先获取的分词数据以及各分词数据对应的关键词;
将所述候选关键词与所述标题的分词数据之间的相关性,与用于体现与所述候选关键词相关的供求关系的供求指数、用于体现基于所述候选关键词能够获得的数据对象曝光程度的基尼指数以及用于体现所述候选关键词与所述数据对象所属行业之间相关性的行业指数中的至少一个相结合,来获取所述候选关键词与所述标题的分词数据之间的综合相关性;
选择综合相关性排序前N个候选关键词作为推荐的所述标题的关键词,N为自然数;
其中,如果网络搜索引擎接收到的用户查询信息中包括所述标题的关键词,则所述数据对象被作为搜索结果曝光给用户。
2.根据权利要求1所述的方法,其中,将所述候选关键词与所述标题的分词数据之间的相关性,与所述供求指数、所述基尼指数以及所述行业指数相结合,来获取所述候选关键词与所述标题的分词数据之间的综合相关性。
3.根据权利要求2所述的方法,其中,获取所述候选关键词与所述标题的分词数据之间的综合相关性,包括:通过将所述候选关键词与所述标题的分词数据之间的相关性、所述供求指数、所述基尼指数以及所述行业指数与它们各自的权重相乘而获得的综合加权值来获得所述综合相关性。
4.根据权利要求1-3中任一权利要求所述的方法,其中,获取所述数据对象中标题的分词数据,包括:
从所述标题中获取初始分词数据;
获取各初始分词数据与所述数据对象之间的相关性;
从所述初始分词数据中选择与所述数据对象之间的相关性排名前M个初始分词数据作为所述标题的分词数据,M为自然数。
5.根据权利要求1-3中任一权利要求所述的方法,还包括:根据搜索日志获取所述查询库中的分词数据以及分词数据对应的关键词。
6.根据权利要求5所述的方法,其中,根据搜索日志获取所述查询库中的分词数据以及分词数据对应的关键词,包括:
从搜索日志中获取待添加到所述查询库中的关键词;
获取待添加到所述查询库中的关键词的分词数据;
在所述查询库中建立从获得的所述分词数据到关键词的倒排索引。
7.根据权利要求6所述的方法,在从搜索日志中获取待添加到所述查询库中的关键词之后,还包括获取待添加到所述查询库中的关键词的供求指数、基尼指数和行业指数。
8.一种标题关键词推荐系统,包括:
接收模块,用于接收数据对象;
分词数据获取模块,与所述接收模块连接,用于获取所述数据对象中标题的分词数据;
查询模块,与所述分词数据获取模块连接,用于从查询库中查询与所述标题的分词数据对应的关键词作为与所述标题相关的候选关键词;所述查询库包括预先获取的分词数据以及各分词数据对应的关键词;
处理模块,与所述查询模块连接,用于将所述候选关键词与所述标题的分词数据之间的相关性,与用于体现与所述候选关键词相关的供求关系的供求指数、用于体现基于所述候选关键词能够获得的数据对象曝光程度的基尼指数以及用于体现所述候选关键词与所述数据对象所属行业之间相关性的行业指数中的至少一个相结合,来获取所述候选关键词与所述标题的分词数据之间的综合相关性;
选择模块,与所述处理模块连接,用于选择综合相关性排序前N个候选关键词作为推荐的所述标题的关键词,N为自然数;
其中,如果网络搜索引擎接收到的用户查询信息中包括所述标题的关键词,则所述数据对象被作为搜索结果曝光给用户。
9.根据权利要求8所述的系统,其中,所述处理模块用于通过将所述候选关键词与所述标题的分词数据之间的相关性、所述供求指数、所述基尼指数以及所述行业指数与它们各自的权重相乘而获得综合加权值来获得所述综合相关性。
10.根据权利要求9所述的系统,所述分词数据获取模块包括:
初始分词数据获取单元,用于从所述标题中获取初始分词数据;
相关性获取单元,与所述初始分词数据获取单元连接,用于获取各初始分词数据与所述数据对象之间的相关性;
选择单元,与所述相关性获取单元连接,用于从所述初始分词数据中选择与所述数据对象之间的相关性排名前M个初始分词数据作为所述标题的分词数据,M为自然数。
11.根据权利要求8-10中任一权利要求所述的系统,还包括查询库模块,与所述查询模块连接,用于根据搜索日志获取所述查询库中的分词数据以及分词数据对应的关键词。
12.根据权利要求11所述的系统,所述查询库模块包括:
搜索单元,用于从搜索日志中获取待添加到所述查询库中的关键词;
分词数据获取单元,与所述搜索单元连接,用于获取待添加到所述查询库中的关键词的分词数据;
倒排索引单元,与所述分词数据获取单元和所述搜索单元连接,用于在所述查询库中建立从获得的所述分词数据到获取的所述关键词的倒排索引。
CN201210125441.5A 2012-04-25 2012-04-25 标题关键词推荐方法及系统 Active CN103377232B (zh)

Priority Applications (7)

Application Number Priority Date Filing Date Title
CN201210125441.5A CN103377232B (zh) 2012-04-25 2012-04-25 标题关键词推荐方法及系统
TW101129976A TW201344477A (zh) 2012-04-25 2012-08-17 標題關鍵字推薦方法及系統
US13/866,953 US9117006B2 (en) 2012-04-25 2013-04-19 Recommending keywords
PCT/US2013/037537 WO2013163062A1 (en) 2012-04-25 2013-04-22 Recommending keywords
EP13720670.2A EP2842060A1 (en) 2012-04-25 2013-04-22 Recommending keywords
JP2015509058A JP5913736B2 (ja) 2012-04-25 2013-04-22 キーワードの推薦
HK13114238.8A HK1186806A1 (zh) 2012-04-25 2013-12-24 標題關鍵詞推薦方法及系統

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210125441.5A CN103377232B (zh) 2012-04-25 2012-04-25 标题关键词推荐方法及系统

Publications (2)

Publication Number Publication Date
CN103377232A CN103377232A (zh) 2013-10-30
CN103377232B true CN103377232B (zh) 2016-12-07

Family

ID=49462358

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210125441.5A Active CN103377232B (zh) 2012-04-25 2012-04-25 标题关键词推荐方法及系统

Country Status (7)

Country Link
US (1) US9117006B2 (zh)
EP (1) EP2842060A1 (zh)
JP (1) JP5913736B2 (zh)
CN (1) CN103377232B (zh)
HK (1) HK1186806A1 (zh)
TW (1) TW201344477A (zh)
WO (1) WO2013163062A1 (zh)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699549B (zh) * 2012-09-27 2016-11-23 阿里巴巴集团控股有限公司 一种图形码库更新、查询方法及相关装置
US9064230B2 (en) * 2013-01-31 2015-06-23 Wal-Mart Stores, Inc. Ranking keywords for product types with manual curation
US10049163B1 (en) * 2013-06-19 2018-08-14 Amazon Technologies, Inc. Connected phrase search queries and titles
IN2013MU02217A (zh) * 2013-07-01 2015-06-12 Tata Consultancy Services Ltd
CN104598439B (zh) * 2013-10-30 2021-03-05 阿里巴巴集团控股有限公司 信息对象的标题修正方法及装置和推送信息对象的方法
CN104636334A (zh) * 2013-11-06 2015-05-20 阿里巴巴集团控股有限公司 一种关键词推荐方法和装置
CN105279155B (zh) * 2014-05-28 2019-06-25 腾讯科技(深圳)有限公司 一种访问对象的数据处理方法及装置
CN104143005B (zh) * 2014-08-04 2017-09-12 五八同城信息技术有限公司 一种相关搜索系统及方法
TW201616406A (zh) * 2014-10-16 2016-05-01 財團法人資訊工業策進會 商品價格偵測方法
KR101633866B1 (ko) * 2015-01-26 2016-06-27 주식회사 포워드벤처스 세부검색결과를 제공하는 전자장치, 전자장치를 통해 세부검색결과를 제공하는 방법, 및 전자장치를 통해 세부검색결과를 제공하는 방법을 실행하기 위한 프로그램이 기록되어 있는 컴퓨터 판독가능한 기록매체
CN105989030A (zh) * 2015-02-02 2016-10-05 阿里巴巴集团控股有限公司 一种文本检索方法和装置
CN106708813A (zh) * 2015-07-14 2017-05-24 阿里巴巴集团控股有限公司 一种标题处理方法及设备
CN106484698A (zh) * 2015-08-25 2017-03-08 北京奇虎科技有限公司 一种搜索关键词的推送方法和装置
CN106485525A (zh) * 2015-08-31 2017-03-08 百度在线网络技术(北京)有限公司 信息处理方法及装置
EP3144825A1 (en) * 2015-09-16 2017-03-22 Valossa Labs Oy Enhanced digital media indexing and retrieval
CN106844371B (zh) * 2015-12-03 2020-09-08 阿里巴巴集团控股有限公司 搜索优化方法和装置
KR101694727B1 (ko) * 2015-12-28 2017-01-10 주식회사 파수닷컴 인공 지능 기반 연관도 계산을 이용한 노트 제공 방법 및 장치
KR20170082361A (ko) 2016-01-06 2017-07-14 삼성전자주식회사 디스플레이 장치 및 그 제어 방법
CN106997350B (zh) * 2016-01-22 2020-11-17 创新先进技术有限公司 一种数据处理的方法及装置
US10776707B2 (en) * 2016-03-08 2020-09-15 Shutterstock, Inc. Language translation based on search results and user interaction data
CN105843850B (zh) * 2016-03-15 2020-07-24 北京百度网讯科技有限公司 搜索优化方法和装置
CN106055666B (zh) * 2016-06-02 2019-12-06 腾讯科技(深圳)有限公司 媒体文件的投放方法和装置
CN107608983B (zh) * 2016-07-11 2021-03-30 阿里巴巴集团控股有限公司 标题信息优化方法、装置、设备及系统
WO2018073947A1 (ja) * 2016-10-20 2018-04-26 富士通株式会社 対応語出力プログラム、対応語出力装置及び対応語出力方法
CN106685799A (zh) * 2016-12-16 2017-05-17 上海高顿教育培训有限公司 基于CoreSeek的多平台微信服务的通知发送方法
US10679266B2 (en) * 2017-05-25 2020-06-09 Walmart Apollo, Llc Systems and methods for automatically modifying titles for products
CN107463600B (zh) * 2017-06-12 2020-12-29 百度在线网络技术(北京)有限公司 广告投放关键词推荐方法及装置、广告投放方法及装置
CN107402960B (zh) * 2017-06-15 2020-11-10 成都优易数据有限公司 一种基于语义语气加权的倒排索引优化算法
US11036725B2 (en) 2017-08-14 2021-06-15 Science Applications International Corporation System and method for computerized data processing, analysis and display
CN107688621B (zh) * 2017-08-15 2021-06-29 皑沐(上海)文化传媒有限公司 一种文案的优化方法和系统
KR101814005B1 (ko) * 2017-08-21 2018-01-02 인천대학교 산학협력단 인공지능 기반의 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치 및 방법
CN110069676A (zh) * 2017-09-28 2019-07-30 北京国双科技有限公司 关键词推荐方法和装置
CN108664585A (zh) * 2018-05-07 2018-10-16 多盟睿达科技(中国)有限公司 一种基于大数据的广告选词方法
CN109062905B (zh) * 2018-09-04 2022-06-24 武汉斗鱼网络科技有限公司 一种弹幕文本价值评价方法、装置、设备及介质
CN110232183B (zh) * 2018-12-07 2022-05-27 腾讯科技(深圳)有限公司 关键词提取模型训练方法、关键词提取方法、装置及存储介质
US20200341977A1 (en) * 2019-04-25 2020-10-29 Mycelebs Co., Ltd. Method and apparatus for managing attribute language
CN110807041B (zh) * 2019-11-01 2022-05-20 广州华多网络科技有限公司 索引推荐方法、装置、电子设备及存储介质
CN110781307A (zh) * 2019-11-06 2020-02-11 北京沃东天骏信息技术有限公司 目标物品关键词和标题生成方法、搜索方法以及相关设备
CN111241240B (zh) * 2020-01-08 2023-08-15 中国联合网络通信集团有限公司 行业关键词提取方法及装置
CN111310011B (zh) * 2020-01-20 2023-06-16 北京字节跳动网络技术有限公司 一种信息推送方法、装置、电子设备及存储介质
US11568425B2 (en) 2020-02-24 2023-01-31 Coupang Corp. Computerized systems and methods for detecting product title inaccuracies
CN112446214B (zh) * 2020-12-09 2024-02-02 北京有竹居网络技术有限公司 广告关键词的生成方法、装置、设备及存储介质
CN113204691B (zh) * 2021-05-31 2023-08-04 抖音视界有限公司 一种信息展示方法、装置、设备及介质
TWI820489B (zh) * 2021-10-04 2023-11-01 禾多移動多媒體股份有限公司 關鍵字管理系統

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5694559A (en) * 1995-03-07 1997-12-02 Microsoft Corporation On-line help method and system utilizing free text query
US6119101A (en) * 1996-01-17 2000-09-12 Personal Agents, Inc. Intelligent agents for electronic commerce
US5799284A (en) * 1996-03-13 1998-08-25 Roy E. Bourquin Software and hardware for publishing and viewing products and services for sale
US5892843A (en) * 1997-01-21 1999-04-06 Matsushita Electric Industrial Co., Ltd. Title, caption and photo extraction from scanned document images
US6006225A (en) * 1998-06-15 1999-12-21 Amazon.Com Refining search queries by the suggestion of correlated terms from prior searches
US6144958A (en) * 1998-07-15 2000-11-07 Amazon.Com, Inc. System and method for correcting spelling errors in search queries
CA2400161C (en) * 2000-02-22 2015-11-24 Metacarta, Inc. Spatially coding and displaying information
US8676830B2 (en) 2004-03-04 2014-03-18 Yahoo! Inc. Keyword recommendation for internet search engines
US20060212441A1 (en) * 2004-10-25 2006-09-21 Yuanhua Tang Full text query and search systems and methods of use
US7636714B1 (en) * 2005-03-31 2009-12-22 Google Inc. Determining query term synonyms within query context
EP1875336A2 (en) * 2005-04-11 2008-01-09 Textdigger, Inc. System and method for searching for a query
US20070088695A1 (en) * 2005-10-14 2007-04-19 Uptodate Inc. Method and apparatus for identifying documents relevant to a search query in a medical information resource
US7996393B1 (en) 2006-09-29 2011-08-09 Google Inc. Keywords associated with document categories
CN101004737A (zh) * 2007-01-24 2007-07-25 贵阳易特软件有限公司 基于关键词的个性化文档处理系统
KR100893129B1 (ko) 2007-10-24 2009-04-15 엔에이치엔(주) 멀티 미디어 컨텐츠의 추천 키워드 추출 시스템 및 그 방법
US8392440B1 (en) * 2009-08-15 2013-03-05 Google Inc. Online de-compounding of query terms
US20120117102A1 (en) * 2010-11-04 2012-05-10 Microsoft Corporation Query suggestions using replacement substitutions and an advanced query syntax
US20120290432A1 (en) * 2011-05-13 2012-11-15 Steven Tedjamulia Social Marketplace Affiliate Front End
US20120296697A1 (en) * 2011-05-17 2012-11-22 Amit Kumar Systems and methods for automated real time e-commerce marketing activities
CN102253982B (zh) * 2011-06-24 2013-03-20 北京理工大学 一种基于查询语义和点击流数据的查询建议方法
US9037594B2 (en) 2011-10-06 2015-05-19 Marketo, Inc. Keyword assessment

Also Published As

Publication number Publication date
JP2015515079A (ja) 2015-05-21
CN103377232A (zh) 2013-10-30
JP5913736B2 (ja) 2016-05-11
EP2842060A1 (en) 2015-03-04
TW201344477A (zh) 2013-11-01
WO2013163062A1 (en) 2013-10-31
US20130290320A1 (en) 2013-10-31
HK1186806A1 (zh) 2014-03-21
US9117006B2 (en) 2015-08-25

Similar Documents

Publication Publication Date Title
CN103377232B (zh) 标题关键词推荐方法及系统
CN103679462B (zh) 一种评论数据处理方法和装置、一种搜索方法和系统
CN103593425B (zh) 基于偏好的智能检索方法及系统
CN111461841B (zh) 物品推荐方法、装置、服务器及存储介质
US20190347281A1 (en) Apparatus and method for semantic search
CN108717407B (zh) 实体向量确定方法及装置,信息检索方法及装置
JP6124917B2 (ja) 情報検索のための方法および装置
TWI615723B (zh) 網路搜尋方法及設備
TW201327233A (zh) 個性化的資訊推送方法及裝置
CN109325146A (zh) 一种视频推荐方法、装置、存储介质和服务器
CN111444304A (zh) 搜索排序的方法和装置
CN109034981A (zh) 一种电商协同过滤推荐方法
CN108876508A (zh) 一种电商协同过滤推荐方法
US20140188861A1 (en) Using scientific papers in web search
CN104615723B (zh) 查询词权重值的确定方法和装置
JP2010061420A (ja) 商品情報検索装置、方法及びシステム
Zwicklbauer et al. Do we need entity-centric knowledge bases for entity disambiguation?
CN103744970B (zh) 一种确定图片的主题词的方法及装置
CN103186650B (zh) 一种搜索方法和装置
Rao et al. Product recommendation system from users reviews using sentiment analysis
Bouras et al. Clustering user preferences using W-kmeans
CN110020195B (zh) 文章推荐方法及装置、存储介质、电子设备
CN116452301A (zh) 基于大数据分析的商品推荐方法及系统
Zhang et al. A personalized recommender system for telecom products and services
Jangid et al. Computing the prestige of a journal: A revised multiple linear regression approach

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1186806

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1186806

Country of ref document: HK