CN103310343A - 商品信息发布方法和装置 - Google Patents
商品信息发布方法和装置 Download PDFInfo
- Publication number
- CN103310343A CN103310343A CN2012100694649A CN201210069464A CN103310343A CN 103310343 A CN103310343 A CN 103310343A CN 2012100694649 A CN2012100694649 A CN 2012100694649A CN 201210069464 A CN201210069464 A CN 201210069464A CN 103310343 A CN103310343 A CN 103310343A
- Authority
- CN
- China
- Prior art keywords
- classification
- word
- query
- keyword
- inquiry
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0255—Targeted advertisements based on user history
- G06Q30/0256—User search
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/907—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
Abstract
本申请公开了一种商品信息发布方法和装置,其中,该方法包括:根据存储的买方的查询点击日志计算出查询点击日志中的查询词与类目之间的关联信息;将卖方输入的关键词与查询点击日志中的查询词进行匹配;若匹配到查询点击日志中的查询词,则根据关联信息获取与匹配到的查询词对应的类目;将商品信息存储在获取到的类目中的一个类目或多个类目中。本申请解决了相关技术中在发布商品信息时由于网站推荐卖方的发布类目不准确而导致的发布信息的召回率较低的技术问题,提高了网站为卖方商品类目推荐的准确率,增加了商品信息发布后的召回率。
Description
技术领域
本申请涉及互联网领域,具体而言,涉及一种商品信息发布方法和装置。
背景技术
随着互联网的普及以及经济全球化的发展,电子商务已经日渐成为一种主流的营销方式。当前互联网上众多的电子商务网站中,既有垂直型的,又有综合型的,不管哪一种类型的电子商务网站,都会制定一个丰富并且严格的类目体系来管理网站上发布的大量的商品。
当卖方在发布商品的时候,需要将自己的商品归为网站类目体系中的某一个类目中去。然而,对于一个大型的电子商务网站,尤其是综合型的电子商务网站来说,因其包含的商品的数量和种类繁多,类目体系十分的庞大,因此用户要从庞大的类目体系中选择一个与自己商品相关的类目并不容易。
现在的电子商务网站大多采用层级类目依次选择的方法,让卖方一层一层选择与自己商品最相关的类目。然而,对于类目体系十分庞大的大型综合电子商务网站来说,由于类目体系十分的庞大,这种让卖方按照类目层级关系自己选择类目,显然对卖方来说易用性不是很好,而且,如果卖方选择了不太相关的类目,也不利于网站对商品的分类管理,同时影响买方在检索商品时的体验,也会影响卖方商品的展示机会。
也有电子商务网站以输入的关键字与类目名称相关性为依据来进行类目推荐。这种根据卖方输入的关键词的文本相关性进行类目查询来进行类目推荐的方法,在一定程度上减少了卖方查询类目的难度,但是如果卖方输入的查询词与最相关的类目的类目名称文本上不匹配,将导致查询不到类目或者查询出错误的类目,对于电子商务网站来讲,也不利于对商品的分类管理。进一步,在这种推荐类目的方式中,网站管理人员根据自身的设置规则来设置与各个类目相关的关键字,而上述的设置规则无法体现出买方在各类目中的历史点击信息,从而导致推荐给卖方的类目并不是买方最感兴趣的类目,这样,在卖方根据上述推荐类目进行信息发布之后,买方点击该发布信息的次数较低,即,发布信息的召回率较低。
针对相关技术中在发布商品信息时由于网站推荐卖方的发布类目不准确而导致的发布信息的召回率较低的技术问题,目前尚未提出有效的解决办法。
发明内容
本申请的主要目的在于提供一种商品信息发布方法和装置,以解决相关技术中在发布商品信息时由于网站推荐卖方的发布类目不准确而导致的发布信息的召回率较低的技术问题。
根据本申请的一个方面,提供了一种商品信息发布方法,该方法包括:根据存储的买方的查询点击日志计算出查询点击日志中的查询词与类目之间的关联信息;将卖方输入的关键词与查询点击日志中的查询词进行匹配;若匹配到查询点击日志中的查询词,则根据关联信息获取与匹配到的查询词对应的类目;将商品信息存储在获取到的类目中的一个类目或多个类目中。
优选的,将卖方输入的关键词与查询点击日志中的查询词进行匹配之后,还包括:若无法匹配到查询点击日志中的查询词,则从卖方输入的关键词中删除部分词,将删除了部分词的关键词与查询点击日志中的查询词进行匹配;若匹配到查询点击日志中的查询词,则根据关联信息获取与匹配到的查询词对应的类目;将商品信息存储在获取到的类目中的一个类目或多个类目中。
优选的,从卖方输入的关键词中删除部分词的步骤包括:根据词法、语法、语义以及统计特征对关键词中的每个词标注与该词的重要性对应的分值;从关键词中删除分值小于预定阈值的部分词。
优选的,将删除了部分词的关键词与查询点击日志中的查询词进行匹配之后,还包括:若从查询点击日志中无法匹配到与删除了部分词的关键词对应的查询词,则根据词义、词法以及语义将卖方输入的关键词分为多个特征;分别计算多个特征在查询点击日志中的各个类目下的后验概率;将计算出的后验概率大于预定阈值的类目作为与关键词匹配的类目进行返回。
优选的,通过以下公式分别计算多个特征在查询点击日志中的各个类目下的后验概率:
其中,y为查询点击日志中的类目;x为卖方输入的关键词;fj(x,y)为x在类目y下的第j个特征;λj为第j个特征对应的权重;Z(x)是归一化因子。
优选的,根据存储的买方的查询点击日志计算出查询点击日志中的查询词与类目之间的关联信息的步骤包括:通过以下公式计算买方的查询点击日志中每个查询词所对应的类目的置信度:
p(categoryj|queryi)=λ1p′(categoryj|queryi)+λ2p″(categoryj|queryi,offer)
其中,λ1和λ2表示权重,λ1∈[0,1],λ2∈[0,1],λ2+λ2=1;
p′(categoryj|queryi)为查询词与导航区类目之间的条件概率;
p″(categoryj|queryi,offer)为查询词与商品类目之间的条件概率;
其中,
count(categoryj,queryi)表示一段时间内买方输入查询词queryi时点击类目categoryj的次数,count(queryi)表示这段时间内买方输入查询词queryi的次数;
其中,
count(categoryj,queryi|offer)表示一段时间内买方输入查询词queryi时点击了属于类目categoryj下的商品offer的次数,count(queryi|offer)表示该段时间买方输入查询词queryi的次数。
根据关联信息获取与匹配到的查询词对应的类目的步骤包括:按照置信度p(categoryj|queryi)的大小将查询词queryi对应的各个类目categoryj进行排序;将排序后的各个类目categoryj作为结果进行返回。
根据本申请的另一方面,提供了一种商品信息发布装置,该装置包括:第一计算单元,用于根据存储的买方的查询点击日志计算出查询点击日志中的查询词与类目之间的关联信息;第一匹配单元,用于将卖方输入的关键词与查询点击日志中的查询词进行匹配;第一获取单元,用于在匹配单元匹配到查询点击日志中的查询词时,根据关联信息获取与匹配到的查询词对应的类目;第一发布单元,用于将商品信息存储在第一获取单元获取到的类目中的一个类目或多个类目中。
优选的,该装置还包括:删除单元,用于在第一匹配单元无法匹配到查询点击日志中的查询词时,从卖方输入的关键词中删除部分词;第二匹配单元,用于将删除单元删除了部分词的关键词与查询点击日志中的查询词进行匹配;第二获取单元,用于在第二匹配单元匹配到查询点击日志中的查询词时,根据关联信息获取与匹配到的查询词对应的类目;第二发布单元,用于将商品信息存储在第二获取单元获取到的类目中的一个类目或多个类目中。
优选的,删除单元包括:标注分值模块,用于根据词法、语法、语义以及统计特征对关键词中的每个词标注与该词的重要性对应的分值;删除模块,用于从关键词中删除分值小于预定阈值的部分词。
优选的,该装置还包括:特征分析单元,用于在第二匹配单元从查询点击日志中无法匹配到与删除了部分词的关键词对应的查询词时,根据词义、词法以及语义将卖方输入的关键词分为多个特征;第二计算单元,用于分别计算多个特征在查询点击日志中的各个类目下的后验概率;选取单元,将计算出的后验概率大于预定阈值的类目作为与关键词匹配的类目进行返回。
在上述优选的实施方式中,网站根据存储买方购买商品时的查询点击日志计算出该查询点击日志中查询词与类目之间的关联信息。当卖方在电子商务网站上发布商品时,网站服务器将卖方输入的与待发布商品相关的关键词与存储的买方查询点击日志中的查询词进行匹配,根据匹配的结果和上述的关联关系为卖方推荐与查询点击日志中的查询词相关的类目,从而使得卖方能够将商品信息准确地存储在相关的类目中,其中,相关的类目为买方在通过与关键词匹配的查询词进行商品信息查询时所可能选择的类目。当买方根据查询词向网站服务器请求相关商品信息时,网站服务器根据接收到的查询词在买方的查询点击日志中获取与该查询词相关联的类目,并在该类目中进行商品信息搜索,由于卖方在发布商品信息时已经在上述相关的类目中存储了商品信息,因此,网站服务器将会快速的获取到该卖方所发布的商品信息并进行返回,由于该返回的商品信息与查询词较为匹配,从而增加了买方点击该商品信息的概率,解决了相关技术中在发布商品信息时由于网站推荐卖方的发布类目不准确而导致的发布信息的召回率较低的技术问题,提高了网站为卖方商品类目推荐的准确率,增加了商品信息发布后的召回率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的商品信息发布系统的一种优选的结构图;
图2是根据本申请实施例的商品信息发布装置的一种优选的结构图;
图3是根据本申请实施例的商品信息发布装置的另一种优选的结构图;
图4是根据本申请实施例的商品信息发布装置的另一种优选的结构图;
图5是根据本申请实施例的商品信息发布装置的又一种优选的结构图;
图6是根据本申请实施例的商品信息发布方法的一种优选的结构图;
图7是根据本申请实施例的商品信息发布装置的一种优选的功能示意图;
图8是根据本申请实施例的商品信息发布装置的查询类目分类器的一种优选的结构图;
图9示出本发明实施例的商品信息发布装置的一种优选的类目推荐流程图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
在描述本申请的各实施例的进一步细节之前,将参考图1来描述可用于实现本申请的原理的一个合适的计算体系结构。在以下描述中,除非另外指明,否则将参考由一个或多个计算机执行的动作和操作的符号表示来描述本申请的各实施例。由此,可以理解,有时被称为计算机执行的这类动作和操作包括计算机的处理单元对以结构化形式表示数据的电信号的操纵。这一操纵转换了数据或在计算机的存储器系统中的位置上维护它,这以本领域的技术人员都理解的方式重配置或改变了计算机的操作。维护数据的数据结构是具有数据的格式所定义的特定属性的存储器的物理位置。然而,尽管在上述上下文中描述本申请,但它并不意味着限制性的,如本领域的技术人员所理解的,后文所描述的动作和操作的各方面也可用硬件来实现。
转向附图,其中相同的参考标号指代相同的元素,本申请的原理被示为在一个合适的计算环境中实现。以下描述基于所述的本申请的实施例,并且不应认为是关于此处未明确描述的替换实施例而限制本申请。
图1示出了可用于这些设备的一个示例计算机体系结构的示意图。出于描述的目的,所绘的体系结构仅为合适环境的一个示例,并非对本申请的使用范围或功能提出任何局限。也不应将该计算系统解释为对图1所示的任一组件或其组合具有任何依赖或需求。
本申请的原理可以使用其它通用或专用计算或通信环境或配置来操作。适用于本申请的众所周知的计算系统、环境和配置的示例包括但不限于,个人计算机、服务器,多处理器系统、基于微处理的系统、小型机、大型计算机、以及包括任一上述系统或设备的分布式计算环境。
在其最基本的配置中,图1中的商品信息发布系统100至少包括:一个网站的服务器102以及一个或多个客户端104。服务器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置、用于存储数据的存储装置以及与客户端通信的传输装置;客户端104可以包括:微处理器MCU、与服务器通信的传输装置、与用户交互的显示装置。在本说明书和权利要求书中,“商品信息发布系统”也可以被定义为能够执行软件、固件或微码来实现功能的任何硬件组件或硬件组件的组合。商品信息发布系统100甚至可以是分布式的,以实现分布式功能。
如本申请所使用的,术语“模块”、“组件”或“单元”可以指在商品信息发布系统100上执行的软件对象或例程。此处所描述的不同组件、模块、单元、引擎和服务可被实现为在商品信息发布系统100上执行(例如,作为单独的线程)的对象或进程。尽管此处所描述的系统和方法较佳地以软件来实现,但是硬件或软件和硬件的组合的实现也是可能并被构想的。
实施例1
图2是根据本申请实施例的商品信息发布装置200的一种优选的结构框图,优选的,本实施例中的商品信息发布装置200位于服务器102上或者客户端104上。
优选的,如图2所示的商品信息发布装置200可以包括:第一计算单元202,用于根据存储的买方的查询点击日志计算出查询点击日志中的查询词与类目之间的关联信息;第一匹配单元204,用于将卖方输入的关键词与查询点击日志中的查询词进行匹配;第一获取单元206,用于在第一匹配单元204匹配到查询点击日志中的查询词时,根据关联信息获取与匹配到的查询词对应的类目;第一发布单元208,用于将商品信息存储在第一获取单元206获取到的类目中的一个类目或多个类目中,也就是说,在获取到的类目中的一个类目或多个类目中发布对应的商品信息。
在上述优选的实施方式中,网站根据存储买方购买商品时的查询点击日志计算出该查询点击日志中查询词与类目之间的关联信息。当卖方在电子商务网站上发布商品的时,网站服务器将卖方输入的与待发布商品相关的关键词与存储的买方查询点击日志中的查询词进行匹配,根据匹配的结果和上述的关联关系为卖方推荐与查询点击日志中的查询词相关的类目,从而使得卖方能够将商品信息准确地存储在相关的类目中,其中,相关的类目为买方在通过与关键词匹配的查询词进行商品信息查询时所可能选择的类目。当买方根据查询词向网站服务器请求相关商品信息时,网站服务器根据接收到的查询词在买方的查询点击日志中获取与该查询词相关联的类目,并在该类目中进行商品信息搜索,由于卖方在发布商品信息时已经在上述相关的类目中存储了商品信息,因此,网站服务器将会快速的获取到该卖方所发布的商品信息并进行返回,由于该返回的商品信息与查询词较为匹配,从而增加了买方点击该商品信息的概率,解决了相关技术中在发布商品信息时由于网站推荐卖方的发布类目不准确而导致的发布信息的召回率较低的技术问题,提高了网站为卖方商品类目推荐的准确率,增加了商品信息发布后的召回率。
本申请还对上述商品信息发布装置200进行了改进,以便达到在第一匹配单元204无法匹配到查询点击日志中的查询词时,能够继续为卖方商品推荐类目。为了实现上述目的,具体地,如图3所示,商品信息发布装置200还包括:删除单元302,用于在第一匹配单元204无法匹配到查询点击日志中的查询词时,从卖方输入的关键词中删除部分词;第二匹配单元304,用于将删除单元302删除了部分词的关键词与查询点击日志中的查询词进行匹配;第二获取单元306,用于在第二匹配单元304匹配到查询点击日志中的查询词时,根据关联信息获取与匹配到的查询词对应的类目;第二发布单元308,用于将商品信息存储在第二获取单元306获取到的类目中的一个类目或多个类目中。
此处需要说明的是,上述第一匹配单元204和第二匹配单元304可以是同一个匹配单元,也可以是两个各自独立的匹配单元;第一获取单元206和第二获取单元306可以是同一个获取单元,也可以是两个各自独立的获取单元;第一发布单元208和第二发布单元308可以是同一个发布单元,也可以是两个各自独立的发布单元。
通过上述优选的实施方式,在第一匹配单元无法匹配到查询点击日志中的查询词时,对卖方输入的关键词进行改写,在改写的过程中,删除卖方输入的关键词中部分词,将改写之后的关键词与查询点击日志中的查询词再次进行匹配,继续为卖方的商品推荐类目,提高了网站为卖方待发布商品信息进行类目推荐的覆盖率和准确率。
本申请还提供了一种优选的删除卖方输入的关键词中部分词的方案,以便更好的将卖方输入的关键词与查询点击日志中的查询词进行匹配,具体的,如图4所示,删除单元302包括:标注分值模块402,用于根据词法、语法、语义以及统计特征对关键词中的每个词标注与该词的重要性对应的分值;删除模块404,用于从关键词中删除分值小于预定阈值的部分词。
通过根据词法、语法、语义以及统计特征对卖方输入的关键词中的每个词标注与该词的重要性进行评分,实现对卖方输入的关键词的信息按照重要程度进行有选择性的取舍,进一步保证网站为卖方待发布商品信息进行类目推荐的准确率。
本申请还对上述商品信息发布装置200进行了进一步的改进,以便达到在第二匹配单元304无法匹配到查询点击日志中的查询词时,能够继续为卖方商品推荐类目。为了实现上述目的,具体地,如图5所示,商品信息发布装置200还包括:特征分析单元502,用于在第二匹配单元304从查询点击日志中无法匹配到与删除了部分词的关键词对应的查询词时,根据词义、词法以及语义将卖方输入的关键词分为多个特征;第二计算单元504,用于分别计算多个特征在查询点击日志中的各个类目下的后验概率;选取单元506,将计算出的后验概率大于预定阈值的类目作为与关键词匹配的类目进行返回。
在上述优选的实施方式中,在第二匹配单元304无法匹配到查询点击日志中的查询词时,通过预定的规则计算多个特征在查询点击日志中的各个类目下的后验概率,以计算出的后验概率作为选取与关键词匹配的类目的依据,实现在第二匹配单元304无法匹配到查询点击日志中的查询词时,能够继续为卖方商品推荐类目,提高网站为卖方待发布商品信息进行类目推荐的覆盖率。
优选的,本申请还提供了一种分别计算多个特征在查询点击日志中的各个类目下的后验概率的优选的方案,具体的,该方案包括:通过以下公式分别计算多个特征在查询点击日志中的各个类目下的后验概率:
其中,y为查询点击日志中的类目;x为卖方输入的关键词;fj(x,y)为x在类目y下的第j个特征;λj为第j个特征对应的权重;Z(x)是归一化因子。
具体来讲,给定一个查询关键词所包含的所有信息,包括词一级、词法信息一级、语义一级等特征,查询属于某一个类目的置信度可以如下定义:
p(c is correct|x),即,查询卖方给定相关信息x属于该类目正确的后验概率。采用条件最大熵(Conditional Maximum Entropy)模型来计算后验概率。
此处需要说明的是,此处采用最大熵的方案只是作为计算后验概率的一种优选的实施方式,并不构成对本申请的进一步限定,本申请还可以采用其他方案来进行,例如:线性回归方案,支持向量机方案等。
优选的,本申请还提供了第一计算单元202根据存储的买方的查询点击日志计算出查询点击日志中的查询词与类目之间的关联信息的一种优选的方案,具体来说,
第一计算单元202通过以下公式计算买方的查询点击日志中每个查询词所对应的类目的置信度:
p(categoryj|queryi)=λ1p′(categoryj|queryi)+λ2p″(categoryj|queryi,offer)
其中,λ1和λ2表示权重,λ1∈[0,1],λ2∈[0,1],λ2+λ2=1;
p′(categoryj|queryi)为查询词与导航区类目之间的条件概率;
p″(categoryj|queryi,offer)为查询词与商品类目之间的条件概率;
其中,
count(categoryj,queryi)表示一段时间内买方输入查询词queryi时点击类目categoryj的次数,count(queryi)表示这段时间内买方输入查询词queryi的次数;
其中,
count(categoryj,queryi|offer)表示一段时间内买方输入查询词queryi时点击了属于类目categoryj下的商品offer的次数,count(queryi|offer)表示该段时间买方输入查询词queryi的次数。
优选的,按照置信度p(categoryj|queryi)的大小将查询词queryi对应的各个类目categoryj进行排序;将排序后的各个类目categoryj作为结果进行返回。上述优选技术方案的实施,通过买方的查询点击日志计算出查询点击日志中的查询词与类目之间的关联信息,保证网站发布商品信息时网站可以给卖方提供出买方对于商品放在不同类目下的兴趣的度量。
实施例2
在图1-图5所示的优选的商品信息发布装置的基础上,本申请还提供了一种优选的商品信息发布方法。如图6所示,该方法可以包括以下步骤:
S602,根据存储的买方的查询点击日志计算出查询点击日志中的查询词与类目之间的关联信息;
S604,将卖方输入的关键词与查询点击日志中的查询词进行匹配;
S606,若匹配到查询点击日志中的查询词,则根据关联信息获取与匹配到的查询词对应的类目;
S608,将商品信息存储在获取到的类目中的一个类目或多个类目中;也就是说,在获取到的类目中的一个类目或多个类目中发布对应的商品信息。
在上述优选的实施方式中,网站根据存储买方购买商品时的查询点击日志计算出该查询点击日志中查询词与类目之间的关联信息。当卖方在电子商务网站上发布商品的时,网站服务器将卖方输入的与待发布商品相关的关键词与存储的买方查询点击日志中的查询词进行匹配,根据匹配的结果和上述的关联关系为卖方推荐与查询点击日志中的查询词相关的类目,从而使得卖方能够将商品信息准确地存储在相关的类目中,其中,相关的类目为买方在通过与关键词匹配的查询词进行商品信息查询时所可能选择的类目。当买方根据查询词向网站服务器请求相关商品信息时,网站服务器根据接收到的查询词在买方的查询点击日志中获取与该查询词相关联的类目,并在该类目中进行商品信息搜索,由于卖方在发布商品信息时已经在上述相关的类目中存储了商品信息,因此,网站服务器将会快速的获取到该卖方所发布的商品信息并进行返回,由于该返回的商品信息与查询词较为匹配,从而增加了买方点击该商品信息的概率,解决了相关技术中在发布商品信息时由于网站推荐卖方的发布类目不准确而导致的发布信息的召回率较低的技术问题,提高了网站为卖方商品类目推荐的准确率,增加了商品信息发布后的召回率。
本申请还对上述优选的商品信息发布方法进行了改进,具体的,将卖方输入的关键词与查询点击日志中的查询词进行匹配之后,还包括:若无法匹配到查询点击日志中的查询词,则从卖方输入的关键词中删除部分词,将删除了部分词的关键词与查询点击日志中的查询词进行匹配;若匹配到查询点击日志中的查询词,则根据关联信息获取与匹配到的查询词对应的类目;将商品信息存储在获取到的类目中的一个类目或多个类目中。
通过上述优选的实施方式,在卖方输入的关键词无法匹配到查询点击日志中的查询词时,对卖方输入的关键词进行改写,在改写的过程中,删除卖方输入的关键词中部分词,将改写之后的关键词与查询点击日志中的查询词再次进行匹配,继续为卖方的商品推荐类目,提高了网站为卖方待发布商品信息进行类目推荐的覆盖率和准确率。
本申请还提供了一种优选的从卖方输入的关键词中删除部分词的方案,具体的,该方案包括:根据词法、语法、语义以及统计特征对关键词中的每个词标注与该词的重要性对应的分值;从关键词中删除分值小于预定阈值的部分词。
通过根据词法、语法、语义以及统计特征对卖方输入的关键词中的每个词标注与该词的重要性进行评分,实现对卖方输入的关键词有选择性的取舍,进一步保证网站为卖方待发布商品信息进行类目推荐的准确率。
本申请还对上述优选的商品信息发布方法进行了改进,具体的,将删除了部分词的关键词与查询点击日志中的查询词进行匹配之后,还包括:若从查询点击日志中无法匹配到与删除了部分词的关键词对应的查询词,则根据词义、词法以及语义将卖方输入的关键词分为多个特征;分别计算多个特征在查询点击日志中的各个类目下的后验概率;将计算出的后验概率大于预定阈值的类目作为与关键词匹配的类目进行返回。
在上述优选的实施方式中,在从查询点击日志中无法匹配到与删除了部分词的关键词对应的查询词时,通过预定的规则计算多个特征在查询点击日志中的各个类目下的后验概率,以计算出的后验概率作为选取与关键词匹配的类目的依据,实现继续为卖方商品推荐类目的效果。
本申请还提供了一种分别计算多个特征在查询点击日志中的各个类目下的后验概率的优选的方案,具体的,该方案包括:通过以下公式分别计算多个特征在查询点击日志中的各个类目下的后验概率:
其中,y为查询点击日志中的类目;x为卖方输入的关键词;fj(x,y)为x在类目y下的第j个特征;λj为第j个特征对应的权重;Z(x)是归一化因子。
具体来讲,给定一个查询关键词所包含的所有信息,包括词一级、词法信息一级、语义一级等特征,查询属于某一个类目的置信度可以如下定义:
p(c is correct|x),即,查询卖方给定相关信息x属于该类目正确的后验概率。采用条件最大熵(Conditional Maximum Entropy)模型来计算后验概率。
此处需要说明的是,此处采用最大熵的方案只是作为计算后验概率的一种优选的实施方式,并不构成对本申请的进一步限定,本申请还可以采用其他方案来进行,例如:线性回归方案,支持向量机方案等。
本申请还提供了一种根据存储的买方的查询点击日志计算出查询点击日志中的查询词与类目之间的关联信息的优选的方案,具体的,该方案包括:通过以下公式计算买方的查询点击日志中每个查询词所对应的类目的置信度:
p(categoryj|queryi)=λ1p′(categoryj|queryi)+λ2p″(categoryj|queryi,offer)
其中,λ1和λ2表示权重,λ1∈[0,1],λ2∈[0,1],λ2+λ2=1;
p′(categoryj|queryi)为查询词与导航区类目之间的条件概率;
p″(categoryj|queryi,offer)为查询词与商品类目之间的条件概率;
其中,
count(categoryj,queryi)表示一段时间内买方输入查询词queryi时点击类目categoryj的次数,count(queryi)表示这段时间内买方输入查询词queryi的次数;
其中,
count(categoryj,queryi|offer)表示一段时间内买方输入查询词queryi时点击了属于类目categoryj下的商品offer的次数,count(queryi|offer)表示该段时间买方输入查询词queryi的次数。
优选的,按照置信度p(categoryj|queryi)的大小将查询词queryi对应的各个类目categoryj进行排序;将排序后的各个类目categoryj作为结果进行返回。上述优选技术方案的实施,通过买方的查询点击日志计算出查询点击日志中的查询词与类目之间的关联信息,保证网站发布商品信息时网站可以给卖方提供出买方对于商品放在不同类目下的兴趣的度量。
实施例3
在上述图1-图6所示的优选的商品信息发布方法和装置的基础上,本申请还提供了另一种优选的商品信息发布装置。
图7是根据本申请实施例的商品信息发布装置的一种优选的功能示意图,如图7所示,卖方在电子商务网站上发布商品的时候,输入一个与待发布商品信息相关的关键词或者自然语言短句,电子商务网站通过这个关键词或者短句推荐一系列与商品相关的类目,并将推荐的类目按照一定的顺序进行排序,卖方从中选择一个待发布商品最适合归属的类目。优选的,商品发布端将所选类目的必填的属性和可供选择的属性值输出供用户填写或者选择,从而方便用户的填写的同时也规范化了发布的商品信息。
具体来讲,电子商务网站上的商品都会被放入某一类目或多个类目中,买方在查询时,会点击和浏览某些商品,因此这些商品的所属类目和该查询就建立了一种关联信息,这种关联信息包含了该查询词和商品的所属类目的相关程度,也包含了买方对于商品放在不同类目下的兴趣的度量。此外,买方在查询时,还有可能会点击导航区的一些类目,这就更直接的描述了查询词与类目之间的关联信息。
利用这种关联信息,可以描述一个查询与类目的置信度。利用一段时间(优选的,可以是3个月或者以上)的买方查询点击日志建立一个查询与类目的关系表。
具体而言,给定一个查询queryi,买方点击的商品对应的类目以及导航区点击的类目集合为{category1,category2,...categoryj...},则对于查询queryi,推荐商品类目categoryj的条件概率定义为p(categoryj|queryi),这个条件概率描述了对于查询queryi推荐类目categoryj的可信程度。对于所有的类目,满足条件:
优选的,买方的点击日志分为两部分,一部分时对导航区类目的点击,一种是对商品本身的点击。
对于导航区类目的点击:直接描述了查询和类目的关系,计算查询与推荐类目的条件概率为:
其中,count(categoryj,queryi)表示一段时间内买方输入该查询时候点击该类目的次数,count(queryi)表示这段时间内买方输入该查询的次数。
对商品的点击:买方输入查询后,点击一次商品,则该查询和该商品所属的类目就发生一次关联。因此,根据查询点击商品的日志,计算查询与推荐类目的条件概率,优选的,公式为:
其中,count(categoryj,queryi|offer)表示一段时间内买方输入该查询点击了属于该目录的商品的次数,count(queryi|offer)表示该段时间买方输入该查询的次数。
综合上述两种点击信息计算得到的条件概率,进行线性加权,得到查询对应的推荐类目的置信度:
p(categoryj|queryi)=λ1p′(categoryj|queryi)+λ2p″(categoryj|queryi,offer) (4)
其中,λ1和λ2表示权重,优选的,可根据经验值或者线性回归方法来确定λ1和λ2。
根据一段时间(优选的,可以是三个月或者以上)的查询点击日志,便建立了大量的查询与类目的关系表,该查询与类目的关系用一个概率值来表示,概率值的大小表示出从买方的角度看到的查询与类目的关联程度。
卖方在发布商品时输入一个关键词,将该关键词到上述关系表中查找,若买方刚好输过同样的查询,则该关键词跟类目的关系也就可以找到,按照关联程度的大小进行排序展示给卖方让卖方进行选择,从而完成关键词推荐。
进一步的,本申请还对上述装置进行了改进,优选的,在卖家输入的关键词比较复杂和冗长,并没有在买方的查询点击日志中出现过时,对卖家输入的关键词进行改写,在保留其主题焦点信息的基础上,删除一些不太重要的词,缩短关键词的长度,这样经过删除之后的关键词在查询点击日志中出现过的概率将会大大提升,并且改写的过程中保留了关键词的主题焦点信息,推荐出来的类目可以最大限度的保证符合原查询的类目要求。
优选的,关键词改写策略如下:
1.通过词法、语法、语义以及统计特征为卖家输入的关键词中的每一个单词做一个重要性的打分。优选的,可以利用如下具体特征:
词法信息:优选的,包括:单词长度,过短或过长的单词预示单词主题重要性的区别;单词的构成,由纯数字组成的单词与其他单词相比的主题重要性;单词的后缀,表明了单词的类别信息,如“er”、“or”等。
语法信息:优选的,包括:词性,通过词性判断单词的重要程度,例如形容词,副词反映信息焦点的可能性比较小,更多反映的是对信息焦点的属性以及类别修饰关系,而名词性词汇则对信息主题的贡献相对较大;短语:通过短语判断单词之间在语法层次上的一种整体关系;语法中心词,根据语法和模板信息所识别的中心词在对信息主题焦点进行识别;语段中的出现位置,语段中的出现位置判断单词距离语法中心词的远近程度,从而判断单词对信息焦点的修饰紧密程度和信息量。
语义特征:优选的,单词所对应的语义标签被抽取为语义的特征,所采用的语义标签有:
商品名:标示单词为某一商品词或商品词的一部分;品牌名:标示单词为某一品牌词或品牌词的一部分;型号名:标示单词为某一型号词或型号词的一部分;地名:标示单词为一个地域名称或地域名称的一部分。
统计特征:单个单词的在查询中出现的频率信息,优选的,包括:单词作为独立查询出现的频率信息;单词作为中心词的频率信息;单词作为修饰词的频率信息。
优选的,上述特征根据对单词的重要性的影响设置一个值,各个值相乘得到最后的词项的重要性。
2.识别关键词中的多词单元,其中,多词单元是指多个单词构成一个具有一个整体意义的语言单位,去掉其中的任何一个单词,则整体意义消失。
优选的,对多词单元的识别利用的是统计信息,统计在查询点击日志以及商品的标题中任意两个单词接连出现的次数,接连出现的次数越多,是一个多词单元的可能性越大;因为一个多词单元不可能跨短语出现,因此按照前面对查询关键词划分的短语,识别每个短语内的多词单元;此外,品牌和商品这样的组合经常出现,但这样的组合具有两个意义,不能算一个多词单元。优选的,具体算法如下:
1)读取一个短语,设定当前多词单元起始位置为短语起始位置;
2)读取当前词项和下一个词项;
如果当前词项的语义标示为品牌,且下一词项的语义表示不是品牌,从起始位置到当前位置为一个多词单元,保存多词单元信息,设定起始位置为下一词项位置;否则看统计信息中两个词的连续出现频率是否大于C,如果不大于,则从起始位置到当前位置为一个多词单元,保存多词单元信息,设定起始位置为下一词项位置。
3)当前位置往后移动一位,进行上述2)操作直到该浅层语段的多词单元识别完毕。
多词单元识别完成之后,将多词单元内单词打分最高的单词的分数作为该多词单元的重要性评估分数。
3.改写查询关键词重新查询查询类目关系表得到推荐类目。
将得分最高的段即为查询关键词的主题焦点信息,保留这部分信息,删除得分最小的段,用剩余部分到上述查询与类目的关系表中查找,若可以得到推荐类目,返回;否则,继续删除当前的分最小的段,继续查询,直到得到推荐类目,或者没有段可以删除。
在上述对卖家输入的关键词进行改写仍不能为卖方推荐类目时,利用机器学习的方法进行类目推荐。具体的,通过以下公式计算后验概率:
其中,y为查询点击日志中的类目;x为卖方输入的关键词;fj(x,y)为x在类目y下的第j个特征;λj为第j个特征对应的权重;Z(x)是归一化因子。
具体来讲,给定一个查询关键词所包含的所有信息,包括词一级、词法信息一级、语义一级等特征,查询属于某一个类目的置信度可以如下定义:
p(c is correct|x),即,查询卖方给定相关信息x属于该类目正确的后验概率。采用条件最大熵(Conditional Maximum Entropy)模型来计算后验概率。
此处需要说明的是,此处采用最大熵的方案只是作为计算后验概率的一种优选的实施方式,并不构成对本申请的进一步限定,本申请还可以采用其他方案来进行,例如:线性回归方案,支持向量机方案等。
优选的,对卖方输入的关键词选取的分类特征包括:
1)商品标签(Product):标识该词为某一商品词,通过语义识别得出;
2)品牌标签(Brand):标识该词为某一品牌词,通过语义识别得出;
3)型号标签(Model):标识该词为某一型号词,通过语义识别得出;
4)中心词;
5)所有名词短语;
6)中心词+左邻名词短语;
7)中心词+右邻名词短语。
基于上述分类算法,构建查询分类器,输入为卖方输入的关键词,输出为分类结果,即前N个类目及置信度。由于类目之间存在树状的层级关系,所以我们构建了一个多级分类器,具体的,如图8所示,该分类器会对卖方输入的关键词逐级分类,直到分到一个置信度较高的类目。
该机器学习方法是一种完全数据驱动的方法,所有分类器都是基于用户搜索数据自动训练得出,并且能够很好地符合用户行为,因此具有很好的自适应能力,即很容易应用于类目体系频繁发生变更的场合。
图9示出本申请实施例的商品信息发布装置的一种优选的类目推荐流程图,该商品信息发布装置包括如下流程:
S902,获得卖方输入的待发布商品信息的关键词;
S904,将卖方输入的关键词在查询与类目关系表中进行关键词查询;
优选的,上述查询与类目关系表在线下模块完成,根据买方一段时间(优选的,可以是三个月或者以上)的查询点击日志,建立大量的查询与类目的关系表。
S906,判断是否成功匹配到查询与类目关系表中的查询词,若是,则执行步骤S908,否则执行步骤S910;
S908,根据匹配到的查询词对应的类目为卖方的商品推荐类目,结束本流程;
S910,将卖方输入的关键词进行改写,将卖方输入的关键词中删除部分词;
S912,判断删除了部分词的关键词是否成功匹配到查询与类目关系表中的查询词,若是,则执行步骤S908,否则执行步骤S914;
S914,使用机器学习的方法为卖方商品进行类目推荐,其中,在线下模块完成机器学习模型训练。
在上述优选的商品信息发布装置中,卖方在发布商品时,先根据卖方输入的商品关键词为卖方的商品进行类目推荐,在卖方输入的商品关键词无法在查询与类目的关系表中找到时,可以对关键词进行改写(即,删除卖方输入的关键词中的部分词);在对卖方输入的商品关键词改写之后,仍无法在查询与类目的关系表中找到时,使用机器学习分类方法。三种方法可以互相补充,进行很好的融合。
从以上描述中可以看出,在上述优选的实施方式中,网站根据存储买方购买商品时的查询点击日志计算出该查询点击日志中查询词与类目之间的关联信息。当卖方在电子商务网站上发布商品的时,网站服务器将卖方输入的与待发布商品相关的关键词与存储的买方查询点击日志中的查询词进行匹配,根据匹配的结果和上述的关联关系为卖方推荐与查询点击日志中的查询词相关的类目,从而使得卖方能够将商品信息准确地存储在相关的类目中,其中,相关的类目为买方在通过与关键词匹配的查询词进行商品信息查询时所可能选择的类目。当买方根据查询词向网站服务器请求相关商品信息时,网站服务器根据接收到的查询词在买方的查询点击日志中获取与该查询词相关联的类目,并在该类目中进行商品信息搜索,由于卖方在发布商品信息时已经在上述相关的类目中存储了商品信息,因此,网站服务器将会快速的获取到该卖方所发布的商品信息并进行返回,由于该返回的商品信息与查询词较为匹配,从而增加了买方点击该商品信息的概率,解决了相关技术中在发布商品信息时由于网站推荐卖方的发布类目不准确而导致的发布信息的召回率较低的技术问题,提高了网站为卖方商品类目推荐的准确率,增加了商品信息发布后的召回率。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (11)
1.一种商品信息发布方法,其特征在于,包括:
根据存储的买方的查询点击日志计算出所述查询点击日志中的查询词与类目之间的关联信息;
将卖方输入的关键词与所述查询点击日志中的查询词进行匹配;
若匹配到所述查询点击日志中的查询词,则根据所述关联信息获取与所述匹配到的查询词对应的类目;
将商品信息存储在获取到的类目中的一个类目或多个类目中。
2.根据权利要求1所述的方法,其特征在于,将卖方输入的关键词与所述查询点击日志中的查询词进行匹配之后,还包括:
若无法匹配到所述查询点击日志中的查询词,则从所述卖方输入的关键词中删除部分词,将删除了部分词的关键词与所述查询点击日志中的查询词进行匹配;
若匹配到所述查询点击日志中的查询词,则根据所述关联信息获取与所述匹配到的查询词对应的类目;
将所述商品信息存储在获取到的类目中的一个类目或多个类目中。
3.根据权利要求2所述的方法,其特征在于,从所述卖方输入的关键词中删除部分词的步骤包括:
根据词法、语法、语义以及统计特征对所述关键词中的每个词标注与该词的重要性对应的分值;
从所述关键词中删除分值小于预定阈值的部分词。
4.根据权利要求2所述的方法,其特征在于,将删除了部分词的关键词与所述查询点击日志中的查询词进行匹配之后,还包括:
若从所述查询点击日志中无法匹配到与删除了部分词的关键词对应的查询词,则根据词义、词法以及语义将所述卖方输入的关键词分为多个特征;
分别计算所述多个特征在所述查询点击日志中的各个类目下的后验概率;
将计算出的后验概率大于预定阈值的类目作为与所述关键词匹配的类目进行返回。
5.根据权利要求4所述的方法,其特征在于,通过以下公式分别计算所述多个特征在所述查询点击日志中的各个类目下的后验概率:
其中,y为所述查询点击日志中的类目;x为所述卖方输入的关键词;fj(x,y)为x在类目y下的第j个特征;λj为第j个特征对应的权重;Z(x)是归一化因子。
6.根据权利要求1所述的方法,其特征在于,根据存储的买方的查询点击日志计算出所述查询点击日志中的查询词与类目之间的关联信息的步骤包括:
通过以下公式计算所述买方的查询点击日志中每个查询词所对应的类目的置信度:
p(categoryj|queryi)=λ1p′(categoryj|queryi)+λ2p″(categoryj|queryi,offer)
其中,λ1和λ2表示权重,λ1∈[0,1],λ2∈[0,1],λ2+λ2=1;
p′(categoryj|queryi)为查询词与导航区类目之间的条件概率;
p″(categoryj|queryi,offer)为查询词与商品类目之间的条件概率;
其中,
count(categoryj,queryi)表示一段时间内所述买方输入查询词queryi时点击类目categoryj的次数,count(queryi)表示这段时间内所述买方输入查询词queryi的次数;
其中,
count(categoryj,queryi|offer)表示一段时间内所述买方输入查询词queryi时点击了属于类目categoryj下的商品offer的次数,count(queryi|offer)表示该段时间所述买方输入查询词queryi的次数。
7.根据权利要求6所述的方法,其特征在于,根据所述关联信息获取与所述匹配到的查询词对应的类目的步骤包括:
按照置信度p(categoryj|queryi)的大小将查询词queryi对应的各个类目categoryj进行排序;
将排序后的各个类目categoryj作为结果进行返回。
8.一种商品信息发布装置,其特征在于,包括:
第一计算单元,用于根据存储的买方的查询点击日志计算出所述查询点击日志中的查询词与类目之间的关联信息;
第一匹配单元,用于将卖方输入的关键词与所述查询点击日志中的查询词进行匹配;
第一获取单元,用于在所述第一匹配单元匹配到所述查询点击日志中的查询词时,根据所述关联信息获取与所述匹配到的查询词对应的类目;
第一发布单元,用于将商品信息存储在所述第一获取单元获取到的类目中的一个类目或多个类目中。
9.根据权利要求8所述的装置,其特征在于,还包括:
删除单元,用于在所述第一匹配单元无法匹配到所述查询点击日志中的查询词时,从所述卖方输入的关键词中删除部分词;
第二匹配单元,用于将删除单元删除了部分词的关键词与所述查询点击日志中的查询词进行匹配;
第二获取单元,用于在所述第二匹配单元匹配到所述查询点击日志中的查询词时,根据所述关联信息获取与所述匹配到的查询词对应的类目;
第二发布单元,用于将所述商品信息存储在所述第二获取单元获取到的类目中的一个类目或多个类目中。
10.根据权利要求9所述的装置,其特征在于,所述删除单元包括:
标注分值模块,用于根据词法、语法、语义以及统计特征对所述关键词中的每个词标注与该词的重要性对应的分值;
删除模块,用于从所述关键词中删除分值小于预定阈值的部分词。
11.根据权利要求9所述的装置,其特征在于,还包括:
特征分析单元,用于在所述第二匹配单元从所述查询点击日志中无法匹配到与删除了部分词的关键词对应的查询词时,根据词义、词法以及语义将所述卖方输入的关键词分为多个特征;
第二计算单元,用于分别计算所述多个特征在所述查询点击日志中的各个类目下的后验概率;
选取单元,将计算出的后验概率大于预定阈值的类目作为与所述关键词匹配的类目进行返回。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012100694649A CN103310343A (zh) | 2012-03-15 | 2012-03-15 | 商品信息发布方法和装置 |
TW101117557A TWI557664B (zh) | 2012-03-15 | 2012-05-17 | Product information publishing method and device |
PCT/US2013/031031 WO2013138516A1 (en) | 2012-03-15 | 2013-03-13 | Publishing product information |
JP2015500573A JP6177871B2 (ja) | 2012-03-15 | 2013-03-13 | 製品情報の公開 |
US13/802,004 US9665622B2 (en) | 2012-03-15 | 2013-03-13 | Publishing product information |
EP13712996.1A EP2825981A1 (en) | 2012-03-15 | 2013-03-13 | Publishing product information |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012100694649A CN103310343A (zh) | 2012-03-15 | 2012-03-15 | 商品信息发布方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103310343A true CN103310343A (zh) | 2013-09-18 |
Family
ID=48014326
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012100694649A Pending CN103310343A (zh) | 2012-03-15 | 2012-03-15 | 商品信息发布方法和装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US9665622B2 (zh) |
EP (1) | EP2825981A1 (zh) |
JP (1) | JP6177871B2 (zh) |
CN (1) | CN103310343A (zh) |
TW (1) | TWI557664B (zh) |
WO (1) | WO2013138516A1 (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105468680A (zh) * | 2015-11-16 | 2016-04-06 | 中国建设银行股份有限公司 | 一种数据检索方法和装置 |
CN105718457A (zh) * | 2014-12-01 | 2016-06-29 | 航天信息股份有限公司 | 基于电子票据的信息推送方法及系统 |
CN106856450A (zh) * | 2017-01-09 | 2017-06-16 | 东软集团股份有限公司 | 基于社交网络的社交信息生成方法和装置 |
CN106919576A (zh) * | 2015-12-24 | 2017-07-04 | 北京奇虎科技有限公司 | 利用二级类目下的关键词库搜索应用程序的方法及装置 |
CN107230123A (zh) * | 2016-03-25 | 2017-10-03 | 阿里巴巴集团控股有限公司 | 商品映射方法、装置及设备 |
CN107608983A (zh) * | 2016-07-11 | 2018-01-19 | 阿里巴巴集团控股有限公司 | 标题信息优化方法、装置、设备及系统 |
CN108431854A (zh) * | 2015-12-29 | 2018-08-21 | 电子湾有限公司 | 检测垃圾信息发布 |
CN108564400A (zh) * | 2018-03-30 | 2018-09-21 | 重庆首卓网络信息科技有限公司 | 商品信息推广系统及方法 |
CN108665358A (zh) * | 2018-08-03 | 2018-10-16 | 北京引领海逛科技有限公司 | 产品信息快速匹配多个平台的方法和装置 |
CN110766486A (zh) * | 2018-07-09 | 2020-02-07 | 北京京东尚科信息技术有限公司 | 确定物品类目的方法和装置 |
CN110795613A (zh) * | 2018-07-17 | 2020-02-14 | 阿里巴巴集团控股有限公司 | 商品搜索方法、装置、系统及电子设备 |
CN110955772A (zh) * | 2018-09-26 | 2020-04-03 | 阿里巴巴集团控股有限公司 | 文本结构化模型组件部署方法、装置、设备及存储介质 |
TWI694389B (zh) * | 2018-05-03 | 2020-05-21 | 和碩聯合科技股份有限公司 | 文件推薦系統及操作文件推薦系統的方法 |
CN111723566A (zh) * | 2019-03-21 | 2020-09-29 | 阿里巴巴集团控股有限公司 | 产品信息的重构方法和装置 |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9524319B2 (en) | 2013-04-30 | 2016-12-20 | Wal-Mart Stores, Inc. | Search relevance |
US9524520B2 (en) * | 2013-04-30 | 2016-12-20 | Wal-Mart Stores, Inc. | Training a classification model to predict categories |
US9652499B1 (en) * | 2013-08-21 | 2017-05-16 | Athena Ann Smyros | Search-based recommendation engine |
JP5852768B1 (ja) * | 2015-06-30 | 2016-02-03 | 楽天株式会社 | 管理装置、管理方法、プログラム、及び記録媒体 |
CN106909931B (zh) * | 2015-12-23 | 2021-03-16 | 阿里巴巴集团控股有限公司 | 一种用于机器学习模型的特征生成方法、装置和电子设备 |
CN106960248B (zh) * | 2016-01-08 | 2021-02-23 | 阿里巴巴集团控股有限公司 | 一种基于数据驱动预测用户问题的方法及装置 |
TWI633448B (zh) * | 2017-07-24 | 2018-08-21 | 優像數位媒體科技股份有限公司 | Method of analyzing the interest preferences of website readers |
CN109658455B (zh) * | 2017-10-11 | 2023-04-18 | 阿里巴巴集团控股有限公司 | 图像处理方法和处理设备 |
CN108805622B (zh) * | 2018-06-11 | 2021-11-09 | 深圳乐信软件技术有限公司 | 商品推荐方法、装置、设备及存储介质 |
KR102224931B1 (ko) * | 2018-12-24 | 2021-03-09 | 주식회사 포티스 | 신경망을 이용한 패션 상품 관련 정보 정제를 위한 서비스 제공 장치 및 방법 |
US10956487B2 (en) | 2018-12-26 | 2021-03-23 | Industrial Technology Research Institute | Method for establishing and processing cross-language information and cross-language information system |
JP7190479B2 (ja) * | 2020-12-28 | 2022-12-15 | 楽天グループ株式会社 | 学習装置、機械学習モデル及び学習方法 |
JP7372278B2 (ja) | 2021-04-20 | 2023-10-31 | ヤフー株式会社 | 算出装置、算出方法及び算出プログラム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101194257A (zh) * | 2005-03-30 | 2008-06-04 | 电子湾有限公司 | 处理搜索信息的方法和系统 |
CN101661594A (zh) * | 2008-08-28 | 2010-03-03 | 阿里巴巴集团控股有限公司 | 一种在互联网上提供对象信息的方法及系统 |
CN102033877A (zh) * | 2009-09-27 | 2011-04-27 | 阿里巴巴集团控股有限公司 | 检索方法和装置 |
US8024308B2 (en) * | 2006-08-07 | 2011-09-20 | Chacha Search, Inc | Electronic previous search results log |
CN102236663A (zh) * | 2010-04-30 | 2011-11-09 | 阿里巴巴集团控股有限公司 | 一种基于垂直搜索的查询方法、系统和装置 |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030014317A1 (en) | 2001-07-12 | 2003-01-16 | Siegel Stanley M. | Client-side E-commerce and inventory management system, and method |
KR100515641B1 (ko) * | 2003-04-24 | 2005-09-22 | 우순조 | 모빌적 형상 개념을 기초로 한 구문 분석방법 및 이를이용한 자연어 검색 방법 |
US7620628B2 (en) | 2004-12-06 | 2009-11-17 | Yahoo! Inc. | Search processing with automatic categorization of queries |
JP4368336B2 (ja) | 2005-07-13 | 2009-11-18 | 富士通株式会社 | カテゴリ設定支援方法及び装置 |
US20080059485A1 (en) * | 2006-08-23 | 2008-03-06 | Finn James P | Systems and methods for entering and retrieving data |
US7693865B2 (en) | 2006-08-30 | 2010-04-06 | Yahoo! Inc. | Techniques for navigational query identification |
CN101145153B (zh) * | 2006-09-13 | 2011-03-30 | 阿里巴巴集团控股有限公司 | 一种搜索信息的方法及系统 |
KR100898456B1 (ko) | 2007-01-12 | 2009-05-21 | 엔에이치엔(주) | 검색 결과를 제공하는 방법 및 상기 방법을 수행하는시스템 |
US7603348B2 (en) | 2007-01-26 | 2009-10-13 | Yahoo! Inc. | System for classifying a search query |
KR101049889B1 (ko) | 2007-10-22 | 2011-07-19 | 주식회사 이베이지마켓 | 검색을 통한 행태분석에 기반한 키워드 그룹에 대하여광고를 수주하고 타겟 광고하는 웹 사이트 운영 방법 및온라인 시스템 |
US7877404B2 (en) | 2008-03-05 | 2011-01-25 | Microsoft Corporation | Query classification based on query click logs |
JP2009265833A (ja) * | 2008-04-23 | 2009-11-12 | Full Speed Inc | 広告システム及び広告方法 |
US8290930B2 (en) | 2008-06-02 | 2012-10-16 | Microsoft Corporation | Query result generation based on query category and data source category |
US8073869B2 (en) * | 2008-07-03 | 2011-12-06 | The Regents Of The University Of California | Method for efficiently supporting interactive, fuzzy search on structured data |
US8515966B2 (en) * | 2009-01-09 | 2013-08-20 | Ebay Inc. | Analyzing queries to generate product intention rules |
US20100257171A1 (en) | 2009-04-03 | 2010-10-07 | Yahoo! Inc. | Techniques for categorizing search queries |
JP2011154467A (ja) | 2010-01-26 | 2011-08-11 | Ntt Docomo Inc | 検索結果順位付け方法および検索結果順位付けシステム |
CN102193939B (zh) | 2010-03-10 | 2016-04-06 | 阿里巴巴集团控股有限公司 | 信息导航的实现方法、信息导航服务器和信息处理系统 |
CN102253936B (zh) * | 2010-05-18 | 2013-07-24 | 阿里巴巴集团控股有限公司 | 记录用户访问商品信息的方法及搜索方法和服务器 |
CN102289436B (zh) * | 2010-06-18 | 2013-12-25 | 阿里巴巴集团控股有限公司 | 确定搜索词权重值方法及装置、搜索结果生成方法及装置 |
JP5581857B2 (ja) * | 2010-07-07 | 2014-09-03 | 日本電気株式会社 | 情報検索装置、情報検索方法および情報検索プログラム |
WO2012024580A1 (en) * | 2010-08-19 | 2012-02-23 | Othar Hansson | Predictive query completion and predictive search results |
TWI547888B (zh) * | 2010-08-27 | 2016-09-01 | Alibaba Group Holding Ltd | A method of recording user information and a search method and a server |
US20120059708A1 (en) * | 2010-08-27 | 2012-03-08 | Adchemy, Inc. | Mapping Advertiser Intents to Keywords |
US9092815B2 (en) | 2010-11-16 | 2015-07-28 | Markus Foerster | Searching for goods and services based on keywords and proximity |
US8996495B2 (en) | 2011-02-15 | 2015-03-31 | Ebay Inc. | Method and system for ranking search results based on category demand normalized using impressions |
US8793574B2 (en) * | 2011-03-16 | 2014-07-29 | Ancestry.Com Operations Inc. | Methods and systems for identification and transcription of individual ancestral records and family |
WO2013134102A1 (en) * | 2012-03-05 | 2013-09-12 | Telecommunication Systems, Inc. | Filtered search query data for context and user intent within a location-based search engine |
US20140236570A1 (en) * | 2013-02-18 | 2014-08-21 | Microsoft Corporation | Exploiting the semantic web for unsupervised spoken language understanding |
-
2012
- 2012-03-15 CN CN2012100694649A patent/CN103310343A/zh active Pending
- 2012-05-17 TW TW101117557A patent/TWI557664B/zh not_active IP Right Cessation
-
2013
- 2013-03-13 EP EP13712996.1A patent/EP2825981A1/en not_active Withdrawn
- 2013-03-13 JP JP2015500573A patent/JP6177871B2/ja active Active
- 2013-03-13 US US13/802,004 patent/US9665622B2/en active Active
- 2013-03-13 WO PCT/US2013/031031 patent/WO2013138516A1/en active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101194257A (zh) * | 2005-03-30 | 2008-06-04 | 电子湾有限公司 | 处理搜索信息的方法和系统 |
US8024308B2 (en) * | 2006-08-07 | 2011-09-20 | Chacha Search, Inc | Electronic previous search results log |
CN101661594A (zh) * | 2008-08-28 | 2010-03-03 | 阿里巴巴集团控股有限公司 | 一种在互联网上提供对象信息的方法及系统 |
CN102033877A (zh) * | 2009-09-27 | 2011-04-27 | 阿里巴巴集团控股有限公司 | 检索方法和装置 |
CN102236663A (zh) * | 2010-04-30 | 2011-11-09 | 阿里巴巴集团控股有限公司 | 一种基于垂直搜索的查询方法、系统和装置 |
Non-Patent Citations (1)
Title |
---|
JI-RONG WEN 等: "Query Clustering Using User Logs", 《ACM TRANSACTIONS ON INFORMATION SYSTEMS》 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105718457B (zh) * | 2014-12-01 | 2021-03-26 | 航天信息股份有限公司 | 基于电子票据的信息推送方法及系统 |
CN105718457A (zh) * | 2014-12-01 | 2016-06-29 | 航天信息股份有限公司 | 基于电子票据的信息推送方法及系统 |
CN105468680A (zh) * | 2015-11-16 | 2016-04-06 | 中国建设银行股份有限公司 | 一种数据检索方法和装置 |
CN106919576A (zh) * | 2015-12-24 | 2017-07-04 | 北京奇虎科技有限公司 | 利用二级类目下的关键词库搜索应用程序的方法及装置 |
CN108431854B (zh) * | 2015-12-29 | 2023-11-17 | 电子湾有限公司 | 检测垃圾信息发布 |
CN108431854A (zh) * | 2015-12-29 | 2018-08-21 | 电子湾有限公司 | 检测垃圾信息发布 |
CN107230123A (zh) * | 2016-03-25 | 2017-10-03 | 阿里巴巴集团控股有限公司 | 商品映射方法、装置及设备 |
CN107608983A (zh) * | 2016-07-11 | 2018-01-19 | 阿里巴巴集团控股有限公司 | 标题信息优化方法、装置、设备及系统 |
CN107608983B (zh) * | 2016-07-11 | 2021-03-30 | 阿里巴巴集团控股有限公司 | 标题信息优化方法、装置、设备及系统 |
CN106856450B (zh) * | 2017-01-09 | 2020-09-29 | 东软集团股份有限公司 | 基于社交网络的社交信息生成方法和装置 |
CN106856450A (zh) * | 2017-01-09 | 2017-06-16 | 东软集团股份有限公司 | 基于社交网络的社交信息生成方法和装置 |
CN108564400A (zh) * | 2018-03-30 | 2018-09-21 | 重庆首卓网络信息科技有限公司 | 商品信息推广系统及方法 |
CN108564400B (zh) * | 2018-03-30 | 2021-11-02 | 重庆首卓网络信息科技有限公司 | 商品信息推广系统及方法 |
TWI694389B (zh) * | 2018-05-03 | 2020-05-21 | 和碩聯合科技股份有限公司 | 文件推薦系統及操作文件推薦系統的方法 |
CN110766486A (zh) * | 2018-07-09 | 2020-02-07 | 北京京东尚科信息技术有限公司 | 确定物品类目的方法和装置 |
CN110795613B (zh) * | 2018-07-17 | 2023-04-28 | 阿里巴巴集团控股有限公司 | 商品搜索方法、装置、系统及电子设备 |
CN110795613A (zh) * | 2018-07-17 | 2020-02-14 | 阿里巴巴集团控股有限公司 | 商品搜索方法、装置、系统及电子设备 |
CN108665358A (zh) * | 2018-08-03 | 2018-10-16 | 北京引领海逛科技有限公司 | 产品信息快速匹配多个平台的方法和装置 |
CN110955772A (zh) * | 2018-09-26 | 2020-04-03 | 阿里巴巴集团控股有限公司 | 文本结构化模型组件部署方法、装置、设备及存储介质 |
CN110955772B (zh) * | 2018-09-26 | 2023-06-06 | 阿里巴巴集团控股有限公司 | 文本结构化模型组件部署方法、装置、设备及存储介质 |
CN111723566A (zh) * | 2019-03-21 | 2020-09-29 | 阿里巴巴集团控股有限公司 | 产品信息的重构方法和装置 |
CN111723566B (zh) * | 2019-03-21 | 2024-01-23 | 阿里巴巴集团控股有限公司 | 产品信息的重构方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
US20130246456A1 (en) | 2013-09-19 |
JP6177871B2 (ja) | 2017-08-09 |
JP2015511039A (ja) | 2015-04-13 |
US9665622B2 (en) | 2017-05-30 |
EP2825981A1 (en) | 2015-01-21 |
TW201337814A (zh) | 2013-09-16 |
WO2013138516A1 (en) | 2013-09-19 |
TWI557664B (zh) | 2016-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103310343A (zh) | 商品信息发布方法和装置 | |
Zhao et al. | Exploring demographic information in social media for product recommendation | |
TWI615724B (zh) | 基於電子資訊的關鍵字提取的資訊推送、搜尋方法及裝置 | |
Wu et al. | Flame: A probabilistic model combining aspect based opinion mining and collaborative filtering | |
Li et al. | User comments for news recommendation in forum-based social media | |
Liu et al. | Full‐text citation analysis: A new method to enhance scholarly networks | |
US8990241B2 (en) | System and method for recommending queries related to trending topics based on a received query | |
US8645395B2 (en) | System and methods for evaluating feature opinions for products, services, and entities | |
US10585927B1 (en) | Determining a set of steps responsive to a how-to query | |
CN103309886A (zh) | 一种基于交易平台的结构化信息搜索方法和装置 | |
US20130060769A1 (en) | System and method for identifying social media interactions | |
US20130110839A1 (en) | Constructing an analysis of a document | |
US20150356418A1 (en) | Methods and apparatus for identifying concepts corresponding to input information | |
CN103530299A (zh) | 一种搜索结果的生成方法及装置 | |
CN104268292A (zh) | 画像系统的标签词库更新方法 | |
CN103870523A (zh) | 通过分析内容确定上下文并且基于该上下文提供相关内容 | |
CN103678576A (zh) | 基于动态语义分析的全文检索系统 | |
CN101833560A (zh) | 基于互联网的厂商口碑自动排序系统 | |
CN102955849A (zh) | 基于标签推荐文档的方法及文档推荐装置 | |
Jin et al. | How to interpret the helpfulness of online product reviews: bridging the needs between customers and designers | |
Saia et al. | A semantic approach to remove incoherent items from a user profile and improve the accuracy of a recommender system | |
CN105468649A (zh) | 一种待展示对象匹配的判断方法及其装置 | |
Humphreys | Automated text analysis | |
Di Rocco et al. | Hybridrec: A recommender system for tagging github repositories | |
EP2384476A1 (en) | Personalization engine for building a user profile |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1185699 Country of ref document: HK |
|
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20130918 |
|
RJ01 | Rejection of invention patent application after publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: WD Ref document number: 1185699 Country of ref document: HK |