CN102456057B - 基于网上交易平台的检索方法、装置和服务器 - Google Patents

基于网上交易平台的检索方法、装置和服务器 Download PDF

Info

Publication number
CN102456057B
CN102456057B CN201010529419.8A CN201010529419A CN102456057B CN 102456057 B CN102456057 B CN 102456057B CN 201010529419 A CN201010529419 A CN 201010529419A CN 102456057 B CN102456057 B CN 102456057B
Authority
CN
China
Prior art keywords
webpage
product
product identification
web
key word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201010529419.8A
Other languages
English (en)
Other versions
CN102456057A (zh
Inventor
潘晓雯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201010529419.8A priority Critical patent/CN102456057B/zh
Priority to TW100108078A priority patent/TWI549004B/zh
Priority to JP2013536703A priority patent/JP5923510B2/ja
Priority to US13/389,996 priority patent/US20130290138A1/en
Priority to PCT/US2011/057524 priority patent/WO2012061076A1/en
Priority to EP11838483.3A priority patent/EP2635961A4/en
Publication of CN102456057A publication Critical patent/CN102456057A/zh
Priority to HK12107084.8A priority patent/HK1166402A1/zh
Priority to JP2016082971A priority patent/JP6346218B2/ja
Application granted granted Critical
Publication of CN102456057B publication Critical patent/CN102456057B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions

Abstract

本申请提供了一种基于网上交易平台的检索方法、装置和服务器,所述方法包括:依据浏览器当前提交的查询词,从预置的数据库中查询得到与该查询词匹配的初始网页;所述预置的数据库用于保存网页及其涉及到的至少一个产品标识,和,网页和产品标识之间的关联;对所述初始网页进行相关性处理以得到满足预置条件的相关网页;对所述相关网页涉及到的产品标识所对应的至少一个产品进行相关处理;将进行过相关处理之后的至少一个产品按照相关性值向客户端展示。采用本申请实施例公开的检索方法、装置和服务器,可以减少用户与搜索引擎服务器之间的交互次数,降低搜索引擎服务器的重复运行次数,从而提高搜索引擎服务器的运行速度、工作效率和工作性能。

Description

基于网上交易平台的检索方法、装置和服务器
技术领域
本申请涉及网络数据处理领域,特别涉及基于网上交易平台的检索方法、装置和服务器。
背景技术
基于网上交易平台的搜索,一般都是接收用户输入的查询关键词之后,会将包括了查询关键词的一些产品显示给用户,这些包括了查询关键词的产品就是用户可能会感兴趣的产品。这些产品一般可以通过与关键词相关联的形式,使得某个输入相关联的关键词,就可以得到与该关键词相关联的产品。
当用户搜索某一款具体的产品时,现有技术一般采用如下方式:根据产品的名称、类目或/和属性进行关键词匹配,只是这种搜索方式只能适用于纯产品类目词或产品名称和属性等关键词。当用户输入的查询词没有包括产品具体名称或者属性等时,就有可能在存在这类产品的情况下还是搜索不到结果。例如,对于“适合女士用的手机”的关键词,由于数据库中保存的数据一般是根据产品名称、类目或属性等关键词建立的,并没有保存仅仅具有描述性质的关键词的信息,因此就无法搜索到用户需要的结果。举例来讲,“飞利浦588”是一款普遍被认为适合女士用的手机,但是当用户直接在网上交易平台中搜索“适合女士用的手机”是无法搜索到这款手机的。
由以上对现有技术的分析可知,现有技术在实现网上交易平台的检索时,由于不能完全和用户的需求相匹配,所以如果出现搜索不到用户感兴趣的结果时,就需要用户变换查询词继续搜索,这样就增加了用户和服务器之间的交互次数,在服务器端也会增加对于查询词的匹配过程,就会增加服务器的工作量,进一步影响网上交易平台服务器的运行速度和性能。
总之,目前需要本领域技术人员迫切解决的一个技术问题就是:如何能够创新的提出一种基于网上交易平台的检索方法,以解决现有技术中无法搜索到用户需求的结果,导致影响网上交易平台服务器运行速度和性能的技术问题。
发明内容
本申请所要解决的技术问题是提供一种基于网上交易平台的检索方法,用以解决现有技术中无法搜索到用户需求的结果导致的影响网上交易平台服务器运行速度和性能的技术问题。
本申请还提供了一种基于网上交易平台的检索装置和服务器,用以保证上述方法在实际中的实现及应用。
为了解决上述问题,本申请公开了一种网页数据库的建立方法,包括:
抓取网页;
分析所述网页的关键字,得到所述网页上涉及到的产品关键词;
按照预置规则分析所述产品关键词,以得到与所述网页相关的至少一个产品标识;
将所述网页、至少一个产品标识,以及,网页和产品标识之间的关联保存至预置的数据库。
本申请公开了一种基于网上交易平台的检索方法,包括:
依据浏览器当前提交的查询词,从预置的网页数据库中查询得到与该查询词匹配的初始网页;所述预置的网页数据库用于保存网页及其涉及到的至少一个产品标识,和,网页和产品标识之间的关联;
对所述初始网页进行相关性处理以得到满足预置条件的相关网页;
对所述相关网页涉及到的产品标识所对应的至少一个产品进行相关处理;
将进行过相关处理之后的至少一个产品按照相关性值向客户端展示。
本申请公开了一种基于网上交易平台的检索装置,包括:
查询初始网页模块,用于依据查询词,从预置的数据库中查询得到与该查询词匹配的初始网页;所述预置的数据库用于保存网页及其涉及到的至少一个产品标识,和,网页和产品标识之间的关联;
获取相关网页模块,用于对所述初始网页进行相关性处理以得到满足预置条件的相关网页;
产品相关处理模块,用于对所述相关网页涉及到的产品标识所对应的至少一个产品进行相关处理;
排序展示模块,用于将进行过相关处理之后的至少一个产品按照相关性值向客户端展示。
与现有技术相比,本申请包括以下优点:
在本申请中,预先已经将网页上出现的产品信息和网页做了关联,因此,依据用户输入的关键词在网上交易平台上做检索的时候,就会考虑到产品的网页信息,即是只要有论坛或者网页讨论过某个产品,就可以在检索产品的时候依据这个产品和网页之间的关联检索到相关产品。这避免了当用户输入的查询词没有包括产品具体名称或者属性等时,而产品的网页信息中具备关键词的相关信息,但却出现搜索不到产品的情况的发生,提高了用户的查询效率。通过本申请,用户不需要重复搜索相关产品,这减少了用户与搜索引擎服务器之间的交互次数,降低了搜索引擎服务器的重复运行次数,从而提高搜索引擎服务器的运行速度、工作效率和工作性能。当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例一中建立预置的数据库的流程图;
图2是本申请的一种基于网上交易平台的检索方法实施例一的流程图;
图3是本申请的一种基于网上交易平台的检索方法实施例二的流程图;
图4是本申请方法实施例二中检索结果的展示示意图;
图5是本申请的一种基于网上交易平台的检索装置实施例三的结构框图;
图6是本申请的一种基于网上交易平台的检索装置实施例四的结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
本申请可用于众多通用或专用的计算装置环境或配置中。例如:个人计算机、服务器、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本申请的主要思想之一可以包括,在本申请实施例中,首先需要对于网络爬虫抓取到的网页进行预处理,具体过程是:针对抓取到的网页识别出该网页内容出主要涉及到的某几种具体的产品,并将这些产品的产品标识与该网页对应关联起来,并将这种关联关系以及关联中涉及到的网页和产品标识都存储在预先设置的一个网页数据库中,以供后续从该网页数据库中再调用关联。上述预处理过程可以离线进行,即只要爬虫抓取到了网页,就可以进行同样的预处理过程,以建立网页数据库。搜索引擎服务器在接收到浏览器提交的查询词时,依据该查询词可以从预置的数据库中查询得到与该查询词匹配的初始网页,并对得到的初始网页进行相关性处理,以得到满足预置条件的相关网页,而对涉及到的产品标识所对应的至少一个产品所述相关网页,则继续进行相关处理;并将进行过相关处理之后的至少一个产品按照相关性值进行排序,最后将排序之后的多个产品向客户端展示,具体可以展示该产品的价格或者销量等信息。
可见,采用本申请实施例进行搜索,最终得到的产品不仅与用户输入的查询词相关,同时还和某个网页上是否涉及到该产品相关,这样就可以避免当用户输入描述性质的关键词时直接依据关键词检索得不到相关结果的现象。例如,对于查询词“适合女士用的手机”来讲,如果在某个论坛或者网页上,出现了讨论“适合女士用的手机”的内容,而这个内容中涉及到了很多适合女士用的手机,包括“飞利浦588”,那么数据库中就会保存这个网页和“飞利浦588”之间关联,而后续搜索引擎服务器在检索适合女士用的手机时,就会出现销售“飞利浦588”产品的相关网页,再把这些产品信息进行展示的时候,就不需要用户重复搜索相关产品,从而减少了用户与搜索引擎服务器之间的交互次数,降低了搜索引擎服务器的重复运行次数,提高了搜索引擎服务器的运行速度、工作效率和工作性能。
参考图1,示出了本申请一种网页数据库的建立方法实施例的流程图,可以包括以下步骤:
步骤101:抓取网页。
这里的网页是爬虫服务器抓取到的网页,爬虫服务器无需触发条件,一旦启动之后便会不停地抓取网页。
步骤102:分析所述网页的关键字,以得到所述网页上涉及到的产品关键词。
当爬虫从互联网上抓取到网页时,对抓取到的网页进行分析,即是针对网页中的内容进行提炼,去发现该网页内容中出现的产品关键词,例如,在某个论坛上出现了讨论“适合女士用的手机”的帖子,则本步骤会将用户讨论结果中出现的适合女士用的手机都获取到。
所述步骤102在实际应用中,具体可以采用如下方式实现:
步骤A1:提取所述网页上的文本内容。
在爬虫服务器抓取到的网页中,不一定只有文本信息,有时也会有图片或者广告视频等其他信息,因此,本步骤需要首先提取出网页的文本内容。例如,论坛里关于某个产品的讨论信息等。
步骤A2:对所述文本内容进行分析,得到所述网页的相关关键词。
在本步骤可以采用分词器对所述文本内容进行分词,实施分词器所得到的各个关键词,即为所述网页的相关关键词。当然,本步骤也可以采用其他的一些工具对网页的文本内容进行分词处理,分词的方式并不影响本申请的实现。
步骤A3:从所述相关关键词中获取到与产品相关的产品关键词。
在本步骤中即是对从所述文本内容中得到的所有相关关键词进行分析,以找到和产品相关的产品关键词。例如。假设步骤A2中得到的相关关键词有“的”、“因此”、“诺基亚5530”、“联想”等,则本步骤可以获取到“诺基亚5530”和“联想”作为产品关键词。
步骤103:按照预置规则分析所述产品关键词,以得到与所述网页相关的至少一个产品标识。
所述步骤103在实际应用中,具体可以采用如下方式得到与所述网页相关的至少一个产品标识:
步骤B1:检测所述产品关键词中出现概率高于一定阈值的候选关键词。
在本步骤中,因为一个网页中可能出现的产品关键词有很多个,例如同时出现了“诺基亚5530”、“联想”和“三星”等产品关键词,出现的概率分别为10次,5次和1次。而预先设定的阈值为2,则本步骤中则会筛选出候选关键词为“诺基亚5530”和“联想”。
步骤B2:判断所述候选关键词与所述网页的文本内容是否相关。
在本步骤中,假设当前网页为一个讨论手机性能的帖子,而“诺基亚5530”和“联想”这两个候选关键词都和手机有关,则在步骤B1中得到的候选关键词均与网页相关的产品标识。但是,如果出现了“宝洁”的候选关键词,很显然与手机性能无关,则并不会将“宝洁”作为与当前网页相关的一个产品标识。
步骤104:将所述网页、至少一个产品标识、以及网页和产品标识之间的关联保存至预置的数据库。当根据查询词在该数据库中检索时,根据检索到的与查询词匹配的网页时,根据匹配的网页与产品标识的关系,输出该产品标识。
在本步骤中,依据获取到的产品可以将对应的产品标识与其出现的网页进行关联。这里的关联可以理解为,该网页和对应的产品标识之间遵循某种联系,当获取到网页时即可对应获取到产品标识。
当一个网页上出现多个产品时,还可以依据产品出现的次数,以及在网页出现的位置信息等,设置各个产品与网页进行关联时的权重。例如,当某个产品在网页上出现的次数最多,或者出现在网页所在模板中比较重要的板块上,就可以将该产品的产品标识与该网页的关联设置较高的权重。因此,一个网页可以关联多个产品,且这多个产品之间按照权重关系可以进行排序。
当对网页和产品做好关联之后,即可将网页和至少一个的产品标识之间的关联保存至数据库中,并且在保存时,将该网页的相关内容以及产品信息也一并保存至数据库中,以便于后续再调用时可以获取到网页内容和产品信息,例如,价格、销售量等。
参考图2,示出了本申请一种基于网上交易平台的检索方法实施例一的流程图,可以包括以下步骤:
步骤201:依据浏览器当前提交的查询词,从预置的网页数据库中查询得到与该查询词匹配的初始网页;所述预置的网页数据库用于保存网页及其涉及到的至少一个产品标识,和,网页和产品标识之间的关联。
在本实施例中,用户在网上交易平台提供的输入框输入查询词之后,由浏览器提交至后台搜索引擎系统,搜索引擎系统从预置的数据库中查询得到与该查询词匹配的初始网页。这里关键词和网页之间的映射关系可以采用现有技术实现,即是采用现有技术中对网页和关键词之间的匹配来实现本步骤依据查询词对初始网页的检索。
这里预置的数据库中保存的网页,以及该网页涉及到的至少一个产品标识,则是解决本申请所要解决的技术问题的一个关键。这里的产品标识(pid)是与该产品一一对应的唯一数字ID。
步骤202:对所述初始网页进行相关性处理以得到满足预置条件的相关网页。
在本步骤中,需要对从预置的数据库中获取到的初始网页进行相关性处理,这里为了找出更满足用户需求的相关网页,可以采用执行两次相关性打分的处理过程。例如,可以首先采用BM25算法对初始网页进行第一次相关性打分,并按照分值从大到小对所述初始网页进行排序。所述第一次相关性打分的目的是减少在第二次相关性打分时的系统运算量,为进行第二次相关性打分选取数目较少且与查询词更为相关的网页。
在进行第二次相关性打分之前,为了在第二次相关性打分的时候减少计算量,可以对排序后的初始网页取前若干个初始网页执行第二次相关性打分。这里取多少个初始网页可以依据实际需求有所不同,例如,1000个或者800个等。取了前若干个初始网页之后,再对这若干个第一层相关性得分较高的初始网页进行第二次相关性打分处理,将采用逻辑更为复杂精细的方式进行以得到相关网页。其中一些具体的打分规则可以为:当某些关键词不断重复连续出现时,则认为该关键词为无用信息,并将该关键词所处的网页得分减去一个预置的数值;或者,同时进行关键词所处的类目与网页中关联的产品标识所处的类目之间的匹配程度过滤,可以包括如果关键词中提及的品牌与网页中关联的产品标识的品牌不相符时,将该关键词所处的网页得分减去一个预置的数值;如果关键词中提及的型号与网页中关联的产品标识的型号不相符,同样将该关键词所处的网页得分减去一个预置的数值。
步骤203:对所述相关网页涉及到的产品标识所对应的至少一个产品进行相关处理。
所述相关网页可能有很多个,那么对于每个相关网页所涉及到的产品标识也需要进行打分。具体地,因为不同的相关网页所涉及到的产品有可能相同,那么在执行本步骤时,可以首先将那些权重最大的产品标识都相同的网页聚合到一起,即是比较各个相关网页中权重最重的产品标识,相同产品标识的相关网页则聚合到一个组中,而该组即是该相同产品标识的网页组,该组中包括多个相同产品标识的不同相关网页。
得到不同的网页组之后,则可对各个产品标识组中的相关网页打分,而打分过程中可以依据聚合到该产品标识下的网页数量,各个网页的第二次相关性得分,以及,该产品标识的某些属性,例如:价格,上市时间等,该产品与查询词之间的相关性得分等因素,为产品标识打分的。具体实现的过程可以例如,在执行本步骤的内容时,将得到的第二次相关性得分直接相加,并从结果中选择出若干个相关性得分高的产品,再按照这些产品的价格对网页进行排序,按照顺序给涉及到的产品标识进行打分。
需要说明的是,在本步骤中,因为一个网页组聚合了多个网页,则该网页组中各个网页的产品标识分值是相同的,这些产品标识分值可以作为该各个相关网页的属性,存储到各个相关网页中。
步骤204:将进行过相关处理之后的至少一个产品按照相关性值向客户端展示。
对产品标识打分之后,按照产品标识得分的大小可以对各个网页涉及到的产品从大到小进行排序,可以取前若干个产品向客户端展示其信息。这样的话,展示的产品信息就和网页上是否涉及到了该产品的相关信息有关,因此,就避免了有的网店卖家采用购买广告的方式将某个关键词和自己的产品相关联,也避免了因为用户输入的是描述性质的查询词导致查询不到相关结果的情况。因此,采用本申请实施例,在展示产品的过程中考虑了产品的网页信息,当用户输入的查询词没有包括产品具体名称或者属性等时,而产品的网页信息中具备关键词的相关信息,但却出现搜索不到产品的情况,提高了用户的查询效率。本实施例不需要用户重复搜索相关产品,减少了用户与搜索引擎服务器之间的交互次数,降低了搜索引擎服务器的重复运行次数,从而提高搜索引擎服务器的运行速度、工作效率和工作性能。
参考图3,示出了本申请一种基于网上交易平台的检索方法实施例二的流程图,可以包括以下步骤:
步骤301:依据浏览器当前提交的查询词,从预置的数据库中查询得到与该查询词匹配的初始网页;所述预置的数据库用于保存网页,以及该网页涉及到的至少一个产品标识,和,网页和产品标识之间的关联。
在本实施例中,针对浏览器提交的查询词在提取关键词时,可以利用现有的工具,例如分词器、词性标注工具等,这样还可以降低本实施例的实施成本。
本步骤在前述实施例已经详细介绍,在此不再赘述。在建立该预置的数据库的过程中,很多讨论“适合女士用的手机”的网页,并且该页面与具体的某一个产品标识(例如“飞利浦588”)建立了对应的关联关系,则该出现“适合女士用的手机”的网页,以及网页和具体产品,例如“飞利浦588”之间的关联都保存至了该数据库中。那么在接收到浏览器提交的查询词时,对于“适合女士用的手机”查询词就会检索到讨论该关键词的诸多网页。
步骤302:采用预定算法对所述初始网页进行第一次相关性打分,所述第一次相关性打分的分值与初始网页中特定的产品关键词的第一参数成正比,与第二参数成反比;所述第一参数为在当前的一个初始网页中出现的概率,所述第二参数为在网页数据库中的所有网页中出现的概率。
在本步骤中,现有技术中有很多种相关性算法可以执行,例如BM25,本步骤即是采用现有技术中任一种相关性算法对所有的初始网页进行相关性打分,这样每个初始网页就对应一个相关性分值,再按照相关性分值从大到小的顺序给所述初始网页进行排序。
以BM25为例,对网页进行BM25算法处理之后,每一个网页所得到的分值与两个参数有关,第一参数是在一个网页中特定的产品关键词出现的概率大小,第二参数是在网页数据库的所有网页中出现的概率大小,且第一参数的概率越大则对应网页的第一次相关性分值就越高,并且第二参数的概率越小对应网页的第一次相关性分值就越高。举例来讲,对于关键词“的”,因为是语气助词,所以在一个网页中出现的概率会非常高,但是因为其在所有网页中出现的概率也大,也即其出现的概率较大的网页个数较多,所以其第一次相关性分值就相对较低。在本申请实施例中,第一次相关性分值的大小分别与第一参数和第二参数所成比例的具体比值,可以依据实际应用的需求有所改变。
步骤303:对进行第一次相关打分之后的初始网页按照预设阈值获取分值较高的前若干个网页,并依据产品关键词在网页中出现的概率、所述查询词的相邻关键字在网页中同时出现的距离和所述查询词中的相邻关键字在网页中预设大小的窗口内是否同时出现,对所述前若干个网页进行第二次相关性打分,以得到相关网页。
在本步骤中,对于排序之后的初始网页,可以按照预设的一个阈值获取前若干个网页。例如,只获取前1000个初始网页,这1000个初始网页的相关性分值高于剩余的初始网页。此处需要对截取得到的前若干个网页进行第二次相关性打分,以得到1000个初始网页的第二次相关性分值。
在本步骤中,假设查询词为“国庆假期去哪里玩”,则所述查询词的相邻关键词可以为“国庆”和“假期”,那么当“国庆”和“假期”在一个网页中以“国庆假期”的方式出现时,就认为该查询词的相邻关键字在网页中同时出现的距离最近,那么该网页的第二次相关性打分的分值就会较高。并且,假设“国庆”和“假期”同时出现了,但是是以“国庆的假期”这样的方式出现,假设该网页中预设大小的窗口为20,只要“国庆的假期”的大小不大于20,就认为该查询词中相邻的关键词在网页中预设大小的窗口内同时出现,相应的该网页的第二次相关性打分的分值也会较高。
需要说明的是,在实际应用中有很多种情况,因此,除了这三个参数之外,本领域技术人员可以根据需求的不同增加其他参数的设定,均不影响本申请的实现。
步骤304:对所述相关网页中产品标识相同的网页进行分组,得到多组产品标识相同的网页组。
针对获取得到的最终的1000个初始网页,可以比较各个初始网页关联的产品标识是否相同,对于只与一个产品标识关联的初始网页只需比较这一个产品标识,而与多个产品标识关联的初始网页则可以依据产品标识的出现次数或者出现的位置信息来选择权重最大的一个产品标识参与比较。最终需要将产品标识都相同的网页聚合到一个网页组中,以产生多组产品标识相同的网页组。
步骤305:对各网页组中产品标识对应的产品依据该网页组中网页数量、各个网页的相关性得分以及产品属性进行相关性打分。
在本步骤中,需要针对每个产品标识相同的网页组中所涉及到的产品进行相关性打分。此处进行相关性处理时依据该网页组中的网页数量、各个网页的第二次相关性分值,以及产品本身的属性,例如,价格信息、销量信息等,同时还可以依据该产品与用户输入的查询词之间的相关性分值,来对各网页组中涉及到的产品进行打分。需要说明的是,在实际应用场景中,因为用户需求或者网络运行情况等可能有所不同,那么此处各个依据在进行相关性打分的过程中所占的比重也可以不完全相同。
前述步骤即是通过获取这个网页上关联的产品,将所有“适合女士用的手机”检索出来。
步骤306:将所述打分结果作为各个网页组中的网页属性进行存储。
在本步骤中,可以将步骤305中对各个产品进行相关性打分的分值作为各个网页组中的网页属性进行存储。当然,在实际应用中,也可以不进行存储,是否在网页中存储其涉及到的产品的相关性分值并不影响本申请实施例的实现,本步骤并不是实现本申请实施例的必要过程。
步骤307:按照所述各个产品的打分结果对各个网页重新排序,得到重新排序之后的网页。
在步骤305对各个产品进行相关性打分之后,依据这个打分结果从大到小地在各个网页组内对各个网页重新排序。
步骤308:在产品标识相同的网页组中截取排序之后的前预设个数的网页作为该产品的检索结果。
针对产品标识相同的网页组,可以截取排序之后前预定个数的网页作为该产品的检索结果,如果用户检索了相关的关键词,后续可以通过关键词检索到相关网页,再由相关网页和产品之间的关联检索到对应的产品。
步骤309:将检索结果在浏览器上向用户端展示。
在本步骤中则将检索到的对应产品信息在客户端上进行展示。在具体应用时,例如当关键词为“适合女士用的手机”时,检索结果的产品展现形式可以参考图4所示。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
与上述本申请一种基于网上交易平台的检索方法实施例一所提供的方法相对应,参见图5,本申请还提供了一种基于网上交易平台的检索装置实施例三,在本实施例中,该装置可以包括:
查询初始网页模块501,用于依据浏览器当前提交的查询词,从预置的数据库中查询得到与该查询词匹配的初始网页;所述预置的数据库用于保存网页及其涉及到的至少一个产品标识,和,网页和产品标识之间的关联。
获取相关网页模块502,用于对所述初始网页进行相关性处理以得到满足预置条件的相关网页。
产品相关处理模块503,用于对所述相关网页涉及到的产品标识所对应的至少一个产品进行相关处理。
展示模块504,用于将进行过相关处理之后的至少一个产品按照相关性值向客户端展示。
本实施例所述的装置可以集成到基于网上交易平台的搜索引擎服务器上,也可以单独作为一个实体与搜索引擎服务器相连,另外,需要说明的是,当本申请所述的方法采用软件实现时,可以作为搜索引擎的服务器新增的一个功能,也可以单独编写相应的程序,本申请不限定所述方法或装置的实现方式。
本实施例中,可以在依据用户输入的查询词检索产品的时候,考虑到网页上曾经出现该产品的情况,例如,在百度知道上有专门讨论关于该查询词相关的产品等,就可以在检索产品的时候依据这个产品和网页之间的关联检索到相关产品。这样就会使得用户即便只是输入一些描述性质的查询词,也能检索到满足其描述的产品,提高了用户的查询效率。因此采用本申请实施例检索产品一般情况下都能检索到用户所需求的产品,也不需要用户重复搜索相关产品,从而减少了用户与搜索引擎服务器之间的交互次数,降低了搜索引擎服务器的重复运行次数,从而提高搜索引擎服务器的运行速度、工作效率和工作性能。
与上述本申请一种基于网上交易平台的检索方法实施例二所提供的方法相对应,参见图6,本申请还提供了一种基于网上交易平台的检索装置的优选实施例四,在本实施例中,该装置具体可以包括:
查询初始网页模块501,用于依据浏览器当前提交的查询词,从预置的数据库中查询得到与该查询词匹配的初始网页;所述预置的数据库用于保存网页及其涉及到的至少一个产品标识,和,网页和产品标识之间的关联。
第一相关性处理子模块601,用于采用预定算法对所述初始网页进行第一次相关性打分,所述第一次相关性打分的分值与初始网中特定的产品关键词的第一参数成正比,与第二参数成反比,所述第一参数为在当前的一个初始网页中出现的概率,所述第二参数为在网页数据库中的所有网页中出现的概率。
第二相关性处理子模块602,用于对进行第一次相关打分之后的初始网页按照预设阈值获取分值较高的前若干个网页,并依据产品关键词在网页中出现的概率、所述查询词的相邻关键字在网页中同时出现的距离和所述查询词中的相邻关键字在网页中预设大小的窗口内是否同时出现,对所述前若干个网页进行第二次相关性打分,以得到相关网页。
聚合分组子模块603,用于对所述相关网页中产品标识相同的网页进行分组,得到多组产品标识相同的网页组。
产品相关处理子模块604,用于对各网页组中产品标识对应的产品依据该网页组中网页数量、各个网页的相关性得分以及产品属性进行相关性打分。
存储子模块605,用于将所述打分结果作为各个网页组中的网页属性进行存储。
重新排序子模块606,用于按照所述各个产品的打分结果对各个网页重新排序,得到重新排序之后的网页。
获取检索结果子模块607,用于在产品标识相同的网页组中截取排序之后前预设个数的网页作为该产品的检索结果。
与上述本申请一种基于网上交易平台的检索方法和装置实施例相对应,本申请还提供了一种基于网上交易平台的搜索引擎服务器的实施例,在本实施例中,该服务器具体可以包括:前述装置实施例公开的任一装置。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的一种基于网上交易平台的检索方法、装置及搜索引擎服务器进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (9)

1.一种网页数据库的建立方法,其特征在于,包括:
抓取网页;
分析所述网页的关键字,得到所述网页上涉及到的产品关键词;其中,所述关键字为描述性质的关键字;
按照预置规则分析所述产品关键词,以得到与所述网页相关的至少一个产品标识,所述产品标识是与产品一一对应的唯一数字ID;
将所述网页、至少一个产品标识,以及,网页和产品标识之间的关联保存至预置的数据库;
其中,所述分析所述网页的关键字,以得到所述网页上涉及到的产品关键词,具体包括:
提取所述网页上的文本内容;
对所述文本内容进行分词处理以得到所述网页的所有相关关键词;
从所述所有相关关键词中获取到与产品相关的产品关键词。
2.根据权利要求1所述的方法,其特征在于,所述按照预置规则分析所述产品关键词,具体包括:
检测所述产品关键词中出现概率高于一定阈值的候选关键词;
判断所述候选关键词与所述网页的文本内容是否相关。
3.一种基于网上交易平台的检索方法,其特征在于,包括:
依据查询词,从预置的网页数据库中查询得到与该查询词匹配的初始网页;所述预置的网页数据库用于保存网页及其涉及到的至少一个产品标识,和,网页和产品标识之间的关联;
对所述初始网页进行相关性处理以得到满足预置条件的相关网页;
对所述相关网页涉及到的产品标识所对应的至少一个产品进行相关处理;
将进行过相关处理之后的至少一个产品按照相关性值向客户端展示;
所述预置的网页数据库的建立方法包括:
抓取网页;
分析所述网页的关键字,得到所述网页上涉及到的产品关键词;其中,所述关键字为描述性质的关键字;
按照预置规则分析所述产品关键词,以得到与所述网页相关的至少一个产品标识,所述产品标识是与产品一一对应的唯一数字ID;
将所述网页、至少一个产品标识,以及,网页和产品标识之间的关联保存至预置的数据库;
其中,所述分析所述网页的关键字,以得到所述网页上涉及到的产品关键词,具体包括:
提取所述网页上的文本内容;
对所述文本内容进行分词处理以得到所述网页的所有相关关键词;
从所述所有相关关键词中获取到与产品相关的产品关键词。
4.根据权利要求3所述的方法,其特征在于,所述对所述初始网页进行相关性处理以得到满足预置条件的相关网页;具体包括:
采用预定算法对所述初始网页进行第一次相关性打分,所述第一次相关性打分的分值与初始网中特定的产品关键词的第一参数成正比,与第二参数成反比,所述第一参数为在当前的一个初始网页中出现的概率,所述第二参数为在网页数据库中的所有网页中出现的概率;
对进行第一次相关打分之后的初始网页按照预设阈值获取分值较高的前若干个网页,并依据产品关键词在网页中出现的概率、所述查询词的相邻关键字在网页中同时出现的距离和所述查询词中的相邻关键字在网页中预设大小的窗口内是否同时出现,对所述前若干个网页进行第二次相关性打分,得到相关网页。
5.根据权利要求3所述的方法,其特征在于,所述对所述相关网页涉及到的产品标识所对应的至少一个产品进行相关处理,具体包括:
对所述相关网页中产品标识相同的网页进行分组,得到多组产品标识相同的网页组;
对各网页组中产品标识对应的产品依据该网页组中网页数量、各个网页的相关性得分以及产品属性进行相关性打分;
将所述打分结果作为各个网页组中的网页属性进行存储。
6.根据权利要求3所述的方法,其特征在于,所述将进行过相关处理之后的至少一个产品按照相关性值向客户端展示,具体包括:
按照所述各个产品的打分结果对各个网页重新排序,得到重新排序之后的网页;
在产品标识相同的网页组中截取排序之后前预设个数的网页作为该产品的检索结果。
7.一种基于网上交易平台的检索装置,其特征在于,包括:
查询初始网页模块,用于依据查询词,从预置的数据库中查询得到与该查询词匹配的初始网页;所述预置的数据库用于保存网页及其涉及到的至少一个产品标识,和,网页和产品标识之间的关联;所述预置的网页数据库的建立方法包括:
抓取网页;
分析所述网页的关键字,得到所述网页上涉及到的产品关键词;其中,所述关键字为描述性质的关键字;
按照预置规则分析所述产品关键词,以得到与所述网页相关的至少一个产品标识,所述产品标识是与产品一一对应的唯一数字ID;
将所述网页、至少一个产品标识,以及,网页和产品标识之间的关联保存至预置的数据库;
其中,所述分析所述网页的关键字,以得到所述网页上涉及到的产品关键词,具体包括:
提取所述网页上的文本内容;
对所述文本内容进行分词处理以得到所述网页的所有相关关键词;
从所述所有相关关键词中获取到与产品相关的产品关键词;
获取相关网页模块,用于对所述初始网页进行相关性处理以得到满足预置条件的相关网页;
产品相关处理模块,用于对所述相关网页涉及到的产品标识所对应的至少一个产品进行相关处理;
排序展示模块,用于将进行过相关处理之后的至少一个产品按照相关性值向客户端展示。
8.根据权利要求7所述的装置,其特征在于,所述获取相关网页模块具体包括:
第一相关性处理子模块,用于采用预定算法对所述初始网页进行第一次相关性打分,所述第一次相关性打分的分值与初始网中特定的产品关键词的第一参数成正比,与第二参数成反比,所述第一参数为在当前的一个初始网页中出现的概率,所述第二参数为在网页数据库中的所有网页中出现的概率;
第二相关性处理子模块,用于对进行第一次相关打分之后的初始网页按照预设阈值获取分值较高的前若干个网页,并依据产品关键词在网页中出现的概率、所述查询词的相邻关键字在网页中同时出现的距离和所述查询词中的相邻关键字在网页中预设大小的窗口内是否同时出现,对所述前若干个网页进行第二次相关性打分,以得到相关网页。
9.根据权利要求7所述的装置,其特征在于,所述产品相关处理模块具体包括:
聚合分组子模块,用于对所述相关网页中产品标识相同的网页进行分组,得到多组产品标识相同的网页组;
产品相关处理子模块,用于对各网页组中产品标识对应的产品依据该网页组中网页数量、各个网页的相关性得分以及产品属性进行相关性打分;
存储子模块,用于将所述打分结果作为各个网页组中的网页属性进行存储。
CN201010529419.8A 2010-11-01 2010-11-01 基于网上交易平台的检索方法、装置和服务器 Active CN102456057B (zh)

Priority Applications (8)

Application Number Priority Date Filing Date Title
CN201010529419.8A CN102456057B (zh) 2010-11-01 2010-11-01 基于网上交易平台的检索方法、装置和服务器
TW100108078A TWI549004B (zh) 2010-11-01 2011-03-10 Search Method Based on Online Trading Platform and Establishment Method of Device and Web Database
US13/389,996 US20130290138A1 (en) 2010-11-01 2011-10-24 Search Method, Apparatus and Server for Online Trading Platform
PCT/US2011/057524 WO2012061076A1 (en) 2010-11-01 2011-10-24 Search method, apparatus and server for online trading platform
JP2013536703A JP5923510B2 (ja) 2010-11-01 2011-10-24 オンライン取引プラットフォームのための検索方法、装置およびサーバ
EP11838483.3A EP2635961A4 (en) 2010-11-01 2011-10-24 SEARCH PROCESS, DEVICE AND SERVER FOR ONLINE TRADING PLATFORM
HK12107084.8A HK1166402A1 (zh) 2010-11-01 2012-07-19 基於網上交易平台的檢索方法、裝置和服務器
JP2016082971A JP6346218B2 (ja) 2010-11-01 2016-04-18 オンライン取引プラットフォームのための検索方法、装置およびサーバ

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010529419.8A CN102456057B (zh) 2010-11-01 2010-11-01 基于网上交易平台的检索方法、装置和服务器

Publications (2)

Publication Number Publication Date
CN102456057A CN102456057A (zh) 2012-05-16
CN102456057B true CN102456057B (zh) 2016-08-17

Family

ID=46024769

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010529419.8A Active CN102456057B (zh) 2010-11-01 2010-11-01 基于网上交易平台的检索方法、装置和服务器

Country Status (7)

Country Link
US (1) US20130290138A1 (zh)
EP (1) EP2635961A4 (zh)
JP (2) JP5923510B2 (zh)
CN (1) CN102456057B (zh)
HK (1) HK1166402A1 (zh)
TW (1) TWI549004B (zh)
WO (1) WO2012061076A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103839004A (zh) * 2012-11-26 2014-06-04 腾讯科技(深圳)有限公司 检测恶意文件的方法和设备
CN104750692B (zh) * 2013-12-25 2018-05-15 中国移动通信集团公司 一种信息处理方法、信息检索方法及其对应的装置
CN104866483B (zh) * 2014-02-21 2020-02-07 腾讯科技(深圳)有限公司 一种信息检索的方法及装置
CN105005917A (zh) * 2015-07-07 2015-10-28 上海晶赞科技发展有限公司 一种通用的关联不同电商网站单品的方法
US10387568B1 (en) * 2016-09-19 2019-08-20 Amazon Technologies, Inc. Extracting keywords from a document
US20180197220A1 (en) * 2017-01-06 2018-07-12 Dragon-Click Corp. System and method of image-based product genre identification
CN107301253B (zh) * 2017-08-23 2020-02-04 杭州安恒信息技术股份有限公司 一种提高多站点搜索关键字准确性的方法及装置
JP7421726B2 (ja) 2020-02-27 2024-01-25 Ec認証株式会社 認証システム
US11016980B1 (en) 2020-11-20 2021-05-25 Coupang Corp. Systems and method for generating search terms

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1518702A (zh) * 2001-05-04 2004-08-04 �Ҵ���˾ 网页注释系统

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5920854A (en) * 1996-08-14 1999-07-06 Infoseek Corporation Real-time document collection search engine with phrase indexing
US6484149B1 (en) * 1997-10-10 2002-11-19 Microsoft Corporation Systems and methods for viewing product information, and methods for generating web pages
US6785671B1 (en) * 1999-12-08 2004-08-31 Amazon.Com, Inc. System and method for locating web-based product offerings
US20040138946A1 (en) * 2001-05-04 2004-07-15 Markus Stolze Web page annotation systems
JP4360167B2 (ja) * 2003-09-30 2009-11-11 ソニー株式会社 キーワード抽出装置、およびキーワード抽出方法、並びにコンピュータ・プログラム
JP2006031108A (ja) * 2004-07-12 2006-02-02 Shinichiro Fujitani ウエブ上の商品・サービスの検索システム
JP4731896B2 (ja) * 2004-12-07 2011-07-27 新日鉄ソリューションズ株式会社 情報処理装置、情報検索方法及びプログラム
US9715542B2 (en) * 2005-08-03 2017-07-25 Search Engine Technologies, Llc Systems for and methods of finding relevant documents by analyzing tags
US8688521B2 (en) * 2007-07-20 2014-04-01 Yahoo! Inc. System and method to facilitate matching of content to advertising information in a network
CN101354706A (zh) * 2007-07-25 2009-01-28 阿里巴巴集团控股有限公司 一种收集网页信息的方法及装置
US8583633B2 (en) * 2007-11-30 2013-11-12 Ebay Inc. Using reputation measures to improve search relevance
US20090210890A1 (en) * 2008-02-15 2009-08-20 Yahoo! Inc. Real-time data collection via hierarchical web page parsing
US20100121790A1 (en) * 2008-11-13 2010-05-13 Dennis Klinkott Method, apparatus and computer program product for categorizing web content
JP5284064B2 (ja) * 2008-12-03 2013-09-11 ヤフー株式会社 商品idサーバ装置、および商品idサーバ装置の制御方法
JP5277941B2 (ja) * 2008-12-18 2013-08-28 大日本印刷株式会社 関連商品提示方法、関連商品提示システム、プログラム、記録媒体
JP2010205060A (ja) * 2009-03-04 2010-09-16 Nomura Research Institute Ltd 文書内画像検索方法および文書内画像検索システム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1518702A (zh) * 2001-05-04 2004-08-04 �Ҵ���˾ 网页注释系统

Also Published As

Publication number Publication date
CN102456057A (zh) 2012-05-16
JP2014500541A (ja) 2014-01-09
HK1166402A1 (zh) 2012-10-26
JP5923510B2 (ja) 2016-05-24
EP2635961A1 (en) 2013-09-11
WO2012061076A1 (en) 2012-05-10
JP6346218B2 (ja) 2018-06-20
TWI549004B (zh) 2016-09-11
EP2635961A4 (en) 2016-06-01
TW201220097A (en) 2012-05-16
US20130290138A1 (en) 2013-10-31
JP2016131045A (ja) 2016-07-21

Similar Documents

Publication Publication Date Title
CN102456057B (zh) 基于网上交易平台的检索方法、装置和服务器
AU2022201654A1 (en) System and engine for seeded clustering of news events
CN103729359B (zh) 一种推荐搜索词的方法及系统
CN104933100B (zh) 关键词推荐方法和装置
US9460158B2 (en) Search method and system
US9497277B2 (en) Interest graph-powered search
JP6022056B2 (ja) 検索結果の生成
US20110282855A1 (en) Scoring relationships between objects in information retrieval
CN103136257B (zh) 信息提供方法及其装置
CN103034680B (zh) 针对终端设备的数据交互方法及装置
CN104881504B (zh) 一种信息搜索方法及装置
CN103020128B (zh) 与终端设备交互数据的方法与装置
CN104933149B (zh) 一种信息搜索方法及装置
Lee et al. Searching Steiner trees for web graph query
KR102041915B1 (ko) 인공지능을 활용한 데이터베이스 모듈 및 이를 이용하는 경제데이터 제공 시스템 및 방법
Shen et al. Research on e-commerce application based on web mining
Osial et al. Smartphone recommendation system using web data integration techniques
CN111222918A (zh) 关键词挖掘方法、装置、电子设备及存储介质
US20120179544A1 (en) System and Method for Computer-Implemented Advertising Based on Search Query
Hongjiu Data mining in the application of e-commerce website
KR102549006B1 (ko) 사용자 행동 기반 질의 벡터 자동 보정을 활용한 기업 검색 시스템 및 그 방법
TW201901493A (zh) 資料搜尋方法
Liyuan et al. Research on User Profile and Personalized Recommendation Based on Collaborative Filtering Algorithm
Kore et al. Integrated algorithm (S-CBIR) for image retrieval in image-rich information networks
Zhao et al. Research on Multi-Dimensional Dynamic Recommendation Technology of Mobile E-Commerce Platform Based on Collaborative Filtering Algorithm

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1166402

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1166402

Country of ref document: HK