CN106202105A - 一种电子商务网站导航方法及装置 - Google Patents
一种电子商务网站导航方法及装置 Download PDFInfo
- Publication number
- CN106202105A CN106202105A CN201510227035.3A CN201510227035A CN106202105A CN 106202105 A CN106202105 A CN 106202105A CN 201510227035 A CN201510227035 A CN 201510227035A CN 106202105 A CN106202105 A CN 106202105A
- Authority
- CN
- China
- Prior art keywords
- product
- information
- attribute information
- knowledge base
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 35
- 230000011218 segmentation Effects 0.000 claims abstract description 22
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000009193 crawling Effects 0.000 claims description 3
- 238000004141 dimensional analysis Methods 0.000 abstract description 3
- 230000000875 corresponding effect Effects 0.000 description 26
- 230000008569 process Effects 0.000 description 6
- 210000000582 semen Anatomy 0.000 description 5
- 241000272525 Anas platyrhynchos Species 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 235000013305 food Nutrition 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 235000019890 Amylum Nutrition 0.000 description 2
- 241000628997 Flos Species 0.000 description 2
- 241000287828 Gallus gallus Species 0.000 description 2
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 2
- 244000046052 Phaseolus vulgaris Species 0.000 description 2
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 2
- 229920002472 Starch Polymers 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 235000019219 chocolate Nutrition 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000002304 perfume Substances 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 235000015067 sauces Nutrition 0.000 description 2
- 235000010469 Glycine max Nutrition 0.000 description 1
- 244000068988 Glycine max Species 0.000 description 1
- BQCADISMDOOEFD-UHFFFAOYSA-N Silver Chemical compound [Ag] BQCADISMDOOEFD-UHFFFAOYSA-N 0.000 description 1
- 244000269722 Thea sinensis Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000005485 electric heating Methods 0.000 description 1
- 235000009569 green tea Nutrition 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000008267 milk Substances 0.000 description 1
- 210000004080 milk Anatomy 0.000 description 1
- 235000013336 milk Nutrition 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种电子商务网站导航方法及装置,其中方法包括:对用户输入的查询词进行分词处理得到主体信息和属性信息;在预先建立的知识库中查找与所述主体信息和所述属性信息对应的产品信息;在导航区展示所述产品信息。本申请以预先建立的知识库作为带属性查询词的搜索基础,通过对用户输入的查询词进行分词处理,以实现搜索意图的多维度分析,进而根据每个维度的具体信息在知识库中查找对应的产品信息,为用户提供与搜索意图相关性较高的产品信息,以提高用户的导航体验。
Description
技术领域
本申请涉及网站导航技术领域,尤其涉及一种电子商务网站导航方法及装置。
背景技术
随着电子商务应用的日益普及,网络购物已融入人们的衣食住行各个方面。用户习惯性的购物方式是在搜索框输入自己感兴趣的查询词(query),query可以分为两类,一类是指包含明确产品信息的query,也称为普通单品性query;例如“连衣裙”、“电视机”、“笔记本”等等;另一种是带属性的query,也称为知识性query;例如“送给小孩的满月礼物”、“含高蛋白的食物”“送给父母的生日礼物”等等,这类query不能明确的描述产品信息,只是携带一些特定属性表征用户一个购物意图。
目前的电子商务导航方法是通过导航区向用户提供各种类目商品的选择,以为用户提供与搜索意图最相关的产品。这种方法主要是根据用户输入的词条的关键字(产品信息)与知识库里的相关词进行匹配,为用户提供相关性较高的搜索结果。由于普通单品性query含有有效关键字,因此采用这种方法能够满足用户的搜索需求;但由于带属性的购物query中没有有效的关键字,采用这种方法只能得到相关性较差的搜索结果,甚至无法搜索到相关性的结果。因此,现有的这种导航方法无法针对带属性query,为用户提供较好的导航体验。
发明内容
本申请所要解决的技术问题是提供一种电子商务网站导航方法,用以解决现有的导航方法的搜索结果与用户搜索意图的相关性较差,用户不能快速找到想要的产品的问题,以提高用户导航体验。
本申请还提供了一种电子商务网站导航装置,用以保证上述方法在实际中的实现以及应用。
一方面,本申请提供了一种电子商务网站导航方法,所述方法包括:
对用户输入的查询词进行分词处理得到主体信息和属性信息;
在预先建立的知识库中查找与所述主体信息和所述属性信息对应的产品信息;
在导航区展示所述产品信息。
另一方面,本申请还提供了一种电子商务网站导航装置,所述装置包括:
查询词分词处理单元,用于对用户输入的查询词进行分词处理得到主体信息和属性信息;
产品信息查找单元,用于在预先建立的知识库中查找与所述主体信息和所述属性信息对应的产品信息;
导航结果展示单元,用于在导航区展示所述产品信息。
与现有技术相比,本申请包括以下优点:
本申请首先通过对用户输入的查询词进行分词处理得到主体信息和属性信息;这里通过分词处理得到相关信息,这些信息从多个维度反映了用户搜索意图;即,通过分词处理实现了对用户搜索意图的精细划分,为后续的查找过程打好基础。然后,在预先建立的知识库中查找与所述主体信息和所述属性信息对应的产品信息;在知识库中储存有主体信息、属性信息所对应的产品信息,则根据分词得到的主体信息和属性信息可以直接查找到对应的产品信息,进而在导航区展示所述产品信息。本申请以预先建立的知识库作为带属性查询词的搜索基础,通过对用户输入的查询词进行分词处理,以实现搜索意图的多维度分析,进而根据每个维度的具体信息在知识库中查找对应的产品信息,为用户提供与搜索意图相关性较高的产品信息,以提高用户的导航体验。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的一种电子商务网站导航方法实施例的流程图;
图2为本申请提供的一种知识库建立方法实施例的流程图;
图3为本申请提供的一种电子商务网站导航装置实施例1的结构图;
图4为本申请提供的一种电子商务网站导航装置实施例2的结构图。
具体实施方式
为使得本申请的发明目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述,显然,所描述的实施例仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参考图1,图1是本申请提供的一种电子商务网站导航方法实施例的流程图,如图1所示,该方法可以包括以下步骤:
S101,对用户输入的查询词进行分词处理得到主体信息和属性信息。
用户通过终端在网站上输入查询词(query),这里的查询词是指用户在网站的搜索框里输入的搜索内容,也可以理解为搜索请求;本实施例是针对知识性query,即,不带有明确产品信息、但携带有一定的属性信息的query;在实际应用中query的存在形式多种多样,可以是词组或句子,如“春节送什么礼物给父母?”、“送给小孩的满月礼物”、“含高蛋白的食物”、“杭州特产”等等。
当网站接收到用户输入的query后,采用通用分词技术对该查询词进行分词处理,以得到主体信息和属性信息;这里的属性信息是指表征特定属性的信息,例如,地域属性信息是指用于表征地域的属性信息,如北京、杭州、上海、南方、北方等地域名词;再例如,对象属性信息是指用于表征受众的属性信息,如老人、长辈、女友等受众名称;再例如,场景属性信息是指具有表征适用场景的属性信息,如春节、生日、情人节、圣诞节等适用场景的属性信息。
假设,用户输入的query是“杭州特产有哪些?”,那么经过分词处理可以得到属性信息就是地域属性信息(“杭州”)以及主体信息(“特产”)。
假设,用户输入的query是“春节送什么礼物给老人”,那么经过分词处理可以得到属性信息包括:场景属性信息(“春节”)、对象属性信息(“老人”)和主体信息(“礼物”)。
用户可以随意输入自己感兴趣的query,网站接收到query进行分词处理可以得到属性信息,可能是一类属性信息也可能是多类属性信息的组合。
对用户输入的query进行分词处理的好处是:对用户搜索意图进行语义的精细划分,从query中获取用于表征用户搜索意图的多维度信息,以深度分析用户搜索意图,进而为用户提供相应的搜索结果。
S102,在预先建立的知识库中查找与所述主体信息和所述属性信息对应的产品信息。
这里的知识库为预先建立的、用于储存特定属性信息、特定主体信息与相关产品信息的对应关系的数据库;关于如何预先建立知识库的实现方法有多种。例如,根据网站内部的产品信息进行属性归类,将归类后的属性信息、主体信息以及相关产品信息的对应关系储存在数据库,以建立知识库。知识库储存的内容越全面、越精细,网站的导航效果就越好。关于如何预先建立知识库的方法,本申请还提供了更好的方法,在下文会给出具体描述,此处暂不详述。
上述步骤S101通过分词处理得到能够表征用户搜索意图的属性信息和主体信息,则以这两种信息为基础,在知识库中直接查找与这两种信息成对应关系的产品信息。这里的产品信息是指用于表征品类实体的信息。
假设,预先建立的知识库中储存有如下两组信息:
第一组信息:特定属性信息“杭州”、特定主体信息“特产”以及相关产品信息“烤鸡、酱鸭、藕粉、山核桃”;
第二组信息:特定属性信息“北京”、特定主体信息“特产”以及相关产品信息“烤鸭、驴打滚、冰糖葫芦、板栗、果脯”。
假设,用户输入的query为“北京有哪些好吃的特产?”,那么经过S101步骤的分词处理得到属性信息“杭州”以及主体信息“特产”,接着进入步骤S102中,在上述知识库中搜索与属性信息“杭州”以及主体信息“特产”具有对应关系的产品信息,即,从知识库搜索得到对应的产品信息为“烤鸭、驴打滚、冰糖葫芦、板栗、果脯”。
S103,在导航区展示所述产品信息。
在查找到对应的产品信息之后,在网站的导航区展示所述产品信息,这样,用户就能够得到与输入的query相关联的产品信息。本申请实施例就是针对用户输入的“知识性query”即“不带有明确产品信息的query”,通过对用户输入的query进行分词处理,以实现搜索意图的多维度分析,进而可以根据每个维度的具体信息在知识库中查找对应的产品信息,为用户提供与搜索意图相关性较高的产品信息,以提高用户的导航体验。
本申请关于如何预先建立知识库还提供了一种方法,下面通过实施例对该方法进行解释说明。
参见图2,图2为本申请提供的一种知识库建立方法实施例的流程图,如图2所示,该方法可以包括以下步骤:
S201,分析网站的日志数据生成查询词类型模板,所述模板包括:主体信息和属性信息。
在具体实现时,先统计收集网站的日志数据,日志数据是指网站服务器对用户搜索事件的记录,由于数据量巨大,通常储存在分布式文件系统中。在具体实现时,先识别日志数据中“知识性query”,统计所有的知识性query分析得到模板,这里的模板包括主体信息和属性信息。
例如统计日志数据中的知识性query分析得到模板1,模板1包括“地域”相关的属性信息和主体信息“特产”,该模板1表示希望根据以“特产”为主体的地域属性获取对应的查询结果。模板1中的地域属性信息可以包括一个地域属性信息,也可以包括具有地域级别关联关系的多个地域属性信息。
再例如统计日志数据中的知识性query“情人节送给女朋友的礼物”可以分析得到模板2,模板2包括场景属性信息(“情人节”)、对象属性信息(“女朋友”)和主体信息(“礼物”),模板2表示希望根据以“礼物”主体的场景属性和对象属性获取对应的查询结果。
在具体实现时,可以得到一种或多种查询词类型模板,即,根据用户的实际搜索需求统计分析出模板,进而利用模板的具体信息采用信息抽取的方式对相关的外网垂直站点数据进行信息抽取,以抽取与query模板类型对应的产品实体,将模板的具体信息以及对应的产品实体的对应关系保存到数据库中。
S202,爬取与所述主体信息相关的垂直网站得到网页数据。
S203,统计所述网页数据得到在所述主体信息类目下、具有所述属性信息的产品信息。
在分析得到模板之后,针对性地对与主体信息相关的垂直网站进行网页爬取得到相关的网页数据;在具体实现时,可以采用通用的爬虫技术来实现网页爬取,并对网页数据进行解析,根据模板中的属性类型提取主体的相关属性,进而统计得到在模板中的主体信息类目下,具有所述属性信息的产品信息。
在具体实现时,步骤S203可以具体为:统计所述网页数据得到在所述主体信息类目下、具有所述属性信息的产品标题,从产品标题中提取品类实体信息,将所述品类实体信息作为的产品信息。
由于产品标题(也称为商品标题)属于自由文本,因此可以采用自由文本识别方法,如基于规则的方法,基于隐马尔科夫模型的方法、基于条件随机场的方法等识别方法等识别方法,从产品标题中抽取出品类实体(也就是具体产品)。
举例说明,上文提及到模板1包括“地域”相关的属性信息和主体信息“特产”,模板具体为“杭州”和“特产”,针对该模板进行如下处理:
先爬取与“特产”相关的垂直网站得到网页数据;再统计网页数据中在“特产”类目下、具有地域属性(“杭州”)的产品信息。
例如统计得到在“特产”类目下、具有地域属性(“杭州”)的产品信息有“烤鸡、酱鸭、藕粉、山核桃”。
再举例说明,上文提及到模板2包括场景属性信息、对象属性信息和主体信息,模板具体为“情人节”、“女朋友”和“礼物”,针对该模板进行如下处理:
先爬取与“礼物”相关的垂直网站得到网页数据;再统计网页数据中在“礼物”类目下、具有场景属性(“情人节”)以及对象属性(“女朋友”)的产品信息。
例如统计得到在“礼物”类目下、具有场景属性(“情人节”)以及对象属性(“女朋友”)的产品信息有“巧克力、戒指、玫瑰花、手表、香水、项链、手链:、围巾、音乐盒”。
在具体实现时,通过上述网页爬取方式可以统计到的具体模板下对应的产品信息,由于爬取的网站是与主体相关的垂直网站,因此,统计的产品信息的可靠性较高、产品信息也较为全面,以保证依据产品信息所建立的知识库信息量较大、较可靠。
S204,根据所述主体信息、所述属性信息及产品信息的对应关系建立知识库。
另外,考虑到依据知识库直接查找到的产品信息量较大,用户还需要进一步从众多信息中挑选自己感兴趣的产品信息,为了提高导航效果,向用户提供更为有效的搜索结果,本申请还提供了优选方案。该优选方案具体是在建立知识库中,根据网页数据和产品信息计算产品的权重;进而根据所述主体信息、所述属性信息、产品信息以及产品的权重之间的对应关系建立知识库。也就是说,在知识库还储存有与主题信息、属性信息对应的每个产品的权重。
即,在上述S203之后,还包括以下步骤:
根据所述网页数据和所述产品信息计算产品的权重。
则上述步骤S204具体为:根据所述主体信息、所述属性信息、产品信息以及产品的权重之间的对应关系建立知识库。
关于如何计算产品的权重,本申请提供了具体的计算方式,包括:
所述根据网页数据和产品信息计算产品的权重,包括:
统计所述网页数据得到产品信息对应的产品总数、产品所在的网页位置、网页上显示的产品数,按照如下公式计算产品的权重:
公式中各个字符分别代表如下含义:
scorep表示在具有属性信息p的产品j的权重;所述属性信息p为一个属性或者多个属性的组合;
EiPj表示在与所述主体信息相关的垂直网站i中具有属性信息p的产品j的出现情况,出现EiPj则为1,不出现EiPj则为0;
Wi表示与所述主体信息相关的垂直网站i的权重;
Wj表示产品j的权重,Wj按照如下公式计算得到:
CurrentPosj表示具有属性信息p的产品j在网页上的显示位置;
CurrentPagej表示具有属性信息p的产品j所在网页的位置;
PageCountj表示具有属性信息p的产品j所在网页上显示的产品数;
TotalCountj表示具有属性信息p的产品j的总数。
下面举例对上述权重的计算过程进行解释说明。
从上述产品权重的计算公式可以看出:本申请是结合垂直网站的质量、产品在垂直网站中的重要程度等因素来衡量产品的权重,通过该方式确定的产品权重具有一定可靠性。
例如按照上述计算权重的公式,针对模板“情人节、“女朋友”和“礼物”,统计得到在“礼物”类目下、具有场景属性(“情人节”)以及对象属性(“女朋友”)的产品信息有“巧克力、戒指、玫瑰花、手表、香水、项链、手链、围巾、音乐盒”,分别计算产品的权重。
针对模板为“回家探亲”、“父亲”和“礼物”,统计得到在“礼物”类目下、具有场景属性(“回家探亲”)以及对象属性(“父亲”)的产品信息有“龙井茶、按摩器、洋酒、山核桃、银手镯、桂花糕、豆浆机、电热毯、燕窝、按摩椅、鞋子”,分别计算产品的权重。具体计算结果如下表所示:
另外,为了进一步提高用户的导航体验,在上述建立知识库的过程中,需要根据产品信息来获取对应的图片,这样使得知识库既储存了产品信息又储存有对应的图片,以在展示产品信息时,一并将图片展示给用户,方便用户查看。
即,则上述步骤S204具体为:根据产品信息从网站获取对应的图片,将所述主体信息、所述属性信息、产品信息以及对应的图片储存在数据库中,将该数据库作为知识库。
基于上述知识库的建立方法,知识库中有实体信息、属性信息、产品信息、产品的权重以及对应的产品图片,则上文中步骤S103在导航区展示产品信息可以具体为:
根据产品的权重由大到小的顺序,在导航区以图文并茂的方式展示对应的产品信息。
这样,用户输入查询词之后,可直接在导航区查看到产品信息以及产品图片,这种图文并茂的方式更直观的展示导航结果,也更符合用户的浏览习惯。
上文对本申请提供的一种电子商务网站导航方法进行了描述,下面对本申请提供的一种电子商务网站导航装置进行描述。
参考图3,图3为本申请提供的一种电子商务网站导航装置实施例1的结构图,如图3所示,该装置可以包括以下单元:
分词处理单元301,用于对用户输入的查询词进行分词处理得到主体信息和属性信息;
产品信息查找单元302,用于在预先建立的知识库中查找与所述主体信息和所述属性信息对应的产品信息;
导航结果展示单元303,用于在导航区展示所述产品信息。
参见图4,示出的本申请提供的一种电子商务网站导航装置实施例2的结构图,该装置具体是在图3所示装置的基础上,还包括:
知识库建立单元300,用于建立知识库;所述知识库建立单元300,包括:
模板生成子单元3001,用于分析网站的日志数据生成查询词类型模板,所述模板包括:主体信息和属性信息;
网站爬取子单元3002,用于爬取与所述主体信息相关的垂直网站得到网页数据;
统计子单元3003,用于统计所述网页数据得到在所述主体信息类目下、具有所述属性信息的产品信息;
建立子单元3004,用于根据所述主体信息、所述属性信息及产品信息的对应关系建立知识库。
可选的,所述知识库建立单元还包括:
权重计算子单元,用于根据所述网页数据和所述产品信息计算产品的权重。
则所述建立子单元,具体用于根据所述主体信息、所述属性信息、产品信息以及产品的权重之间的对应关系建立知识库。
可选的,所述权重计算子单元,具体用于:
统计所述网页数据得到产品信息对应的产品总数、产品所在的网页位置、网页上显示的产品数,按照如下公式计算产品的权重:
公式中各个字符分别代表如下含义:
scorep表示在具有属性信息p的产品j的权重;所述属性信息p为一个属性或者多个属性的组合;
EiPj表示在与所述主体信息相关的垂直网站i中具有属性信息p的产品j的出现情况,出现EiPj则为1,不出现EiPj则为0;
Wi表示与所述主体信息相关的垂直网站i的权重;
Wj表示产品j的权重,Wj按照如下公式计算得到:
CurrentPosj表示具有属性信息p的产品j在网页上的显示位置;
CurrentPagej表示具有属性信息p的产品j所在网页的位置;
PageCountj表示具有属性信息p的产品j所在网页上显示的产品数;
TotalCountj表示具有属性信息p的产品j的总数。
可选的,所述建立子单元,具体用于:根据产品信息从网站获取对应的图片,将所述主体信息、所述属性信息、产品信息以及对应的图片储存在数据库中,将该数据库作为知识库。
可选的,所述统计子单元,具体用于:统计所述网页数据得到在所述主体信息类目下、具有所述属性信息的产品标题,从产品标题中提取品类实体信息,将所述品类实体信息作为的产品信息。
可选的,导航结果展示单元,具体用于:根据产品的权重由大到小的顺序,在导航区以图文并茂的方式展示对应的产品信息。
本申请提供的电子商务网站导航装置以预先建立的知识库作为查询词的搜索基础,通过对用户输入的查询词进行分词处理,以实现搜索意图的多维度分析;进而根据每个维度的具体信息在知识库中查找对应的产品信息,为用户提供与搜索意图相关性较高的产品信息,以提高用户的导航体验。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本申请的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本申请的具体实施方式而已,并不用于限定本申请的保护范围,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (14)
1.一种电子商务网站导航方法,其特征在于,所述方法包括:
对用户输入的查询词进行分词处理得到主体信息和属性信息;
在预先建立的知识库中查找与所述主体信息和所述属性信息对应的产品信息;
在导航区展示所述产品信息。
2.根据权利要求1所述的方法,其特征在于,通过以下方式预先建立知识库:
分析网站的日志数据生成查询词类型模板,所述模板包括:主体信息和属性信息;
爬取与所述主体信息相关的垂直网站得到网页数据;
统计所述网页数据得到在所述主体信息类目下、具有所述属性信息的产品信息;
根据所述主体信息、所述属性信息及产品信息的对应关系建立知识库。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
根据所述网页数据和所述产品信息计算产品的权重;
则根据所述主体信息、所述属性信息及产品信息的对应关系建立知识库,具体为:
根据所述主体信息、所述属性信息、产品信息以及产品的权重之间的对应关系建立知识库。
4.根据权利要求3所述的方法,其特征在于,所述根据网页数据、产品信息计算产品的权重,包括:
统计所述网页数据得到产品信息对应的产品总数、产品所在的网页位置、网页上显示的产品数,按照如下公式计算产品的权重:
公式中各个字符分别代表如下含义:
scorep表示在具有属性信息p的产品j的权重;所述属性信息p为一个属性或者多个属性的组合;
EiPj表示在与所述主体信息相关的垂直网站i中具有属性信息p的产品j的出现情况,出现EiPj则为1,不出现EiPj则为0;
Wi表示与所述主体信息相关的垂直网站i的权重;
Wj表示产品j的权重,Wj按照如下公式计算得到:
CurrentPosj表示具有属性信息p的产品j在网页上的显示位置;
CurrentPagej表示具有属性信息p的产品j所在网页的位置;
PageCountj表示具有属性信息p的产品j所在网页上显示的产品数;
TotalCountj表示具有属性信息p的产品j的总数。
5.根据权利要求2所述的方法,其特征在于,根据所述主体信息、所述属性信息及产品信息的对应关系建立知识库,包括:
根据产品信息从网站获取对应的图片,将所述主体信息、所述属性信息、产品信息以及对应的图片储存在数据库中,将该数据库作为知识库。
6.根据权利要求2所述的方法,其特征在于,统计所述网页数据得到在所述主体信息类目下、具有所述属性信息的产品信息,包括:
统计所述网页数据得到在所述主体信息类目下、具有所述属性信息的产品标题,从产品标题中提取品类实体信息,将所述品类实体信息作为的产品信息。
7.根据权利要求1所述的方法,其特征在于,所述在导航区展示所述产品信息,包括:
根据产品的权重由大到小的顺序,在导航区以图文并茂的方式展示对应的产品信息。
8.一种电子商务网站导航装置,其特征在于,所述装置包括:
分词处理单元,用于对用户输入的查询词进行分词处理得到主体信息和属性信息;
产品信息查找单元,用于在预先建立的知识库中查找与所述主体信息和所述属性信息对应的产品信息;
导航结果展示单元,用于在导航区展示所述产品信息。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
知识库建立单元,用于建立知识库;所述知识库建立单元,包括:
模板生成子单元,用于分析网站的日志数据生成查询词类型模板,所述模板包括:主体信息和属性信息;
网站爬取子单元,用于爬取与所述主体信息相关的垂直网站得到网页数据;
统计子单元,用于统计所述网页数据得到在所述主体信息类目下、具有所述属性信息的产品信息;
建立子单元,用于根据所述主体信息、所述属性信息及产品信息的对应关系建立知识库。
10.根据权利要求9所述的装置,其特征在于,所述知识库建立单元还包括:
权重计算子单元,用于根据所述网页数据和所述产品信息计算产品的权重;
则所述建立子单元,具体用于根据所述主体信息、所述属性信息、产品信息以及产品的权重之间的对应关系建立知识库。
11.根据权利要求9所述的装置,其特征在于,所述权重计算子单元,具体用于:
统计所述网页数据得到产品信息对应的产品总数、产品所在的网页位置、网页上显示的产品数,按照如下公式计算产品的权重:
公式中各个字符分别代表如下含义:
scorep表示在具有属性信息p的产品j的权重;所述属性信息p为一个属性或者多个属性的组合;
EiPj表示在与所述主体信息相关的垂直网站i中具有属性信息p的产品j的出现情况,出现EiPj则为1,不出现EiPj则为0;
Wi表示与所述主体信息相关的垂直网站i的权重;
Wj表示产品j的权重,Wj按照如下公式计算得到:
CurrentPosj表示具有属性信息p的产品j在网页上的显示位置;
CurrentPagej表示具有属性信息p的产品j所在网页的位置;
PageCountj表示具有属性信息p的产品j所在网页上显示的产品数;
TotalCountj表示具有属性信息p的产品j的总数。
12.根据权利要求9所述的装置,其特征在于,所述建立子单元,具体用于:根据产品信息从网站获取对应的图片,将所述主体信息、所述属性信息、产品信息以及对应的图片储存在数据库中,将该数据库作为知识库。
13.根据权利要求9所述的装置,其特征在于,所述统计子单元,具体用于:统计所述网页数据得到在所述主体信息类目下、具有所述属性信息的产品标题,从产品标题中提取品类实体信息,将所述品类实体信息作为的产品信息。
14.根据权利要求8所述的装置,其特征在于,导航结果展示单元,具体用于:根据产品的权重由大到小的顺序,在导航区以图文并茂的方式展示对应的产品信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510227035.3A CN106202105A (zh) | 2015-05-06 | 2015-05-06 | 一种电子商务网站导航方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510227035.3A CN106202105A (zh) | 2015-05-06 | 2015-05-06 | 一种电子商务网站导航方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106202105A true CN106202105A (zh) | 2016-12-07 |
Family
ID=57459559
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510227035.3A Pending CN106202105A (zh) | 2015-05-06 | 2015-05-06 | 一种电子商务网站导航方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106202105A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112966177A (zh) * | 2021-03-05 | 2021-06-15 | 北京百度网讯科技有限公司 | 咨询意图的识别方法、装置、设备以及存储介质 |
CN117216424A (zh) * | 2023-09-12 | 2023-12-12 | 深圳君南信息系统有限公司 | 基于大数据的可视化分析运营方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101114294A (zh) * | 2007-08-22 | 2008-01-30 | 杭州经合易智控股有限公司 | 自助式智能垂直搜索方法 |
CN101876981A (zh) * | 2009-04-29 | 2010-11-03 | 阿里巴巴集团控股有限公司 | 一种构建知识库的方法及装置 |
CN102737039A (zh) * | 2011-04-07 | 2012-10-17 | 北京百度网讯科技有限公司 | 索引建立方法、搜索方法和搜索结果排序方法及对应装置 |
CN103678335A (zh) * | 2012-09-05 | 2014-03-26 | 阿里巴巴集团控股有限公司 | 商品标识标签的方法、装置及商品导航的方法 |
-
2015
- 2015-05-06 CN CN201510227035.3A patent/CN106202105A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101114294A (zh) * | 2007-08-22 | 2008-01-30 | 杭州经合易智控股有限公司 | 自助式智能垂直搜索方法 |
CN101876981A (zh) * | 2009-04-29 | 2010-11-03 | 阿里巴巴集团控股有限公司 | 一种构建知识库的方法及装置 |
CN102737039A (zh) * | 2011-04-07 | 2012-10-17 | 北京百度网讯科技有限公司 | 索引建立方法、搜索方法和搜索结果排序方法及对应装置 |
CN103678335A (zh) * | 2012-09-05 | 2014-03-26 | 阿里巴巴集团控股有限公司 | 商品标识标签的方法、装置及商品导航的方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112966177A (zh) * | 2021-03-05 | 2021-06-15 | 北京百度网讯科技有限公司 | 咨询意图的识别方法、装置、设备以及存储介质 |
CN112966177B (zh) * | 2021-03-05 | 2022-07-26 | 北京百度网讯科技有限公司 | 咨询意图的识别方法、装置、设备以及存储介质 |
CN117216424A (zh) * | 2023-09-12 | 2023-12-12 | 深圳君南信息系统有限公司 | 基于大数据的可视化分析运营方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107480158B (zh) | 基于相似性得分评估内容项目与图像的匹配的方法和系统 | |
CN108694223B (zh) | 一种用户画像库的构建方法及装置 | |
US10140368B2 (en) | Method and apparatus for generating a recommendation page | |
JP6379093B2 (ja) | 製品識別子のラベル付けおよび製品のナビゲーション | |
US9607010B1 (en) | Techniques for shape-based search of content | |
CN106294425B (zh) | 商品相关网络文章之自动图文摘要方法及系统 | |
US8296280B2 (en) | Image-based search system and method | |
CN102708174B (zh) | 一种浏览器中的富媒体信息的展示方法和装置 | |
CN104111941B (zh) | 信息展示的方法及设备 | |
CN103020067B (zh) | 一种确定网页类型的方法和装置 | |
CN105005917A (zh) | 一种通用的关联不同电商网站单品的方法 | |
CN105023178B (zh) | 一种基于本体的电子商务推荐方法 | |
CN103455487B (zh) | 一种搜索词的提取方法及装置 | |
CN104021140B (zh) | 一种网络视频的处理方法及装置 | |
CN107784059A (zh) | 用于搜索和选择图像的方法和系统以及机器可读媒体 | |
US20130132209A1 (en) | Generating an advertising campaign | |
CN106909663A (zh) | 基于标签用户品牌偏好行为预测方法及其装置 | |
CN102262618A (zh) | 一种版面信息识别的方法及装置 | |
CN103631794A (zh) | 一种用于对搜索结果进行排序的方法、装置与设备 | |
CN104077707B (zh) | 一种推广呈现方式的优化方法和装置 | |
CN105868219A (zh) | 一种信息发布方法及装置 | |
CN103150667A (zh) | 一种基于本体结构的个性化推荐方法 | |
CN105916032A (zh) | 视频推荐的方法及视频推荐的终端设备 | |
CN104090923A (zh) | 一种浏览器中的富媒体信息的展示方法和装置 | |
Baeza-Yates et al. | The new frontier of web search technology: Seven challenges |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1230759 Country of ref document: HK |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20161207 |
|
REG | Reference to a national code |
Ref country code: HK Ref legal event code: WD Ref document number: 1230759 Country of ref document: HK |