CN105550369A - 一种搜索目标商品集的方法及装置 - Google Patents

一种搜索目标商品集的方法及装置 Download PDF

Info

Publication number
CN105550369A
CN105550369A CN201610052793.0A CN201610052793A CN105550369A CN 105550369 A CN105550369 A CN 105550369A CN 201610052793 A CN201610052793 A CN 201610052793A CN 105550369 A CN105550369 A CN 105550369A
Authority
CN
China
Prior art keywords
template
dictionary
word
search
commodity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610052793.0A
Other languages
English (en)
Other versions
CN105550369B (zh
Inventor
汤奇峰
王万宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zamplus Technology Development Co Ltd
Original Assignee
Shanghai Zamplus Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zamplus Technology Development Co Ltd filed Critical Shanghai Zamplus Technology Development Co Ltd
Priority to CN201610052793.0A priority Critical patent/CN105550369B/zh
Publication of CN105550369A publication Critical patent/CN105550369A/zh
Application granted granted Critical
Publication of CN105550369B publication Critical patent/CN105550369B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种搜索目标商品集的方法及装置,所述方法包括:根据已知的多个词典库对待搜索商品信息进行分词,得到多个目标关键词,其中,每一词典库存储单个类别的关键词,并与一个词典类别对应,当已知的模板包括的词典类别包含于所述多个目标关键词的对应的多个词典类别时,确定所述已知的模板为指定模板,并确定所述指定模板包含词典类别对应的指定词典库,将所述多个目标关键词中与所述指定词典库中的关键词匹配的部分作为模板词,从商品库中查找关键词与所述模板词均相同的商品信息,得到第一搜索结果,其中,所述商品库中的每个商品的商品信息均已被分词并得到对应的多个关键词。上述的方案可以提高定位目标商品的准确性。

Description

一种搜索目标商品集的方法及装置
技术领域
本发明涉及互联网爬虫领域,特别是涉及一种搜索目标商品集的方法及装置。
背景技术
近年来,随着电商、微商网站日趋增多,互联网上的商品数据也呈指数级增长,因此,为查找到某一目标商品的具体信息,需要通过输入已知的商品信息,然后根据该已知的商品信息从海量商品库中进行搜索定位。比如,消费者为买到某一款商品,可以通过提供已知的商品信息,搜索引擎根据该商品信息在海量数据中搜索定位输出与该商品信息相关的信息,消费者可再次浏览搜索引擎反馈的商品集以找出中意的商品,比如从反馈的商品集中挑选出在价格方面较优的商品,或在消费者评论方面较好的商品以最终确定购买哪一件商品。
除消费者以外,电商平台和销售商家都有从海量商品信息库中定位某一目标商品的需求。然而,在现有技术中,搜索定位标品类商品比较容易,而对于搜索定位其他类型商品来说,搜索得到的结果准确性较低,具体说来,反馈的搜索结果中存在很多与目标商品无关的商品条目,搜索定位的准确性较低。
发明内容
本发明解决的技术问题是提供一种搜索目标商品集的方法及装置,提高定位所述待搜索商品信息的准确性。
为解决上述技术问题,本发明实施例提供一种搜索目标商品集的方法,所述方法包括:
根据已知的多个词典库对待搜索商品信息进行分词,得到多个目标关键词,其中,每一词典库存储单个类别的关键词,并与一个词典类别对应;
当已知的模板包括的词典类别包含于所述多个目标关键词的对应的多个词典类别时,确定所述已知的模板为指定模板,并确定所述指定模板包含词典类别对应的指定词典库;
将所述多个目标关键词中与所述指定词典库中的关键词匹配的部分作为模板词;
从商品库中查找关键词与所述模板词均相同的商品信息,得到第一搜索结果,其中,所述商品库中的每个商品的商品信息均已被分词并得到对应的多个关键词。
可选地,所述搜索目标商品集的方法,还包括:
由所述第一搜索结果得到对应的商品的集合,并将所述集合作为目标商品集。
可选地,所述已知的模板有多个并具有不同的优先级,根据具有不同的优先级的所述已知的模板得到的所述指定模板有多个并具有对应的不同的优先级。
可选地,所述从商品库中查找关键词与所述模板词均相同的商品信息,得到第一搜索结果,包括:
按照所述多个指定模板的优先级从高至低的顺序,依次使用具有不同优先级的每个所述指定模板对应的模板词,从商品库中查找关键词与所述模板词均相同的商品信息,以得到所述第一搜索结果。
可选地,所述搜索目标商品集的方法,还包括:
从商品库中查找关键词与所述模板词以及非模板词均相同的商品信息,得到第二搜索结果,其中,对于同一指定模板,所述多个目标关键词中所述模板词以外的词为非模板词。
可选地,所述搜索目标商品集的方法,还包括:
由所述第二搜索结果得到对应的商品的集合,记为优选集合,所述优选集合中的商品比所述目标商品集中的其他商品具有更高的排序优先级。
可选地,所述根据已知的多个词典库对待搜索商品信息进行分词,得到多个目标关键词,包括:
提取所述商品信息中与所述词典库中的关键词相同的词作为所述目标关键词。
本发明实施例还提供一种搜索目标商品集的装置,包括:
分词单元,适于根据已知的多个词典库对待搜索商品信息进行分词,得到多个目标关键词,其中,每一词典库存储单个类别的关键词,并与一个词典类别对应;
模板确定单元,适于当已知的模板包括的词典类别包含于所述多个目标关键词的对应的多个词典类别时,确定所述已知的模板为指定模板,并确定所述指定模板包含词典类别对应的指定词典库;
模板词确定单元,适于将所述多个目标关键词中与所述指定词典库中的关键词匹配的部分作为模板词;
第一搜索单元,适于从商品库中查找关键词与所述模板词均相同的商品信息,得到第一搜索结果,其中,所述商品库中的每个商品的商品信息均已被分词并得到对应的多个关键词。
可选地,所述搜索目标商品集的装置还包括:
目标商品集确定单元,适于由所述第一搜索结果得到对应的商品的集合,并将所述集合作为目标商品集。
可选地,所述已知的模板有多个并具有不同的优先级,根据具有不同的优先级的所述已知的模板得到的所述指定模板有多个并具有对应的不同的优先级。
可选地,所述第一搜索单元还适于:
按照所述多个指定模板的优先级从高至低的顺序,依次使用具有不同优先级的每个所述指定模板对应的模板词,从商品库中查找关键词与所述模板词均相同的商品信息,以得到所述第一搜索结果。
可选地,所述搜索目标商品集的装置,还包括:
第二搜索单元,适于从商品库中查找关键词与所述模板词以及非模板词均相同的商品信息,得到第二搜索结果,其中,对于同一指定模板,所述多个目标关键词中所述模板词以外的词为非模板词。
可选地,所述搜索目标商品集的装置,还包括:
优选集确定子单元,适于由所述第二搜索结果得到对应的商品的集合,记为优选集合,所述优选集合中的商品比所述目标商品集中的其他商品具有更高的排序优先级。
可选地,所述分词单元适于:
提取所述商品信息中与所述词典库中的关键词相同的词作为所述目标关键词。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
本发明实施例的技术方案通过对待搜索商品信息进行分词,得到多个目标关键词后,当已知的模板包括的词典类别包含于所述多个目标关键词的对应的多个词典类别时,确定所述已知的模板为指定模板,并确定所述指定模板包含词典类别对应的指定词典库,将所述多个目标关键词中与所述指定词典库中的关键词匹配的部分作为模板词,从商品库中查找关键词与所述模板词均相同的商品信息,得到第一搜索结果,从而实现精准匹配到与指定模板中所有模板词均相同的商品,相比现有技术,由于本发明实施例的技术方案通过已知的模板确定的所述指定模板对应的模板词来定位目标商品,而并非不加区分地使用待搜索商品信息分词后的词语或者词语组合来进行搜索定位,从而提高了搜索定位目标商品信息的准确性。
进一步地,本发明实施例的技术方案通过按照多个指定模板的优先级从高至低的顺序,依次使用具有不同优先级的每个所述指定模板对应的模板词,从商品库中查找关键词与所述模板词均相同的商品信息,以得到第一搜索结果,从而使第一搜索结果中由较高优先级的指定模板对应的模板词搜索的目标商品信息具有与所述待搜索商品信息较高的匹配度,从而可以通过排序从第一搜索结果中优先得到具有较高匹配度的目标商品信息,提高定位目标商品信息的准确性。
进一步地,本发明实施例的技术方案通过从商品库中查找关键词与所述模板词以及非模板词均相同的商品信息,得到第二搜索结果,将所述第二搜索结果对应的商品集作为目标商品集中有较高匹配度的优选集合,从而可以通过排序从第一搜索结果中优先得到具有较高匹配度的目标商品信息,提高定位目标商品信息的准确性。
附图说明
图1是本发明实施例中的一种搜索目标商品集的方法的流程图;
图2是本发明实施例中的另一种搜索目标商品集的方法的流程图;
图3是本发明实施例中的一种搜索目标商品集的装置的结构示意图;
图4是本发明实施例中的另一种搜索目标商品集的装置的结构示意图。
具体实施方式
如背景技术所言,实际应用场景中,存在从海量商品信息中查找目标商品的需求,然而,现有技术中定位标品类商品比较容易,而对于其他商品类型来说,搜索得到的结果准确性较低,比如反馈的搜索结果中存在很多与目标商品无关的商品条目,也就是说,定位目标商品信息的准确性较低。
本发明实施例的技术方案通过对待搜索商品信息进行分词,得到多个目标关键词后,当已知的模板包括的词典类别包含于所述多个目标关键词的对应的多个词典类别时,确定所述已知的模板为指定模板,并确定所述指定模板包含词典类别对应的指定词典库,将所述多个目标关键词中与所述指定词典库中的关键词匹配的部分作为模板词,从商品库中查找关键词与所述模板词均相同的商品信息,得到第一搜索结果,从而实现精准匹配到与指定模板中所有模板词均相同的商品,相比现有技术,由于本发明实施例的技术方案通过已知的模板确定的所述指定模板对应的模板词来定位目标商品,而并非不加区分地使用待搜索商品信息分词后的词语或者词语组合来进行搜索定位,从而提高了搜索定位目标商品信息的准确性。
为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
图1是本发明实施例中的一种搜索目标商品集的方法的流程图。下面参照图1对所述搜索目标商品集的方法做详细说明。
步骤S101:根据已知的多个词典库对待搜索商品信息进行分词,得到多个目标关键词,其中,每一词典库存储单个类别的关键词,并与一个词典类别对应。
在具体实施中,所述待搜索商品信息为已知的用于搜索定位目标商品的信息,从而可以从海量数据库中搜索出与所述待搜索商品信息中的商品同款的目标商品信息,所述待搜索商品信息可以是商品名称,也可以是其他包含或者类似于商品名称的信息。例如,输入待搜索商品信息可以为“泸州老窖龙香醇中国红中秋送礼大坛白酒52度999ML”,以期得到与本条待搜索商品信息中的商品同款的商品信息。
在具体实施中,所述词典库为已知或预先建立的,每一词典库为存储一个类别的关键词构成的数据库,一个词典库对应一个类别的关键词从而对应一个词典类别,具体地,词典类别根据分析组成商品信息的词语的类型进行预定义,同时将属于一个类别的关键词划分为一个词典类别并添加到一个词典库中。例如,对于酒类行业而言,所述词典类别可以有“品牌”、“度数”、“口感”和“容量”等,同时,预先为每个词典类别的词典库添加同一类型的关键词。可以理解的是,对于酒类行业而言,还可以定义其他种所述词典类别以及对应的词典库,例如“储藏时间”等。
需要说明的是,所述词典类别在预先定义时,可以根据行业的不同而有所不同。又如,在化妆品行业,已知的词典类别可以有“品牌”、“功能”“核心词”和“容量”,可以看出,该词典类别与上例中的词典类别不同。需要指出的是,所述词典类别的具体名称的定义不限于本例,也可以将每个词典类别定义为其他名称,只要能区分不同类别的关键词即可。
在每一词典库中存储有单个类别的关键词,例如,在上述化妆品的词典库中,品牌类别这一词典库中存储有“资生堂”、“美宝莲”、“佰草集”、“雅芳”等关键词,而功能类别这一词典库中存储有“补水”、“美白”等关键词,核心词类别这一词典库中存储有“乳液”、“化妆水”、“霜”等关键词,在此不必详尽描述。
在本发明的实施例中,所述词典库的词典类别为预先定义已知的,而所述词典库中的关键词也为预先存储的。需要指出的是,针对每个行业,可以定义不同的词典类别和词典库。
由此,在本步骤S101的具体实施中,可以根据已知的多个词典库对待搜索商品信息进行分词,得到所述待搜索商品信息的多个目标关键词。
例如,所述待搜索商品信息为“潘婷修护洗发露75ml”,根据已知的多个词典库可以对“潘婷修护洗发露75ml”进行分词,在本实例中,假设已知的词典库为“品牌”、“功能”、“核心词”和“容量”,并且已知每个词典库中均存储有同一类关键词,那么当词典库中的关键词包含所述待搜索商品信息中的词时,将该词进行切分,例如“品牌”词典库中有“潘婷”这一关键词,则可以将“潘婷修护洗发露75ml”中的“潘婷”进行切分,依次类推,假设词典库中都能找到本例中的待搜索商品信息中的词,那么可将“潘婷修护洗发露75ml”进行分词得到多个目标关键词:“潘婷”、“修护”、“洗发露”和“75ml”。需要指出的是,在本发明的一实施例中,“容量”词典库中可以仅存储单位词“ml”,当分词系统在自动识别数词“75”后,如查找到词典库中有单位词“ml”,则将“75”与“ml”进行合并,得到所述目标关键词“75ml”。
步骤S102:当已知的模板包括的词典类别包含于所述多个目标关键词的对应的多个词典类别时,确定所述已知的模板为指定模板,并确定所述指定模板包含词典类别对应的指定词典库。
在具体实施中,所述已知的模板为预先设定的,例如可以根据需要、根据经验或者根据大数据机器学习的结果预先设定,所述已知的模板包括不同的词典类别。当已知的模板包括的词典类别包含于所述多个目标关键词的对应的多个词典类别时,确定所述已知的模板为指定模板,并确定所述指定模板包含词典类别对应的指定词典库。
例如,已知的模板为“品牌”、“功能”、“核心词”和“容量”,而对所述待搜索商品信息“潘婷洗发露75ml”进行分词得到目标关键词“潘婷”、“洗发露”和“75ml”,分词得到目标关键词对应的词典类别为“品牌”“核心词”和“容量”,此时,已知的模板包括的词典类别并非包含于上述目标关键词对应的词典类别,可以看出已知的模板包含的词典类别中多了一个“功能”。但如果已知的模板为“品牌”和“核心词”,包含于上述目标关键词对应的词典类别“品牌”、“核心词”和“容量”,那么可以确定该已知的模板为所述指定模板,从而可以根据所述指定模板包括的词典类别确定所述指定模板对应的指定词典库为“品牌”类词典库“核心词”类词典库,每个所述指定词典库中都存储有对应类别的关键词。
步骤S103:将所述多个目标关键词中与所述指定词典库中的关键词匹配的部分作为模板词。
例如,经步骤S102,确定的所述指定模板包括“品牌”、“功能”、“核心词”和“容量”4个词典类别,进而确定所述指定词典库为“品牌”词典库、“功能”词典库、“核心词”词典库和“容量”词典库,所述待搜索商品信息为“潘婷修护洗发露75ml促销”,经分词后得到的目标关键词为“潘婷”、“修护”、“洗发露”、“75ml”和“促销”,从中找出与所述指定词典库中的关键词匹配的部分为“潘婷”、“修护”、“洗发露”和“75ml”作为模板词,而“促销”没有在所述指定词典库中找到,那么“促销”不是所述模板词。
需要注意的是,所述模板词因所述指定模板的不同而不同,例如当指定模板包括“品牌”和“核心词”时,那么所述指定词典库为“品牌”类词典库和“核心词”类词典库,与所述指定词典库匹配的目标关键词为“潘婷”、“洗发露”,则“潘婷”、“洗发露”为所述模板词,“修护”和“75ml”不是所述模板词。
步骤S104:从商品库中查找关键词与所述模板词均相同的商品信息,得到第一搜索结果,其中,所述商品库中的每个商品的商品信息均已被分词并得到对应的多个关键词。
例如,如果所述模板词为“潘婷”、“修护”、“洗发露”和“75ml”,在本步骤的具体实施中,所述商品库中的每个商品的商品信息均已被分词并得到对应的多个关键词,从商品库中查找出关键词与所述模板词“潘婷”、“修护”、“洗发露”和“75ml”的词语均相同的商品信息,得到第一搜索结果。所述第一搜索结果即为本实施例中与所述待搜索商品信系中的商品同款的目标商品。
由上述过程可知,根据分词得到的目标关键词从已知的模板中确定所述指定模板后,通过所述指定模板可以搜索出关键词与模板词均匹配的商品信息,由此,可以设定所述已知的模板中包含的词典类别,使得据此确定的指定模板包含的词典类别也必须是设定的其中一种词典类别的组合,换句话说,确定了指定模板也就确定了必须满足的一种词典类别组合,指定模板对应的词典类别表征搜索时商品库中商品信息必须满足的关键词的词典类别,从而可以使得分词后得到的各个目标关键词之间具有语义重要性的区别,使用与确定的词典类别对应的目标关键词即模板词来进行搜索,使得搜索得到的商品信息也一定是对应满足确定的词典类别的结果,进而提高了搜索的准确性。例如,确定指定模板后,指定模板包含的词典类别为“品牌”、“功能”和“核心词”,模板词对应为“潘婷”、“修护”和“洗发露”,则所述第一搜索结果必须同时包含“潘婷”、“修护”和“洗发露”这几个词,否则不在第一搜索结果中,例如仅包含“潘婷”和“洗发露”的商品信息则不属于第一搜索结果,然而在现有技术中,是将商品信息进行分词后,将分词后的每个词或者其组合进行搜索,词与词之间并没有语义重要性的差别,由此可见,本发明实施例的技术方案无疑提高了搜索定位的准确性。当要求所述第一搜索结果中必须包含哪一类词典类别的词时,可以通过变换设置所述已知的模板所包含的词典类别来实现。
在具体实施中,可以由所述第一搜索结果得到对应的商品的集合,并将所述集合作为目标商品集。例如,其中一条第一搜索结果为包含模板词“潘婷”、“修护”、“洗发露”的一条商品名称,则可将该条商品名称对应的这一条信息作为所述目标商品集中的一条信息。
本发明实施例的技术方案通过对待搜索商品信息进行分词,得到多个目标关键词后,当已知的模板包括的词典类别包含于所述多个目标关键词的对应的多个词典类别时,确定所述已知的模板为指定模板,并确定所述指定模板包含词典类别对应的指定词典库,将所述多个目标关键词中与所述指定词典库中的关键词匹配的部分作为模板词,从商品库中查找关键词与所述模板词均相同的商品信息,得到第一搜索结果,从而实现精准匹配到与指定模板中所有模板词均相同的商品,相比现有技术,由于本发明实施例的技术方案通过已知的模板确定的所述指定模板对应的模板词来定位目标商品,而并非不加区分地使用待搜索商品信息分词后的词语或者词语组合来进行搜索定位,从而提高了搜索定位目标商品信息的准确性。
图2是本发明实施例中的另一种搜索目标商品集的方法的流程图。下面参照图1和图2对所述搜索目标商品集的方法做详细说明。
步骤S201:根据已知的多个词典库对待搜索商品信息进行分词,得到多个目标关键词,其中,每一词典库存储单个类别的关键词,并与一个词典类别对应。
步骤S202:当已知的模板包括的词典类别包含于所述多个目标关键词的对应的多个词典类别时,确定所述已知的模板为指定模板,并确定所述指定模板包含词典类别对应的指定词典库。
在本实施例中,确定指定模板的方法与步骤S101中相同。
在本实施例中,所述已知的模板可以有多个并具有不同的优先级,根据具有不同的优先级的所述已知的模板得到的所述指定模板有多个并也相应具有不同的优先级。例如,所述已知的模板有3个,3个已知的模板各自的优先级不同,优先级从高至低依次为一至三,假设优先级为一的已知的模板为“品牌”、“功能”、“核心词”和“容量”,优先级为二的已知的模板为“品牌”、“功能”和“核心词”,优先级为三的已知的模板为“功能”、“核心词”和“容量”。但是,上述已知的模板中仅有优先级为二的已知的模板“品牌”、“功能”和“核心词”,以及优先级为三的已知的模板“功能”、“核心词”和“容量”被确定为指定模板,得到的2个指定模板的优先级也相应为二和三。
步骤S203:将所述多个目标关键词中与所述指定词典库中的关键词匹配的部分作为模板词。
本实施例中的步骤S201至步骤S203的其他描述可对应参照步骤S101至步骤S103的描述,在此不再赘述。
步骤S204:按照所述多个指定模板的优先级从高至低的顺序,依次使用具有不同优先级的每个所述指定模板对应的模板词,从商品库中查找关键词与所述模板词均相同的商品信息,以得到所述第一搜索结果。
例如,第一指定模板比第二指定模板具有更高的优先级。在此情况下优先使用优先级较高的第一指定模板对应的模板词,从商品库中查找关键词与所述模板词均相同的商品信息,以得到所述第一搜索结果,再使用优先级较低第二指定模板的模板词从商品库中查找关键词与所述模板词均相同的商品信息,以得到相应的所述第一搜索结果。
步骤S205:由所述第一搜索结果得到对应的商品的集合,并将所述集合作为目标商品集。
在具体实施中,可以由所述第一搜索结果得到对应的商品的集合,并将所述集合作为目标商品集。例如,其中一条第一搜索结果为包含模板词“潘婷”、“修护”、“洗发露”的一条商品名称,则可将该条商品名称对应的这一条信息作为所述目标商品集中的一条信息。
步骤S206:从商品库中查找关键词与所述模板词以及非模板词均相同的商品信息,得到第二搜索结果,其中,对于同一指定模板,所述多个目标关键词中所述模板词以外的词为非模板词。
在具体实施中,对于同一指定模板,多个目标关键词中与所述指定词典库中的关键词匹配的部分作为模板词,所述非模板词为所述多个目标关键词中所述模板词以外的词为非模板词。
例如,继续参照上面的例子,假设所述指定模板为“品牌”、“功能”、“核心词”和“容量”,那么从所述目标关键词“潘婷”、“修护”、“洗发露”、“ml”和“促销”中找出与所述指定词典库中的关键词匹配部分为“潘婷”“修护”“洗发露”、“ml”作为关键词,而“促销”没有在所述指定词典库中找到,那么“促销”为所述非模板词。又假设所述指定模板为“品牌”、“核心词”,那么“潘婷”和“洗发露”为所述模板词,“修护”、“ml”和“促销”为所述非模板词。假设所述模板词为“潘婷”“修护”“洗发露”、“ml”作为关键词,“促销”为非模板词,那么从商品库中查找关键词与所述模板词以及非模板词均相同的商品信息,得到第二搜索结果,也就是说从商品库中查找关键词与“潘婷”“修护”“洗发露”、“ml”和“促销”均相同的商品信息,记为所述第二搜索结果。
步骤S207:由所述第二搜索结果得到对应的商品的集合,记为优选集合,所述优选集合中的商品比所述目标商品集中的其他商品具有更高的排序优先级。
在具体实施中,通过步骤S206得到的所述第二搜索结果不仅与所述模板词匹配,同时与所述非模板词匹配,通过所述第二搜索结果得到对应的商品的集合,记为优选集合,让所述优选集合中的商品比所述目标商品集中的其他商品具有更高的排序优先级。由于通过模板词与非模板词定位的结果相比通过模板词定位的结果具有与所述待搜索商品信息较高的匹配度,从而在所述目标商品集合中进一步筛选时,通过将所述优选集设置较高的排序优先级可以便于优先选取具有较高匹配度的商品信息。其中,在向用户呈现搜索结果时,排序优先级更高的商品将以更容易被用户发现的方式来呈现,例如列在搜索结果的前几页。
本发明实施例的技术方案通过对待搜索商品信息进行分词,得到多个目标关键词后,当已知的模板包括的词典类别包含于所述多个目标关键词的对应的多个词典类别时,确定所述已知的模板为指定模板,并确定所述指定模板包含词典类别对应的指定词典库,将所述多个目标关键词中与所述指定词典库中的关键词匹配的部分作为模板词,从商品库中查找关键词与所述模板词均相同的商品信息,得到第一搜索结果,从而实现精准匹配到与指定模板中所有模板词均相同的商品,相比现有技术,由于本发明实施例的技术方案通过已知的模板确定的所述指定模板对应的模板词来定位目标商品,而并非不加区分地使用待搜索商品信息分词后的词语或者词语组合来进行搜索定位,从而提高了搜索定位目标商品信息的准确性。
进一步地,本发明实施例的技术方案通过按照多个指定模板的优先级从高至低的顺序,依次使用具有不同优先级的每个所述指定模板对应的模板词,从商品库中查找关键词与所述模板词均相同的商品信息,以得到第一搜索结果,从而使第一搜索结果中由较高优先级的指定模板对应的模板词搜索的目标商品信息具有与所述待搜索商品信息较高的匹配度,从而可以通过排序从第一搜索结果中优先得到具有较高匹配度的目标商品信息,提高定位目标商品信息的准确性。
进一步地,本发明实施例的技术方案通过从商品库中查找关键词与所述模板词以及非模板词均相同的商品信息,得到第二搜索结果,将所述第二搜索结果对应的商品集作为目标商品集中有较高匹配度的优选集合,从而可以通过排序从第一搜索结果中优先得到具有较高匹配度的目标商品信息,提高定位目标商品信息的准确性。
下面对本发明实施例中的所述搜索目标商品集的方法对应的装置做以下说明。
图3是本发明实施例中的一种搜索目标商品集的装置的结构示意图。如图3所示的搜索目标商品集的装置30,可以包括:
分词单元301,适于根据已知的多个词典库对待搜索商品信息进行分词,得到多个目标关键词,其中,每一词典库存储单个类别的关键词;
模板确定单元302,适于确定指定模板,根据所述指定模板包括的类别确定所述指定模板对应的指定词典库;
模板词确定单元303,适于将所述多个目标关键词中与所述指定词典库中的关键词匹配的部分作为模板词;
第一搜索单元304,适于从商品库中查找关键词与所述模板词均相同的商品信息,得到第一搜索结果,其中,所述商品库中的每个商品的商品信息均已被分词并得到对应的多个关键词。
在具体实施中,所述指定模板有多个,所述第一搜索单元304还适于:
按照所述多个指定模板的优先级从高至低的顺序,依次使用具有不同优先级的每个所述指定模板对应的模板词,从商品库中查找关键词与所述模板词均相同的商品信息,以得到所述第一搜索结果。
在具体实施中,所述分词单元301适于:提取所述商品信息中与所述词典库中的关键词相同的词作为所述目标关键词。
本发明实施例的技术方案通过对待搜索商品信息进行分词,得到多个目标关键词后,当已知的模板包括的词典类别包含于所述多个目标关键词的对应的多个词典类别时,确定所述已知的模板为指定模板,并确定所述指定模板包含词典类别对应的指定词典库,将所述多个目标关键词中与所述指定词典库中的关键词匹配的部分作为模板词,从商品库中查找关键词与所述模板词均相同的商品信息,得到第一搜索结果,从而实现精准匹配到与指定模板中所有模板词均相同的商品,相比现有技术,由于本发明实施例的技术方案通过已知的模板确定的所述指定模板对应的模板词来定位目标商品,而并非不加区分地使用待搜索商品信息分词后的词语或者词语组合来进行搜索定位,从而提高了搜索定位目标商品信息的准确性。
图4本发明实施例中的另一搜索目标商品集的装置的结构示意图。如图4所示的搜索目标商品集的装置40,可以包括:分词单元401,模板确定单元402,模板词确定单元403、第一搜索单元404、目标商品集确定单元405、第二搜索单元406和优选集确定子单元407。其中:
所述分词单元401,模板确定单元402,模板词确定单元403和第一搜索单元404的说明可对应参照所述分词单元301,模板确定单元302,模板词确定单元303和第一搜索单元304的描述,在此不再赘述。
所述目标商品集确定单元405,适于由所述第一搜索结果得到对应的商品的集合,并将所述集合作为目标商品集。
所述第二搜索单元406,适于从商品库中查找关键词与所述模板词以及非模板词均相同的商品信息,得到第二搜索结果,其中,对于同一指定模板,所述多个目标关键词中所述模板词以外的词为非模板词。
所述优选集确定子单元407,适于由所述第二搜索结果得到对应的商品的集合,记为优选集合,所述优选集合中的商品比所述目标商品集中的其他商品具有更高的排序优先级。
本发明实施例的技术方案通过对待搜索商品信息进行分词,得到多个目标关键词后,当已知的模板包括的词典类别包含于所述多个目标关键词的对应的多个词典类别时,确定所述已知的模板为指定模板,并确定所述指定模板包含词典类别对应的指定词典库,将所述多个目标关键词中与所述指定词典库中的关键词匹配的部分作为模板词,从商品库中查找关键词与所述模板词均相同的商品信息,得到第一搜索结果,从而实现精准匹配到与指定模板中所有模板词均相同的商品,相比现有技术,由于本发明实施例的技术方案通过已知的模板确定的所述指定模板对应的模板词来定位目标商品,而并非不加区分地使用待搜索商品信息分词后的词语或者词语组合来进行搜索定位,从而提高了搜索定位目标商品信息的准确性。
进一步地,本发明实施例的技术方案通过按照多个指定模板的优先级从高至低的顺序,依次使用具有不同优先级的每个所述指定模板对应的模板词,从商品库中查找关键词与所述模板词均相同的商品信息,以得到第一搜索结果,从而使第一搜索结果中由较高优先级的指定模板对应的模板词搜索的目标商品信息具有与所述待搜索商品信息较高的匹配度,从而可以通过排序从第一搜索结果中优先得到具有较高匹配度的目标商品信息,提高定位目标商品信息的准确性。
进一步地,本发明实施例的技术方案通过从商品库中查找关键词与所述模板词以及非模板词均相同的商品信息,得到第二搜索结果,将所述第二搜索结果对应的商品集作为目标商品集中有较高匹配度的优选集合,从而可以通过排序从第一搜索结果中优先得到具有较高匹配度的目标商品信息,提高定位目标商品信息的准确性。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
以上对本发明实施例的方法及系统做了详细的介绍,本发明并不限于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims (14)

1.一种搜索目标商品集的方法,其特征在于,包括:
根据已知的多个词典库对待搜索商品信息进行分词,得到多个目标关键词,其中,每一词典库存储单个类别的关键词,并与一个词典类别对应;
当已知的模板包括的词典类别包含于所述多个目标关键词的对应的多个词典类别时,确定所述已知的模板为指定模板,并确定所述指定模板包含词典类别对应的指定词典库;
将所述多个目标关键词中与所述指定词典库中的关键词匹配的部分作为模板词;
从商品库中查找关键词与所述模板词均相同的商品信息,得到第一搜索结果,其中,所述商品库中的每个商品的商品信息均已被分词并得到对应的多个关键词。
2.根据权利要求1所述的搜索目标商品集的方法,其特征在于,还包括:
由所述第一搜索结果得到对应的商品的集合,并将所述集合作为目标商品集。
3.根据权利要求1所述的搜索目标商品集的方法,其特征在于,所述已知的模板有多个并具有不同的优先级,根据具有不同的优先级的所述已知的模板得到的所述指定模板有多个并具有对应的不同的优先级。
4.根据权利要求3所述的搜索目标商品集的方法,其特征在于,所述从商品库中查找关键词与所述模板词均相同的商品信息,得到第一搜索结果,包括:
按照所述多个指定模板的优先级从高至低的顺序,依次使用具有不同优先级的每个所述指定模板对应的模板词,从商品库中查找关键词与所述模板词均相同的商品信息,以得到所述第一搜索结果。
5.根据权利要求1-4任一项所述的搜索目标商品集的方法,其特征在于,还包括:
从商品库中查找关键词与所述模板词以及非模板词均相同的商品信息,得到第二搜索结果,其中,对于同一指定模板,所述多个目标关键词中所述模板词以外的词为非模板词。
6.根据权利要求5所述的搜索目标商品集的方法,其特征在于,还包括:
由所述第二搜索结果得到对应的商品的集合,记为优选集合,所述优选集合中的商品比所述目标商品集中的其他商品具有更高的排序优先级。
7.根据权利要求1所述的搜索目标商品集的方法,其特征在于,所述根据已知的多个词典库对待搜索商品信息进行分词,得到多个目标关键词,包括:
提取所述商品信息中与所述词典库中的关键词相同的词作为所述目标关键词。
8.一种搜索目标商品集的装置,其特征在于,包括:
分词单元,适于根据已知的多个词典库对待搜索商品信息进行分词,得到多个目标关键词,其中,每一词典库存储单个类别的关键词,并与一个词典类别对应;
模板确定单元,适于当已知的模板包括的词典类别包含于所述多个目标关键词的对应的多个词典类别时,确定所述已知的模板为指定模板,并确定所述指定模板包含词典类别对应的指定词典库;
模板词确定单元,适于将所述多个目标关键词中与所述指定词典库中的关键词匹配的部分作为模板词;
第一搜索单元,适于从商品库中查找关键词与所述模板词均相同的商品信息,得到第一搜索结果,其中,所述商品库中的每个商品的商品信息均已被分词并得到对应的多个关键词。
9.根据权利要求8所述的搜索目标商品集的装置,其特征在于,还包括:
目标商品集确定单元,适于由所述第一搜索结果得到对应的商品的集合,并将所述集合作为目标商品集。
10.根据权利要求8所述的搜索目标商品集的方法,其特征在于,所述已知的模板有多个并具有不同的优先级,根据具有不同的优先级的所述已知的模板得到的所述指定模板有多个并具有对应的不同的优先级。
11.根据权利要求10所述的搜索目标商品集的装置,其特征在于,所述第一搜索单元还适于:
按照所述多个指定模板的优先级从高至低的顺序,依次使用具有不同优先级的每个所述指定模板对应的模板词,从商品库中查找关键词与所述模板词均相同的商品信息,以得到所述第一搜索结果。
12.根据权利要求8-11任一项所述的搜索目标商品集的装置,其特征在于,还包括:
第二搜索单元,适于从商品库中查找关键词与所述模板词以及非模板词均相同的商品信息,得到第二搜索结果,其中,对于同一指定模板,所述多个目标关键词中所述模板词以外的词为非模板词。
13.根据权利要求12所述的搜索目标商品集的装置,其特征在于,还包括:
优选集确定子单元,适于由所述第二搜索结果得到对应的商品的集合,记为优选集合,所述优选集合中的商品比所述目标商品集中的其他商品具有更高的排序优先级。
14.根据权利要求8所述的搜索目标商品集的装置,其特征在于,所述分词单元适于:
提取所述商品信息中与所述词典库中的关键词相同的词作为所述目标关键词。
CN201610052793.0A 2016-01-26 2016-01-26 一种搜索目标商品集的方法及装置 Active CN105550369B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610052793.0A CN105550369B (zh) 2016-01-26 2016-01-26 一种搜索目标商品集的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610052793.0A CN105550369B (zh) 2016-01-26 2016-01-26 一种搜索目标商品集的方法及装置

Publications (2)

Publication Number Publication Date
CN105550369A true CN105550369A (zh) 2016-05-04
CN105550369B CN105550369B (zh) 2019-06-07

Family

ID=55829558

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610052793.0A Active CN105550369B (zh) 2016-01-26 2016-01-26 一种搜索目标商品集的方法及装置

Country Status (1)

Country Link
CN (1) CN105550369B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095759A (zh) * 2016-06-20 2016-11-09 西安交通大学 一种基于启发式规则的发票货物归类方法
CN106095900A (zh) * 2016-06-07 2016-11-09 网易无尾熊(杭州)科技有限公司 一种搜索结果提供方法和装置
CN106777405A (zh) * 2017-04-05 2017-05-31 安徽机器猫电子商务股份有限公司 基于SaaS服务促进低频类交易的电子商业方法
CN107220334A (zh) * 2017-05-25 2017-09-29 北京小度信息科技有限公司 商户名称的相似度计算方法、装置及设备
CN108304411A (zh) * 2017-01-13 2018-07-20 中国移动通信集团辽宁有限公司 地理位置语句的语义识别方法和装置
CN109325182A (zh) * 2018-10-12 2019-02-12 平安科技(深圳)有限公司 基于会话的信息推送方法、装置、计算机设备及存储介质
CN109344398A (zh) * 2018-09-10 2019-02-15 北京京东尚科信息技术有限公司 商品名称的处理方法及装置、计算机存储介质和电子设备
CN109635157A (zh) * 2018-10-30 2019-04-16 北京奇艺世纪科技有限公司 模型生成方法、视频搜索方法、装置、终端及存储介质
CN110020071A (zh) * 2017-09-28 2019-07-16 北京国双科技有限公司 竞品车型的确定方法及装置
CN110134775A (zh) * 2019-05-10 2019-08-16 中国联合网络通信集团有限公司 问答数据生成方法及装置、存储介质
CN110221747A (zh) * 2019-05-21 2019-09-10 掌阅科技股份有限公司 电子书阅读页面的呈现方法、计算设备及计算机存储介质
CN111881200A (zh) * 2020-07-23 2020-11-03 苏州跃盟信息科技有限公司 商品数据处理方法、装置及系统
CN112199451A (zh) * 2020-09-30 2021-01-08 京东数字科技控股股份有限公司 商品识别方法、装置、计算机设备及存储介质
CN114267348A (zh) * 2021-11-16 2022-04-01 北京执象科技发展有限公司 一种人机协同授课交互方法、系统、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103064838A (zh) * 2011-10-19 2013-04-24 阿里巴巴集团控股有限公司 数据搜索方法和装置
KR20140015728A (ko) * 2012-07-19 2014-02-07 김유진 의류 정보 제공 장치
CN104331456A (zh) * 2014-10-31 2015-02-04 百度在线网络技术(北京)有限公司 类别专名挖掘方法及装置
CN104503988A (zh) * 2014-12-03 2015-04-08 百度在线网络技术(北京)有限公司 搜索方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103064838A (zh) * 2011-10-19 2013-04-24 阿里巴巴集团控股有限公司 数据搜索方法和装置
KR20140015728A (ko) * 2012-07-19 2014-02-07 김유진 의류 정보 제공 장치
CN104331456A (zh) * 2014-10-31 2015-02-04 百度在线网络技术(北京)有限公司 类别专名挖掘方法及装置
CN104503988A (zh) * 2014-12-03 2015-04-08 百度在线网络技术(北京)有限公司 搜索方法及装置

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095900A (zh) * 2016-06-07 2016-11-09 网易无尾熊(杭州)科技有限公司 一种搜索结果提供方法和装置
CN106095900B (zh) * 2016-06-07 2019-10-29 网易无尾熊(杭州)科技有限公司 一种搜索结果提供方法和装置
CN106095759B (zh) * 2016-06-20 2019-05-24 西安交通大学 一种基于启发式规则的发票货物归类方法
CN106095759A (zh) * 2016-06-20 2016-11-09 西安交通大学 一种基于启发式规则的发票货物归类方法
CN108304411A (zh) * 2017-01-13 2018-07-20 中国移动通信集团辽宁有限公司 地理位置语句的语义识别方法和装置
CN106777405A (zh) * 2017-04-05 2017-05-31 安徽机器猫电子商务股份有限公司 基于SaaS服务促进低频类交易的电子商业方法
CN106777405B (zh) * 2017-04-05 2020-04-28 安徽机器猫电子商务股份有限公司 基于SaaS服务促进低频类商品交易的方法
CN107220334A (zh) * 2017-05-25 2017-09-29 北京小度信息科技有限公司 商户名称的相似度计算方法、装置及设备
CN110020071A (zh) * 2017-09-28 2019-07-16 北京国双科技有限公司 竞品车型的确定方法及装置
CN109344398B (zh) * 2018-09-10 2024-02-09 北京京东尚科信息技术有限公司 商品名称的处理方法及装置、计算机存储介质和电子设备
CN109344398A (zh) * 2018-09-10 2019-02-15 北京京东尚科信息技术有限公司 商品名称的处理方法及装置、计算机存储介质和电子设备
CN109325182B (zh) * 2018-10-12 2024-05-14 平安科技(深圳)有限公司 基于会话的信息推送方法、装置、计算机设备及存储介质
CN109325182A (zh) * 2018-10-12 2019-02-12 平安科技(深圳)有限公司 基于会话的信息推送方法、装置、计算机设备及存储介质
CN109635157A (zh) * 2018-10-30 2019-04-16 北京奇艺世纪科技有限公司 模型生成方法、视频搜索方法、装置、终端及存储介质
CN110134775A (zh) * 2019-05-10 2019-08-16 中国联合网络通信集团有限公司 问答数据生成方法及装置、存储介质
CN110134775B (zh) * 2019-05-10 2021-08-24 中国联合网络通信集团有限公司 问答数据生成方法及装置、存储介质
CN110221747A (zh) * 2019-05-21 2019-09-10 掌阅科技股份有限公司 电子书阅读页面的呈现方法、计算设备及计算机存储介质
CN111881200A (zh) * 2020-07-23 2020-11-03 苏州跃盟信息科技有限公司 商品数据处理方法、装置及系统
CN112199451A (zh) * 2020-09-30 2021-01-08 京东数字科技控股股份有限公司 商品识别方法、装置、计算机设备及存储介质
CN114267348A (zh) * 2021-11-16 2022-04-01 北京执象科技发展有限公司 一种人机协同授课交互方法、系统、设备及存储介质

Also Published As

Publication number Publication date
CN105550369B (zh) 2019-06-07

Similar Documents

Publication Publication Date Title
CN105550369A (zh) 一种搜索目标商品集的方法及装置
KR102075833B1 (ko) 미술 작품 추천 큐레이션 방법 및 시스템
CN107133345B (zh) 基于人工智能的交互方法和装置
KR100721406B1 (ko) 카테고리별 검색 로직을 이용한 상품 검색 시스템 및 방법
US10204121B1 (en) System and method for providing query recommendations based on search activity of a user base
CN107748754B (zh) 一种知识图谱完善方法和装置
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
US9058394B2 (en) Matching and recommending relevant videos and media to individual search engine results
CN110263180B (zh) 意图知识图谱生成方法、意图识别方法及装置
CN101639857B (zh) 构建知识问答分享平台的方法、装置及系统
CN109145110B (zh) 标签查询方法和装置
CN103914492A (zh) 查询词融合方法、商品信息发布方法和搜索方法及系统
JP7252914B2 (ja) 検索提案を提供する方法、装置、機器及び媒体
US20230147941A1 (en) Method, apparatus and device used to search for content
CN104462336A (zh) 信息推送方法和装置
CN101206674A (zh) 以商品为媒介的增强型相关搜索系统及其方法
KR20100113423A (ko) 역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치
US20100042610A1 (en) Rank documents based on popularity of key metadata
CN111444304A (zh) 搜索排序的方法和装置
CN106649605B (zh) 一种推广关键词的触发方法及装置
KR101696499B1 (ko) 한국어 키워드 검색문 해석 장치 및 방법
CN101836209A (zh) 管理信息地图的系统和方法
CN107153697A (zh) 一种商品交易网站中的商品搜索方法和装置
CN113837824A (zh) 信息推送方法及其系统
CN102214209A (zh) 一种用于识别同名信息实体的方法与设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant