CN111782770A - 一种基于类目分析召回规则的搜索方法及系统 - Google Patents

一种基于类目分析召回规则的搜索方法及系统 Download PDF

Info

Publication number
CN111782770A
CN111782770A CN202010637891.7A CN202010637891A CN111782770A CN 111782770 A CN111782770 A CN 111782770A CN 202010637891 A CN202010637891 A CN 202010637891A CN 111782770 A CN111782770 A CN 111782770A
Authority
CN
China
Prior art keywords
search
word
commodity
word bank
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010637891.7A
Other languages
English (en)
Inventor
高亚斌
张宾
周坚洪
付玥
张帝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid E Commerce Co Ltd
State Grid E Commerce Technology Co Ltd
Original Assignee
State Grid E Commerce Co Ltd
State Grid E Commerce Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid E Commerce Co Ltd, State Grid E Commerce Technology Co Ltd filed Critical State Grid E Commerce Co Ltd
Priority to CN202010637891.7A priority Critical patent/CN111782770A/zh
Publication of CN111782770A publication Critical patent/CN111782770A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation
    • G06Q30/0625Directed, with specific intent or strategy

Abstract

本发明公开了一种基于类目分析召回规则的搜索方法及系统,方法包括:获取用户输入的搜索关键词,并对搜索关键词进行分词,得到分词结果;基于分词结果,在类目干预词库中进行词条精准匹配,获取用户配置的词条权重,重新封装检索条件;基于重新封装的检索条件进行商品条目检索,确定出最匹配的商品条目;对确定出的最匹配的商品条目进行排序,得到检索结果。本发明通过对现有类目干预匹配规则进行优化,有效的提高了搜索结果的准确度,进一步提升了用户体验。

Description

一种基于类目分析召回规则的搜索方法及系统
技术领域
本发明涉及信息搜索技术领域,尤其涉及一种基于类目分析召回规则的搜索方法及系统。
背景技术
目前,随着电商业务的不断发展,在使用搜索组件的过程中发现了一些搜索结果不精确的问题,导致用户体验仍存在欠缺。比如:用户输入“惠普硒鼓”进行搜索,优先展示惠普品牌的硒鼓,但后面也展示了其他品牌硒鼓或者惠普品牌其他商品。
因此,如何有效的提高搜索结果的准确度,以进一步提升用户体验,是一项亟待解决的问题。
发明内容
有鉴于此,本发明提供了一种基于类目分析召回规则的搜索方法,能够有效的提高搜索结果的准确度,以进一步提升用户体验。
本发明提供了一种基于类目分析召回规则的搜索方法,包括:
获取用户输入的搜索关键词,并对所述搜索关键词进行分词,得到分词结果;
基于所述分词结果,在类目干预词库中进行词条精准匹配,获取用户配置的词条权重,重新封装检索条件;
基于重新封装的检索条件进行商品条目检索,确定出最匹配的商品条目;
对确定出的最匹配的商品条目进行排序,得到检索结果。
优选地,所述获取用户输入的搜索关键词,并对所述搜索关键词进行分词,得到分词结果,包括:
获取用户输入的搜索关键词,基于已整理的商品搜索词库、同义词词库和停用词词库,利用Ansj分词算法对所述搜索关键词进行分词,得到分词结果。
优选地,所述对确定出的最匹配的商品条目进行排序,得到检索结果,包括:
基于用户设置的排序规则对确定出的最匹配的商品条目进行排序,得到检索结果。
优选地,所述方法还包括:
对电商公司的类目数据进行筛选和清洗,得到所述类目干预词库。
优选地,所述方法还包括:
对电商公司的商品数据进行筛选、清洗、整理和完善电商搜索的同义词词库,得到整理后的同义词词库;
对电商公司的商品数据进行筛选、清洗、整理和完善电商搜索的停用词词库,得到整理后的停用词词库;
对电商公司的商品数据进行筛选、清洗、整理和完善电商搜索的商品搜索词库,得到整理后的商品搜索词库。
一种基于类目分析召回规则的搜索系统,包括:
分词模块,用于获取用户输入的搜索关键词,并对所述搜索关键词进行分词,得到分词结果;
类目干预模块,用于基于所述分词结果,在类目干预词库中进行词条精准匹配,获取用户配置的词条权重,重新封装检索条件;
商品召回模块,用于基于重新封装的检索条件进行商品条目检索,确定出最匹配的商品条目;
排序模块,用于对确定出的最匹配的商品条目进行排序,得到检索结果。
优选地,所述分词模块具体用于:
获取用户输入的搜索关键词,基于已整理的商品搜索词库、同义词词库和停用词词库,利用Ansj分词算法对所述搜索关键词进行分词,得到分词结果。
优选地,所述排序模块具体用于:
基于用户设置的排序规则对确定出的最匹配的商品条目进行排序,得到检索结果。
优选地,所述系统还包括:
类目干预词库处理模块,用于对电商公司的类目数据进行筛选和清洗,得到所述类目干预词库。
优选地,所述系统还包括:
同义词词库处理模块,用于对电商公司的商品数据进行筛选、清洗、整理和完善电商搜索的同义词词库,得到整理后的同义词词库;
停用词词库处理模块,用于对电商公司的商品数据进行筛选、清洗、整理和完善电商搜索的停用词词库,得到整理后的停用词词库;
商品搜索词库处理模块,用于对电商公司的商品数据进行筛选、清洗、整理和完善电商搜索的商品搜索词库,得到整理后的商品搜索词库。
综上所述,本发明公开了一种基于类目分析召回规则的搜索方法,当需要进行信息搜索时,首先获取用户输入的搜索关键词,并对搜索关键词进行分词,得到分词结果;基于分词结果,在类目干预词库中进行词条精准匹配,获取用户配置的词条权重,重新封装检索条件;基于重新封装的检索条件进行商品条目检索,确定出最匹配的商品条目;对确定出的最匹配的商品条目进行排序,得到检索结果。本发明通过对现有类目干预匹配规则进行优化,有效的提高了搜索结果的准确度,进一步提升了用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明公开的一种基于类目分析召回规则的搜索方法实施例1的方法流程图;
图2为本发明公开的一种基于类目分析召回规则的搜索方法实施例2的方法流程图;
图3为本发明公开的一种基于类目分析召回规则的搜索方法实施例3的方法流程图;
图4为本发明公开的一种基于类目分析召回规则的搜索系统实施例1的结构示意图;
图5为本发明公开的一种基于类目分析召回规则的搜索系统实施例2的结构示意图;
图6为本发明公开的一种基于类目分析召回规则的搜索系统实施例3的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,为本发明公开的一种基于类目分析召回规则的搜索方法实施例1的方法流程图,所述方法可以包括以下步骤:
S101、获取用户输入的搜索关键词,并对搜索关键词进行分词,得到分词结果;
当需要对信息进行搜索时,首先获取用户输入的搜索关键词,例如,获取用户输入的关键词“黑色的HP打印机硒鼓”;在获取到用户输入的搜索关键词后,进一步对搜索关键词进行分词,得到分词结果,例如,对用户输入的关键词“黑色的HP打印机硒鼓”进行分词,得到分词结果“黑色”、“的”、“HP”、“打印机”、“的”和“硒鼓”。
S102、基于分词结果,在类目干预词库中进行词条精准匹配,获取用户配置的词条权重,重新封装检索条件;
在得到分词结果后,进一步过滤分词结果中的停用词,例如,将分词结果“黑色”、“的”、“HP”、“打印机”、“的”和“硒鼓”中的停用词“的”,然后再关联同义词,得到“黑色”、“黑”、“HP”、“惠普”“打印机”和“硒鼓”;然后在类目干预词库中进行词条精准匹配,获取用户配置的词条权重,重新封装检索条件,例如,“打印机”命中打印机分类,“硒鼓”命中硒鼓分类,其中硒鼓权重大于打印机权重。
S103、基于重新封装的检索条件进行商品条目检索,确定出最匹配的商品条目;
在得到重新封装后的检索条件后,进一步根据重新封装的检索条件,在Elasticsearch中检索商品信息,并且召回匹配度高的商品条目。
S104、对确定出的最匹配的商品条目进行排序,得到检索结果。
最后,对召回的匹配度高的商品条目进行排序,得到检索结果。
综上所述,在上述实施例中,当需要进行信息搜索时,首先获取用户输入的搜索关键词,并对搜索关键词进行分词,得到分词结果;基于分词结果,在类目干预词库中进行词条精准匹配,获取用户配置的词条权重,重新封装检索条件;基于重新封装的检索条件进行商品条目检索,确定出最匹配的商品条目;对确定出的最匹配的商品条目进行排序,得到检索结果。通过对现有类目干预匹配规则进行优化,有效的提高了搜索结果的准确度,进一步提升了用户体验。
如图2所示,为本发明公开的一种基于类目分析召回规则的搜索方法实施例2的方法流程图,所述方法可以包括以下步骤:
S201、获取用户输入的搜索关键词,基于已整理的商品搜索词库、同义词词库和停用词词库,利用Ansj分词算法对所述搜索关键词进行分词,得到分词结果;
当需要对信息进行搜索时,首先获取用户输入的搜索关键词,例如,获取用户输入的关键词“黑色的HP打印机硒鼓”;在获取到用户输入的搜索关键词后,进一步基于已整理的商品搜索词库、同义词词库和停用词词库,利用Ansj分词算法对搜索关键词进行分词,得到分词结果,例如,对用户输入的关键词“黑色的HP打印机硒鼓”进行分词,得到分词结果“黑色”、“的”、“HP”、“打印机”、“的”和“硒鼓”。
S202、基于分词结果,在类目干预词库中进行词条精准匹配,获取用户配置的词条权重,重新封装检索条件;
在得到分词结果后,进一步过滤分词结果中的停用词,例如,将分词结果“黑色”、“的”、“HP”、“打印机”、“的”和“硒鼓”中的停用词“的”,然后再关联同义词,得到“黑色”、“黑”、“HP”、“惠普”“打印机”和“硒鼓”;然后在类目干预词库中进行词条精准匹配,获取用户配置的词条权重,重新封装检索条件,例如,“打印机”命中打印机分类,“硒鼓”命中硒鼓分类,其中硒鼓权重大于打印机权重。
S203、基于重新封装的检索条件进行商品条目检索,确定出最匹配的商品条目;
在得到重新封装后的检索条件后,进一步根据重新封装的检索条件,在Elasticsearch中检索商品信息,并且召回匹配度高的商品条目。
S204、基于用户设置的排序规则对确定出的最匹配的商品条目进行排序,得到检索结果。
最后,对召回的匹配度高的商品条目进行排序,得到检索结果。具体的,在对召回的匹配度高的商品条目进行排序时,可以根据用户设置的排序规则,对确定出的最匹配的商品条目进行升序排序或者降序排序。
综上所述,本实施例在上述实施例的基础上,能够基于已整理的商品搜索词库、同义词词库和停用词词库,利用Ansj分词算法对所述搜索关键词进行分词,得到分词结果;并且在对确定出的最匹配的商品条目进行排序时,能够基于用户设置的排序规则对确定出的最匹配的商品条目进行排序,进一步提升了用户体验。
如图3所示,为本发明公开的一种基于类目分析召回规则的搜索方法实施例3的方法流程图,所述方法可以包括以下步骤:
S301、对电商公司的类目数据进行筛选和清洗,得到类目干预词库;
当需要对信息进行搜索时,对电商公司的类目数据集进行筛选、清洗,保证词库的质量和数量,以保证能够提供正确的类目干预词库。
S302、对电商公司的商品数据进行筛选、清洗、整理和完善电商搜索的同义词词库,得到整理后的同义词词库;
同时,对电商公司商品数据进行筛选、清洗,整理和完善电商搜索的同义词词库,得到整理后的同义词词库,以提高搜索的精准度。
S303、对电商公司的商品数据进行筛选、清洗、整理和完善电商搜索的停用词词库,得到整理后的停用词词库;
同时,对电商公司商品数据进行筛选、清洗,整理和完善电商搜索的停用词词库,得到整理后的停用词词库,以提高搜索的精准度。
S304、对电商公司的商品数据进行筛选、清洗、整理和完善电商搜索的商品搜索词库,得到整理后的商品搜索词库;
同时,对电商公司商品数据进行筛选、清洗,整理和完善电商搜索的常用搜索词库,得到整理后的商品搜索词库,用于搜索关键词分词处理,以提高搜索的精准度。
S305、获取用户输入的搜索关键词,基于已整理的商品搜索词库、同义词词库和停用词词库,利用Ansj分词算法对所述搜索关键词进行分词,得到分词结果;
然后,获取用户输入的搜索关键词,例如,获取用户输入的关键词“黑色的HP打印机硒鼓”;在获取到用户输入的搜索关键词后,进一步基于已整理的商品搜索词库、同义词词库和停用词词库,利用Ansj分词算法对搜索关键词进行分词,得到分词结果,例如,对用户输入的关键词“黑色的HP打印机硒鼓”进行分词,得到分词结果“黑色”、“的”、“HP”、“打印机”、“的”和“硒鼓”。
S306、基于分词结果,在类目干预词库中进行词条精准匹配,获取用户配置的词条权重,重新封装检索条件;
在得到分词结果后,进一步过滤分词结果中的停用词,例如,将分词结果“黑色”、“的”、“HP”、“打印机”、“的”和“硒鼓”中的停用词“的”,然后再关联同义词,得到“黑色”、“黑”、“HP”、“惠普”“打印机”和“硒鼓”;然后在类目干预词库中进行词条精准匹配,获取用户配置的词条权重,重新封装检索条件,例如,“打印机”命中打印机分类,“硒鼓”命中硒鼓分类,其中硒鼓权重大于打印机权重。
S307、基于重新封装的检索条件进行商品条目检索,确定出最匹配的商品条目;
在得到重新封装后的检索条件后,进一步根据重新封装的检索条件,在Elasticsearch中检索商品信息,并且召回匹配度高的商品条目。
S308、基于用户设置的排序规则对确定出的最匹配的商品条目进行排序,得到检索结果。
最后,对召回的匹配度高的商品条目进行排序,得到检索结果。具体的,在对召回的匹配度高的商品条目进行排序时,可以根据用户设置的排序规则,对确定出的最匹配的商品条目进行升序排序或者降序排序。
综上所述,本发明能够降低运营维护类目干预词库的工作量,能够使类目干预功能更好的发挥作用,减少召回结果中的“无关商品”,有效的提高了搜索结果的准确度,进一步提升了用户体验。
如图4所示,为本发明公开的一种基于类目分析召回规则的搜索系统实施例1的结构示意图,所述系统可以包括:
分词模块401,用于获取用户输入的搜索关键词,并对搜索关键词进行分词,得到分词结果;
当需要对信息进行搜索时,首先获取用户输入的搜索关键词,例如,获取用户输入的关键词“黑色的HP打印机硒鼓”;在获取到用户输入的搜索关键词后,进一步对搜索关键词进行分词,得到分词结果,例如,对用户输入的关键词“黑色的HP打印机硒鼓”进行分词,得到分词结果“黑色”、“的”、“HP”、“打印机”、“的”和“硒鼓”。
类目干预模块402,用于基于分词结果,在类目干预词库中进行词条精准匹配,获取用户配置的词条权重,重新封装检索条件;
在得到分词结果后,进一步过滤分词结果中的停用词,例如,将分词结果“黑色”、“的”、“HP”、“打印机”、“的”和“硒鼓”中的停用词“的”,然后再关联同义词,得到“黑色”、“黑”、“HP”、“惠普”“打印机”和“硒鼓”;然后在类目干预词库中进行词条精准匹配,获取用户配置的词条权重,重新封装检索条件,例如,“打印机”命中打印机分类,“硒鼓”命中硒鼓分类,其中硒鼓权重大于打印机权重。
商品召回模块403,用于基于重新封装的检索条件进行商品条目检索,确定出最匹配的商品条目;
在得到重新封装后的检索条件后,进一步根据重新封装的检索条件,在Elasticsearch中检索商品信息,并且召回匹配度高的商品条目。
排序模块404,用于对确定出的最匹配的商品条目进行排序,得到检索结果。
最后,对召回的匹配度高的商品条目进行排序,得到检索结果。
综上所述,在上述实施例中,当需要进行信息搜索时,首先获取用户输入的搜索关键词,并对搜索关键词进行分词,得到分词结果;基于分词结果,在类目干预词库中进行词条精准匹配,获取用户配置的词条权重,重新封装检索条件;基于重新封装的检索条件进行商品条目检索,确定出最匹配的商品条目;对确定出的最匹配的商品条目进行排序,得到检索结果。通过对现有类目干预匹配规则进行优化,有效的提高了搜索结果的准确度,进一步提升了用户体验。
如图5所示,为本发明公开的一种基于类目分析召回规则的搜索系统实施例2的结构示意图,所述系统可以包括:
分词模块501,用于获取用户输入的搜索关键词,基于已整理的商品搜索词库、同义词词库和停用词词库,利用Ansj分词算法对所述搜索关键词进行分词,得到分词结果;
当需要对信息进行搜索时,首先获取用户输入的搜索关键词,例如,获取用户输入的关键词“黑色的HP打印机硒鼓”;在获取到用户输入的搜索关键词后,进一步基于已整理的商品搜索词库、同义词词库和停用词词库,利用Ansj分词算法对搜索关键词进行分词,得到分词结果,例如,对用户输入的关键词“黑色的HP打印机硒鼓”进行分词,得到分词结果“黑色”、“的”、“HP”、“打印机”、“的”和“硒鼓”。
类目干预模块502,用于基于分词结果,在类目干预词库中进行词条精准匹配,获取用户配置的词条权重,重新封装检索条件;
在得到分词结果后,进一步过滤分词结果中的停用词,例如,将分词结果“黑色”、“的”、“HP”、“打印机”、“的”和“硒鼓”中的停用词“的”,然后再关联同义词,得到“黑色”、“黑”、“HP”、“惠普”“打印机”和“硒鼓”;然后在类目干预词库中进行词条精准匹配,获取用户配置的词条权重,重新封装检索条件,例如,“打印机”命中打印机分类,“硒鼓”命中硒鼓分类,其中硒鼓权重大于打印机权重。
商品召回模块503,用于基于重新封装的检索条件进行商品条目检索,确定出最匹配的商品条目;
在得到重新封装后的检索条件后,进一步根据重新封装的检索条件,在Elasticsearch中检索商品信息,并且召回匹配度高的商品条目。
排序模块504,用于基于用户设置的排序规则对确定出的最匹配的商品条目进行排序,得到检索结果。
最后,对召回的匹配度高的商品条目进行排序,得到检索结果。具体的,在对召回的匹配度高的商品条目进行排序时,可以根据用户设置的排序规则,对确定出的最匹配的商品条目进行升序排序或者降序排序。
综上所述,本实施例在上述实施例的基础上,能够基于已整理的商品搜索词库、同义词词库和停用词词库,利用Ansj分词算法对所述搜索关键词进行分词,得到分词结果;并且在对确定出的最匹配的商品条目进行排序时,能够基于用户设置的排序规则对确定出的最匹配的商品条目进行排序,进一步提升了用户体验。
如图6所示,为本发明公开的一种基于类目分析召回规则的搜索系统实施例3的结构示意图,所述系统可以包括:
类目干预词库处理模块601,用于对电商公司的类目数据进行筛选和清洗,得到类目干预词库;
当需要对信息进行搜索时,对电商公司的类目数据集进行筛选、清洗,保证词库的质量和数量,以保证能够提供正确的类目干预词库。
同义词词库处理模块602,用于对电商公司的商品数据进行筛选、清洗、整理和完善电商搜索的同义词词库,得到整理后的同义词词库;
同时,对电商公司商品数据进行筛选、清洗,整理和完善电商搜索的同义词词库,得到整理后的同义词词库,以提高搜索的精准度。
停用词词库处理模块603,用于对电商公司的商品数据进行筛选、清洗、整理和完善电商搜索的停用词词库,得到整理后的停用词词库;
同时,对电商公司商品数据进行筛选、清洗,整理和完善电商搜索的停用词词库,得到整理后的停用词词库,以提高搜索的精准度。
商品搜索词库处理模块604,用于对电商公司的商品数据进行筛选、清洗、整理和完善电商搜索的商品搜索词库,得到整理后的商品搜索词库;
同时,对电商公司商品数据进行筛选、清洗,整理和完善电商搜索的常用搜索词库,得到整理后的商品搜索词库,用于搜索关键词分词处理,以提高搜索的精准度。
分词模块605,用于获取用户输入的搜索关键词,基于已整理的商品搜索词库、同义词词库和停用词词库,利用Ansj分词算法对所述搜索关键词进行分词,得到分词结果;
然后,获取用户输入的搜索关键词,例如,获取用户输入的关键词“黑色的HP打印机硒鼓”;在获取到用户输入的搜索关键词后,进一步基于已整理的商品搜索词库、同义词词库和停用词词库,利用Ansj分词算法对搜索关键词进行分词,得到分词结果,例如,对用户输入的关键词“黑色的HP打印机硒鼓”进行分词,得到分词结果“黑色”、“的”、“HP”、“打印机”、“的”和“硒鼓”。
类目干预模块606,用于基于分词结果,在类目干预词库中进行词条精准匹配,获取用户配置的词条权重,重新封装检索条件;
在得到分词结果后,进一步过滤分词结果中的停用词,例如,将分词结果“黑色”、“的”、“HP”、“打印机”、“的”和“硒鼓”中的停用词“的”,然后再关联同义词,得到“黑色”、“黑”、“HP”、“惠普”“打印机”和“硒鼓”;然后在类目干预词库中进行词条精准匹配,获取用户配置的词条权重,重新封装检索条件,例如,“打印机”命中打印机分类,“硒鼓”命中硒鼓分类,其中硒鼓权重大于打印机权重。
商品召回模块607,用于基于重新封装的检索条件进行商品条目检索,确定出最匹配的商品条目;
在得到重新封装后的检索条件后,进一步根据重新封装的检索条件,在Elasticsearch中检索商品信息,并且召回匹配度高的商品条目。
排序模块608,用于基于用户设置的排序规则对确定出的最匹配的商品条目进行排序,得到检索结果。
最后,对召回的匹配度高的商品条目进行排序,得到检索结果。具体的,在对召回的匹配度高的商品条目进行排序时,可以根据用户设置的排序规则,对确定出的最匹配的商品条目进行升序排序或者降序排序。
综上所述,本发明能够降低运营维护类目干预词库的工作量,能够使类目干预功能更好的发挥作用,减少召回结果中的“无关商品”,有效的提高了搜索结果的准确度,进一步提升了用户体验。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于类目分析召回规则的搜索方法,其特征在于,包括:
获取用户输入的搜索关键词,并对所述搜索关键词进行分词,得到分词结果;
基于所述分词结果,在类目干预词库中进行词条精准匹配,获取用户配置的词条权重,重新封装检索条件;
基于重新封装的检索条件进行商品条目检索,确定出最匹配的商品条目;
对确定出的最匹配的商品条目进行排序,得到检索结果。
2.根据权利要求1所述的方法,其特征在于,所述获取用户输入的搜索关键词,并对所述搜索关键词进行分词,得到分词结果,包括:
获取用户输入的搜索关键词,基于已整理的商品搜索词库、同义词词库和停用词词库,利用Ansj分词算法对所述搜索关键词进行分词,得到分词结果。
3.根据权利要求2所述的方法,其特征在于,所述对确定出的最匹配的商品条目进行排序,得到检索结果,包括:
基于用户设置的排序规则对确定出的最匹配的商品条目进行排序,得到检索结果。
4.根据权利要求3所述的方法,其特征在于,还包括:
对电商公司的类目数据进行筛选和清洗,得到所述类目干预词库。
5.根据权利要求4所述的方法,其特征在于,还包括:
对电商公司的商品数据进行筛选、清洗、整理和完善电商搜索的同义词词库,得到整理后的同义词词库;
对电商公司的商品数据进行筛选、清洗、整理和完善电商搜索的停用词词库,得到整理后的停用词词库;
对电商公司的商品数据进行筛选、清洗、整理和完善电商搜索的商品搜索词库,得到整理后的商品搜索词库。
6.一种基于类目分析召回规则的搜索系统,其特征在于,包括:
分词模块,用于获取用户输入的搜索关键词,并对所述搜索关键词进行分词,得到分词结果;
类目干预模块,用于基于所述分词结果,在类目干预词库中进行词条精准匹配,获取用户配置的词条权重,重新封装检索条件;
商品召回模块,用于基于重新封装的检索条件进行商品条目检索,确定出最匹配的商品条目;
排序模块,用于对确定出的最匹配的商品条目进行排序,得到检索结果。
7.根据权利要求6所述的系统,其特征在于,所述分词模块具体用于:
获取用户输入的搜索关键词,基于已整理的商品搜索词库、同义词词库和停用词词库,利用Ansj分词算法对所述搜索关键词进行分词,得到分词结果。
8.根据权利要求7所述的系统,其特征在于,所述排序模块具体用于:
基于用户设置的排序规则对确定出的最匹配的商品条目进行排序,得到检索结果。
9.根据权利要求8所述的系统,其特征在于,还包括:
类目干预词库处理模块,用于对电商公司的类目数据进行筛选和清洗,得到所述类目干预词库。
10.根据权利要求9所述的系统,其特征在于,还包括:
同义词词库处理模块,用于对电商公司的商品数据进行筛选、清洗、整理和完善电商搜索的同义词词库,得到整理后的同义词词库;
停用词词库处理模块,用于对电商公司的商品数据进行筛选、清洗、整理和完善电商搜索的停用词词库,得到整理后的停用词词库;
商品搜索词库处理模块,用于对电商公司的商品数据进行筛选、清洗、整理和完善电商搜索的商品搜索词库,得到整理后的商品搜索词库。
CN202010637891.7A 2020-07-03 2020-07-03 一种基于类目分析召回规则的搜索方法及系统 Pending CN111782770A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010637891.7A CN111782770A (zh) 2020-07-03 2020-07-03 一种基于类目分析召回规则的搜索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010637891.7A CN111782770A (zh) 2020-07-03 2020-07-03 一种基于类目分析召回规则的搜索方法及系统

Publications (1)

Publication Number Publication Date
CN111782770A true CN111782770A (zh) 2020-10-16

Family

ID=72759551

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010637891.7A Pending CN111782770A (zh) 2020-07-03 2020-07-03 一种基于类目分析召回规则的搜索方法及系统

Country Status (1)

Country Link
CN (1) CN111782770A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507201A (zh) * 2020-11-03 2021-03-16 国网浙江省电力有限公司台州供电公司 一种基于nlp检索分析技术的搜索引擎构建及搜索方法
CN113779363A (zh) * 2021-09-14 2021-12-10 广州汇通国信科技有限公司 一种基于深度神经网络的搜索优化方法及装置
CN113793193A (zh) * 2021-08-13 2021-12-14 唯品会(广州)软件有限公司 数据搜索准确性验证方法、装置、设备及计算机可读介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425687A (zh) * 2012-05-21 2013-12-04 阿里巴巴集团控股有限公司 一种基于关键词的检索方法和系统
CN106503251A (zh) * 2016-11-11 2017-03-15 广州市万表科技股份有限公司 搜索方法和搜索装置
CN107609098A (zh) * 2017-09-11 2018-01-19 北京金堤科技有限公司 搜索方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425687A (zh) * 2012-05-21 2013-12-04 阿里巴巴集团控股有限公司 一种基于关键词的检索方法和系统
CN106503251A (zh) * 2016-11-11 2017-03-15 广州市万表科技股份有限公司 搜索方法和搜索装置
CN107609098A (zh) * 2017-09-11 2018-01-19 北京金堤科技有限公司 搜索方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507201A (zh) * 2020-11-03 2021-03-16 国网浙江省电力有限公司台州供电公司 一种基于nlp检索分析技术的搜索引擎构建及搜索方法
CN113793193A (zh) * 2021-08-13 2021-12-14 唯品会(广州)软件有限公司 数据搜索准确性验证方法、装置、设备及计算机可读介质
CN113793193B (zh) * 2021-08-13 2024-02-02 唯品会(广州)软件有限公司 数据搜索准确性验证方法、装置、设备及计算机可读介质
CN113779363A (zh) * 2021-09-14 2021-12-10 广州汇通国信科技有限公司 一种基于深度神经网络的搜索优化方法及装置
CN113779363B (zh) * 2021-09-14 2023-12-22 广州汇通国信科技有限公司 一种基于深度神经网络的搜索优化方法及装置

Similar Documents

Publication Publication Date Title
Hill et al. Quantifying the impact of dirty OCR on historical text analysis: Eighteenth Century Collections Online as a case study
US7881937B2 (en) Method for analyzing patent claims
US7885952B2 (en) Cloaking detection utilizing popularity and market value
CN111782770A (zh) 一种基于类目分析召回规则的搜索方法及系统
CN110232112B (zh) 文章中关键词提取方法及装置
US8275773B2 (en) Method of searching text to find relevant content
CN102567475B (zh) 用于交互式查询重构的用户接口
CA2453412C (en) Computer based system and method of determining a satisfaction index of a text
CN110334356A (zh) 文章质量的确定方法、文章筛选方法、以及相应的装置
CN109857853B (zh) 基于电子书的搜索方法、电子设备及计算机存储介质
CN111444304A (zh) 搜索排序的方法和装置
WO2007011129A1 (en) Information search method and information search apparatus on which information value is reflected
CN107908649B (zh) 一种文本分类的控制方法
CN105095203B (zh) 同义词的确定、搜索方法及服务器
CN117593089A (zh) 信用卡推荐方法、装置、设备、存储介质及程序产品
CN111625619B (zh) 查询省略方法、装置、计算机可读介质及电子设备
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识系统
KR102299525B1 (ko) 제품 평가 마이닝 방법 및 이를 수행하는 장치
CN115408527B (zh) 文本分类方法、装置、电子设备及存储介质
CN109344397B (zh) 文本特征词语的提取方法及装置、存储介质及程序产品
CN111538903A (zh) 搜索推荐词确定方法、装置、电子设备及计算机可读介质
JP4539616B2 (ja) 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム
CN112487132A (zh) 关键词的确定方法和相关设备
CN112069388B (zh) 实体推荐方法、系统、计算机设备和计算机可读存储介质
CN110727850B (zh) 网络信息的过滤方法,计算机可读存储介质和移动终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201016