CN113536118B - 搜索默认词的配置方法、装置、计算机设备及存储介质 - Google Patents
搜索默认词的配置方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN113536118B CN113536118B CN202110729388.9A CN202110729388A CN113536118B CN 113536118 B CN113536118 B CN 113536118B CN 202110729388 A CN202110729388 A CN 202110729388A CN 113536118 B CN113536118 B CN 113536118B
- Authority
- CN
- China
- Prior art keywords
- search
- platform
- information
- default
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012216 screening Methods 0.000 claims abstract description 38
- 238000001914 filtration Methods 0.000 claims abstract description 23
- 238000004590 computer program Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000002860 competitive effect Effects 0.000 claims 2
- 238000013075 data extraction Methods 0.000 description 4
- 238000013475 authorization Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 229910001385 heavy metal Inorganic materials 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本申请涉及搜索配置领域,揭示了一种搜索默认词的配置方法、装置、计算机设备及存储介质,方法包括:获取第一平台的产品信息与资讯内容信息;提取所述资讯内容信息包含的内容关键词,以及根据所述产品信息筛选热度产品;获取外部平台的搜索关键词;计算所述内容关键词与所述搜索关键词的相似度,根据所述相似度确定所述第一平台的第一默认词;根据所述搜索关键词对所述热度产品进行过滤筛选,得到与所述搜索关键词相关联的目标产品,并提取所述目标产品作为所述第一平台的第二默认词;将所述第一默认词和所述第二默认词组合,得到所述第一平台的搜索默认词。本申请能够提高搜索默认词的配置效率与时效性。
Description
技术领域
本申请涉及到搜索配置领域,特别是涉及到一种搜索默认词的配置方法、装置、计算机设备及存储介质。
背景技术
当前互联网高速发展,互联网上不同平台的搜索场景会配置默认的搜索词,目前,默认的搜索词语大部分情况是基于运营人员配置或基于用户在平台上一段时间内的统计数据计算而得到的,基于运营人员配置的方法在使用过程中过度依赖人为配置,增加额外的工作量,导致默认的搜索词的配置效率过低,且不具有时效性,基于用户在平台上一段时间内的统计数据计算而得到的存在冷启动问题,如果一段时间内用户的数据不够多则无法准确地计算出结果,导致默认的搜索词的配置准确度不高。
发明内容
本申请的主要目的为提供一种搜索默认词的配置方法、装置、计算机设备及存储介质,旨在解决目前的默认搜索词的配置效率低,准确度不高的问题。
为了实现上述发明目的,本申请提出一种搜索默认词的配置方法,包括:
获取第一平台的产品信息与资讯内容信息;
提取所述资讯内容信息包含的内容关键词,以及根据所述产品信息筛选热度产品,所述热度产品为产品的热度值在所述第一平台排序前预设位的产品;
获取外部平台的搜索关键词;
计算所述内容关键词与所述搜索关键词的相似度,根据所述相似度确定所述第一平台的第一默认词;
根据所述搜索关键词对所述热度产品进行过滤筛选,得到与所述搜索关键词相关联的目标产品,并提取所述目标产品作为所述第一平台的第二默认词;
将所述第一默认词和所述第二默认词组合,得到所述第一平台的搜索默认词。
进一步地,所述获取第一平台的产品信息与资讯内容信息,包括:
获取第一平台在指定目录下的产品信息与资讯内容信息;
所述获取外部平台的搜索关键词,包括:
根据所述指定目录确定目标外部平台;
获取基于爬虫爬取到的目标外部平台的搜索关键词。
进一步地,所述根据所述指定目录确定目标外部平台,包括:
从预设的排名榜单中获取各个不同目录的平台排名;
根据所述平台排名筛选前预设个指定目录的平台,作为目标外部平台。
进一步地,所述提取所述资讯内容信息包含的内容关键词,包括:
基于tf-idf算法提取所述资讯内容信息包含的词语;
识别所述词语的语义,基于所述语义对所述词语进行语义聚类,得到词语组;
为所述词语组匹配标签,将所述标签作为所述资讯内容信息的内容关键词;所述标签表征所述词语组中各个词语的语义。
进一步地,所述将所述第一默认词和所述第二默认词组合,得到所述第一平台的搜索默认词之后,还包括:
将所述搜索默认词在预设的搜索栏中以随机顺序进行配置,以使所述搜索默认词在所述预设的搜索栏中以随机顺序展示;
统计用户通过所述搜索栏点击所述搜索默认词的次数;
根据所述次数修改各个所述搜索默认词在所述搜索栏中的排序。
进一步地,所述将所述搜索默认词在预设的搜索栏中以随机顺序进行配置,包括:
获取与所述搜索默认词对应的产品信息或资讯内容信息;
将所述产品信息或资讯内容信息以超链接的形式建立与所述搜索默认词的关联;
将与产品信息或资讯内容信息建立关联后的所述搜索默认词在预设的搜索栏中以随机顺序进行配置。
进一步地,所述根据所述搜索关键词对所述热度产品进行过滤筛选,得到与所述搜索关键词相关联的目标产品,还包括:
识别所述搜索关键词的语义;
根据所述搜索关键词的语义匹配同义词,根据所述同义词生成扩充的搜索关键词;
根据所述扩充的搜索关键词对所述热度产品进行过滤筛选,得到与所述扩充的搜索关键词相关联的目标产品。
本申请还提供一种搜索默认词的配置装置,包括:
信息获取模块,用于获取第一平台的产品信息与资讯内容信息;
信息提取模块,用于提取所述资讯内容信息包含的内容关键词,以及根据所述产品信息筛选热度产品,所述热度产品为产品的热度值在所述第一平台排序前预设位的产品;
爬虫数据模块,用于获取外部平台的搜索关键词;
相似计算模块,用于计算所述内容关键词与所述搜索关键词的相似度,根据所述相似度确定所述第一平台的第一默认词;
过滤筛选模块,用于根据所述搜索关键词对所述热度产品进行过滤筛选,得到与所述搜索关键词相关联的目标产品,并提取所述目标产品作为所述第一平台的第二默认词;
组合配置模块,将所述第一默认词和所述第二默认词组合,得到所述第一平台的搜索默认词。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述搜索默认词的配置方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述搜索默认词的配置方法的步骤。
本申请例提供了一种利用数据提取技术,关键词提取技术,相似度匹配技术与将全网热点内容与平台内容进行关联的搜索默认词的配置方法,首先获取第一平台的产品信息与资讯内容信息,然后提取所述资讯内容信息包含的内容关键词,以及根据所述产品信息筛选热度产品,从而得到第一平台上当前热门的词语以及热门的产品,然后获取外部平台的搜索关键词,再计算所述内容关键词与所述搜索关键词的相似度,根据所述相似度确定所述第一平台的第一默认词,根据所述搜索关键词对所述热度产品进行过滤筛选,得到与所述搜索关键词相关联的目标产品,并提取所述目标产品作为所述第一平台的第二默认词,从而将本平台的内容与外部平台的热点内容进行比较、关联,得到本平台的基于资讯内容信息而确定的第一默认词以及基于产品信息确定的第二默认词,再将所述第一默认词和所述第二默认词组合,得到所述第一平台的搜索默认词,从而配置第一平台的搜索默认词,减少了人工配置搜索词的工作流程,提高第一平台的搜索默认词的效率与时效性,且保证搜索默认词具有较高的准确度。
附图说明
图1为本申请搜索默认词的配置方法的一实施例流程示意图;
图2为本申请搜索默认词的配置方法的步骤S20的一具体实施例流程示意图;
图3为本申请搜索默认词的配置装置的一实施例结构示意图;
图4为本申请计算机设备的一实施例结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例提供一种搜索默认词的配置方法,包括步骤S10-S60,对于所述搜索默认词的配置方法的各个步骤的详细阐述如下。
S10、获取第一平台的产品信息与资讯内容信息。
本实施例应用于内容、产品平台的搜索推荐场景,将实施本申请的搜索默认词的配置方法的平台定义为第一平台,然后获取所述第一平台的产品信息与资讯内容信息,所述产品信息为第一平台上销售的产品,例如第一平台为基金交易平台,所述产品信息包括各个基金以及每个基金的介绍信息;所述资讯内容信息为第一平台上发布的内容,包括新闻资讯内容,股东资讯内容等。
S20、提取所述资讯内容信息包含的内容关键词,以及根据所述产品信息筛选热度产品,所述热度产品为产品的热度值在所述第一平台排序前预设位的产品。
本实施例中,在得到第一平台的资讯内容信息后,为了快速地对第一平台的资讯内容信息进行提取,提取所述资讯内容信息包含的内容关键词,具体的,统计所述资讯内容信息中相同的词出现的频率,根据频率确定所述内容关键词,再者,根据所述产品信息筛选热度产品,所述热度产品为产品的热度值在所述第一平台排序前预设位的产品,从而筛选出第一平台当前热门的词语以及热门的产品。
S30、获取外部平台的搜索关键词。
本实施例中,在得到第一平台当前热门的词语以及热门的产品之后,还需要关注其他竞品平台,将其他竞品平台定义为外部平台,然后通过数据搜索工具检测外部平台的搜索关键词,从而获取外部平台的搜索关键词。
S40、计算所述内容关键词与所述搜索关键词的相似度,根据所述相似度确定所述第一平台的第一默认词。
本实施例中,在获取基于爬虫爬取到的外部平台的搜索关键词、提取所述资讯内容信息包含的内容关键词,以及根据所述产品信息筛选热度产品之后,需要将本平台的内容与外部平台的内容进行比较,即计算第一平台的所述内容关键词与外部平台的所述搜索关键词的相似度,根据所述相似度确定所述第一平台的第一默认词,当第一平台的某个内容关键词与外部平台的搜索关键词的相似度高于预设值时,则说明第一平台的该内容关键词在外部平台同样是当前重点关注的词语,此时则将该内容关键词确定为第一平台的第一默认词。
S50、据所述搜索关键词对所述热度产品进行过滤筛选,得到与所述搜索关键词相关联的目标产品,并提取所述目标产品作为所述第一平台的第二默认词。
本实施例中,在得到外部平台的搜索关键词后,还根据所述搜索关键词对所述热度产品进行过滤筛选,从而得到与所述搜索关键词相关联的目标产品,所述目标产品即同时为本平台与外部平台当前重点关注的产品,然后提取所述目标产品作为所述第一平台的第二默认词,例如将目标产品的名称作为第一平台的第二默认词。
S60、将所述第一默认词和所述第二默认词组合,得到所述第一平台的搜索默认词。
本实施例中,在得到基于资讯内容信息而确定的第一默认词以及基于目标产品的产品信息确定的第二默认词后,将所述第一默认词和所述第二默认词组合,得到所述第一平台的搜索默认词,其中,若所述第一默认词和所述第二默认词表征的为同一信息,则将所述第一默认词与第二默认词合并,若所述第一默认词和所述第二默认词表征的不是相同的信息,则同时保留所述第一默认词与第二默认词,从而完成第一平台的搜索默认词的配置。
本实施例提供了一种利用数据提取技术,关键词提取技术,相似度匹配技术与将全网热点内容与平台内容进行关联的搜索默认词的配置方法,首先获取第一平台的产品信息与资讯内容信息,然后提取所述资讯内容信息包含的内容关键词,以及根据所述产品信息筛选热度产品,从而得到第一平台上当前热门的词语以及热门的产品,然后获取外部平台的搜索关键词,再计算所述内容关键词与所述搜索关键词的相似度,根据所述相似度确定所述第一平台的第一默认词,根据所述搜索关键词对所述热度产品进行过滤筛选,得到与所述搜索关键词相关联的目标产品,并提取所述目标产品作为所述第一平台的第二默认词,从而将本平台的内容与外部平台的热点内容进行比较、关联,得到本平台的基于资讯内容信息而确定的第一默认词以及基于产品信息确定的第二默认词,再将所述第一默认词和所述第二默认词组合,得到所述第一平台的搜索默认词,从而配置第一平台的搜索默认词,减少了人工配置搜索词的工作流程,提高第一平台的搜索默认词的效率与时效性,且保证搜索默认词具有较高的准确度。
在一个实施例中,所述获取第一平台的产品信息与资讯内容信息,包括:
获取第一平台在指定目录下的产品信息与资讯内容信息;
所述获取外部平台的搜索关键词,包括:
根据所述指定目录确定目标外部平台;
获取基于爬虫爬取到的目标外部平台的搜索关键词。
本实施例中,在第一平台中实施搜索默认词的配置方法时,第一平台包括不同的目录,例如,将第一平台包括证券市场目录、期货市场目录、重金属市场目录等,然后针对不同的目录进行所述搜索默认词的配置方法,即获取第一平台在指定目录下的产品信息与资讯内容信息,同样的,为了匹配更准确的对比数据,在爬取外部平台的数据时,根据所述指定目录确定目标外部平台,然后获取基于爬虫爬取到的目标外部平台的搜索关键词,进一步的,所述基于爬虫爬取目标外部平台的搜索关键词之前,获取目标外部平台的授权信息,在所述授权信息下爬取目标外部平台的搜索关键词,从而减少无关的外部平台的数据的干扰,提高搜索默认词配置的准确率。
在一个实施例中,所述根据所述指定目录确定目标外部平台,包括:
从预设的排名榜单中获取各个不同目录的平台排名;
根据所述平台排名筛选前预设个指定目录的平台,作为目标外部平台。
本实施例中,在确定目标外部平台时,从预设的排名榜单中获取各个不同目录的平台排名,然后根据所述平台排名筛选前预设个指定目录的平台,作为目标外部平台,从而快速地与外部的大平台建立信息关联,降低全网搜索的数据量,提高搜索默认词的匹配效率。
在一个实施例中,如图2所示,所述提取所述资讯内容信息包含的内容关键词,包括:
S21:基于tf-idf算法提取所述资讯内容信息包含的词语;
S22:识别所述词语的语义,基于所述语义对所述词语进行语义聚类,得到词语组;
S23:为所述词语组匹配标签,将所述标签作为所述资讯内容信息的内容关键词;所述标签表征所述词语组中各个词语的语义。
本实施例中,在提取所述资讯内容信息包含的内容关键词时,基于tf-idf(termfrequency–inverse document frequency,词频逆文本频率指数)算法提取所述资讯内容信息包含的词语,首先基于tf-idf算法提取各个资讯内容中包含的词语,包括根据所述资讯内容的所属领域对资讯内容进行分词,然后识别所述词语的语义,基于所述语义对所述词语进行语义聚类,得到词语组,将表征相同语义的词语进行聚合,得到词语组,该词语组中各个词语表示相同的语义,然后对所述词语组匹配标签,将所述标签作为所述资讯内容信息的内容关键词,所述标签表征所述词语组中各个词语的语义,通过将相同语义的词语聚类为词语组,并打上标签,能够有效地减少相同语义的词语所耗费的计算量,降低信息的冗余度,提高内容关键词的检索效率。
在一个实施例中,所述将所述第一默认词和所述第二默认词组合,得到所述第一平台的搜索默认词之后,还包括:
将所述搜索默认词在预设的搜索栏中进行配置,以使所述搜索默认词在所述预设的搜索栏中展示;
统计用户通过所述搜索栏点击所述搜索默认词的次数;
根据所述次数修改各个所述搜索默认词在所述搜索栏中的排序。
本实施例中,在所述将所述第一默认词和所述第二默认词组合,得到所述第一平台的搜索默认词之后,为了能够让第一平台的用户快速地关注到当前第一平台以及全网热门的内容或产品,将所述搜索默认词在预设的搜索栏中进行配置,即当用户在第一平台的搜索栏附近或点击所述搜索栏,所述搜索默认词在所述预设的搜索栏中展示,从而为用户提供快速关注当前热门的信息,同时,统计用户通过所述搜索栏点击所述搜索默认词的次数,然后根据所述次数修改各个所述搜索默认词在所述搜索栏中的排序,即各个搜索默认词在所述搜索栏中的排序不是固定不变的,是实时通过统计而得到的,从而保证搜索默认词的时效性,提高搜索默认词配置的准确度。
在一个实施例中,所述将所述搜索默认词在预设的搜索栏中以随机顺序进行配置,包括:
获取与所述搜索默认词对应的产品信息或资讯内容信息;
将所述产品信息或资讯内容信息以超链接的形式建立与所述搜索默认词的关联;
将与产品信息或资讯内容信息建立关联后的所述搜索默认词在预设的搜索栏中以随机顺序进行配置。
本实施例中,在将所述搜索默认词在预设的搜索栏中以随机顺序进行配置时,获取与所述搜索默认词对应的产品信息或资讯内容信息,即获取第一平台上所述搜索默认词对应的产品信息,或所述搜索默认词对应的资讯内容信息,然后将所述产品信息或资讯内容信息以超链接的形式建立与所述搜索默认词的关联,然后将与产品信息或资讯内容信息建立关联后的所述搜索默认词在预设的搜索栏中以随机顺序进行配置,通过超链接的形式在搜索栏中配置搜索默认词,用户可以从搜索栏中的所述搜索默认词快速地访问所述搜索默认词的产品信息或资讯内容信息,例如,当点击搜索栏中的任一搜索默认词之后,跳转至该搜索默认词关联的产品信息页面或资讯内容信息页面,从而提高搜索默认词相关的信息的检索效率。
在一个实施例中,所述根据所述搜索关键词对所述热度产品进行过滤筛选,得到与所述搜索关键词相关联的目标产品,还包括:
识别所述搜索关键词的语义;
根据所述搜索关键词的语义匹配同义词,根据所述同义词生成扩充的搜索关键词;
根据所述扩充的搜索关键词对所述热度产品进行过滤筛选,得到与所述搜索关键词相关联的目标产品。
本实施例中,由于不同平台对于相同或相似的产品的称呼不同,在根据所述搜索关键词对所述热度产品进行过滤筛选,得到与所述搜索关键词相关联的目标产品时,首先识别所述搜索关键词的语义,然后根据所述搜索关键词的语义匹配同义词,根据所述同义词生成扩充的搜索关键词,即对所述搜索关键词进行词语扩充,然后根据所述扩充的搜索关键词对所述热度产品进行过滤筛选,得到与所述扩充的搜索关键词相关联的目标产品,从而更加准确地筛选得到第一平台的目标产品,提高搜索词的匹配准确度。
参照图3,本申请还提供一种搜索默认词的配置装置,包括:
信息获取模块10,用于获取第一平台的产品信息与资讯内容信息;
信息提取模块20,用于提取所述资讯内容信息包含的内容关键词,以及根据所述产品信息筛选热度产品,所述热度产品为产品的热度值在所述第一平台排序前预设位的产品;
爬虫数据模块30,用于获取外部平台的搜索关键词;
相似计算模块40,用于计算所述内容关键词与所述搜索关键词的相似度,根据所述相似度确定所述第一平台的第一默认词;
过滤筛选模块50,用于根据所述搜索关键词对所述热度产品进行过滤筛选,得到与所述搜索关键词相关联的目标产品,并提取所述目标产品作为所述第一平台的第二默认词;
组合配置模块60,将所述第一默认词和所述第二默认词组合,得到所述第一平台的搜索默认词。
如上所述,可以理解地,本申请中提出的所述搜索默认词的配置装置的各组成部分可以实现如上所述搜索默认词的配置方法任一项的功能。
在一个实施例中,所述信息获取模块10还包括执行:
获取第一平台在指定目录下的产品信息与资讯内容信息;
所述爬虫数据模块30还包括执行:
根据所述指定目录确定目标外部平台;
获取基于爬虫爬取到的目标外部平台的搜索关键词。
在一个实施例中,爬虫数据模块30还包括执行:
从预设的排名榜单中获取各个不同目录的平台排名;
根据所述平台排名筛选前预设个指定目录的平台,作为目标外部平台。
在一个实施例中,所述信息提取模块20还包括执行:
基于tf-idf算法提取所述资讯内容信息包含的词语;
识别所述词语的语义,基于所述语义对所述词语进行语义聚类,得到词语组;
为所述词语组匹配标签,将所述标签作为所述资讯内容信息的内容关键词;所述标签表征所述词语组中各个词语的语义。
在一个实施例中,所述组合配置模块60还包括执行:
将所述搜索默认词在预设的搜索栏中以随机顺序进行配置,以使所述搜索默认词在所述预设的搜索栏中以随机顺序展示;
统计用户通过所述搜索栏点击所述搜索默认词的次数;
根据所述次数修改各个所述搜索默认词在所述搜索栏中的排序。
在一个实施例中,所述组合配置模块60还包括执行:
获取与所述搜索默认词对应的产品信息或资讯内容信息;
将所述产品信息或资讯内容信息以超链接的形式建立与所述搜索默认词的关联;
将与产品信息或资讯内容信息建立关联后的所述搜索默认词在预设的搜索栏中以随机顺序进行配置。
在一个实施例中,所述过滤筛选模块50还包括执行:
识别所述搜索关键词的语义;
根据所述搜索关键词的语义匹配同义词,根据所述同义词生成扩充的搜索关键词;
根据所述扩充的搜索关键词对所述热度产品进行过滤筛选,得到与所述扩充的搜索关键词相关联的目标产品。
参照图4,本申请实施例中还提供一种计算机设备,该计算机设备可以是移动终端,其内部结构可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和显示装置及输入装置。其中,该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机设备的输入装置用于接收用户的输入。该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括存储介质。该存储介质存储有操作系统、计算机程序和数据库。该计算机设备的数据库用于存放数据。该计算机程序被处理器执行时以实现一种搜索默认词的配置方法。
上述处理器执行上述的搜索默认词的配置方法,包括:获取第一平台的产品信息与资讯内容信息;提取所述资讯内容信息包含的内容关键词,以及根据所述产品信息筛选热度产品;获取外部平台的搜索关键词;计算所述内容关键词与所述搜索关键词的相似度,根据所述相似度确定所述第一平台的第一默认词;据所述搜索关键词对所述热度产品进行过滤筛选,得到与所述搜索关键词相关联的目标产品,并提取所述目标产品作为所述第一平台的第二默认词;将所述第一默认词和所述第二默认词组合,得到所述第一平台的搜索默认词。
所述计算机设备提供了一种利用数据提取技术,关键词提取技术,相似度匹配技术与将全网热点内容与平台内容进行关联的搜索默认词的配置方法,首先获取第一平台的产品信息与资讯内容信息,然后提取所述资讯内容信息包含的内容关键词,以及根据所述产品信息筛选热度产品,从而得到第一平台上当前热门的词语以及热门的产品,然后获取外部平台的搜索关键词,再计算所述内容关键词与所述搜索关键词的相似度,根据所述相似度确定所述第一平台的第一默认词,根据所述搜索关键词对所述热度产品进行过滤筛选,得到与所述搜索关键词相关联的目标产品,并提取所述目标产品作为所述第一平台的第二默认词,从而将本平台的内容与外部平台的热点内容进行比较、关联,得到本平台的基于资讯内容信息而确定的第一默认词以及基于产品信息确定的第二默认词,再将所述第一默认词和所述第二默认词组合,得到所述第一平台的搜索默认词,从而配置第一平台的搜索默认词,减少了人工配置搜索词的工作流程,提高第一平台的搜索默认词的效率与时效性,且保证搜索默认词具有较高的准确度。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被所述处理器执行时实现一种搜索默认词的配置方法,包括步骤:获取第一平台的产品信息与资讯内容信息;提取所述资讯内容信息包含的内容关键词,以及根据所述产品信息筛选热度产品;获取外部平台的搜索关键词;计算所述内容关键词与所述搜索关键词的相似度,根据所述相似度确定所述第一平台的第一默认词;据所述搜索关键词对所述热度产品进行过滤筛选,得到与所述搜索关键词相关联的目标产品,并提取所述目标产品作为所述第一平台的第二默认词;将所述第一默认词和所述第二默认词组合,得到所述第一平台的搜索默认词。
所述计算机可读存储介质提供了一种利用数据提取技术,关键词提取技术,相似度匹配技术与将全网热点内容与平台内容进行关联的搜索默认词的配置方法,首先获取第一平台的产品信息与资讯内容信息,然后提取所述资讯内容信息包含的内容关键词,以及根据所述产品信息筛选热度产品,从而得到第一平台上当前热门的词语以及热门的产品,然后获取外部平台的搜索关键词,再计算所述内容关键词与所述搜索关键词的相似度,根据所述相似度确定所述第一平台的第一默认词,根据所述搜索关键词对所述热度产品进行过滤筛选,得到与所述搜索关键词相关联的目标产品,并提取所述目标产品作为所述第一平台的第二默认词,从而将本平台的内容与外部平台的热点内容进行比较、关联,得到本平台的基于资讯内容信息而确定的第一默认词以及基于产品信息确定的第二默认词,再将所述第一默认词和所述第二默认词组合,得到所述第一平台的搜索默认词,从而配置第一平台的搜索默认词,减少了人工配置搜索词的工作流程,提高第一平台的搜索默认词的效率与时效性,且保证搜索默认词具有较高的准确度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。
本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。
非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围。
凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种搜索默认词的配置方法,其特征在于,包括:
获取第一平台的产品信息与资讯内容信息;
提取所述资讯内容信息包含的内容关键词,以及根据所述产品信息筛选热度产品,所述热度产品为产品的热度值在所述第一平台排序前预设位的产品;
获取外部平台的搜索关键词,所述外部平台为其他竞品平台;
计算所述内容关键词与所述搜索关键词的相似度,根据所述相似度确定所述第一平台的第一默认词;
根据所述搜索关键词对所述热度产品进行过滤筛选,得到与所述搜索关键词相关联的目标产品,并提取所述目标产品作为所述第一平台的第二默认词;
将所述第一默认词和所述第二默认词组合,得到所述第一平台的搜索默认词。
2.根据权利要求1所述的搜索默认词的配置方法,其特征在于,所述获取第一平台的产品信息与资讯内容信息,包括:
获取第一平台在指定目录下的产品信息与资讯内容信息;
所述外部平台的搜索关键词的步骤,具体包括:
根据所述指定目录确定目标外部平台;
获取基于爬虫爬取到的目标外部平台的搜索关键词。
3.根据权利要求2所述的搜索默认词的配置方法,其特征在于,所述根据所述指定目录确定目标外部平台,包括:
从预设的排名榜单中获取各个不同目录的平台排名;
根据所述平台排名筛选前预设个指定目录的平台,作为目标外部平台。
4.根据权利要求1所述的搜索默认词的配置方法,其特征在于,所述提取所述资讯内容信息包含的内容关键词,包括:
基于tf-idf算法提取所述资讯内容信息包含的词语;
识别所述词语的语义,基于所述语义对所述词语进行语义聚类,得到词语组;
为所述词语组匹配标签,将所述标签作为所述资讯内容信息的内容关键词;所述标签表征所述词语组中各个词语的语义。
5.根据权利要求1所述的搜索默认词的配置方法,其特征在于,所述将所述第一默认词和所述第二默认词组合,得到所述第一平台的搜索默认词之后,还包括:
将所述搜索默认词在预设的搜索栏中以随机顺序进行配置,以使所述搜索默认词在所述预设的搜索栏中以随机顺序展示;
统计用户通过所述搜索栏点击所述搜索默认词的次数;
根据所述次数修改各个所述搜索默认词在所述搜索栏中的排序。
6.根据权利要求5所述的搜索默认词的配置方法,其特征在于,所述将所述搜索默认词在预设的搜索栏中以随机顺序进行配置,包括:
获取与所述搜索默认词对应的产品信息或资讯内容信息;
将所述产品信息或资讯内容信息以超链接的形式建立与所述搜索默认词的关联;
将与产品信息或资讯内容信息建立关联后的所述搜索默认词在预设的搜索栏中以随机顺序进行配置。
7.根据权利要求1所述的搜索默认词的配置方法,其特征在于,所述根据所述搜索关键词对所述热度产品进行过滤筛选,得到与所述搜索关键词相关联的目标产品,还包括:
识别所述搜索关键词的语义;
根据所述搜索关键词的语义匹配同义词,根据所述同义词生成扩充的搜索关键词;
根据所述扩充的搜索关键词对所述热度产品进行过滤筛选,得到与所述扩充的搜索关键词相关联的目标产品。
8.一种搜索默认词的配置装置,其特征在于,包括:
信息获取模块,用于获取第一平台的产品信息与资讯内容信息;
信息提取模块,用于提取所述资讯内容信息包含的内容关键词,以及根据所述产品信息筛选热度产品,所述热度产品为产品的热度值在所述第一平台排序前预设位的产品;
爬虫数据模块,用于获取外部平台的搜索关键词,所述外部平台为其他竞品平台;
相似计算模块,用于计算所述内容关键词与所述搜索关键词的相似度,根据所述相似度确定所述第一平台的第一默认词;
过滤筛选模块,用于根据所述搜索关键词对所述热度产品进行过滤筛选,得到与所述搜索关键词相关联的目标产品,并提取所述目标产品作为所述第一平台的第二默认词;
组合配置模块,将所述第一默认词和所述第二默认词组合,得到所述第一平台的搜索默认词。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述搜索默认词的配置方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述搜索默认词的配置方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110729388.9A CN113536118B (zh) | 2021-06-29 | 2021-06-29 | 搜索默认词的配置方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110729388.9A CN113536118B (zh) | 2021-06-29 | 2021-06-29 | 搜索默认词的配置方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113536118A CN113536118A (zh) | 2021-10-22 |
CN113536118B true CN113536118B (zh) | 2023-04-07 |
Family
ID=78097292
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110729388.9A Active CN113536118B (zh) | 2021-06-29 | 2021-06-29 | 搜索默认词的配置方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113536118B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104636334A (zh) * | 2013-11-06 | 2015-05-20 | 阿里巴巴集团控股有限公司 | 一种关键词推荐方法和装置 |
CN106933993A (zh) * | 2017-02-27 | 2017-07-07 | 北京邮电大学 | 一种资讯处理方法及装置 |
CN107169116A (zh) * | 2017-05-24 | 2017-09-15 | 北京奇艺世纪科技有限公司 | 默认搜索词的生成方法及装置 |
CN112100216A (zh) * | 2020-09-17 | 2020-12-18 | 中国建设银行股份有限公司 | 创意关键词的处理方法和装置 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103870507B (zh) * | 2012-12-17 | 2017-04-12 | 阿里巴巴集团控股有限公司 | 一种基于类目的搜索方法和装置 |
CN105045882B (zh) * | 2015-07-21 | 2018-09-25 | 无锡天脉聚源传媒科技有限公司 | 一种热词处理方法及装置 |
CN106897319A (zh) * | 2015-12-21 | 2017-06-27 | 北京奇虎科技有限公司 | 搜索方法和装置 |
CN105574176A (zh) * | 2015-12-21 | 2016-05-11 | 北京奇虎科技有限公司 | 结合多数据源的热词推荐方法和装置 |
CN106503233A (zh) * | 2016-11-03 | 2017-03-15 | 北京挖玖电子商务有限公司 | 热门搜索词推荐系统 |
CN106599299A (zh) * | 2016-12-28 | 2017-04-26 | 北京奇虎科技有限公司 | 一种网站关键词的确定方法及装置 |
CN107798066A (zh) * | 2017-09-25 | 2018-03-13 | 北京小度信息科技有限公司 | 一种搜索词推送方法、装置及终端 |
CN111444304A (zh) * | 2019-01-17 | 2020-07-24 | 北京京东尚科信息技术有限公司 | 搜索排序的方法和装置 |
CN110688572A (zh) * | 2019-09-24 | 2020-01-14 | 四川新网银行股份有限公司 | 冷启动状态下搜索意图的识别方法 |
CN111428007B (zh) * | 2020-06-08 | 2020-09-15 | 北京每日优鲜电子商务有限公司 | 基于跨平台的同步推送反馈方法 |
CN112581162A (zh) * | 2020-12-07 | 2021-03-30 | Oppo广东移动通信有限公司 | 资讯内容展示方法、装置、存储介质以及终端 |
-
2021
- 2021-06-29 CN CN202110729388.9A patent/CN113536118B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104636334A (zh) * | 2013-11-06 | 2015-05-20 | 阿里巴巴集团控股有限公司 | 一种关键词推荐方法和装置 |
CN106933993A (zh) * | 2017-02-27 | 2017-07-07 | 北京邮电大学 | 一种资讯处理方法及装置 |
CN107169116A (zh) * | 2017-05-24 | 2017-09-15 | 北京奇艺世纪科技有限公司 | 默认搜索词的生成方法及装置 |
CN112100216A (zh) * | 2020-09-17 | 2020-12-18 | 中国建设银行股份有限公司 | 创意关键词的处理方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113536118A (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20180165370A1 (en) | Methods and systems for object recognition | |
CN102043833B (zh) | 一种基于查询词进行搜索的方法和搜索装置 | |
US9471440B2 (en) | Method and system for processing product properties | |
CN111178069B (zh) | 数据处理方法、装置、计算机设备及存储介质 | |
US7720721B1 (en) | Method and system for analyzing user interaction to identify documents associated with dissimilar items that may contain synonyms | |
US20120150861A1 (en) | Highlighting known answers in search results | |
CN110458324B (zh) | 风险概率的计算方法、装置和计算机设备 | |
CN109145110B (zh) | 标签查询方法和装置 | |
JP2015526809A (ja) | クエリ拡張 | |
JP2013531289A (ja) | 検索におけるモデル情報群の使用 | |
CN109284369B (zh) | 证券新闻资讯重要性的判定方法、系统、装置及介质 | |
CN103823906A (zh) | 一种基于微博数据的多维度检索排序优化算法和工具 | |
CN110134761A (zh) | 判决文书信息检索方法、装置、计算机设备和存储介质 | |
JP5552582B2 (ja) | コンテンツ検索装置 | |
CN114428861A (zh) | 一种企业政策智能解读方法、系统、设备及存储介质 | |
CN112685475A (zh) | 报表查询方法、装置、计算机设备及存储介质 | |
CN110555165B (zh) | 信息识别方法、装置、计算机设备和存储介质 | |
CN109656947B (zh) | 数据查询方法、装置、计算机设备和存储介质 | |
CN111191153A (zh) | 一种信息技术咨询服务展示装置 | |
CN114253990A (zh) | 数据库查询方法、装置、计算机设备和存储介质 | |
CN113536118B (zh) | 搜索默认词的配置方法、装置、计算机设备及存储介质 | |
CN113051409A (zh) | 基于多维度信息计算的知产行业商机推荐系统及存储介质 | |
CN110555108A (zh) | 事件脉络生成方法、装置、设备及存储介质 | |
CN115186240A (zh) | 基于关联性信息的社交网络用户对齐方法、装置、介质 | |
CN112015773B (zh) | 知识库的检索方法、装置、电子设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231214 Address after: No. 3605, Floor 5, Building 3, Micro World, Century Avenue, Liuwu New District, Lhasa, Xizang Autonomous Region, 850000 Patentee after: Lhasa Koda Technology Co.,Ltd. Address before: 200000 floor 15, No. 1333, Lujiazui Ring Road, Shanghai pilot Free Trade Zone Patentee before: Weikun (Shanghai) Technology Service Co.,Ltd. |