CN111737574A - 搜索信息获取方法、装置、计算机设备及可读存储介质 - Google Patents
搜索信息获取方法、装置、计算机设备及可读存储介质 Download PDFInfo
- Publication number
- CN111737574A CN111737574A CN202010565206.4A CN202010565206A CN111737574A CN 111737574 A CN111737574 A CN 111737574A CN 202010565206 A CN202010565206 A CN 202010565206A CN 111737574 A CN111737574 A CN 111737574A
- Authority
- CN
- China
- Prior art keywords
- search
- scene
- target
- data
- word set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000003860 storage Methods 0.000 title abstract description 9
- 238000013507 mapping Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 4
- 235000013305 food Nutrition 0.000 description 15
- 230000008901 benefit Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 235000021152 breakfast Nutrition 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 235000008429 bread Nutrition 0.000 description 3
- 235000021158 dinner Nutrition 0.000 description 3
- 235000013322 soy milk Nutrition 0.000 description 3
- 241000251468 Actinopterygii Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 235000015277 pork Nutrition 0.000 description 2
- 235000021419 vinegar Nutrition 0.000 description 2
- 239000000052 vinegar Substances 0.000 description 2
- 241000272525 Anas platyrhynchos Species 0.000 description 1
- 206010027336 Menstruation delayed Diseases 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 235000012149 noodles Nutrition 0.000 description 1
- 235000021178 picnic Nutrition 0.000 description 1
- 235000011888 snacks Nutrition 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种搜索信息获取方法、装置、计算机设备及可读存储介质,涉及互联网技术领域,按照场景特征对现存的样本词数据进行聚类以及挖掘,形成针对不同场景特征的推荐词集,从而确定与用户当前所处场景匹配的目标推荐词集,在目标推荐词集中进行信息搜索,保证将用户在空间上以及时间上的特征都考虑进来,使得搜索信息与用户所处场景契合,避免对用户的实际需求理解存在偏差,提高了搜索信息的准确度。所述方法包括:构建至少一个推荐词集;当接收到待搜索内容时,在至少一个推荐词集中确定目标推荐词集;基于待搜索内容,在目标推荐词集中获取至少一个搜索信息;将至少一个搜索信息进行展示。
Description
技术领域
本发明涉及互联网技术领域,特别是涉及一种搜索信息获取方法、装置、计算机设备及可读存储介质。
背景技术
近年来,随着科技的快速发展,互联网应用广泛深入各类领域,大数据呈现爆炸式增长,海量的数据和信息分散于网络空间,当用户需要获取信息和数据时,通常会使用搜索引擎进行信息搜索,从而获取到用户想要的搜索信息。
相关技术中,用户在向搜索引擎提交自然语言表述的待搜索内容之后,为了将用户的日常搜索习惯结合到对搜索信息的获取过程中,搜索引擎通常会获取用户的历史搜索日志,在历史搜索日志中获取待搜索内容对应的搜索信息,将搜索信息反馈给用户。比如,假设用户当前提交的待搜索内容为“美食”,则搜索引擎会在历史搜索日志中获取用户之前搜索“美食”时为用户提供的搜索词条作为本次需要反馈给用户的内容。
在实现本发明的过程中,发明人发现相关技术至少存在以下问题:
用户在使用搜索引擎进行搜索时,在不同场景以及不同时间下,希望获取到的搜索信息可能是不同的,比如用户在早上搜索“美食”,可能希望获取到有关早餐的搜索信息,而在晚上搜索“美食”,可能希望获取到有关晚餐的搜索信息,但是搜索引擎在获取搜索信息时,会将全部有关用户输入的待搜索内容反馈给用户,很可能反馈的搜索信息与用户当前的需求并不契合,对用户的实际需求理解存在偏差,导致搜索信息的准确度较低。
发明内容
有鉴于此,本发明提供了一种搜索信息获取方法、装置、计算机设备及可读存储介质,主要目的在于解决目前反馈的搜索信息与用户当前的需求并不契合,对用户的实际需求理解存在偏差,导致搜索信息的准确度较低的问题。
依据本发明第一方面,提供了一种搜索信息获取方法,该方法包括:
构建至少一个推荐词集,所述至少一个推荐词集通过对样本词数据进行场景特征识别并聚类得到,所述样本词数据至少包括用户的历史搜索数据以及平台接入数据;
当接收到待搜索内容时,在所述至少一个推荐词集中确定目标推荐词集,所述目标推荐词集对应的目标场景特征与搜索场景特征匹配,所述搜索场景特征根据接收到所述待搜索内容的目标搜索时间以及目标搜索位置生成;
基于所述待搜索内容,在所述目标推荐词集中获取至少一个搜索信息;
将所述至少一个搜索信息进行展示。
在另一个实施例中,所述构建至少一个推荐词集,包括:
获取用户在指定历史时间段内的所述历史搜索数据,统计平台的所述平台接入数据,将所述历史搜索数据和所述平台接入数据整理为所述样本词数据;
对所述样本词数据进行场景特征识别,确定所述样本词数据中包括的每个数据的场景特征,所述每个数据至少对应一个或者多个所述场景特征;
将所述场景特征一致的所述样本词数据进行聚类,生成存储所述场景特征与所述样本词数据之间映射关系的至少一个词语映射表,将所述至少一个词语映射表作为所述至少一个推荐词集,所述至少一个推荐词集中每个推荐词集包括的样本词数据的场景特征一致。
在另一个实施例中,所述确定所述样本词数据中包括的每个数据的场景特征,包括:
对于所述样本词数据中的所述历史搜索数据,查询所述历史搜索数据的产生时间和产生地理位置;
确定所述产生时间所处的第一时间区间,将所述产生地理位置和所述第一时间区间作为所述历史搜索数据的场景特征;
对于所述样本词数据中的所述平台接入数据,确定提供所述平台接入数据的目标门店,提取所述目标门店的门店地理位置;
获取所述平台接入数据的时间属性,确定所述时间属性对应的第二时间区间;
将所述门店地理位置和所述第二时间区间作为所述平台接入数据的场景特征。
在另一个实施例中,所述当接收到待搜索内容时,在所述至少一个推荐词集中确定目标推荐词集,包括:
当接收到所述待搜索内容时,对所述用户当前所处位置进行定位,获取所述目标搜索位置;
确定接收到所述待搜索内容的所述目标搜索时间,查询所述目标搜索时间所属的第三时间区间;
将所述目标搜索位置和所述第三时间区间进行组合,生成所述搜索场景特征;
分别将所述至少一个推荐词集对应的场景特征与所述搜索场景特征进行比对,提取所述目标推荐词集。
在另一个实施例中,所述分别将所述至少一个推荐词集对应的场景特征与所述搜索场景特征进行比对,提取所述目标推荐词集,包括:
将所述第三时间区间与所述至少一个推荐词集的场景特征进行比对,在所述至少一个推荐词中确定候选词集,所述候选词集的场景特征包括的时间区间与所述第三时间区间一致;
以所述目标搜索位置为中心点,形成目标搜索区域,根据所述目标搜索区域,在所述候选词集中提取所述目标推荐词集,所述目标推荐词集的场景特征包括的地理位置位于所述目标搜索区域内。
在另一个实施例中,所述基于所述待搜索内容,在所述目标推荐词集中获取至少一个搜索信息,包括:
获取所述目标推荐词集包括的全部推荐词的推荐词属性,在所述全部推荐词中提取推荐词属性包括所述待搜索内容的推荐词作为所述至少一个搜索信息;和/或,
采用所述待搜索内容进行文本查询,将文本中包括所述待搜索内容的推荐词作为所述至少一个搜索信息。
在另一个实施例中,所述将所述至少一个搜索信息进行展示,包括:
基于所述待搜索内容和所述搜索场景特征,对所述至少一个搜索信息进行评分,得到至少一个信息评分,所述至少一个信息评分中每个信息评分至少包括文本相关性评分和场景匹配分;
按照所述至少一个信息评分从大到小的顺序,对所述至少一个搜索信息进行排序;
将排序后的所述至少一个搜索信息进行展示。
在另一个实施例中,所述基于所述待搜索内容和所述搜索场景特征,对所述至少一个搜索信息进行评分,得到至少一个信息评分,包括:
对于所述至少一个搜索信息中每个搜索信息,分别对所述待搜索内容和所述搜索信息进行分词处理,计算所述待搜索内容与所述搜索信息的文本相关性评分;
获取预设场景匹配模型,将所述搜索场景特征和所述搜索信息的目标场景特征输入至所述预设场景匹配模型,基于所述预设场景匹配模型,输出所述搜索场景特征和所述目标场景特征的场景匹配分;
确定所述搜索信息的信息来源,查询所述信息来源对应的来源预设分,所述信息来源至少为所述历史搜索数据或所述平台接入数据中的任一种;
采用所述文本相关性评分、所述场景匹配分以及所述来源预设分对应的权重,对所述文本相关性评分、所述场景匹配分以及所述来源预设分进行计算,得到所述搜索信息的信息评分;
分别为所述至少一个搜索信息中每个搜索信息计算信息评分,得到所述至少一个信息评分。
依据本发明第二方面,提供了一种搜索信息获取装置,该装置包括:
构建模块,用于构建至少一个推荐词集,所述至少一个推荐词集通过对样本词数据进行场景特征识别并聚类得到,所述样本词数据至少包括用户的历史搜索数据以及平台接入数据;
确定模块,用于当接收到待搜索内容时,在所述至少一个推荐词集中确定目标推荐词集,所述目标推荐词集对应的目标场景特征与搜索场景特征匹配,所述搜索场景特征根据接收到所述待搜索内容的目标搜索时间以及目标搜索位置生成;
获取模块,用于基于所述待搜索内容,在所述目标推荐词集中获取至少一个搜索信息;
展示模块,用于将所述至少一个搜索信息进行展示。
在另一个实施例中,所述构建模块,包括:
统计单元,用于获取用户在指定历史时间段内的所述历史搜索数据,统计平台的所述平台接入数据,将所述历史搜索数据和所述平台接入数据整理为所述样本词数据;
确定单元,用于对所述样本词数据进行场景特征识别,确定所述样本词数据中包括的每个数据的场景特征,所述每个数据至少对应一个或者多个所述场景特征;
聚类单元,用于将所述场景特征一致的所述样本词数据进行聚类,生成存储所述场景特征与所述样本词数据之间映射关系的至少一个词语映射表,将所述至少一个词语映射表作为所述至少一个推荐词集,所述至少一个推荐词集中每个推荐词集包括的样本词数据的场景特征一致。
在另一个实施例中,所述确定单元,用于对于所述样本词数据中的所述历史搜索数据,查询所述历史搜索数据的产生时间和产生地理位置;确定所述产生时间所处的第一时间区间,将所述产生地理位置和所述第一时间区间作为所述历史搜索数据的场景特征;对于所述样本词数据中的所述平台接入数据,确定提供所述平台接入数据的目标门店,提取所述目标门店的门店地理位置;获取所述平台接入数据的时间属性,确定所述时间属性对应的第二时间区间;将所述门店地理位置和所述第二时间区间作为所述平台接入数据的场景特征。
在另一个实施例中,所述确定模块,包括:
定位单元,用于当接收到所述待搜索内容时,对所述用户当前所处位置进行定位,获取所述目标搜索位置;
查询单元,用于确定接收到所述待搜索内容的所述目标搜索时间,查询所述目标搜索时间所属的第三时间区间;
组合单元,用于将所述目标搜索位置和所述第三时间区间进行组合,生成所述搜索场景特征;
提取单元,用于分别将所述至少一个推荐词集对应的场景特征与所述搜索场景特征进行比对,提取所述目标推荐词集。
在另一个实施例中,所述提取单元,用于将所述第三时间区间与所述至少一个推荐词集的场景特征进行比对,在所述至少一个推荐词中确定候选词集,所述候选词集的场景特征包括的时间区间与所述第三时间区间一致;以所述目标搜索位置为中心点,形成目标搜索区域,根据所述目标搜索区域,在所述候选词集中提取所述目标推荐词集,所述目标推荐词集的场景特征包括的地理位置位于所述目标搜索区域内。
在另一个实施例中,所述获取模块,用于获取所述目标推荐词集包括的全部推荐词的推荐词属性,在所述全部推荐词中提取推荐词属性包括所述待搜索内容的推荐词作为所述至少一个搜索信息;和/或,采用所述待搜索内容进行文本查询,将文本中包括所述待搜索内容的推荐词作为所述至少一个搜索信息。
在另一个实施例中,所述展示模块,包括:
评分单元,用于基于所述待搜索内容和所述搜索场景特征,对所述至少一个搜索信息进行评分,得到至少一个信息评分,所述至少一个信息评分中每个信息评分至少包括文本相关性评分和场景匹配分;
排序单元,用于按照所述至少一个信息评分从大到小的顺序,对所述至少一个搜索信息进行排序;
展示单元,用于将排序后的所述至少一个搜索信息进行展示。
在另一个实施例中,所述评分单元,用于对于所述至少一个搜索信息中每个搜索信息,分别对所述待搜索内容和所述搜索信息进行分词处理,计算所述待搜索内容与所述搜索信息的文本相关性评分;获取预设场景匹配模型,将所述搜索场景特征和所述搜索信息的目标场景特征输入至所述预设场景匹配模型,基于所述预设场景匹配模型,输出所述搜索场景特征和所述目标场景特征的场景匹配分;确定所述搜索信息的信息来源,查询所述信息来源对应的来源预设分,所述信息来源至少为所述历史搜索数据或所述平台接入数据中的任一种;采用所述文本相关性评分、所述场景匹配分以及所述来源预设分对应的权重,对所述文本相关性评分、所述场景匹配分以及所述来源预设分进行计算,得到所述搜索信息的信息评分;分别为所述至少一个搜索信息中每个搜索信息计算信息评分,得到所述至少一个信息评分。
依据本发明第三方面,提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述方法的步骤。
依据本发明第四方面,提供了一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法的步骤。
借由上述技术方案,本发明提供的一种搜索信息获取方法、装置、计算机设备及可读存储介质,本发明按照场景特征对现存的样本词数据进行聚类以及挖掘,形成至少一个针对不同场景特征的推荐词集,从而当接收到待搜索内容时,可以根据用户当前所处的场景的搜索场景特征,确定与当前所处场景匹配的目标推荐词集,在目标推荐词集中确定待搜索内容相关的搜索信息进行展示,保证在为用户提供搜索功能时,将用户在空间上以及时间上的特征都考虑进来,使得为用户展示的搜索信息与用户所处场景达到最大程度的契合,避免对用户的实际需求理解存在偏差,提高了获取到的搜索信息的准确度。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种搜索信息获取方法流程示意图;
图2A示出了本发明实施例提供的一种搜索信息获取方法流程示意图;
图2B示出了本发明实施例提供的一种搜索信息获取方法流程示意图;
图2C示出了本发明实施例提供的一种搜索信息获取方法流程示意图;
图3A示出了本发明实施例提供的一种搜索信息获取装置的结构示意图;
图3B示出了本发明实施例提供的一种搜索信息获取装置的结构示意图;
图3C示出了本发明实施例提供的一种搜索信息获取装置的结构示意图;
图3D示出了本发明实施例提供的一种搜索信息获取装置的结构示意图;
图4示出了本发明实施例提供的一种计算机设备的装置结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种搜索信息获取方法,如图1所示,该方法包括:
101、构建至少一个推荐词集,至少一个推荐词集通过对样本词数据进行场景特征识别并聚类得到,样本词数据至少包括用户的历史搜索数据以及平台接入数据。
102、当接收到待搜索内容时,在至少一个推荐词集中确定目标推荐词集,目标推荐词集对应的目标场景特征与搜索场景特征匹配,搜索场景特征根据接收到待搜索内容的目标搜索时间以及目标搜索位置生成。
103、基于待搜索内容,在目标推荐词集中获取至少一个搜索信息。
104、将至少一个搜索信息进行展示。
本发明实施例提供的方法,按照场景特征对现存的样本词数据进行聚类以及挖掘,形成至少一个针对不同场景特征的推荐词集,从而当接收到待搜索内容时,可以根据用户当前所处的场景的搜索场景特征,确定与当前所处场景匹配的目标推荐词集,在目标推荐词集中确定待搜索内容相关的搜索信息进行展示,保证在为用户提供搜索功能时,将用户在空间上以及时间上的特征都考虑进来,使得为用户展示的搜索信息与用户所处场景达到最大程度的契合,避免对用户的实际需求理解存在偏差,提高了获取到的搜索信息的准确度。
本发明实施例提供了一种搜索信息获取方法,如图2A所示,该方法包括:
201、构建至少一个推荐词集。
发明人认识到,目前搜索引擎在为用户提供信息搜索的服务时,为了将用户的日常搜索习惯结合到对搜索信息的获取过程中,通常会获取用户的历史搜索日志,在历史搜索日志中获取待搜索内容对应的搜索信息,将搜索信息反馈给用户。比如,假设用户当前提交的待搜索内容为“美食”,则搜索引擎会在历史搜索日志中获取用户之前搜索“美食”时为用户提供的搜索词条作为本次需要反馈给用户的内容。但是,对于用户来说,在不同场景以及不同时间下,希望获取到的搜索信息可能是不同的,比如用户在早上搜索“美食”,可能希望获取到有关早餐的搜索信息,面条、馄饨、包子等小食是更适合早上的搜索信息。而在晚上搜索“美食”,可能希望获取到有关晚餐的搜索信息,火锅、川菜等正餐是更适合晚上的搜索信息,这样就会导致按照历史搜索日志对用户进行搜索信息的反馈很有可能使给用户的反馈并不符合用户的当前需求,反馈的信息实质上对用户的帮助不大,不是用户期望的内容,搜索信息的准确度较低。因此,本发明提出了一种搜索信息获取方法,按照场景对现存的样本词数据进行聚类以及挖掘,形成至少一个针对不同场景特征的推荐词集,从而在为用户提供搜索信息时,可以根据用户当前所处的场景,确定与当前所处场景匹配的目标推荐词集,基于目标推荐词集为用户提供与用户提供的搜索信息相关的搜索信息进行展示,从而保证在为用户提供搜索功能时,将用户在空间上以及时间上的特征都考虑进来,使得为用户展示的搜索信息与用户所处场景达到最大程度的契合。
而为了实现本发明中的技术方案,首先,就是需要按照场景对现存的样本词数据进行聚类以及挖掘,形成至少一个针对不同场景特征的推荐词集。其中,样本词数据至少包括用户的历史搜索数据以及平台接入数据。在确定样本词数据时,可以获取用户在指定历史时间段内的历史搜索数据,统计接入平台的门店名称、商品类目、地理名称作为平台接入数据,将历史搜索数据和平台接入数据整理为样本词数据。其中,历史搜索数据实质可为用户在指定历史时间段内的搜索日志数据,这里的搜索日志数据是指用户在搜索框中搜索的内容以及针对用户输入的内容提供的作为搜索结果的内容。平台接入数据实质上是平台中现存的o2o(Online To Offline,线上到线下)领域相关的数据,具体可以为门店名称、商品类目、地理名称。例如,门店名称可以是超市、餐厅、电影院等等,或者还可以是具体品牌的各种门店。商品类目可以是美食、健身等等粗略的类目,也可以是西湖醋鱼、红烧肉等等具体的类目。地理名称可以是中关村、西湖等等与地理位置相关的信息名。
获取到样本词数据后,开始对样本词数据进行场景特征识别,确定样本词数据中包括的每个数据的场景特征,也就是为每个样本词确定适用于的空间以及时间作为场景特征,以便后续按照场景特征将现存的样本词数据进行聚类,形成针对不同场景的推荐词集,其中,本发明中为样本词数据中每个数据确定的场景特征是时间和空间的,属于不同的维度,所以每个数据至少对应一个或者多个场景特征。由于样本词数据可以分为两种,一种是历史搜索数据,另一种是平台接入数据,因此,一方面,对于样本词数据中的历史搜索数据,查询历史搜索数据的产生时间和产生地理位置,确定产生时间所处的第一时间区间,将产生地理位置和第一时间区间作为历史搜索数据的场景特征。其中,产生时间也即是用户曾经在哪个时间点进行了历史搜索数据的搜索并产生了搜索结果。在确定产生时间所处的第一时间区间时,可以事先预设一些预设时间区间,比如5点至11点之间规定的预设时间区间为早间段,12点至15点之间规定的预设时间区间为午间段,16点至19点之间规定的预设时间区间为晚间段,20点至次日4点之间规定的预设时间区间为深夜段,这样,如果某个历史搜索数据的产生时间为16点半,则为该历史搜索数据确定的第一时间区间即为晚间段。需要说明的是,上述设置预设时间区间为一种举例说明,实际应用的过程中,还可以对预设时间区间在时间范围上进行任意的调整,本发明对预设时间区间的规定范围不进行具体限定。再有,产生地理位置也即是用户在哪个位置曾经进行了历史搜索数据的搜索并产生了搜索结果,产生地理位置可以精确到经纬度,以便保证本发明对位置的确认以及识别的精确性。另一方面,对于样本词数据中的平台接入数据,确定提供平台接入数据的目标门店,提取目标门店的门店地理位置,获取平台接入数据的时间属性,确定时间属性对应的第二时间区间,将门店地理位置和第二时间区间作为平台接入数据的场景特征。其中,时间属性也即该平台接入数据适用的时间段,例如,对于平台接入数据中的豆浆油条来说,豆浆油条适用于早餐时间段,对应的时间属性为早餐,而早餐直接对应预设时间区间中的早间段,因此,为豆浆油条确定的第二时间区间可为早间段。需要说明的是,在为平台接入数据确定第二时间区间时,可以采用确定第一时间区间相同的标准,例如可以按照上述设置的预设时间区间来确定,从而保证后续统一对历史搜索数据和平台接入数据的场景特征进行管理。进一步地,有些平台接入数据对应的时间属性的范围可能较大,例如平台接入数据中的超市对应的时间属性为全天,这样,可将多个预设时间区间都作为该平台接入数据的第二时间区间,本发明对第二时间区间的范围不进行限定。
通过上述过程,便为样本词数据中包括的每一个数据设置了空间和时间上的场景特征,而样本词数据中有些数据适用于同一个空间和时间,在进行搜索词的推送时针对相同的场景都可以参考进来,因此,为了保证后续确定搜索内容时足够全面,需要将场景特征一致的样本词数据进行聚类,生成存储场景特征与样本词数据之间映射关系的至少一个词语映射表,将至少一个词语映射表作为至少一个推荐词集,使得至少一个推荐词集中每个推荐词集包括的样本词数据的场景特征一致,以便后续针对不同的场景,按照不同的推荐词集进行搜索信息的获取。例如,针对场景特征“西湖”,生成的词语映射表可如下表1所示,这样,将表1作为场景特征为“西湖”的推荐词集即可。
表1
其中,在对样本词数据进行聚类时,由于场景特征中的产生地理位置或者门店地理位置都可能精确到经纬度,如果只是将经纬度完全相同的样本词数据划分到同一个推荐词集,很可能使这个推荐词集中包括的内容只有一个或者两个,数据量过小,因此,在考虑产生地理位置或者门店地理位置时,可以基于地理名称实现,比如可以设置地理名称为“西湖”,将场景特征中包括的产生地理位置或者门店地理位置位于西湖的且时间区间一致的样本词数据聚类为同一个推荐词集。进一步地,还可以以商圈为标准,比如“西单商圈”,将场景特征中包括的产生地理位置或者门店地理位置位于西单商圈的且时间区间一致的样本词数据聚类为同一个推荐词集。再有,有些样本词数据的场景特征中的时间区间可能适用于多个不同的推荐词集,比如样本词数据“超市”的时间区间为全天,包括早间段、午间段、晚间段和深夜段,则该样本词数据可以聚类到多个不同时间区间的推荐词集中。
202、当接收到待搜索内容时,在至少一个推荐词集中确定目标推荐词集。
在本发明实施例中,当接收到待搜索内容时,便可以开始针对待搜索内容进行搜索信息的获取。其中,由于事先已经按照空间以及时间上的场景对样本词数据进行了聚类,生成了适用于不同场景的至少一个推荐词集,因此,在接收到待搜索内容时,需要确定当前场景的搜索场景特征,按照搜索场景特征在至少一个推荐词集中确定符合当前场景的目标推荐词集,以便在后续基于该目标推荐词集进行待搜索内容的搜索,保证获取到的搜索信息与用户当前所处的场景更加契合。
在确定目标推荐词集时,首先需要确定用户在进行搜索时所处场景的搜索场景特征,并以该搜索场景特征为标准,提取目标推荐词集。其中,搜索场景特征是根据接收到待搜索内容的目标搜索时间以及目标搜索位置生成,生成搜索场景特征的具体过程如下:当接收到待搜索内容时,对用户当前所处位置进行定位,获取目标搜索位置,并确定接收到待搜索内容的目标搜索时间,查询目标搜索时间所属的第三时间区间,将目标搜索位置和第三时间区间进行组合,生成搜索场景特征。例如,假设确定的目标搜索位置为“西单”,确定的第三时间区间为“早间段”,则生成的搜索场景特征可为“西单+早间段”的形式。其中,确定第三时间区间的过程与上述步骤201中确定第一时间区间的过程一致,且目标搜索位置也可以参照上述步骤201中的产生地理位置的标准,精确到经纬度,此处不再赘述。
随后,分别将至少一个推荐词集对应的场景特征与搜索场景特征进行比对,提取目标推荐词集。其中,目标推荐词集对应的目标场景特征与搜索场景特征匹配。在将至少一个推荐词集对应的场景特征与搜索场景特征进行比对时,可先将搜索场景特征中的第三时间区间与至少一个推荐词集的场景特征进行比对,在至少一个推荐词中确定候选词集,候选词集的场景特征包括的时间区间与第三时间区间一致。比如,假设搜索场景特征的第三时间区间为早间段,则将至少一个推荐词集中场景特征为早间段的推荐词集作为候选词集。之后,以搜索场景特征的目标搜索位置为中心点,形成目标搜索区域,根据目标搜索区域,在候选词集中提取目标推荐词集,目标推荐词集的场景特征包括的地理位置位于目标搜索区域内。其中,为了形成目标搜索区域,可以实现预设一个区域范围值,例如3公里、5公里等等,将目标搜索位置为中心点的3公里或者5公里等等范围作为目标搜索区域,这样,便可以直接将场景特征指示的位置位于该目标搜索区域中的候选词集作为目标推荐词集。需要说明的是,按照上述方式确定的目标推荐词集实质上可能为一个或者多个,只要符合用户当前所处场景的搜索场景特征的推荐词集都可以作为目标推荐词集。
203、基于待搜索内容,在目标推荐词集中获取至少一个搜索信息。
在本发明实施例中,确定了目标推荐词集后,基于待搜索内容,在目标推荐词集中获取至少一个搜索信息。其中,在确定至少一个搜索信息时,可以采用两种方式,一种方式是,获取目标推荐词集包括的全部推荐词的推荐词属性,在全部推荐词中提取推荐词属性包括待搜索内容的推荐词作为至少一个搜索信息。例如,假设待搜索内容为“美食”,则将推荐词属性为“美食”的推荐词作为搜索信息,比如西湖醋鱼、红烧肉、烤鸭、馄饨等都可以作为搜索信息。另一种方式是,采用待搜索内容进行文本查询,将文本中包括待搜索内容的推荐词作为至少一个搜索信息。例如,继续以待搜索内容为“美食”作为假设,则将文本中包括“美食”的推荐词作为搜索信息,例如美食城、胡同美食等等都可以作为搜索信息。
在实际应用的过程中,可以使用上述任一种方式来获取至少一个搜索信息,从而提高获取至少一个搜索信息的效率。或者也可以将两种方式结合起来获取至少一个搜索信息,从而保证获取到的至少一个搜索信息的全面性。本发明对提取搜索信息的方式不进行具体限定。
204、基于待搜索内容和搜索场景特征,对至少一个搜索信息进行评分,得到至少一个信息评分。
在本发明实施例中,不同搜索信息与用户当前所处场景以及用户希望搜索的内容在关联性上是存在差距的,例如,假设用户的待搜索内容为“文”字,获取到的搜索信息包括“文一路”和“文三路”,而“文一路”距离用户更近,则用户可能更倾向于查询“文一路”,这样,“文一路”相较于“文三路”来说,与待搜索内容和搜索场景特征的关联更为密切,因此,为了将这些关联更为密切的搜索信息优先展示给用户,当获取到至少一个搜索信息后,可以基于待搜索内容和搜索场景特征,对至少一个搜索信息进行评分,得到至少一个信息评分,进而在后续按照信息评分来顺序展示至少一个搜索信息。
其中,至少一个信息评分中每个信息评分至少包括文本相关性评分和场景匹配分。计算信息评分的具体过程如下:对于至少一个搜索信息中每个搜索信息,首先,分别对待搜索内容和搜索信息进行分词处理,计算待搜索内容与搜索信息的文本相关性评分。例如,可以计算搜索信息与待搜索内容重合的字数在搜索信息总字数中所占的百分比作为文本相关性评分。或者,也可以建立一个端到端的相关性分析模型,将搜索信息和待搜索内容输入至该相关性分析模型中,从而输出待搜索内容与搜索信息的文本相关性,进而按照这个文本相关性进行评分,得到文本相关性评分。本发明对计算文本相关性评分的方式不进行具体限定。
随后,获取预设场景匹配模型,将搜索场景特征和搜索信息的目标场景特征输入至预设场景匹配模型,基于预设场景匹配模型,输出搜索场景特征和目标场景特征的场景匹配分。其中,该预设场景匹配模型可以是采用多个样本场景特征训练的深度学习模型。或者,也可以计算搜索场景特征和目标场景特征的相似度,将相似度作为场景匹配分。例如,可先计算搜索场景特征的时间区间在目标场景特征包括的时间区间中的占比,是否是目标场景特征中包括的唯一时间区间,还是多个时间区间中的一个。之后,再统计搜索场景特征中的地理位置与目标场景特征中地理位置之间的距离,以权重计算的方式将得到的两种参数结合起来,形成搜索场景特征和目标场景特征的相似度,将相似度作为场景匹配分。本发明对计算搜索场景特征和目标场景特征的场景匹配分的方式不进行具体限定。
进一步地,历史搜索数据和平台接入数据相较而言,历史搜索数据是用户自身产生的,曾经被用户所命中,所以历史搜索数据在来源方面比平台接入数据更有优势,为了将这个优势体现出来,所以,本发明中还会确定搜索信息的信息来源,查询信息来源对应的来源预设分,其中,信息来源至少为历史搜索数据或平台接入数据中的任一种,并将这个来源预设分也考虑到对搜索信息的评分中。
最后,采用文本相关性评分、场景匹配分以及来源预设分对应的权重,对文本相关性评分、场景匹配分以及来源预设分进行计算,得到搜索信息的信息评分。具体可以分别获取文本相关性评分、场景匹配分以及来源预设分对应的权重,计算文本相关性评分与其对应权重的第一乘积,计算场景匹配分与其对应权重的第二乘积,计算来源预设分与其对应权重的第三乘积,将第一乘积、第二乘积以及第三乘积的和作为搜索信息的信息评分。或者,也可以直接将文本相关性评分、场景匹配分以及来源预设分的总和作为该搜索信息的信息评分。本发明对将文本相关性评分、场景匹配分以及来源预设分综合生成搜索信息的信息评分的方式不进行具体限定。
重复执行上述计算信息评分的过程,便可以分别为至少一个搜索信息中每个搜索信息计算信息评分,得到至少一个信息评分。
205、按照至少一个信息评分从大到小的顺序,对至少一个搜索信息进行排序,将排序后的至少一个搜索信息进行展示。
在本发明实施例中,当对至少一个搜索信息进行评分得到至少一个信息评分后,便可以对至少一个搜索信息进行排序,将排序后的至少一个搜索信息进行展示。其中,在对至少一个搜索信息进行展示时,考虑到展示的区域是有限的,有时至少一个搜索信息的数量过多可能无法全部展示在区域中,因此,还可以设置一个数量阈值,将信息评分排在前面的数量阈值的搜索信息进行展示。例如,假设数量阈值为10,则将信息评分排在前面的10个搜索信息进行展示即可。
实际应用的过程中,上述整个搜索信息获取过程总结如下:
首先,需要准备好至少一个推荐词集。参见图2B,整理得到历史搜索数据以及平台接入数据作为样本词数据,在空间和时间上对样本词数据进行场景特征的识别,按照场景特征对样本词数据进行聚类,得到至少一个推荐词集,并将至少一个推荐词集引入到用户的搜索引擎中,以便后续依赖至少一个推荐词集进行搜索信息的获取。
随后,开始基于搜索引擎中引入的至少一个推荐词集进行搜索信息的获取。参见图2C,当用户进行待搜索内容的搜索时,在空间和时间上对用户当前所处场景进行场景特征的识别,从而确定符合用户当前所处场景的目标推荐词集,在目标推荐词集中执行待搜索内容的搜索。
本发明实施例提供的方法,按照场景特征对现存的样本词数据进行聚类以及挖掘,形成至少一个针对不同场景特征的推荐词集,从而当接收到待搜索内容时,可以根据用户当前所处的场景的搜索场景特征,确定与当前所处场景匹配的目标推荐词集,在目标推荐词集中确定待搜索内容相关的搜索信息进行展示,保证在为用户提供搜索功能时,将用户在空间上以及时间上的特征都考虑进来,使得为用户展示的搜索信息与用户所处场景达到最大程度的契合,避免对用户的实际需求理解存在偏差,提高了获取到的搜索信息的准确度。
进一步地,作为图1所述方法的具体实现,本发明实施例提供了一种搜索信息获取装置,如图3A所示,所述装置包括:构建模块301,确定模块302,获取模块303和展示模块304。
该构建模块301,用于构建至少一个推荐词集,所述至少一个推荐词集通过对样本词数据进行场景特征识别并聚类得到,所述样本词数据至少包括用户的历史搜索数据以及平台接入数据;
该确定模块302,用于当接收到待搜索内容时,在所述至少一个推荐词集中确定目标推荐词集,所述目标推荐词集对应的目标场景特征与搜索场景特征匹配,所述搜索场景特征根据接收到所述待搜索内容的目标搜索时间以及目标搜索位置生成;
该获取模块303,用于基于所述待搜索内容,在所述目标推荐词集中获取至少一个搜索信息;
该展示模块304,用于将所述至少一个搜索信息进行展示。
在具体的应用场景中,如图3B所示,该构建模块301,包括:统计单元3011,确定单元3012和聚类单元3013。
该统计单元3011,用于获取用户在指定历史时间段内的所述历史搜索数据,统计平台的所述平台接入数据,将所述历史搜索数据和所述平台接入数据整理为所述样本词数据;
该确定单元3012,用于对所述样本词数据进行场景特征识别,确定所述样本词数据中包括的每个数据的场景特征,所述每个数据至少对应一个或者多个所述场景特征;
该聚类单元3013,用于将所述场景特征一致的所述样本词数据进行聚类,生成存储所述场景特征与所述样本词数据之间映射关系的至少一个词语映射表,将所述至少一个词语映射表作为所述至少一个推荐词集,所述至少一个推荐词集中每个推荐词集包括的样本词数据的场景特征一致。
在具体的应用场景中,该确定单元3012,用于对于所述样本词数据中的所述历史搜索数据,查询所述历史搜索数据的产生时间和产生地理位置;确定所述产生时间所处的第一时间区间,将所述产生地理位置和所述第一时间区间作为所述历史搜索数据的场景特征;对于所述样本词数据中的所述平台接入数据,确定提供所述平台接入数据的目标门店,提取所述目标门店的门店地理位置;获取所述平台接入数据的时间属性,确定所述时间属性对应的第二时间区间;将所述门店地理位置和所述第二时间区间作为所述平台接入数据的场景特征。
在具体的应用场景中,如图3C所示,该确定模块302,包括:定位单元3021,查询单元3022,组合单元3023和提取单元3024。
该定位单元3021,用于当接收到所述待搜索内容时,对所述用户当前所处位置进行定位,获取所述目标搜索位置;
该查询单元3022,用于确定接收到所述待搜索内容的所述目标搜索时间,查询所述目标搜索时间所属的第三时间区间;
该组合单元3023,用于将所述目标搜索位置和所述第三时间区间进行组合,生成所述搜索场景特征;
该提取单元3024,用于分别将所述至少一个推荐词集对应的场景特征与所述搜索场景特征进行比对,提取所述目标推荐词集。
在具体的应用场景中,该提取单元3024,用于将所述第三时间区间与所述至少一个推荐词集的场景特征进行比对,在所述至少一个推荐词中确定候选词集,所述候选词集的场景特征包括的时间区间与所述第三时间区间一致;以所述目标搜索位置为中心点,形成目标搜索区域,根据所述目标搜索区域,在所述候选词集中提取所述目标推荐词集,所述目标推荐词集的场景特征包括的地理位置位于所述目标搜索区域内。
在具体的应用场景中,该获取模块303,用于获取所述目标推荐词集包括的全部推荐词的推荐词属性,在所述全部推荐词中提取推荐词属性包括所述待搜索内容的推荐词作为所述至少一个搜索信息;和/或,采用所述待搜索内容进行文本查询,将文本中包括所述待搜索内容的推荐词作为所述至少一个搜索信息。
在具体的应用场景中,如图3D所示,该展示模块304,包括:评分单元3041,排序单元3042和展示单元3043。
该评分单元3041,用于基于所述待搜索内容和所述搜索场景特征,对所述至少一个搜索信息进行评分,得到至少一个信息评分,所述至少一个信息评分中每个信息评分至少包括文本相关性评分和场景匹配分;
该排序单元3042,用于按照所述至少一个信息评分从大到小的顺序,对所述至少一个搜索信息进行排序;
该展示单元3043,用于将排序后的所述至少一个搜索信息进行展示。
在具体的应用场景中,该评分单元3041,用于对于所述至少一个搜索信息中每个搜索信息,分别对所述待搜索内容和所述搜索信息进行分词处理,计算所述待搜索内容与所述搜索信息的文本相关性评分;获取预设场景匹配模型,将所述搜索场景特征和所述搜索信息的目标场景特征输入至所述预设场景匹配模型,基于所述预设场景匹配模型,输出所述搜索场景特征和所述目标场景特征的场景匹配分;确定所述搜索信息的信息来源,查询所述信息来源对应的来源预设分,所述信息来源至少为所述历史搜索数据或所述平台接入数据中的任一种;采用所述文本相关性评分、所述场景匹配分以及所述来源预设分对应的权重,对所述文本相关性评分、所述场景匹配分以及所述来源预设分进行计算,得到所述搜索信息的信息评分;分别为所述至少一个搜索信息中每个搜索信息计算信息评分,得到所述至少一个信息评分。
本发明实施例提供的装置,按照场景特征对现存的样本词数据进行聚类以及挖掘,形成至少一个针对不同场景特征的推荐词集,从而当接收到待搜索内容时,可以根据用户当前所处的场景的搜索场景特征,确定与当前所处场景匹配的目标推荐词集,在目标推荐词集中确定待搜索内容相关的搜索信息进行展示,保证在为用户提供搜索功能时,将用户在空间上以及时间上的特征都考虑进来,使得为用户展示的搜索信息与用户所处场景达到最大程度的契合,避免对用户的实际需求理解存在偏差,提高了获取到的搜索信息的准确度。
需要说明的是,本发明实施例提供的一种搜索信息获取装置所涉及各功能单元的其他相应描述,可以参考图1和图2A至图2C中的对应描述,在此不再赘述。
在示例性实施例中,参见图4,还提供了一种设备,该设备400包括通信总线、处理器、存储器和通信接口,还可以包括、输入输出接口和显示设备,其中,各个功能单元之间可以通过总线完成相互间的通信。该存储器存储有计算机程序,处理器,用于执行存储器上所存放的程序,执行上述实施例中的搜索信息获取方法。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的搜索信息获取方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。
本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。
以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。
Claims (10)
1.一种搜索信息获取方法,其特征在于,包括:
构建至少一个推荐词集,所述至少一个推荐词集通过对样本词数据进行场景特征识别并聚类得到,所述样本词数据至少包括用户的历史搜索数据以及平台接入数据;
当接收到待搜索内容时,在所述至少一个推荐词集中确定目标推荐词集,所述目标推荐词集对应的目标场景特征与搜索场景特征匹配,所述搜索场景特征根据接收到所述待搜索内容的目标搜索时间以及目标搜索位置生成;
基于所述待搜索内容,在所述目标推荐词集中获取至少一个搜索信息;
将所述至少一个搜索信息进行展示。
2.根据权利要求1所述的方法,其特征在于,所述构建至少一个推荐词集,包括:
获取用户在指定历史时间段内的所述历史搜索数据,统计平台的所述平台接入数据,将所述历史搜索数据和所述平台接入数据整理为所述样本词数据;
对所述样本词数据进行场景特征识别,确定所述样本词数据中包括的每个数据的场景特征,所述每个数据至少对应一个或者多个所述场景特征;
将所述场景特征一致的所述样本词数据进行聚类,生成存储所述场景特征与所述样本词数据之间映射关系的至少一个词语映射表,将所述至少一个词语映射表作为所述至少一个推荐词集,所述至少一个推荐词集中每个推荐词集包括的样本词数据的场景特征一致。
3.根据权利要求2所述的方法,其特征在于,所述确定所述样本词数据中包括的每个数据的场景特征,包括:
对于所述样本词数据中的所述历史搜索数据,查询所述历史搜索数据的产生时间和产生地理位置;
确定所述产生时间所处的第一时间区间,将所述产生地理位置和所述第一时间区间作为所述历史搜索数据的场景特征;
对于所述样本词数据中的所述平台接入数据,确定提供所述平台接入数据的目标门店,提取所述目标门店的门店地理位置;
获取所述平台接入数据的时间属性,确定所述时间属性对应的第二时间区间;
将所述门店地理位置和所述第二时间区间作为所述平台接入数据的场景特征。
4.根据权利要求1所述的方法,其特征在于,所述当接收到待搜索内容时,在所述至少一个推荐词集中确定目标推荐词集,包括:
当接收到所述待搜索内容时,对所述用户当前所处位置进行定位,获取所述目标搜索位置;
确定接收到所述待搜索内容的所述目标搜索时间,查询所述目标搜索时间所属的第三时间区间;
将所述目标搜索位置和所述第三时间区间进行组合,生成所述搜索场景特征;
分别将所述至少一个推荐词集对应的场景特征与所述搜索场景特征进行比对,提取所述目标推荐词集。
5.根据权利要求4所述的方法,其特征在于,所述分别将所述至少一个推荐词集对应的场景特征与所述搜索场景特征进行比对,提取所述目标推荐词集,包括:
将所述第三时间区间与所述至少一个推荐词集的场景特征进行比对,在所述至少一个推荐词中确定候选词集,所述候选词集的场景特征包括的时间区间与所述第三时间区间一致;
以所述目标搜索位置为中心点,形成目标搜索区域,根据所述目标搜索区域,在所述候选词集中提取所述目标推荐词集,所述目标推荐词集的场景特征包括的地理位置位于所述目标搜索区域内。
6.根据权利要求1所述的方法,其特征在于,所述基于所述待搜索内容,在所述目标推荐词集中获取至少一个搜索信息,包括:
获取所述目标推荐词集包括的全部推荐词的推荐词属性,在所述全部推荐词中提取推荐词属性包括所述待搜索内容的推荐词作为所述至少一个搜索信息;和/或,
采用所述待搜索内容进行文本查询,将文本中包括所述待搜索内容的推荐词作为所述至少一个搜索信息。
7.根据权利要求1所述的方法,其特征在于,所述将所述至少一个搜索信息进行展示,包括:
基于所述待搜索内容和所述搜索场景特征,对所述至少一个搜索信息进行评分,得到至少一个信息评分,所述至少一个信息评分中每个信息评分至少包括文本相关性评分和场景匹配分;
按照所述至少一个信息评分从大到小的顺序,对所述至少一个搜索信息进行排序;
将排序后的所述至少一个搜索信息进行展示。
8.根据权利要求7所述的方法,其特征在于,所述基于所述待搜索内容和所述搜索场景特征,对所述至少一个搜索信息进行评分,得到至少一个信息评分,包括:
对于所述至少一个搜索信息中每个搜索信息,分别对所述待搜索内容和所述搜索信息进行分词处理,计算所述待搜索内容与所述搜索信息的文本相关性评分;
获取预设场景匹配模型,将所述搜索场景特征和所述搜索信息的目标场景特征输入至所述预设场景匹配模型,基于所述预设场景匹配模型,输出所述搜索场景特征和所述目标场景特征的场景匹配分;
确定所述搜索信息的信息来源,查询所述信息来源对应的来源预设分,所述信息来源至少为所述历史搜索数据或所述平台接入数据中的任一种;
采用所述文本相关性评分、所述场景匹配分以及所述来源预设分对应的权重,对所述文本相关性评分、所述场景匹配分以及所述来源预设分进行计算,得到所述搜索信息的信息评分;
分别为所述至少一个搜索信息中每个搜索信息计算信息评分,得到所述至少一个信息评分。
9.一种搜索信息获取装置,其特征在于,包括:
构建模块,用于构建至少一个推荐词集,所述至少一个推荐词集通过对样本词数据进行场景特征识别并聚类得到,所述样本词数据至少包括用户的历史搜索数据以及平台接入数据;
确定模块,用于当接收到待搜索内容时,在所述至少一个推荐词集中确定目标推荐词集,所述目标推荐词集对应的目标场景特征与搜索场景特征匹配,所述搜索场景特征根据接收到所述待搜索内容的目标搜索时间以及目标搜索位置生成;
获取模块,用于基于所述待搜索内容,在所述目标推荐词集中获取至少一个搜索信息;
展示模块,用于将所述至少一个搜索信息进行展示。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010565206.4A CN111737574B (zh) | 2020-06-19 | 2020-06-19 | 搜索信息获取方法、装置、计算机设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010565206.4A CN111737574B (zh) | 2020-06-19 | 2020-06-19 | 搜索信息获取方法、装置、计算机设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111737574A true CN111737574A (zh) | 2020-10-02 |
CN111737574B CN111737574B (zh) | 2024-01-26 |
Family
ID=72650410
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010565206.4A Active CN111737574B (zh) | 2020-06-19 | 2020-06-19 | 搜索信息获取方法、装置、计算机设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111737574B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112596617A (zh) * | 2020-12-25 | 2021-04-02 | 维沃移动通信有限公司 | 消息内容的输入方法、装置和电子设备 |
CN112818216A (zh) * | 2021-01-13 | 2021-05-18 | 平安科技(深圳)有限公司 | 客户推荐方法、装置、电子设备及存储介质 |
CN114238782A (zh) * | 2021-12-14 | 2022-03-25 | 北京达佳互联信息技术有限公司 | 数据处理方法、装置、服务器及计算机可读存储介质 |
CN116204568A (zh) * | 2023-05-04 | 2023-06-02 | 华能信息技术有限公司 | 一种数据挖掘分析方法 |
WO2023151576A1 (zh) * | 2022-02-08 | 2023-08-17 | 中兴通讯股份有限公司 | 搜索推荐方法、搜索推荐系统、计算机设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140127647A1 (en) * | 2012-11-08 | 2014-05-08 | International Business Machines Corporation | Concept noise reduction in deep question answering systems |
CN105224554A (zh) * | 2014-06-11 | 2016-01-06 | 阿里巴巴集团控股有限公司 | 推荐搜索词进行搜索的方法、系统、服务器和智能终端 |
CN107798066A (zh) * | 2017-09-25 | 2018-03-13 | 北京小度信息科技有限公司 | 一种搜索词推送方法、装置及终端 |
CN109948072A (zh) * | 2019-02-15 | 2019-06-28 | 浙江口碑网络技术有限公司 | 店铺搜索信息的处理方法、装置及设备 |
CN110020148A (zh) * | 2017-11-29 | 2019-07-16 | 北京搜狗科技发展有限公司 | 一种信息推荐方法、装置和用于信息推荐的装置 |
US20190325079A1 (en) * | 2018-04-24 | 2019-10-24 | Rovi Guides, Inc. | Systems and methods for updating search results based on a conversation |
CN110399568A (zh) * | 2019-07-04 | 2019-11-01 | Oppo广东移动通信有限公司 | 信息搜索方法、装置、终端及存储介质 |
CN110532351A (zh) * | 2019-07-19 | 2019-12-03 | 口口相传(北京)网络技术有限公司 | 推荐词展示方法、装置、设备及计算机可读存储介质 |
CN111080339A (zh) * | 2019-11-18 | 2020-04-28 | 口口相传(北京)网络技术有限公司 | 基于场景的类目偏好数据生成方法及装置 |
CN111191133A (zh) * | 2019-12-31 | 2020-05-22 | 口口相传(北京)网络技术有限公司 | 业务搜索处理方法、装置及设备 |
-
2020
- 2020-06-19 CN CN202010565206.4A patent/CN111737574B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140127647A1 (en) * | 2012-11-08 | 2014-05-08 | International Business Machines Corporation | Concept noise reduction in deep question answering systems |
CN105224554A (zh) * | 2014-06-11 | 2016-01-06 | 阿里巴巴集团控股有限公司 | 推荐搜索词进行搜索的方法、系统、服务器和智能终端 |
CN107798066A (zh) * | 2017-09-25 | 2018-03-13 | 北京小度信息科技有限公司 | 一种搜索词推送方法、装置及终端 |
CN110020148A (zh) * | 2017-11-29 | 2019-07-16 | 北京搜狗科技发展有限公司 | 一种信息推荐方法、装置和用于信息推荐的装置 |
US20190325079A1 (en) * | 2018-04-24 | 2019-10-24 | Rovi Guides, Inc. | Systems and methods for updating search results based on a conversation |
CN109948072A (zh) * | 2019-02-15 | 2019-06-28 | 浙江口碑网络技术有限公司 | 店铺搜索信息的处理方法、装置及设备 |
CN110399568A (zh) * | 2019-07-04 | 2019-11-01 | Oppo广东移动通信有限公司 | 信息搜索方法、装置、终端及存储介质 |
CN110532351A (zh) * | 2019-07-19 | 2019-12-03 | 口口相传(北京)网络技术有限公司 | 推荐词展示方法、装置、设备及计算机可读存储介质 |
CN111080339A (zh) * | 2019-11-18 | 2020-04-28 | 口口相传(北京)网络技术有限公司 | 基于场景的类目偏好数据生成方法及装置 |
CN111191133A (zh) * | 2019-12-31 | 2020-05-22 | 口口相传(北京)网络技术有限公司 | 业务搜索处理方法、装置及设备 |
Non-Patent Citations (2)
Title |
---|
李竞飞 等: "融合用户实时搜索状态的自适应查询推荐模型", 《计算机科学与探索》, vol. 10, no. 09, pages 1290 - 1298 * |
邱利茂, 刘嘉勇: "基于文档词典的文本关联关键词推荐技术", 《现代计算机(专业版)》, vol. 07, pages 46 - 50 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112596617A (zh) * | 2020-12-25 | 2021-04-02 | 维沃移动通信有限公司 | 消息内容的输入方法、装置和电子设备 |
WO2022135339A1 (zh) * | 2020-12-25 | 2022-06-30 | 维沃移动通信有限公司 | 消息内容的输入方法、装置和电子设备 |
CN112818216A (zh) * | 2021-01-13 | 2021-05-18 | 平安科技(深圳)有限公司 | 客户推荐方法、装置、电子设备及存储介质 |
CN112818216B (zh) * | 2021-01-13 | 2021-09-28 | 平安科技(深圳)有限公司 | 客户推荐方法、装置、电子设备及存储介质 |
CN114238782A (zh) * | 2021-12-14 | 2022-03-25 | 北京达佳互联信息技术有限公司 | 数据处理方法、装置、服务器及计算机可读存储介质 |
WO2023151576A1 (zh) * | 2022-02-08 | 2023-08-17 | 中兴通讯股份有限公司 | 搜索推荐方法、搜索推荐系统、计算机设备及存储介质 |
CN116204568A (zh) * | 2023-05-04 | 2023-06-02 | 华能信息技术有限公司 | 一种数据挖掘分析方法 |
CN116204568B (zh) * | 2023-05-04 | 2023-10-03 | 华能信息技术有限公司 | 一种数据挖掘分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111737574B (zh) | 2024-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111737574B (zh) | 搜索信息获取方法、装置、计算机设备及可读存储介质 | |
CN105335519B (zh) | 模型生成方法及装置、推荐方法及装置 | |
CN108304444B (zh) | 信息查询方法及装置 | |
CN106709040B (zh) | 一种应用搜索方法和服务器 | |
CN105824959B (zh) | 舆情监控方法及系统 | |
CN110532351B (zh) | 推荐词展示方法、装置、设备及计算机可读存储介质 | |
CN109783671B (zh) | 一种以图搜图的方法、计算机可读介质及服务器 | |
CN105045875B (zh) | 个性化信息检索方法及装置 | |
US10565253B2 (en) | Model generation method, word weighting method, device, apparatus, and computer storage medium | |
CN110110225B (zh) | 基于用户行为数据分析的在线教育推荐模型及构建方法 | |
CN112307366B (zh) | 一种信息展示的方法、装置及计算机存储介质 | |
CN110334271B (zh) | 一种搜索结果优化方法、系统、电子设备及存储介质 | |
CN104951435A (zh) | 聊天过程中智能显示关键词的方法及装置 | |
CN111400507A (zh) | 实体匹配方法及其装置 | |
WO2022262849A1 (zh) | 搜索结果输出方法、装置、计算机设备及可读存储介质 | |
Shimoda et al. | Learning food image similarity for food image retrieval | |
CN108595411B (zh) | 一种同主题文本集合中多文本摘要获取方法 | |
CN107092621A (zh) | 信息搜索方法及装置 | |
KR101346927B1 (ko) | 검색 장치, 검색 방법, 및 검색 프로그램을 기억하는 컴퓨터 판독 가능한 기록 매체 | |
CN109241360B (zh) | 组合字符串的匹配方法及装置和电子设备 | |
CN111582967A (zh) | 内容搜索方法、装置、设备及存储介质 | |
CN108536763B (zh) | 一种下拉提示方法和装置 | |
CN104331510B (zh) | 信息管理方法和装置 | |
CN108153785B (zh) | 生成展示信息的方法和装置 | |
CN117009667A (zh) | 一种搜索方法、搜索装置以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |