CN111723296B - 搜索处理方法、装置及计算机设备 - Google Patents

搜索处理方法、装置及计算机设备 Download PDF

Info

Publication number
CN111723296B
CN111723296B CN202010850891.5A CN202010850891A CN111723296B CN 111723296 B CN111723296 B CN 111723296B CN 202010850891 A CN202010850891 A CN 202010850891A CN 111723296 B CN111723296 B CN 111723296B
Authority
CN
China
Prior art keywords
search
user
words
object information
statement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010850891.5A
Other languages
English (en)
Other versions
CN111723296A (zh
Inventor
许林隆
苑爱泉
马骐
芦亚飞
王晓峰
王宇昊
桑梓森
何旺贵
万家雪
朱培源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Koubei Network Technology Co Ltd
Original Assignee
Zhejiang Koubei Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Koubei Network Technology Co Ltd filed Critical Zhejiang Koubei Network Technology Co Ltd
Priority to CN202010850891.5A priority Critical patent/CN111723296B/zh
Publication of CN111723296A publication Critical patent/CN111723296A/zh
Application granted granted Critical
Publication of CN111723296B publication Critical patent/CN111723296B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供一种搜索处理方法、装置及计算机设备,所述方法对用户输入的原始搜索语句所包含的一个或多个词语配置标签,标签包括两类,一类是表征位置语义的位置类标签,一类是表征内容语义的内容类标签;因此可以利用配置为位置类标签的词语,预测用户偏好的第一搜索对象信息,可以利用配置为内容类标签的词语,预测用户偏好的第二搜索对象信息;因此在搜索处理时,可以结合预测的用户偏好,搜索到匹配所述配置为位置类标签的词语所述第一搜索对象信息的搜索对象,或者是匹配所述配置为内容类标签的词语和第二搜索对象信息的搜索对象,可见,可以在标签及偏好的指示下获得更为准确的搜索结果。

Description

搜索处理方法、装置及计算机设备
技术领域
本说明书涉及互联网技术领域,尤其涉及搜索处理方法、装置及计算机设备。
背景技术
搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。搜索引擎的出现,为用户使用网络信息提供了便利性,用户可以从互联网提供的海量数据中检索出自己需要的信息。如何向用户提供更为准确的搜索结果,成为亟待解决的技术问题。
发明内容
为克服相关技术中存在的问题,本说明书提供了搜索处理方法、装置及计算机设备。
根据本说明书实施例的第一方面,提供一种搜索处理方法,所述方法包括:
获取用户输入的原始搜索语句;
为所述原始搜索语句相应的一个或多个词语配置标签;其中,所述标签包括表征位置语义的位置类标签或表征内容语义的内容类标签;
利用配置为位置类标签的词语,预测用户偏好的第一搜索对象信息;和/或,利用配置为内容类标签的词语,预测用户偏好的第二搜索对象信息;
获取搜索结果返回给所述用户,所述搜索结果中包括的搜索对象匹配所述配置为位置类标签的词语所述第一搜索对象信息,或者匹配所述配置为内容类标签的词语和第二搜索对象信息。
根据本说明书实施例的第二方面,提供一种搜索处理装置,所述装置包括:
语句获取模块,用于:获取用户输入的原始搜索语句;
标签配置模块,用于:为所述原始搜索语句相应的一个或多个词语配置标签;其中,所述标签包括表征位置语义的位置类标签或表征内容语义的内容类标签;
预测模块,用于:利用配置为位置类标签的词语,预测用户偏好的第一搜索对象信息;和/或,利用配置为内容类标签的词语,预测用户偏好的第二搜索对象信息;
搜索处理模块,用于:获取搜索结果返回给所述用户,所述搜索结果中包括的搜索对象匹配所述配置为位置类标签的词语所述第一搜索对象信息,或者匹配所述配置为内容类标签的词语和第二搜索对象信息。
可选的,所述原始搜索语句相应的一个或多个词语,包括:原始搜索语句中包含的词语,以及与所述原始搜索语句相关的补充语句中包含的词语。
可选的,所述补充语句通过对所述原始搜索语句中包含的词语进行如下一种或多种处理得到:纠错处理、改写处理、同义词处理或别名处理。
可选的,所述标签配置模块,还用于:
对所述原始搜索语句和补充语句进行命名实体NER识别,获得NER识别结果,所述识别结果包括:所述原始搜索语句中一个或多个属于实体的词语、所述补充语句中一个或多个属于实体的词语以及所述属于实体的词语的类别;
基于所述原始搜索语句、补充语句、所述属于实体的词语以及所述属于实体的词语的类别,对所述属于实体的词语配置标签。
可选的,所述标签配置模块,还用于:
将所述原始搜索语句、补充语句、所述属于实体的词语以及所述属于实体的词语的类别输入至标签配置模型,获取所述标签配置模型对所述属于实体的词语的标签配置结果。
可选的,所述第一搜索对象信息包括搜索对象的第一类目,所述第二搜索对象信息包括搜索对象的第二类目。
可选的,所述预测模块,还用于:
将配置为内容类标签的词语与预设类目数据库中搜索对象的类目进行相关性分析,根据相关性分析结果确定用户偏好的搜索对象的类目。
可选的,所述预测模块,还用于:
确定所述配置为位置类标签的词语所属的地理位置范围,获取在所述地理位置范围内的一个或多个搜索对象,确定目标类目为用户偏好的第一搜索对象信息;其中,在所述获取的一个或多个搜索对象中,对应所述目标类目的搜索对象的数量,大于其他类目对应的搜索对象的数量;或,
获取历史用户搜索日志,基于所述历史用户搜索日志中记录的用户行为特征预测用户偏好的第一搜索对象信息;其中,所述历史用户搜索日志记录的历史搜索内容与所述位置类标签的词语相关,所述用户行为特征是指历史用户对所述历史搜索内容对应的搜索结果的行为特征;
或,若特定词数据库中记录有与所述配置为位置类标签的词语匹配的特定词,将所述特定词对应的特定搜索对象信息作为所述用户偏好的第一搜索对象信息;所述特定词数据库中记录有至少一个特定词与对应的特定搜索对象信息。
可选的,若所述原始搜索内容只对应有配置为位置类标签的词语,则所述预测模块只用于:利用配置为位置类标签的词语,预测用户偏好的第一搜索对象信息;
若所述原始搜索内容只对应有内容类标签的词语,则所述预测模块只用于:利用配置为内容类标签的词语,预测用户偏好的第二搜索对象信息。
可选的,所述预测模块,还用于:若所述原始搜索内容只对应有配置为内容类标签的词语,获取客户端识别的用户地理位置范围,利用所述配置为内容类标签的词语和所述获取的用户地理位置范围预测用户偏好的第二搜索对象信息。
可选的,所述位置类标签包括如下一类或多类标签:行政区域,道路,商圈或商场。
可选的,所述内容类标签包括如下一类或多类标签:店铺、商品或类目。
可选的,所述搜索处理模块,还用于:
搜索至少与所述配置为位置类标签的词语以及与所述第一搜索对象信息匹配的第一候选对象集,和/或搜索至少与所述配置为内容类标签的词语以及与所述第二搜索对象信息匹配的第二候选对象集;
基于所述第一候选对象集和/或第二候选对象集确定搜索结果并返回给所述用户。
可选的,所述搜索处理模块,还用于:
在对应所述第一搜索对象信息的数据集中,搜索出至少与所述配置为位置类标签的词语匹配的第一候选对象集;
所述搜索至少与所述配置为内容类标签的词语以及与所述第二搜索对象信息匹配的第二候选对象集,包括:
在对应所述第二搜索对象信息的数据集中,搜索出至少与所述配置为内容类标签的词语匹配的第二候选对象集。
可选的,所述搜索处理模块,还用于:
将所述第一候选对象集和/或第二候选对象集中各候选对象进行排序,基于所述排序结果确定搜索结果返回给所述用户。
可选的,所述搜索处理模块,还用于:
将所述原始搜索语句及所述补充语句,分别与所述第一候选对象集和/或第二候选对象集每个候选对象进行相关性计算,至少利用相关性结果对所述各候选对象进行排序。
可选的,所述搜索处理模块,还用于:
将所述原始搜索语句、所述补充语句及配置标签的词语作为意图识别模型的输入,获取所述意图识别模型输出的意图识别结果;其中,所述意图识别模型用于识别如下四类用户的搜索意图:位置、店铺、商品或类目;
至少结合所述相关性结果和所述意图识别结果进行排序。
可选的,还包括业务识别模块,用于:
在为所述原始搜索语句中所包含的一个或多个词语配置标签之前,识别所述原始搜索语句是否与业务具有相关性,若不具有相关性,则结束搜索处理。
可选的,所述业务识别模块,用于:
将所述原始搜索语句输入至业务相关性判别模型,利用所述业务相关性判别模型识别所述原始搜索语句是否与业务具有相关性;和/或,
对所述原始搜索语句进行分词处理,将所述分词处理得到的一个或多个词语与预设的白名单和黑名单进行匹配,根据匹配结果确定所述原始搜索语句是否与业务具有相关性;所述白名单记录有与业务相关的词语,所述黑名单记录有与业务不相关的词语。
根据本说明书实施例的第三方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如所述搜索处理方法的实施例。
本说明书的实施例提供的技术方案可以包括以下有益效果:
本说明书实施例中,通过对用户输入的原始搜索语句所包含的一个或多个词语配置标签,标签包括两类,一类是表征位置语义的位置类标签,一类是表征内容语义的内容类标签;因此可以利用位置类标签的词语,预测用户偏好的搜索对象信息,可以利用内容类标签的词语,预测用户偏好的搜索对象信息;因此在搜索处理时,可以结合预测的用户偏好,搜索到匹配所述配置为位置类标签的词语所述第一搜索对象信息的搜索对象,或者是匹配所述配置为内容类标签的词语和第二搜索对象信息的搜索对象,可见,可以在标签及偏好的指示下获得更为准确的搜索结果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本说明书的实施例,并与说明书一起用于解释本说明书的原理。
图1是本说明书根据一示例性实施例示出的一种搜索处理方法的流程图。
图2是本说明书根据一示例性实施例示出的另一种搜索处理方法的流程图。
图3是本说明书搜索处理装置所在计算机设备的一种硬件结构图。
图4是本说明书根据一示例性实施例示出的一种搜索处理装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
普通的网页搜索以综合搜索、横向搜索为主要特点,在满足搜索信息量大的同时却难以兼顾搜索的准确度与相关度的质量,很难满足追求精准的个性化、专业化搜索需求。垂直搜索(Vertical Search,Directindustry Search)是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。
以本地生活服务场景为例,本地生活服务是将当地、线下、具有实体店铺的餐饮、生活服务、休闲娱乐等商家服务信息呈现给用户。在本地生活平台上,搜索是用户进行信息查找的最大入口,是连接用户和信息的重要纽带。与传统搜索引擎不同的是,在此应用场景下,需要基于用户的地理位置信息给予不同的搜索反馈,需要考虑如何向用户准确呈现符合用户搜索意图的商家服务信息的问题。
基于此,本说明书实施例提供一种搜索处理方案,考虑到搜索的一个重要问题,是基于用户的输入词,充分理解用户的搜索意图,以便于后续搜索链路的进行。本实施例的搜索处理方案从位置(where)和内容(what)两方面来理解用户的搜索意图,对于本地生活服务等场景,本地生活的搜索是基于LBS(Location Based Services,LBS,基于位置的服务)的,即需要理解位置,确定位置,和基于位置去进行附近和周边搜索,用户的搜索意图可以是由位置和内容两部分基本诉求构成的,即 where+what;在这种思路下,对用户输入的原始搜索语句进行位置和内容的拆分,并从位置侧和内容侧单独进行用户偏好的理解,以获取到用户对搜索对象的偏好,最后结合标签及偏好进行搜索处理,在标签及偏好的指示下可以获得更为准确的搜索结果,在本地生活此类用户的输入信息较短的场景下,可以获得较好的效果。
如图1所示,是本说明书根据一示例性实施例示出的一种搜索处理方法的流程图,包括:
在步骤102中,获取用户输入的原始搜索语句;
在步骤104中,为所述原始搜索语句相应的一个或多个词语配置标签;其中,所述标签包括表征位置语义的位置类标签或表征内容语义的内容类标签;
在步骤106中,利用配置为位置类标签的词语,预测用户偏好的第一搜索对象信息;和/或,利用配置为内容类标签的词语,预测用户偏好的第二搜索对象信息;
在步骤108中,获取搜索结果返回给所述用户,所述搜索结果中包括的搜索对象匹配所述配置为位置类标签的词语所述第一搜索对象信息,或者匹配所述配置为内容类标签的词语和第二搜索对象信息。
本实施例中,对用户输入的原始搜索语句所包含的一个或多个词语配置标签,标签包括两类,一类是表征位置语义的位置类标签,一类是表征内容语义的内容类标签;因此可以利用配置为位置类标签的词语,预测用户偏好的第一搜索对象信息,可以利用配置为内容类标签的词语,预测用户偏好的第二搜索对象信息;因此在搜索处理时,可以结合预测的用户偏好,搜索到匹配所述配置为位置类标签的词语所述第一搜索对象信息的搜索对象,或者是匹配所述配置为内容类标签的词语和第二搜索对象信息的搜索对象,可见,可以在标签及偏好的指示下获得更为准确的搜索结果。
接下来通过如下实施例进行说明。本实施例的搜索处理方案可应用于本地生活场景,具体的,可以应用于本地生活业务的服务端。如图2所示,是本说明书根据一示例性实施例示出的另一搜索处理的流程图。
步骤202、获取用户输入的原始搜索语句。
可选的,用户在客户端的搜索入口输入其所期望搜索的内容,客户端通过该搜索入口获取到用户输入的内容,即原始搜索语句,本实施例可称为原始query。客户端获取的原始搜索语句可发送至服务端,由服务端的搜索引擎系统执行搜索处理。
对于搜索引擎来说,原始query是一个字符串;由于用户的输入可能有误,为了获得更好的搜索效果,可选的,本实施例的原始搜索语句相应的一个或多个词语,不仅可包括原始搜索语句中包含的词语,还可以包括与所述原始搜索语句相关的补充语句中包含的词语。可选的,可以根据实际业务配置多种预处理方案以获取补充语句,以执行步骤204、对原始query进行预处理。作为例子,可以包括分词、纠错、改写、同义词或别名处理等步骤。
例如,可以利用分词技术对原始query进行分词处理,得到一个或多个字或词语;例如,原始query是“西溪路 火锅”,字符串“西溪路 火锅”经过分词处理后,分词结果包括两个词语:“西溪路”和“火锅”。
基于分词结果,可以执行后续的其他预处理流程;例如,用户输入的query可能有误,可以对分词处理得到的词语进行相应的纠错处理;例如,原始搜索query“西溪路海里捞”中包含词语“海里捞”,经过纠错获得纠错query“西溪路海底捞”。
在一些例子中,还可以执行改写处理,根据原始query中的词语进行相关扩展,从而得到改写query;还可以执行同义词处理等,以得到更多相关的query。
基于此,针对用户输入的原始query,经过预处理后可能会获得纠错的query、改写的query、同义词query等与原始query相关的其他query;本实施例将预处理后获得的一个或多个query称为补充query。
经过前述处理,可以基于原始query和补充query进行搜索处理。对于特定领域的搜索场景,有可能接收到与业务不相关的请求,可选的本实施例还可以先执行步骤206、过滤与业务不相关的搜索请求,通过识别所述原始搜索语句是否与业务具有相关性,若不具有相关性,则结束搜索处理,从而提高响应效率。例如,对于本地生活场景,可以是进行O2O(online to offline,线上至线上)判断;对于非O2O的搜索请求,则可根据需要结束流程;对于是O2O的搜索请求,则可继续执行后续处理。
可选的,O2O判断具体可以采用模型识别或者词典识别。作为例子,模型识别过程可以是:利用预先训练好的分类模型进行识别,该分类模型用于识别输入的query是否与业务相关。词典识别的过程可以是:将原始query的分词结果与设定的关键词进行匹配,例如可以设置白名单或黑名单进行判断,命中白名单的词语表示与业务相关,命中黑名单的词语表示与业务不相关;白名单和黑名单可以根据业务需要预先配置。可选的,实际业务中可以准备与业务相关的数据集或与业务不相关的数据集进行所述分类模型的训练,或者是配置前述的白名单或黑名单,从而实现对业务相关性的识别。可选的,至少利用原始query进行业务相关性的判断。在原始query的基础上,还可以结合补充query及分词结果进行业务相关性的判断。
经过前述的业务相关性判断,可以获得与业务相关的搜索语句。因此可以执行步骤208配置标签。
本实施例的标签有两类:表征位置语义的位置类标签或表征内容语义的内容类标签。
可选的,实际业务中对于标签的具体配置可以灵活实现。例如,可以是只有两个标签,一个表示位置,一个表示内容;在另一些例子中,还可以实现更为细致化的标签;作为例子,基于本地生活业务,可选的,针对位置类标签,可以包括如下4类标签:行政区域,道路,商圈,商场;针对内容类标签,可以设计如下3类标签:店铺、商品或类目。其中,店铺标签,表示店铺名称,如肯德基、麦当劳此类店铺的名称;商品标签,表示店铺中提供的商品,如西红柿炒饭、青椒肉丝等此类商品的名称;类目标签,表示店铺的所属类别,例如美食、休闲娱乐、酒店等业务上用于将店铺进行分类的类目。实际业务中可以根据需要灵活设计具体的标签,本实施例对此不作限定。
其中,标签的配置至少要利用原始query,可以将第一步中的原始query,以及补充query的词语都进行标签的配置。本实施例的配置标签,作为例子,对于词语“西溪路”时,希望能够为该词语配置道路的标签;对于词语“肯德基”,希望能够为该词语配置店铺的标签,因为准确的标签配置,能够指导后续的搜索处理以获得准确的搜索结果。
实际业务中可以根据需要采用多种方式实现标签配置的过程。作为例子,可以对原始query以及补充query进行分词处理,基于上下文语义分析,对原始query以及补充query中包含的词语进行标签配置。
可选的,还可以结合命名实体识别(Named Entity Recognition,简称NER)技术进行标签配置。命名实体识别,也称为“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名或专有名词等。命名实体识别可以对语句进行实体边界识别,以及确定实体类别(如人名、地名、机构名或其他)等。
基于此,本实施例中可以执行步骤2082、NER识别;具体的,对所述原始搜索语句和补充语句进行命名实体NER识别,获得NER识别结果,所述识别结果包括:所述原始搜索语句中一个或多个属于实体的词语、所述补充语句中一个或多个属于实体的词语以及所述属于实体的词语的类别;基于所述原始搜索语句、补充语句、所述属于实体的词语以及所述属于实体的词语的类别,对所述属于实体的词语配置标签。
本实施例针对用户输入的原始query和补充query进行NER识别,从而可以识别出字符串中哪部分属于实体,并且可以识别出实体的类别。例如,对于用户输入的“麦当劳肯德基”,通过NER处理能够识别出句子中第1至第3个字符是“麦当劳”实体,第4至第6个字符是“肯德基”实体。“麦当劳”实体及“肯德基”实体都属于机构名称。
在本地生活服务场景下,用户通常是希望查找某些店铺、某些商品或某些位置,因此本实施例中,针对用户输入的原始query以及补充query,经过NER识别确定query中每个词语的实体类型,即识别出词语属于位置实体类型还是属于内容实体类型。
通过上述NER识别可以获得更好的标签配置结果。以原始query为“西溪路张记烤肉”为例,在分词等处理方式中“西溪路张记烤肉”可能会被划分为“西溪路”和“张记“和”烤肉”3个词语,而原本的“张记烤肉”是一个店铺名,应该作为一个整体。本实施例通过NER识别则可以识别出两个属于实体的词语:“西溪路”和“张记烤肉”,进而可以对这两个属于实体的词语准确地配置标签。
可选的,配置标签的过程可以利用机器学习模型实现,可以预先训练用于标签配置的标签配置模型,将所述原始搜索语句、补充语句、所述属于实体的词语以及所述属于实体的词语的类别作为模型输入,获取所述标签配置模型对所述属于实体的词语的标签配置结果。
因此,可以将所述原始搜索语句及识别结果输入至标签配置模型,使得标签配置模型可以结合NER识别结果对原始搜索语句中的词语进行标签配置。可选的,标签配置模型可以预先通过训练数据集训练得到,训练数据集可以来源于业务方的业务数据,例如本地生活业务中,服务方的平台接入有大量店铺,服务方可以获取到店铺方提交的店铺数据,例如店铺名称、店铺所提供的商品名称、店铺的地址等等。服务方通过客户端向用户提供店铺服务,服务端可以获取到用户可以通过客户端提交搜索语句、对店铺的评价等数据,服务方可以基于这些数据等进行标签配置模型的训练。
在标签配置完成后,可以执行步骤210、预测用户偏好的搜索对象信息。
本实施例中分别从where侧和what侧预测用户偏好的搜索对象信息。可选的,在where侧,可以利用配置为位置类标签的词语,预测用户偏好的第一搜索对象信息;在what侧,可以利用配置为内容类标签的词语,预测用户偏好的第二搜索对象信息。可选的,在本地生活业务场景下,搜索对象通常是店铺,而店铺采用类目进行区别,确定用户偏好哪些类目的店铺能够使得搜索结果更为准确的呈现。在本地生活业务中,是否准确地确定用户所偏好的类目能够影响后续的搜索结果,可选的,本实施例可以是预测用户偏好的搜索对象的类目,也即是预测用户偏好哪些类目的店铺。当然,实际业务中可以根据需要灵活配置所要预测的其他搜索对象信息,本实施例对此不作限定。另外,本实施例并不限定预测出的第一/第二搜索对象信息的个数,可以是一个,也可以是两个或更多个。
可选的,步骤210可以包括:步骤2102、利用配置为位置类标签的词语预测用户偏好的第一搜索对象信息;可选的,可以有多种方式,作为例子:
①可以是确定所述配置为位置类标签的词语所属的地理位置范围,获取在所述地理位置范围内的一个或多个搜索对象,确定目标类目为用户偏好的第一搜索对象信息;其中,在所述获取的一个或多个搜索对象中,对应所述目标类目的搜索对象的数量,大于其他类目对应的搜索对象的数量。
例如,若用户输入的“西溪路”,可以确定西溪路所在的地理位置范围,获取西溪路所在的地理位置范围的一个或多个店铺(例如所有店铺),基于所有店铺预测用户偏好的类目;例如,经过分析,西溪路大部分店铺都是中式餐厅,基于中餐厅的数量确定中餐厅在其他所有类别的店铺中数量最多,或者是中餐厅的数量大于设定阈值,则可以基于“西溪路”预测用户偏好中式餐厅的类目。
其中,所述配置为位置类的词语需要确定其所属的实际的地理位置范围,具体的确定方式可以有多种,作为例子,配置为位置类的词语可能与实际的地理名称相关,可以通过查询预先配置的本地地理数据表等方式转换成相应的地理位置范围。
②获取历史用户搜索日志,基于所述历史用户搜索日志中记录的用户行为特征预测用户偏好的搜索对象信息;其中,所述历史用户搜索日志记录的历史搜索内容与所述位置类标签的词语相关,所述用户行为特征是指历史用户对所述历史搜索内容对应的搜索结果的行为特征。
本实施例中,客户端可以获取用户在客户端搜索入口输入的搜索内容,之后,客户端还展示了对应该搜索内容的搜索结果,用户基于客户端的搜索结果可以执行一种或多种触发行为,例如点击搜索结果中的某些搜索对象、收藏搜索结果中的某些搜索对象或点赞搜索结果中的某些搜索对象等,用户对搜索结果执行的这些行为表征了搜索结果中这些搜索对象符合用户的偏好。具体采用哪些行为特征进行预测可以根据实际业务而灵活设定。
因此,客户端可以基于用户的搜索内容以及用户对对应该搜索内容的搜索结果的行为数据生成用户搜索日志,并将用户搜索日志发送服务方。由于用户搜索日志中记录有用户的搜索内容,以及用户对搜索结果的点击行为数据,服务方可以利用用户搜索日志可以分析出当前用户在搜索某些地理位置时用户的偏好,并基于这些分析结果预测用户的偏好。其中,本实施例的历史用户搜索日志记录的历史搜索内容与所述位置类标签的词语相关,可以是历史搜索内容与所述位置类标签的词语相同,也可以是历史搜索内容与所述位置类标签的词语具有较高的相似度,实际业务中可根据需要灵活配置。
例如,当前用户搜索“西溪路”,可以从已收集的历史用户搜索日志中查找出具有“西溪路”搜索内容的用户搜索日志,分析查找出的用户搜索日志中的用户行为特征,发现用户行为特征是:获得搜索结果后,大部分用户都点击了搜索结果中的甜品类店铺,甜品类店铺的点击率最高,大于设定阈值;因此,将甜品类目标签作为预测结果。
客户端可以生成用户搜索日志发送给服务方,因此服务方可以通过大部分用户的搜索行为来预测用户偏好的搜索对象信息;例如,从用户的搜索日志行为去挖掘,点击率与用户偏好正相关60%的用户都在点击按摩的店铺,则可预测用户偏好按摩的类目标签。
③还可以采用特定词数据库来进行预测;服务方可以预先设定特定词数据库中,该特定词数据库中记载多个特定地理位置及对应的特定类目,例如“北京三里屯”,对应有“酒吧”类目;若用户搜索“北京三里屯”,由于特定词数据库里有记载“北京三里屯”及“酒吧”的对应关系,因此基于用户搜索的“北京三里屯”,预测用户偏好“酒吧”类目。
上述实施例阐述了三种基于位置类标签的词语预测用户偏好的搜索对象信息的方式,实际业务中还可以根据需要灵活配置其他方式。另外,在配置有多种实现方式的情况下,实际业务中在基于位置类标签的词语预测用户偏好的搜索对象信息时,可以根据需要选取上述的其中一种预测方式,也可以选取多种预测方式。基于多种预测方式可能预测出相同的类目,也可能预测出多个不同的类目,对于预测出多个不同类目的情况,实际业务中也可以根据需要灵活配置多种处理方式。例如预测出的多个类目都保留用于后续的搜索处理,也可以是对比预测出的多个类目是否相同,保留其中相同次数最多的一个或多个类目等等多种方式,本实施例对此不作限定。
另外,本实施例的“利用配置为位置类标签的词语,预测用户偏好的第一搜索对象信息”可以是指只采用配置为位置类标签的词语,预测用户偏好的第一搜索对象信息;还可以是,在所述配置为位置类标签的词语的基础上结合其他信息进行预测,所述的其他信息可以根据业务灵活确定,例如可以是用户的属性信息,用户所处的场景信息(如当前时间、天气等)等。
(2)步骤210还可以包括:步骤2104、利用配置为内容类标签的词语,预测用户偏好的第二搜索对象信息。
可选的,可以将所述配置为内容类标签的词语与预设类目集中的搜索对象的类目进行相关性分析,根据相关性分析结果确定用户偏好的搜索对象的类目。实际业务中相关性分析可以根据需要进行配置,作为例子,可以预先构建有类目数据库,该类目数据库中记录有多个类目,可以利用已有的属于这些类目的搜索对象构建这些类目的特征,例如语义特征等;在进行相关性分析时,通过获取内容类标签的词语的特征,与类目数据库中记录的搜索对象的类目的特征进行相关性分析,将类目数据库中与内容类标签的词语中相关性最高的一个或多个类目可以作为用户偏好的类目。
另外,“利用配置为内容类标签的词语,预测用户偏好的第二搜索对象信息”可以是指只采用配置为内容类标签的词语,预测用户偏好的第二搜索对象信息;还可以是,在所述配置为位置类标签的词语的基础上结合其他信息进行预测,所述的其他信息可以根据业务灵活确定,例如可以是用户的属性信息、用户所处的场景信息(如当前时间、地点或天气等)。
本实施例的where侧的预测处理和what侧的预测处理,实际业务中可以是两侧都执行,也可以是根据需要只执行其中一侧的预测处理。例如,实际业务中,也有可能出现只获得位置类标签的词语或只获得内容类标签的词语的情况,例如用户只搜“西溪路”或者用户只搜索“火锅”,通过NER识别结果可以确定只有一种类型的实体的词语,或者是通过标签模型的输出可以确定只有一类标签的词语。针对只有位置类标签的词语的情况,可以只执行前述从where侧预测用户偏好的流程;而针对只有内容类标签的词语的情况,可以只执行前述从what侧预测用户偏好的流程,可选的,此种情况是由于用户没有输入与位置相关的搜索内容,配置为位置类标签的词语指示了明确的地理位置范围,而在未有配置为位置类标签的词语,本实施例还可以获取客户端识别的用户的地理位置范围,基于所述内容类标签的词语和所述获取的用户的地理位置范围预测用户偏好的第二搜索对象信息。作为例子,客户端可以获取用户的地理位置信息并发送给服务方(例如客户端定位的地理位置,或者是用户在客户端中选择的地理位置),根据获取的地理位置信息和内容类标签的词语预测用户偏好的第二搜索对象信息,预测的过程可以结合前述where侧的处理方式和本侧内容预测,获取在地理位置范围内的一个或多个搜索对象,根据获取的一个或多个搜索对象以及配置为内容类标签的词语,预测出用户偏好的一个或多个第二搜索对象信息。
由此可知,基于where和what两侧进行理解,当用户只输入what词时,可以进行where补全(例如客户端定位的地理位置,或者是用户在客户端中选择的地理位置);当用户只输入where词时,由于本实施例利用位置类标签的词语,预测用户偏好的搜索对象的类目,因此可以实现进行what预测及补全。比如搜西溪路时,通过所述配置为位置类标签的词语,预测用户偏好哪些类目的店铺,从而可以实现what侧的预测。
基于前述where和what侧各自的深度理解,这些结果统一输出到下游,可以执行步骤212、搜索处理,供搜索链路的多个环节使用。基于此,在搜索链路中,可以获取到搜索结果返回给所述用户,所述搜索结果中包括的搜索对象匹配所述配置为位置类标签的词语所述第一搜索对象信息,或者匹配所述配置为内容类标签的词语和第二搜索对象信息。因此,本说明书实施例的方案可以在标签及偏好的指示下获得更为准确的搜索结果。
可选的,所述获取搜索结果返回给所述用户,包括:
搜索至少与所述配置为位置类标签的词语以及与所述第一搜索对象信息匹配的第一候选对象集,和/或搜索至少与所述配置为内容类标签的词语以及与所述第二搜索对象信息匹配的第二候选对象集;
基于所述第一候选对象集和/或第二候选对象集确定搜索结果并返回给所述用户。
可选的,业务方可以配置有全量的数据集,数据集中各个搜索对象可以对应有多种属性(属性也可以理解为标签),本实施例的搜索对象至少对应有类目属性(或者是携带有类目标签),基于所述配置为位置类标签的词语以及与所述第一搜索对象信息进行搜索和/或基于所述配置为内容类标签的词语以及与所述第二搜索对象信息进行搜索。在另一些例子中,在搜索过程中,在上述词语及标签的基础上,还可以根据需要结合其他信息进行搜索。
可选的,所述搜索至少与所述配置为位置类标签的词语以及与所述第一搜索对象信息匹配的第一候选对象集,包括:
在对应所述第一搜索对象信息的数据集中,搜索出至少与所述配置为位置类标签的词语匹配的第一候选对象集;
所述搜索至少与所述配置为内容类标签的词语以及与所述第二搜索对象信息匹配的第二候选对象集,包括:
在对应所述第二搜索对象信息的数据集中,搜索出至少与所述配置为内容类标签的词语匹配的第二候选对象集。
作为例子,以预测的搜索对象信息为类目为例,预先准备的数据集可以基于类目进行区分,例如将业务涉及的全量店铺,通过类目进行区分,因此在搜索时,可以从对应类目的数据集中搜索出匹配词语的候选对象。其中,在搜索过程中,在上述词语及标签的基础上,还可以根据需要结合其他信息进行搜索,例如限制搜索出的候选对象的数量、限制搜索出的候选对象的等级、限制搜索出的候选对象的评分,还可以是在搜索第二候选对象集时进一步结合地理位置范围进行搜索,该地理位置范围可以是通过所述配置为位置类词语获得的地理位置范围,也可以是通过客户端获取的用户当前所处的地理位置以及用户设定的默认地理位置范围。
由于可能搜索到较多的候选对象,本实施例还可以将所述第一候选对象集和/或第二候选对象集中各候选对象进行排序,基于排序结果确定搜索结果并返回给所述用户。
排序的考虑可以有多种因素,作为例子,本实施例可以将所述原始搜索语句及所述补充语句,分别与所述第一候选对象集和/或第二候选对象集每个候选对象进行相关性计算,至少利用相关性结果对所述各候选对象进行排序。在另一些例子中,还可以结合意图识别结果进行排序;可以将所述原始搜索语句、所述补充语句及配置标签的词语作为意图识别模型的输入,获取所述意图识别模型输出的意图识别结果;其中,所述意图识别模型用于识别如下四类用户的搜索意图:位置、店铺、商品或类目;至少结合所述相关性结果和所述意图识别结果进行排序。
实际业务中,在整个搜索链路中,作为例子,搜索处理流程中可以包括意图识别、召回、相关性分析和排序等处理。
例如意图识别;本实施例可以从整个query来识别用户的意图;例如识别用户是想找店铺(品牌)、还是想找内容(商品)、还是想找类目,还是想找地址。可选的,可以将所述原始搜索语句及配置标签的词语作为意图识别模型的输入,获取所述意图识别模型的输出结果;其中,所述意图识别模型用于识别如下四类用户的搜索意图:位置、店铺、商品或类目。
本实施例可以将前述第四步对词语的标签配置结果,以及原始搜索query作为输入,利用意图识别模型识别出用户的搜索意图。
例如,召回处理,可以包括:搜索至少与所述配置为位置类标签的词语以及与所述第一搜索对象信息匹配的第一候选对象集,和/或搜索至少与所述配置为内容类标签的词语以及与所述第二搜索对象信息匹配的第二候选对象集;也即是针对每个词语、预测的搜索对象信息从与所述标签的对应的数据域中召回与所述词语匹配的候选集。
相关性分析,可以包括:将所述原始搜索语句与所述补充语句与各候选对象进行相关性计算,获得所述词语与所述候选对象的相关性结果,具体的,可以从多个维度进行相关性分析,例如从店铺的类目、商品或评价等进行相关性分析。
排序,可以包括:获取相关性分析结果及所述意图识别结果,对各个候选对象进行排序。本实施例中,可以基于相关性分析结果,以及店铺的质量、店铺的评价等其他多种因素进行排序,排序结果可以直接返回给客户端进行展示,也可以根据排序结果进一步过滤后作为搜索结果返回给客户端,过滤的考虑因素可以根据实际业务灵活确定,例如限制搜索结果中搜索对象的数量,或者是过滤掉相关性最低的一个或多个搜索对象。
由上述实施例可见,本实施例中将搜索语句拆分为位置和内容两部分,也即是用户的搜索意图是由位置和内容两部分正交的意图组成的,因此把原始搜索语句拆分成where和what两类实体,然后单独去理解。因此符合本地生活的业务认知,基于本地生活业务场景下对query理解,能够获得准确的搜索结果。
例如,若用户输入“西溪路绿茶”,可以拆分为基于where侧的“西溪路”实体和what侧的“绿茶”两类实体(本实施例仅以“绿茶”为例,在其他例子中还可以基于词语“绿茶”生成其他如“GreenTea”等补充词语);从what侧的“绿茶”可以理解到“绿茶”对应茶饮店铺,但从where侧的“西溪路”实体理解,由于西溪路所在地理位置范围包含有大部分用户都会点击的“绿茶”“中餐厅”,因此在where侧预测得到餐厅类目。因此在后续的搜索处理中可以结合what侧的“绿茶”“茶饮店铺”以及where侧的“绿茶”“中餐厅”,得到更为准确的搜索结果。
作为例子,后续的搜索处理中包括召回子流程,在该召回子流程中可以基于“西溪路”、“绿茶”、“茶饮店铺”及“中餐厅”生成一个或多个召回条件。可以从“茶饮店铺”类目标签对应的数据与中召回与“西溪路”、“绿茶”、“茶饮店铺”相关的候选对象(这些候选对象可能有很多,例如包含了位于西溪路上的茶饮店铺、名称与绿茶相关的茶饮店铺、茶饮店铺中与绿茶相关的商品名称等);还可以基于“中餐厅”类目标签对应的数据中召回与“西溪路”、“绿茶”、“中餐厅”相关的候选对象(这些候选对象可能包括名称为位于西溪路上的名称为“绿茶”的中餐厅、位于西溪路上的提供有“绿茶”商品的餐厅等)。
搜索处理中还包括相关性分析子处理,由于候选对象可能非常多,此步骤可以筛选出最相关的候选对象,过滤一些不相关的候选对象,以减少一些相关性较低的候选对象的数量;相关性分析的过程可以是:将原始搜索query“西溪路绿茶”与每个候选对象进行相关性分析,得到各个候选对象的相关性指标等结果。实际业务中可以获取每个候选对象的多个维度信息,根据每个候选对象的多个维度信息与原始搜索query的相关性。所述的多个维度信息可以包括候选对象的店铺名称、商品名称、候选对象的评价等,相关性指标可以包括候选对象的每个维度与原始搜索query的相关性。
搜索处理中还包括意图识别子处理,基于原始搜索query及配置标签的词语,预测出用户本次搜索是希望搜索出与“西溪路绿茶”相关的店铺。
搜索处理中还包括排序子处理,可以结合前述的相关性分析结果及意图识别结果进行排序,由于意图识别结果是店铺,排序过程可以是:对各个候选对象,从店铺名称的维度优先考虑,将店铺名称相关性指标较高的候选对象排序靠前。当然,实际业务中除了相关性的考虑,还可以结合候选对象的用户评价、质量等其他多种因素。
因此,最终的排序结果中与“绿茶”名称相关性较高的店铺排序较前,因此给用户反馈的搜索结果中绿茶茶饮店及绿茶餐厅的排序会较前,使得搜索结果更有可能符合用户想要搜索的店铺。
本实施例方案中,配置标签的词语以及预测结果可以贯穿于整个搜索链路中,集成在搜索理解大流程中的核心策略,可以支撑整个搜索链路的召回+相关性+排序等流程,从而实现更为准确的搜索结果。
与前述搜索处理方法的实施例相对应,本说明书还提供了搜索处理装置及其所应用的计算机设备的实施例。
本说明书搜索处理装置的实施例可以应用在计算机设备上,例如服务器或终端设备。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在搜索处理的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图3所示,为本说明书搜索处理装置所在计算机设备的一种硬件结构图,除了图3所示的处理器310、内存330、网络接口320、以及非易失性存储器340之外,实施例中搜索处理装置331所在的计算机设备,通常根据该计算机设备的实际功能,还可以包括其他硬件,对此不再赘述。
如图4所示,图4是本说明书根据一示例性实施例示出的一种搜索处理装置的框图,所述装置包括:
语句获取模块41,用于:获取用户输入的原始搜索语句;
标签配置模块42,用于:为所述原始搜索语句相应的一个或多个词语配置标签;其中,所述标签包括表征位置语义的位置类标签或表征内容语义的内容类标签;
预测模块43,用于:利用配置为位置类标签的词语,预测用户偏好的第一搜索对象信息;和/或,利用配置为内容类标签的词语,预测用户偏好的第二搜索对象信息;
搜索处理模块44,用于:获取搜索结果返回给所述用户,所述搜索结果中包括的搜索对象匹配所述配置为位置类标签的词语所述第一搜索对象信息,或者匹配所述配置为内容类标签的词语和第二搜索对象信息。
可选的,所述原始搜索语句相应的一个或多个词语,包括:原始搜索语句中包含的词语,以及与所述原始搜索语句相关的补充语句中包含的词语。
可选的,所述补充语句通过对所述原始搜索语句中包含的词语进行如下一种或多种处理得到:纠错处理、改写处理、同义词处理或别名处理。
可选的,所述标签配置模块,还用于:
对所述原始搜索语句和补充语句进行命名实体NER识别,获得NER识别结果,所述识别结果包括:所述原始搜索语句中一个或多个属于实体的词语、所述补充语句中一个或多个属于实体的词语以及所述属于实体的词语的类别;
基于所述原始搜索语句、补充语句、所述属于实体的词语以及所述属于实体的词语的类别,对所述属于实体的词语配置标签。
可选的,所述标签配置模块,还用于:
将所述原始搜索语句、补充语句、所述属于实体的词语以及所述属于实体的词语的类别输入至标签配置模型,获取所述标签配置模型对所述属于实体的词语的标签配置结果。
可选的,所述第一搜索对象信息包括搜索对象的第一类目,所述第二搜索对象信息包括搜索对象的第二类目。
可选的,所述预测模块,还用于:
将配置为内容类标签的词语与预设类目数据库中搜索对象的类目进行相关性分析,根据相关性分析结果确定用户偏好的搜索对象的类目。
可选的,所述预测模块,还用于:
确定所述配置为位置类标签的词语所属的地理位置范围,获取在所述地理位置范围内的一个或多个搜索对象,确定目标类目为用户偏好的第一搜索对象信息;其中,在所述获取的一个或多个搜索对象中,对应所述目标类目的搜索对象的数量,大于其他类目对应的搜索对象的数量;或,
获取历史用户搜索日志,基于所述历史用户搜索日志中记录的用户行为特征预测用户偏好的第一搜索对象信息;其中,所述历史用户搜索日志记录的历史搜索内容与所述位置类标签的词语相关,所述用户行为特征是指历史用户对所述历史搜索内容对应的搜索结果的行为特征;
或,若特定词数据库中记录有与所述配置为位置类标签的词语匹配的特定词,将所述特定词对应的特定搜索对象信息作为所述用户偏好的第一搜索对象信息;所述特定词数据库中记录有至少一个特定词与对应的特定搜索对象信息。
可选的,若所述原始搜索内容只对应有配置为位置类标签的词语,则所述预测模块只用于:利用配置为位置类标签的词语,预测用户偏好的第一搜索对象信息;
若所述原始搜索内容只对应有内容类标签的词语,则所述预测模块只用于:利用配置为内容类标签的词语,预测用户偏好的第二搜索对象信息。
可选的,所述预测模块,还用于:若所述原始搜索内容只对应有配置为内容类标签的词语,获取客户端识别的用户地理位置范围,利用所述配置为内容类标签的词语和所述获取的用户地理位置范围预测用户偏好的第二搜索对象信息。
可选的,所述位置类标签包括如下一类或多类标签:行政区域,道路,商圈或商场。
可选的,所述内容类标签包括如下一类或多类标签:店铺、商品或类目。
可选的,所述搜索处理模块,还用于:
搜索至少与所述配置为位置类标签的词语以及与所述第一搜索对象信息匹配的第一候选对象集,和/或搜索至少与所述配置为内容类标签的词语以及与所述第二搜索对象信息匹配的第二候选对象集;
基于所述第一候选对象集和/或第二候选对象集确定搜索结果并返回给所述用户。
可选的,所述搜索处理模块,还用于:
在对应所述第一搜索对象信息的数据集中,搜索出至少与所述配置为位置类标签的词语匹配的第一候选对象集;
所述搜索至少与所述配置为内容类标签的词语以及与所述第二搜索对象信息匹配的第二候选对象集,包括:
在对应所述第二搜索对象信息的数据集中,搜索出至少与所述配置为内容类标签的词语匹配的第二候选对象集。
可选的,所述搜索处理模块,还用于:
将所述第一候选对象集和/或第二候选对象集中各候选对象进行排序,基于所述排序结果确定搜索结果返回给所述用户。
可选的,所述搜索处理模块,还用于:
将所述原始搜索语句及所述补充语句,分别与所述第一候选对象集和/或第二候选对象集每个候选对象进行相关性计算,至少利用相关性结果对所述各候选对象进行排序。
可选的,所述搜索处理模块,还用于:
将所述原始搜索语句、所述补充语句及配置标签的词语作为意图识别模型的输入,获取所述意图识别模型输出的意图识别结果;其中,所述意图识别模型用于识别如下四类用户的搜索意图:位置、店铺、商品或类目;
至少结合所述相关性结果和所述意图识别结果进行排序。
可选的,还包括业务识别模块,用于:
在为所述原始搜索语句中所包含的一个或多个词语配置标签之前,识别所述原始搜索语句是否与业务具有相关性,若不具有相关性,则结束搜索处理。
可选的,所述业务识别模块,用于:
将所述原始搜索语句输入至业务相关性判别模型,利用所述业务相关性判别模型识别所述原始搜索语句是否与业务具有相关性;和/或,
对所述原始搜索语句进行分词处理,将所述分词处理得到的一个或多个词语与预设的白名单和黑名单进行匹配,根据匹配结果确定所述原始搜索语句是否与业务具有相关性;所述白名单记录有与业务相关的词语,所述黑名单记录有与业务不相关的词语。
相应的,本说明书还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如所述搜索处理方法的实施例。
上述搜索处理装置中各个模块的功能和作用的实现过程具体详见上述搜索处理方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本领域技术人员在考虑说明书及实践这里申请的发明后,将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本说明书的真正范围和精神由下面的权利要求指出。
应当理解的是,本说明书并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。
以上所述仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。

Claims (10)

1.一种搜索处理方法,包括:
获取用户输入的原始搜索语句;
为所述原始搜索语句相应的一个或多个词语配置标签;其中,所述标签包括表征位置语义的位置类标签或表征内容语义的内容类标签;
利用配置为位置类标签的词语,预测用户偏好的第一搜索对象信息;和/或,利用配置为内容类标签的词语,预测用户偏好的第二搜索对象信息;其中,所述第二搜索对象信息的预测方式包括:将所述内容类标签的词语与预设搜索对象的类目进行相关性分析;
获取搜索结果返回给所述用户,所述搜索结果中包括的搜索对象匹配所述配置为位置类标签的词语和所述第一搜索对象信息,或者匹配所述配置为内容类标签的词语和第二搜索对象信息。
2.根据权利要求1所述的方法,所述原始搜索语句相应的一个或多个词语,包括:原始搜索语句中包含的词语,以及与所述原始搜索语句相关的补充语句中包含的词语。
3.根据权利要求2所述的方法,所述为所述原始搜索语句相应的一个或多个词语配置标签,包括:
对所述原始搜索语句和补充语句进行命名实体NER识别,获得NER识别结果,所述识别结果包括:所述原始搜索语句中一个或多个属于实体的词语、所述补充语句中一个或多个属于实体的词语以及所述属于实体的词语的类别;
基于所述原始搜索语句、补充语句、所述属于实体的词语以及所述属于实体的词语的类别,对所述属于实体的词语配置标签。
4.根据权利要求1所述的方法,所述利用配置为内容类标签的词语,预测用户偏好的第二搜索对象信息,包括:
将配置为内容类标签的词语与预设类目数据库中搜索对象的类目进行相关性分析,根据相关性分析结果确定用户偏好的搜索对象的类目。
5.根据权利要求1所述的方法,所述利用配置为位置类标签的词语,预测用户偏好的第一搜索对象信息,包括如下一种或多种方式:
确定所述配置为位置类标签的词语所属的地理位置范围,获取在所述地理位置范围内的一个或多个搜索对象,确定目标类目为用户偏好的第一搜索对象信息;其中,在所述获取的一个或多个搜索对象中,对应所述目标类目的搜索对象的数量,大于其他类目对应的搜索对象的数量;或,
获取历史用户搜索日志,基于所述历史用户搜索日志中记录的用户行为特征预测用户偏好的第一搜索对象信息;其中,所述历史用户搜索日志记录的历史搜索内容与所述位置类标签的词语相关,所述用户行为特征是指历史用户对所述历史搜索内容对应的搜索结果的行为特征;
或,若特定词数据库中记录有与所述配置为位置类标签的词语匹配的特定词,将所述特定词对应的特定搜索对象信息作为所述用户偏好的第一搜索对象信息;所述特定词数据库中记录有至少一个特定词与对应的特定搜索对象信息。
6.一种搜索处理装置,所述装置包括:
语句获取模块,用于:获取用户输入的原始搜索语句;
标签配置模块,用于:为所述原始搜索语句相应的一个或多个词语配置标签;其中,所述标签包括表征位置语义的位置类标签或表征内容语义的内容类标签;
预测模块,用于:利用配置为位置类标签的词语,预测用户偏好的第一搜索对象信息;和/或,利用配置为内容类标签的词语,预测用户偏好的第二搜索对象信息;其中,所述第二搜索对象信息的预测方式包括:将所述内容类标签的词语与预设搜索对象的类目进行相关性分析;
搜索处理模块,用于:获取搜索结果返回给所述用户,所述搜索结果中包括的搜索对象匹配所述配置为位置类标签的词语所述第一搜索对象信息,或者匹配所述配置为内容类标签的词语和第二搜索对象信息。
7.根据权利要求6所述的装置,所述标签配置模块,还用于:
对所述原始搜索语句和补充语句进行命名实体NER识别,获得NER识别结果,所述识别结果包括:所述原始搜索语句中一个或多个属于实体的词语、所述补充语句中一个或多个属于实体的词语以及所述属于实体的词语的类别;
基于所述原始搜索语句、补充语句、所述属于实体的词语以及所述属于实体的词语的类别,对所述属于实体的词语配置标签。
8.根据权利要求6所述的装置,所述预测模块,还用于:
将配置为内容类标签的词语与预设类目数据库中搜索对象的类目进行相关性分析,根据相关性分析结果确定用户偏好的搜索对象的类目。
9.根据权利要求6所述的装置,所述预测模块,还用于:
确定所述配置为位置类标签的词语所属的地理位置范围,获取在所述地理位置范围内的一个或多个搜索对象,确定目标类目为用户偏好的第一搜索对象信息;其中,在所述获取的一个或多个搜索对象中,对应所述目标类目的搜索对象的数量,大于其他类目对应的搜索对象的数量;或,
获取历史用户搜索日志,基于所述历史用户搜索日志中记录的用户行为特征预测用户偏好的第一搜索对象信息;其中,所述历史用户搜索日志记录的历史搜索内容与所述位置类标签的词语相关,所述用户行为特征是指历史用户对所述历史搜索内容对应的搜索结果的行为特征;
或,若特定词数据库中记录有与所述配置为位置类标签的词语匹配的特定词,将所述特定词对应的特定搜索对象信息作为所述用户偏好的第一搜索对象信息;所述特定词数据库中记录有至少一个特定词与对应的特定搜索对象信息。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如权利要求1至5任一所述的方法。
CN202010850891.5A 2020-08-21 2020-08-21 搜索处理方法、装置及计算机设备 Active CN111723296B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010850891.5A CN111723296B (zh) 2020-08-21 2020-08-21 搜索处理方法、装置及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010850891.5A CN111723296B (zh) 2020-08-21 2020-08-21 搜索处理方法、装置及计算机设备

Publications (2)

Publication Number Publication Date
CN111723296A CN111723296A (zh) 2020-09-29
CN111723296B true CN111723296B (zh) 2020-12-15

Family

ID=72574177

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010850891.5A Active CN111723296B (zh) 2020-08-21 2020-08-21 搜索处理方法、装置及计算机设备

Country Status (1)

Country Link
CN (1) CN111723296B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114186023B (zh) * 2021-12-07 2023-05-26 北京金堤科技有限公司 针对特定搜索场景的搜索处理方法、装置、设备及介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170269799A1 (en) * 2013-12-08 2017-09-21 Spencer A. Rathus Method and apparatus for accessing electronic data via a plurality of electronic tags
US10489181B2 (en) * 2016-02-12 2019-11-26 Nutanix, Inc. Entity database browser
CN110287307B (zh) * 2019-05-05 2022-04-05 浙江吉利控股集团有限公司 一种搜索结果排序方法、装置及服务器
CN111460327B (zh) * 2020-03-10 2023-06-16 口口相传(北京)网络技术有限公司 兴趣地搜索方法及装置、存储介质、计算机设备

Also Published As

Publication number Publication date
CN111723296A (zh) 2020-09-29

Similar Documents

Publication Publication Date Title
CN106709040B (zh) 一种应用搜索方法和服务器
WO2017024884A1 (zh) 一种搜索意图识别方法及装置
CN102866990B (zh) 一种主题对话方法和装置
US7483881B2 (en) Determining unambiguous geographic references
US20050149507A1 (en) Systems and methods for identifying an internet resource address
CN106202124B (zh) 网页分类方法及装置
US8856129B2 (en) Flexible and scalable structured web data extraction
US20110099133A1 (en) Systems and methods for capturing and managing collective social intelligence information
JP4787902B2 (ja) オンライン電子メールサービスシステム及びその方法
US20040049499A1 (en) Document retrieval system and question answering system
WO2019056661A1 (zh) 一种搜索词推送方法、装置及终端
CN105653562B (zh) 一种文本内容与查询请求之间相关性的计算方法及装置
US20090119268A1 (en) Method and system for crawling, mapping and extracting information associated with a business using heuristic and semantic analysis
US20090327249A1 (en) Intellegent Data Search Engine
US20080282151A1 (en) Document segmentation based on visual gaps
CN110532351B (zh) 推荐词展示方法、装置、设备及计算机可读存储介质
US20110184946A1 (en) Applying synonyms to unify text search with faceted browsing classification
JP2005182817A (ja) クエリレコグナイザ
CN110543592A (zh) 信息搜索方法、装置以及计算机设备
CN111444304A (zh) 搜索排序的方法和装置
KR102606175B1 (ko) 정보 푸시 방법 및 장치
CN106462644B (zh) 标识来自多个结果页面标识的优选结果页面
WO2021112984A1 (en) Feature and context based search result generation
CN109063171B (zh) 基于语义的资源匹配方法
CN111723296B (zh) 搜索处理方法、装置及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant