CN112434072B - 搜索方法、装置、电子设备及存储介质 - Google Patents
搜索方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112434072B CN112434072B CN202110107813.0A CN202110107813A CN112434072B CN 112434072 B CN112434072 B CN 112434072B CN 202110107813 A CN202110107813 A CN 202110107813A CN 112434072 B CN112434072 B CN 112434072B
- Authority
- CN
- China
- Prior art keywords
- search
- candidate
- search result
- determining
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及数据搜索技术领域,公开了一种搜索方法、装置、电子设备及存储介质,该搜索方法包括:获取用户的搜索请求、以及所述搜索请求对应的各候选搜索结果;确定所述搜索请求的搜索意图类别;按照所述搜索意图类别对应的相关度确定方式,确定所述搜索请求与各所述候选搜索结果的相关度;基于各所述候选搜索结果对应的相关度,从各所述候选搜索结果中确定所述用户的目标搜索结果并提供给所述用户。利用本申请提供的方法,能够提升搜索结果的准确性。
Description
技术领域
本申请涉及数据搜索技术领域,具体而言,本申请涉及一种搜索方法、装置、电子设备及存储介质。
背景技术
在搜索领域,用户可以通过输入搜索信息进行信息查询和搜索,在应用程序中,通过在应用程序中的搜索框中输入搜索信息进行信息搜索,搜索是应用程序获知用户需求、进行数据交互的重要途径。应用程度后台往往根据用户输入的搜索条件进行相应搜索,得到搜索结果并将搜索结果返回给用户。但实际情况中,用户输入的搜索条件要表达的意思较复杂,相同搜索条件可能表达不同意思,导致基于该搜索信息得到的搜索结果的准确性不高,无法满足用户预期。
发明内容
本申请的目的旨在至少能解决上述的技术缺陷之一,特提出以下技术方案,以解决搜索结果的准确性不高的问题。
本申请的一个方面,提供了一种搜索方法,包括:
获取用户的搜索请求、以及搜索请求对应的各候选搜索结果;
确定搜索请求的搜索意图类别;
按照搜索意图类别对应的相关度确定方式,确定搜索请求与各候选搜索结果的相关度;
基于各候选搜索结果对应的相关度,从各候选搜索结果中确定用户的目标搜索结果并提供给用户。
本申请的另一个方面,提供了一种搜索装置,该装置包括:
候选搜索结果获取模块,用于获取用户的搜索请求、以及搜索请求对应的各候选搜索结果;
搜索意图类别确定模块,用于确定搜索请求的搜索意图类别;
相关度确定模块,用于按照搜索意图类别对应的相关度确定方式,确定搜索请求与各候选搜索结果的相关度;
目标搜索结果确定模块,用于基于各候选搜索结果对应的相关度,从各候选搜索结果中确定用户的目标搜索结果并提供给用户。
本申请的再一个方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现本申请第一方面所示的搜索方法。
本申请的又一个方面,提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现本申请第一方面所示的搜索方法。
本申请提供的技术方案带来的有益效果是:
本申请提供的搜索方法,通过对搜索请求进行搜索意图类别的划分,确定与该搜索请求的搜索意图类别对应的相关度确定方式,针对不同搜索意图类别进行针对性的相关度计算,有利于按照用户的搜索意图,准确获得搜索请求与各候选搜索结果之间的相关度,基于各候选搜索结果对应的准确相关度,使得提供给用户的目标搜索结果更加符合用户预期,提升目标搜索结果与用户预期的匹配程度,提升了用户的使用感知。
本申请附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请一个实施例提供的搜索方法的流程图;
图2为本申请另一个实施例提供的搜索方法的流程图,其展示了对专有名词的搜索流程图(右边部分)以及对非专有名词的搜索流程图(左边部分);
图3为本申请一个实施例提供的确定各候选搜索结果与搜索请求之间的文本匹配度的流程图;
图4为本申请一个实施例提供的确定候选搜索结果对应的相关信息与搜索请求的相关信息的相关信息匹配度的流程图;
图5为本申请一个实施例提供的基于相关度对候选搜索结果进行排序的示意图;
图6为本申请一个实施例提供的一种搜索装置的结构示意图;
图7为本申请一个实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组合。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
专有名词,是指特定的或独一无二的人或物,如:人名、地名、国家名、景观名、品牌名、地址名称、店铺名称等。
相关度,是指用户输入的搜索请求与返回结果之间的匹配程度,相关度越高,匹配度越高,返回结果越符合用户搜索请求的预期。
本申请实施例所提供的方案可以由任一电子设备执行,如可以是终端设备,也可以是服务器,其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。对于现有技术中所存在的技术问题,本申请提供的搜索方法、装置、电子设备及存储介质,旨在解决现有技术的技术问题中的至少一项。
下面以具体实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
本申请实施例提供了一种可能的实现方式,如图1所示,提供了一种搜索方法的流程图,该方案可以由任一电子设备执行,可选的,可以在服务器端或终端设备执行,为描述方便,下面以服务器作为执行主体对本申请实施例提供的方法进行说明。如图1中所示,该方法可以包括以下步骤:
步骤S110,获取用户的搜索请求、以及搜索请求对应的各候选搜索结果;
步骤S120,确定搜索请求的搜索意图类别;
步骤S130,按照搜索意图类别对应的相关度确定方式,确定搜索请求与各候选搜索结果的相关度;
步骤S140,基于各候选搜索结果对应的相关度,从各候选搜索结果中确定用户的目标搜索结果并提供给用户。
本申请提供的方案可以适用但不限于如下场景:电子设备(如服务器)获取到用户的搜索请求,该搜索请求可以为文本、语音等形式,利用该搜索请求进行初步搜索,得到多个候选搜索结果,以商品为例,搜索请求为商品,候选搜索结果可以为相关商品、包含该商品的店铺等。然后,识别该搜索请求的搜索意图类别,根据搜索请求中是否包含专有名词来划分,也可以通过意图识别模型来实现,该意图识别模型可以是基于大量标注有搜索意图的训练数据训练得到,该意图识别模型可以实现对搜索请求的二分类,即将搜索意图类别可以划分为专有名词搜索以及非专有名词搜索,由于每种搜索意图类别希望反馈的搜索结果很有可能也是不一样的,因此,本申请实施例所提供的方法,针对每种搜索意图类别对应设有相应的相关度确定方式,利用搜索意图类别相对应的相关度确定方式确定搜索请求与各候选搜索结果之间的相关度,该相关度可以通过分值、级别等方式度量。再根据各候选搜索结果对应的相关度确定符合用户预期的目标搜索结果,将目标搜索结果发送给用户。
以搜索请求为商品搜索请求为例,搜索请求对应的候选搜索结果中除了包含同类商品外,还可以包括主营该商品的店铺,也就是说,候选搜索结果除了包含相同或相似商品之外,还可以包含与该商品存在匹配关系(如店铺售卖该商品)的店铺,扩大了候选搜索结果的范围,有利于提高候选搜索结果符合用户预期的概率。
搜索请求与候选搜索结果的相关度,为搜索请求与候选搜索结果的匹配程度。相关度越高,候选搜索结果越符合用户发送搜索请求的预期;相关度越低,搜索请求与候选搜索结果的匹配程度越低,则越不符合用户预期。
本申请的可选实施例中,搜索意图类别包括专有名词搜索或非专有名词搜索。
专有名词搜索,是指用户在输入的搜索请求中包含专有名词、或者专有名词的变形或别称(即可能的专有名词,也可以称为候选专有名词),如搜索请求中包括:电脑,该名词具有特定指代意义,针对该种有特定指代意义的词语,利用其对应的相关度确定方式来确定搜索请求与候选搜索结果的相关度,通过对搜索请求进行类别划分,并利用针对性的相关度确定方式确定相关度,有利于提升搜索请求与候选搜索结果的相关度的精准度。
非专有名词搜索,为对类目词、内容词等无特定指代意义的词语的搜索,如搜索请求中包括对咖啡的搜索,对应的候选搜索结果中可以包括香草咖啡、冰淇淋咖啡、拿铁、A咖啡厅、B西式快餐店、D运动健身房等。非专有名词对应的搜索类型复杂,针对这类相对复杂的搜索请求的候选搜索结果,采用针对该种搜索意图类别的相关度确定方式确定搜索请求与各候选搜索结果的相关度,有利于提升相关度的精准度。
本申请提供的搜索方法,通过对搜索请求进行搜索意图类别的划分,确定与该搜索请求的搜索意图类别对应的相关度确定方式,针对不同搜索意图类别进行针对性的相关度计算,有利于准确获得搜索请求与各候选搜索结果之间的相关度,基于各候选搜索结果对应的准确相关度,使得提供给用户的目标搜索结果更加符合用户预期,提升目标搜索结果与用户预期的匹配程度。
为了更清楚本申请提供的搜索方案及其技术效果,接下来以多个可选实施例对其具体实施方案进行详细阐述。
在一种可选实施例中,搜索意图类别包括专有名词搜索或非专有名词搜索,搜索意图类别为专有名词搜索时,上述步骤S130提供的按照搜索意图类别对应的相关度确定方式,确定搜索请求与各候选搜索结果的相关度,可以包括:
A1,挖掘搜索请求中的候选专有名词;
A2,基于候选专有名词和专有名词数据库中的标准专有名词的匹配度,确定候选专有名词对应的标准专有名词;
A3,基于候选专有名词对应的标准专有名词与各候选搜索结果的匹配度,确定搜索请求与各候选搜索结果之间的相关度。
专有名词搜索类别,对应的搜索请求中除了包含专有名词,可能还包含其他非专有名词,或者搜索请求中仅包含专有名词的一部分,通过对搜索请求进行挖掘,如:对搜索请求中的文本进行结构化解析、补充等方式得到候选专有名词,例如:用户输入的搜索请求为“ABCDEF”的搜索请求,专有名词数据库中存储的品牌名为“ABC”,对搜索请求进行结构化解析获得候选专有名词,如“AB”、“ABC”、“ABCDE”、“ABCDEF”等。
获得候选专有名词和专有名词数据库中存储的标准专有名词的匹配程度,该种匹配程度可以通过文本匹配程度表征,可以将匹配程度最高的标准专有名词确定为候选专有名词对应的标准专有名词,该专有名词数据库中预先存储有大量的标准专有名词以及与该标准专有名词存在映射关系的候选输入。该候选输入可以通过词典预测等方式获得,也可以通过历史数据得到,并且多个候选输入已预先与对应的标准专有名词建立映射关系,存储在专有名词数据库中。通过对搜索请求中的候选专有名词与专有名词数据库中存储的候选输入、标准专有名词进行匹配。获得每一候选专有名词与各标准专有名词之间的匹配度,可以将匹配度最高的标准专有名词作为对应候选专有名词的标准专有名词。
当候选专有名词与专有名词数据中的候选输入的匹配度最高时,将专有名词数据中与该候选输入关联的标准专有名词作为该候选专有名词对应的标准专有名词。
计算候选专有名词对应的标准专有名词与各候选搜索结果之间的匹配度,将该匹配度作为该搜索请求与各候选搜索结果之间的相关度。
一个可选实施例提供的搜索方法的流程图如图2所示,该流程图中包括对专有名词搜索的流程图(图2中的右边部分)及非专有名词搜索的流程图(图2中的左边部分),结合图2中的右边部分阐述对专有名词搜索类别的搜索过程:接收到搜索请求,确定该搜索请求的搜索意图类别为专有名词搜索时,专有名词可以为品牌词或地址词(例如:行政区域、道路、商圈、商场等),针对包含该部分专有名词的搜索请求,首先对搜索请求进行数据挖掘,获得其中包含的候选专有名词,然后通过字典预测,得到专有名词数据库中存储的标准专有名词,然后利用搜索请求对应的标准专有名词与各候选搜索结果进行精准匹配,该精准匹配可以是文本匹配或者实体信息匹配等方式进行,例如,用户搜索“C面馆”,经过字典预测之后得到专有名词数据库中存储有“C面馆”以及“C老面馆”,可以通过文本匹配的方式进行精准匹配,将匹配度最高的标准专有名词作为匹配结果,最后将精准匹配的匹配结果对应的匹配度作为搜索请求与对应候选搜索结果的相关度。
本申请实施例针对专有名词搜索类别,针对专有名词的特点,采用针对该种搜索请求的相关度确定方式计算该类别搜索请求与各候选搜索结果之间的相关度,有利于提升相关度的准确度。
在本申请另一实施例中,搜索意图类别为非专有名词搜索时,步骤S130提供的按照搜索意图类别对应的相关度确定方式,确定搜索请求与各候选搜索结果的相关度,可以包括:
B11,确定各候选搜索结果与搜索请求之间的文本匹配度;
B12,基于各候选搜索结果与搜索请求之间的文本匹配度,确定搜索请求与各候选搜索结果的相关度。
首先获得搜索请求与各候选搜索结果对应的文本信息,若用户提供的搜索请求为语音信息的搜索请求,则首先将语音信息转换为文本信息。搜索请求对应的文本信息可以为搜索请求对应的整体文本,也可以是对整体文本进行分段之后的子文本,相应地,各候选搜索结果对应的文本信息也可以为整体文本及子文本,计算搜索请求对应的文本信息与各候选搜索结果对应的文本信息之间的文本匹配度,文本匹配度的计算有多种方法,如编辑距离、BM25(binary independence model,二值独立模型)相关性、ngram(多元语言模型)相关性等方式。根据各候选搜索结果对应的文本匹配度确定各候选搜索结果与搜索请求的相关度,可以将候选搜索结果对应的文本匹配度作为该候选搜索结果与搜索请求的相关度。
该实施例提供的方案,利用搜索请求对应的文本信息以及各候选搜索结果对应的文本信息计算文本匹配度,根据文本匹配度能够直观地确定候选搜索结果与搜索请求的相关度。
在获得搜索请求与各候选搜索结果对应的文本匹配度的基础上,针对非专有名词,本申请一种可选实施例提供的搜索方法,还可以包括:
B21,获取搜索请求的相关信息,以及各候选搜索结果对应的相关信息;
B22,对于每一候选搜索结果,确定该候选搜索结果对应的相关信息与搜索请求的相关信息的相关信息匹配度。
搜索请求的相关信息,可以从侧面反映搜索请求的特点,候选搜索结果的相关信息同样从侧面反映候选搜索结果的特点,比如:搜索请求为咖啡,候选搜索结果为A咖啡厅,两者在文本上的相关性较低,但实质上A咖啡厅的主营业务是卖咖啡,业务信息为A咖啡厅的相关信息,基于搜索请求的相关信息以及候选搜索结果的相关信息能够挖掘出搜索请求与候选搜索结果之间深层联系。基于搜索请求的相关信息以及候选搜索结果的相关信息之间的相关信息匹配度,扩展了搜索请求与候选搜索结果之间相关度的考虑因素,避免从单一角度衡量搜索请求与候选搜索结果之间的相关性,有利于提升搜索请求与候选搜索结果的相关度的准确性。
搜索请求的相关信息,可以包括搜索请求的业务信息、实体信息、属性信息等,候选搜索结果的业务信息、实体信息、属性信息的说明示例如下:搜索请求的实体信息为咖啡,候选搜索结果包括:咖啡厅、健身房、咖啡味冰淇淋、大杯冰咖啡等,则该候选搜索结果中咖啡厅的业务信息为咖啡,健身房的业务为健身,咖啡味冰淇淋的实体为冰淇淋,候选搜索结果中的“大杯”、“冰”等均为属性信息。
分别对搜索请求对应的相关信息与候选搜索结果对应的相关信息进行相关性匹配计算,得到搜索请求与各候选搜索结果的每项相关信息的相关信息匹配度。可以将该每项相关信息对应的相关信息匹配度作为搜索请求与各候选搜索结果的相关度,也可以将每项相关信息对应的相关信息匹配度作为计算搜索请求与该候选搜索结果的相关度的一个参数。
在本申请一种可选实施例中,B21提供的基于各候选搜索结果与搜索请求之间的文本匹配度,确定搜索请求与各候选搜索结果的相关度,包括:
对于每一候选搜索结果,基于该候选搜索结果对应的文本匹配度和相关信息匹配度,确定搜索请求与该候选搜索结果的相关度。
该实施例中,根据搜索请求与各候选搜索结果之间的文本匹配度、以及相关信息匹配度确定搜索结果与各候选搜索结果的相关度,基于文本匹配度以及相关信息匹配度确定该相关度,不仅考虑了搜索请求与候选搜索结果在文本上的匹配程度,还考虑了搜索请求与候选搜索结果在相关信息上的匹配程度,进一步提升搜索请求与候选搜索结果的相关度的准确性。
在获得搜索请求与各候选搜索结果对应的文本匹配度的基础上,针对非专有名词,本申请另一种可选实施例提供的搜索方法,还可以包括:
B31,对于每一候选搜索结果,确定该候选搜索结果与搜索请求的语义相似度。
候选搜索结果与搜索请求的语义相似度可以准确表征候选搜索结果的语义信息与搜索请求的语义信息之间的相似程度。搜索请求与候选搜索结果的语义相似度,可以通过语义识别模型计算,语义识别模型能够挖掘出搜索请求与候选搜索结果的真实语义信息之间的相似程度,因此,可以将候选搜索结果与搜索请求之间的语义相似度作为候选搜索结果与搜索请求之间的相关度,实现对候选搜索结果与搜索请求之间的相关度的准确表征。
在语义识别模型训练过程中,将搜索请求的语义信息和候选搜索结果对应的语义信息作为模型的输入,输出搜索请求和候选搜索结果之间的语义相似度,该相似度的范围可以为0到1之间,包含端点值,相关度越接近0表明相关越低,越接近1表明相关程度越高。
比如,搜索请求包括“早餐”,对应的候选搜索结果包括包子铺、早餐店、快餐店三个结果,虽然这三个候选结果在文本匹配以及相关信息匹配时的匹配程度不同,但实质上,这三个候选搜索结果与搜索请求均具有较高的相关性,通过语义识别模型提供的语义相似度能够弥补文本匹配度与相关信息匹配度在计算搜索请求与各候选搜索结果之间相关度的不足,有利于提升搜索请求与候选搜索结果之间相关度的准确性。
在获取各候选搜索结果与搜索请求的语义相似度的基础上,步骤B12提供的基于各候选搜索结果与搜索请求之间的文本匹配度,确定搜索请求与各候选搜索结果的相关度,包括:
对于每一候选搜索结果,基于该候选搜索结果对应的语义相似度和文本匹配度,确定搜索请求与该候选搜索结果的相关度。
本申请实施例提供了如下方案:对于每一候选搜索结果,基于该候选搜索结果对应的语义相似度和文本匹配度确定搜索请求与该候选搜索结果的相关度,其中文本匹配度可以是仅依据后续选搜索结果与搜索请求之间的文本匹配度确定的,也可以是基于候选搜索结果对应的文本匹配度和相关信息匹配度获得的。
当候选搜索结果与搜索请求之间的文本匹配度是根据该候选搜索结果对应的文本匹配度和相关信息匹配度确定时,结合图2的左边部分展示的非专有名词对应的搜索流程图,该流程图对应的搜索方案如下:搜索请求的搜索意图类别为非专有名词搜索时,搜索过程包括如下三层,第一层(对应图2中的1楼),获取搜索请求与候选搜索结果之间的文本匹配度(对应图2中的文本相关性),然后对搜索请求与各候选搜索结果进行一致性校验(对应图2中的2楼),即获取搜索请求与该候选搜索结果之间的相关信息匹配度,一致性校验可以依次进行如下层面的校验:业务信息、主体信息、属性信息,最后获取搜索请求与各候选搜索结果之间的语义相似度(对应图2中的3楼),可以通过语义识别模型(该语义识别模型可以为图2中的端到端深度语义模型)获取搜索请求与候选搜索结果之间的语义相似度。基于该文本匹配度、相关信息匹配度以及语义相似度确定搜索请求与该候选搜索结果之间的相关度。
进一步地,可以设置文本匹配度、相关信息匹配度以及语义相似度对应的权重,根据这三个参数以及对应的权重,通过线性加权的方式得到搜索请求与任一候选搜索结果的相关度。结合文本匹配度、相关信息匹配度以及语义相似度,通过多因子确定搜索请求与候选搜索结果的相关度,有利于进一步提高相关度的准确性。
本申请一个实施例还提供了确定各候选搜索结果与搜索请求之间的文本匹配度的一种可选方式,包括:
针对每一候选搜索结果,均执行如下操作,其流程图请参照图3所示:
S310,获取候选搜索结果中的信息点,并基于该信息点获得至少两个目标字段;
S320,确定搜索请求与各目标字段的文本相似度;
S330,基于各目标字段对应的文本相似度,确定该候选搜索结果与搜索请求之间的文本匹配度。
确定候选搜索结果与搜索请求之间的文本匹配度,除了可以直接计算候选搜索结果和搜索请求之间的整体的文本匹配度,还可以获得各候选搜索结果的信息点,候选搜索结果的信息点为表征该候选搜索结果的关键点信息的数据,基于各候选搜索结果的信息点获得至少两个目标字段,如:候选搜索结果为店铺,那么该店铺的信息点可以包括该店铺的店铺名、店铺类别、地址名、店铺中的商品名等,基于该信息点确定至少两个目标字段,可以为店铺名、商品名、地址名等。然后针对每个目标字段,获得每个目标字段与搜索请求之间的文本匹配度,再基于各目标字段对应的文本匹配度确定对应的候选搜索结果与搜索请求之间的文本匹配度,将候选搜索结果划分为长度更小且有特定信息的目标字段,基于该目标字段与搜索请求的文本相似度确定包含这些目标字段的候选搜索结果与搜索请求之间的文本匹配度,有利于提高搜索请求与候选搜索结果之间文本匹配度的准确度。
在另一可选实施例中,针对上述实施例提供的方案,对每一候选搜索结果对应的各目标字段的权重不同。在该种情况下,S330提供的基于各目标字段对应的文本相似度,确定该候选搜索结果与搜索请求之间的文本匹配度,可以通过如下方式实现:
S331,获取各目标字段的权重;
S332,根据各目标字段的权重,对各目标字段的文本相似度进行加权求和,得到该候选搜索结果与搜索请求之间的文本匹配度。
该实施例提供的方案,在通过各目标字段的文本相似度确定候选搜索结果与搜索请求之间的文本匹配度时,考虑了不同目标字段的权重,基于目标字段对应的权重及文本相似度,可以通过线性加权的方式确定包含该目标字段的候选搜索结果与搜索请求之间的文本匹配度,能够进一步提高候选搜索结果与搜索请求的文本匹配度的准确度。
一种可选实施例中,B21提供的相关信息包括业务信息、实体信息以及属性信息中的至少一项,若相关信息包括至少两项,对于每一候选搜索结果,确定该候选搜索结果对应的相关信息与搜索请求的相关信息的相关信息匹配度,可以包括:
C1,获取相关信息中每项信息对应的权重;
C2,确定该候选搜索结果中每项信息与搜索请求的相关信息匹配度;
C3,基于各项相关信息对应的权重,对各项相关信息匹配度进行加权求和,得到该候选搜索结果对应的相关信息与搜索请求的相关信息的相关信息匹配度。
本申请实施例提供的相关信息包括业务信息、实体信息以及属性信息中的至少一项,也就是可以为这三项中的任一项、任两项或三项的组合。
当相关信息包括其中的至少两项时,确定每项相关信息对应的权重,并基于该权重确定候选搜索结果与搜索请求的相关信息匹配度。具体地,确定候选搜索结果与搜索请求的相关信息匹配度的过程如下:首先获取相关信息中每项信息对应的权重,该权重的设置可以按照历史数据或云端大数据学习得到,然后将每项相关信息与其对应的权重进行加权求和,得到候选搜索结果的每项相关信息与搜索请求对应相关信息的相关信息匹配度。
若某一候选搜索结果中仅包含一种相关信息,则可以将缺失的相关信息的权重设为0,计算该候选搜索结果对应的相关信息匹配度。若某一候选搜索结果的实体信息与搜索结果的实体信息之间的相关信息匹配度为0,无论预设的实体信息对应的权重大小,将该相关信息匹配度与对应的权重进行相乘得到实体信息对应的匹配度为0,确定业务信息及属性信息对应的相关信息匹配度的方案类似,不再赘述。
该实施例提供的方案对相关信息进一步细化,针对细化后的相关信息进行相关信息匹配度的计算,有利于获得准确的相关信息匹配度,进而有利于提高基于该相关信息匹配度确定的相关度的准确度。
在确定搜索结果的相关信息与各候选搜索结果对应的相关信息的相关信息匹配度时,除了上述方案,还可以通过如下方案获得,相关信息包括第一信息和第二信息,第一信息包括业务信息和实体信息中的至少一项,第二信息包括属性信息,确定该候选搜索结果对应的相关信息与搜索请求的相关信息的相关信息匹配度,可以通过如下方式实现,其流程图请参照图4,包括:
S410,确定各项相关信息对应的相关信息匹配度;
S420,根据第一信息对应的相关信息匹配度,确定各候选搜索结果的优先级,获得至少两个优先级以及各优先级对应的各候选搜索结果;
S430,针对每一优先级,根据属于该优先级的各候选搜索结果的第二信息对应的相关信息匹配度,确定属于该优先级的各候选搜索结果对应的排序信息;
S440,对于每一候选识别结果,基于该候选识别结果对应的优先级以及排序信息,确定该候选搜索结果对应的相关信息与搜索请求的相关信息的相关信息匹配度。
可选的,每个优先级别可以预设有对应的基础度量信息,比如:基础分,每一优先级中的各候选搜索结果对应的排序信息,可以为排序分,针对每一候选搜索结果,可以通过该候选搜索结果的优先级以及排序信息确定其对应的相关信息匹配度,如:通过候选搜索结果对应的优先级的基础分与排序分进行求和得到,也可以通过对基础分和排序分进行权重分配,通过基础分和权重分以及对应的权重进行加权求和得到。
本申请实施例提供的方案,提供了一种确定候选搜索结果对应的相关信息与搜索请求的相关信息的相关信息匹配度的方法,通过业务信息或/和实体信息对候选搜索结果进行粗略划分,然后再针对候选搜索结果的属性信息进行进一步排序,有利于获得各候选搜索结果在每个级别的详细排序,而且有利于降低对每一候选搜索结果进行排序过程中的数据计算量。
上述实施例提供的方案,获得每个候选搜索结果对应的相关度,根据相关度从候选搜索结果中筛选出目标搜索结果,可以通过设定预设阈值,将相关度大于预设阈值的候选搜索结果作为目标搜索结果,也可以根据预设的目标搜索结果的预设数量,按照相关度大小对候选搜索结果进行排序,将排序靠前的预设数量个候选搜索结果作为目标搜索结果,以满足用户的期望,提升用户体验。
对候选搜索结果进行排序时,除了能够利用相关度对候选搜索结果进行排序之外,本申请一种可选实施例还提供了如下方案对候选搜索结果进行排序,具体如下:获得各候选搜索结果与搜索请求的相关度之后,按照相关度的大小对各候选搜索结果划分级别,以便直接通过候选搜索结果的级别确定该候选搜索结果与搜索请求之间的相关性大小,如:将相关度划分为2个级别,分别为第一级别和第二级别,第一级别对应的相关度比第二级别对应的相关度高,划分后的各候选搜索结果的相关性不会跨越级别。
结合图5提供的示意图阐述本申请实施例基于相关度对各候选搜索结果进行排序的过程:获得搜索请求与各候选搜索结果对应的相关度之后,该相关度以分数的形式表征,按照该相关度的分数大小,将各候选搜索结果划分为多个档位,如可以将各候选搜索结果划分为两个档位,简单地划分为好(对应图5中的GOOD)和坏(对应图5中的BED)两档,各候选搜索结果对应的相关度不会跨档,也就是说,不会将分档为坏的候选搜索结果排在分档结果为好的候选搜索结果之前(对应图5中GOOD店靠前)。针对每个档位,该档位中的每个候选搜索结果,还可以获得该候选搜索结果在该档位中的平滑分,该平滑分可以用作候选搜索结果在所属档位中的排序,还可以将候选搜索结果以及对应的平滑分作为用于获取平滑分的模型的输入,其中,平滑分可以通过候选识别结果的转化率、点击率以及质量等多因子融合得到。
本实施例提供的方案,首先利用各候选搜索结果与搜索请求的相关性对各候选搜索结果进行级别划分,再利用转化率、点击率等历史反馈信息对各级别中的候选搜索结果进行多因子联合排序,全面地考虑影响各候选搜索结果的因素,有利于提升候选搜索结果的排序准确性,而且基于准确的候选搜索结果的排序能够提升目标搜索结果的排序准确性。
可选地,按照上述实施例提供的方式从候选搜索结果中确定目标搜索结果之后,当目标搜索结果包括至少两个时,从各候选搜索结果中确定用户的目标搜索结果并提供给用户,可以包括:
D1,基于相关度确定各目标搜索结果的排序信息;
D2,将各目标搜索结果按照该排序信息提供给用户。
当目标搜索结果包括至少两个时,提供给用户之前要确定各目标搜索结果的排列顺序,本申请实施例提供的方案是利用各目标搜索结果对应的相关度对目标搜索结果进行排序,将排序后的目标搜索结果提供给用户,使得目标搜索结果有序展示于用户端。
为了更好的理解和说明本申请实施例的方案及有益效果,以下通过一个具体示例阐述本申请提供的搜索方法,本申请的方案可以应用于具有搜索功能的应用程序中,以下示例以外卖应用程序为例进行说明,用户通过该应用程序进行商品或店铺等信息的搜索,下面以搜索请求为对咖啡的搜索请求为例进行说明:
针对非专有名词“咖啡”的搜索请求,对应的候选搜索结果包括“A咖啡厅”、“B西式快餐店”、“咖啡冰淇淋”、“健身体验课”,首先确定各候选搜索结果与搜索请求的文本匹配度,该候选搜索结果中“咖啡冰淇淋”的文本匹配度最高,其次,确定各候选搜索结果与搜索请求的相关信息匹配度,根据候选搜索结果的实体信息、业务信息以及属性信息确定对应的相关信息匹配度,该候选搜索结果中,“A咖啡厅”的业务信息与“咖啡”的一致性最高,最后,通过模型获得各候选搜索结果与搜索请求之间的语义相似度,该候选搜索结果中“A咖啡厅”的语义相似度最高。获得文本匹配度、相关信息匹配度以及语义相似度对应的权重,将文本匹配度、相关信息匹配度以及语义相似度以及对应的权重进行加权求和,得到最终的候选搜索结果与搜索请求的相关度,在这些候选搜索结果中,“A咖啡厅”的相关度最高,若仅选取一个候选搜索结果作为目标搜索结果,则将“A咖啡厅”作为“咖啡”的目标搜索结果提供给用户。
本申请实施例提供的方案,在确定搜索请求与候选搜索结果的相关度时,通过文本匹配度确定候选搜索结果与搜索请求在文本上的匹配,通过相关信息匹配度确定候选搜索结果与搜索请求在相关信息上的匹配,通过语义相似度确定候选搜索结果与搜索请求在实际语义上的匹配,通过多种信息的匹配,实现候选搜索结果与搜索请求的相关性的准确表征,以便基于该准确表征对用户进行精准推荐。
基于与本申请实施例所提供的方法相同的原理,本申请实施例还提供了一种搜索装置600,如图6所示,该装置可以包括:候选搜索结果获取模块610、搜索意图类别确定模块620、相关度确定模块630、目标搜索结果确定模块640,其中:
候选搜索结果获取模块610,用于获取用户的搜索请求、以及搜索请求对应的各候选搜索结果;
搜索意图类别确定模块620,用于确定搜索请求的搜索意图类别;
相关度确定模块630,用于按照搜索意图类别对应的相关度确定方式,确定搜索请求与各候选搜索结果的相关度;
目标搜索结果确定模块640,用于基于各候选搜索结果对应的相关度,从各候选搜索结果中确定用户的目标搜索结果并提供给用户。
本申请提供的搜索装置,通过对搜索请求进行搜索意图类别的划分,确定与该搜索请求的搜索意图类别对应的相关度确定方式,针对不同搜索意图类别进行针对性的相关度计算,有利于按照用户的搜索意图,准确获得搜索请求与各候选搜索结果之间的相关度,基于各候选搜索结果对应的准确相关度,使得提供给用户的目标搜索结果更加符合用户预期,提升目标搜索结果与用户预期的匹配程度,提升了用户的使用感知。
本申请一个实施例中,若搜索意图类别为专有名词搜索,相关度确定模块630,具体用于:
挖掘搜索请求中的候选专有名词;
基于候选专有名词和专有名词数据库中的标准专有名词的匹配度,确定候选专有名词对应的标准专有名词;
基于候选专有名词对应的标准专有名词与各候选搜索结果的匹配度,确定搜索请求与各候选搜索结果之间的相关度。
可选地,若搜索意图类别为非专有名词搜索,相关度确定模块630,具体用于:
确定各候选搜索结果与搜索请求之间的文本匹配度;
基于各候选搜索结果与搜索请求之间的文本匹配度,确定搜索请求与各候选搜索结果的相关度。
可选地,搜索装置600,还包括相关信息匹配度确定模块,具体用于:
获取搜索请求的相关信息,以及各候选搜索结果对应的相关信息;
对于每一候选搜索结果,确定该候选搜索结果对应的相关信息与搜索请求的相关信息的相关信息匹配度;
该种方案中,相关度确定模块630,具体用于:
对于每一候选搜索结果,基于该候选搜索结果对应的文本匹配度和相关信息匹配度,确定搜索请求与该候选搜索结果的相关度。
可选地,搜索装置600,还包括语义相似度确定模块,用于:
对于每一候选搜索结果,确定该候选搜索结果与搜索请求的语义相似度;
该种方案中,相关度确定模块630,具体用于:
对于每一候选搜索结果,基于该候选搜索结果对应的语义相似度和文本匹配度,确定搜索请求与该候选搜索结果的相关度。
可选地,相关度确定模块630,还用于:
针对每一候选搜索结果,均执行如下操作:
获取候选搜索结果中的信息点,并基于信息点获得至少两个目标字段;
确定搜索请求与各目标字段的文本相似度;
基于各目标字段对应的文本相似度,确定该候选搜索结果与搜索请求之间的文本匹配度。
可选地,相关度确定模块630,具体用于:
获取各目标字段的权重;
基于各目标字段的权重,对各目标字段的文本相似度进行加权求和,得到该候选搜索结果与搜索请求之间的文本匹配度。
可选地,相关信息包括业务信息、实体信息以及属性信息中的至少一项,若相关信息包括至少两项,相关信息匹配度确定模块,具体用于:
获取相关信息中每项信息对应的权重;
确定该候选搜索结果中每项信息与搜索请求的相关信息匹配度;
基于各项相关信息对应的权重,对各项相关信息匹配度进行加权求和,得到该候选搜索结果对应的相关信息与搜索请求的相关信息的相关信息匹配度。
可选地,相关信息包括第一信息和第二信息,第一信息包括业务信息和实体信息中的至少一项,第二信息包括属性信息,相关信息匹配度确定模块,具体用于:
确定各项相关信息对应的相关信息匹配度;
根据第一信息对应的相关信息匹配度,确定各候选搜索结果的优先级,获得至少两个优先级以及各优先级对应的各候选搜索结果;
针对每一优先级,根据属于该优先级的各候选搜索结果的第二信息对应的相关信息匹配度,确定属于该优先级的各候选搜索结果对应的排序信息;
对于每一候选识别结果,基于该候选识别结果对应的优先级以及排序信息,确定该候选搜索结果对应的相关信息与搜索请求的相关信息的相关信息匹配度。
可选地,目标搜索结果包括至少两个,目标搜索结果确定模块640,具体用于:
基于相关度确定各目标搜索结果的排序信息;
将各目标搜索结果按照排序信息提供给用户。
本申请实施例的搜索装置可执行本申请实施例所提供的搜索方法,其实现原理相类似,本申请各实施例中的搜索装置中的各模块、单元所执行的动作是与本申请各实施例中的搜索方法中的步骤相对应的,对于搜索装置的各模块的详细功能描述具体可以参见前文中所示的对应的搜索方法中的描述,此处不再赘述。
基于与本申请的实施例中所示的方法相同的原理,本申请的实施例中还提供了一种电子设备,该电子设备可以包括但不限于:处理器和存储器;存储器,用于存储计算机程序;处理器,用于通过调用计算机程序执行本申请任一可选实施例所示的搜索方法。与现有技术相比,本申请提供的搜索方法,通过对搜索请求进行搜索意图类别的划分,确定与该搜索请求的搜索意图类别对应的相关度确定方式,针对不同搜索意图类别进行针对性的相关度计算,有利于准确获得搜索请求与各候选搜索结果之间的相关度,基于各候选搜索结果对应的准确相关度,使得提供给用户的目标搜索结果更加符合用户预期,提升目标搜索结果与用户预期的匹配程度。
在一个可选实施例中提供了一种电子设备,如图7所示,图7所示的电子设备4000可以为服务器,包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。
处理器4001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器4003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器4003用于存储执行本申请方案的应用程序代码,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码,以实现前述方法实施例所示的内容。
其中,电子设备包括但不限于:移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图7示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
本申请提供的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
需要说明的是,本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备执行上述实施例所示的方法。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的搜索方法。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块的名称在某种情况下并不构成对该模块本身的限定,例如,搜索意图类别确定模块还可以被描述为“确定搜索请求的搜索意图类别模块”。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (13)
1.一种搜索方法,其特征在于,包括:
获取用户的搜索请求、以及所述搜索请求对应的各候选搜索结果;
确定所述搜索请求的搜索意图类别;所述搜索意图类别包括:专有名词类别和非专有名词类别;
针对不同搜索意图类别对应设有相对应的相关度确定方式,按照所述搜索意图类别对应的相关度确定方式,确定所述搜索请求与各所述候选搜索结果的相关度;
基于各所述候选搜索结果对应的相关度,从各所述候选搜索结果中确定所述用户的目标搜索结果并提供给所述用户。
2.根据权利要求1所述的方法,其特征在于,若所述搜索意图类别为专有名词搜索,所述按照所述搜索意图类别对应的相关度确定方式,确定所述搜索请求与各所述候选搜索结果的相关度,包括:
挖掘所述搜索请求中的候选专有名词;
基于所述候选专有名词和专有名词数据库中的标准专有名词的匹配度,确定所述候选专有名词对应的标准专有名词;
基于所述候选专有名词对应的标准专有名词与各候选搜索结果的匹配度,确定所述搜索请求与各所述候选搜索结果之间的相关度。
3.根据权利要求1所述的方法,其特征在于,若所述搜索意图类别为非专用名词搜索,所述按照所述搜索意图类别对应的相关度确定方式,确定所述搜索请求与各所述候选搜索结果的相关度,包括:
确定各所述候选搜索结果与所述搜索请求之间的文本匹配度;
基于各所述候选搜索结果与所述搜索请求之间的文本匹配度,确定所述搜索请求与各所述候选搜索结果的相关度。
4.根据权利要求3所述的方法,其特征在于,还包括:
获取所述搜索请求的相关信息,以及各所述候选搜索结果对应的相关信息;
对于每一候选搜索结果,确定该候选搜索结果对应的相关信息与所述搜索请求的相关信息的相关信息匹配度;
所述基于各所述候选搜索结果与所述搜索请求之间的文本匹配度,确定所述搜索请求与各所述候选搜索结果的相关度,包括:
对于每一候选搜索结果,基于该候选搜索结果对应的文本匹配度和相关信息匹配度,确定所述搜索请求与该候选搜索结果的相关度。
5.根据权利要求3或4的方法,其特征在于,还包括:
对于每一候选搜索结果,确定该候选搜索结果与所述搜索请求的语义相似度;
所述基于各所述候选搜索结果与所述搜索请求之间的文本匹配度,确定所述搜索请求与各所述候选搜索结果的相关度,包括:
对于每一候选搜索结果,基于该候选搜索结果对应的语义相似度和文本匹配度,确定所述搜索请求与该候选搜索结果的相关度。
6.根据权利要求3所述的方法,其特征在于,所述确定各所述候选搜索结果与所述搜索请求之间的文本匹配度,还包括:
针对每一候选搜索结果,均执行如下操作:
获取所述候选搜索结果中的信息点,并基于所述信息点获得至少两个目标字段;
确定所述搜索请求与各目标字段的文本相似度;
基于所述各目标字段对应的文本相似度,确定该候选搜索结果与所述搜索请求之间的文本匹配度。
7.根据权利要求6所述的方法,其特征在于,所述基于所述各目标字段对应的文本相似度,确定该候选搜索结果与所述搜索请求之间的文本匹配度,包括:
获取各目标字段的权重;
基于各目标字段的权重,对所述各目标字段的文本相似度进行加权求和,得到该候选搜索结果与所述搜索请求之间的文本匹配度。
8.根据权利要求4所述的方法,其特征在于,所述相关信息包括业务信息、实体信息以及属性信息中的至少一项,若所述相关信息包括至少两项,所述对于每一候选搜索结果,确定该候选搜索结果对应的相关信息与所述搜索请求的相关信息的相关信息匹配度,包括:
获取所述相关信息中每项信息对应的权重;
确定该候选搜索结果中每项信息与所述搜索请求的相关信息匹配度;
基于各项相关信息对应的权重,对各项相关信息匹配度进行加权求和,得到该候选搜索结果对应的相关信息与所述搜索请求的相关信息的相关信息匹配度。
9.根据权利要求4所述的方法,其特征在于,所述相关信息包括第一信息和第二信息,所述第一信息包括业务信息和实体信息中的至少一项,所述第二信息包括属性信息,所述确定该候选搜索结果对应的相关信息与所述搜索请求的相关信息的相关信息匹配度,包括:
确定各项相关信息对应的相关信息匹配度;
根据所述第一信息对应的相关信息匹配度,确定所述各候选搜索结果的优先级,获得至少两个优先级以及各优先级对应的各候选搜索结果;
针对每一优先级,根据属于该优先级的各候选搜索结果的所述第二信息对应的相关信息匹配度,确定属于该优先级的各候选搜索结果对应的排序信息;
对于每一候选识别结果,基于该候选识别结果对应的优先级以及排序信息,确定该候选搜索结果对应的相关信息与所述搜索请求的相关信息的相关信息匹配度。
10.根据权利要求1所述的方法,其特征在于,所述目标搜索结果包括至少两个,所述从各所述候选搜索结果中确定所述用户的目标搜索结果并提供给所述用户,包括:
基于所述相关度确定所述各目标搜索结果的排序信息;
将所述各目标搜索结果按照所述排序信息提供给所述用户。
11.一种搜索装置,其特征在于,包括:
候选搜索结果获取模块,用于获取用户的搜索请求、以及所述搜索请求对应的各候选搜索结果;
搜索意图类别确定模块,用于确定所述搜索请求的搜索意图类别;所述搜索意图类别包括:专有名词类别和非专有名词类别;
相关度确定模块,用于针对不同搜索意图类别对应设有相对应的相关度确定方式,按照所述搜索意图类别对应的相关度确定方式,确定所述搜索请求与各所述候选搜索结果的相关度;
目标搜索结果确定模块,用于基于各所述候选搜索结果对应的相关度,从各所述候选搜索结果中确定所述用户的目标搜索结果并提供给所述用户。
12.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1-10中任一项所述的方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-10中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110107813.0A CN112434072B (zh) | 2021-01-27 | 2021-01-27 | 搜索方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110107813.0A CN112434072B (zh) | 2021-01-27 | 2021-01-27 | 搜索方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112434072A CN112434072A (zh) | 2021-03-02 |
CN112434072B true CN112434072B (zh) | 2021-04-30 |
Family
ID=74697308
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110107813.0A Active CN112434072B (zh) | 2021-01-27 | 2021-01-27 | 搜索方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112434072B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112905893B (zh) * | 2021-03-22 | 2024-01-12 | 北京百度网讯科技有限公司 | 搜索意图识别模型的训练方法、搜索意图识别方法及装置 |
CN113792225B (zh) * | 2021-08-25 | 2023-08-18 | 北京库睿科技有限公司 | 一种多数据类型分层排序方法和装置 |
CN114065057A (zh) * | 2021-11-29 | 2022-02-18 | 北京字节跳动网络技术有限公司 | 搜索结果确定方法、展示方法、装置、设备和介质 |
CN114168756B (zh) * | 2022-01-29 | 2022-05-13 | 浙江口碑网络技术有限公司 | 搜索意图的查询理解方法和装置,存储介质和电子设备 |
CN115203598B (zh) * | 2022-07-20 | 2023-09-19 | 贝壳找房(北京)科技有限公司 | 房产领域的信息排序方法、电子设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8103676B2 (en) * | 2007-10-11 | 2012-01-24 | Google Inc. | Classifying search results to determine page elements |
CN103106220B (zh) * | 2011-11-15 | 2016-08-03 | 阿里巴巴集团控股有限公司 | 一种搜索方法、搜索装置及一种搜索引擎系统 |
CN106971000B (zh) * | 2017-04-12 | 2020-04-28 | 北京焦点新干线信息技术有限公司 | 一种搜索方法及装置 |
CN109344336A (zh) * | 2018-12-25 | 2019-02-15 | 北京时光荏苒科技有限公司 | 搜索方法、搜索集生成方法、装置、介质、终端及服务器 |
CN110413734B (zh) * | 2019-07-25 | 2023-02-17 | 万达信息股份有限公司 | 一种医疗服务的智能搜索系统及方法 |
-
2021
- 2021-01-27 CN CN202110107813.0A patent/CN112434072B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112434072A (zh) | 2021-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112434072B (zh) | 搜索方法、装置、电子设备及存储介质 | |
US7949643B2 (en) | Method and apparatus for rating user generated content in search results | |
CN110909182B (zh) | 多媒体资源搜索方法、装置、计算机设备及存储介质 | |
CN112307344B (zh) | 对象推荐模型、对象推荐方法、装置及电子设备 | |
CN106708817B (zh) | 信息搜索方法及装置 | |
US20160259857A1 (en) | User recommendation using a multi-view deep learning framework | |
WO2020093289A1 (zh) | 资源推荐方法、装置、电子设备及存储介质 | |
CN107577736B (zh) | 一种基于bp神经网络的文件推荐方法及系统 | |
US11430049B2 (en) | Communication via simulated user | |
CN110059172B (zh) | 基于自然语言理解的推荐答案的方法和装置 | |
CN111340522A (zh) | 资源推荐方法、装置、服务器及存储介质 | |
CN112085058A (zh) | 一种对象组合召回方法、装置、电子设备及存储介质 | |
CN110992127A (zh) | 一种物品推荐方法及装置 | |
US20230319358A1 (en) | Generation of recommendations using trust-based embeddings | |
CN112905885B (zh) | 向用户推荐资源的方法、装置、设备、介质和程序产品 | |
CN111767953B (zh) | 用于训练物品编码模型的方法和装置 | |
CN110765328B (zh) | 一种数据处理的方法、装置及存储介质 | |
CN105574015A (zh) | 搜索推荐方法和装置 | |
CN114092162B (zh) | 推荐质量确定方法、推荐质量确定模型的训练方法及装置 | |
CN113901324A (zh) | 一种搜索对象排序方法、装置、设备及存储介质 | |
CN113326436A (zh) | 确定推荐资源的方法、装置、电子设备和存储介质 | |
CN112035740A (zh) | 项目使用时长预测方法、装置、设备及存储介质 | |
CN111898033A (zh) | 内容推送方法、装置以及电子设备 | |
US10853427B2 (en) | Filtering of large sets of data | |
CN112100507A (zh) | 对象推荐的方法、计算设备和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |