CN113792225B - 一种多数据类型分层排序方法和装置 - Google Patents
一种多数据类型分层排序方法和装置 Download PDFInfo
- Publication number
- CN113792225B CN113792225B CN202110982158.3A CN202110982158A CN113792225B CN 113792225 B CN113792225 B CN 113792225B CN 202110982158 A CN202110982158 A CN 202110982158A CN 113792225 B CN113792225 B CN 113792225B
- Authority
- CN
- China
- Prior art keywords
- intention
- search
- search results
- user
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种多数据类型分层排序方法和装置,其中方法包括:对接收到的搜索请求进行解析处理和意图识别,得到相应的结构化语义;根据结构化语义得到相应的搜索结果,并由搜索结果中提取出意图类搜索结果,对意图类搜索结果与结构化语义进行语义相似度计算,得到各意图类搜索结果分别与结构化语义的语义相似度评分;根据各意图类搜索结果的语义相似度评分和意图评分,得到各用户意图的最终评分;根据各用户意图的最终评分,对各用户意图进行分层排序,并将各意图类搜索结果对应相应的各用户意图。其能够根据用户意图和结果相关性进行双向判断,返回最全面且相关性强的结果,让用户可以根据意图层级分类快速找到所请求的目标服务或内容。
Description
技术领域
本申请涉及网络数据处理技术领域,尤其涉及一种多数据类型分层排序方法和装置。
背景技术
搜索引擎技术现已广泛应用于各个互联网领域,且以开放搜索、站内搜索等内容型搜索引擎为主。对于不同垂域、不同数据类型搜索结果的排序主要都是基于数据模板区分边界,按照配置信息的分类优先级进行排序。传统的搜索技术,无法准确满足用户在多意图时的精准搜索需求,如:用户在搜索“怒火重案”返回订电影票类结果和视频类结果时,应该哪个类别排序在前,哪个类别排序在后。即,传统的搜索技术很难实现在多意图情况下的搜索结果的排序,从而不能使得输出的搜索结果更加符合用户当前的多意图需求。
发明内容
有鉴于此,本申请提出了一种多数据类型分层排序方法,可以使得输出的搜索结果更加符合用户当前的多意图需求。
根据本申请的一方面,提供了一种多数据类型分层排序方法,包括:
对接收到的搜索请求进行解析处理和意图识别,得到相应的结构化语义;其中,所述结构化语义中包含有识别出的用户意图及对应的意图评分;
根据所述结构化语义得到相应的搜索结果,并由所述搜索结果中提取出意图类搜索结果,对所述意图类搜索结果与所述结构化语义进行语义相似度计算,得到各所述意图类搜索结果分别与所述结构化语义的语义相似度评分;
根据各所述意图类搜索结果的语义相似度评分和所述意图评分,得到各所述用户意图的最终评分;
根据各所述用户意图的最终评分,对各所述用户意图进行分层排序,并将各所述意图类搜索结果对应相应的各所述用户意图。
在一种可能的实现方式中,根据所述结构化语义得到相应的搜索结果,并由所述搜索结果中提取出意图类搜索结果,对所述意图类搜索结果与所述结构化语义进行语义相似度计算时,还包括:
在所述搜索结果中存在有召回的百科类搜索结果时,对所述百科类搜索结果与所述结构化语义进行语义相似度计算。
在一种可能的实现方式中,所述结构化语义中还包括有与所述搜索请求相关的实体词、分词、同义词、纠错词中的至少一种;
其中,对接收到的搜索请求进行解析处理时,包括:
由所述搜索请求中提取出搜索关键词,对所述搜索关键词进行关键词处理得到与所述搜索请求相关系的实体词、分词、同义词、纠错词中的至少一种。
在一种可能的实现方式中,对接收到的所述搜索请求进行意图识别时,通过预先训练的意图识别网络模型进行。
在一种可能的实现方式中,在对所述意图识别网络模型进行训练时,使用的训练样本数据通过爬虫获取;
其中,在通过爬虫获取训练样本数据后,还按照所述训练样本数据所属应用的爬取路径进行意图标注。
在一种可能的实现方式中,根据各所述意图类搜索结果的语义相似度评分和所述意图评分,得到各所述用户意图的最终评分时,通过加权计算的方式进行。
在一种可能的实现方式中,通过加权计算方式,根据各所述意图类搜索结果的语义相似度评分和所述意图评分,得到各所述用户意图的最终评分时,包括:
由各所述意图类搜索结果中提取出同一类意图下的各所述语义相似度评分,并由同一类意图下的各所述语义相似度评分中选取出最相关评分;
将各所述最相关评分与对应的各所述用户意图的意图评分进行加权计算,得到相应的各所述最终评分。
在一种可能的实现方式中,根据所述结构化语义得到相应的搜索结果时,按照阈值筛选的方式进行;
其中,按照所述阈值筛选的方式根据所述结构化语义得到相应的搜索结果时,对于不同的数据类别设置对应的阈值;
所述数据类别包括百科类、意图类、直达类和兜底类中的至少一种。
在一种可能的实现方式中,将各所述意图类搜索结果对应相应的各所述用户意图时,包括:
根据各所述意图类搜索结果的数据应用属性进行排序;
其中,所述数据应用属性包括服务型和内容型中的至少一种。
根据本申请的另一方面,还提供了一种多数据类型分层排序装置,包括:请求解析识别模块、相似度评价模块、用户意图评分计算模块和分层排序模块;
所述请求解析识别模块,被配置为对接收到的搜索请求进行解析处理和意图识别,得到相应的结构化语义;其中,所述结构化语义中包含有识别出的用户意图及对应的意图评分;
所述相似度评价模块,被配置为根据所述结构化语义得到相应的搜索结果,并由所述搜索结果中提取出意图类搜索结果,对所述意图类搜索结果与所述结构化语义进行语义相似度计算,得到各所述意图类搜索结果分别与所述结构化语义的语义相似度评分;
所述用户意图评分计算模块,被配置为根据各所述意图类搜索结果的语义相似度评分和所述意图评分,得到各所述用户意图的最终评分;
所述分层排序模块,被配置为根据各所述用户意图的最终评分,对各所述用户意图进行分层排序,并将各所述意图类搜索结果对应相应的各所述用户意图。
通过对接收到的搜索请求进行意图识别,得到用户所输入的搜索请求中可能的用户意图,然后再由搜索结果中提取出意图类搜索结果,对意图类搜索结果与对搜索请求解析处理得到的结构化语义进行语义相似度的计算,得到各意图类搜索结果分别与结构化语义的语义相似度评分,进而再根据各意图类搜索结果的语义相似度评分和意图评分,得到各用户意图的最终评分后,再根据所得到的最终评分对各用户意图进行分层排序,使得所搜索到的搜索结果能够基于不同的用户意图进行相应的分层排序,从而能够根据用户意图和结果相关性进行双向判断,返回最全面且相关性强的结果,让用户可以根据意图层级分类快速找到所请求的目标服务或内容。并且还能够实现多意图的搜索结果的返回推送。
根据下面参考附图对示例性实施例的详细说明,本申请的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本申请的示例性实施例、特征和方面,并且用于解释本申请的原理。
图1示出本申请实施例的一种多数据类型分层排序方法的流程图;
图2示出本申请实施例的一种多数据类型分层排序装置的结构框图。
具体实施方式
以下将参考附图详细说明本申请的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本申请,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本申请同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本申请的主旨。
首先,需要说明的是,本申请实施例的多数据类型分层排序方法可以应用于数据搜索引擎中,对用户输入的搜索请求所得到的多个搜索结果按照多个用户意图的方式进行排序,从而在推送搜索结果时能够使得用户更加快速精准的查找到目标服务或目标内容,既可以应用于开放搜索,也可以应用于站内搜索。
图1示出根据本申请一实施例的一种多数据类层分层排序方法的流程图。如图1所示,该方法包括:步骤S00,对接收到的搜索请求进行解析处理和意图识别,得到相应的结构化语义。此处,本领域技术人员可以理解的是,所接收到的搜索请求由用户在前端应用发起的,可以通过语音、文本等格式输入。通过对用户输入的语音、文本等信息进行识别,由调度服务器对用户的请求信息进行解析,得到用户请求信息中的搜索词进行识别处理,输出结构化语义。其中,在本申请实施例中,所得到的结构化语义中包含有识别出的用户意图以及所识别出的各用户意图的意图评分。
然后,再通过步骤S200,根据得到的结构化语义得到相应的搜索结果,并由搜索结果中提取出意图类搜索结果,对意图类搜索结果与结构化语义进行语义相似度计算,得到各意图类搜索结果分别与结构化语义的语义相似度评分。此处,需要说明的是,在根据结构化语义得到相应的搜索结果中,搜索结果通常为多个结果数据,各结果数据的数据类型有所不同。有的结果数据的数据类型为百科类,有的结果数据的数据类型为意图类,有的结果数据的数据类型为直达类,有的结果数据的数据类型为兜底类,等等。在本申请实施例的方法中,则对意图类搜索结果进行语义相似度的计算。
进而再通过步骤S300,根据各所述意图类搜索结果的语义相似度评分和意图评分,得到各用户意图的最终评分。其中,应当指出的是,用户意图指的是用户输入的搜索请求所对应的用途。即,通过搜索请求获取到请求的数据后的使用目的。如:根据业务需求可分为购物、汽车、影音娱乐等各个垂域。在每个垂域下对应有多重意图,如:在影音娱乐这一垂域下可以存在电影购票、看视频、听音乐等各用户意图。此处,还需要说明的是,对于数据用户意图可以根据实际的业务需求及训练数据进行自定义,在本申请实施例的方法中,不对用户意图的具体内容进行限定。
在通过上述步骤得到所识别出的各用户意图的最终稿评分之后,再通过步骤S400,根据各用户意图的最终评分,对各用户意图进行分层排序,并将各意图类搜索结果对应相应的各用户意图中,从而实现将搜索到的意图类搜索结果按照不同的用户意图进行分层排序的目的。
由此,本申请实施例的方法,通过对接收到的搜索请求进行意图识别,得到用户所输入的搜索请求中可能的用户意图,然后再由搜索结果中提取出意图类搜索结果,对意图类搜索结果与对搜索请求解析处理得到的结构化语义进行语义相似度的计算,得到各意图类搜索结果分别与结构化语义的语义相似度评分,进而再根据各意图类搜索结果的语义相似度评分和意图评分,得到各用户意图的最终评分后,再根据所得到的最终评分对各用户意图进行分层排序,使得所搜索到的搜索结果能够基于不同的用户意图进行相应的分层排序,从而能够根据用户意图和结果相关性进行双向判断,返回最全面且相关性强的结果,让用户可以根据意图层级分类快速找到所请求的目标服务或内容。并且还能够实现多意图的搜索结果的返回推送。
其中,需要指出的是,在本申请实施例的方法中,结构化语义中还包括有与搜索请求相关的实体词、分词、同义词、纠错词中的至少一种。即,结构化语义包含实体词、分词、同义词、纠错词、所述垂域及意图评分(如:影音娱乐垂域下的电影购票意图)。
对应的,基于上述结构化语义的实现方式,对接收到的搜索请求进行解析处理时,可以通过以下方式来实现。
首先,由搜索请求中提取出搜索关键词,然后再对搜索关键词进行关键词处理,以得到与搜索请求相关系的实体词、分词、同义词、纠错词中的至少一种。接着,再对搜索关键词进行意图识别,得到相应的用户意图以及各用户意图的评分。
其中,应当指出的是,对搜索关键词进行关键词处理的步骤与对搜索关键词进行意图识别的步骤可以同步进行,也可以先后执行,在本申请实施例中不进行具体限定。
在一种可能的实现方式中,对接收到的搜索请求进行意图识别时,可以采用预先训练的意图识别网络模型进行。应当指出的是,所采用的意图识别网络模型可以直接采用本领域常规的用于实现目标识别的神经网络,也可以自行设计相应的网络模型。
需要说明的是,在本申请实施例的方法中,对意图识别网络模型进行训练时,使用的训练样本数据可以通过爬虫获取。其中,在通过爬虫获取训练样本数据后,还按照训练样本数据所属应用的爬取路径进行意图标注。
也就是说,在本申请实施例的方法中,在获取对意图识别网络模型的训练样本数据时,通过爬虫获取不同应用下物料数据并存储至离线数据库,对爬取数据按照所属应用的爬取路径进行意图标注。其中,在将标注后的数据存储至离线数据库中时,还可以按照不同垂域下不同意图分类创建索引,从而在对意图识别网络模型进行训练时,由离线数据库中提取训练样本数据时能够根据所创建的索引从物料数据中提取各垂域数据特征用于训练意图识别网络模型。
由此,本申请实施例的方法中,通过使用预先训练的意图识别网络模型对搜索请求进行用户意图的识别,并且对意图识别网络模型的训练所使用的训练样本数据通过将不同垂域应用下各种路径获取的数据统一批量标注意图,节省人力,意图标注精准,提升意图分类模型的精准度。
进一步地,在通过上述任一种方式得到用户输入的搜索请求的结构化语义后,即可执行步骤S200,根据结构化语义得到相应的搜索结果,并由搜索结果中提取出意图类搜索结果,对意图类搜索结果与结构化语义进行语义相似度计算。
此处,需要说明的是,根据结构化语义得到的搜索结果可以为多个。对于搜索结果的召回获取可以按照阈值筛选的方式来实现。具体来说,根据前面所述,搜索结果的数据类型可以包括百科类、意图类、直达类和兜底类中的至少一种。其中,百科类的搜索结果指的是以命名实体为基础的理论知识类的数据。意图类的搜索结果则指的是能够实现某种功能或者是达到某种目的类的数据。直达类的搜索结果则指的是直接获取到与搜索请求相匹配的应答的数据。兜底类的搜索结果则指的是根据用户的搜索词分析出的意图进行相关性的兜底补充提供更丰富多元化的搜索结果,兜底分类通过运营方式对意图树中的每个意图进行配置。如用户意图为理财产品,则理财产品的兜底意图可以配置为资讯、视频。
同时,对于上述几种搜索结果的数据类型的划分可以通过以下方式来实现。
即,百科类的数据类型通过用户搜索词与命名实体库进行比对,返回最相近的实体知识,如用户搜索“蜘蛛侠”,返回的是蜘蛛侠这个命名实体,而不是蜘蛛,根据命名实体词召回百科类数据;意图类则是先按照业务需求构建意图树,通过爬虫或其它数据收录方式获取对应意图下的训练数据进行算法模型训练,当用户输入搜索词时通过算法模型识别到和用户搜索词相近的意图,根据意图及搜索词一起召回结果;直达类数据则是通过用户搜索词与搜索结果进行精准的匹配,最优先返回的数据,如腾讯视频官网这条结果可以配置直达词为“腾讯”,当用户输入腾讯的时候,则命中腾讯视频官网的这条直达词,并将该结果数据作为直达数据优先返回;兜底结果如前面所述,此处不再赘述。
进一步地,在按照阈值筛选的方式召回不同垂域下不同意图的搜索结果时,可以通过对所划分的数据类型设置不同的阈值来实现。
其中,不同数据类型的阈值的设置可以根据各类数据召回的业务流程以及结果好坏的边界进行设定。比如:意图类搜索结果可以通过意图、关键词、语义等维度进行数据召回,并不像直达类搜索结果通过关键词的精准命中,因此可以将阈值适当放低,提高保召率,同时阈值的设定是一个逐步调优的过程,通过观察各类搜索结果中好的结果和不好的结果大概分布在哪个阈值范围设定边界进行逐步的调优校准。
在一种可能的实现方式中,对于百科类,其阈值取值范围可以设置为0~1。对于意图类,阈值取值范围可以设置为0~1。对于直达类,阈值取值范围可以设置为0~1。对于兜底类,阈值取值范围可以设置为0~1。此处,需要指出的是,在本申请实施例的方法中,各数据类型的阈值均为进行归一化后的取值。
进一步地,搜索结果的取值可以通过关键词维度在搜索引擎中获得BM25的评分值(作为搜索结果的评分0~1)进行计算得到。同时,搜索词会根据意图算法模型,返回意图的评分值(作为意图评分0~1),每一条搜索结果都有自己的意图标注,搜索结果的最终评分按照搜索结果评分和意图评分进行规则计算:如会给搜索结果评分设定不同的阈值区间(该参数据设定可参考设定阈值的流程),例如0.3以下,0.3~0.6,0.6~0.9,0.9~1,不同的阈值对应不同的系数,如0.3以下系数为0.2,0.3~0.6区间的系数为0.4,0.6~0.9区间的系数为0.6,0.9~1为0.8,当搜索结果评分在哪个区间会将系数乘以对应区间的系数得到一个分a;意图评分也是一样,会对评分不同区间设置不同的系数,将意图评分乘以对应区间的系数,得到分b,最终按照a+b来拍意图分层。其中,需要特别指出的是,当意图评分=1时,意味就只有这一个意图,不涉及到分层排序。
通过对不同数据类型设置对应的阈值取值之后,在根据结构化语义按照阈值筛选的方式召回各垂域下各意图的搜索结果时,可以根据对各搜索结果的取值与其所属的数据类型的阈值进行比较,在搜索结果的取值大于或等于其所属的数据类型的阈值时,则将该搜索结果召回。在搜索结果的取值小于其所属的数据类型的阈值时,则舍弃该搜索结果。
此外,在通过对不同的数据类型设定对应的阈值以进行业务重排时,如果搜索词精准匹配到某一搜索结果则将该结果所在的意图垂域派遣。比如:当用户搜索词为“新闻直播间”,直播意图评分较高、财经评分较低,若财经索引库中存在新浪财经下有一条服务类型的搜索结果标题为“新闻直播间”则优先召回,而斗鱼直播则会排其后展示。如果搜索词精准命中百科实体词,则百科类板块优先展示。比如:当用户搜索词为“周杰伦”,精准命中到百科实体库中有周杰伦这个艺人命名实体词,则会根据周杰伦实体词返回相关百科结果(类似于百度百科)。
当意图类板块超过权值时,则意图类排序超过百科类。比如:前文说到意图类结果并非像直达词、百科实体词这种精准匹配的流程,而是通过对人类语言的深度分析,但是意图类返回的搜索结果也有可能超过百科类,比如当用户搜索到海贼王,意图识别为观看(即,看视频或看漫画)等意图,且意图评分很高,而且看视频中存在海贼王的完整动画剧集,则结果评分也很高,导致最终看视频这个分类的最终评分超过了某个阈值(比如0.95),那么看视频意图下海贼王动漫剧集会排在百科类结果之前。
同时,对于每一数据类型下所召回的搜索结果的结果数量还可以设置相应的最大数量。在所召回的某一数据类型下的搜索结果的结果数量达到所设置的最大数量后不再进行该数据类型的搜索结果的召回。即,对于每个数据类型的搜索结果的结果数量进行限定,按照相同数据类型、相同数据来源进行结果聚合,以防止某一数据类型下的搜索结果过多导致数据冗长的情况,这也就避免了用户体验效果不佳的现象。
在通过上述任一种方式根据结构化语义召回各垂域下各意图的搜索结果之后,即可由所召回的搜索结果中提取出意图类搜索结果,然后对所提取出的各意图类搜索结果分别与结构化语义进行语义相似度的计算,从而得到各意图类搜索结果与结构化语义的语义相似度评分。其中,应当指出的是,在本申请实施例的方法中,对各意图类搜索结果与结构化语义进行语义相似度的计算可以采用本领域常规的语义相似度计算方式,此处不再进行赘述。
得到各意图类搜索结果分别与结构化语义的语义相似度评分之后,即可根据各意图类搜索结果的语义相似度评分和意图评分,得到各用户意图的最终评分。在一种可能的实现方式中,根据各意图类搜索结果的语义相似度评分和意图评分,得到各用户意图的最终评分可以通过加权计算的方式进行。
具体的,首先由各意图类搜索结果中提取出同一类意图下的各语义相似度评分,并由同一类意图下的各语义相似度评分中选取出最相关评分。然后,将各最相关评分与对应的各用户意图的意图评分进行加权计算,得到相应的各最终评分。
举例来说,根据用户的搜索词输出搜索结果的评分(归一化到0~1之间),以及一个意图评分(归一化到0~1之间);对于搜索结果设定不同的阈值区间,如0.3以下,0.3~0.6,0.6~0.9,0.9~1。
不同的阈值对应不同的加权系数,如:0.3以下系数为0.2,0.3~0.6区间的系数为0.4,0.6~0.9区间的系数为0.6,0.9~1为0.8。
当搜索结果评分在哪个区间会将系数乘以对应区间的系数得到一个分a;意图评分也是按照上述相同或相似的原理,对评分设置不同的区间,不同的意图评分区间设置不同的加权系数,将意图评分乘以对应区间的加权系数,得到分b。
最后,再按照a+b的计算方式得到各用户意图的最终评分。进而再根据各用户意图的最终评分的数值大小对各用户意图进行排序。即,根据用户意图的最终评分决定各用户意图排序的层级结构。其中,最终评分取值越大的用户意图在分层排序中越靠前。
此处,还需要特殊说明的是,当意图评分=1时,意味就只有这一个意图,此处,则不需要对用户意图进行分层排序。
同时,对于意图分类中没有识别到用户的某个意图,但召回结果中存在一定量同个意图分类下的高评分结果(即,召回的搜索结果中存在由搜索请求中未识别出的用户意图时),服务端将自动对这些同用户意图的高评分结果进行聚合做意图补充。其中,在该实施方式中,同一用户意图的搜索结果的结果数量的取值范围可以设置为:大于或等于2。
其中,应当指出的是,结果数量设置越大则意图越精准,但聚合出意图的难度也相应提高,如设置结果数量为:2,则用户搜索“相声”这个词,意图识别服务识别到用户意图为听有声读物、听电台等意图并返回这两个意图的结果,但是在爱奇艺、优酷视频中找到大量岳云鹏、郭德纲的相声视频结果和用户语义相近,则会为用户补充看视频这个意图,返回这些相声视频结果,若只在爱奇艺中找到相声类结果,而其它视频应用中没有,则不会为用户补充看视频意图。
另外,对于直达类的搜索结果通常都是精准命中的,因此所召回的直达类搜索结果不需要进行语义相似度的计算。对于百科类的搜索结果,一般情况下大部分也是精准命中的情况居多,但是在未精准命中且召回的情况下也会按语义进行相似度评分的计算,进而再根据计算出的相似度评分直接进行相应的排序。
也就是说,在本申请实施例的方法中,在通过步骤S100,对接收到的搜索请求进行解析处理和意图识别,得到相应的结构化语义之后,即可根据结构化语义按照阈值筛选召回各垂域下各意图的搜索结果,并将搜索结果按照意图进行分层。
即,对召回的百科类搜索结果、意图类搜索结果,根据标题、所属应用、类型、时效、热度等特征值进行精排,输出语义相似度评分。然后,使用各意图下语义最相关的搜索结果评分与用户搜索词与该意图的相关评分做加权计算,所得出的评分作为该用户意图的最终评分。最后,再根据用户意图的最终评分决定各用户意图排序的层级结构。其中,如果意图分类中没有识别到用户的某个意图,但召回结果中存在一定量同个意图分类下的高评分结果,服务端将自动对这些同意图的高评分结果进行聚合做意图补充。
更进一步地,在通过上述任一种方式将召回的搜索结果进行分层排序之后,对于每一层内的各搜索结果也需要按照一定的顺序进行排列,从而使的用户能够更加精准高效地查找到当前所请求的目标服务或目标内容。
即,将各意图类搜索结果对应相应的各用户意图时,包括:根据各意图类搜索结果的数据应用属性进行排序。其中,数据应用属性包括服务型和内容型中的至少一种。在一种可能的实现方式中,对于每一层级内的搜索结果的排序,可以按照以下方式来实现。
每个意图层级中的服务型结果优先于内容型结果。或者是,为服务型结果、内容型结果各设定阈值,当内容型结果的评分超过所设定的阈值,则排在服务型结果之前,当服务型结果达到评分阈值,即使内容型结果也不会排在服务型结果之前。
其中,举例来说,服务型结果是那种充话费、查天气那种结果;内容型结果是例如爱奇艺里边那一条条视频、今日头条的一条条资讯。
此外,对于服务型结果和内容型结果的阈值的设置,可以根据优质服务型结果的阈值分布区间和优质内容型搜索结果的阈值分布区间进行设置。如:在一种可能的实现方式中,服务型结果的阈值可以设置为0.8,内容型结果的阈值可以设置为0.9。同时,对于服务型结果和内容型结果的取值的计算,可以采用前面所述的搜索结果的取值的计算方式,其原理与前文所述的搜索结果的计算方式相同或相似,此处不再进行赘述。
需要特别说明的是,原则上同时召回服务型结果和内容型结果时,服务型结果排序在内容型结果之前,但是若内容型评分大于上文中的内容型结果阈值0.9,则认为内容型结果与用户搜索词语义强相关,将该部分结果排序在服务型结果之前,若服务型结果的评分达到了服务型结果的阈值0.8,即使内容型结果评分超高0.9也不会排在服务型结果之前。
由此,本申请实施例的方法,主要分为离线和在线模块两部分。其中,离线模块主要为意图识别模型的训练以及对搜索物料的收录和处理,如:对数据进行数据类型的划分等,主要划分为百科类、意图类(主要大类)、直达类、兜底类,以及根据业务需求进行数据垂域的划分,如:可分为购物、汽车、影音娱乐等各个垂域,以及每个垂域下多重意图的划分,如:影音娱乐垂域下有电影购票、看视频、听音乐等等意图。其中,数据类型的划分、数据垂域的划分以及用户意图的划分可根据业务需求及训练数据进行自定义。在线部分对用户搜索词进行自然语言处理,对召回的搜索结果,根据用户意图、结果的类别、结果来源、结果相关性进行打散聚合、分层排序。
需要说明的是,尽管以图1作为示例介绍了如上所述的多数据类型的分层排序方法,但本领域技术人员能够理解,本申请应不限于此。事实上,用户完全可根据个人喜好和/或实际应用场景灵活设定各步骤的具体实现方式,只要能够实现多用户意图的数据排序推送即可。
相应的,基于前面任一所述的多数据类型分层排序方法,本申请还提供了以中国多数据类型分层排序装置。由于本申请提供的多数据类型分层排序装置的工作原理与本申请实施例的多数据类型分层排序方法的原理相同或相似,因此重复之处不再赘述。
参阅图2,本申请提供的多数据类型分层排序装置100,包括请求解析识别模块110、相似度评价模块120、用户意图评分计算模块130和分层排序模块140。其中,请求解析识别模块110,被配置为对接收到的搜索请求进行解析处理和意图识别,得到相应的结构化语义;此处,需要解释说明的是,结构化语义中包含有识别出的用户意图及对应的意图评分。相似度评价模块120,被配置为根据所述结构化语义得到相应的搜索结果,并由所述搜索结果中提取出意图类搜索结果,对所述意图类搜索结果与所述结构化语义进行语义相似度计算,得到各所述意图类搜索结果分别与所述结构化语义的语义相似度评分。用户意图评分计算模块130,被配置为根据各所述意图类搜索结果的语义相似度评分和所述意图评分,得到各所述用户意图的最终评分。分层排序模块140,被配置为根据各所述用户意图的最终评分,对各所述用户意图进行分层排序,并将各所述意图类搜索结果对应相应的各所述用户意图。
以上已经描述了本申请的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (9)
1.一种多数据类型分层排序方法,其特征在于,包括:
对接收到的搜索请求进行解析处理和意图识别,得到相应的结构化语义;其中,所述结构化语义中包含有识别出的用户意图及对应的意图评分;
根据所述结构化语义得到相应的搜索结果,并由所述搜索结果中提取出意图类搜索结果,对所述意图类搜索结果与所述结构化语义进行语义相似度计算,得到各所述意图类搜索结果分别与所述结构化语义的语义相似度评分;
根据各所述意图类搜索结果的语义相似度评分和所述意图评分,得到各所述用户意图的最终评分;
根据各所述用户意图的最终评分,对各所述用户意图进行分层排序,并将各所述意图类搜索结果对应相应的各所述用户意图;
根据所述结构化语义得到相应的搜索结果时,按照阈值筛选的方式进行;
其中,按照所述阈值筛选的方式根据所述结构化语义得到相应的搜索结果时,对于不同的数据类别设置对应的阈值;
所述数据类别包括百科类、意图类、直达类和兜底类中的至少一种;
其中,百科类的搜索结果指的是以命名实体为基础的理论知识类的数据,意图类的搜索结果则指的是能够实现某种功能或者是达到某种目的类的数据,直达类的搜索结果则指的是直接获取到与搜索请求相匹配的应答的数据,兜底类的搜索结果则指的是根据用户的搜索词分析出的意图进行相关性的兜底补充提供更丰富多元化的搜索结果,兜底分类通过运营方式对意图树中的每个意图进行配置。
2.根据权利要求1所述的方法,其特征在于,根据所述结构化语义得到相应的搜索结果,并由所述搜索结果中提取出意图类搜索结果,对所述意图类搜索结果与所述结构化语义进行语义相似度计算时,还包括:
在所述搜索结果中存在有召回的百科类搜索结果时,对所述百科类搜索结果与所述结构化语义进行语义相似度计算。
3.根据权利要求1所述的方法,其特征在于,所述结构化语义中还包括有与所述搜索请求相关的实体词、分词、同义词、纠错词中的至少一种;
其中,对接收到的搜索请求进行解析处理时,包括:
由所述搜索请求中提取出搜索关键词,对所述搜索关键词进行关键词处理得到与所述搜索请求相关系的实体词、分词、同义词、纠错词中的至少一种。
4.根据权利要求1所述的方法,其特征在于,对接收到的所述搜索请求进行意图识别时,通过预先训练的意图识别网络模型进行。
5.根据权利要求4所述的方法,其特征在于,在对所述意图识别网络模型进行训练时,使用的训练样本数据通过爬虫获取;
其中,在通过爬虫获取训练样本数据后,还按照所述训练样本数据所属应用的爬取路径进行意图标注。
6.根据权利要求1至5任一项所述的方法,其特征在于,根据各所述意图类搜索结果的语义相似度评分和所述意图评分,得到各所述用户意图的最终评分时,通过加权计算的方式进行。
7.根据权利要求6所述的方法,其特征在于,通过加权计算方式,根据各所述意图类搜索结果的语义相似度评分和所述意图评分,得到各所述用户意图的最终评分时,包括:
由各所述意图类搜索结果中提取出同一类意图下的各所述语义相似度评分,并由同一类意图下的各所述语义相似度评分中选取出最相关评分;
将各所述最相关评分与对应的各所述用户意图的意图评分进行加权计算,得到相应的各所述最终评分。
8.根据权利要求1至5任一项所述的方法,其特征在于,将各所述意图类搜索结果对应相应的各所述用户意图时,包括:
根据各所述意图类搜索结果的数据应用属性进行排序;
其中,所述数据应用属性包括服务型和内容型中的至少一种。
9.一种多数据类型分层排序装置,其特征在于,包括:请求解析识别模块、相似度评价模块、用户意图评分计算模块和分层排序模块;
所述请求解析识别模块,被配置为对接收到的搜索请求进行解析处理和意图识别,得到相应的结构化语义;其中,所述结构化语义中包含有识别出的用户意图及对应的意图评分;
所述相似度评价模块,被配置为根据所述结构化语义得到相应的搜索结果,并由所述搜索结果中提取出意图类搜索结果,对所述意图类搜索结果与所述结构化语义进行语义相似度计算,得到各所述意图类搜索结果分别与所述结构化语义的语义相似度评分;
所述用户意图评分计算模块,被配置为根据各所述意图类搜索结果的语义相似度评分和所述意图评分,得到各所述用户意图的最终评分;
所述分层排序模块,被配置为根据各所述用户意图的最终评分,对各所述用户意图进行分层排序,并将各所述意图类搜索结果对应相应的各所述用户意图;
根据所述结构化语义得到相应的搜索结果时,按照阈值筛选的方式进行;
其中,按照所述阈值筛选的方式根据所述结构化语义得到相应的搜索结果时,对于不同的数据类别设置对应的阈值;
所述数据类别包括百科类、意图类、直达类和兜底类中的至少一种;
其中,百科类的搜索结果指的是以命名实体为基础的理论知识类的数据,意图类的搜索结果则指的是能够实现某种功能或者是达到某种目的类的数据,直达类的搜索结果则指的是直接获取到与搜索请求相匹配的应答的数据,兜底类的搜索结果则指的是根据用户的搜索词分析出的意图进行相关性的兜底补充提供更丰富多元化的搜索结果,兜底分类通过运营方式对意图树中的每个意图进行配置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110982158.3A CN113792225B (zh) | 2021-08-25 | 2021-08-25 | 一种多数据类型分层排序方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110982158.3A CN113792225B (zh) | 2021-08-25 | 2021-08-25 | 一种多数据类型分层排序方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113792225A CN113792225A (zh) | 2021-12-14 |
CN113792225B true CN113792225B (zh) | 2023-08-18 |
Family
ID=79182261
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110982158.3A Active CN113792225B (zh) | 2021-08-25 | 2021-08-25 | 一种多数据类型分层排序方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113792225B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102622417A (zh) * | 2012-02-20 | 2012-08-01 | 北京搜狗信息服务有限公司 | 对信息记录进行排序的方法和装置 |
CN103793388A (zh) * | 2012-10-29 | 2014-05-14 | 阿里巴巴集团控股有限公司 | 搜索结果的排序方法和装置 |
CN103942198A (zh) * | 2013-01-18 | 2014-07-23 | 佳能株式会社 | 用于挖掘意图的方法和设备 |
CN111488426A (zh) * | 2020-04-17 | 2020-08-04 | 支付宝(杭州)信息技术有限公司 | 一种查询意图确定方法、装置及处理设备 |
CN112434072A (zh) * | 2021-01-27 | 2021-03-02 | 浙江口碑网络技术有限公司 | 搜索方法、装置、电子设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2733481C2 (ru) * | 2018-12-13 | 2020-10-01 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система генерирования признака для ранжирования документа |
-
2021
- 2021-08-25 CN CN202110982158.3A patent/CN113792225B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102622417A (zh) * | 2012-02-20 | 2012-08-01 | 北京搜狗信息服务有限公司 | 对信息记录进行排序的方法和装置 |
CN103793388A (zh) * | 2012-10-29 | 2014-05-14 | 阿里巴巴集团控股有限公司 | 搜索结果的排序方法和装置 |
CN103942198A (zh) * | 2013-01-18 | 2014-07-23 | 佳能株式会社 | 用于挖掘意图的方法和设备 |
CN111488426A (zh) * | 2020-04-17 | 2020-08-04 | 支付宝(杭州)信息技术有限公司 | 一种查询意图确定方法、装置及处理设备 |
CN112434072A (zh) * | 2021-01-27 | 2021-03-02 | 浙江口碑网络技术有限公司 | 搜索方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
基于主题的查询意图识别研究;宋巍;《中国博士学位论文全文数据库 信息科技辑》;I138-77 * |
Also Published As
Publication number | Publication date |
---|---|
CN113792225A (zh) | 2021-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106709040B (zh) | 一种应用搜索方法和服务器 | |
US8335753B2 (en) | Domain knowledge-assisted information processing | |
US7542969B1 (en) | Domain knowledge-assisted information processing | |
CA2833359C (en) | Analyzing content to determine context and serving relevant content based on the context | |
CN107862022B (zh) | 文化资源推荐系统 | |
WO2016179938A1 (zh) | 题目推荐方法和题目推荐装置 | |
US20140040229A1 (en) | Searching for information based on generic attributes of the query | |
JP2005302042A (ja) | マルチセンスクエリについての関連語提案 | |
US20130031107A1 (en) | Personalized ranking method of video and audio data on internet | |
CN101119326A (zh) | 一种即时通信会话记录的管理方法及装置 | |
CN101401062A (zh) | 确定相关来源、查询及合并多个内容来源的结果的方法和系统 | |
CN106462644B (zh) | 标识来自多个结果页面标识的优选结果页面 | |
CN103942198B (zh) | 用于挖掘意图的方法和设备 | |
CN111444380B (zh) | 音乐搜索排序方法、装置、设备和存储介质 | |
WO2021179481A1 (zh) | 数据内容个性化推送冷启动方法、装置、设备和存储介质 | |
WO2020147332A1 (zh) | 一种扩大商品搜索召回的方法及装置 | |
CN111782956A (zh) | 一种基于用户行为和关键词分类的搜索方法 | |
CN112749328A (zh) | 搜索方法、装置和计算机设备 | |
CN116414968A (zh) | 信息搜索方法、装置、设备、介质及产品 | |
CN113792225B (zh) | 一种多数据类型分层排序方法和装置 | |
Bollegala et al. | Extracting key phrases to disambiguate personal name queries in web search | |
CN115168700A (zh) | 一种基于预训练算法的信息流推荐方法、系统及介质 | |
Roshdy et al. | An efficient content-based video recommendation | |
WO2008032037A1 (en) | Method and system for filtering and searching data using word frequencies | |
Veningston et al. | Combining user interested topic and document topic for personalized information retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |