CN115292478A - 一种推荐搜索内容的方法、装置、设备和存储介质 - Google Patents

一种推荐搜索内容的方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN115292478A
CN115292478A CN202210932733.3A CN202210932733A CN115292478A CN 115292478 A CN115292478 A CN 115292478A CN 202210932733 A CN202210932733 A CN 202210932733A CN 115292478 A CN115292478 A CN 115292478A
Authority
CN
China
Prior art keywords
search content
user
search
content
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210932733.3A
Other languages
English (en)
Inventor
米超
陈浩
崔玉冰
刘珊珊
张晗
谷姗姗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sunshine Insurance Group Co Ltd
Original Assignee
Sunshine Insurance Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sunshine Insurance Group Co Ltd filed Critical Sunshine Insurance Group Co Ltd
Priority to CN202210932733.3A priority Critical patent/CN115292478A/zh
Publication of CN115292478A publication Critical patent/CN115292478A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种推荐搜索内容的方法、装置、设备和存储介质,该方法包括,获取用户的当前搜索内容;将当前搜索内容与预设的得分矩阵中用户的历史搜索内容对应的多个搜索类别进行匹配,向用户推荐一个或多个文档,其中,得分矩阵是基于用户的行为数据,计算多个搜索类别中每一类别和多个文档的每一文档标题的得分得到的,行为数据包括以下数据中的至少一种:每一文档的点击次数、每一类别中文档点击总次数和每一文档的停留时长。通过该方法可以达到快速的为用户推荐准确内容的效果。

Description

一种推荐搜索内容的方法、装置、设备和存储介质
技术领域
本申请涉及文本关系匹配的领域,具体而言,涉及一种推荐搜索内容的方法、装置、设备和存储介质。
背景技术
目前,在文档搜索的过程中,用到的算法主要是关键词匹配算法,通过搜索内容与文档的标题、正文或者附件标题等进行关键词匹配之后,将匹配结果展示给用户。
上述基于关键词匹配的方法有很大的局限性,必须要有精确的关键词才能匹配到相关内容,例如,在进行“北京机构的地址”搜索时,直接搜索“北京地址”是无法搜索到对应内容的,必须要有准确的关键词,才能搜索到对应的内容。
因此,如何快速的为用户推荐准确内容,是一个需要解决的技术问题。
发明内容
本申请实施例的目的在于提供一种推荐搜索内容的方法,通过本申请的实施例的技术方案可以达到快速的为用户推荐准确内容的效果。
第一方面,本申请实施例提供了一种推荐搜索内容的方法,包括,获取用户的当前搜索内容;将当前搜索内容与预设的得分矩阵中用户的历史搜索内容对应的多个搜索类别进行匹配,向用户推荐一个或多个文档,其中,得分矩阵是基于用户的行为数据,计算多个搜索类别中每一类别和多个文档的每一文档标题的得分得到的,行为数据包括以下数据中的至少一种:每一文档的点击次数、每一类别中文档点击总次数和每一文档的停留时长。
本申请在上述实施例中,本申请通过当前用户的行为数据计算出用户历史搜索内容对应的多个类别与每一文档的得分,之后通过历史搜索内容的类别,确定当前搜索内容的类别,推荐当前搜索内容的类别对应的搜索文档,可以同时通过历史搜索内容的推荐结果以及用户在搜索内容时的一些行为数据准确的计算出用户想查阅的一个或多个文档,可以达到快速的为用户推荐准确内容的效果。
在一些实施例中,在获取用户的当前搜索内容之前,还包括:
利用文本聚类算法对用户的历史搜索内容进行聚类,得到多个搜索类别;
基于用户的行为数据,计算多个搜索类别中每一类别和多个文档的每一文档标题的得分,得到得分矩阵。
本申请在上述实施例中,根据用户的行为数据,计算出用户在不同的搜索类别中对每一文档的查阅得分,得分越高表示该文档可能被当前用户查阅的可能性就越大,根据得分矩阵中的数据,可以准确的为用户推荐一些搜索内容。
在一些实施例中,将当前搜索内容与预设的得分矩阵中用户的历史搜索内容对应的多个搜索类别进行匹配,向用户推荐一个或多个文档,包括:
将用户的当前搜索内容和历史搜索内容进行匹配,确认历史搜索内容中是否存在当前搜索内容;
在历史搜索内容中存在当前搜索内容的情况下,确认当前搜索内容的搜索类别;
基于得分矩阵,获取搜索类别对应的一个或多个文档并将一个或多个文档推荐给用户。
本申请在上述实施例中,若当前搜索内容为历史搜索过的内容,则可以直接获取历史搜索过的内容对应的类别,通过得分矩阵为用户推荐该类别下的一个或多个文档,可以达到快速推荐文档的效果。
在一些实施例中,在将用户的当前搜索内容和历史搜索内容进行匹配,确认历史搜索内容中是否存在当前搜索内容之后,方法还包括:
在历史搜索内容中不存在当前搜索内容的情况下,通过同义词匹配算法计算当前搜索内容中关键词对应的同义词;
确认同义词所在的第二历史搜索内容以及第二历史搜索内容对应的搜索类别;
基于得分矩阵,获取第二历史搜索内容对应的搜索类别对应的一个或多个文档并将一个或多个文档推荐给用户。
本申请在上述实施例中,可以利用同义词匹配算法计算当前搜索内容中的关键词命中哪个历史搜索内容中的关键词,直接获取命中的历史搜索内容对应的类别,通过得分矩阵为用户推荐该类别下的一个或多个文档,可以达到快速推荐文档的效果。
在一些实施例中,将当前搜索内容与预设的得分矩阵中用户的历史搜索内容对应的多个搜索类别进行匹配,向用户推荐一个或多个文档,包括:
根据语义相似度算法,确认与当前搜索内容的语义相似度值最大的第三历史搜索内容;
确认第三历史搜索内容对应的搜索类别;
基于得分矩阵,获取第三历史搜索内容对应的搜索类别对应的一个或多个文档并将一个或多个文档推荐给用户。
本申请在上述实施例中,可以利用语义相似度算法计算与当前搜索内容语义相似度值最大的历史搜索内容,直接获取与当前搜索内容语义相似度值最大的历史搜索内容对应的类别,通过得分矩阵为用户推荐该类别下的一个或多个文档,可以达到快速推荐文档的效果。
在一些实施例中,将当前搜索内容与预设的得分矩阵中用户的历史搜索内容对应的多个搜索类别进行匹配,向用户推荐一个或多个文档,包括:
获取搜索当前搜索内容时的搜索行为数据;
根据搜索行为数据,确认在搜索当前搜索内容无返回结果之后,提示用户输入第二当前搜索内容。
本申请在上述实施例中,本申请通过确认自身或者其他人历史在搜索当前搜索内容时的行为数据,根据行为数据确定在搜索当前内容没有搜索到返回结果时,再次输入一个第二当前搜索内容,第二当前搜索内容可以默认为最新输入,重新根据第二当前搜索内容为用户推荐搜索内容,此过程为知识库服务器自动完成,可以自动为用户推荐准确搜索内容。
在一些实施例中,所述方法包括:
通过如下方式获取得分矩阵中每一得分:
Figure BDA0003782141380000041
其中,score表示得分矩阵中第j个类别和类别中第i个文档标题的得分;j表示第j个类别;i表示第i个文档;α1和α2表示得分权重;∑表示求和;K为大于1小于类别j中文档总数的自然数;e表述自然常数;frequenceij表示第j个类别中第i个文档的点击次数;totalfrequencej表示第j个类别中文档点击总次数;durationij表示第j个类别中第i个文档的停留时长。
本申请在上述实施例中,通过用户的行为数据中每一文档的点击次数、每一类别中文档点击总次数和每一文档的停留时长以及相关的参数可以准确的计算出当前用户历史搜索内容对应的不同类别中每一文档的查阅得分,可以通过得分准确的反馈用户对不同类别下的每一文档的查阅情况。
第二方面,本申请实施例提供了一种推荐搜索内容的装置,包括:
获取模块,用于获取用户的当前搜索内容;
推荐模块,用于将当前搜索内容与预设的得分矩阵中用户的历史搜索内容对应的多个搜索类别进行匹配,向用户推荐一个或多个文档,其中,得分矩阵是基于用户的行为数据,计算多个搜索类别中每一类别和多个文档的每一文档标题的得分得到的,行为数据包括以下数据中的至少一种:每一文档的点击次数、每一类别中文档点击总次数和每一文档的停留时长。
可选的,所述装置还包括:
处理模块,用于所述获取模块在获取用户的当前搜索内容之前,利用文本聚类算法对用户的历史搜索内容进行聚类,得到多个搜索类别;
基于用户的行为数据,计算多个搜索类别中每一类别和多个文档的每一文档标题的得分,得到得分矩阵。
可选的,推荐模块具体用于:
将用户的当前搜索内容和历史搜索内容进行匹配,确认历史搜索内容中是否存在当前搜索内容;
在历史搜索内容中存在当前搜索内容的情况下,确认当前搜索内容的搜索类别;
基于得分矩阵,获取搜索类别对应的一个或多个文档并将一个或多个文档推荐给用户。
可选的,所述装置还包括:
第二推荐模块,用于所述推荐模块在将用户的当前搜索内容和历史搜索内容进行匹配,确认历史搜索内容中是否存在当前搜索内容之后,在历史搜索内容中不存在当前搜索内容的情况下,通过同义词匹配算法计算当前搜索内容中关键词对应的同义词;
确认同义词所在的第二历史搜索内容以及第二历史搜索内容对应的搜索类别;
基于得分矩阵,获取第二历史搜索内容对应的搜索类别对应的一个或多个文档并将一个或多个文档推荐给用户。
可选的,推荐模块具体用于:
根据语义相似度算法,确认与当前搜索内容的语义相似度值最大的第三历史搜索内容;
确认第三历史搜索内容对应的搜索类别;
基于得分矩阵,获取第三历史搜索内容对应的搜索类别对应的一个或多个文档并将一个或多个文档推荐给用户。
可选的,推荐模块具体用于:
获取搜索当前搜索内容时的搜索行为数据;
根据搜索行为数据,确认在搜索当前搜索内容无返回结果之后,再次进行搜索任务并有返回结果时的第二当前搜索内容;
确认第二当前搜索内容对应的搜索类别;
基于得分矩阵,获取第二当前搜索内容对应的搜索类别对应的一个或多个文档并将一个或多个文档推荐给用户。
可选的,所述装置通过如下方式获取得分矩阵中每一得分:
Figure BDA0003782141380000061
其中,score表示得分矩阵中第j个类别和类别中第i个文档标题的得分;j表示第j个类别;i表示第i个文档;α1和α2表示得分权重;∑表示求和;K为大于1小于类别j中文档总数的自然数;e表述自然常数;frequenceij表示第j个类别中第i个文档的点击次数;totalfrequencej表示第j个类别中文档点击总次数;durationij表示第j个类别中第i个文档的停留时长。
第三方面,本申请实施例提供一种电子设备,包括处理器以及存储器,所述存储器存储有计算机取指令,当所述计算机取指令由所述处理器执行时,运行如上述第一方面提供的所述方法中的步骤。
第四方面,本申请实施例提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种推荐搜索内容的方法的流程图;
图2为本申请实施例提供的一种推荐搜索内容的详细实施方法的流程图;
图3为本申请实施例提供的一种推荐搜索内容的装置的示意框图;
图4为本申请实施例提供的一种推荐搜索内容的装置的结构示意图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和显示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
首先对本申请实施例中涉及的部分用语进行说明,以便于本领域技术人员理解。
文本聚类:按照某个特定标准(如距离)把一个文本数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。
协同过滤:基本思想是根据用户的历史行为数据挖掘发现用户的兴趣爱好,基于不同的兴趣爱好对用户进行划分并推荐兴趣相似的商品。
本申请应用于推荐搜索内容的场景,具体场景为用户在知识库搜索内容时输入一个当前的搜索内容,服务器根据用户的历史搜索内容和历史搜索当前的搜索内容时的一些行为数据为用户推荐一个或多个文档。
但是目前在文档搜索的过程中,用到的算法主要是关键词匹配算法,通过搜索内容与文档的标题、正文或者附件标题等进行关键词匹配之后,将匹配结果展示给用户。上述基于关键词匹配的方法有很大的局限性,必须要有精确的关键词才能匹配到相关内容,例如,在进行“北京机构的地址”搜索时,直接搜索“北京地址”是无法搜索到对应内容的,必须要有准确的关键词,才能搜索到对应的内容。
为此本申请通过获取用户的当前搜索内容;将当前搜索内容与预设的得分矩阵中用户的历史搜索内容对应的多个搜索类别进行匹配,向用户推荐一个或多个文档,其中,得分矩阵是基于用户的行为数据,计算多个搜索类别中每一类别和多个文档的每一文档标题的得分得到的,行为数据包括以下数据中的至少一种:每一文档的点击次数、每一类别中文档点击总次数和每一文档的停留时长。通过该方法可以达到快速的为用户推荐准确内容的效果。
本申请实施例中,执行主体可以为搜索推荐系统中的推荐搜索内容设备,实际应用中,推荐搜索内容设备可以为终端设备和知识库服务器等电子设备,在此不做限制。
下面结合图1对本申请实施例的推荐搜索内容的方法进行详细描述。
请参看图1,图1为本申请实施例提供的一种推荐搜索内容的方法的流程图,所述方法由知识库服务器执行时,如图1所示的推荐搜索内容的方法包括:
步骤110:获取用户的当前搜索内容。
其中,当前搜索内容可以是关键词、编号、符号、语句和文本等内容,本申请不限于此。
在本申请的一些实施例中,获取用户的当前搜索内容之前,图1所示的方法还包括:利用文本聚类算法对用户的历史搜索内容进行聚类,得到多个搜索类别;基于用户的行为数据,计算多个搜索类别中每一类别和多个文档的每一文档标题的得分,得到得分矩阵。
本申请在上述实施例中,根据用户的行为数据,计算出用户在不同的搜索类别中对每一文档的查阅得分,得分越高表示该文档可能被当前用户查阅的可能性就越大,根据得分矩阵中的数据,可以准确的为用户推荐一些搜索内容。
其中,不同领域中的搜索类别不同,例如,保险领域,搜索类别可以为:产险、寿险和车险等。每一搜索类别对应一个或多个文档,每一个文档对应一个文档标题。用户的行为数据包括用户的点击次数和停留时间,点击次数包括对一个文档的点击次数和对同一类别下所有文档的总点击数,行为数据还包括在用户输入搜索内容之后,在一次或多次未搜索成功时,一次或多次的输入新的搜索内容,行为数据还包括用户输入搜索内容之后,在显示结果中并未搜索到想要的文档时,用户通过一些操作获取想要搜索的文档的方法,例如,上下翻动、更换当前搜索内容或者点击相关推荐内容等。得分矩阵可以反应搜索内容的类别和文档的关系情况,得分矩阵中的得分可以为搜索类别和文档标题的得分,例如,搜索类别为保险领域中的产险类别,文档标题为产险理赔细则,则该搜索类别和文档标题的得分就会很高,此外,得分矩阵中的得分还可以是搜索类别与文档标签的匹配得分,还可以是搜索类别与文档中某一段内容的匹配得分等,本申请不限于此。
步骤120:将当前搜索内容与预设的得分矩阵中用户的历史搜索内容对应的多个搜索类别进行匹配,向用户推荐一个或多个文档。
其中,得分矩阵是基于用户的行为数据,计算多个搜索类别中每一类别和多个文档的每一文档标题的得分得到的,行为数据包括以下数据中的至少一种:每一文档的点击次数、每一类别中文档点击总次数和每一文档的停留时长。
此外,当前搜索内容与预设的得分矩阵中用户的历史搜索内容对应的多个搜索类别进行匹配时,包括,当前搜索内容可以匹配到用户的历史搜索内容和该历史搜索内容对应的搜索类别以及当前搜索内容不可以匹配到用户的历史搜索内容和该历史搜索内容对应的搜索类别。
在本申请的一些实施例中,当前搜索内容可以匹配到用户的历史搜索内容和该历史搜索内容对应的搜索类别时,将当前搜索内容与预设的得分矩阵中用户的历史搜索内容对应的多个搜索类别进行匹配,向用户推荐一个或多个文档,包括:将用户的当前搜索内容和历史搜索内容进行匹配,确认历史搜索内容中是否存在当前搜索内容;在历史搜索内容中存在当前搜索内容的情况下,确认当前搜索内容的搜索类别;基于得分矩阵,获取搜索类别对应的一个或多个文档并将一个或多个文档推荐给用户。
本申请在上述实施例中,若当前搜索内容为历史搜索过的内容,则可以直接获取历史搜索过的内容对应的类别,通过得分矩阵为用户推荐该类别下的一个或多个文档,可以达到快速推荐文档的效果。
其中,在历史搜索内容中存在当前搜索内容的情况下,确认当前搜索内容的搜索类别,包括,确认当前搜索内容对应的历史搜索内容,获取该历史搜索内容对应的搜索类别作为所述当前搜索内容的搜索类别。基于得分矩阵,获取搜索类别对应的一个或多个文档并将一个或多个文档推荐给用户,包括,基于得分矩阵,获取搜索类别对应的一个或多个文档,根据每一文档对应的文档题目和搜索类别的得分,将所述一个或多个文档按照得分由高到低的顺序推荐给用户。也可以是分数最高的一个或多个文档推荐给用户。
在本申请的一些实施例中,当前搜索内容可以匹配到用户的历史搜索内容和该历史搜索内容对应的搜索类别时,在将用户的当前搜索内容和历史搜索内容进行匹配,确认历史搜索内容中是否存在当前搜索内容之后,图1所示的方法还包括:在历史搜索内容中不存在当前搜索内容的情况下,通过同义词匹配算法计算当前搜索内容中关键词对应的同义词;确认同义词所在的第二历史搜索内容以及第二历史搜索内容对应的搜索类别;基于得分矩阵,获取第二历史搜索内容对应的搜索类别对应的一个或多个文档并将一个或多个文档推荐给用户。
本申请在上述实施例中,本申请在上述实施例中,可以利用同义词匹配算法计算当前搜索内容中的关键词命中哪个历史搜索内容中的关键词,直接获取命中的历史搜索内容对应的类别,通过得分矩阵为用户推荐该类别下的一个或多个文档,可以达到快速推荐文档的效果。
其中,通过同义词匹配算法计算当前搜索内容中关键词对应的同义词,同义词可以为一个或多个,通过算法匹配的同义词意思最相近的一个词作为该同义词,若该同义词没有命中历史搜索内容中的关键词时,将该同义词换成下一个同义词直到同义词命中历史搜索内容中的关键词为止。在匹配结果准确的情况下,第二历史搜索内容的类别和当前搜索内容的类别相同。
在本申请的一些实施例中,当前搜索内容可以匹配到用户的历史搜索内容和该历史搜索内容对应的搜索类别时,将当前搜索内容与预设的得分矩阵中用户的历史搜索内容对应的多个搜索类别进行匹配,向用户推荐一个或多个文档,包括:根据语义相似度算法,确认与当前搜索内容的语义相似度值最大的第三历史搜索内容;确认第三历史搜索内容对应的搜索类别;基于得分矩阵,获取第三历史搜索内容对应的搜索类别对应的一个或多个文档并将一个或多个文档推荐给用户。
本申请在上述实施例中,可以利用语义相似度算法计算与当前搜索内容语义相似度值最大的历史搜索内容,直接获取与当前搜索内容语义相似度值最大的历史搜索内容对应的类别,通过得分矩阵为用户推荐该类别下的一个或多个文档,可以达到快速推荐文档的效果。
其中,历史搜索内容中该第三历史搜索内容与当前搜索内容的语义相似度匹配得到的语义相似度值最大,在匹配结果准确的情况下,第二历史搜索内容的类别和当前搜索内容的类别相同。
在本申请的一些实施例中,当前搜索内容不可以匹配到用户的历史搜索内容和该历史搜索内容对应的搜索类别时,将当前搜索内容与预设的得分矩阵中用户的历史搜索内容对应的多个搜索类别进行匹配,向用户推荐一个或多个文档,包括:获取搜索当前搜索内容时的搜索行为数据;根据搜索行为数据,确认在搜索当前搜索内容无返回结果之后,提示用户输入第二当前搜索内容。
本申请在上述实施例中,本申请通过确认自身或者其他人历史在搜索当前搜索内容时的行为数据,根据行为数据确定在搜索当前内容没有搜索到返回结果时,再次输入一个第二当前搜索内容,第二当前搜索内容可以默认为最新输入,重新根据第二当前搜索内容为用户推荐搜索内容,此过程为知识库服务器自动完成,可以自动为用户推荐准确搜索内容。
其中,确认在搜索当前搜索内容无返回结果,表示搜索当前搜索内容时没有匹配到对应的历史搜索内容。确认再次进行搜索任务并有返回结果时的第二当前搜索内容,此过程可为多次,直到更换的当前搜索内容有返回结果为止,并且这个过程都存在于行为数据中。有返回结果可以表示为更换后的当前搜索内容有匹配到历史搜索内容。本步骤中,行为数据也可以采用其它用户的行为数据,根据其中一个历史搜索记录,在搜索当前搜索内容时,短时间内用户搜索到了想要查阅的文档时,在整个中间的过程都可以是行为数据,例如,翻页、重新输入搜索内容和点击相关推荐内容等,这样,尽管用户输入的当前搜索内容不准确时也能准确的为用户推荐用户想要的文档内容。
在本申请的一些实施例中,图1所示的方法还包括:
通过如下方式获取得分矩阵中每一得分:
Figure BDA0003782141380000131
其中,score表示得分矩阵中第j个类别和类别中第i个文档标题的得分;j表示第j个类别;i表示第i个文档;α1和α2表示得分权重;∑表示求和;K为大于1小于类别j中文档总数的自然数;e表述自然常数;frequenceij表示第j个类别中第i个文档的点击次数;totalfrequencej表示第j个类别中文档点击总次数;durationij表示第j个类别中第i个文档的停留时长。
本申请在上述实施例中,通过用户的行为数据中每一文档的点击次数、每一类别中文档点击总次数和每一文档的停留时长以及相关的参数可以准确的计算出当前用户历史搜索内容对应的不同类别中每一文档的查阅得分,可以通过得分准确的反馈用户对不同类别下的每一文档的查阅情况。
其中,α1和α2可根据需求人为调整,也可以根据数据推断合理的权值。
在上述图1所示的过程中,本申请通过当前用户的行为数据计算出用户历史搜索内容对应的多个类别与每一文档的得分,之后通过历史搜索内容的类别,确定当前搜索内容的类别,推荐当前搜索内容的类别对应的搜索文档,可以同时通过历史搜索内容的推荐结果以及用户在搜索内容时的一些行为数据准确的计算出用户想查阅的一个或多个文档,此外,通过多个模型能力的调用,例如,语义相似度模型和同义词匹配模型等,可以达到快速的为用户推荐准确内容的效果。
下面结合图2对本申请实施例的推荐搜索内容的方法进行详细实施例描述。
请参看图2,图2为本申请实施例提供的一种推荐搜索内容的详细实施方法的流程图,所述方法由知识库服务器执行时,如图2所示的推荐搜索内容的方法包括:
步骤210:获取用户输入的当前搜索内容。
具体的,若输入的当前搜索内容有对应的历史搜索内容时,则进行步骤220,若输入的当前搜索内容没有对应的历史搜索内容时,则进行步骤250。
步骤220:将当前搜索内容和历史的搜索内容进行匹配,得到匹配结果。
具体的,若匹配结果显示,若当前搜索内容为历史搜索过的内容时则进行步骤230,若匹配结果显示,若当前搜索内容为历史没有搜索过的内容时则进行步骤240。
步骤230:确认当前搜索内容的搜索类别,基于预设的得分矩阵,获取搜索类别对应的一个或多个文档并将一个或多个文档推荐给用户。
具体的,将用户的当前搜索内容和历史搜索内容进行匹配,确认历史搜索内容中是否存在当前搜索内容;在历史搜索内容中存在当前搜索内容的情况下,确认当前搜索内容的搜索类别;基于得分矩阵,获取搜索类别对应的一个或多个文档并将一个或多个文档推荐给用户。
步骤240:通过同义词匹配算法或者语义相似度算法,计算当前搜索内容对应的历史搜索内容的类别,基于预设的得分矩阵,获取该搜索类别对应的一个或多个文档并将该类别中的一个或多个文档推荐给用户。
具体的,在历史搜索内容中不存在当前搜索内容的情况下,通过同义词匹配算法计算当前搜索内容中关键词对应的同义词;确认同义词所在的第二历史搜索内容以及第二历史搜索内容对应的搜索类别;基于得分矩阵,获取第二历史搜索内容对应的搜索类别对应的一个或多个文档并将一个或多个文档推荐给用户。或者根据语义相似度算法,确认与当前搜索内容的语义相似度值最大的第三历史搜索内容;确认第三历史搜索内容对应的搜索类别;基于得分矩阵,获取第三历史搜索内容对应的搜索类别对应的一个或多个文档并将一个或多个文档推荐给用户。
步骤250:获取搜索当前搜索内容时的搜索行为数据;根据搜索行为数据,确认第二当前搜索内容的搜索类别;基于预设的得分矩阵,获取该搜索类别对应的一个或多个文档并将该类别中的一个或多个文档推荐给用户。
具体的,获取搜索当前搜索内容时的搜索行为数据;根据搜索行为数据,确认在搜索当前搜索内容无返回结果之后,再次进行搜索任务并有返回结果时的第二当前搜索内容;确认第二当前搜索内容对应的搜索类别;基于得分矩阵,获取第二当前搜索内容对应的搜索类别对应的一个或多个文档并将一个或多个文档推荐给用户。
此外,图2所示的具体方法可参考图1所示的方法和步骤,此处不再过多赘述。
前文通过图1-图2描述了推荐搜索内容的方法,下面结合图3-图4描述推荐搜索内容的装置。
请参照图3,为本申请实施例中提供的一种推荐搜索内容的装置300的示意框图,该装置300可以是电子设备上的模块、程序段或代码。该装置300与上述图1方法实施例对应,能够执行图1方法实施例涉及的各个步骤,该装置300具体的功能可以参见下文中的描述,为避免重复,此处适当省略详细描述。
可选的,所述装置300包括:
获取模块310,用于获取用户的当前搜索内容;
推荐模块320,用于将当前搜索内容与预设的得分矩阵中用户的历史搜索内容对应的多个搜索类别进行匹配,向用户推荐一个或多个文档,其中,得分矩阵是基于用户的行为数据,计算多个搜索类别中每一类别和多个文档的每一文档标题的得分得到的,行为数据包括以下数据中的至少一种:每一文档的点击次数、每一类别中文档点击总次数和每一文档的停留时长。
可选的,所述装置还包括:
处理模块,用于所述获取模块在获取用户的当前搜索内容之前,利用文本聚类算法对用户的历史搜索内容进行聚类,得到多个搜索类别;基于用户的行为数据,计算多个搜索类别中每一类别和多个文档的每一文档标题的得分,得到得分矩阵。
可选的,推荐模块具体用于:
将用户的当前搜索内容和历史搜索内容进行匹配,确认历史搜索内容中是否存在当前搜索内容;在历史搜索内容中存在当前搜索内容的情况下,确认当前搜索内容的搜索类别;基于得分矩阵,获取搜索类别对应的一个或多个文档并将一个或多个文档推荐给用户。
可选的,所述装置还包括:
第二推荐模块,用于所述推荐模块在将用户的当前搜索内容和历史搜索内容进行匹配,确认历史搜索内容中是否存在当前搜索内容之后,在历史搜索内容中不存在当前搜索内容的情况下,通过同义词匹配算法计算当前搜索内容中关键词对应的同义词;确认同义词所在的第二历史搜索内容以及第二历史搜索内容对应的搜索类别;基于得分矩阵,获取第二历史搜索内容对应的搜索类别对应的一个或多个文档并将一个或多个文档推荐给用户。
可选的,推荐模块具体用于:
根据语义相似度算法,确认与当前搜索内容的语义相似度值最大的第三历史搜索内容;确认第三历史搜索内容对应的搜索类别;基于得分矩阵,获取第三历史搜索内容对应的搜索类别对应的一个或多个文档并将一个或多个文档推荐给用户。
可选的,推荐模块具体用于:
获取搜索当前搜索内容时的搜索行为数据;根据搜索行为数据,确认在搜索当前搜索内容无返回结果之后,提示用户输入第二当前搜索内容。
可选的,所述装置通过如下方式获取得分矩阵中每一得分:
Figure BDA0003782141380000171
其中,score表示得分矩阵中第j个类别和类别中第i个文档标题的得分;j表示第j个类别;i表示第i个文档;α1和α2表示得分权重;∑表示求和;K为大于1小于类别j中文档总数的自然数;e表述自然常数;frequenceij表示第j个类别中第i个文档的点击次数;totalfrequencej表示第j个类别中文档点击总次数;durationij表示第j个类别中第i个文档的停留时长。
请参照图4为本申请实施例中提供的一种推荐搜索内容的装置400的结构示意框图,该装置可以包括存储器410和处理器420。可选的,该装置还可以包括:通信接口430和通信总线440。该装置与上述图1方法实施例对应,能够执行图1方法实施例涉及的各个步骤,该装置具体的功能可以参见下文中的描述。
具体的,存储器410,用于存储计算机指令。
处理器420,用于处理存储器存储的指令,能够执行图2方法中的各个步骤。
通信接口430,用于与其他节点设备进行信令或数据的通信。例如:用于与服务器或者终端的通信,或者与其它设备节点进行通信,本申请实施例并不限于此。
通信总线440,用于实现上述组件直接的连接通信。
其中,本申请实施例中设备的通信接口430用于与其他节点设备进行信令或数据的通信。存储器410可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。存储器410可选的还可以是至少一个位于远离前述处理器的存储装置。存储器410中存储有计算机取指令,当所述计算机取指令由所述处理器420执行时,电子设备执行上述图1所示方法过程。处理器420可以用于装置300上,并且用于执行本申请中的功能。示例性地,上述的处理器420可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,本申请实施例并不局限于此。
本申请实施例还提供一种存储介质,所述计算机程序被处理器执行时,执行如图1所示方法实施例中电子设备所执行的方法过程。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
综上所述,本申请实施例提供一种推荐搜索内容的方法、装置、电子设备和存储介质,该方法包括,获取用户的当前搜索内容;将当前搜索内容与预设的得分矩阵中用户的历史搜索内容对应的多个搜索类别进行匹配,向用户推荐一个或多个文档,其中,得分矩阵是基于用户的行为数据,计算多个搜索类别中每一类别和多个文档的每一文档标题的得分得到的,行为数据包括以下数据中的至少一种:每一文档的点击次数、每一类别中文档点击总次数和每一文档的停留时长。通过该方法可以达到快速的为用户推荐准确内容的效果。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由内容“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种推荐搜索内容的方法,其特征在于,包括:
获取用户的当前搜索内容;
将所述当前搜索内容与预设的得分矩阵中所述用户的历史搜索内容对应的多个搜索类别进行匹配,向所述用户推荐一个或多个文档,其中,所述得分矩阵是基于所述用户的行为数据,计算所述多个搜索类别中每一类别和多个文档的每一文档标题的得分得到的,所述行为数据包括以下数据中的至少一种:每一文档的点击次数、每一类别中文档点击总次数和每一文档的停留时长。
2.根据权利要求1所述的方法,其特征在于,在所述获取用户的当前搜索内容之前,所述方法还包括:
利用文本聚类算法对所述用户的所述历史搜索内容进行聚类,得到所述多个搜索类别;
基于所述用户的行为数据,计算所述多个搜索类别中每一类别和所述多个文档的每一文档标题的得分,得到所述得分矩阵。
3.根据权利要求1或2所述的方法,其特征在于,所述将所述当前搜索内容与预设的得分矩阵中所述用户的历史搜索内容对应的多个搜索类别进行匹配,向所述用户推荐一个或多个文档,包括:
将所述用户的所述当前搜索内容和所述历史搜索内容进行匹配,确认所述历史搜索内容中是否存在所述当前搜索内容;
在所述历史搜索内容中存在所述当前搜索内容的情况下,确认所述当前搜索内容的搜索类别;
基于所述得分矩阵,获取所述搜索类别对应的一个或多个文档并将所述一个或多个文档推荐给所述用户。
4.根据权利要求3所述的方法,其特征在于,在所述将所述用户的所述当前搜索内容和所述历史搜索内容进行匹配,确认所述历史搜索内容中是否存在所述当前搜索内容之后,所述方法还包括:
在所述历史搜索内容中不存在所述当前搜索内容的情况下,通过同义词匹配算法计算当前搜索内容中关键词对应的同义词;
确认所述同义词所在的第二历史搜索内容以及所述第二历史搜索内容对应的搜索类别;
基于所述得分矩阵,获取所述第二历史搜索内容对应的搜索类别对应的一个或多个文档并将所述一个或多个文档推荐给所述用户。
5.根据权利要求1或2所述的方法,其特征在于,所述将所述当前搜索内容与预设的得分矩阵中所述用户的历史搜索内容对应的多个搜索类别进行匹配,向所述用户推荐一个或多个文档,包括:
根据语义相似度算法,确认与所述当前搜索内容的语义相似度值最大的第三历史搜索内容;
确认所述第三历史搜索内容对应的搜索类别;
基于所述得分矩阵,获取所述第三历史搜索内容对应的搜索类别对应的一个或多个文档并将所述一个或多个文档推荐给所述用户。
6.根据权利要求1或2所述的方法,其特征在于,所述将所述当前搜索内容与预设的得分矩阵中所述用户的历史搜索内容对应的多个搜索类别进行匹配,向所述用户推荐一个或多个文档,包括:
获取搜索所述当前搜索内容时的搜索行为数据;
根据所述搜索行为数据,确认在所述搜索所述当前搜索内容无返回结果之后,提示用户输入第二当前搜索内容。
7.根据权利要求1或2所述的方法,其特征在于,包括:
通过如下方式获取所述得分矩阵中每一得分:
Figure FDA0003782141370000031
其中,score表示所述得分矩阵中第j个类别和所述类别中第i个文档标题的得分;j表示第j个类别;i表示第i个文档;α1和α2表示得分权重;∑表示求和;K为大于1小于类别j中文档总数的自然数;e表述自然常数;frequenceij表示第j个类别中第i个文档的点击次数;total frequencej表示第j个类别中文档点击总次数;durationij表示第j个类别中第i个文档的停留时长。
8.一种推荐搜索内容的装置,其特征在于,包括:
获取模块,用于获取用户的当前搜索内容;
推荐模块,用于将所述当前搜索内容与预设的得分矩阵中所述用户的历史搜索内容对应的多个搜索类别进行匹配,向所述用户推荐一个或多个文档,其中,所述得分矩阵是基于所述用户的行为数据,计算所述多个搜索类别中每一类别和多个文档的每一文档标题的得分得到的,所述行为数据包括以下数据中的至少一种:每一文档的点击次数、每一类别中文档点击总次数和每一文档的停留时长。
9.一种电子设备,其特征在于,包括:
存储器和处理器,所述存储器存储有计算机取指令,当所述计算机取指令由所述处理器执行时,运行如权利要求1-7中任一项所述方法中的步骤。
10.一种计算机存储介质,其特征在于,包括:
计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1-7中任一项所述的方法。
CN202210932733.3A 2022-08-04 2022-08-04 一种推荐搜索内容的方法、装置、设备和存储介质 Pending CN115292478A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210932733.3A CN115292478A (zh) 2022-08-04 2022-08-04 一种推荐搜索内容的方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210932733.3A CN115292478A (zh) 2022-08-04 2022-08-04 一种推荐搜索内容的方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN115292478A true CN115292478A (zh) 2022-11-04

Family

ID=83825596

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210932733.3A Pending CN115292478A (zh) 2022-08-04 2022-08-04 一种推荐搜索内容的方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN115292478A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115982429A (zh) * 2023-03-21 2023-04-18 中交第四航务工程勘察设计院有限公司 一种基于流程控制的知识管理方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115982429A (zh) * 2023-03-21 2023-04-18 中交第四航务工程勘察设计院有限公司 一种基于流程控制的知识管理方法及系统
CN115982429B (zh) * 2023-03-21 2023-08-01 中交第四航务工程勘察设计院有限公司 一种基于流程控制的知识管理方法及系统

Similar Documents

Publication Publication Date Title
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN106156204B (zh) 文本标签的提取方法和装置
JP5575902B2 (ja) クエリのセマンティックパターンに基づく情報検索
CN108304512B (zh) 一种视频搜索引擎粗排序方法、装置及电子设备
US8645385B2 (en) System and method for automating categorization and aggregation of content from network sites
US8380697B2 (en) Search and retrieval methods and systems of short messages utilizing messaging context and keyword frequency
CN109325182B (zh) 基于会话的信息推送方法、装置、计算机设备及存储介质
CN106682169B (zh) 一种应用标签挖掘方法、装置和应用搜索方法、服务器
CN107180093B (zh) 信息搜索方法及装置和时效性查询词识别方法及装置
US8566303B2 (en) Determining word information entropies
US20060212441A1 (en) Full text query and search systems and methods of use
CN110795627B (zh) 信息推荐方法及装置、电子设备
EP2842060A1 (en) Recommending keywords
CN109388634B (zh) 地址信息的处理方法、终端设备及计算机可读存储介质
CN108763369B (zh) 一种视频搜索方法和装置
CN104239552A (zh) 生成关联关键词、提供关联关键词的方法及系统
CN105468649A (zh) 一种待展示对象匹配的判断方法及其装置
CN116719997A (zh) 政策信息推送方法、装置及电子设备
CN115905489A (zh) 一种提供招投标信息搜索服务的方法
CN115292478A (zh) 一种推荐搜索内容的方法、装置、设备和存储介质
US20120059786A1 (en) Method and an apparatus for matching data network resources
CN114090877A (zh) 职位信息推荐方法、装置、电子设备及存储介质
CN112395881A (zh) 物料标签的构建方法、装置、可读存储介质及电子设备
CN112163415A (zh) 针对反馈内容的用户意图识别方法、装置及电子设备
CN106294784B (zh) 资源搜索方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination