CN115687580A - 搜索提醒补全的生成和重排序方法、装置、设备及介质 - Google Patents

搜索提醒补全的生成和重排序方法、装置、设备及介质 Download PDF

Info

Publication number
CN115687580A
CN115687580A CN202211178010.5A CN202211178010A CN115687580A CN 115687580 A CN115687580 A CN 115687580A CN 202211178010 A CN202211178010 A CN 202211178010A CN 115687580 A CN115687580 A CN 115687580A
Authority
CN
China
Prior art keywords
search
reordering
fault
sentence
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211178010.5A
Other languages
English (en)
Other versions
CN115687580B (zh
Inventor
吴佳祺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Shirong Information Technology Co ltd
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Original Assignee
Guangzhou Shirong Information Technology Co ltd
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shirong Information Technology Co ltd, Guangzhou Shiyuan Electronics Thecnology Co Ltd filed Critical Guangzhou Shirong Information Technology Co ltd
Priority to CN202211178010.5A priority Critical patent/CN115687580B/zh
Publication of CN115687580A publication Critical patent/CN115687580A/zh
Application granted granted Critical
Publication of CN115687580B publication Critical patent/CN115687580B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本申请涉及搜索技术领域,特别是涉及到一种搜索提醒补全的生成和重排序方法、装置、设备及存储介质,其中方法包括:获取站内知识库的文档、站内知识库搜索系统的历史搜索记录和站内知识库的故障现象和故障型号;对所述文档的标题和所述历史搜索记录进行整合拼接,得到第一集合;对所述故障现象和故障型号进行分类和统计频数,得到第二集合;将所述文档的标题、所述第一集合和所述第二集合进行整合,生成搜索提醒集合;对所述搜索提醒集合进行重排序,生成重排序后的搜索提醒集合。解决现有技术中站内知识库搜索提醒补全效果不佳,导致用户搜索效率不高的技术问题。

Description

搜索提醒补全的生成和重排序方法、装置、设备及介质
技术领域
本申请涉及搜索技术领域,特别是涉及到一种搜索提醒补全的生成和重排序方法、装置、设备及存储介质。
背景技术
站内知识库就是聚合多维度的知识文档,形成完整且统一的知识库体系,方便用户进行快速实时的搜索来获取知识信息。对于站内知识库搜索来说,使用文档的标题信息或者其他有用的文本信息,如文档标签,作者信息等来构建搜索提醒模块,确实是可行的办法,但仅依靠这些信息远远不够,因为这个办法没有充分挖掘文档内部的文本信息。国内的大多数站内搜索系统,都仅能机械的对用户的搜索进行文档的标题提醒。方法虽然简单,但辅助用户搜索的能力有限。另一种方法是使用搜索历史的搜索信息进行补全,可以对搜索提醒模块的内容进行补充。但相对于通用搜索引擎,站内知识库搜索系统的可搜索空间是非常小的。也就是说,有相当多的历史搜索不能在本次搜索中搜索到相关内容。所以这部分的历史搜索,对于用户来说是无效的。因此使用搜索历史的搜索信息进行补全的方法也不适用于站内知识库搜索的搜索提醒补全。
发明内容
本申请的主要目的为提供一种搜索提醒补全的生成和重排序方法、装置、设备及存储介质,旨在解决现有技术中站内知识库搜索提醒补全效果不佳,导致用户搜索效率不高的技术问题。
为了实现上述发明目的,本申请提出一种搜索提醒补全的生成和重排序方法,所述方法包括:
获取站内知识库的文档、站内知识库搜索系统的历史搜索记录和站内知识库的故障现象和故障型号;
对所述文档的标题和所述历史搜索记录进行整合拼接,得到第一集合;
对所述故障现象和故障型号进行分类和统计频数,得到第二集合;
将所述文档的标题、所述第一集合和所述第二集合进行整合,生成搜索提醒集合;
对所述搜索提醒集合进行重排序,生成重排序后的搜索提醒集合。
进一步地,所述对所述文档的标题和所述历史搜索记录进行整合拼接,得到第一集合的步骤之前,包括:
从所述文档中解析出文本数据,进行分句和分词,用分句和分词后的解析文本数据训练N-gram语言模型。
进一步地,所述对所述文档的标题和所述历史搜索记录进行整合拼接,得到第一集合的步骤,包括:
将所述文档的标题和所述历史搜索记录进行整合和分词,用所述N-gram语言模型进行频率统计排序,得到后缀候选子串集合;
根据所述历史搜索记录生成多个前缀子串,根据多个所述前缀子串在所述后缀候选子串集合中进行遍历,寻求与每个所述前缀子串相匹配的所有后缀子串,并进行拼接;
用所述N-gram语言模型过滤拼接后的前缀子串和相匹配的所有后缀子串,得到第一集合。
进一步地,所述对所述故障现象和故障型号进行分类和统计频数,得到第二集合的步骤,包括:
获取站内知识库的故障型号的故障现象,得到故障现象对应的句子,并统计句频;
通过层次聚类对每一个故障现象对应的句子进行聚类,得到分蔟结果和蔟内句频最高的句子;
用训练好的bertflow模型分别对句子进行表征,以所述蔟内句频最高的句子为基准,分别和蔟内其他的句子进行相似度计算;
根据相似度计算结果对所述蔟内其他的句子进行筛选,得到第二集合。
进一步地,所述对所述搜索提醒集合进行重排序,生成重排序后的搜索提醒集合的步骤,包括:
计算BM25得分、句频得分和匹配高亮得分;
按照所述BM25得分、句频得分和匹配高亮得分,对所述搜索提醒集合进行重排序。
进一步地,所述计算匹配高亮得分的步骤,包括:
句子的匹配高亮的得分计算如下公式:
Figure BDA0003859956030000031
其中,Ci是句子Si的关键词字数统计,Wi为句子Si的关键词个数,
Figure BDA0003859956030000032
是每个词的平均高亮长度
Figure BDA0003859956030000033
Score为句子s的高亮得分。
进一步地,所述对所述搜索提醒集合进行重排序,生成重排序后的搜索提醒集合的步骤之后,包括:
对所述搜索提醒集合和所述重排序后的搜索提醒集合进行测试。本申请还提供了一种搜索提醒补全的生成和重排序装置,所述装置包括:
知识库信息获取模块,用于获取站内知识库的文档、站内知识库搜索系统的历史搜索记录和站内知识库的故障现象和故障型号;
第一集合生成模块,用于对所述文档的标题和所述历史搜索记录进行整合拼接,得到第一集合;
第二集合生成模块,用于对所述故障现象和故障型号进行分类和统计频数,得到第二集合;
搜索提醒集合生成模块,用于将所述文档的标题、所述第一集合和所述第二集合进行整合,生成搜索提醒集合;
重排序模块,用于对所述搜索提醒集合进行重排序,生成重排序后的搜索提醒集合。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请提供的一种搜索提醒补全的生成和重排序方法,从站内搜索知识库中挖掘适合用于搜索自动提醒的信息,得到搜索提醒集合,辅助用户进行知识库内容搜索。使得用户在输入更少的内容的情况下,能更快更好的得到想要的搜索内容。这是一套适用于站内搜索的完整的从搜索提醒集合生成到重排序的方案,而现阶段的搜索自动提醒方案,大多数都是针对通用搜索引擎的搜索自动提醒功能。本方案简单实用且方便自动化更新,适用于大部分基于文档知识库的站内搜索引擎的搜索自动提醒功能的构建。
附图说明
图1为本申请一实施例的搜索提醒补全的生成和重排序方法的流程示意图;
图2为本申请一实施例的搜索提醒补全的生成和重排序装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例中提供一种搜索提醒补全的生成和重排序方法,包括步骤S1-S5,具体地:
S1、获取站内知识库的文档、站内知识库搜索系统的历史搜索记录和站内知识库的故障现象和故障型号。
具体地,对于步骤S1,不同的站内知识库包含不同的文档、产品的故障现象和对应的故障型号等信息,需要对站内知识库中的信息进行充分的挖掘,使得根据用户输入的搜索关键词生成的搜索提醒的内容,符合用户预期搜索内容的可能性更大,改善站内知识库搜索提醒效率,提升用户体验。
S2、对所述文档的标题和所述历史搜索记录进行整合拼接,得到第一集合。
具体地,对于步骤S2,文档的类型是pdf,docx,txt,xlsx和pptx等类型文件。将所有文档的标题以及搜索系统的历史搜索记录进行整合,用根据站内知识库的文档内容训练好的N-gram语言模型统计文档的标题以及搜索系统的历史搜索记录中的所有句子频率,根据预设阈值截取特定频率的句子,得到后缀候选子串集合Ssuf。根据历史搜索记录在Ssuf中查找尾词相匹配的所有后缀子串,并进行拼接,拼接后再使用N-gram语言模型进行过滤,得到第一集合。保证根据集合生成的搜索提醒内容都是正确的,在用户检索时能够检索到相应的搜索提醒内容。
S3、对所述故障现象和故障型号进行分类和统计频数,得到第二集合。
具体地,对于步骤S3,当站内知识库包含有不同故障型号产品以及不同故障型号产品的故障现象时,以故障型号为类别对故障现象进行分类和统计频数,方便用户根据故障产品的型号快速找到对应故障现象的解决方法,提升搜索的效率,改善用户体验。
S4、将所述文档的标题、所述第一集合和所述第二集合进行整合,生成搜索提醒集合。
S5、对所述搜索提醒集合进行重排序,生成重排序后的搜索提醒集合。
具体地,对于步骤S4和S5,将根据站内知识库的文档、所述文档对应的标题和站内知识库搜索系统的历史搜索记录生成的第一集合,与根据站内知识库的故障现象和故障型号生成的第二集合进行整合,生成搜索提醒集合。该搜索提醒集合包括该站内知识库所有的搜索提醒的信息。再将搜索提醒集合根据BM25得分、句频得分和匹配高亮得分进行重排序,根据用户输入的搜索信息,对相关的搜索提醒信息进行排序,与该搜索信息关联性更大的搜索提醒信息排在更靠前的地方。其中,BM25得分是计算搜索内容与文档相似度得分。BM25是目前信息索引领域最主流的计算搜索内容与文档相似度得分的算法。BM是BestMatch最佳匹配的缩写,25指的是第25次算法迭代。
在一个实施例中,上述对所述文档的标题和所述历史搜索记录进行整合拼接,得到第一集合的步骤S2之前,包括:
S200、从所述文档中解析出文本数据,进行分句和分词,用分句和分词后的解析文本数据训练N-gram语言模型。
具体地,对于步骤S200,对文档进行内容的提取和文档拆解,从文档中解析出文本数据,逐段分句和分词,训练并保存N-gram语言模型。N-gram语言模型是一种语言模型,语言模型是一个基于概率的判别模型,它的输入是一句话(单词的顺序序列),输出是这句话的概率,即这些单词的联合概率。对分词之后的文本数据进行计数,计算1-gram,2-gram,...,N-gram等,这里的阶数N是预先给定的,本方案中训练到1-6-gram。训练好的N-gram语言模型用于筛除语法有问题的搜索内容和统计搜索内容的句子频率。
在一个实施例中,上述对所述文档的标题和所述历史搜索记录进行整合拼接,得到第一集合的步骤S2,包括:
S201、将所述文档的标题和所述历史搜索记录进行整合和分词,用所述N-gram语言模型进行频率统计排序,得到后缀候选子串集合;
S202、根据所述历史搜索记录生成多个前缀子串,根据多个所述前缀子串在所述后缀候选子串集合中进行遍历,寻求与每个所述前缀子串相匹配的所有后缀子串,并进行拼接;
S203、用所述N-gram语言模型过滤拼接后的前缀子串和相匹配的所有后缀子串,得到第一集合。
具体地,对于步骤S201、S202和S203,将所有文档标题和搜索系统的历史搜索记录进行整合并分词。这样就得到了类似于:“无线传屏、问题”这样的搜索内容。用训练好的N-gram语言模型进行频率统计排序,排序后,取前10万保存,得到后缀候选子串集合。例如对于“产品A、无线传屏、配对失败”这个搜索内容,可得一元字符串:“配对失败”,二元字符串:“无线传屏、配对失败”以及三元字符串:“产品A、无线传屏、配对失败”。然后利用每一个搜索内容的尾词,来匹配后缀字串的首词,来寻找出潜在的候选搜索内容,例如:对于搜索内容:“一体机、无线传屏”,可以通过上述二元字符串拼接为:“一体机、无线传屏、配对失败”。然而,上述拼接办法不一定能得到正确的搜索内容。因此需要使用训练好的N-gram语言模型,对候选搜索内容进行过滤,保证只有共同出现于文档的搜索内容才能被保留,得到第一集合Set1。通过这个步骤可以过滤一些语法有问题的拼接搜索内容,如:“触摸、pc、无法触摸”。以及一些不符合逻辑的搜索内容。保留更多像:“产品B、与、传屏器、怎么、配对”这样的有用搜索内容。
在一个实施例中,上述对所述故障现象和故障型号进行分类和统计频数,得到第二集合的步骤S3,包括:
S301、获取站内知识库的故障型号的故障现象,得到故障现象对应的句子,并统计句频;
S302、通过层次聚类对每一个故障现象对应的句子进行聚类,得到分蔟结果和蔟内句频最高的句子;
S303、用训练好的bertflow模型分别对句子进行表征,以所述蔟内句频最高的句子为基准,分别和蔟内其他的句子进行相似度计算;
S304、根据相似度计算结果对所述蔟内其他的句子进行筛选,得到第二集合。
具体地,对于步骤S301、S302、S303和S304,第二集合是包含故障现象-故障型号关联的搜索提醒集合,方便用户在搜索时使用。首先抽取所有故障型号的故障现象,并以故障型号为类别对故障现象进行分类和统计频数。例如,经统计产品C有426种自然语言下的不同故障现象,并且“PC无信号”为最常见的故障现象,频数是1782。然后,本方案使用层次聚类方法,对426种故障现象进行聚类,形成若干个蔟。通过聚类分析,蔟中的故障现象是相似的,例如“前置USB不识别”,为蔟中频数最大的这个故障现象。将本蔟中与其相似的频数低的故障现象进行舍弃。例如:“机器前置USB不识别”和“前置USB口不识别U盘”等。这里通过对频数阈值来过滤,阈值经对比实验后,设为0.3。同时本方案还使用bert-flow训练的语义表征模型,以蔟内句频最高的句子为基准,分别和蔟内其他的句子进行相似度计算,进一步对语义相似的故障现象进行过滤。例如:在实验中本方案发现,“前置USB不识别”和“前置USB无法识别”频数都非常高,表述的是同一个故障现象,本方案通过语义相似度阈值0.85,找到这些频数接近但语义相似的句子,进行故障现象的进一步过滤。最终可以得到第二集合Set2
在一个实施例中,上述对所述搜索提醒集合进行重排序,生成重排序后的搜索提醒集合的步骤S5,包括:
S501、计算BM25得分、句频得分和匹配高亮得分;
S502、按照所述BM25得分、句频得分和匹配高亮得分,对所述搜索提醒集合进行重排序。
具体地,对于步骤S501和S502,BM25得分是在elast icsearch初召得到的得分,为搜索内容与文档相似度得分。句频得分为文档的访问数统计和故障现象的句频的做归一化频数。匹配高亮得分是提醒的搜索内容有多少字符和用户输入的搜索内容匹配上,使用公式:
Figure BDA0003859956030000071
其中,Ci是句子Si的关键词字数统计,Wi为句子Si的关键词个数,
Figure BDA0003859956030000081
是每个词的平均高亮长度
Figure BDA0003859956030000082
Score为句子s的高亮得分。以此得到句子的得分,归一化后,作为重排序特征之一。
在一个实施例中,上述所述计算匹配高亮得分的步骤,包括:
S503、句子的匹配高亮的得分计算如下公式:
Figure BDA0003859956030000083
其中,Ci是句子Si的关键词字数统计,Wi为句子Si的关键词个数,
Figure BDA0003859956030000084
是每个词的平均高亮长度
Figure BDA0003859956030000085
Score为句子s的高亮得分。
具体地,对于步骤S503,例如用户输入:“红灯不亮”,匹配到的搜索内容为:“机器红灯转蓝灯亮”。这里就有三个词匹配高亮,分别为:“红灯”和“灯”和“亮”。根据公式得到上述的句子匹配高亮得分:5*5/2=12.5。用匹配高亮得分特征的目的是让匹配到了相同高亮字符长度的搜索内容,关键词更少的搜索内容能排在前面。例如,对于用户输入:“红灯不亮”,搜索内容1:“机器红灯转蓝灯亮”和搜索内容2:“红灯不亮,黑屏”。同样匹配到4个字符高亮,但搜索内容2只有一个连续关键词匹配。
在一个实施例中,上述对所述搜索提醒集合进行重排序,生成重排序后的搜索提醒集合的步骤S5之后,包括:
S504、对所述搜索提醒集合和所述重排序后的搜索提醒集合进行测试。
具体地,对于步骤S504,输入搜索内容,输出对应搜索内容的top3提醒作为标签。并且,这三个输出根据重要程度也有先后顺序。本方案从三个维度指标进行实验测试。
第一个维度指标是top-k的召回率,recall@k召回率是指前topk结果中检索出的相关结果数和库中所有的相关结果数的比率,衡量的是检索系统的查全率,用于测试重排序前后的召回率变化。如下表所示:
Figure BDA0003859956030000086
上表为recall@k召回率测试结果的示例,ori-ranking表示没有重排序的方案,re-ranking表示重排序方案。从上述测试结果发现在相同的搜索集合情况下,对于top1的召回,重排序方案要比没有重排序的方案有1.91的提升,但在top3的召回却下降了0.77个点。说明重排序方案更可能把用户想要的结果排在首位,但用户同样想关注的前三个搜索内容并没有优势。并且从top10召回来看,两种方案旗鼓相当。
第二个指标,我们考虑加搜索内容对应的标签的顺序加入进来,使用mAP@k(meanAverage Precision,平均检索精度)来进行测试,如下表所示:
Figure BDA0003859956030000091
上表为mAP@k测试结果的示例,ori-ranking表示没有重排序的方案,re-ranking表示重排序方案。根据上述mAP@k测试结果,重排序方案的效果是明显的,无论从首位,前三位还是前十位来看,都更能将用户关注的搜索内容尽可能排在更前的位置。
第三,将本方案应用于线上,提供给用户进行真实体验,并与历史线上方案进行对比。具体的做法是,提取近7天和近7-14天的线上搜索日志信息做对比。近7天是本方案生成的搜索提醒数据,7-14天利用的是历史线上方案所生成的搜索提醒数据。并使用recall值探究生成的搜索提醒内容和用户搜索时输入的搜索内容的重合度。
Figure BDA0003859956030000092
上表为本方案与历史线上方案提供给用户进行真实体验的recall值测试结果的示例,从上述测试结果可知,本方案对于用户的搜索提醒效果要明显优于历史线上方案,通过测试步骤可以确定本方案生成的搜索提醒效果,对用户的搜索提供了更大帮助。
参照图2,是本申请一实施例中搜索提醒补全的生成和重排序装置结构框图,装置包括:
搜索信息获取模块100,用于获取站内知识库的文档、站内知识库搜索系统的历史搜索记录和站内知识库的故障现象和故障型号;
第一集合生成模块200,用于对所述文档的标题和所述历史搜索记录进行整合拼接,得到第一集合;
第二集合生成模块300,用于对所述故障现象和故障型号进行分类和统计频数,得到第二集合;
搜索提醒集合生成模块400,用于将所述文档的标题、所述第一集合和所述第二集合进行整合,生成搜索提醒集合;
重排序模块500,用于对所述搜索提醒集合进行重排序,生成重排序后的搜索提醒集合。
在一个实施例中,上述搜索提醒补全的生成和重排序装置,还包括:
N-gram语言模型训练模块,用于从所述文档中解析出文本数据,进行分句和分词,用分句和分词后的解析文本数据训练N-gram语言模型
在一个实施例中,上述搜索提醒补全的生成和重排序装置,还包括:
第一集合生成子模块,用于将所述文档的标题和所述历史搜索记录进行整合和分词,用所述N-gram语言模型进行频率统计排序,得到后缀候选子串集合;根据所述历史搜索记录生成多个前缀子串,根据多个所述前缀子串在所述后缀候选子串集合中进行遍历,寻求与每个所述前缀子串相匹配的所有后缀子串,并进行拼接;用所述N-gram语言模型过滤拼接后的前缀子串和相匹配的所有后缀子串,得到第一集合。
在一个实施例中,上述搜索提醒补全的生成和重排序装置,还包括:
第二集合生成子模块,用于获取站内知识库的故障型号的故障现象,得到故障现象对应的句子,并统计句频;通过层次聚类对每一个故障现象对应的句子进行聚类,得到分蔟结果和蔟内句频最高的句子;用训练好的bertflow模型分别对句子进行表征,以所述蔟内句频最高的句子为基准,分别和蔟内其他的句子进行相似度计算;根据相似度计算结果对所述蔟内其他的句子进行筛选,得到第二集合。
在一个实施例中,上述搜索提醒补全的生成和重排序装置,还包括:
重排序子模块,用于计算BM25得分、句频得分和匹配高亮得分;按照所述BM25得分、句频得分和匹配高亮得分,对所述搜索提醒集合进行重排序。
在一个实施例中,上述搜索提醒补全的生成和重排序装置,还包括:
匹配高亮计算模块,用于句子的匹配高亮的得分计算如下公式:
Figure BDA0003859956030000101
其中,Ci是句子Si的关键词字数统计,Wi为句子Si的关键词个数,
Figure BDA0003859956030000102
是每个词的平均高亮长度
Figure BDA0003859956030000103
Score为句子s的高亮得分。
在一个实施例中,上述搜索提醒补全的生成和重排序装置,还包括:
测试模块,用于对所述搜索提醒集合和所述重排序后的搜索提醒集合进行测试。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储搜索提醒补全的生成和重排序方法过程中的使用数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述任一实施例的一种搜索提醒补全的生成和重排序方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种搜索提醒补全的生成和重排序方法。可以理解的是,本实施例中的计算机可读存储介质可以是易失性可读存储介质,也可以为非易失性可读存储介质。
本申请提供的一种搜索提醒补全的生成和重排序方法,从站内搜索知识库中挖掘适合用于搜索自动提醒的信息,来辅助用户进行知识库内容搜索。目的是让用户在输入更少的内容的情况下,能更快更好的得到想要的搜索内容。和现有方案的不同点在于,这是一套完整的从搜索提醒集合生成到重排序的方案,适用于站内搜索。而现阶段的搜索自动提醒方案,大多数都是针对通用搜索引擎的搜索自动提醒功能。本方案简单实用且方便自动化更新,适用于大部分基于文档知识库的站内搜索引擎的搜索自动提醒功能的构建。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种搜索提醒补全的生成和重排序方法,其特征在于,所述方法包括:
获取站内知识库的文档、站内知识库搜索系统的历史搜索记录和站内知识库的故障现象和故障型号;
对所述文档的标题和所述历史搜索记录进行整合拼接,得到第一集合;
对所述故障现象和故障型号进行分类和统计频数,得到第二集合;
将所述文档的标题、所述第一集合和所述第二集合进行整合,生成搜索提醒集合;
对所述搜索提醒集合进行重排序,生成重排序后的搜索提醒集合。
2.根据权利要求1所述的搜索提醒补全的生成和重排序方法,其特征在于,所述对所述文档的标题和所述历史搜索记录进行整合拼接,得到第一集合的步骤之前,包括:
从所述文档中解析出文本数据,进行分句和分词,用分句和分词后的解析文本数据训练N-gram语言模型。
3.根据权利要求2所述的搜索提醒补全的生成和重排序方法,其特征在于,所述对所述文档的标题和所述历史搜索记录进行整合拼接,得到第一集合的步骤,包括:
将所述文档的标题和所述历史搜索记录进行整合和分词,用所述N-gram语言模型进行频率统计排序,得到后缀候选子串集合;
根据所述历史搜索记录生成多个前缀子串,根据多个所述前缀子串在所述后缀候选子串集合中进行遍历,寻求与每个所述前缀子串相匹配的所有后缀子串,并进行拼接;
用所述N-gram语言模型过滤拼接后的前缀子串和相匹配的所有后缀子串,得到第一集合。
4.根据权利要求1所述的搜索提醒补全的生成和重排序方法,其特征在于,所述对所述故障现象和故障型号进行分类和统计频数,得到第二集合的步骤,包括:
获取站内知识库的故障型号的故障现象,得到故障现象对应的句子,并统计句频;
通过层次聚类对每一个故障现象对应的句子进行聚类,得到分蔟结果和蔟内句频最高的句子;
用训练好的bertflow模型分别对句子进行表征,以所述蔟内句频最高的句子为基准,分别和蔟内其他的句子进行相似度计算;
根据相似度计算结果对所述蔟内其他的句子进行筛选,得到第二集合。
5.根据权利要求1所述的搜索提醒补全的生成和重排序方法,其特征在于,所述对所述搜索提醒集合进行重排序,生成重排序后的搜索提醒集合的步骤,包括:
计算BM25得分、句频得分和匹配高亮得分;
按照所述BM25得分、句频得分和匹配高亮得分,对所述搜索提醒集合进行重排序。
6.根据权利要求5所述的搜索提醒补全的生成和重排序方法,其特征在于,所述计算匹配高亮得分的步骤,包括:
句子的匹配高亮的得分计算如下公式:
Figure FDA0003859956020000021
其中,Ci是句子Si的关键词字数统计,Wi为句子Si的关键词个数,
Figure FDA0003859956020000022
是每个词的平均高亮长度
Figure FDA0003859956020000023
Score为句子s的高亮得分。
7.根据权利要求1所述的搜索提醒补全的生成和重排序方法,其特征在于,所述对所述搜索提醒集合进行重排序,生成重排序后的搜索提醒集合的步骤之后,包括:
对所述搜索提醒集合和所述重排序后的搜索提醒集合进行测试。
8.一种搜索提醒补全的生成和重排序装置,其特征在于,所述装置包括:
搜索信息获取模块,用于获取站内知识库的文档、站内知识库搜索系统的历史搜索记录和站内知识库的故障现象和故障型号;
第一集合生成模块,用于对所述文档的标题和所述历史搜索记录进行整合拼接,得到第一集合;
第二集合生成模块,用于对所述故障现象和故障型号进行分类和统计频数,得到第二集合;
搜索提醒集合生成模块,用于将所述文档的标题、所述第一集合和所述第二集合进行整合,生成搜索提醒集合;
重排序模块,用于对所述搜索提醒集合进行重排序,生成重排序后的搜索提醒集合。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202211178010.5A 2022-09-22 2022-09-22 搜索提醒补全的生成和重排序方法、装置、设备及介质 Active CN115687580B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211178010.5A CN115687580B (zh) 2022-09-22 2022-09-22 搜索提醒补全的生成和重排序方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211178010.5A CN115687580B (zh) 2022-09-22 2022-09-22 搜索提醒补全的生成和重排序方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN115687580A true CN115687580A (zh) 2023-02-03
CN115687580B CN115687580B (zh) 2023-08-01

Family

ID=85061968

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211178010.5A Active CN115687580B (zh) 2022-09-22 2022-09-22 搜索提醒补全的生成和重排序方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN115687580B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105335488A (zh) * 2015-10-16 2016-02-17 中国南方电网有限责任公司电网技术研究中心 一种知识库构建方法
CN106503148A (zh) * 2016-10-21 2017-03-15 东南大学 一种基于多知识库的表格实体链接方法
CN108038096A (zh) * 2017-11-10 2018-05-15 平安科技(深圳)有限公司 知识库文档快速检索方法、应用服务器计算机可读存储介质
US20190305589A1 (en) * 2016-11-10 2019-10-03 China Electric Power Research Institute Company Limited Distribution network risk identification system and method and computer storage medium
CN110955550A (zh) * 2019-11-24 2020-04-03 济南浪潮数据技术有限公司 一种云平台故障定位方法、装置、设备及存储介质
CN111682960A (zh) * 2020-05-14 2020-09-18 深圳市有方科技股份有限公司 一种物联网网络及设备的故障诊断方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105335488A (zh) * 2015-10-16 2016-02-17 中国南方电网有限责任公司电网技术研究中心 一种知识库构建方法
CN106503148A (zh) * 2016-10-21 2017-03-15 东南大学 一种基于多知识库的表格实体链接方法
US20190305589A1 (en) * 2016-11-10 2019-10-03 China Electric Power Research Institute Company Limited Distribution network risk identification system and method and computer storage medium
CN108038096A (zh) * 2017-11-10 2018-05-15 平安科技(深圳)有限公司 知识库文档快速检索方法、应用服务器计算机可读存储介质
CN110955550A (zh) * 2019-11-24 2020-04-03 济南浪潮数据技术有限公司 一种云平台故障定位方法、装置、设备及存储介质
CN111682960A (zh) * 2020-05-14 2020-09-18 深圳市有方科技股份有限公司 一种物联网网络及设备的故障诊断方法及装置

Also Published As

Publication number Publication date
CN115687580B (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
CN110399457B (zh) 一种智能问答方法和系统
CN108304375B (zh) 一种信息识别方法及其设备、存储介质、终端
US10146862B2 (en) Context-based metadata generation and automatic annotation of electronic media in a computer network
US8751218B2 (en) Indexing content at semantic level
CN109726274B (zh) 问题生成方法、装置及存储介质
KR101524889B1 (ko) 간접 화법 내에서의 시맨틱 관계의 식별
US20160041986A1 (en) Smart Search Engine
CN108959559B (zh) 问答对生成方法和装置
US9390161B2 (en) Methods and systems for extracting keyphrases from natural text for search engine indexing
CN105045852A (zh) 一种教学资源的全文搜索引擎系统
US20160292153A1 (en) Identification of examples in documents
CN111324771B (zh) 视频标签的确定方法、装置、电子设备及存储介质
CN114036930A (zh) 文本纠错方法、装置、设备及计算机可读介质
JP2022115815A (ja) 拡張プログラミング言語コーパスに基づく意味コード検索
CN111553160A (zh) 一种获取法律领域问句答案的方法和系统
US20100185438A1 (en) Method of creating a dictionary
US11151317B1 (en) Contextual spelling correction system
US20210034621A1 (en) System and method for creating database query from user search query
Yan et al. Chemical name extraction based on automatic training data generation and rich feature set
Hovy et al. Extending metadata definitions by automatically extracting and organizing glossary definitions
CN110705285A (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
WO2022134824A1 (en) Tuning query generation patterns
CN114997167A (zh) 简历内容提取方法及装置
CN115687580B (zh) 搜索提醒补全的生成和重排序方法、装置、设备及介质
CN114970541A (zh) 文本语义理解方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant