CN114064929A - 搜索排序方法及装置 - Google Patents

搜索排序方法及装置 Download PDF

Info

Publication number
CN114064929A
CN114064929A CN202111431480.3A CN202111431480A CN114064929A CN 114064929 A CN114064929 A CN 114064929A CN 202111431480 A CN202111431480 A CN 202111431480A CN 114064929 A CN114064929 A CN 114064929A
Authority
CN
China
Prior art keywords
maintenance
word
recall
sentences
maintenance knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111431480.3A
Other languages
English (en)
Inventor
崔林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
ICBC Technology Co Ltd
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
ICBC Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC, ICBC Technology Co Ltd filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202111431480.3A priority Critical patent/CN114064929A/zh
Publication of CN114064929A publication Critical patent/CN114064929A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种搜索排序方法及装置,可用于金融领域或其他领域,该方法包括:接收目标搜索语句;根据所述目标搜索语句从预设的运维知识库中获得多条召回语句;根据预存储的运维知识图谱、词向量集、所述目标搜索语句和各条召回语句,确定所述目标搜索语句和各条召回语句各自对应的运维知识词以及每个运维知识词的词权重和词向量;根据每个运维知识词的词权重和词向量,确定所述多条召回语句的排序结果并输出。本申请能够提高搜索排序的效率和准确性,进而能够提高数据中心运维的可靠性。

Description

搜索排序方法及装置
技术领域
本申请涉及数据处理技术领域,尤其涉及一种搜索排序方法及装置。
背景技术
随着社会经济的发展,数据中心等算力基础设施建设成为重中之重。运维作为数据中心的重要环节,是保证数据中心平稳运行的重要支撑。运维属于技术信息密集型的领域,知识范围广、领域多、问题杂、入门难、深入难和传承难的特点。目前,如何解决运维领域的知识积累、搜索和传播等问题存在很大困难。
在日常运维过程中,产生大量有价值的系统文档、预案、问题解决方案、制度法规和操作手册等,大部分文档分散在各类专家手中或是存储在类似confluence的工具中。通过与专家沟通获得知识,存在效率不高的问题;而通过confluence类工具搜索排序知识,存在准确率不高的问题。
发明内容
针对现有技术中的至少一个问题,本申请提出了一种搜索排序方法及装置,能够提高搜索排序的效率和准确性,进而能够提高数据中心运维的可靠性。
为了解决上述技术问题,本申请提供以下技术方案:
第一方面,本申请提供一种搜索排序方法,包括:
接收目标搜索语句;
根据所述目标搜索语句从预设的运维知识库中获得多条召回语句;
根据预存储的运维知识图谱、词向量集、所述目标搜索语句和各条召回语句,确定所述目标搜索语句和各条召回语句各自对应的运维知识词以及每个运维知识词的词权重和词向量;
根据每个运维知识词的词权重和词向量,确定所述多条召回语句的排序结果并输出。
进一步地,所述根据预存储的运维知识图谱、词向量集、所述目标搜索语句和各条召回语句,确定所述目标搜索语句和各条召回语句各自对应的运维知识词以及每个运维知识词的词权重和词向量,包括:
根据预存储的运维知识图谱、所述目标搜索语句和各条召回语句,确定所述目标搜索语句和各条召回语句各自对应的运维知识词以及每个运维知识词的词权重;
根据预存储的词向量集,确定每个运维知识词的词向量。
进一步地,所述根据每个运维知识词的词权重和词向量,确定所述多条召回语句的排序结果并输出,包括:
根据所述目标搜索语句的运维知识词的词权重和词向量,以及每条召回语句的运维知识词的词权重和词向量进行相似度计算;
根据每条召回语句的相似度计算结果,确定所述多条召回语句的排序结果并输出。
进一步地,在所述根据所述目标搜索语句从预设的运维知识库中获得多条召回语句之前,还包括:
获取原始运维知识文档;
将所述原始运维知识文档中的多条运维知识语句,存储在所述预设的运维知识库中;
所述召回语句为根据召回算法从所述预设的运维知识库中获得的与所述目标搜索语句对应的运维知识语句。
进一步地,所述根据所述目标搜索语句从预设的运维知识库中获得多条召回语句,包括:根据多路召回算法和所述目标搜索语句从预设的运维知识库中获得多条召回语句,多路召回算法包括:TFIDF和BM25算法。
进一步地,在所述从预存储的运维知识图谱和词向量集中,获得每个运维知识词的词权重和词向量之前,还包括:
获取原始运维知识文档,该原始运维知识文档包括多条运维知识语句;
对所述原始运维知识文档进行切词处理,得到多个原始运维知识词;
应用TextRank算法和所述多个原始运维知识词,确定各个原始运维知识词各自的词权重;
根据各个原始运维知识词及其各自的词权重,得到所述运维知识图谱,其中,所述运维知识图谱包括:节点、节点的权重以及节点之间的有向边,节点表示原始运维知识词,有向边表示原始运维知识词在运维知识语句中的前后关系。
进一步地,在所述对所述原始运维知识文档进行切词处理,得到多个原始运维知识词之后,还包括:
对各个原始运维知识词进行Embedding向量化处理,得到每个原始运维知识词的词向量;
根据各个原始运维知识词及其各自的词向量,得到所述词向量集。
第二方面,本申请提供一种搜索排序装置,包括:
接收模块,用于接收目标搜索语句;
召回模块,用于根据所述目标搜索语句从预设的运维知识库中获得多条召回语句;
确定模块,用于根据预存储的运维知识图谱、词向量集、所述目标搜索语句和各条召回语句,确定所述目标搜索语句和各条召回语句各自对应的运维知识词以及每个运维知识词的词权重和词向量;
排序模块,用于根据每个运维知识词的词权重和词向量,确定所述多条召回语句的排序结果并输出。
进一步地,所述排序模块包括:
得分单元,用于根据所述目标搜索语句的运维知识词的词权重和词向量,以及每条召回语句的运维知识词的词权重和词向量进行相似度计算;
确定单元,用于根据每条召回语句的相似度计算结果,确定所述多条召回语句的排序结果并输出。
进一步地,所述的搜索排序装置,还包括:
获取模块,用于获取原始运维知识文档;
存储模块,用于将所述原始运维知识文档中的多条运维知识语句,存储在所述预设的运维知识库中;
所述召回语句为根据召回算法从所述预设的运维知识库中获得的与所述目标搜索语句对应的运维知识语句。
第三方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的搜索排序方法。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现所述的搜索排序方法。
由上述技术方案可知,本申请提供一种搜索排序方法及装置。其中,该方法包括:接收目标搜索语句;根据所述目标搜索语句从预设的运维知识库中获得多条召回语句;根据预存储的运维知识图谱、词向量集、所述目标搜索语句和各条召回语句,确定所述目标搜索语句和各条召回语句各自对应的运维知识词以及每个运维知识词的词权重和词向量;根据每个运维知识词的词权重和词向量,确定所述多条召回语句的排序结果并输出,能够提高搜索排序的效率和准确性,进而能够提高数据中心运维的可靠性;具体地,既能快速分享运维知识,又能够精准定位问题;能够降低运维门槛,提高运维效率,节省人力成本,保证数据中心的稳定运行。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例中的搜索排序方法的流程示意图;
图2是本申请另一实施例中的搜索排序方法的流程示意图;
图3是本申请实施例中的搜索排序方法的步骤0031至步骤0034的流程示意图;
图4是本申请实施例中搜索排序装置的结构示意图;
图5为本申请实施例的电子设备的系统构成示意框图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于对本方案的理解,首先,对与本方案相关的技术内容进行说明。
Embedding:是一种将离散变量转为连续向量表示的方式;不但可以减少离散空间的维数,同时可以在高维空间发现更加相似的语句。
TFIDF:是一种用于信息检索(information retrieval)与文本挖掘(textmining)的常用加权技术,用于统计出一个词对于一个文件的重要程度。字词的重要程度随着它在文件中出现的频率而提高,而随着其在文档库中出现的频率而降低;TFIDF=TF*IDF,其中:
Figure BDA0003380304690000051
Figure BDA0003380304690000052
BM25:通过计算查询语句中语素(中文分词)在文档中的得分之和Score(Q,d),得到最终查询语句的得分;语素和文档的权重计算方式很多,通常采用IDF算法;其中:
Figure BDA0003380304690000053
Figure BDA0003380304690000054
Figure BDA0003380304690000055
其中,Q表示查询语句,d表示召回语句,qi表示第i个词,n表示查询语句词数量,Wi表示第i个词语召回语句之间的权重,K表示调节因子,q表示查询语句,k1、b和k2为调节因子;R(qi,d)表示搜索语句和召回语句之间的相关性分值,qi表示查询语句,d表示召回语句;fi表示语素(词)在q中出现的频率,qfi表示语素(词)在召回语句中出现的频次,通常根据经验设置k1=k2=2,b=0.75;dl为文档长度,avgdl为文档库中的平均文档长度。
Elasticsearch即ES:是一种基于Lucene的搜索服务器;它提供一个分布式多用户能力的全文搜索引擎,基于Restful接口方式。ES用于日志存储的分布式存储工具,以键值对的形式保存数据。
目前常见的知识分享和存储的方式分为以下几种:
1.专家存储根据经验得出的“系统文档、预案、解决方案、制度法规和操作手册”等内容,然后在搜索时可以使用类似于Everythings工具进行关键字检索;专家存储方式,存在存储分散和分享困难的问题;搜索时仅基于关键字,准确性不高。
2.企业通过类似于Conflunce类型的工具,进行信息存储和共享;Conflunce工具使用lucene算法提供搜索功能;由于lucene算法基于倒排索引的方式,共享文档类工具仅能够通过关键字评分进行搜索排序,准确率也很低。
基于此,本申请提供一种搜索排序方法及装置,可以实现高效率、高准确率构建、存储和搜索运维知识库;通过多路召回以及图网络结构,得到搜索语句和召回语句的权重,最终排序召回语句,返回排序结果,在提高知识分享效率的同时,提高检索效率,降低运维门槛。知识构建是将原有运维知识进行存储和向量化等表示;知识粗排是将海量的运维知识进行初步召回;知识精排是以图网络算法计算语句向量的重要程度,并根据语句相似度,进一步优化搜索排序结果。将运维知识条目化和向量化,通过粗排方式和精排方式提高检索的准确率;精排方法采用图网络结构计算语句中的词节点的重要程度,在比较语句相似度时,对重点词汇重点突出;便于知识分享和存储,降低运维门槛,提高运维效率;本方案在应用多路召回算法的基础上,通过知识精排,能够在提高召回准确率的同时,精简输出的召回语句条数。
为了提高搜索排序的效率和准确性,进而提高数据中心运维的可靠性,本申请实施例提供一种搜索排序装置,该装置可以是一服务器或客户端设备,所述客户端设备可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备和智能穿戴设备等。其中,所述智能穿戴设备可以包括智能眼镜、智能手表和智能手环等。
在实际应用中,进行搜索排序的部分可以在如上述内容所述的服务器侧执行,也可以所有的操作都在所述客户端设备中完成。具体可以根据所述客户端设备的处理能力,以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成,所述客户端设备还可以包括处理器。
上述的客户端设备可以具有通信模块(即通信单元),可以与远程的服务器进行通信连接,实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器,其他的实施场景中也可以包括中间平台的服务器,例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备,也可以包括多个服务器组成的服务器集群,或者分布式装置的服务器结构。
所述服务器与所述客户端设备之间可以使用任何合适的网络协议进行通信,包括在本申请提交日尚未开发出的网络协议。所述网络协议例如可以包括TCP/IP协议、UDP/IP协议、HTTP协议、HTTPS协议等。当然,所述网络协议例如还可以包括在上述协议之上使用的RPC协议(Remote Procedure Call Protocol,远程过程调用协议)、REST协议(Representational State Transfer,表述性状态转移协议)等。
需要说明的是,本申请公开的搜索排序方法及装置可用于金融技术领域,也可用于除金融技术领域之外的任意领域,本申请公开的搜索排序方法及装置的应用领域不做限定。
具体通过下述各个实施例进行说明。
为了提高搜索排序的效率和准确性,进而提高数据中心运维的可靠性,本实施例提供一种执行主体是搜索排序装置的搜索排序方法,该搜索排序装置包括但不限于服务器,如图1所示,该方法具体包含有如下内容:
步骤100:接收目标搜索语句。
具体地,搜索排序装置可以接收前端发送的目标搜索语句。
步骤200:根据所述目标搜索语句从预设的运维知识库中获得多条召回语句。
具体地,可以根据召回算法,从预设的运维知识库中获得所述目标搜索语句对应的运维知识语句,作为召回语句;所述预设的运维知识库中可以预先存储大量的运维知识语句;步骤200可以相当于知识粗排的过程。
步骤300:根据预存储的运维知识图谱、词向量集、所述目标搜索语句和各条召回语句,确定所述目标搜索语句和各条召回语句各自对应的运维知识词以及每个运维知识词的词权重和词向量。
具体地,所述预存储的运维知识图谱可以包含有:运维知识词和词权重之间的对应关系;所述预存储的词向量集可以包含有:运维知识词和词向量之间的对应关系。
步骤400:根据每个运维知识词的词权重和词向量,确定所述多条召回语句的排序结果并输出。
具体地,可以按照排序结果将所述多条召回语句输出显示;为了减少冗余数据,提高数据传输的效率,进一步地,可以在确定所述多条召回语句的排序结果之后,将前N位的召回语句数据显示,N可以根据实际情况申请设置,本申请对此不作限制。步骤200至步骤300可以相当于知识精排的过程。召回语句的数据量很大(可达几百甚至上千条),故需要进一步筛选;在图结构即运维知识图谱中搜索出搜索语句和召回语句中的各个运维知识词的词权重(无法召回的默认权重为图中节点数的倒数),计算搜索语句的词向量、词权重与召回语句的词向量、词权重的相似度,最终得分进行排序。
为了提高获得词向量和词权重的准确性,在本申请一个实施例中,步骤300包括:
步骤301:根据预存储的运维知识图谱、所述目标搜索语句和各条召回语句,确定所述目标搜索语句和各条召回语句各自对应的运维知识词以及每个运维知识词的词权重。
具体地,可以对所述目标搜索语句进行切词,得到所述目标搜索语句对应的运维知识词,判断所述预存储的运维知识图谱中是否存在该运维知识词,若是,则从所述预存储的运维知识图谱中获取所述运维知识词的词权重,否则可以将目标搜索语句对应的运维知识词的词权重设置为图中节点数的倒数,既不突出也不减弱词的重要性;可以从所述预存储的运维知识图谱中获得属于所述召回语句的原始运维知识词,将该原始运维知识词作为所述召回语句对应的运维知识词,并从所述预存储的运维知识图谱中获得该运维知识词对应的词权重。
步骤302:根据预存储的词向量集,确定每个运维知识词的词向量。
具体地,可以从所述预存储的词向量集中获得原始运维知识词为所述运维知识词的记录,并将该记录中词向量作为所述运维知识词的词向量。
仅采用一种召回算法可能存在漏洞,为了保证数据的召回率,提高召回语句的可靠性,在本申请一个实施例中,步骤200包括:根据多路召回算法和所述目标搜索语句从预设的运维知识库中获得多条召回语句,多路召回算法包括:TFIDF和BM25算法。
为了提高召回语句排序结果的可靠性,参见图2,在本申请一个实施例中,步骤400包括:
步骤401:根据所述目标搜索语句的运维知识词的词权重和词向量,以及每条召回语句的运维知识词的词权重和词向量进行相似度计算。
步骤402:根据每条召回语句的相似度计算结果,确定所述多条召回语句的排序结果并输出。
具体地,可以将召回语句的相似度计算结果作为该召回语句的排序得分,可以按照排序得分由高到低对召回语句进行排序。
为了提高运维知识语句存储的可靠性,进而提高接下来运维知识语句召回的可靠性,在本申请一个实施例中,在步骤200之前,还包括:
步骤021:获取原始运维知识文档。
具体地,所述原始运维知识文档可以包含有:数据中心的系统文档、预案、问题解决方案、制度法规和操作手册等。
步骤022:将所述原始运维知识文档中的多条运维知识语句,存储在所述预设的运维知识库中;所述召回语句为根据召回算法从所述预设的运维知识库中获得的与所述目标搜索语句对应的运维知识语句。
具体地,可以将原始知识文档按段进行拆条处理;并将知识条按行存储在ES之中,ES可以替换成SOLR搜索应用服务器、MYSQL和ORACLE数据库等;可以将所述原始运维知识文档中的一段内容作为一条运维知识语句。
为了提高获得运维知识图谱的准确性,参见图3,在本申请一个实施例中,在步骤300之前,还包括:
步骤0031:获取原始运维知识文档,该原始运维知识文档包括多条运维知识语句。
步骤0032:对所述原始运维知识文档进行切词处理,得到多个原始运维知识词。
步骤0033:应用TextRank算法和所述多个原始运维知识词,确定各个原始运维知识词各自的词权重。
具体地,在原始运维知识文档中,重点的词汇比较突出,因此,在原始运维知识文档的基础上提取词的词权重,可以更好的突出词的重要性;所述原始运维知识词为对所述原始运维知识文档进行切词处理后得到的词。
步骤0034:根据各个原始运维知识词及其各自的词权重,得到所述运维知识图谱,其中,所述运维知识图谱包括:节点、节点的权重以及节点之间的有向边,节点表示原始运维知识词,有向边表示原始运维知识词在运维知识语句中的前后关系。
具体地,当前词之前的词到当前词的连线称为入度(入边),当前词和当前词之后的词之间的连线称为出度(出边);所述运维知识图谱包括:各个原始运维知识词及其各自的词权重;可以将原始运维知识文档分解成词,并形成图结构,通过每个词的出度入度数量计算节点权重的重要性,具体描述如下:
a)将原始运维知识文档切词,并生成初始图结构;设置每个节点的初始化权重(默认为图结构中节点个数的倒数)即将WS(Vj)的初始值设置为图结构中节点个数的倒数;设置每个节点的出度权重wjk,默认是该节点的出度个数即由该节点指向其他节点的连线个数;设置每个节点的入度权重wij,默认是该节点的入度个数即由其他节点指向该节点的连线个数。
b)根据词重要程度的计算公式,得到每个节点的词权重;重要程度的计算公式如下所示:
Figure BDA0003380304690000101
其中,
Figure BDA0003380304690000102
表示每个节点的所有出度权重之和,
Figure BDA0003380304690000103
表示节点自身的重要权重,d表示阻尼系数,默认设置成0.85;经过几轮迭代算出每个节点的词权重。
c)根据每个节点的每个节点的词权重,得到原始语句图结构即上述运维知识图谱。
为了提高获得词向量集的可靠性,在本申请一个实施例中,在步骤300之前,还包括:
步骤311:对各个原始运维知识词进行Embedding向量化处理,得到每个原始运维知识词的词向量。
步骤312:根据各个原始运维知识词及其各自的词向量,得到所述词向量集。
具体地,所述词向量集包括:各个原始运维知识词及其各自的词向量。
从软件层面来说,为了提高搜索排序的效率和准确性,进而提高数据中心运维的可靠性,本申请提供一种用于实现所述搜索排序方法中全部或部分内容的搜索排序装置的实施例,参见图4,所述搜索排序装置具体包含有如下内容:
接收模块10,用于接收目标搜索语句。
召回模块20,用于根据所述目标搜索语句从预设的运维知识库中获得多条召回语句。
确定模块30,用于根据预存储的运维知识图谱、词向量集、所述目标搜索语句和各条召回语句,确定所述目标搜索语句和各条召回语句各自对应的运维知识词以及每个运维知识词的词权重和词向量。
排序模块,用于根据每个运维知识词的词权重和词向量,确定所述多条召回语句的排序结果并输出。
在本申请一个实施例中,所述排序模块包括:
得分单元,用于根据所述目标搜索语句的运维知识词的词权重和词向量,以及每条召回语句的运维知识词的词权重和词向量进行相似度计算。
确定单元,用于根据每条召回语句的相似度计算结果,确定所述多条召回语句的排序结果并输出。
在本申请一个实施例中,所述的搜索排序装置,还包括:
获取模块,用于获取原始运维知识文档。
存储模块,用于将所述原始运维知识文档中的多条运维知识语句,存储在所述预设的运维知识库中。
所述召回语句为根据召回算法从所述预设的运维知识库中获得的与所述目标搜索语句对应的运维知识语句。
本说明书提供的搜索排序装置的实施例具体可以用于执行上述搜索排序方法的实施例的处理流程,其功能在此不再赘述,可以参照上述搜索排序方法实施例的详细描述。
由上述描述可知,本申请提供的搜索排序方法及装置,能够提高搜索排序的效率和准确性,进而能够提高数据中心运维的可靠性;具体地,既能快速分享运维知识,又能够精准定位问题;能够降低运维门槛,提高运维效率,节省人力成本,保证数据中心的稳定运行。
从硬件层面来说,为了提高搜索排序的效率和准确性,进而提高数据中心运维的可靠性,本申请提供一种用于实现所述搜索排序方法中的全部或部分内容的电子设备的实施例所述电子设备具体包含有如下内容:
处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述通信接口用于实现所述搜索排序装置以及用户终端等相关设备之间的信息传输;该电子设备可以是台式计算机、平板电脑及移动终端等,本实施例不限于此。在本实施例中,该电子设备可以参照实施例用于实现所述搜索排序方法的实施例及用于实现所述搜索排序装置的实施例进行实施,其内容被合并于此,重复之处不再赘述。
图5为本申请实施例的电子设备9600的系统构成的示意框图。如图5所示,该电子设备9600可以包括中央处理器9100和存储器9140;存储器9140耦合到中央处理器9100。值得注意的是,该图5是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
在本申请一个或多个实施例中,搜索排序功能可以被集成到中央处理器9100中。其中,中央处理器9100可以被配置为进行如下控制:
步骤100:接收目标搜索语句。
步骤200:根据所述目标搜索语句从预设的运维知识库中获得多条召回语句。
步骤300:根据预存储的运维知识图谱、词向量集、所述目标搜索语句和各条召回语句,确定所述目标搜索语句和各条召回语句各自对应的运维知识词以及每个运维知识词的词权重和词向量。
步骤400:根据每个运维知识词的词权重和词向量,确定所述多条召回语句的排序结果并输出。
从上述描述可知,本申请的实施例提供的电子设备,能够提高搜索排序的效率和准确性,进而提高数据中心运维的可靠性。
在另一个实施方式中,搜索排序装置可以与中央处理器9100分开配置,例如可以将搜索排序装置配置为与中央处理器9100连接的芯片,通过中央处理器的控制来实现搜索排序功能。
如图5所示,该电子设备9600还可以包括:通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是,电子设备9600也并不是必须要包括图5中所示的所有部件;此外,电子设备9600还可以包括图5中没有示出的部件,可以参考现有技术。
如图5所示,中央处理器9100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。
其中,存储器9140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序,以实现信息存储或处理等。
输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器9140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142,该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。
存储器9140还可以包括数据存储部9143,该数据存储部9143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块9110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132,以经由扬声器9131提供音频输出,并接收来自麦克风9132的音频输入,从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器9130还耦合到中央处理器9100,从而使得可以通过麦克风9132能够在本机上录音,且使得可以通过扬声器9131来播放本机上存储的声音。
上述描述可知,本申请的实施例提供的电子设备,能够提高搜索排序的效率和准确性,进而提高数据中心运维的可靠性。
本申请的实施例还提供能够实现上述实施例中的搜索排序方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的搜索排序方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
步骤100:接收目标搜索语句。
步骤200:根据所述目标搜索语句从预设的运维知识库中获得多条召回语句。
步骤300:根据预存储的运维知识图谱、词向量集、所述目标搜索语句和各条召回语句,确定所述目标搜索语句和各条召回语句各自对应的运维知识词以及每个运维知识词的词权重和词向量。
步骤400:根据每个运维知识词的词权重和词向量,确定所述多条召回语句的排序结果并输出。
从上述描述可知,本申请实施例提供的计算机可读存储介质,能够提高搜索排序的效率和准确性,进而提高数据中心运维的可靠性。
本申请中上述方法的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。相关之处参见方法实施例的部分说明即可。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本申请中应用了具体实施例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (12)

1.一种搜索排序方法,其特征在于,包括:
接收目标搜索语句;
根据所述目标搜索语句从预设的运维知识库中获得多条召回语句;
根据预存储的运维知识图谱、词向量集、所述目标搜索语句和各条召回语句,确定所述目标搜索语句和各条召回语句各自对应的运维知识词以及每个运维知识词的词权重和词向量;
根据每个运维知识词的词权重和词向量,确定所述多条召回语句的排序结果并输出。
2.根据权利要求1所述的搜索排序方法,其特征在于,所述根据预存储的运维知识图谱、词向量集、所述目标搜索语句和各条召回语句,确定所述目标搜索语句和各条召回语句各自对应的运维知识词以及每个运维知识词的词权重和词向量,包括:
根据预存储的运维知识图谱、所述目标搜索语句和各条召回语句,确定所述目标搜索语句和各条召回语句各自对应的运维知识词以及每个运维知识词的词权重;
根据预存储的词向量集,确定每个运维知识词的词向量。
3.根据权利要求1所述的搜索排序方法,其特征在于,所述根据每个运维知识词的词权重和词向量,确定所述多条召回语句的排序结果并输出,包括:
根据所述目标搜索语句的运维知识词的词权重和词向量,以及每条召回语句的运维知识词的词权重和词向量进行相似度计算;
根据每条召回语句的相似度计算结果,确定所述多条召回语句的排序结果并输出。
4.根据权利要求1所述的搜索排序方法,其特征在于,在所述根据所述目标搜索语句从预设的运维知识库中获得多条召回语句之前,还包括:
获取原始运维知识文档;
将所述原始运维知识文档中的多条运维知识语句,存储在所述预设的运维知识库中;
所述召回语句为根据召回算法从所述预设的运维知识库中获得的与所述目标搜索语句对应的运维知识语句。
5.根据权利要求1所述的搜索排序方法,其特征在于,所述根据所述目标搜索语句从预设的运维知识库中获得多条召回语句,包括:
根据多路召回算法和所述目标搜索语句从预设的运维知识库中获得多条召回语句,多路召回算法包括:TFIDF和BM25算法。
6.根据权利要求1所述的搜索排序方法,其特征在于,在所述从预存储的运维知识图谱和词向量集中,获得每个运维知识词的词权重和词向量之前,还包括:
获取原始运维知识文档,该原始运维知识文档包括多条运维知识语句;
对所述原始运维知识文档进行切词处理,得到多个原始运维知识词;
应用TextRank算法和所述多个原始运维知识词,确定各个原始运维知识词各自的词权重;
根据各个原始运维知识词及其各自的词权重,得到所述运维知识图谱,其中,所述运维知识图谱包括:节点、节点的权重以及节点之间的有向边,节点表示原始运维知识词,有向边表示原始运维知识词在运维知识语句中的前后关系。
7.根据权利要求6所述的搜索排序方法,其特征在于,在所述对所述原始运维知识文档进行切词处理,得到多个原始运维知识词之后,还包括:
对各个原始运维知识词进行Embedding向量化处理,得到每个原始运维知识词的词向量;
根据各个原始运维知识词及其各自的词向量,得到所述词向量集。
8.一种搜索排序装置,其特征在于,包括:
接收模块,用于接收目标搜索语句;
召回模块,用于根据所述目标搜索语句从预设的运维知识库中获得多条召回语句;
确定模块,用于根据预存储的运维知识图谱、词向量集、所述目标搜索语句和各条召回语句,确定所述目标搜索语句和各条召回语句各自对应的运维知识词以及每个运维知识词的词权重和词向量;
排序模块,用于根据每个运维知识词的词权重和词向量,确定所述多条召回语句的排序结果并输出。
9.根据权利要求8所述的搜索排序装置,其特征在于,所述排序模块包括:
得分单元,用于根据所述目标搜索语句的运维知识词的词权重和词向量,以及每条召回语句的运维知识词的词权重和词向量进行相似度计算;
确定单元,用于根据每条召回语句的相似度计算结果,确定所述多条召回语句的排序结果并输出。
10.根据权利要求8所述的搜索排序装置,其特征在于,还包括:
获取模块,用于获取原始运维知识文档;
存储模块,用于将所述原始运维知识文档中的多条运维知识语句,存储在所述预设的运维知识库中;
所述召回语句为根据召回算法从所述预设的运维知识库中获得的与所述目标搜索语句对应的运维知识语句。
11.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7任一项所述的搜索排序方法。
12.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述指令被执行时实现权利要求1至7任一项所述的搜索排序方法。
CN202111431480.3A 2021-11-29 2021-11-29 搜索排序方法及装置 Pending CN114064929A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111431480.3A CN114064929A (zh) 2021-11-29 2021-11-29 搜索排序方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111431480.3A CN114064929A (zh) 2021-11-29 2021-11-29 搜索排序方法及装置

Publications (1)

Publication Number Publication Date
CN114064929A true CN114064929A (zh) 2022-02-18

Family

ID=80277049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111431480.3A Pending CN114064929A (zh) 2021-11-29 2021-11-29 搜索排序方法及装置

Country Status (1)

Country Link
CN (1) CN114064929A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115344680A (zh) * 2022-08-17 2022-11-15 中电金信软件有限公司 一种获取查询结果的方法及装置
CN117633208A (zh) * 2024-01-26 2024-03-01 北京网藤科技有限公司 一种基于倒数排序的知识召回融合方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115344680A (zh) * 2022-08-17 2022-11-15 中电金信软件有限公司 一种获取查询结果的方法及装置
CN117633208A (zh) * 2024-01-26 2024-03-01 北京网藤科技有限公司 一种基于倒数排序的知识召回融合方法及系统

Similar Documents

Publication Publication Date Title
US10210243B2 (en) Method and system for enhanced query term suggestion
CN104899322A (zh) 搜索引擎及其实现方法
CN114329201B (zh) 深度学习模型的训练方法、内容推荐方法和装置
CN114064929A (zh) 搜索排序方法及装置
CN113326420B (zh) 问题检索方法、装置、电子设备和介质
CN114861889B (zh) 深度学习模型的训练方法、目标对象检测方法和装置
CN111767394A (zh) 一种基于人工智能专家系统的摘要提取方法及装置
CN112035549A (zh) 数据挖掘方法、装置、计算机设备及存储介质
US20180285742A1 (en) Learning method, learning apparatus, and storage medium
JP2014215685A (ja) レコメンドサーバおよびレコメンドコンテンツ決定方法
CN111078849A (zh) 用于输出信息的方法和装置
CN113919424A (zh) 文本处理模型的训练、文本处理方法、装置、设备和介质
CN112579729A (zh) 文档质量评价模型的训练方法、装置、电子设备和介质
CN114398883B (zh) 演示文稿生成方法、装置、计算机可读存储介质及服务器
CN116383340A (zh) 信息搜索方法、装置、电子设备和存储介质
CN114782716A (zh) 图像匹配方法及装置
CN115080039A (zh) 前端代码生成方法、装置、计算机设备、存储介质和产品
CN114817734A (zh) 推荐模型的训练方法、推荐方法和装置、电子设备及介质
CN114048315A (zh) 确定文档标签的方法、装置、电子设备和存储介质
CN112148865B (zh) 信息推送方法和装置
CN112926295A (zh) 模型推荐方法和装置
CN110931014A (zh) 基于正则匹配规则的语音识别方法及装置
KR102650634B1 (ko) 워드 클라우드를 이용한 해시태그 추천 방법 및 장치
CN114064859A (zh) 知识抽取方法、装置、设备、介质和程序产品
CN114661889A (zh) 审计程序数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination