CN110442614A - 元数据的搜索方法及装置、电子设备、存储介质 - Google Patents
元数据的搜索方法及装置、电子设备、存储介质 Download PDFInfo
- Publication number
- CN110442614A CN110442614A CN201910625973.7A CN201910625973A CN110442614A CN 110442614 A CN110442614 A CN 110442614A CN 201910625973 A CN201910625973 A CN 201910625973A CN 110442614 A CN110442614 A CN 110442614A
- Authority
- CN
- China
- Prior art keywords
- metadata
- search result
- search
- server
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24573—Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请揭示了一种元数据的搜索方法及装置,涉及大数据技术领域。在本申请中,服务器接收元数据搜索请求后,分别使用预置的多种搜索算法对元数据搜索请求中的搜索关键进行元数据搜索,很大程度上提高了搜索结果的全面性。并且,服务器在获得搜索结果后,先按照目标元数据的来源价值、目标元数据与搜索关键词的关联信息相关性以及目标元数据与业务数据搜索请求上下文的匹配程度对每一搜索结果进行评分,然后根据客户端的搜索意图以及目标元数据与业务系统所存储其他元数据之间的关联性对每一搜索结果的分值进行修正,极大程度上提升了搜索结果的准确性。
Description
技术领域
本申请涉及大数据技术领域,特别涉及一种元数据的搜索方法及装置、电子设备、计算机可读存储介质。
背景技术
随着信息技术的高速发展,越来越多的业务应用需要存储系统的支持。存储系统除了能够支持业务数据的存储之外,还需要支持业务数据的搜索,以满足日常的业务需求。
用户在进行业务数据的搜索中,往往对搜索结果的准确性和全面性要求较高,搜索结果的准确性能够影响用户的业务判断,搜索结果的全面性能够影响用户的业务布局。因此,如何实现业务数据搜索的准确性和全面性是亟待解决的技术问题。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
基于上述技术问题,本申请提供了一种元数据的搜索方法及装置、电子设备、计算机可读存储介质。
本申请所揭示的技术方案包括:
一种元数据的搜索方法,包括:服务器通过统一接入点接收客户端发起的元数据搜索请求;根据所述元数据搜索请求中的搜索关键词,分别使用预置的若干搜索算法在所述服务器中进行元数据搜索,将搜索得到的每一目标元数据获取为相应的搜索结果;按照所述目标元数据的来源价值、所述目标元数据与所述搜索关键词的关联信息相关性以及所述目标元数据与元数据搜索请求上下文的匹配程度对每一所述搜索结果评分;根据所述客户端的搜索意图以及所述目标元数据与所述服务器所存储其他元数据之间的关联性,对每一所述搜索结果的分值进行修正,获得每一所述搜索结果的结果分值;对全部的所述搜索结果去重,且将剩余的所述搜索结果按照所述结果分值降序排列且返回至所述客户端。
在一个示例性实施例中,所述服务器中预置的搜索算法可以包括精确匹配算法、模糊匹配算法、关键字匹配算法和关键字分词后匹配算法中的若干种。
在一个示例性实施例中,所述按照所述目标元数据的来源价值、所述目标元数据与所述搜索关键词的关联信息相关性以及所述目标元数据与元数据搜索请求上下文的匹配程度对每一所述搜索结果评分,包括:获取所述服务器所配置的混合机器学习模型,所述混合机器学习模型中包括第一机器学习模型、第二机器学习模型和第三机器学习模型,所述第一机器学习模型用于按照所述目标元数据的来源价值对所述搜索结果评分,所述第二机器学习模型用于按照所述目标元数据与所述搜索关键词的关联信息相关性对所述搜索结果评分,所述第三机器学习模型用于按照所述目标元数据与元数据搜索请求上下文的匹配程度对所述搜索结果评分;通过将每一所述搜索结果和所述搜索关键词输入所述混合机器学习模型中,获得所述搜索结果对应的分值。
在一个示例性实施例中,所述根据所述客户端的搜索意图对每一所述搜索结果的分值进行修正,包括:所述服务器通过对所述客户端所对应登录用户的身份信息以及所述登录用户在所述服务器中留下的搜索历史进行分析,获得所述客户端的搜索意图;获取每一所述搜索结果与所述客户端的搜索意图之间的相关性;在所述相关性大于预设的相关性阈值时,所述服务器向上修正所述搜索结果的分值,且在所述相关性小于所述相关性阈值时,所述服务器向下修正所述搜索结果的分值。
在一个示例性实施例中,所述对全部的所述搜索结果去重,包括:从全部的所述结果中获取重复的搜索结果,以及获取重复的搜索结果所对应结果分值;通过对所述结果分值迭代进行平均值计算,获得平均分值;将结果分值最接近于所述平均分值的搜索结果保留在所述服务器中,并去除其他重复的搜索结果。
在一个示例性实施例中,在所述服务器通过统一接入点接收客户端发起的元数据搜索请求之前,所述方法还包括:所述服务器从指定网络下的若干数据库系统中采集元数据,以使所述元数据在所述服务器中汇总;根据所述元数据的数据来源和所述服务器对历史元数据的分析结果,对收集的所述元数据进行分析,且根据获得的分析结果对所述元数据打上相应标签;通过对所收集每一元数据的结构处理,获取所述元数据之间的关联信息;根据收集的所述元数据、所述元数据的相应标签以及所述元数据之间的关联信息,构建所述元数据的半结构化数据模型,所述半结构化数据模型存储于所述服务器中,用于实现所述元数据的搜索。
一种元数据的搜索装置,包括:搜索请求获取模块,用于控制服务器通过统一接入点接收客户端发起的元数据搜索请求;搜索结果获取模块,用于根据所述元数据搜索请求中的搜索关键词,分别使用预置的若干搜索算法在所述服务器中进行元数据搜索,将搜索得到的每一目标元数据获取为相应的搜索结果;搜索结果评分模块,用于按照所述目标元数据的来源价值、所述目标元数据与所述搜索关键词的关联信息相关性以及所述目标元数据与元数据搜索请求上下文的匹配程度对每一所述搜索结果评分;分值修正模块,用于根据所述客户端的搜索意图以及所述目标元数据与所述服务器所存储其他元数据之间的关联性,对每一所述搜索结果的分值进行修正,获得每一所述搜索结果的结果分值;搜索结果返回模块,用于对全部的所述搜索结果去重,且将剩余的所述搜索结果按照所述结果分值降序排列且返回至所述客户端。
一种电子设备,所述电子设备包括:
处理器;
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如前任一项所述的元数据的搜索方法。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如前任一项所述的元数据的搜索方法。
本申请实施例提供的技术方案可以包括以下有益效果:
在上述技术方案中,服务器接收元数据搜索请求后,分别使用预置的多种搜索算法对元数据搜索请求中的搜索关键进行元数据搜索,很大程度上提高了搜索结果的全面性。
在获得搜索结果后,先按照目标元数据的来源价值、目标元数据与搜索关键词的关联信息相关性以及目标元数据与业务数据搜索请求上下文的匹配程度对每一搜索结果进行评分,然后根据客户端的搜索意图以及目标元数据与业务系统所存储其他元数据之间的关联性对每一搜索结果的分值进行修正,极大程度上提升了搜索结果的准确性。
此外,在对搜索结果去重后,通过将剩余的搜索结果按照结果分值降序排列并返回至客户端,便于用户从客户端准确获取元数据的搜索结果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并于说明书一起用于解释本申请的原理。
图1是本申请所涉及的一种实施环境的示例图;
图2是根据一示例性实施例所示出的一种元数据的搜索方法的流程图;
图3是根据另一示例性实施例所示出的一种元数据的搜索方法的流程图;
图4是根据一示例性实施例所示出的一种元数据的搜索装置的框图;
图5是根据一示例性实施例所示出的一种电子设备的硬件框图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述,这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
图1是根据以示例性实施例示出的一种本申请所涉及实施环境的示意图。在一示例性的实施例中,如图1所示,本申请的实施环境包括:终端100和服务器200。
在本申请中,服务器200用于运行元数据存储系统,该元数据存储系统是用于实现元数据存储和搜索的存储系统。在一个实施例中,该元数据存储系统为一半结构化的数据模型。服务器200可以是一单独的服务器,还可以是由若干服务器构成的服务器集群,本处不进行限制。
终端100中运行有元数据搜索客户端,该元数据搜索客户端用于提供用户交互界面,以供用户输入相关元数据的搜索信息,并获取相应搜索结果。终端100具体可以是智能手机、平板电脑、笔记本电脑、计算机或者其他可加载前端运维页面的电子设备,在此不加以限定。终端100的数量可以是任意的(图1中仅示出1个)。
此外,终端100中所运行元数据搜索客户端可以是应用程序客户端(APP),还可以是网页客户端,在此也不加以限定。
图2是根据一示例性实施例所示出的一种元数据的搜索方法的流程图,该实施环境适用于图1所示实施环境中的服务器200。如图2所示,该方法至少包括以下步骤:
步骤210,服务器通过统一接入点接收客户端发起的元数据搜索请求。
如前所述,客户端是指运行于终端中的元数据搜索客户端。客户端提供有用户交互界面,以供登录用户通过用户交互界面进行元数据的搜索以及搜索结果的相应获取。其中,登录用户是指,在客户端中登录个人信息以进行元数据搜索的用户。客户端可以是应用程序客户端,还可以是网页客户端,本处不进行限定。
统一接入点是服务器所设置的与客户端进行交互的入口,服务器通过统一接入点接收若干客户端发送的元数据搜索请求,并将搜索结果通过统一接入点返回至客户端。统一接入点的具体形式与服务器的架构样式相关。在一个实施例中,服务器采用RESTful(Representational State Transfer)架构,统一接入点则设置为RESTful接口。
元数据是用于提供某种资源的相关信息的结果数据,是描述其他数据的数据,元数据的使用便于进行资源的识别、评价、追踪和查找,也便于对资源使用进行有效管理。
在一个实施例中,元数据搜索请求包括搜索关键词、登录用户的身份特征等信息。其中,搜索关键词可以是登录用户直接输入的,还可以是客户端通过对用户输入信息进行关键词提取后得到,本处不进行限制。登录用户的身份特征可以包括账号密码信息,还可以包括登录用户的身份信息等,本处仍不进行限制。
步骤220,根据元数据搜索请求中的搜索关键词,分别使用预置的若干搜索算法在服务器中进行元数据搜索,将搜索得到的每一目标元数据获取为相应的搜索结果。
其中,服务器中预置的搜索算法可以包括精确匹配算法、模糊匹配算法、关键字匹配算法和关键字分词后匹配算法中的若干种,本处不进行限定。
示例性的,服务器通过精确匹配算法进行搜索关键词的搜索时,通过精确搜索服务器中是否存在于搜索关键词相匹配的字段,得到相应搜索结果。例如,当服务器中存在相匹配的字段时,服务器获取该字段所对应元数据为搜索结果;而当服务器不存在相匹配的字段时,获取的搜索结果为未搜索到元数据。
同理,在对搜索关键词进行模糊匹配时,使用预置的模糊匹配算法搜索服务器中是否存在与搜索关键词相匹配的字段,并得到相应搜索结果。应当说明的是,使用其他预置的搜索算法在服务器中进行元数据搜索的过程同理,本处不进行赘述。另外,这些搜索算法均为本领域常用的搜索方式,这些搜索算法的工作原理和过程本处也不进行赘述。
在一个实施例中,针对元数据搜索请求中的搜索关键词,使用不同搜索算法在服务器中进行元数据搜索的顺序是预先设置的。例如,可通过在服务器中预置一列表,服务器按照列表中配置的搜索算法使用顺序,分别使用不同搜索算法针对搜索关键词在服务器中进行元数据搜索。
在另外的实施例中,使用不同的搜索算法对搜索关键词在服务器中进行的元数据搜索是同时进行的。例如,分别设置不同线程,以使不同线程根据对应分配的搜索算法来以执行搜索关键词在服务器中的元数据搜索。
此外在一个示例性的实施例中,服务器还设置有搜索结果集,该搜索结果集在服务器上可体现为存储器中的某一内存块,用于存放服务器采用不同搜索算法对搜索关键词进行元数据搜索得到的搜索结果。其中,搜索结果也称为搜索得到的目标元数据。
步骤230,按照目标元数据的来源价值、目标数据与搜索关键词的关联信息相关性以及目标元数据与元数据搜索请求上下文的匹配程度对每一搜索结果评分。
其中,服务器对每一搜索结果评分是指,服务器对每一搜索结果与登录用户的搜索需求之间的匹配度进行评估。评分越高,则表示搜索结果越与用户的搜索需求相对应,该搜索结果也更可能是用户期望的搜索结果。
服务器在进行元数据采集时,会从不同的数据库系统中采集相关元数据,不同的数据库系统可以分别应用于不同的应用场景,以使这些元数据在服务器中进行汇总。因此,目标元数据的来源是指目标元数据所对应的数据库系统。
由于元数据的各个来源的数据质量不一,业务系统在采集元数据时,会针对元数据的来源对元数据进行价值评估。例如,某些数据库系统中存储的数据是比较重要的,服务器在针对这些数据进行相关元数据的采集时,会赋予这些元数据较大的价值。因此在服务器中,不同的元数据分别对应不同的来源价值。如果目标元数据的来源价值较高,该目标元数据是用户期望的搜索结果的可能性也越大,该目标元数据的分值也越高。
目标元数据与搜索关键词的关联信息是指:在获得的目标元数据中,可能含有若干个字段与搜索关键词相匹配,那么这些字段之间的关联信息可以在一定程度上反映搜索结果的准确度。例如,如果目标元数据中的各个字段之间的相关性越大,表示目标元数据与搜索关键词的综合匹配程度越高,目标元数据是用户期望的搜索结果的可能性也越大,目标元数据的分值也越高。
目标元数据与元数据搜索请求上下文的匹配程度用于表征搜索结果与搜索请求之间的对应程度,其中,元数据搜索请求上下文是登录用户所输入的全部信息,其中包括搜索关键词。目标元数据与元数据搜索请求上下文的匹配程度越高,该目标元数据是用户期望的搜索结果的可能性也越大,该目标元数据的分值也越高。
在一个实施例中,对每一搜索结果评分是通过训练好的机器学习模型来实现的。在机器学习模型中,分别是根据目标元数据的来源价值、目标元数据与搜索关键词的关联信息相关性、以及目标元数据与元数据搜索请求上下文的匹配程度来训练得到的。在执行搜索结果的评分时,只需将搜索结果和搜索关键词输入机器学习模型中即可。
在另一个实施例中,可以针对目标元数据的来源价值对搜索结果的评分设置第一机器学习模型,该第一机器学习模型根据目标元数据的来源价值对搜索结果进行评分的效果较好;还针对目标元数据与搜索关键词的关联信息相关性对搜索结果的评分设置第二机器学习模型,该第二机器学习模型根据目标元数据与搜索关键词的关联信息相关性对搜索结果进行评分的效果较好;并且针对目标元数据与业务数据搜索请求上下文的匹配程度设置第三机器学习模型,该第三机器学习模型根据目标元数据与业务数据搜索请求上下文的匹配程度对搜索结果进行评分的效果较好。其中,每一机器学习模型均是根据相关数据预先训练得到的。
然后,采用集成学习决策方法将多个机器学习模型集成为一个混合机器学习模型。通过将搜索结果和搜索关键词输入混合机器学习模型中,可直接得到搜索结果的分值。
在其他的实施例中,针对每一搜索结果,在通过所设置的每一机器学习模型获得各自对应的分值后,还可以通过对这些分值进行相关计算,最终获得每一搜索结果的分值。例如,可针对不同相关因素对搜索结果的评分的影响程度预先为每一机器学习模型设置权重,在分别获取每一机器学习模型各自输出的分值后,通过计算这些分值的权重和获得搜索结果的分值。
步骤240,根据客户端的搜索意图以及目标元数据与业务所存储其他元数据之间的关联性,对每一搜索结果的分值进行修正,分别获得每一搜索结果的结果分值。
其中,为了进一步保证每一搜索结果评分的准确性,还需对每一搜索结果的分值进行修正,将修正所得的分值作为每一搜索结果的结果分值。由结果分值表征搜索结果的最终评分。
客户端的搜索意图是指登录用户的搜索意图,是服务器在接收元数据查询请求之后分析得到的。示例性的,对登录用户的搜索意图分析可以包括以下方式若干种:
第一:在服务器中,会掌握一些登录用户的身份信息,例如登录用户的职业背景、所属部门情况等。根据元数据之间的关联关系,可以得到登录用户更倾向于获取怎样的元数据,从而对登录用户的搜索意图进行预判断。
第二:如果登录用户不是首次使用服务器进行元数据搜索,该登录用户必然在服务器中留有搜索历史。因此,服务器可以通过定期分析登录用户的搜索历史,根据这些搜索历史来判断登录用户本次想要搜索的元数据。
第三:登录用户可能近期在服务器中进行多次元数据搜索,登录用户近期的搜索结果也可以能本次的搜索意图相关,因此,可预设服务器对登录用户在指定时间段内产生的搜索历史进行分析,进而根据这些搜索历史来判断登录用户本次想要搜索的元数据。
第四:还可以对登录用户的搜索历史进行交叉分析,例如,通过协同过滤的方式获取登录用户进行每次搜索的共性。
由于服务器分析得到了登录用户的职业背景、查询历史等信息,服务器在获得每一搜索结果的分值后,可以根据这些分析结果与本次搜索获得的搜索结果之间的相关性进行分值修正。示例性的,如果某一搜索结果与登录用户的搜索意图的相关性较大,则向上修正分值;反之,如果相关性较小,则向下修正分值。
在一个实施例中,可设置一相关性阈值,当搜索结果与登录用户的搜索意图的相关性达到该相关性阈值时,向上修正分值;反之则向下修正分值。另外,还可针对搜索结果与登录用户的搜索意图的相关性与该相关性阈值之间的差值来确定向上或者向下修正分值的程度。差值越大,对分值进行向上或者向下修正的力度也就越大。
服务器所存储其他元数据之间关联性是指,目标元数据与服务器内的其他元数据之间也存在关联,其他元数据可以在一定程度上反映目标元数据的准确度,因此可以根据目标元数据与其他元数据之间的相关性来进行分值修正。例如,如果目标元数据与服务器中其他元数据之间的相关性较大,该目标元数据很有可能是服务器中的重要元数据,很大程度上与登录用户期望的搜索结果相匹配。
以上分值修正方法也预先设置在业务系统中,与步骤230同理,以上分值修正方式可以是由训练好的机器学习模型实现的,或者通过指定算法实现,本处不进行赘述。
步骤250,对全部的搜索结果去重,且将剩余的搜索结果按照结果分值降序排列,且将降序排列的搜索结果返回至客户端。
其中,由于针对不同搜索算法对搜索关键词在服务器中进行元数据搜索得到的若干搜索结果中,搜索结果重合的可能性较大。为了避免向客户端返回重复的搜索结果,需要对搜索结果去重。
示例性的,对于重复的搜索结果,考虑到结果分值的大小会影响客户端对搜索结果的展示顺序的影响,可以保留结果分值最高的搜索结果,直接将其他搜索结果去除。
或者,可以对重复的搜索结果的结果分值进行平均值计算,获得平均分值,且保留结果分值最接近于平均分值的搜索结果,将其他搜索结果去除。相对于直接保留结果分值最大的搜索结果,这样可以避免由于所进行的分值修正偏差而导致的最终保留下来的搜索结果的准确性。
在另一个实施例中,还可以通过对重复的搜索结果的结果分值迭代进行平均值计算,以获得平均分值。例如,假设重复的搜索结果为4个,搜索结果对应的结果分值分别为A、B、C、D,可先计算这4个结果分值的平均值m1,然后将结果分值大于m1的搜索结果分为一类,将小于m1的搜索结果分为一类,并分别为同一类别下的结果分值计算平均值,可分别设为m2和m3,最后再对m2和m3进行平均值计算,将计算结果作为最终的平均分值。这样可以最大程度地避免由于所进行的分值修正偏差而导致的最终保留下来的搜索结果的准确性。
在对搜索结果去重后,将剩余的搜索结果按照分值降序排序,并将降序排列的搜索结果返回至客户端。客户端则对接收的搜索结果按照分值降序排列展示,便于登录用户从客户端准确获取搜索结果。
因此,在本实施例中,服务器接收元数据搜索请求后,分别使用预置的多种搜索算法对元数据搜索请求中的搜索关键进行元数据搜索,很大程度上提高了搜索结果的全面性。
在获得搜索结果后,先按照目标元数据的来源价值、目标元数据与搜索关键词的关联信息相关性以及目标元数据与业务数据搜索请求上下文的匹配程度对每一搜索结果进行评分,然后根据客户端的搜索意图以及目标元数据与业务系统所存储其他元数据之间的关联性对每一搜索结果的分值进行修正,极大程度上提升了搜索结果的准确性。
在一个示例性的应用场景中,服务器被配置为一业务系统,客户端相应为业务数据搜索客户端,登录用户通过业务数据搜索客户端所提供的用户交互界面进行业务数据的搜索。
由于庞大的业务数据不便于进行数据存储和管理,在本应用场景中,业务数据是以元数据的形式存储在业务系统中。其中,元数据是用于提供业务数据的有关信息的结构数据,也是描述业务数据的数据。通过使用元数据,能够便于进行业务数据的有效管理。
业务系统在接收到业务数据搜索客户端发起的业务数据搜索请求后,先根据预置的多种搜索算法,对业务数据搜索请求所包含的搜索关键词进行元数据搜索,获得若干目标元数据作为相应的搜索结果。
然后,业务系统按照目标元数据的来源价值、目标元数据与搜索关键词的关联信息相关性、以及目标元数据与业务数据搜索请求上下文的匹配程度对每一目标元数据进行评分。每一目标元数据的分值表示了对应搜索结果与登录用户的搜索需求之间的匹配度。
业务系统还根据登录用户的搜索意图、以及目标元数据与业务系统所存储其他元数据之间的关联性,对每一目标元数据的分值进行修正,获得每一搜索结果的结果分值。结果分值为搜索结果的最终分值。
最后,业务系统在对搜索结果去重后,将剩余的搜索结果按照结果分值降序排列并返回至业务数据搜索客户端,由业务数据搜索客户端进行搜索结果的展示。
在本应用场景中,由于业务数据搜索客户端展示的搜索结果是很多的,能够保证搜索得到的业务数据的全面性。并且,由于每一搜索结果的结果分值是经过修正得到的,每一搜索结果的结果分值能否准确反映搜索结果与登录用户的搜索需求之间的匹配程度,加上业务数据搜索客户端对搜索结果的展示顺序是根据相应结果分值来执行的,使得登录用户不仅能够准确地获得每一搜索结果,还能够按照搜索结果与登录用户的搜索需求之间的匹配程度对搜索结果进行选择性地查看,十分方便。
在另一示例性的实施例中,对查询结果的去重可以是在对每一查询结果评分之前进行的。服务器在根据预置的不同搜索算法搜索得到相关搜索结果后,先进行搜索结果的去重,所保留下来的搜索结果则是最早搜索得到。
图3是根据另一示例性的实施例所示出的一种元数据的搜索方法。如图3所示,在步骤210之前,该方法还可以包括以下步骤:
步骤310,服务器从指定网络下的若干数据库系统中采集元数据,以使元数据在服务器中汇总。
其中,指定网络是指,若干存储有业务数据的数据库系统所处的同一网络。例如对一个公司来说,指定网络可以是本地局域网络,不同的数据库系统可以存储有不同类型的业务数据。
仍对一个公司来说,所涉及业务的类型是多样的,通过从公司所涵盖的全部数据库系统中收集有利于搜索业务数据的元数据,以对整个公司所涉及的业务数据进行汇总。
步骤320,根据元数据的数据来源和服务器对历史元数据的分析结果,对收集的元数据进行分析,且根据获得的分析结果对元数据打上相应标签。
其中,元数据中描述有某些来源特征,例如元数据来源的数据库系统,元数据来源的数据库系统在指定网络中的所属范围等。通过对每一元数据进行这些来源特征的分析,根据分析结果为元数据打上相应标签。
其中,由于数据库系统中存储的数据是不断更新的,因此服务器中的元数据也是不断更新的。服务器在历史搜索场景中,可能会使用到这些历史元数据,因此可以通过对历史元数据的使用情况进行分析,基于对历史元数据的分析结果为收集的元数据打上相应标签。
在本实施例中,这些元数据的标签相应使用于对于服务器对搜索结果的评分以及对搜索结果的分值修正。
步骤330,通过对所收集每一元数据的结构处理,获取元数据之间的关联信息。
其中,由于在不同的元数据之间,可能表示一些相同或者相近似的内容,通过对元数据中的这些内容进行分析,可以将不同的元数据关联起来,从而获得元数据之间的关联信息。
示例性的,例如某些表示相似内容的数据在不同数据库系统中均有记录,只是记录的粒度或者其他方面不同,因此可以将这些数据的元数据建立关联关系,而这些关联关系可以应用于服务器对搜索结果的分值修正。
步骤340,根据收集的元数据、元数据的相应标签以及元数据之间的关联信息,构建元数据的半结构化数据模型。
其中,在所构建元数据的半结构化数据模型中,包括了元数据的一些通用要素,例如元数据名称、类型、基本信息等,并且,通过在半结构化数据模型中新增扩展部分,以在扩展部分存储一些特殊结构的元数据要素。该半结构化数据模型存储于服务器中,便于进行所存储元数据的搜索。
图4是根据一示例性实施例示出的一种元数据搜索的装置的框图。如图4所示,该装置包括搜索请求获取模块410、搜索结果获取模块420、搜索结果评分模块430、分值修正模块440和搜索结果返回模块450。
搜索请求获取模块410用于控制服务器通过统一接入点接收客户端发起的元数据搜索请求。
搜索结果获取模块420用于根据元数据搜索请求中的搜索关键词,分别使用预置的若干搜索算法在服务器中进行元数据搜索,将搜索得到的每一目标元数据获取为相应的搜索结果。
搜索结果评分模块430用于按照目标元数据的来源价值、目标元数据与搜索关键词的关联信息相关性、以及目标元数据与元数据搜索请求上下文的匹配程度对每一搜索结果评分;
分值修正模块440用于根据客户端的搜索意图以及目标元数据与所述服务器所存储其他元数据之间的关联性,对每一搜索结果的分值进行修正,获得每一搜索结果的结果分值。
搜索结果返回模块450用于对全部的搜索结果去重,且将剩余的搜索结果按照所述结果分值降序排列且返回至客户端。
在另一示例性的实施例中,搜索结果评分模块430包括机器学习模型获取单元和分值获取单元。
机器学习模型获取单元用于获取服务器所配置的混合机器学习模型,混合机器学习模型中包括第一机器学习模型、第二机器学习模型和第三机器学习模型,第一机器学习模型用于按照目标元数据的来源价值对搜索结果评分,第二机器学习模型用于按照目标元数据与搜索关键词的关联信息相关性对搜索结果评分,第三机器学习模型用于按照目标元数据与元数据搜索请求上下文的匹配程度对搜索结果评分。
分值获取单元用于通过将每一搜索结果和搜索关键词输入混合机器学习模型中,获得搜索结果对应的分值。
在另一示例性的实施例中,分值修正模块440包括搜索意图获取单元、相关性获取单元和分值修正单元。
搜索意图获取单元用于控制服务器通过对客户端所对应登录用户的身份信息以及登录用户在服务器中留下的搜索历史进行分析,获得客户端的搜索意图。
相关性获取单元用于获取每一搜索结果与客户端的搜索意图之间的相关性。
分值修正单元用于在相关性大于预设的相关性阈值时,控制服务器向上修正搜索结果的分值,且在相关性小于相关性阈值时,控制服务器向下修正搜索结果的分值。
在另一示例性的实施例中,搜索结果返回模块450包括重复信息获取单元、分值计算单元和搜索结果去重单元。
重复信息获取单元用于从全部的结果中获取重复的搜索结果,以及获取重复的搜索结果所对应结果分值。
分值计算单元用于通过对结果分值迭代进行平均值计算,获得平均分值。
搜索结果去重单元用于将结果分值最接近于平均分值的搜索结果保留在所述服务器中,并去除其他重复的搜索结果。
在另一示例性的实施例中,该装置还包括元数据收集模块、元数据标签模块、关联信息获取模块和数据模型构建模块。
元数据收集模块用于控制服务器从指定网络下的若干数据库系统中采集元数据,以使元数据在服务器中汇总。
元数据标签模块用于根据元数据的数据来源和服务器对历史元数据的分析结果,对收集的元数据进行分析,且根据获得的分析结果对元数据打上相应标签。
关联信息获取模块用于通过对所收集每一元数据的结构处理,获取元数据之间的关联信息。
数据模型构建模块用于根据收集的元数据、元数据的相应标签以及元数据之间的关联信息构建元数据的半结构化数据模型,半结构化数据模型存储于服务器中,用于实现元数据的搜索。
需要说明的是,上述实施例所提供的装置与上述实施例所提供的方法属于同一构思,其中各个模块执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。
在一示例性实施例中,本申请还提供一种电子设备,该电子设备包括:
处理器;
存储器,该存储器上存储有计算机可读指令,该计算机可读指令被处理器执行时,实现如前所述的元数据的搜索方法。
图5是根据一示例性实施例所示出的一种电子设备的硬件框图。该电子设备可以被具体实现为图1所示实施环境中的服务器200。
需要说明的是,该电子设备只是一个适配于本申请的示例,不能认为是提供了对本申请的使用范围的任何限制。该电子设备也不能解释为需要依赖于或者必须具有图5中示出的示例性的电子设备中的一个或者多个组件。
该电子设备的硬件结构可因配置或者性能的不同而产生较大的差异,如图5所示,电子设备包括:电源510、接口530、至少一存储器550、以及至少一中央处理器570。
其中,电源510用于为电子设备上的各硬件设备提供工作电压。
接口530包括至少一有线或无线网络接口531、至少一串并转换接口533、至少一输入输出接口535以及至少一USB接口537等,用于与外部设备通信。
存储器550作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源包括操作系统551、应用程序553或者数据555等,存储方式可以是短暂存储或者永久存储。其中,操作系统551用于管理与控制电子设备上的各硬件设备以及应用程序553,以实现中央处理器570对海量数据555的计算与处理。应用程序553是基于操作系统551之上完成至少一项特定工作的计算机程序,其可以包括至少一模块,每个模块都可以分别包含有对电子设备的一系列计算机可读指令。数据555可以是存储于磁盘中的接口元数据等。
中央处理器570可以包括一个或多个以上的处理器,并设置为通过总线与存储器550通信,用于运算与处理存储器550中的海量数据555。
如上面所详细描述的,适用本申请的电子设备将通过中央处理器570读取存储器550中存储的一系列计算机可读指令的形式来完成元数据的搜索方法。
此外,通过硬件电路或者硬件电路结合软件指令也能同样实现本申请,因此,实现本申请并不限于任何特定硬件电路、软件以及两者的组合。
在一示例性实施例中,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如前所述的元数据的搜索方法。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围执行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (10)
1.一种元数据的搜索方法,其特征在于,所述方法包括:
服务器通过统一接入点接收客户端发起的元数据搜索请求;
根据所述元数据搜索请求中的搜索关键词,分别使用预置的若干搜索算法在所述服务器中进行元数据搜索,将搜索得到的每一目标元数据获取为相应的搜索结果;
按照所述目标元数据的来源价值、所述目标元数据与所述搜索关键词的关联信息相关性以及所述目标元数据与元数据搜索请求上下文的匹配程度对每一所述搜索结果评分;
根据所述客户端的搜索意图以及所述目标元数据与所述服务器所存储其他元数据之间的关联性,对每一所述搜索结果的分值进行修正,获得每一所述搜索结果的结果分值;
在对所述搜索结果去重后,将剩余的所述搜索结果按照所述结果分值降序排列且返回至所述客户端。
2.根据权利要求1所述的方法,其特征在于,所述服务器中预置的搜索算法可以包括精确匹配算法、模糊匹配算法、关键字匹配算法和关键字分词后匹配算法中的若干种。
3.根据权利要求1所述的方法,其特征在于,所述按照所述目标元数据的来源价值、所述目标元数据与所述搜索关键词的关联信息相关性以及所述目标元数据与元数据搜索请求上下文的匹配程度对每一所述搜索结果评分,包括:
获取所述服务器所配置的混合机器学习模型,所述混合机器学习模型中包括第一机器学习模型、第二机器学习模型和第三机器学习模型,所述第一机器学习模型用于按照所述目标元数据的来源价值对所述搜索结果评分,所述第二机器学习模型用于按照所述目标元数据与所述搜索关键词的关联信息相关性对所述搜索结果评分,所述第三机器学习模型用于按照所述目标元数据与元数据搜索请求上下文的匹配程度对所述搜索结果评分;
通过将每一所述搜索结果和所述搜索关键词输入所述混合机器学习模型中,获得所述搜索结果对应的分值。
4.根据权利要求1所述的方法,其特征在于,所述根据所述客户端的搜索意图对每一所述搜索结果的分值进行修正,包括:
所述服务器通过对所述客户端所对应登录用户的身份信息以及所述登录用户在所述服务器中留下的搜索历史进行分析,获得所述客户端的搜索意图;
获取每一所述搜索结果与所述客户端的搜索意图之间的相关性;
在所述相关性大于预设的相关性阈值时,所述服务器向上修正所述搜索结果的分值,且在所述相关性小于所述相关性阈值时,所述服务器向下修正所述搜索结果的分值。
5.根据权利要求1所述的方法,其特征在于,所述对全部的所述搜索结果去重,包括:
从全部的所述结果中获取重复的搜索结果,以及获取重复的搜索结果所对应结果分值;
通过对所述结果分值迭代进行平均值计算,获得平均分值;
将结果分值最接近于所述平均分值的搜索结果保留在所述服务器中,并去除其他重复的搜索结果。
6.根据权利要求1所述的方法,其特征在于,在所述服务器通过统一接入点接收客户端发起的元数据搜索请求之前,所述方法还包括:
所述服务器从指定网络下的若干数据库系统中采集元数据,以使所述元数据在所述服务器中汇总;
根据所述元数据的数据来源和所述服务器对历史元数据的分析结果,对收集的所述元数据进行分析,且根据获得的分析结果对所述元数据打上相应标签;
通过对所收集每一元数据的结构处理,获取所述元数据之间的关联信息;
根据收集的所述元数据、所述元数据的相应标签以及所述元数据之间的关联信息,构建所述元数据的半结构化数据模型,所述半结构化数据模型存储于所述服务器中,用于实现所述元数据的搜索。
7.一种元数据的搜索装置,其特征在于,包括:
搜索请求获取模块,用于控制服务器通过统一接入点接收客户端发起的元数据搜索请求;
搜索结果获取模块,用于根据所述元数据搜索请求中的搜索关键词,分别使用预置的若干搜索算法在所述服务器中进行元数据搜索,将搜索得到的每一目标元数据获取为相应的搜索结果;
搜索结果评分模块,用于按照所述目标元数据的来源价值、所述目标元数据与所述搜索关键词的关联信息相关性以及所述目标元数据与元数据搜索请求上下文的匹配程度对每一所述搜索结果评分;
分值修正模块,用于根据所述客户端的搜索意图以及所述目标元数据与所述服务器所存储其他元数据之间的关联性,对每一所述搜索结果的分值进行修正,获得每一所述搜索结果的结果分值;
搜索结果返回模块,用于对全部的所述搜索结果去重,且将剩余的所述搜索结果按照所述结果分值降序排列且返回至所述客户端。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
元数据收集模块,用于控制所述服务器从指定网络下的若干数据库系统中采集元数据,以使所述元数据在所述服务器中汇总;
元数据标签模块,用于根据所述元数据的数据来源和所述服务器对历史元数据的分析结果,对收集的所述元数据进行分析,且根据获得的分析结果对所述元数据打上相应标签;
关联信息获取模块,用于通过对所收集每一元数据的结构处理,获取所述元数据之间的关联信息;
数据模型构建模块,用于根据收集的所述元数据、所述元数据的相应标签以及所述元数据之间的关联信息,构建所述元数据的半结构化数据模型,所述半结构化数据模型存储于所述服务器中,用于实现所述元数据的搜索。
9.一种电子设备,其特征在于,所述设备包括:
处理器;
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如权利要求1至6任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1至6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910625973.7A CN110442614B (zh) | 2019-07-11 | 2019-07-11 | 元数据的搜索方法及装置、电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910625973.7A CN110442614B (zh) | 2019-07-11 | 2019-07-11 | 元数据的搜索方法及装置、电子设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110442614A true CN110442614A (zh) | 2019-11-12 |
CN110442614B CN110442614B (zh) | 2023-10-03 |
Family
ID=68430206
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910625973.7A Active CN110442614B (zh) | 2019-07-11 | 2019-07-11 | 元数据的搜索方法及装置、电子设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110442614B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111782898A (zh) * | 2020-07-07 | 2020-10-16 | 华青融天(北京)软件股份有限公司 | 数据源搜索方法、装置和电子设备 |
CN117493641A (zh) * | 2024-01-02 | 2024-02-02 | 中国电子科技集团公司第二十八研究所 | 一种基于语义元数据的二次模糊搜索方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110078049A1 (en) * | 2009-09-30 | 2011-03-31 | Muhammad Faisal Rehman | Method and system for exposing data used in ranking search results |
CN103995846A (zh) * | 2014-05-06 | 2014-08-20 | 百度在线网络技术(北京)有限公司 | 应用信息的搜索方法及其装置 |
US20180336287A1 (en) * | 2017-05-22 | 2018-11-22 | Hcl Technologies Limited | A system and method for retrieving user specific results upon execution of a query |
CN108897685A (zh) * | 2018-06-28 | 2018-11-27 | 百度在线网络技术(北京)有限公司 | 搜索结果的质量评估方法、装置、服务器和介质 |
CN109344336A (zh) * | 2018-12-25 | 2019-02-15 | 北京时光荏苒科技有限公司 | 搜索方法、搜索集生成方法、装置、介质、终端及服务器 |
-
2019
- 2019-07-11 CN CN201910625973.7A patent/CN110442614B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110078049A1 (en) * | 2009-09-30 | 2011-03-31 | Muhammad Faisal Rehman | Method and system for exposing data used in ranking search results |
CN103995846A (zh) * | 2014-05-06 | 2014-08-20 | 百度在线网络技术(北京)有限公司 | 应用信息的搜索方法及其装置 |
US20180336287A1 (en) * | 2017-05-22 | 2018-11-22 | Hcl Technologies Limited | A system and method for retrieving user specific results upon execution of a query |
CN108897685A (zh) * | 2018-06-28 | 2018-11-27 | 百度在线网络技术(北京)有限公司 | 搜索结果的质量评估方法、装置、服务器和介质 |
CN109344336A (zh) * | 2018-12-25 | 2019-02-15 | 北京时光荏苒科技有限公司 | 搜索方法、搜索集生成方法、装置、介质、终端及服务器 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111782898A (zh) * | 2020-07-07 | 2020-10-16 | 华青融天(北京)软件股份有限公司 | 数据源搜索方法、装置和电子设备 |
CN111782898B (zh) * | 2020-07-07 | 2024-05-24 | 华青融天(北京)软件股份有限公司 | 数据源搜索方法、装置和电子设备 |
CN117493641A (zh) * | 2024-01-02 | 2024-02-02 | 中国电子科技集团公司第二十八研究所 | 一种基于语义元数据的二次模糊搜索方法 |
CN117493641B (zh) * | 2024-01-02 | 2024-03-22 | 中国电子科技集团公司第二十八研究所 | 一种基于语义元数据的二次模糊搜索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110442614B (zh) | 2023-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11899681B2 (en) | Knowledge graph building method, electronic apparatus and non-transitory computer readable storage medium | |
US9147154B2 (en) | Classifying resources using a deep network | |
CN109934619A (zh) | 用户画像标签建模方法、装置、电子设备及可读存储介质 | |
CN109919316A (zh) | 获取网络表示学习向量的方法、装置和设备及存储介质 | |
CN111831636A (zh) | 一种数据处理方法、装置、计算机系统及可读存储介质 | |
CN108288208B (zh) | 基于图像内容的展示对象确定方法、装置、介质及设备 | |
CN105306495B (zh) | 用户识别方法和装置 | |
US20170235726A1 (en) | Information identification and extraction | |
CN113836131B (zh) | 一种大数据清洗方法、装置、计算机设备及存储介质 | |
CN106844407A (zh) | 基于数据集相关性的标签网络产生方法和系统 | |
KR102180267B1 (ko) | O2o 기반 의류산업 내 발주자와 제작자를 연결하는 의류생산 매칭 서비스 제공 시스템 | |
CN111078776A (zh) | 数据表的标准化方法、装置、设备及存储介质 | |
CN103412903B (zh) | 基于兴趣对象预测的物联网实时搜索方法及系统 | |
CN113254630A (zh) | 一种面向全球综合观测成果的领域知识图谱推荐方法 | |
CN106407381A (zh) | 一种基于人工智能的推送信息的方法和装置 | |
Cong | Personalized recommendation of film and television culture based on an intelligent classification algorithm | |
CN110442614A (zh) | 元数据的搜索方法及装置、电子设备、存储介质 | |
CN114490923A (zh) | 相似文本匹配模型的训练方法、装置、设备及存储介质 | |
CN113656690A (zh) | 产品推荐方法、装置、电子设备及可读存储介质 | |
Rizvi et al. | A preliminary review of web-page recommendation in information retrieval using domain knowledge and web usage mining | |
CN113111198A (zh) | 基于协同过滤算法的演示文稿推荐方法及相关设备 | |
CN115860835A (zh) | 基于人工智能的广告推荐方法、装置、设备及存储介质 | |
Jalali et al. | OPWUMP: an architecture for online predicting in WUM-based personalization system | |
CN114707510A (zh) | 资源推荐信息推送方法、装置、计算机设备及存储介质 | |
CN112085566B (zh) | 基于智能决策的产品推荐方法、装置及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |