CN110222203A

CN110222203A - 元数据搜索方法、装置、设备及计算机可读存储介质

Info

Publication number: CN110222203A
Application number: CN201910535773.2A
Authority: CN
Inventors: 陈文浩; 兰冲; 张志杰; 周可
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2019-06-19
Filing date: 2019-06-19
Publication date: 2019-09-10
Anticipated expiration: 2039-06-19
Also published as: CN110222203B

Abstract

本发明涉及金融科技技术领域，公开了一种元数据搜索方法、装置、设备及计算机可读存储介质。该方法包括：在接收到元数据搜索指令时，获取所述元数据搜索指令中携带的第一目标搜索词；基于所述第一目标搜索词和第一预设查询方式搜索预先建立的元数据资源的索引文件，得到第一搜索结果；对所述第一目标搜索词进行分词处理，得到第二目标搜索词，并基于所述第二目标搜索词和第二预设查询方式搜索所述元数据资源的索引文件，得到第二搜索结果；计算所述第一搜索结果和所述第二搜索结果中所搜索到的各文档的排序评分，并根据所述排序评分对所搜索到的各文档进行排序显示。本发明能够解决现有技术中元数据搜索准确度较差的问题。

Description

元数据搜索方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及金融科技(Fintech)技术领域，尤其涉及一种元数据搜索方法、装置、设备及计算机可读存储介质。

背景技术

随着计算机技术的发展，越来越多的技术(大数据、分布式、区块链Blockchain、人工智能等)应用在金融领域，传统金融业正在逐步向金融科技(Fintech)转变，但由于金融行业的安全性、实时性要求，也对技术提出了更高的要求。

随着金融科技(Fintech)，尤其是互联网科技金融的不断发展，企业业务不断增长，业务的元数据的数据量也在不断地膨胀。目前，主要是通过数据的Like操作符(用于在WHERE子句中搜索列中的指定模式)或ElasticSearch(搜索服务器)对元数据进行搜索。在通过Like操作符做输入数据的模糊搜索，由于其只是单纯对输入数据的前后数据的模糊匹配，无法满足分词搜索的要求，也无法做更加精准的匹配；在使用ElasticSearch进行元数据的搜索时，由于通常采用单一的查询方式进行搜索查询，准确度较差，输出的搜索结果的前排也不一定会出现需要搜索的目标文档。因此，现有的元数据搜索方法的准确度较差。

发明内容

本发明的主要目的在于提供一种元数据搜索方法、装置、设备及计算机可读存储介质，旨在解决现有技术中元数据搜索准确度较差的问题。

为实现上述目的，本发明提供一种元数据搜索方法，所述元数据搜索方法包括：

在接收到元数据搜索指令时，获取所述元数据搜索指令中携带的第一目标搜索词；

基于所述第一目标搜索词和第一预设查询方式搜索预先建立的元数据资源的索引文件，得到第一搜索结果；

对所述第一目标搜索词进行分词处理，得到第二目标搜索词，并基于所述第二目标搜索词和第二预设查询方式搜索所述元数据资源的索引文件，得到第二搜索结果；

计算所述第一搜索结果和所述第二搜索结果中所搜索到的各文档的排序评分，并根据所述排序评分对所搜索到的各文档进行排序显示。

可选地，所述计算所述第一搜索结果和所述第二搜索结果中所搜索到的各文档的排序评分，并根据所述排序评分对所搜索到的各文档进行排序显示的步骤包括：

获取所述第一搜索结果和所述第二搜索结果中所搜索到的文档及各文档中所搜索到的目标搜索词，并将所述第一搜索结果和所述第二搜索结果中所搜索到的文档记作搜索结果文档，将所述各文档中所搜索到的目标搜索词记作搜索结果词；

基于所述搜索结果词和预设计算规则计算各搜索结果文档的词汇评分，并计算查询归一因子和协调因子；

对所述词汇评分、所述查询归一因子和所述协调因子进行相乘处理，得到各搜索结果文档的排序评分；

根据所述排序评分的大小按从大到小的顺序对各搜索结果文档进行排序显示。

可选地，所述基于所述搜索结果词和预设计算规则计算各搜索结果文档的词汇评分，并计算查询归一因子和协调因子的步骤包括：

获取各搜索结果文档所属种类对应的第一预设权重、各搜索结果文档对应的第二预设权重及各搜索结果词所对应的查询方式对应的第三预设权重，根据所述第一预设权重、所述第二预设权重和所述第三预设权重计算得到各搜索结果词的权重；

获取各搜索结果词的词频、逆向文件频率和字段归一值，基于所述词频、所述逆向文件频率、所述字段归一值和所述各搜索结果词的权重，按第一预设计算公式计算得到所述搜索结果文档的词汇评分；

根据所述逆向文件频率和第二预设计算公式计算得到查询归一因子；

获取所述搜索结果词的数量，并获取所述第一目标搜索词的数量及所述第二目标搜索词的数量，基于所述搜索结果词的数量、所述第一目标搜索词的数量、所述第二目标搜索词和第三预设计算公式的数量计算得到协调因子。

可选地，所述第一预设计算公式为：

v_i＝∑(TF_ij·IDF_ij·w_ij·a_ij)

所述第二预设计算公式为：

所述第三预设计算公式为：

f_i2＝n_i/(n₁+n₂)

其中，v_i为搜索结果文档i的排序评分，TF_ij为搜索结果文档i中搜索结果词j的词频，IDF_ij为搜索结果文档i中搜索结果词j的逆向文件频率，w_ij为搜索结果文档i中搜索结果词j的权重，a_ij为搜索结果文档i中搜索结果词j的字段归一值；f_i1为搜索结果文档i对应的查询归一因子，f_i2为搜索结果文档i对应的协调因子，n_i为搜索结果文档i中所包含的搜索结果词的数量，n₁为所述第一目标搜索词的数量，n₂为所述第二目标搜索词的数量。

可选地，所述在接收到元数据搜索指令时，获取所述元数据搜索指令中携带的第一目标搜索词的步骤之前，还包括：

获取元数据资源，并对元数据资源中的原始文档进行分类；

对经分类处理的原始文档中的指定字段内容进行备份，得到备份文档；

对所述经分类处理的原始文档进行分词处理，得到第一分词，并获取所述备份文档中的指定字段内容作为第二分词；

以所述第一分词和所述第二分词为索引词，对所述经分类处理的原始文档和所述备份文档进行倒排索引，得到元数据资源的索引文件。

可选地，所述元数据资源的索引文件包括搜索结果文档的存储路径，所述元数据搜索方法还包括：

在接收到用户基于排序显示的文档触发的查看指令时，获取所述查看指令对应的目标文档；

根据所述元数据资源的索引文件获取所述目标文档的存储路径，根据所述存储路径调用所述目标文档并进行显示。

可选地，所述第一预设查询方式为全词匹配查询TermQuery，所述第二预设查询方式包括分词查询MatchQuery和通配符查询WildcardQuery。

此外，为实现上述目的，本发明还提供一种元数据搜索装置，所述元数据搜索装置包括：

第一获取模块，用于在接收到元数据搜索指令时，获取所述元数据搜索指令中携带的第一目标搜索词；

第一搜索模块，用于基于所述第一目标搜索词和第一预设查询方式搜索预先建立的元数据资源的索引文件，得到第一搜索结果；

第二搜索模块，用于对所述第一目标搜索词进行分词处理，得到第二目标搜索词，并基于所述第二目标搜索词和第二预设查询方式搜索所述元数据资源的索引文件，得到第二搜索结果；

排序显示模块，用于计算所述第一搜索结果和所述第二搜索结果中所搜索到的各文档的排序评分，并根据所述排序评分对所搜索到的各文档进行排序显示。

此外，为实现上述目的，本发明还提供一种元数据搜索设备，所述元数据搜索设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的元数据搜索程序，所述元数据搜索程序被所述处理器执行时实现如上所述的元数据搜索方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有元数据搜索程序，所述元数据搜索程序被处理器执行时实现如上所述的元数据搜索方法的步骤。

本发明提供一种元数据搜索方法、装置、设备及计算机可读存储介质，在接收到元数据搜索指令时，获取该元数据搜索指令中携带的第一目标搜索词；然后，基于第一目标搜索词和第一预设查询方式搜索预先建立的元数据资源的索引文件，得到第一搜索结果；对第一目标搜索词进行分词处理，得到第二目标搜索词，并基于第二目标搜索词和第二预设查询方式搜索元数据资源的索引文件，得到第二搜索结果；计算第一搜索结果和第二搜索结果中所搜索到的各文档的排序评分，并根据该排序评分对所搜索到的各文档进行排序显示。通过上述方式，本发明采用了多种查询方式组合的方法进行搜索查询，可提高搜索查询结果的准确性和全面性，同时，本发明还根据搜索结果对各文档进行评分排序，可使得用户需要查询的目标文档排在搜索结果的前排，为用户提供准确而全面的搜索结果。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图；

图2为本发明元数据搜索方法第一实施例的流程示意图；

图3为本发明元数据搜索装置第一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图。

本发明实施例元数据搜索设备可以是智能手机，也可以是PC(PersonalComputer，个人计算机)、平板电脑、便携计算机等终端设备。

如图1所示，该元数据搜索设备可以包括：处理器1001，例如CPU，通信总线1002，用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如Wi-Fi接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的元数据搜索设备结构并不构成对元数据搜索设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及元数据搜索程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的元数据搜索程序，并执行以下操作：

进一步地，处理器1001可以调用存储器1005中存储的元数据搜索程序，还执行以下操作：

进一步地，所述第一预设计算公式为：

v_i＝∑(TF_ij·IDF_ij·w_ij·a_ij)

所述第二预设计算公式为：

所述第三预设计算公式为：

f_i2＝n_i/(n₁+n₂)

获取元数据资源，并对元数据资源中的原始文档进行分类；

进一步地，所述元数据资源的索引文件包括搜索结果文档的存储路径，处理器1001可以调用存储器1005中存储的元数据搜索程序，还执行以下操作：

进一步地，所述第一预设查询方式为全词匹配查询TermQuery，所述第二预设查询方式包括分词查询MatchQuery和通配符查询WildcardQuery。

基于上述硬件结构，提出本发明元数据搜索方法的各实施例。

本发明提供一种元数据搜索方法。

参照图2，图2为本发明元数据搜索方法第一实施例的流程示意图。

在本实施例中，该元数据搜索方法包括：

步骤S10，在接收到元数据搜索指令时，获取所述元数据搜索指令中携带的第一目标搜索词；

需要说明的是，随着大数据的发展，元数据的量也越来越多，现在的银行或保险等金融机构在对产生的业务数据进行数据治理时，需要进行元数据的搜索和处理，而现有的元数据搜索方式，准确性较差，不符合银行保险等金融机构的业务需求。

本实施例的元数据搜索方法是由元数据搜索设备实现的，该设备搭载有ElasticSearch架构，可提供分布式多用户能力的全文搜索引擎，该设备以服务器为例进行说明。在本实施例中，当用户需要从元数据资源中搜索包含某一词汇的文档时，可在终端的软件或App(Application，应用程序)中点击元数据搜索选项，进而在对应界面中输入想要搜索的词汇，输入确认后即可触发元数据搜索指令，此时，服务器在接收到元数据搜索指令时，获取该元数据搜索指令中携带的第一目标搜索词。

步骤S20，基于所述第一目标搜索词和第一预设查询方式搜索预先建立的元数据资源的索引文件，得到第一搜索结果；

然后，基于第一目标搜索词和第一预设查询方式搜索预先建立的元数据资源的索引文件，得到第一搜索结果，其中，元数据资源的索引文件包括索引词与文档之间的索引关系，还包括各文档的存储路径，元数据资源的索引文件的建立方法可参照下述第二实施例，此处不作赘述，第一预设查询方式优选为全词匹配查询TermQuery，TermQuery可基于信息定义做不分词匹配搜索，即直接将第一目标搜索词与目标字段(即索引文件中的索引词)进行匹配，若完全匹配，则可搜索到，进而得到对应的第一搜索结果。

步骤S30，对所述第一目标搜索词进行分词处理，得到第二目标搜索词，并基于所述第二目标搜索词和第二预设查询方式搜索所述元数据资源的索引文件，得到第二搜索结果；

然后，对第一目标搜索词进行分词处理，得到第二目标搜索词。分词处理，是将连续的字序列按照一定的规范重新组合成词序列，分词处理可通过分词工具实施，例如IKAnalyzer(一个开源的，基于java语言开发的轻量级的中文分词工具包)。在分词之后，基于第二目标搜索词和第二预设查询方式搜索元数据资源的索引文件，得到第二搜索结果。其中，第二预设查询方式包括分词查询MatchQuery和通配符查询WildcardQuery。MatchQuery可基于信息定义做分词匹配搜索，WildcardQuery可基于信息定义做分词模糊匹配搜索，采用MatchQuery和WildcardQuery这两种查询方式进行搜索时，需先对第一目标搜索词进行分词，然后再将分词得到的第二目标搜索词与目标字段(即索引文件中的索引词)进行匹配，从而得到对应的第二搜索结果，其中，第二搜索结果包括通过MatchQuery搜索到的结果和通过WildcardQuery搜索到的结果。

需要说明的是，步骤S20和S30的执行顺序不分先后。

步骤S40，计算所述第一搜索结果和所述第二搜索结果中所搜索到的各文档的排序评分，并根据所述排序评分对所搜索到的各文档进行排序显示。

在得到第一搜索结果和第二搜索结果之后，计算第一搜索结果和第二搜索结果中所搜索到的各文档的排序评分，并根据该排序评分对所搜索到的各文档进行排序显示。具体的，步骤S40可以包括：

步骤a1，获取所述第一搜索结果和所述第二搜索结果中所搜索到的文档及各文档中所搜索到的目标搜索词，并将所述第一搜索结果和所述第二搜索结果中所搜索到的文档记作搜索结果文档，将所述各文档中所搜索到的目标搜索词记作搜索结果词；

先获取第一搜索结果和第二搜索结果中所搜索到的文档及各文档中所搜索到的目标搜索词，为方便后续说明，可将第一搜索结果和第二搜索结果中所搜索到的文档记作搜索结果文档，将各文档中所搜索到的目标搜索词记作搜索结果词。需要说明的是，在具体实施过程中，并不需要对所搜索到的文档和目标搜索词进行名称的替换，此处仅为便于后续的表述说明。

步骤a2，基于所述搜索结果词和预设计算规则计算各搜索结果文档的词汇评分，并计算查询归一因子和协调因子；

然后，基于搜索结果词和预设计算规则计算各搜索结果文档的词汇评分，并计算查询归一因子和协调因子。具体的，步骤a2包括：

步骤a21，获取各搜索结果文档所属种类对应的第一预设权重、各搜索结果文档对应的第二预设权重及各搜索结果词所对应的查询方式对应的第三预设权重，根据所述第一预设权重、所述第二预设权重和所述第三预设权重计算得到各搜索结果词的权重；

在计算各搜索结果文档的词汇评分时，先获取各搜索结果文档所属种类对应的第一预设权重、各搜索结果文档对应的第二预设权重及各搜索结果词所对应的查询方式对应的第三预设权重，然后根据第一预设权重、第二预设权重和第三预设权重计算得到各搜索结果词的权重。在搜索结果词对应的查询方式只有一种时，则该搜索结果词的权重对应只有一个，其权重等于第一预设权重、第二预设权重和第三预设权重的乘积；在搜索结果词对应的查询方式有多种时，则获取到的第三预设权重对应有多个，可计算得到该搜索结果词的权重对应也有多个，各权重等于第一预设权重、第二预设权重和第三预设权重的乘积。例如，某一搜索结果文档所属种类对应的第一预设权重为a₁，该搜索结果文档对应的第二预设权重为a₂，该搜索结果文档的某一搜索结果词所对应的查询方式对应的第三预设权重包括a₃、a₄，则该搜索结果词所对应的权重包括a₁a₂a₃和a₁a₂a₄。

需要说明的是，本实施例中基于重要程度预先给不同的文档种类(集群、库、表、字段)、文档类型(分词的文档、备份的未分词的文档)及查询方式(TermQuery、MatchQuery和WildcardQuery)设定了不同的权重，便于综合计算得到各搜索结果文档的排序评分，进而可将用户需要搜索的目标文档排在搜索结果的前排，为用户提供准确而全面的搜索结果。在具体设置时，对于文档种类的权重设置，可按集群、库、表、字段顺序依次下降；对于文档类型的权重设置，可设置备份的未分词的文档的权重大于分词的文档；对于查询方式的设置，可按TermQuery、MatchQuery、WildcardQuery顺序依次下降。通过此种设置方式，可使得三种查询方式的组合查询的结果以全词匹配为主，分词匹配、模糊匹配为辅助，提供精确而全面的搜索结果。当然，上述仅作举例，并不用于限定本发明，具体的权重设置，可根据实际需要进行设定。

步骤a22，获取各搜索结果词的词频、逆向文件频率和字段归一值，基于所述词频、所述逆向文件频率、所述字段归一值和所述各搜索结果词的权重，按第一预设计算公式计算得到所述搜索结果文档的词汇评分；

在计算得到各搜索结果词的权重后，获取各搜索结果词的词频、逆向文件频率和字段归一值，然后基于词频、逆向文件频率、字段归一值和各搜索结果词的权重，按第一预设计算公式计算得到搜索结果文档的词汇评分。其中，词频为该搜索结果词在其所属搜索结果文档的次数的平方根，其与搜索结果词出现在当前文档(即其所属搜索结果文档)的频率呈正相关关系，代表该搜索结果词在当前文档的频率；逆向文件频率，该值为1+[(索引文件中所有的文档数除以该搜索结果词在索引文件中所有的文档中出现的次数+1)的对数]，逆向文件频率与搜索结果词出现在所有文档的频次呈负相关关系，当该搜索结果词在所有的文档出现的频次越高，则该值越小；字段归一值，是字段中词数的平方根的倒数，主要是为了解决字段长和字段短的含有词语的数量不一样，而导致最后的得分不一样，无法综合比较的问题；第一预设计算公式为：

v_i＝∑(TF_ij·IDF_ij·w_ij·a_ij)

其中，v_i为搜索结果文档i的排序评分，TF_ij为搜索结果文档i中搜索结果词j的词频，IDF_ij为搜索结果文档i中搜索结果词j的逆向文件频率，w_ij为搜索结果文档i中搜索结果词j的权重，a_ij为搜索结果文档i中搜索结果词j的字段归一值。

步骤a23，根据所述逆向文件频率和第二预设计算公式计算得到查询归一因子；

然后，根据逆向文件频率和第二预设计算公式计算得到查询归一因子。其中，查询归一因子，该值为该搜索结果文档中的所有搜索结果词的逆向文档频率的平方和的倒数，在计算搜索结果文档的排序评分时，加入该数值计算排序评分时，可以使得最终评分可以与其他搜索的最终的评分做比较，从而弱化多个不同输入因素导致的分数过高的问题，使得最终结果归一化。对应的第二预设计算公式为：

其中，f_i1为搜索结果文档i对应的查询归一因子，IDF_ij为结果文档i中搜索结果词j的逆向文件频率。

步骤a24，获取所述搜索结果词的数量，并获取所述第一目标搜索词的数量及所述第二目标搜索词的数量，基于所述搜索结果词的数量、所述第一目标搜索词的数量、所述第二目标搜索词和第三预设计算公式的数量计算得到协调因子。

接着，获取搜索结果词的数量，并获取第一目标搜索词的数量及第二目标搜索词的数量，基于搜索结果词的数量、第一目标搜索词的数量、第二目标搜索词和第三预设计算公式的数量计算得到协调因子。其中，协调因子，该值为词语匹配数(即搜索结果文档中所包含的搜索结果词的数量)除以目标搜索词的总数(即第一目标搜索词和第二目标搜索词的数量之和)，加入该数值计算排序评分时，可奖励匹配分词数目更多的文档，提高这类文档的分数。对应的第三预设计算公式为：

f_i2＝n_i/(n₁+n₂)

其中，f_i2为搜索结果文档i对应的协调因子，n_i为搜索结果文档i中所包含的搜索结果词的数量，n₁为第一目标搜索词的数量，n₂为第二目标搜索词的数量。

需要说明的是，步骤a21-a22与步骤a23、a24之间的执行顺序不分先后。

步骤a3，对所述词汇评分、所述查询归一因子和所述协调因子进行相乘处理，得到各搜索结果文档的排序评分；

在计算得到词汇评分、查询归一因子和协调因子之后，对词汇评分、查询归一因子和协调因子进行相乘处理，得到各搜索结果文档的排序评分，即排序评分为上述三个参数的乘积。

步骤a4，根据所述排序评分的大小按从大到小的顺序对各搜索结果文档进行排序显示。

最后，根据排序评分的大小，按从大到小的顺序对各搜索结果文档进行排序显示。

需要说明的是，在具体实施例中，还可以通过以下方式计算各文档的排序评分：获取第一搜索结果和第二搜索结果中所搜索到的文档及各文档中所搜索到的目标搜索词，并将第一搜索结果和第二搜索结果中所搜索到的文档记作搜索结果文档，将各文档中所搜索到的目标搜索词记作搜索结果词；然后，获取各搜索结果文档所属种类对应的第一预设权重、各搜索结果文档对应的第二预设权重及各搜索结果词所对应的查询方式对应的第三预设权重，根据第一预设权重、第二预设权重和第三预设权重计算得到各搜索结果词的权重；进而获取各搜索结果词的词频、逆向文件频率和字段归一值，然后基于词频、逆向文件频率、字段归一值和各搜索结果词的权重，按第一预设计算公式计算得到搜索结果文档的词汇评分。即，直接以上述计算过程中得到的各搜索结果文档的词汇评分作为各文档的排序评分。具体的计算过程可参照上述实施例，此处不再赘述。

本发明实施例提供一种元数据搜索方法，在接收到元数据搜索指令时，获取该元数据搜索指令中携带的第一目标搜索词；然后，基于第一目标搜索词和第一预设查询方式搜索预先建立的元数据资源的索引文件，得到第一搜索结果；对第一目标搜索词进行分词处理，得到第二目标搜索词，并基于第二目标搜索词和第二预设查询方式搜索元数据资源的索引文件，得到第二搜索结果；计算第一搜索结果和第二搜索结果中所搜索到的各文档的排序评分，并根据该排序评分对所搜索到的各文档进行排序显示。通过上述方式，本发明实施例中采用了多种查询方式组合的方法进行搜索查询，可提高搜索查询结果的准确性和全面性，同时，本发明实施例中还根据搜索结果对各文档进行评分排序，可使得用户需要查询的目标文档排在搜索结果的前排，可为用户提供准确而全面的搜索结果。

进一步的，基于图2所示的第一实施例，提出本发明元数据搜索方法的第二实施例。

在本实施例中，在步骤S10之前，该元数据搜索方法还包括：

步骤A，获取元数据资源，并对元数据资源中的原始文档进行分类；

在本实施例中，先获取元数据资源，然后基于关系数据库的结构对元数据资源中的原始文档进行分类，具体的，可分类集群、库、表、字段4个种类。

步骤B，对经分类处理的原始文档中的指定字段内容进行备份，得到备份文档；

步骤C，对所述经分类处理的原始文档进行分词处理，得到第一分词，并获取所述备份文档中的指定字段内容作为第二分词；

对经分类处理的原始文档中的指定字段内容进行备份，得到备份文档。需要说明的是，由于文档中的某些字段内容比较重要，例如标题名称，适合用于全词匹配查询，因此，可对这一部分指定的字段内容进行备份，得到备份文档，该备份文档不作分词处理。然后，对经分类处理的原始文档进行分词处理，得到第一分词，并获取该备份文档中的指令字段内容作为第二分词。其中，分词处理，是将连续的字序列按照一定的规范重新组合成词序列，分词处理可通过分词工具实施，例如IK Analyzer(一个开源的，基于java语言开发的轻量级的中文分词工具包)。

步骤D，以所述第一分词和所述第二分词为索引词，对所述经分类处理的原始文档和所述备份文档进行倒排索引，得到元数据资源的索引文件。

最后，以第一分词和第二分词为索引词，对经分类处理的原始文档和备份文档进行倒排索引，得到元数据资源的索引文件。其中，倒排索引得到的索引文件，包括索引词与文档之间的索引关系，还包括各文档的存储路径。需要说明的是，在具体实施例中，还可以采用正排索引的方式建立索引文件，但是倒排索引保存的是索引词对应的所有文档，而正排索引保存的是文档对应的所有索引词，倒排索引相较于正排索引来说，可以直接根据索引词搜索到对应的所有文档数据，而使用正排索引需要把所有文档都搜索一遍，才能得出所有索引词的相关文档了。因此，相比而言，对于纯搜索上，倒排索引也有助于查询，查询效率更高。

本实施例中通过倒排索引的方式，建立元数据资源的索引文件，可便于后续进行搜索查询，提高了元数据搜索查询效率。

进一步的，基于上述实施例，提出本发明元数据搜索方法的第三实施例。

在本实施例中，元数据资源的索引文件除包括索引词与文档之间的索引关系外，还包括各文档的存储路径，即也包括搜索结果文档的存储路径，在步骤S40之后，该元数据搜索方法还包括：

步骤E，在接收到用户基于排序显示的文档触发的查看指令时，获取所述查看指令对应的目标文档；

在对文档进行排序显示时，可以在各文档名称后设置查看标识符号，用户可通过点击该查看标识符号，即以触发查询指令；或用户在点击文档名称时，直接触发查看指令。对应的，服务器在接收到用户基于排序显示的文档触发的查看指令时，获取该查看指令对应的目标文档。

步骤F，根据所述元数据资源的索引文件获取所述目标文档的存储路径，根据所述存储路径调用所述目标文档并进行显示。

然后，根据之前预先建立的元数据资源的索引文件获取该目标文档的存储路径，进而根据该存储路径调用目标文档并进行显示。

本实施例中，可根据用户触发的查看指令，直接调用对应的文档进行显示，从而可便于用户进行查看，提升用户体验。

本发明还提供一种元数据搜索装置。

参照图3，图3为本发明元数据搜索装置第一实施例的功能模块示意图。

如图3所示，所述元数据搜索装置包括：

第一获取模块10，用于在接收到元数据搜索指令时，获取所述元数据搜索指令中携带的第一目标搜索词；

第一搜索模块20，用于基于所述第一目标搜索词和第一预设查询方式搜索预先建立的元数据资源的索引文件，得到第一搜索结果；

第二搜索模块30，用于对所述第一目标搜索词进行分词处理，得到第二目标搜索词，并基于所述第二目标搜索词和第二预设查询方式搜索所述元数据资源的索引文件，得到第二搜索结果；

排序显示模块40，用于计算所述第一搜索结果和所述第二搜索结果中所搜索到的各文档的排序评分，并根据所述排序评分对所搜索到的各文档进行排序显示。

进一步地，所述排序显示模块40包括：

第一获取单元，用于获取所述第一搜索结果和所述第二搜索结果中所搜索到的文档及各文档中所搜索到的目标搜索词，并将所述第一搜索结果和所述第二搜索结果中所搜索到的文档记作搜索结果文档，将所述各文档中所搜索到的目标搜索词记作搜索结果词；

第一计算单元，用于基于所述搜索结果词和预设计算规则计算各搜索结果文档的词汇评分，并计算查询归一因子和协调因子；

第二计算单元，用于对所述词汇评分、所述查询归一因子和所述协调因子进行相乘处理，得到各搜索结果文档的排序评分；

排序显示单元，用于根据所述排序评分的大小按从大到小的顺序对各搜索结果文档进行排序显示。

进一步地，所述第一计算单元具体用于：

进一步地，所述第一预设计算公式为：

v_i＝∑(TF_ij·IDF_ij·w_ij·a_ij)

所述第二预设计算公式为：

所述第三预设计算公式为：

f_i2＝n_i/(n₁+n₂)

进一步地，所述元数据搜索装置还包括：

文档分类模块，用于获取元数据资源，并对元数据资源中的原始文档进行分类；

文档备份模块，用于对经分类处理的原始文档中的指定字段内容进行备份，得到备份文档；

分词处理模块，用于对所述经分类处理的原始文档进行分词处理，得到第一分词，并获取所述备份文档中的指定字段内容作为第二分词；

倒排索引模块，用于以所述第一分词和所述第二分词为索引词，对所述经分类处理的原始文档和所述备份文档进行倒排索引，得到元数据资源的索引文件。

进一步地，所述元数据资源的索引文件包括搜索结果文档的存储路径，所述元数据搜索装置还包括：

第二获取模块，用于在接收到用户基于排序显示的文档触发的查看指令时，获取所述查看指令对应的目标文档；

文档显示模块，用于根据所述元数据资源的索引文件获取所述目标文档的存储路径，根据所述存储路径调用所述目标文档并进行显示。

其中，上述元数据搜索装置中各个模块的功能实现与上述元数据搜索方法实施例中各步骤相对应，其功能和实现过程在此处不再一一赘述。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质上存储有元数据搜索程序，所述元数据搜索程序被处理器执行时实现如以上任一项实施例所述的元数据搜索方法的步骤。

本发明计算机可读存储介质的具体实施例与上述元数据搜索方法各实施例基本相同，在此不作赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种元数据搜索方法，其特征在于，所述元数据搜索方法包括：

2.如权利要求1所述的元数据搜索方法，其特征在于，所述计算所述第一搜索结果和所述第二搜索结果中所搜索到的各文档的排序评分，并根据所述排序评分对所搜索到的各文档进行排序显示的步骤包括：

3.如权利要求2所述的元数据搜索方法，其特征在于，所述基于所述搜索结果词和预设计算规则计算各搜索结果文档的词汇评分，并计算查询归一因子和协调因子的步骤包括：

4.如权利要求3所述的元数据搜索方法，其特征在于，所述第一预设计算公式为：

v_i＝∑(TF_ij·IDF_ij·w_ij·a_ij)

所述第二预设计算公式为：

所述第三预设计算公式为：

f_i2＝n_i/(n₁+n₂)

5.如权利要求1所述的元数据搜索方法，其特征在于，所述在接收到元数据搜索指令时，获取所述元数据搜索指令中携带的第一目标搜索词的步骤之前，还包括：

获取元数据资源，并对元数据资源中的原始文档进行分类；

6.如权利要求5所述的元数据搜索方法，其特征在于，所述元数据资源的索引文件包括搜索结果文档的存储路径，所述元数据搜索方法还包括：

7.如权利要求1至6中任一项所述的元数据搜索方法，其特征在于，所述第一预设查询方式为全词匹配查询TermQuery，所述第二预设查询方式包括分词查询MatchQuery和通配符查询WildcardQuery。

8.一种元数据搜索装置，其特征在于，所述元数据搜索装置包括：

9.一种元数据搜索设备，其特征在于，所述元数据搜索设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的元数据搜索程序，所述元数据搜索程序被所述处理器执行时实现如权利要求1至7中任一项所述的元数据搜索方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有元数据搜索程序，所述元数据搜索程序被处理器执行时实现如权利要求1至7中任一项所述的元数据搜索方法的步骤。