WO2019174132A1

WO2019174132A1 - 数据处理方法、服务器及计算机存储介质

Info

Publication number: WO2019174132A1
Application number: PCT/CN2018/089335
Authority: WO
Inventors: 张师琲; 侯丽
Original assignee: 平安科技（深圳）有限公司
Priority date: 2018-03-12
Filing date: 2018-05-31
Publication date: 2019-09-19
Also published as: CN108520002A

Abstract

本申请公开了一种数据处理方法，该方法包括：对所述文本数据或者其他类型的数据建立索引并生成索引文件，将所述索引文件存储到索引库，根据查询对象对所述索引库中的索引文件进行搜索，对搜索结果按照搜索评价方法进行评价打分，根据得分结果将所述搜索结果进行排序，将所述得分高于预设阈值的搜索结果按照预设方式进行输出显示。本申请还提供一种服务器及计算机可读存储介质。本申请提供的数据处理方法、服务器及计算机可读存储介质能够快速针对与模糊文字的搜索，快速实现模糊匹配。

Description

数据处理方法、服务器及计算机存储介质

本申请基于巴黎公约申明享有2018年3月12日递交的申请号为CN201810198710.8、名称为“数据处理方法、服务器及计算机存储介质”的中国专利申请的优先权，该中国专利申请的整体内容以参考的方式结合在本申请中。

技术领域

本申请涉及数据分析技术领域，尤其涉及一种数据处理方法、服务器及计算机存储介质。

背景技术

在当今信息爆炸的时代，每个单位或个人都在为信息的快速增长做出了各种贡献。信息的种类也在不断的扩展，越来越多的非结构化信息不断出现，包括企业的各种报表、帐单、电子文档等等。这些非结构化信息存入数据库中，很多时候，我们需要在数据库中检索，而针对与模糊文字的搜索，直接查询数据库的效率是非常慢的。因此，针对模糊文字的搜索，如何提高检索信息的效率是当下一大亟需解决的问题。

发明内容

有鉴于此，本申请提出一种数据处理方法、服务器及计算机存储介质，以解决如何的问题。

首先，为实现上述目的，本申请提出一种数据处理方法，该方法包括：

获取数据库中的文本数据或者其他类型的数据，对数据库中的文本数据或者其他类型的数据进行处理；

基于lucene搜索引擎对处理后的所述文本数据或者其他类型的数据建立索引并生成索引文件将所述索引文件存储到索引库；

接收用户输入的查询信息，对所述查询信息进行处理生成查询对象，根据所述查询对象对所述索引库中的索引文件进行搜索，预设的搜索评价模型对搜索结果进行评价打分；及

根据得分结果将所述搜索结果按照分数从高到低的顺序进行排序，将所述得分高于预设阈值的搜索结果按照预设方式进行输出显示；

其中，所述预设方式为将所述得分结果生成条形图，并将所述得分结果按照百分比形式输出显示，所述预设阈值为40％。

此外，为实现上述目的，本申请还提供一种服务器，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据处理系统，所述数据处理系统被所述处理器执行时实现如上述的数据处理方法的步骤。

进一步地，为实现上述目的，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质存储有数据处理系统，所述数据处理系统可被至少一个处理器执行，以使所述至少一个处理器执行如上述的数据处理方法的步骤。

相较于现有技术，本申请所提出的数据处理方法、服务器及计算机可读存储介质，首先获取数据库中的文本数据或者其他类型的数据，对数据库中的文本数据或者其他类型的数据进行处理，基于lucene搜索引擎对所述文本数据或者其他类型的数据建立索引并生成索引文件，在建立所述索引的过程中，对索引写入权重，将所述索引文件存储到索引库；其次，接收用户输入的查询信息，对所述查询信息进行处理生成查询对象，根据所述查询对象对所述索引库中的索引文件进行搜索，对搜索结果按照搜索评价方法进行评价打分；最后，根据得分结果将所述搜索结果按照预设方式进行排序，将所述得分高于预设阈值的搜索结果按照预设方式进行输出显示。采用本申请所提出的数据处理方法、服务器及计算机可读存储介质可以快速针对与模糊文字的搜索，快速实现模糊匹配，相较于现有技术，更加方便、快捷、准确，极大地提高了检索的效率。

附图说明

图1是本申请服务器一可选的硬件架构的示意图；

图2是本申请数据处理系统第一实施例的程序模块示意图；

图3是本申请数据处理方法第一实施例的流程示意图；

图4是本申请数据处理方法第二实施例的流程示意图；

图5是本申请数据处理方法第三实施例的流程示意图。

图6是本申请数据处理方法第四实施例的流程示意图。

图7是本申请数据处理方法第五实施例的流程示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本申请中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

参阅图1所示，是本申请服务器1一可选的硬件架构的示意图。

本实施例中，所述服务器1可包括，但不仅限于，可通过系统总线相互通信连接存储器11、处理器12、网络接口13。需要指出的是，图2仅示出了具有组件11-13的服务器1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

其中，所述服务器1可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等计算设备，该服务器1可以是独立的服务器，也可以是多个服务器所组成的服务器集群。

所述存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器11可以是所述服务器1的内部存储单元，例如该服务器1的硬盘或内存。在另一些实施例中，所述存储器11也可以是所述服务器1的外部存储设备，例如该服务器1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器11还可以既包括所述服务器1的内部存储单元也包括其外部存储设备。本实施例中，所述存储器11通常用于存储安装于所述服务器1的操作系统和各类应用软件，例如数据处理系统2的程序代码等。此外，所述存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器12在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述服务器1的总体操作。本实施例中，所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据，例如运行所述的数据处理系统2等。

所述网络接口13可包括无线网络接口或有线网络接口，该网络接口13通常用于在所述服务器1与其他电子设备之间建立通信连接。

至此，己经详细介绍了本申请相关设备的硬件结构和功能。下面，将基于上述介绍提出本申请的各个实施例。

首先，本申请提出一种数据处理系统2。

参阅图2所示，是本申请数据处理系统2第一实施例的程序模块图。

本实施例中，所述数据处理系统2包括一系列的存储于存储器11上的计算机程序指令，当该计算机程序指令被处理器12执行时，可以实现本申请各实施例的数据处理操作。在一些实施例中，基于该计算机程序指令各部分所实现的特定的操作，数据处理系统2可以被划分为一个或多个模块。例如，在图2中，所述数据处理系统2可以被分割成索引建立模块21，搜索打分模块22，排序输出模块23。其中：

所述索引建立模块21，用于获取数据库中的文本数据或者其他类型的数据，对数据库中的文本数据或者其他类型的数据进行处理，基于lucene搜索引擎对所述文本数据或者其他类型的数据建立索引并生成索引文件，在建立所述索引的过程中，对索引写入权重，将所述索引文件存储到索引库。

具体地，Lucene是一套用于全文检索和搜寻的开源程式库，由Apache软件基金会支持和提供。它提供了一个简单却强大的应用程式接口，能够做全文索引和搜寻。Lucene是一个高性能、可伸缩的信息搜索库。

具体地，对于所述数据库，各专业公司的实现方式不同，主要的数据库类型为Oracle，也会存在PostgreSQL、MySQL等类型的各种数据库。

具体地，建索引的时候将权重写入索引，在查询时读取出来，用乘的方式来对一些检索结果加分。

具体地，对数据库中的文本数据或者其他类型的处理方式包括多种，例如，可以对非文本数据的文档类型进行转类型，使得非文本数据的文档可以更加顺利地被建立索引。

具体地，建立索引包括构造索引库、构造索引创建器及利用所述索引创建器建立索引的步骤。

具体地，构造索引库directory，用于存入索引，设置索引库的位置，也即索引存入的位置。

具体地，构造索引创建器IndexWriter。索引创建器所创建的文件索引存放到索引库的位置，如果索引库中没有索引，则索引创建的方式为新建方式；否则设置为追加方式。

具体地，为获取的对所述文本数据或者其他类型的数据建立索引，根据不同的文件类型创建相应的文档描述Document，并设置相应属性域Filed的内容，如文件名、文件路径、文件内容。

所述搜索打分模块22，用于接收用户输入的查询信息，对所述查询信息进行处理生成查询对象，根据所述查询对象对所述索引库中的索引文件进行搜索，预设的搜索评价模型对搜索结果进行评价打分。

具体地，用户输入的所述查询信息可以字符串、数字、一句话，甚至是一段话，对这些格式并不统一的查询信息可以进行一些处理，使得处理后的查询信息符合所述搜索打分模块22的格式要求，例如，可以对所述查询信息进行分词、过滤、同义词转换、近义词转换等等处理，从而使得所述查询信息转换为符合要求的所述查询对象。

具体地，对搜索到的内容进行评分是本申请的重点，所述搜索评价模型采用两种方式对所述搜索结果进行评价打分，它们分别是基于Lucecne引擎的打分公式以及最小编辑距离，二者分别对搜索内容进行打分评价，然后通过确定不同的权重因子对二者的得分进行处理以获得最终的得分。

其中，所述基于Lucecne引擎的打分公式为：

其中，q为查询语句，t是q分词后的每一项，d为去匹配的文档。

具体地，所述基于Lucecne引擎的打分公式中各函数的作用为：

tf(t in q)，此函数表示词项t在该文档中的该字段里出现的频率；对应到上图的例子中：既是分词后的词项在此条记录中出现的频率。当然出现的次数越多，它返回的值越大，也正好反映了此文档的重要性。为保证搜索结果的精确性，将tf的值设置为1，原因是：比如搜索“中国平安”，假设匹配的结果有1.平安集团，2.中国平安，3.中国平安南京平安分公司，如果按照原有的得分依据，那么结果匹配度最高的是第三个，因为“平安”出现了两次。但是按照我们正常的逻辑，匹配度最高的当然是完全匹配的那个，也就是“中国平安”。所以在这里为了避免此类先现象，将tf的值改为1，同一个词的多次出现将不影响得分的依据。因为我们要模糊匹配的是客户信息，往往是很短的一个词，词频重复不应作为得分高低的依据。这样对于短语的匹配度更高一些。

idf(t)，此函数出现了两次，也刚好对应公式中的idf(t)^2，这个函数被称作倒频率，表示词项t在所有文档中出现的频率。若它在所有文档中出现的次数越多，表明这个词项t越不重要。

boost(t.field in d)为激励因子，在创建索引时就被记录下来，而lengthNorm(t.field in d)的值会在查询过程中计算；boost(t.field in d)*lengthNorm(t.field in d)的值表示此条搜索结果中，给定字段中包含词项的总数；若值越大，得分越低,举例而言，若A文档有包含了1000个词项，关键词出现的频率为10；而B文档包20个词项，相同关键词出现的频率为8；很明显B文档的打分应该要高一些。

coord(q,d)，一次搜索可能包括多个搜索词，而一片文档中也可能包括多个搜索词，该项表示，当一篇文档中包含的搜索词越多，则词文档打分越高。

QueryNorm(q)，该项计算每个查询条目的方差和，这个值不影响排序，而仅仅使得不同的查询对象之间的分数可以比较。

具体地，编辑距离(Edit Distance)，又称Levenshtein距离，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。一般来说，编辑距离越小，两个串的相似度越大。通过计算搜索结果与查询对象的编辑距离，可以得到搜索结果的第二得分。而获得的最小编辑距离就代表搜索结果与查询对象最相似。

所述排序输出模块23，用于根据得分结果将所述搜索结果按照预设方式进行排序，将所述得分高于预设阈值的搜索结果按照预设方式进行输出显示。

具体地，所述预设方式可以是百分比的方式，将最终得分以百分比的形式进行从大到小输出，有利于用户对匹配度高低的理解，还可以生成条形图，这样更加直观。

具体地，所述预设阈值设置的目的是筛选出搜索结果中最有价值的一组，距离而言，可将预设阈值设置为40％。

此外，本申请还提出一种数据处理方法。

参阅图3所示，是本申请数据处理方法第一实施例的流程示意图。在本实施例中，根据不同的需求，图3所示的流程图中的步骤的执行顺序可以改变，某些步骤可以省略。

步骤S110，获取数据库中的文本数据或者其他类型的数据，对数据库中的文本数据或者其他类型的数据进行处理，基于lucene搜索引擎对所述文本数据或者其他类型的数据建立索引并生成索引文件，在建立所述索引的过程中，对索引写入权重，将所述索引文件存储到索引库

步骤S120，接收用户输入的查询信息，对所述查询信息进行处理生成查询对象，根据所述查询对象对所述索引库中的索引文件进行搜索，对搜索结果按照搜索评价方法进行评价打分。

具体地，用户输入的所述查询信息可以字符串、数字、一句话，甚至是一段话，对这些格式并不统一的查询信息可以进行一些处理，使得符合所述搜索打分模块22进行搜索，例如，可以对所述查询信息进行分词、过滤、同义词转换、近义词转换等等处理，从而使得所述查询信息转换为符合要求的所述查询对象。

步骤S130，根据得分结果将所述搜索结果按照预设方式进行排序，将所述得分高于预设阈值的搜索结果按照预设方式进行输出显示。

如图4所示，是本申请数据处理方法的第二实施例的流程示意图。本实施例中，本申请数据处理方法步骤S110中对数据库中的文本数据及其他类型的数据进行处理的方法包括以下步骤：

步骤S210，将其他类型的数据转换为所述文本数据。

具体地，将其他类型的数据转换为文本数据，例如有些数据以pdf形式、office文档形式等存储于服务器中，通过一些工具从office文档、pdf文档中抽出文本，例如，所述工具可以为apache POI和apache PDFbox等。

步骤S220，将所述文本数据按照词语切分、词性标注及词语过滤的步骤进行分词处理。

具体地，将第一步中得到的文本数据(包括数据库中的文本数据及转换后的文本数据)进行分词处理，分词处理的步骤包括：词语切分、词性标注及词语过滤，其中，词语切分主要利用上下文关系对语句进行切分，避免出现错误切分的情况，因为一句话在的不同切分方式往往具有不同意义，比如，鞋子和服装，应该切分为鞋子/和/服装，当切分为“鞋子/和服/装”时，明显意思南辕北辙。在词语切分之后，通过基于规则和统计的方法可以对切分后的词语进行词性标注，所述基于规则和统计的方法可为隐马尔可夫模型，例如，词性标注可以将鞋子和服装归类为名词，而将“和”归类为连词。词性标注后就是词语过滤，词语过滤的作用是将不重要的词语清除，这样可以精简索引库，提高检索的效率，例如，将名词“鞋子”、“服装”保留，将连词“和”过滤。

步骤S230，生成分词结果，将过滤后的词语作为最终分词结果。

具体地，过滤后的词语包括数据库中的文本数据及其他类型数据的分词，分词的同义词、近义词等，这些词将作为处理结果供下一步骤使用，使得系统更加有效的检索。

图4所示的流程图中的步骤的执行顺序可以改变，某些步骤可以省略。

如图5所示，是本申请数据处理方法的第三实施例的流程示意图。本实施例中，本申请数据处理方法步骤S110中基于lucene搜索引擎对所述文本数据或者其他类型的数据建立索引的方法包括以下步骤：

步骤S310，构造索引库，设置索引库的位置，用于存入索引。

步骤S320，构造索引创建器，用于创建索引。

步骤S330，为获取的所述文本数据或者其他类型的数据建立索引，根据不同的文件类型创建相应的文档描述，并设置相应属性域的内容。

图5所示的流程图中的步骤的执行顺序可以改变，某些步骤可以省略。

如图6所示，是本申请数据处理方法的第四实施例的流程示意图。本实施例中，本申请数据处理方法步骤S210中对所述查询信息进行处理生成查询对象的方法包括以下步骤：

步骤S410，对所述查询信息进行分词处理。

具体地，对所述查询信息进行分词处理，分词处理的步骤包括：词语切分、词性标注及词语过滤，其中，词语切分主要利用上下文关系对语句进行切分，避免出现错误切分的情况，因为一句话在的不同切分方式往往具有不同意义，比如，鞋子和服装，应该切分为鞋子/和/服装，当切分为“鞋子/和服/装”时，明显意思南辕北辙。在词语切分之后，通过基于规则和统计的方法可以对切分后的词语进行词性标注，所述基于规则和统计的方法可为隐马尔可夫模型，例如，词性标注可以将鞋子和服装归类为名词，而将“和”归类为连词。词性标注后就是词语过滤，词语过滤的作用是将不重要的词语清除，这样可以精简索引库，提高检索的效率，例如，将名词“鞋子”、“服装”保留，将连词“和”过滤。词语过滤后的词语形成分词集。

步骤S420，对分词集中的词语进行同义词、近义词转换，获得分词集的同义词、近义词集。

具体地，对分词集中的词语进行同义词、近义词转换，获得分词集的同义词、近义词集，将分词集、同义词、近义词集中的词语作为查询对象。将分词集中的词语在概念上扩展成对应的同义词、近义词或者上下位词，依据相似度优先算法抽取部分扩展词或接收用户选择的扩展词，最后把分词集中的词语和限定的扩展词一起作为查询条件传给检索模块作为查询对象。举例而言，若用户输入“今年中国的经济形式怎么样？”系统获得了“中国”，“经济”两个查询词，那么检索信息处理模块可获得“中国”的扩展词，比如“大陆”，“内地”，“国内”等；根据“经济”可获得扩展词“GDP”、“贸易”、“商业”、“财经”、“金融”等。

步骤S430，将所述分词集，同义词、近义词集中的词语作为查询对象

具体地，将用户输入的查询信息分词后进行转换以获得分词的同义词、近义词，利用分词结果及其同义词、近义词对索引库中的内容进行查询会更加全面、准确及迅速，也更符合模糊检索的定义。

图6所示的流程图中的步骤的执行顺序可以改变，某些步骤可以省略。

如图7所示，是本申请数据处理方法的第四实施例的流程示意图。本实施例中，本申请数据处理方法步骤S210中对搜索结果按照搜索评价方法进行评价打分的方法包括以下步骤：

步骤S510，根据第一评分公式获得本次搜索的第一得分。

具体地，所述预设搜索评价方法为利用包括基于第一评分公式及最小编辑距离法的搜索评分模型对所述搜索结果进行评分，其中，所述第一评分公式为：

具体地，所述第一评分公式中各函数的作用为：

步骤S520，根据最小编辑距离法获得本次搜索的第二得分。

具体地，其中，编辑距离(Edit Distance)，又称Levenshtein距离，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。一般来说，编辑距离越小，两个串的相似度越大。通过计算搜索结果与查询对象的编辑距离，可以得到搜索结果的第二得分。而获得的最小编辑距离就代表搜索结果与查询对象最相似。

具体地，所述步骤“根据最小编辑距离法获得本次搜索的第二得分”的步骤包括：

计算所述查询对象及所述搜索结果的编辑距离；

获取最小编辑距离；及

将所述最小编辑距离的值作为所述第二得分。

获取所述第一得分及第二得分的平均值，所述平均值作为本次搜索的最终得分。

具体地，对所述第一得分及第二得分可以设置不同的权重因子，将各自的权重因子与所述第一得分及第二得分分别相乘后进行加法运算获得搜索结果的评价打分结果，例如其公式可为：评分＝权重因子A*第一得分+权重因子B*第二得分，所述权重因子A及权重因子B的值按照需求进行设定，举例而言，若需要二者的均值，可将权重因子A及权重因子B设置为0.5。

图7所示的流程图中的步骤的执行顺序可以改变，某些步骤可以省略。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种数据处理方法，应用于服务器，其特征在于，所述方法包括步骤：

获取数据库中的文本数据或者其他类型的数据，对数据库中的文本数据或者其他类型的数据进行处理；

基于lucene搜索引擎对处理后的所述文本数据或者其他类型的数据建立索引并生成索引文件，将所述索引文件存储到索引库；

接收用户输入的查询信息，对所述查询信息进行处理生成查询对象，根据所述查询对象对所述索引库中的索引文件进行搜索，预设的搜索评价模型对搜索结果进行评价打分；及

根据得分结果将所述搜索结果按照分数从高到低的顺序进行排序，将所述得分高于预设阈值的搜索结果按照预设方式进行输出显示；

其中，所述预设方式为将所述得分结果生成条形图，并将所述得分结果按照百分比形式输出显示，所述预设阈值为40％。
如权利要求1所述的数据处理方法，其特征在于，所述其他类型的数据包括pdf文件数据、office文件数据，所述对数据库中的文本数据或者其他类型的数据进行处理的步骤包括：

将其他类型的数据转换为文本数据；

将数据库中的文本数据和所述文本数据按照词语切分、词性标注及词语过滤的步骤进行分词处理；及

生成分词结果，将过滤后的词语作为最终分词结果，将所述最终分词结果作为处理后的所述文本数据或者其他类型的数据。
如权利要求2所述的数据处理方法，其特征在于，所述“基于lucene搜索引擎对处理后的所述文本数据或者其他类型的数据建立索引并生成索引文件”的步骤包括：

构造索引库，设置索引库的位置，用于存入索引；

构造索引创建器，用于创建索引；及

为分词后的所述文本数据或者其他类型的数据建立索引，根据不同的文件类型创建相应的文档描述，并设置相应属性域的内容。
如权利要求3所述的数据处理方法，其特征在于，对所述查询信息进行处理生成查询对象的步骤包括：

对所述查询信息进行分词处理，分词处理的步骤包括：词语切分、词性标注及词语过滤；

对分词集中的词语进行同义词、近义词转换，获得分词集的同义词、近义词集；及

将所述分词集，同义词、近义词集中的词语作为查询对象。
如权利要求4所述的数据处理方法，其特征在于，所述搜索评价模型对所述搜索结果进行打分包括如下步骤：

根据第一评分公式获得本次搜索的第一得分；

根据最小编辑距离法获得本次搜索的第二得分；及

获取所述第一得分及第二得分的平均值，所述平均值作为本次搜索的最终得分。
如权利要求5所述的数据处理方法，其特征在于，所述第一评分公式为：

，其中，所述Score为所述第一得分，q为所述查询信息，t为所述查询信息分词后的每一项，d为去匹配的文档，函数tf(t in d)表示词项t在该文档中出现的频率，函数idf(t) ²表示词项t在所有文档中出现的频率，boost(t.field in d)为激励因子，boost(t.field in d)*lengthNorm(t.field in d)的值表示此条搜索结果中，给定字段中包含词项的总数，coord(q,d)表示当一篇文档中包含的搜索词越多，则词文档打分越高，QueryNorm(q)计算每个查询条目的方差和。
如权利要求6所述的数据处理方法，其特征在于，将所述函数tf(t in d)的值设置为1，去除重复出现的词对所述第一得分的影响。
如权利要求7所述的数据处理方法，其特征在于，所述“根据最小编辑距离法获得本次搜索的第二得分”的步骤包括：

计算所述查询对象及所述搜索结果的编辑距离；

获取最小编辑距离；及

将所述最小编辑距离的值作为所述第二得分。
一种服务器，其特征在于，所述服务器包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据处理系统，所述数据处理系统被所述处理器执行时实现如下步骤：

获取数据库中的文本数据或者其他类型的数据，对数据库中的文本数据或者其他类型的数据进行处理；

基于lucene搜索引擎对处理后的所述文本数据或者其他类型的数据建立索引并生成索引文件，将所述索引文件存储到索引库；

接收用户输入的查询信息，对所述查询信息进行处理生成查询对象，根据所述查询对象对所述索引库中的索引文件进行搜索，预设的搜索评价模型对搜索结果进行评价打分；及

根据得分结果将所述搜索结果按照分数从高到低的顺序进行排序，将所述得分高于预设阈值的搜索结果按照预设方式进行输出显示；

其中，所述预设方式为将所述得分结果生成条形图，并将所述得分结果按照百分比形式输出显示，所述预设阈值为40％。
如权利要求9所述的服务器，其特征在于，所述其他类型的数据包括pdf文件数据、office文件数据，所述对数据库中的文本数据或者其他类型的数据进行处理的步骤包括：

将其他类型的数据转换为文本数据；

将数据库中的文本数据和所述文本数据按照词语切分、词性标注及词语过滤的步骤进行分词处理；及

生成分词结果，将过滤后的词语作为最终分词结果，将所述最终分词结果作为处理后的所述文本数据或者其他类型的数据。
如权利要求10所述的服务器，其特征在于，所述“基于lucene搜索引擎对处理后的所述文本数据或者其他类型的数据建立索引并生成索引文件”的步骤包括：

构造索引库，设置索引库的位置，用于存入索引；

构造索引创建器，用于创建索引；及

为分词后的所述文本数据或者其他类型的数据建立索引，根据不同的文件类型创建相应的文档描述，并设置相应属性域的内容。
如权利要求11所述的服务器，其特征在于，对所述查询信息进行处理生成查询对象的步骤包括：

对所述查询信息进行分词处理，分词处理的步骤包括：词语切分、词性标注及词语过滤；

对分词集中的词语进行同义词、近义词转换，获得分词集的同义词、近义词集；及

将所述分词集，同义词、近义词集中的词语作为查询对象。
如权利要求12所述的服务器，其特征在于，所述搜索评价模型对所述搜索结果进行打分包括如下步骤：

根据第一评分公式获得本次搜索的第一得分；

根据最小编辑距离法获得本次搜索的第二得分；及

获取所述第一得分及第二得分的平均值，所述平均值作为本次搜索的最终得分。
如权利要求13所述的服务器，其特征在于，所述第一评分公式为：

，其中，所述Score为所述第一得分，q为所述查询信息，t为所述查询信息分词后的每一项，d为去匹配的文档，函数tf(t in d)表示词项t在该文档中出现的频率，函数idf(t) ²表示词项t在所有文档中出现的频率，boost(t.field in d)为激励因子，boost(t.field in d)*lengthNorm(t.field in d)的值表示此条搜索结果中，给定字段中包含词项的总数，coord(q,d)表示当一篇文档中包含的搜索词越多，则词文档打分越高，QueryNorm(q)计算每个查询条目的方差和。
如权利要求14所述的服务器，其特征在于，将所述函数tf(t in d)的值设置为1，去除重复出现的词对所述第一得分的影响。
如权利要求15所述的服务器，其特征在于，所述“根据最小编辑距离法获得本次搜索的第二得分”的步骤包括：

计算所述查询对象及所述搜索结果的编辑距离；

获取最小编辑距离；及

将所述最小编辑距离的值作为所述第二得分。
一种计算机可读存储介质，所述计算机可读存储介质存储有数据处理系统，所述数据处理系统可被至少一个处理器执行，所述数据处理系统被所述处理器执行时实现如下步骤：

获取数据库中的文本数据或者其他类型的数据，对数据库中的文本数据或者其他类型的数据进行处理；

基于lucene搜索引擎对处理后的所述文本数据或者其他类型的数据建立索引并生成索引文件，将所述索引文件存储到索引库；

接收用户输入的查询信息，对所述查询信息进行处理生成查询对象，根据所述查询对象对所述索引库中的索引文件进行搜索，预设的搜索评价模型对搜索结果进行评价打分；及

根据得分结果将所述搜索结果按照分数从高到低的顺序进行排序，将所述得分高于预设阈值的搜索结果按照预设方式进行输出显示；

其中，所述预设方式为将所述得分结果生成条形图，并将所述得分结果按照百分比形式输出显示，所述预设阈值为40％。
如权利要求17所述的计算机可读存储介质，其特征在于，所述其他类型的数据包括pdf文件数据、office文件数据，所述对数据库中的文本数据或者其他类型的数据进行处理的步骤包括：

将其他类型的数据转换为文本数据；

将数据库中的文本数据和所述文本数据按照词语切分、词性标注及词语过滤的步骤进行分词处理；及

生成分词结果，将过滤后的词语作为最终分词结果，将所述最终分词结果作为处理后的所述文本数据或者其他类型的数据。
如权利要求18所述的计算机可读存储介质，其特征在于，所述“基于lucene搜索引擎对处理后的所述文本数据或者其他类型的数据建立索引并生成索引文件”的步骤包括：

构造索引库，设置索引库的位置，用于存入索引；

构造索引创建器，用于创建索引；及

为分词后的所述文本数据或者其他类型的数据建立索引，根据不同的文件类型创建相应的文档描述，并设置相应属性域的内容。
如权利要求19所述的计算机可读存储介质，其特征在于，对所述查询信息进行处理生成查询对象的步骤包括：

对所述查询信息进行分词处理，分词处理的步骤包括：词语切分、词性标注及词语过滤；

对分词集中的词语进行同义词、近义词转换，获得分词集的同义词、近义词集；及

将所述分词集，同义词、近义词集中的词语作为查询对象。