CN111309870A

CN111309870A - 数据快速搜索方法、装置及计算机设备

Info

Publication number: CN111309870A
Application number: CN202010143153.7A
Authority: CN
Inventors: 孙波; 张小峰; 孙路路; 覃金丽
Original assignee: Ping An Pension Insurance Corp
Current assignee: Ping An Pension Insurance Corp
Priority date: 2020-03-04
Filing date: 2020-03-04
Publication date: 2020-06-19
Anticipated expiration: 2040-03-04
Also published as: CN111309870B

Abstract

本发明涉及数据技术领域，尤其涉及数据快速搜索方法、装置及计算机设备，该方法包括：提取待处理文本中的信息，得到待处理文本信息；对待处理文本信息进行预处理，形成包含若干个文本特征的结构化数据集；将结构化数据集输入至系统数据库中搜索，得到与待处理文本最接近的匹配文本；确定待处理文本是否满足搜索要求；在满足搜索要求时，基于匹配文本计算处理文本的输出值；在不满足搜索要求时，显示不满足搜索要求的原因。本发明通过对输入数据的预处理，完善和填充输入数据，形成结构化数据以及进行相似度匹配计算来确定处理文本的输出值，这样可以克服现有数据快速搜索算法所存在的缺陷，降低了输入数据质量要求和维护工作量。

Description

数据快速搜索方法、装置及计算机设备

技术领域

本发明涉及数据处理技术领域，尤其涉及数据快速搜索方法、装置及计算机设备。

背景技术

团体保险是指以一张保险单为多个被保险人提供保障的保险类型。通常的，团体保险是以集体单位作为承保对象，以保险公司和集体单位作为双方当事人，采用一张保险单形式订立合同。在团体保险中，一般以一年为期限。每一年都需要对保单进行更新，按照承保的集体单位的职业等多种因素定制相应的保险费率并给出报价。

现有的团体保险的保险费率和报价通常由计算机基于数据快速搜索算法来计算获得。数据快速搜索算法是指将客户提交的文本信息与人工预先设定好的多条规则(例如，设置团队的不同年龄区间所对应的系数)逐一进行匹配，获得对应的匹配结果。然后，将多个匹配结果叠加从而获得最终的计算结果。

但是，这样的数据快速搜索计算方式存在如下两个方面的不足：

其一，数据快速搜索所涉及到的维度非常多，需要设置非常多数量的规则。而且规则之间也容易出现交错或者重复设置的问题。这样对于系统数据库的维护会造成很大的麻烦，难以进行调整，令规则更新周期过长，与实际情况脱节。

其二，在进行数据快速搜索算法时，要求输入结构化的数据，并且不能空缺太多的信息，对于输入数据的数据质量要求很高，如果输入数据不达标，数据快速搜索算法就无法输出结果。由此使得客户提交文本信息时，必须严格按照格式进行填写。在信息填写出现偏差时，很容易输出错误结果或者无法输出结果。

因此，如何克服数据快速搜索算法维护难度高和对输入数据质量要求高的缺陷，避免规则更新周期过长，经常容易输出错误结果或者无法输出结果是一个迫切需要解决的问题。

发明内容

本发明实施例提供了一种数据快速搜索方法方法、装置、计算机设备及存储介质，旨在解决已有数据快速搜索算法对输入数据质量要求高，输入数据质量不足时无法输出正确结果的的技术问题。

第一方面，本发明实施例提供了一种数据快速搜索方法，包括：提取待处理文本中的信息，得到待处理文本信息；对所述待处理文本信息进行预处理，形成包含若干个文本特征的结构化数据集，所述结构化数据集满足匹配要求；将所述结构化数据集输入至系统数据库中搜索，匹配得到与所述待处理文本最接近的匹配文本；根据所述待处理文本与所述匹配文本的相似度，确定所述待处理文本是否满足搜索要求；在满足搜索要求时，基于所述匹配文本计算所述处理文本的输出值；在不满足搜索要求时，显示不满足搜索要求的原因。

可选地，对所述待处理文本信息进行预处理，形成包含若干个文本特征的结构化数据集，包括：对所述待处理文本信息进行分词处理，形成多个单词组成的文本序列；根据预设的停用词词典，搜索并删除所述文本序列中的停用词；在所述文本序列剩余的单词中，抽取词性为名词的单词作为关键词；根据所述关键词和预设的结构化数据集模板，编辑所述文本序列中以形成包含若干文本特征的结构化数据集。

可选地，所述方法还包括：判断所述待处理文本的输出率是否符合预设目标；在符合预设目标时，确认满足搜索要求；在不符合预设目标时，确定所述输出率与预设目标之间的差值。

可选地，所述方法还包括：为所述待处理文本生成唯一的评估号，所述评估号携带评估时间、评估次数、评估结果中的一种或多种信息。

可选地，所述基于所述匹配文本计算所述处理文本的输出值，包括：将所述待处理文本与所述匹配文本的相似度与预期系数相乘，获得所述待处理文本的输出值，其中所述相似度由每一个文本特征的欧式距离之和表示。

可选地，所述系统数据库中存储有与各种文本对应的原始数据，所述将所述结构化数据集输入至系统数据库中搜索，匹配得到与所述待处理文本最接近的匹配文本，包括：根据所述原始文本的数据质量，确定是否直接使用原始数据；在所述原始数据的数据量符合数据流量阈值时，确定使用原始数据；

根据所述若干个文本特征，并基于所述原始数据确定所述待处理文本与各种文本的差异程度以找到匹配文本。

第二方面，本发明实施例提供了一种数据快速搜索装置，包括：提取模块，用于提取待处理文本中的信息，得到待处理文本信息；预处理模块，用于对所述待处理文本信息进行预处理，形成包含若干个文本特征的结构化数据集，所述结构化数据集满足匹配要求；搜索模块，用于将所述结构化数据集输入至系统数据库中搜索，匹配得到与所述待处理文本最接近的匹配文本；确定模块，用于根据所述待处理文本与所述匹配文本的相似度，确定所述待处理文本是否满足搜索要求；计算模块，用于在满足搜索要求时，基于所述匹配文本计算所述处理文本的输出值；显示模块，用于在不满足搜索要求时，显示不满足搜索要求的原因。

可选地，所述预处理模块包括：处理单元，用于对所述待处理文本信息进行分词处理，形成多个单词组成的文本序列；搜索单元，用于根据预设的停用词词典，搜索并删除所述文本序列中的停用词；抽取单元，用于在所述文本序列剩余的单词中，抽取词性为名词的单词作为关键词；编辑单元，用于根据所述关键词和预设的结构化数据集模板，编辑所述文本序列中以形成包含若干文本特征的结构化数据集。

第三方面，本发明实施例又提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的数据快速搜索方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如上所述的数据快速搜索方法。

本发明实施例提供的数据快速搜索方法方法、装置、计算机设备及存储介质，通过对输入数据的预处理，完善和填充输入数据，形成结构化数据以及利用余弦相似度进行相似度匹配计算来确定文本成本，这样可以克服现有数据快速搜索算法所存在的缺陷，降低了输入数据质量要求和维护工作量。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种计算机设备的结构示意图；

图2为本发明实施例提供的数据快速搜索方法的流程示意图；

图3为图2中步骤22的流程示意图；

图4为本发明另一实施例提供的数据快速搜索方法的流程示意图；

图5为本发明实施例提供的数据快速搜索装置的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

本发明实施例首先提供一种数据快速搜索方法，该数据快速搜索方法可应用于团体保险报价，个人简历匹配等多种不同的应用场景中，在一具体应用场景中，数据快速搜索算法是指将客户提交的团体保险的文本信息与人工预先设定好的多条规则(例如，设置团队的不同年龄区间所对应的系数)逐一进行匹配，获得对应的匹配结果，为客户自动匹配合适的保险报价。应用本发明实施例提供的快速搜索方法，可以克服现有数据快速搜索算法所存在的缺陷，降低对输入数据的质量要求和维护工作量，加快更新周期。

以下首先对该数据快速搜索方法的硬件环境进行介绍。

请参阅图1，图1是本发明实施例提供的一种计算机设备100的结构示意图。该计算机设备100可以是计算机、计算机集群、主流计算机、专用于提供在线内容的计算装置，或者计算机网络，所述计算机网络包括一组以集中或分布方式操作的计算机。

如图1所示，所述计算机设备100包括：通过系统总线101连接的处理器102、存储器和网络接口105；其中，存储器可以包括非易失性存储介质103和内存储器104。

在本发明实施例中，根据所使用的硬件的类型，处理器102可以是中央处理单元(Central Processing Unit，CPU)，该处理器102还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。处理器102的数量可以是一个或者多个，一个或者多个处理器102可执行计算机程序指令的序列，以执行将在下文更详细地说明的各种数据快速搜索方法。

计算机程序指令由非易失性存储介质103存储、访问和从该非易失性存储介质103中读取，以便由处理器10执行，从而实现本发明下述实施例公开的数据快速搜索方法。例如，非易失性存储介质103存储执行下述数据快速搜索方法的软件应用。此外，非易失性存储介质103可存储整个软件应用或者只存储可由处理器102执行的软件应用的一部分。应注意，尽管图1中只示出一个框，但非易失性存储介质103可包括安装在中央处理装置或不同计算装置上的多个物理装置。

该网络接口105用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图1中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备100的限定，具体的计算机设备100可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本发明实施例还提供一种计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现本发明实施例公开的数据快速搜索方法。该计算机程序产品体现在含有计算机程序代码的一个或多个计算机可读存储介质上(包括但不限于，磁盘存储器、CD-ROM、光学存储器等)。

在用软件实施所述计算机设备100的情况下，图2示出了一实施例的数据快速搜索方法的流程示意图，以下对图2中的方法详细描述。请参阅图2，该方法包括如下步骤：

步骤21、提取待处理文本中的信息，得到待处理文本信息。

在本发明实施例中待处理文本为还没有进行算法匹配的文本，待处理文本中可以提权相关的文本信息，该文本信息可以作为输入数据应用于本发明实施例的数据快速搜索方法中。

在一具体的应用场景中，该待处理文本可以为团体保险，团体保险中的文本信息指该团体保险所涉及到的，与承保的客户需求相关的资料信息，包括但不限于需求的保障、投保人数、性别以及所属行业等等。应当说明的是，本发明实施例对文本信息所涉及的信息的维度并没有限制，客户可以根据自身的情况进行描述即可，而不是强制性要求必须输入完备的文本信息。

步骤22、对所述待处理文本信息进行预处理，形成包含若干个文本特征的结构化数据集，所述结构化数据集满足匹配要求。

在团体保险的应用场景中，本发明实施例即对团体保险的文本信息进行预处理，形成相匹配的结构化数据集，所述结构化数据集包含若干个文本特征。

经过预处理的文本信息可以形成结构化数据集，该结构化数据集中的若干个文本特征由于是经过预处理得到，因此具有更高的适用性。以下对该预处理过程进行详细的说明，请进一步参阅图3，图3步骤22的流程示意图，如图3所示，步骤22具体包括：

步骤221、对所述待处理文本信息进行分词处理，形成多个单词组成的文本序列。

由于步骤21中提取的文本信息通常包含各种内容，因此需要将对该待处理文本信息进行分词处理，形成多个单词组成的文本序列。

步骤222、根据预设的停用词词典，搜索并删除所述文本序列中的停用词。

组成步骤221中的多个单词的文本序列中的某些单词不是算法匹配所涉及的关键词，这些单词不一定完全符合匹配计算要求。因此，可以采用预设的停用词词典，搜索并删除所述文本序列中的停用词，以删除不必要的单词。

步骤223、在所述文本序列剩余的单词中，抽取词性为名词的单词作为关键词。

此步骤主要确定各个单词的词性，然后将词性是名词的文本特征作为关键词，该关键词就是客户输入的信息里，可以反映和定义客户的重要单词。

步骤224、根据所述关键词和预设的结构化数据集模板，编辑所述文本序列中以形成包含若干文本特征的结构化数据集。

此步骤通过所述关键词和预设的结构化数据集模板中文本特征的对应关系，可以对所述文本序列进行编辑以最终得到满足匹配要求的结构化数据集。

在本发明实施例中，“文本特征”是指计算机在系统数据库中进行匹配时使用到的维度。文本特征可以根据实际情况的需要，例如保险公司的策略、保险种类等进行设置。

在具体实例中，团体保险可能包含了许多不同类型和责任的险种，为了方便统计管理，在发明实施例可以以层级的方式对团体保险进行划分(类似于树状结构的形式)，在每个层级之下包含有多个不同的文本特征，若干个文本特征组成一结构化数据集。

在一具体实施例中，例如，团体保险按照险种分为：医疗类、意外类、医疗意外类以及重疾和定寿类等，则在结构化数据集中，意外医疗类涉及的文本特征包括：保额、年龄、地区、医保范围内赔付比例、免赔额以及以及人数规模等；

医疗类涉及的文本特征包括：保额、被保人属性、乙类赔付比例、地区、医保范围内赔付比例以及免赔额等；

意外类涉及的文本特征包括：保额、年龄、地区、人数规模、行业等；

重疾和定寿类涉及的文本特征包括：被保人属性、行业以及人数规模等。

由于获取的团体保险的文本信息不一定完全符合匹配计算要求，即上述组成一结构化数据集的各个文本特征，一些来自于文本信息中的关键词，另一些则可以来自于网络爬虫工具等其他途径。

此步骤的编辑方式不限于修改，添加关键词等方式。在一具体实施例例中，当需要添加所述关键词时，可以基于所述文本信息涉及的关键词，通过网络爬虫搜索相关信息(例如，检测确定文本信息中存在组织机构代码时，可以自动的通过网络爬虫工具，在互联网中抓取或者查询对应的企业信息，获取该客户的名称、经营范围以及所在行业分类)以及通过系统数据库的数据统计结果填充(系统数据库中已有某地某区的工商银行的完整文本信息时，参考某地某区工商银行的文本信息对同一层次行政区域的工商银行空缺的信息进行填充)。

步骤23、将所述结构化数据集输入至系统数据库中搜索，匹配得到与所述待处理文本最接近的匹配文本。

此处需要说明的是，计算机的系统数据库存储有与各种文本对应的原始数据，在一具体实施例中，计算机的系统数据库存储有已有团队对应的原始数据，该原始数据以若干个文本特征的形式，在系统数据库中进行结构化的存储。

在一具体根据所述若干个文本特征，可以在系统数据库中搜索与团体保险最接近的已有团体保险，其具体搜索步骤如下：

1、根据所述原始数据的数据质量，确定是否直接使用原始数据；

2、在所述原始数据的数据量符合数据流量阈值时，确定使用原始数据；

3、根据所述若干个文本特征，并基于所述原始数据确定当前需要报价的团体保险与已有团体保险之间的差异程度以找到最接近的已有团体保险。

当原始数据的数据量充足，具有良好的代表性时，可以直接使用原始数据。而当原始数据的数据量有限的情况下，可以由技术人员根据实际情况和经验，对原始数据进行针对性的调整。

在实际操作过程中，可以分别为各个类别设置对应的数据量阈值(如医疗险人数满足5000人，意外类满足5000人)，当原始数据符合该筛选的数据量阈值时，可以确定原始数据的数据量充足，可以直接使用。否则，则需要技术人员确定是否直接使用或调整。

基于系统数据库提供的原始数据，按照逐个文本特征计算的方式，可以确定当前需要报价的团体保险与已有团体保险之间的差异程度从而找到最接近的已有团体保险。具体而言，可以采用余弦相似度或者欧式距离来衡量待报价的团体保险的文本特征与已有团体保险之间的差异。

步骤24、根据所述待处理文本与所述匹配文本的相似度，确定所述待处理文本是否满足搜索要求。

此步骤可以通过设置相似度阈值来确定处理文本是否满足搜索要求。在一具体的团体保险应用场景中，当待报价的团体保险与已有团体保险之间的相似度达到或者超过该相似度阈值时，可认为满足搜索要求，支持自动报价。

当然，在另一些实施例中，还可以设置文本特征的相似度阈值。在某个重要的文本特征之间的相似度不足时，就进行一票否决，确定该团体保险不支持自动报价。例如，在属于基础表部分的文本特征的相似度小于设定阈值的情况下，由于缺乏数据支持，可以确定该团体保险不支持自动报价，而直接转入人工服务。

但在其他成本因子或者费率因子部分的文本特征的相似度小于设定阈值的情况下，可以忽略这些缺失，继续进行判断，只需要已有的文本特征均支持自动报价即可。

步骤25、在满足搜索要求时，基于所述匹配文本计算所述待处理文本的输出值。

在本发明实施例中，所述待处理文本与经过算法匹配的输出值为映射关系，在满足搜索要求时，以一待处理文本作为输入数据，则会有对应的目标输出值。在具体的团体保险应用场景中，该输出值为团体保险的保险成本，保险成本通过保险费率来体现，在本发明实施例中，所述保险费率为交纳费用的金额与承担赔偿金额的比率。

将最接近的已有团体保险的保险成本与所述团体保险之间的接近程度以及预期系数相乘，即可以获得所述团体保险对应的保险成本，其中所述接近程度由每一个文本特征的欧式距离之和表示。

而预期系数是一个常数值，用于表示时间发展而带来的影响(例如通胀因素)。在实际应用中，该预期系数可以通过系统数据库内已有的在前几年的数据，通过卡尔曼滤波预测模型计算获得，也可以通过人为设置的方式进行设置。

此处需要说明的是，由于在计算保险成本时，需要具体到提供每一个具体险种对应的保费。因此，对于那些没有确定保费的层级，可以直接通过基础费率来计算得到各个具体险种对应的保费。但对于那些有确定保费总数的层级，则需要合理的将该层级的总保费分摊到层级下每个具体险种中。

以医疗类、意外类、医疗意外类以及重疾和定寿类四类的险种的分摊为例：

4、对医疗类的险种，按照人均成本/植入目标赔付率计算人均保费；

5、对意外医疗类的险种，同样按照人均成本/植入目标赔付率计算人均保费；

6、对重疾和定寿类的险种，也按照人均成本/植入目标赔付率计算人均保费；

其中，该植入目标赔付率是一个预设的数值，可以根据实际情况的需要而进行设置。

对于意外类的险种，将总保费与上述步骤4至6计算得到的人均保费之和相减后获得剩余保费。然后，将剩余保费按照意外类下各个具体险种对应的人均成本，按比例的分摊到该具体险种。

在所述剩余保费为0或小于0时，意外类险种的保费按照各个具体险种的最低费率进行计算。而若层级中只存在一种类型时，按照该类型下，各个具体险种对应的人均成本，按比例的分摊到该具体险种。另外，在计算过程中，出现小数点的情况下，可以根据实际情况的需要，设置为自动进位或者舍弃一位以保证数据位数的一致。

步骤26、在不满足搜索要求时，显示不满足搜索要求的原因。

在具体的团体保险应用场景中，不满足搜索要求团体保险即不支持自动报价，对于不能自动报价的团体保险，还可以自动的切换至人工操作服务。另外，为了提高使用体验，还可以向客户反馈不可进行自动报价的原因。

具体而言，不可进行自动报价的原因包括：保险成本数据或者保险费率数据未知，手续费、规模、职业类别等超出自动报价范围以及特定险种不允许进行自动报价。

在一些实施例中，如图4所示，所述方法除包括上述步骤21-步骤26之外，还包括如下步骤：

步骤27、判断所述待处理文本的输出率是否符合预设目标，若是执行步骤28，若否执行步骤29；

步骤28、在符合预设目标时，确认满足搜索要求；

步骤29、在不符合预设目标时，确定所述输出率与预设目标之间的差值。

在具体的团体保险应用场景中，该输出率即为团体保险的综合成本率，综合成本率是用于衡量保险业务利润率的指标。在超过100％的情况下，表明该保险处于亏损状态，而在低于100％的情况下，表明其处于盈利状态。预设目标可以根据实际情况而设置。

在本发明实施例中，该预设目标具体可以通过如下的字段来表示。其中，每个字段对应的数据信息也可以存储在系统数据库中，在需要时被调用而用于计算和确定该预设目标。

该字段可以包括以下一种或者多种字段：间接费用表、非一年期成本系数、滞后系数与增长率(满期一年时赔款滞后系数，满期一年时赔付人数滞后系数，满期一年时赔付人次滞后系数，人数发生率年增长率，人次发生率年增长率，人均赔款年增长率，人均成本增长率，理赔持续月度数)、自动报价综合成本率目标(既往累计三年赔付率，最近一年赔付率，整体综合成本率目标，层级综合成本率目标)、保费分摊赔付率目标等。

在实际的报价过程中，客户或者业务员可能会给出自己的预期保费或者保费报价。因此，在一些实施例中，还可以根据是否有给出预期价格，来采用不同的方式来计算和判定综合成本率是否符合预设的目标。

在没有给出保费报价的情况时：首先，直接使用步骤四中计算获得保费来分别计算总综合成本率以及各个层级的综合成本率；然后，判断所述总综合成本率和单个层级的综合成本率是否均能够低于预设的单层级预设值和总预设值。只有当两者均符合时，确定所述综合成本率符合预设的目标。

在给出了保费报价的情况时：根据所述保费报价计算此时的总综合成本率以及各个层级的综合成本率；判断总综合成本率以及各个层级的综合成本率是否均能够低于预设的单层级预设值和总预设值。若是，确定所述综合成本率符合预设的目标；若否，获取数据库中各个具体险种的最低费率，以该最低费率计算此时的总综合成本率以及各个层级的综合成本率。判断总综合成本率以及各个层级的综合成本率是否均能够低于预设的单层级预设值和总预设值。只有当两者均符合时，才确定所述综合成本率符合预设的目标。

在一些实施例中，还可以为每一团体保险生成其专属的唯一评估号，以区分开不同的团体保险，具体的，该评估号可以携带评估时间、评估次数、评估结果中的一种或多种信息。该评估号是用于对每个团体保险进行标记的号码，标记具体评估的时间、次数、是否通过等信息，可以据此识别区分不同的评估信息。

在一些实施例中，还可以大致将团体保险的评估号分为可自动报价和不可自动报价两大类。其中，对于可以自动报价的团体保险，按照顺序给与对应的评估批次号，标注处理人为管理者。而对于不可自动报价的团体保险，除了按顺序标记评估批次号以外，还进一步的记录对应的报价操作者。

本发明实施例提供的数据快速搜索方法，通过对文本信息进行预处理，以完善和填充文本信息，形成结构化数据以及利用余弦相似度进行相似度匹配计算来确定文本的输出值，这样可以克服现有数据快速搜索算法所存在的缺陷，降低了输入数据质量要求和维护工作量。

本发明实施例还提供一种与上述实施例中的数据快速搜索方法对应的数据快速搜索装置，体请参阅图5，图5示出了一种数据快速搜索装置的结构框图，如图5所示，所述数据快速搜索装置500包括：提取模块51、预处理模块52、搜索模块53、确定模块54、计算模块55和显示模块56。

提取模块51，用于提取待处理文本中的信息，得到待处理文本信息；预处理模块52，用于对所述待处理文本信息进行预处理，形成包含若干个文本特征的结构化数据集，所述结构化数据集满足匹配要求；搜索模块53，用于将所述结构化数据集输入至系统数据库中搜索，匹配得到与所述待处理文本最接近的匹配文本；确定模块54，用于根据所述待处理文本与所述匹配文本的相似度，确定所述待处理文本是否满足搜索要求；计算模块55，用于在满足搜索要求时，基于所述匹配文本计算所述处理文本的输出值；显示模块56，用于在不满足搜索要求时，显示不满足搜索要求的原因。

所述预处理模块包括：处理单元、搜索单元、抽取单元和编辑单元。处理单元，用于对所述待处理文本信息进行分词处理，形成多个单词组成的文本序列；搜索单元，用于根据预设的停用词词典，搜索并删除所述文本序列中的停用词；抽取单元，用于在所述文本序列剩余的单词中，抽取词性为名词的单词作为关键词；编辑单元，用于根据所述关键词和预设的结构化数据集模板，编辑所述文本序列中以形成包含若干文本特征的结构化数据集。

本发明实施例提供的数据快速搜索装置，通过对待处理文本的文本信息进行预处理，以完善和填充文本信息，形成结构化数据以及利用余弦相似度进行相似度匹配计算，这样可以克服现有数据快速搜索算法所存在的缺陷，降低了输入数据质量要求和维护工作量。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种数据快速搜索方法，其特征在于，包括：

提取待处理文本中的信息，得到待处理文本信息；

对所述待处理文本信息进行预处理，形成包含若干个文本特征的结构化数据集，所述结构化数据集满足匹配要求；

将所述结构化数据集输入至系统数据库中搜索，匹配得到与所述待处理文本最接近的匹配文本；

根据所述待处理文本与所述匹配文本的相似度，确定所述待处理文本是否满足搜索要求；

在满足搜索要求时，基于所述匹配文本计算所述处理文本的输出值；

在不满足搜索要求时，显示不满足搜索要求的原因。

2.根据权利要求1所述的数据快速搜索方法，其特征在于，所述对所述待处理文本信息进行预处理，形成包含若干个文本特征的结构化数据集，包括：

对所述待处理文本信息进行分词处理，形成多个单词组成的文本序列；

根据预设的停用词词典，搜索并删除所述文本序列中的停用词；

在所述文本序列剩余的单词中，抽取词性为名词的单词作为关键词；

根据所述关键词和预设的结构化数据集模板，编辑所述文本序列中以形成包含若干文本特征的结构化数据集。

3.根据权利要求1所述的数据快速搜索方法，其特征在于，所述方法还包括：

判断所述待处理文本的输出率是否符合预设目标；

在符合预设目标时，确认满足搜索要求；

在不符合预设目标时，确定所述输出率与预设目标之间的差值。

4.根据权利要求1所述的数据快速搜索方法，其特征在于，所述方法还包括：

为所述待处理文本生成唯一的评估号，所述评估号携带评估时间、评估次数、评估结果中的一种或多种信息。

5.根据权利要求1所述的数据快速搜索方法，其特征在于，所述基于所述匹配文本计算所述处理文本的输出值，包括：

将所述待处理文本与所述匹配文本的相似度与预期系数相乘，获得所述待处理文本的输出值，其中所述相似度由每一个文本特征的欧式距离之和表示。

6.根据权利要求1所述的数据快速搜索方法，其特征在于，所述系统数据库中存储有与各种文本对应的原始数据，

所述将所述结构化数据集输入至系统数据库中搜索，匹配得到与所述待处理文本最接近的匹配文本，包括：

根据所述原始文本的数据质量，确定是否直接使用原始数据；

在所述原始数据的数据量符合数据流量阈值时，确定使用原始数据；

7.一种数据快速搜索装置，其特征在于，包括：

提取模块，用于提取待处理文本中的信息，得到待处理文本信息；

预处理模块，用于对所述待处理文本信息进行预处理，形成包含若干个文本特征的结构化数据集，所述结构化数据集满足匹配要求；

搜索模块，用于将所述结构化数据集输入至系统数据库中搜索，匹配得到与所述待处理文本最接近的匹配文本；

确定模块，用于根据所述待处理文本与所述匹配文本的相似度，确定所述待处理文本是否满足搜索要求；

计算模块，用于在满足搜索要求时，基于所述匹配文本计算所述处理文本的输出值；

显示模块，用于在不满足搜索要求时，显示不满足搜索要求的原因。

8.根据权利要求7所述的数据快速搜索装置，其特征在于，所述预处理模块包括：

处理单元，用于对所述待处理文本信息进行分词处理，形成多个单词组成的文本序列；

搜索单元，用于根据预设的停用词词典，搜索并删除所述文本序列中的停用词；

抽取单元，用于在所述文本序列剩余的单词中，抽取词性为名词的单词作为关键词；

编辑单元，用于根据所述关键词和预设的结构化数据集模板，编辑所述文本序列中以形成包含若干文本特征的结构化数据集。

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的数据快速搜索方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至6任一项所述的数据快速搜索方法。