CN112100313A

CN112100313A - 一种基于最细粒度切分的数据索引方法及系统

Info

Publication number: CN112100313A
Application number: CN202010779832.3A
Authority: CN
Inventors: 孔平; 靳占新; 王刚; 戚鲁凤; 栾松涛; 魏升吉; 李玉华; 董文杰; 朱俞霖; 柳明辉
Original assignee: Shandong Luneng Software Technology Co Ltd
Current assignee: Shandong Luneng Software Technology Co Ltd
Priority date: 2020-08-05
Filing date: 2020-08-05
Publication date: 2020-12-18
Anticipated expiration: 2040-08-05
Also published as: CN112100313B

Abstract

本发明公开了一种基于最细粒度切分的数据索引方法及系统，包括：提取待处理的原文本的关键词，对关键词进行最细粒度的切分，形成若干单个候选微分词；单个候选微分词通过与全业务数据中心进行匹配，筛选得到索引关键词组；按照优先级顺序对所述索引关键词组中的各索引关键词进行排序，确定每一个索引关键词所属词汇类别的权重；按照各索引关键词的排序进行顺次索引。本发明索引过程中学习性较强，可以根据用户检索词汇类别权重进行有效的学习并更新存储；能够解决传统分词算法方式粗狂、集成繁琐、有效索引比率低等问题。

Description

一种基于最细粒度切分的数据索引方法及系统

技术领域

本发明属于数据索引技术领域，尤其涉及一种基于最细粒度切分的数据索引方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

中文分词(Chinese Word Segmentation)就是将一个汉字序列切分成一个个单独的词的过程，它是进行数据索引的基础。在实际应用领域，分词能够更加细致、准确、快速的匹配、查询、获得结果集。

现有技术在进行数据索引时，往往采用分词器进行分词，基于词典中存储的词进行匹配实现分词，但是这种方式的分词结果准确性仅依赖于词典中的词汇量，往往偏离用户真正要表达的意思，从而导致数据检索结果不准确。比如：可能将“山东大学男”分词为“山东大”“学男”。

另外，在进行数据索引时，由于分词的准确性和有效性偏低，导致数据处理量大，搜索效率低下，对服务器的性能要求较高。

发明内容

本发明为了解决上述问题，提出了一种基于最细粒度切分的数据索引方法及系统，能够解决传统分词算法方式粗狂、集成繁琐、有效索引比率低等问题，另外通过适配全业务数据中心，极大的保证了搜索结果的准确性和搜索效率。

在一些实施方式中，采用如下技术方案：

一种基于最细粒度切分的数据索引方法，包括：

提取待处理的原文本的关键词，对关键词进行最细粒度的切分，形成若干单个候选微分词；

所述单个候选微分词通过与全业务数据中心进行匹配，筛选得到索引关键词组；

按照优先级顺序对所述索引关键词组中的各索引关键词进行排序，确定每一个索引关键词所属词汇类别的权重；

按照各索引关键词的排序进行顺次索引。

作为进一步地方案，单个索引关键词进行索引时，优先反馈权重最高的词汇类别对应的索引结果。

作为进一步地方案，按照各索引关键词的排序进行顺次索引，具体过程为：

在前一个索引关键词对应的索引结果的基础上，检索下一个索引关键词对应的检索结果。

作为进一步地方案，所述全业务数据中心包括词库，所述词库中包括关键词、每一个关键词对应的优先级、每一个关键词所属的不同词汇类别的权重，以及每一个关键词的索引路径。

作为进一步地方案，所述每一个关键词对应的优先级根据业务需求预先设定；所述关键词所属的不同词汇类别的权重根据用户对索引结果的响应次数确定。

作为进一步地方案，按照各索引关键词的排序进行顺次索引之后，基于用户对得到的索引结果的响应结果，对全业务数据中心中索引关键词所属词汇类别的权重进行更新。

作为进一步地方案，将新出现的关键词、对应索引路径以及对应的索引关键词的优先级存储到全业务数据中心，并根据用户对每次索引结果的响应，对关键词所属词汇类别的权重进行更新。

在另一些实施方式中，采用如下技术方案：

一种基于最细粒度切分的数据索引系统，其特征在于包括：

数据切分模块：用于提取待处理的原文本的关键词，对关键词进行最细粒度的切分，形成若干单个候选微分词；

数据匹配模块：用于将单个候选微分词通过与全业务数据中心进行匹配，筛选得到索引关键词组；

关键词排序模块：用于按照优先级顺序对所述索引关键词组中的各索引关键词进行排序，确定每一个索引关键词所属词汇类别的权重；

数据索引模块：用于按照各索引关键词的排序进行顺次索引。

在另一些实施方式中，采用如下技术方案：

一种终端设备，其包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行上述的基于最细粒度切分的数据索引方法。

在另一些实施方式中，采用如下技术方案：

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行上述的基于最细粒度切分的数据索引方法。

与现有技术相比，本发明的有益效果是：

本发明索引过程中学习性较强，可以根据用户检索词汇类别权重进行有效的学习并更新存储；能够解决传统分词算法方式粗狂、集成繁琐、有效索引比率低等问题；

本发明对索引关键词组进行排序，并顺次检索，逐渐缩小数据索引的范围，减少了数据处理量，降低了对于处理器性能的要求，同时提高数据索引效率。

本发明通过匹配全业务数据中心这种数据中台级的应用架构，能够直接匹配出索引关键词、其优先级及所属词汇类别的权重，并且全业务数据中心在索引过程中实时更新，极大的保证了搜索结果的准确性并提高搜索效率。

附图说明

图1是本发明实施例中的基于最细粒度切分的数据索引方法流程图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

在一个或多个实施方式中，公开了一种基于最细粒度切分的数据索引方法，参照图1，包括以下过程：

步骤1：提取待处理的原文本的关键词，对关键词进行最细粒度的切分，形成若干单个候选微分词；

步骤2：所述单个候选微分词通过与全业务数据中心进行匹配，筛选得到索引关键词组；

步骤3：按照优先级顺序对所述索引关键词组中的各索引关键词进行排序，确定每一个索引关键词所属词汇类别的权重；

步骤4：按照各索引关键词的排序进行顺次索引。

具体地，采用最细粒度切分算法，将原文本的关键词按照最细粒度进行切分；最新粒度切分算法可以采用现有的算法，比如：IK正向迭代最细粒度切分算法。

单个候选微分词与全业务数据中心进行匹配，全数据业务中心存储有不同业务需求下的所有数据，比如：人资、物资和财务等等。同时，全数据业务中心包括词库，词库里面存储有关键词、关键词的优先级关键词所属不同词汇类别的权重以及关键词对应的索引路径。

其中，关键词的优先级根据业务需求进行预先设定，比如：“山东大学”优先级＞“计算机学院”优先级＞“男”优先级。

关键词所属不同词汇类别的权重根据客户对于不同词汇类别的索引结果的响应次数确定，比如：山东大学作为毕业院校类的词汇属性的索引结果，被用户点击的次数最多，则该词汇类别的权重最高。假如在后续的检索过程中，山东大学作为居住地址类的词汇属性的索引结果，被用户点击的次数最多，则更新该词汇类别的权重变为最高。

按照优先级顺序对索引关键词组中的各索引关键词进行排序，在进行索引时，按照各索引关键词的排序进行顺次索引；即，在前一个索引关键词对应的索引结果的基础上，检索下一个索引关键词对应的检索结果。比如：先检索“山东大学”关键词对应的索引结果，然后在此结果的基础上进一步检索“计算机学院”关键词对应的索引结果，然后再此结果的基础上，再进一步检索“男”关键词对应的索引结果；按照优先级排序进行检索，能够一步一步地缩小数据检索的范围，不断减少数据处理量，降低对于服务器性能的要求。

在单个索引关键词进行索引时，优先反馈权重最高的词汇类别对应的索引结果；然后根据用户对于索引结果的响应，比如：点击索引结果，不断更新每一个索引关键词所属词汇类别的权重，并存储至全数据业务中心。

同时，对于新出现的索引关键词，将该关键词、对应索引路径以及对应的索引关键词的优先级存储到全业务数据中心，并根据用户对每次索引结果的响应，对该关键词所属词汇类别的权重进行更新。

通过全数据业务中心的不断自学习，不断提高索引结果的准确性和搜索效率。

实施例二

在一个或多个实施方式中，公开了一种基于最细粒度切分的数据索引系统，包括：

需要说明的是，上述各模块的具体工作方式采用实施例一中公开的方法实现，此处不再赘述。

实施例三

在一个或多个实施方式中，公开了一种终端设备，包括服务器，所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现实施例一中的基于最细粒度切分的数据索引方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的基于最细粒度切分的数据索引方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于最细粒度切分的数据索引方法，其特征在于，包括：

按照各索引关键词的排序进行顺次索引。

2.如权利要求1所述的一种基于最细粒度切分的数据索引方法，其特征在于，单个索引关键词进行索引时，优先反馈权重最高的词汇类别对应的索引结果。

3.如权利要求1所述的一种基于最细粒度切分的数据索引方法，其特征在于，按照各索引关键词的排序进行顺次索引，具体过程为：

4.如权利要求1所述的一种基于最细粒度切分的数据索引方法，其特征在于，所述全业务数据中心包括词库，所述词库中包括关键词、每一个关键词对应的优先级、每一个关键词所属的不同词汇类别的权重，以及每一个关键词的索引路径。

5.如权利要求4所述的一种基于最细粒度切分的数据索引方法，其特征在于，所述每一个关键词对应的优先级根据业务需求预先设定；所述关键词所属的不同词汇类别的权重根据用户对索引结果的响应次数确定。

6.如权利要求4所述的一种基于最细粒度切分的数据索引方法，其特征在于，按照各索引关键词的排序进行顺次索引之后，基于用户对得到的索引结果的响应结果，对全业务数据中心中索引关键词所属词汇类别的权重进行更新。

7.如权利要求1所述的一种基于最细粒度切分的数据索引方法，其特征在于，将新出现的关键词、对应索引路径以及对应的索引关键词的优先级存储到全业务数据中心，并根据用户对每次索引结果的响应，对关键词所属词汇类别的权重进行更新。

8.一种基于最细粒度切分的数据索引系统，其特征在于，包括：

9.一种终端设备，其包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，其特征在于，所述指令适于由处理器加载并执行权利要求1-7任一项所述的基于最细粒度切分的数据索引方法。

10.一种计算机可读存储介质，其中存储有多条指令，其特征在于，所述指令适于由终端设备的处理器加载并执行权利要求1-7任一项所述的基于最细粒度切分的数据索引方法。