CN112836008A

CN112836008A - 基于去中心化存储数据的索引建立方法

Info

Publication number: CN112836008A
Application number: CN202110167802.1A
Authority: CN
Inventors: 周喜; 石秋娥; 王轶; 马博; 王磊; 马玉鹏
Original assignee: Xinjiang Technical Institute of Physics and Chemistry of CAS
Current assignee: Xinjiang Technical Institute of Physics and Chemistry of CAS
Priority date: 2021-02-07
Filing date: 2021-02-07
Publication date: 2021-05-25
Anticipated expiration: 2041-02-07
Also published as: CN112836008B

Abstract

本发明涉及一种基于去中心化存储数据的索引建立方法，该去中心化存储数据的索引建立方法包括：选取对数据区分度高的词作为关键词；使用训练好的词向量模型将选取的关键词转为词向量表示；将词向量降维，得到关键词的哈希表示；将词哈希与数据标识组合，得到索引项，索引文件中包含词哈希与对应的数据的映射关系；使用分布式哈希表存储索引文件。数据请求者发起以关键词作为查询条件的查询请求时，通过匹配相应的索引文件，得到数据相关信息，若无法精确匹配，因为语义相似的关键词索引相邻存储，则在索引存储节点附近查询，从而实现索引查询。本发明能够实现去中心化存储数据的索引构造，通过关键词语义查询相关数据，满足去中心化数据获取的需求。

Description

基于去中心化存储数据的索引建立方法

技术领域

本发明涉及信息技术领域中的信息处理技术、信息检索领域，尤其一种去中心化存储数据的索引建立方法。

背景技术

数据的去中心化存储是一种适合数据的规模量级不断提高、去中心化的优良解决方案，它在满足海量数据存储需求的同时，还可以有效的进行数据的共享。

非结构化的文本数据检索，其核心思想是建立全文检索的倒排索引。目前多数搜索引擎主要使用的就是倒排索引技术，需要精确匹配关键词。然而，不同用户对同一对象的描述往往都不完全一致。因此，词项含义相同或相近，而词项本身不同，检索结果差强人意，即在词级别语义概念上的检索并不理想。

目前还有一些做法是将文本映射到向量空间后，在向量空间执行搜索，但这一类技术只适合做文本的相似性匹配，在长文本和短查询之间存在较差的相识性，不适合用来做查询。

在现有的技术中存在以下问题：

1)索引建立未考虑词项之间的语义相似性；

2)索引使用的是中心化的存储方式；

为解决上述索引建立方法中存在的问题，本发明提供了一种去中心化存储数据的索引建立方法。该方法可以通过将关键词的语义相似性转为哈希相似性，建立索引项，将索引去中心化存储，使得语义相似的词的索引存储节点也相邻，实现去中心化数据的有效查询。

发明内容

本发明目的在于，提供一种基于去中心化存储数据的索引建立方法，用以解决现有去中心化存储数据中无法根据关键词语义有效查询相关数据的问题。该方法包括：选取对数据区分度高的词作为关键词；使用训练好的词向量模型将选取的关键词转为词向量表示；将词向量进行降维，得到关键词的词哈希；将词哈希与数据标识组合，得到索引项，索引文件中包含词哈希与对应的数据的映射关系；使用分布式哈希表存储索引文件。数据请求者发起以关键词作为查询条件的查询请求时，通过匹配相应的索引文件，得到数据相关信息，若无法精确匹配，因为语义相似的关键词索引相邻存储，则在索引存储节点附近查询，实现索引查询。本发明能够实现去中心化存储数据的索引构造，通过关键词语义查询相关数据，满足去中心化数据获取的需求。

本发明所述的一种基于去中心化存储数据的索引建立方法，该方法对去中心化存储的数据生成关键词语义相似性转为哈希相似性的关键词索引文件，具体操作按下列步骤进行：

a、将需要存储的文本存入数据存储节点后，得到一个唯一标识文本的数据标识；

b、对待建立索引文本进行预处理，包括分词，去停用词，去标点符号；

c、使用词频-逆文件频率的方法，获取文本的关键词，首先计算词在该文件中出现次数，记为词频，然后计算词在所有文本中出现的频率，记为逆文件频率，最后计算两者的乘积，乘积越大表示该词对这个文本的重要性越大，选取对文本区分度高的词作为关键词；

d、训练词向量模型，使用深度学习方法进行多次迭代训练，将训练数据集合内的每个词汇表示成为128维的特征向量；

e、获取关键词的语义特征，使用步骤d训练好的词向量模型将步骤c中所述关键词表示为128维的特征向量，得到关键词的词向量表示，语义相似的词在词向量空间位置相近，具有词向量相似性；

f、获取关键词的哈希表示，使用局部敏感哈希算法对步骤e所述词向量进行降维，得到关键词160bit的词哈希；

g、将步骤f所述词哈希与步骤a所述数据标识组合，得到索引项，通过将索引项存储在分布式哈希表中实现索引文件的存储。

步骤d中所述词向量是使用深度学习方法进行多次迭代，通过逻辑回归的方法对文本进行训练，将训练数据集合内的每个词汇表示成为128维的特征向量，使得词汇间的语义相似性转为空间相似性。

步骤f中所述的通过使用局部敏感哈希算法，将数据从原高维空间经过哈希映射到一个新的低维空间，使得在原空间相似的数据，在新空间中也相似的概率很大，而在原空间不相似的数据，在新空间中相似的概率很小，因此空间位置相邻的词向量，在哈希以后也保持一定的相似性，实现词汇间的空间相似性转为哈希相似性。

步骤g中所述的索引存储方法：分布式哈希表使用哈希算法为每个索引存储节点分配一个唯一的160bit的节点地址，因此节点地址与索引项的键值具有相同值域，索引项采用去中心化的存储方式，使用分布哈希表存储，将索引项存储在索引存储节点的节点地址与其相同或相近的节点，同时，相似的词哈希在分布式哈希表上相邻，索引存储节点使用倒排表结构对索引项进行整合。

本发明所述的一种基于去中心化存储数据的索引建立方法，该方法对去中心化存储的数据生成关键词语义相似性转哈希相似性的关键词索引文件，具体操作按下列步骤进行：

a、将需要存储的文本存入数据存储节点后，得到一个唯一标识所述文本的数据标识；

b、对待建立索引文本进行预处理，包括分词，去停用词，去标点符号操作；

c、使用词频-逆文件频率的方法，获取文本的关键词：首先计算词在该文件中出现次数，记为词频：

其中，n_i，j表示词t_i在文本d_j中出现的次数，然后计算词在所有文本中出现的频率，记为逆文件频率：

其中，分子|D|是文本总数，分母是包含该关键字的文本数目，如果包含该关键字的文本数为0，则分母为0，为解决此问题，分母计算时常常加1进行平滑操作；

最后计算两者的乘积，乘积越大表示该词对这个文本的重要性越大，选取对文本区分度高的词作为关键词；

TF-IDF_i,j＝TF_i,j×IDF_i (3)

计算词频-逆文件频率的目的是发现对文本很重要、区分度高的词。

d、训练词向量模型，使用深度学习方法进行多次迭代训练，通过逻辑回归的方法对文本进行训练，将训练数据集合内的每个词汇表示成为128维的特征向量，使得词汇间的语义相似性转为空间相似性；

e、获取关键词的语义特征，使用步骤4训练好的词向量模型将步骤3中所述关键词表示为128维的特征向量，得到关键词的词向量表示，语义相似的词在词向量空间位置相近，具有词向量相似性；

f、获取关键词的哈希表示，使用局部敏感哈希算法对步骤5所述词向量进行降维，得到关键词160bit的词哈希，使用minhash进行降维的合理性，是基于对两个集合随机求最小哈希值相等的概率等于两个集合的Jaccard系数，公式表示如下；

P(minhash(A)＝minhash(B))＝Jac(A,B) (4)

其中，Jac(A,B)是集合A与B的Jaccard相似度，minhash在压缩原始向量的情况下，保证了向量的相似度尽可能少被破坏，不失去相似性。Jaccard相似度计算用如下公式表示：

局部敏感哈希算法将数据从原高维空间经过哈希映射到一个新的低维空间，使得在原空间相似的数据，在新空间中也相似的概率很大，而在原空间不相似的数据，在新空间中相似的概率很小，因此空间位置相邻的词向量，在哈希以后也保持一定的相似性，实现词汇间的空间相似性转为哈希相似性；

g、分布式哈希表使用哈希算法为每个索引存储节点分配一个唯一的160bit的节点地址，因此节点地址与索引项的键值具有相同值域，索引项采用去中心化的存储方式，使用分布哈希表存储，将索引项存储在索引存储节点的节点地址与其相同或相近的节点，同时相似的词哈希在分布哈希表上相邻，索引存储节点使用倒排表结构对索引项进行整合。

本发明所述的一种基于去中心化存储数据的索引建立方法，该方法所提供的技术方案的积极效果是：通过对文本进行关键词的提取，将所述关键词转为词向量表示，并进一步将词向量转为哈希表示，实现将文本表示成若干基于词汇间语义关系的哈希形式，以建立包含词哈希及其所属文本的索引项，将各索引项存储到分布式哈希表，实现了相似的词哈希在分布哈希表上逻辑相邻，索引存储节点使用倒排表结构对索引项进行整合。解决了在数据去中心化存储情况下，通过关键词语义获取数据的问题。

附图说明

图1为本发明基于去中心化存储数据的索引建立方法流程图；

图2为本发明索引项存储示意图；

图3为本发明文本建立索引项的过程示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图对本发明做进一步的详细说明。

实施例

d、训练词向量模型，使用深度学习方法进行多次迭代训练，将训练数据集合内的每个词汇表示成为128维的特征向量；其中所述词向量是使用深度学习方法进行多次迭代，通过逻辑回归的方法对文本进行训练，将训练数据集合内的每个词汇表示成为128维的特征向量，使得词汇间的语义相似性转为空间相似性；

f、获取关键词的哈希表示，使用局部敏感哈希算法对步骤e所述词向量进行降维，得到关键词160bit的词哈希；其中所述的通过使用局部敏感哈希算法，将数据从原高维空间经过哈希映射到一个新的低维空间，使得在原空间相似的数据，在新空间中也相似的概率很大，而在原空间不相似的数据，在新空间中相似的概率很小，因此空间位置相邻的词向量，在哈希以后也保持一定的相似性，实现词汇间的空间相似性转为哈希相似性；

g、将步骤f所述词哈希与步骤a所述数据标识组合，得到索引项，通过将索引项存储在分布式哈希表中实现索引文件的存储；其中所述的索引存储方法：分布式哈希表使用哈希算法为每个索引存储节点分配一个唯一的160bit的节点地址，因此节点地址与索引项的键值具有相同值域，索引项采用去中心化的存储方式，使用分布哈希表存储，将索引项存储在索引存储节点的节点地址与其相同或相近的节点，同时，相似的词哈希在分布式哈希表上相邻，索引存储节点使用倒排表结构对索引项进行整合；

如附图1所示：

步骤1、获取数据标识，将需要存储的文本存入去中心化数据存储系统的数据存储节点后，得到一个唯一标识所述文本的数据标识；

步骤2、将待建立索引数据进行预处理，分词，去停用词，去标点符号；例如，对于句子A：老板今天批评了职员。经过分词，去停用词，去标点符号的处理后，表示为A：[老板，今天，批评，职员]；

步骤3、使用词频-逆文件频率的方法，获取数据的关键词：首先计算词在该文件中出现次数，记为词频，然后计算词在所有文本中出现的频率，记为逆文件频率，最后计算两者的乘积，乘积越大表示该词对这个文本的重要性越大，选取对数据区分度高的词作为关键词；例如，对于句子A：[老板，今天，批评，职员]，计算词频-逆文件频率值较低的词，不选为关键词，处理后得到句子A：[老板，批评，职员]；

步骤4、词向量模型训练，使用深度学习方法进行多次迭代，将训练数据集合内的每个词汇表示成为128维的特征向量；

词向量模型训练的目的是为了得到一个词的向量表达；

步骤5、关键词转词向量，获取关键词的语义特征，使用训练好的词向量模型将步骤3中所述关键词表示为128维的特征向量，得到关键词的词向量表示

步骤6、获取关键词的哈希表示，使用局部敏感哈希算法得到词向量降维后的哈希表示；

步骤7、分布式哈希表使用哈希算法为每个索引存储节点分配一个唯一的160bit的节点地址，因此节点地址与索引项的键值具有相同值域，索引项采用去中心化的存储方式，使用分布哈希表存储，将索引项存储在索引存储节点的节点地址与其相同或相近的节点，同时相似的词哈希在分布哈希表上相邻，索引存储节点使用倒排表结构对索引项进行整合，如附图2所示；

附图3展示了由文本建立索引项的过程，从附图可以看出文件先转为了词向量，然后转为词哈希，最后与数据标识组合，得到索引项。

本发明未详细阐述的部分属于本领域公知技术。显然，本领域的技术人员应该意识到，在本发明的范围内和精神指导下，各种改进、添加和替换都是可能的，如改变数据格式和内容、调整接口调用次序、使用不同编程语言(如Python、C、C++、Java等)实现等。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于去中心化存储数据的索引建立方法，其特征在于该方法对去中心化存储的数据生成关键词语义相似性转为哈希相似性的关键词索引文件，具体操作按下列步骤进行：

d、训练词向量模型，使用深度学习方法进行多次迭代训练，将训练数据集合内的每个词汇表示成为 128 维的特征向量；

e、获取关键词的语义特征，使用步骤d训练好的词向量模型将步骤c中所述关键词表示为 128 维的特征向量，得到关键词的词向量表示，语义相似的词在词向量空间位置相近，具有词向量相似性；

2.根据权利要求1所述的基于去中心化存储数据的索引建立方法，其特征在于，步骤d中所述词向量是使用深度学习方法进行多次迭代，通过逻辑回归的方法对文本进行训练，将训练数据集合内的每个词汇表示成为128维的特征向量，使得词汇间的语义相似性转为空间相似性。

3.根据权利要求1所述的基于去中心化存储数据的索引建立方法，其特征在于，步骤f中所述的通过使用局部敏感哈希算法，将数据从原高维空间经过哈希映射到一个新的低维空间，使得在原空间相似的数据，在新空间中也相似的概率很大，而在原空间不相似的数据，在新空间中相似的概率很小，因此空间位置相邻的词向量，在哈希以后也保持一定的相似性，实现词汇间的空间相似性转为哈希相似性。

4.根据权利要求1所述的基于去中心化存储数据的索引建立方法，其特征在于，步骤g中所述的索引存储方法：分布式哈希表使用哈希算法为每个索引存储节点分配一个唯一的160bit的节点地址，因此节点地址与索引项的键值具有相同值域，索引项采用去中心化的存储方式，使用分布哈希表存储，将索引项存储在索引存储节点的节点地址与其相同或相近的节点，同时，相似的词哈希在分布式哈希表上相邻，索引存储节点使用倒排表结构对索引项进行整合。