CN116136908B

CN116136908B - 基于大数据的保险用户信息安全存储方法

Info

Publication number: CN116136908B
Application number: CN202310395001.XA
Authority: CN
Inventors: 郝哲; 范晋琨
Original assignee: Beijing Firefly Protection Technology Co ltd
Current assignee: Beijing Firefly Protection Technology Co ltd
Priority date: 2023-04-14
Filing date: 2023-04-14
Publication date: 2023-08-04
Anticipated expiration: 2043-04-14
Also published as: CN116136908A

Abstract

本发明涉及数据安全保护技术领域，提出了基于大数据的保险用户信息安全存储方法，包括：采集用户信息记为原始数据；得到原始数据中的关键词和初始关键词序列，得到初始关键词序列中的高频字符和连接字符，计算连接字符的频率；构建相邻字符树结构，根据相邻字符树结构得到修正值，由此得到修正后的概率值；获取不同间隔值下获取的采样数据与原始数据的相似性，将最小相似性对应的间隔值作为采样间隔对原始数据进行加密；栅栏加密后再通过AES方法进行加密，得到密文，完成对用户信息的安全存储。本发明通过构建树结构的方法，更快得到最佳的分组参数，进而得到最佳的栅栏加密结果。

Description

基于大数据的保险用户信息安全存储方法

技术领域

本发明涉及数据安全保护技术领域，具体涉及基于大数据的保险用户信息安全存储方法。

背景技术

随着计算机计算能力的发展和进步，以前较为安全的加密方法面临着更大的挑战，对于常用的加密方法，例如：AES方法来说，由于密文数据始终是通过明文数据通过字母替换，移位等的多轮操作得到的，能体现部分明文信息，为了增加破解难度，本发明提出了基于大数据的保险用户信息安全存储方法，通过栅栏算法对明文数据首先进行置乱，对置乱后的数据进行加密，使得密文信息中几乎不含有明文信息，即增大从密文推测出明文的难度，从而达到提高加密效果的目的。

发明内容

本发明提供基于大数据的保险用户信息安全存储方法，以解决现有的分组加密效果不佳的问题，所采用的技术方案具体如下：

本发明一个实施例提供了基于大数据的保险用户信息安全存储方法，该方法包括以下步骤：

采集用户信息记为原始数据；

得到原始数据中的所有关键词构成的初始关键词序列，将初始关键词序列中的所有字符记为高频字符，将高频字符后一个高频字符作为连接字符，根据每个高频字符对应的连接字符的数量得到连接字符的频率；

根据每个关键词的第一个高频字符和所有连接字符的频率构建相邻字符树结构，将相邻字符树结构中的每个字符记为关键字符，将关键字符在相邻字符树结构中间隔相同层数的字符记为间隔字符，根据关键词中的间隔字符与关键字符之间的距离得到间隔字符对于关键字符的修正值，将每个间隔字符对于关键字符的修正值和每个间隔字符对于关键字符的概率值的乘积进行归一化后，得到每个间隔字符对于关键字符修正后的概率值；

获得每个关键词的间隔值范围，根据间隔值范围中的每个间隔值获得关键词的搜索次数，将关键词根据搜索次数分组后的数据作为采样数据，关键词记为原始关键词，在同一间隔值下，获取每个原始关键词的初始字符，将每次搜索时的搜索次数减一与间隔值加一的乘积加一作为搜索位置，根据搜索次数和搜索位置的高频字符对于初始字符修正后的概率值得到每个初始字符的概率序列，在同一间隔值下，将原始关键词中所有初始字符的概率序列的表征值的和作为采样数据与原始关键词的相似性，将所有原始关键词的采样数据与原始关键词的相似性的均值作为某一间隔值下原始数据的加密无关性，将最小的加密无关性对应的间隔值作为采样间隔对原始数据栅栏加密获得加密数据，完成对用户信息的安全存储。

优选的，所述根据每个高频字符对应的连接字符的数量得到连接字符的频率的方法为：

对于同一个高频字符出现在不同的位置，对应了若干个连接字符，得到同一个高频字符对应的连接字符在不同位置的数量，对于每个连接字符，每个连接字符在不同位置的数量和所有链接字符在不同位置的数量的比值记为连接字符的频率。

优选的，所述根据每个关键词的第一个高频字符和所有连接字符的频率构建相邻字符树结构的方法为：

相邻字符树结构的第一个节点为原始数据中第一个高频字符，相邻字符树结构的第二层为第一层节点的连接字符，相邻字符树结构的第三层为第二层节点的连接字符，即相邻字符树结构的下一层都为上一层节点的连接字符，其中任意两层之间的边值为连接字符在对应高频字符中后续出现的概率。

优选的，所述根据关键词中的间隔字符与关键字符之间的距离得到间隔字符对于关键字符的修正值的方法为：

每个间隔字符在相邻字符树结构中的其余位置也可能存在，因此得到同一个间隔字符在不同位置下的字符在初始关键词序列中距离关键字符的距离值，该距离值指的是每个字符在初始关键词序列中的字符距离，将同一个间隔字符在不同位置下到关键字符的距离值的平均值的倒数，将该值作为间隔字符到关键字符修正值。

优选的，所述根据间隔值范围中的每个间隔值获得关键词的搜索次数的方法为：

将关键词长度与间隔值加一的比值，四舍五入后得到关键词的搜索次数。

优选的，所述根据搜索次数和搜索位置的高频字符对于初始字符修正后的概率值得到每个初始字符的概率序列的方法为：

将原始关键词按照搜索次数分组，原始关键词的前搜索次数个字符为初始字符，对于每个初始字符，在每次搜索时将原始关键词搜索次数位置上的高频字符与在搜索位置上存在概率的高频字符进行比较，若搜索次数位置上的高频字符在搜索位置上的存在概率则保存概率，不存在概率则记为0，将每次搜索时得到的数值按照搜索顺序保存在序列中得到概率序列记为每个初始字符的概率序列。

本发明的有益效果是：本发明的通过构建树结构的方法，更快得到最佳的分组参数，进而得到最佳的栅栏加密结果，与对所有可能的分组参数的加密结果与原始数据进行比较，计算差异计算量较大的问题相似，可以大大减小计算量，特别是在数据量较大的时候；通过栅栏算法对明文数据首先进行置乱，对置乱后的数据进行加密，使得密文信息中几乎不含有明文信息，即增大从密文推测出明文的难度，从而达到提高加密效果的目的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一个实施例所提供基于大数据的保险用户信息安全存储方法的流程示意图；

图2为保单信息；

图3为栅栏加密不同参数加密结果；

图4为相邻字符树结构；

图5位更新后的相邻字符树结构。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其示出了本发明一个实施例提供的基于大数据的保险用户信息安全存储方法流程图，该方法包括以下步骤：

步骤S001，采集每个用户保单上的信息。

将填写保单的用户的信息进行采集，存放在数据库中，每个用户的信息单独存放，每个用户的信息包括姓名、证件类型、证件号码、证件有效期、地址、联系方式等信息，具体信息如图2保单所示，将每个用户的信息记为原始数据。

步骤S002，计算每个高频字符对于另一个高频字符修正后的概率值。

对于不同的数据，栅栏加密的分组不同，对数据的加密效果也不同，例如：原始数据中存在词effect时，将该词分为3组，即3列时，加密后得到的效果为：efcfet；将该词分为2组，即2列时，加密后得到的效果为：eefcft，如图3所示；在本实施例中，因为分3组时，有三个字母加密后的位置与加密前相同，分2组时，只有2个字母加密后的位置与加密前相同，因此认为分2组时加密效果较好，分3组时加密效果较差。因此首先通过栅栏加密获得一个混淆效果较好的初始加密结果，然后通过AES进行加密，使得加密后数据更少携带有原始数据信息，提高加密安全性。

栅栏加密可以看作是：间隔采样得到不同序列，根据序列首字母在原始数据中的次序将相同位置处的数据排列得到加密结果，因此可以通过对原始数据中的间隔字符信息进行分析，得到最佳间隔，使得加密结果与原始数据差异最大。

数据中出现频率越大的词语在栅栏加密过程中越可能泄漏原始数据中的信息，因此首先对高频词进行统计，采用TF-IDF方法得到关键词，由于字符之间的连接关系可以表示栅栏加密过程中的间隔信息，因此首先构建一个相邻字符树结构，通过相邻字符树结构对间隔信息进行分析。

当数据量较大时，对所有可能的分组参数的加密结果与原始数据进行比较，计算差异，计算量较大，因此通过构建树结构的方法，更快得到最佳的分组参数，进而得到最佳的栅栏加密结果，可以极大减小计算量。

具体的，首先对原始数据使用jieba分词，对原始数据分词之后再使用TF-IDF算法，得到原始数据中的关键词，关键词为原始数据中重要性较高的词，关键词具有频率大和语义信息重要的特点；只要是字符，都可以通过TF-IDF算法提取关键词，例如英文，汉字，数字等；在提取的关键词中，每个关键词都是由若干个字符组成的，在英文中，字符为一个英文字母，在中文中，字符为一个汉字，在数字中，字符为一个[0,9]的数字。

基于所有关键词得到高频字符、高频字符后的连接字符以及每个连接字符的概率，具体的，将原始数据中得到的所有关键词组成的序列记为初始关键词序列，值得说明的是，若某个关键词出现5次，则初始关键词序列中有5个该关键词，得到初始关键词序列中的所有字符，将初始关键词序列中的字符作为高频字符，在初始关键词序列中，将在高频字符后面且和高频字符相邻的字符，记为连接字符，得到每个高频字符后面的连接字符出现概率，连接字符出现的频率是指对于同一个高频字符，在不同位置出现了高频字符的多个连接字符，计算每个连接字符在同一个高频字符的所有连接字符中的频率，作为连接字符出现的概率。例如：假设HAPPY NEW YEAR中的所有字符均为高频字符，进而得到：高频字符H的连接字符为A，连接字符A出现的概率为1；高频字符A的连接字符为P和R，连接字符P和R出现的概率均为0.5；高频字符P的连接字符为P和Y，连接字符P和Y出现的概率均为0.5；高频字符Y的连接字符为N和E，连接字符N和E出现的概率均为0.5；高频字符N的连接字符为E，连接字符E出现的概率为1；高频字符W的连接字符为Y，连接字符Y出现的概率为1。

以初始关键词序列的一个关键词为例进行说明，通过得到的连接字符，可以得到相邻字符树结构，相邻字符树结构为一个关键词获得的结构，第一个节点为关键词中的第一个高频字符，相邻字符树结构的第二层为第一层每个节点的连接字符，相邻字符树结构的第三层为第二层每个节点的连接字符，以此类推，直到初始关键词序列中所有字符被填充到相邻字符树结构当中，相邻字符树结构中相邻两层的节点的边值为下一层节点作为上一层节点的连接字符出现的频率，获得的相邻字符树结构如图4所示。

相邻字符树结构中的每个字符的间隔字符的修正值为该字符与间隔字符的平均距离的倒数；具体的：记相邻字符树结构中的每个字符为关键字符，将关键字符在相邻字符树结构中间隔相同层数的字符记为间隔字符，其中每个间隔字符在相邻字符树结构中的其余位置也可能存在，因此得到同一个间隔字符在不同位置下的字符在初始关键词序列中距离关键字符的距离值，该距离值指的是任意两个字符在关键词中的字符距离，将同一个间隔字符在不同位置下到关键字符的距离值的平均值的倒数作为间隔字符到关键字符的修正值。

将相邻字符树结构中，关键字符到间隔字符的最短路径对应的所有边值的乘积，作为间隔字符对于关键字符的概率值。例如：对于关键字符H来说，第四层的间隔字符Y的概率值为1×0.5×0.5，若是对于关键字符A来说，第四层的间隔字符Y的概率值为0.5×0.5。

得到每个间隔字符到关键字符的修正值与间隔字符对于关键字符的概率值的乘积，将所有间隔字符得到的乘积相加，利用相加的和将每个间隔字符得到的乘积归一化，归一化后的概率即为间隔字符对于关键字符修正后的概率值，表示不同位置的间隔字符对于关键字符的概率值。

以图4为例，以关键字符为H，间隔字符为P和R进行说明，对于关键字符H，间隔字符R有两个位置，距离H分别为2和3，两个距离值的平均距离的倒数为2/5，间隔字符P的修正值为2/5，间隔字符R中有一个位置，距离H有11，间隔字符R的修正值为1/11；间隔字符P的修正值和概率值的乘积为2/5×1×0.5，间隔字符R的修正值和概率值的乘积为0.5×1×1/11，将两个乘积相加得到27/110，归一化后，间隔字符P的修正后的概率值为22/27，间隔字符R的修正后的概率值为5/27，得到结果如图5所示。

由于关键字符和间隔字符都是高频字符，因此，获得了每个高频字符对于另一个高频字符修正后的概率值。

步骤S003，根据每个高频字符对于另一个高频字符修正后的概率值进行加密。

由于栅栏加密相当于间隔采样，为了避免泄漏原始数据信息，只需要使得每个采样间隔数据中的第i个字符与原始的第i个字符相同的概率较小即可，因此越满足该特性的采样间隔得到的加密数据中，包含了越少的原始数据信息，可以起到越好的混淆效果。

例如：对于词effect来说，第一个字符是e，第二个字符是f，想达成的结果是第二个字符不为f，即第二个字符与原始的第二个字符的值不同。

具体的，首先确定间隔值的范围：将关键词的最大长度n作为最大间隔值，则间隔范围为[1，n-1]；值得说明的是，间隔值和栅栏加密分组的数量有关，间隔值为1时，分组的数量为间隔值加1。

将初始关键词序列中的每个关键词作为原始关键词，在不同间隔值下，原始关键词会被转换为原始关键词的采样数据，计算每个间隔值下的每个原始关键词的采样数据与原始关键词的相似性的过程如下：

首先计算在每个间隔值下的搜索次数，确定方法为：将对应关键词长度与间隔值加一的比值，进行四舍五入后的值记为搜索次数，用N表示；

根据间隔值得到搜索次数，根据搜索次数得到分组后的数据，基于搜索次数判断分组后的关键词与原始关键词的相似度。

根据搜索次数N将原始关键词分为N组，将原始关键词的前N个字符作为初始字符，对于每个初始字符，将初始字符在原始关键词中的后一个字符记为初始字符的第二字符，初始字符在原始关键词中的后两个字符记为初始字符的第三字符，依次类推，初始字符在原始关键词中的后B个字符记为初始字符的第B+1字符。

进一步的，第一次搜索时，获得初始字符，第二次搜索时，获得初始字符位置向后移动间隔值加一距离后的位置中每个字符对于初始字符修正后的概率值，若存在与原始关键词第二字符相同的字符，则保存该字符对于初始字符修正后的概率值，若不存在与原始关键词第二字符相同的字符，则保存数值0；第三次搜索时，获得第一个字符位置向后移动二倍的间隔值加一距离后的位置中每个字符对于初始字符修正后的概率值，若存在于原始关键词第三字符相同的字符，则保存该字符对于初始字符修正后的概率值，若不存在与原始关键词第三字符相同的字符，则保存数值0；以此类推，直到第N次搜索时，获得初始字符位置向后移动(N-1)倍的间隔值加一距离后的位置中每个字符对于初始字符修正后的概率值，若存在于原始关键词第N个字符相同的字符，则保存该字符对于初始字符修正后的概率值，若不存在与原始关键词第N个字符相同的字符，则保存数值0；此时，上述叙述中，间隔值加一为一个整体。将保存的数值按照搜索顺序构成初始字符的概率序列，搜索次数为N，则得到的概率序列长度为N-1。

在此以间隔值为1，关键词为HAPPY NEW YEAR举例说明：根据间隔值和关键词长度计算N值，N为6，因此搜索6次。第一次搜索时，得到高频字符H；第二次搜索时，第一个高频字符位置向后移动间隔值加一距离后的位置中，可能存在的高频字符为P和R，原本关键词第二个高频字符为A，A和P，R都不相同，因此保存0；第三次搜索时，得到可能存在的高频字符为P、Y、E和N，原本关键词的第三个高频字符为P，存在同样的高频字符，此时将高频字符P在第五个位置时的概率保存，直到第六次搜索完后，得到概率序列。

获得同一个间隔值下每个原始关键词中所有初始字符的概率序列，将每个原始关键词的每个初始字符的概率序列求均值作为概率序列的表征值，将每个原始关键词的所有概率序列的表征值的和作为在某一间隔值下的每个原始关键词的采样数据与原始关键词的相似性。

将所有关键词的采样数据与原始关键词的相似性均值作为某一间隔值下原始数据的加密无关性，通过相同方法可以计算得到每个间隔值对应的原始数据的加密无关性，将加密无关性最小时对应的间隔值作为采样间隔对原始数据进行栅栏加密得到加密数据。

加密过程中为了保证所有的关键词都可以从第一个字母开始加密，首先计算得到长度最大的关键词，以该长度作为数据分块大小，保证每个关键词都在该长度的块中，对于长度不够的关键词，通过空格补齐。例如：abcdemnoabcdefghigklmigklm，其中abcde、igklm是关键词，计算得到间隔值为2，则首先对关键词部分用该间隔值进行采样，abcde采样后得到acebd，igklm采样后得到ikmgl，对于fgh，首先补全，得到fgh**，采样后得到fh*g*；对于mno，补全得到mno**，采样后得到mo*n*，最后的加密结果为：acebdmo*n*acebdfh*g*ikmglikmgl，在本实施例中，*表示空格的意思。

步骤S004，完成加密，对用户信息进行存储。

对栅栏加密后的置乱数据通过AES方法进行加密，获得密文。解密时，只需对密文数据首先及性能AES解密，对解密后数据通过分组值进行栅栏解密即可。

至此加密完成，对用户信息加密后进行安全存储

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于大数据的保险用户信息安全存储方法，其特征在于，该方法包括以下步骤：

采集用户信息记为原始数据；

获得每个关键词的间隔值范围，根据间隔值范围中的每个间隔值获得关键词的搜索次数，将关键词根据搜索次数分组后的数据作为采样数据，关键词记为原始关键词，在同一间隔值下，获取每个原始关键词的初始字符，将每次搜索时的搜索次数减一与间隔值加一的乘积加一作为搜索位置，根据搜索次数和搜索位置的高频字符对于初始字符修正后的概率值得到每个初始字符的概率序列，在同一间隔值下，将原始关键词中所有初始字符的概率序列的表征值的和作为采样数据与原始关键词的相似性，将所有原始关键词的采样数据与原始关键词的相似性的均值作为某一间隔值下原始数据的加密无关性，将最小的加密无关性对应的间隔值作为采样间隔对原始数据栅栏加密获得加密数据，完成对用户信息的安全存储；

其中，根据每个关键词的第一个高频字符和所有连接字符的频率构建相邻字符树结构的获取方法为：相邻字符树结构的第一个节点为原始数据中第一个高频字符，相邻字符树结构的第二层为第一层节点的连接字符，相邻字符树结构的第三层为第二层节点的连接字符，即相邻字符树结构的下一层都为上一层节点的连接字符，其中任意两层之间的边值为连接字符在对应高频字符中后续出现的概率；

其中，根据关键词中的间隔字符与关键字符之间的距离得到间隔字符对于关键字符的修正值的获取方法为：每个间隔字符在相邻字符树结构中的其余位置也可能存在，因此得到同一个间隔字符在不同位置下的字符在初始关键词序列中距离关键字符的距离值，该距离值指的是每个字符在初始关键词序列中的字符距离，将同一个间隔字符在不同位置下到关键字符的距离值的平均值的倒数，将该值作为间隔字符到关键字符修正值。

2.根据权利要求1所述的基于大数据的保险用户信息安全存储方法，其特征在于，所述根据每个高频字符对应的连接字符的数量得到连接字符的频率的方法为：

3.根据权利要求1所述的基于大数据的保险用户信息安全存储方法，其特征在于，所述根据间隔值范围中的每个间隔值获得关键词的搜索次数的方法为：

4.根据权利要求1所述的基于大数据的保险用户信息安全存储方法，其特征在于，所述根据搜索次数和搜索位置的高频字符对于初始字符修正后的概率值得到每个初始字符的概率序列的方法为：