CN113987593A

CN113987593A - 一种数据处理方法

Info

Publication number: CN113987593A
Application number: CN202111617957.7A
Authority: CN
Inventors: 赵红文; 赵进; 刘邦长; 赵阳; 孙振兴
Original assignee: Beijing Miaoyijia Health Technology Group Co ltd
Current assignee: Suzhou Miaoyijia Health Technology Group Co ltd
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2022-01-28
Anticipated expiration: 2041-12-28
Also published as: CN113987593B

Abstract

本申请提供了一种数据处理方法，其中，在得到主题部分中包括的关键词后，通过各关键词对该主题部分的价值对应的得分，确定该主题部分中价值较高的目标关键词，从而得到该主题部分中价值较高的词语，然后再确定出与目标关键词表达内容相似的相似词，然后确定出的各相似词和目标关键词采用不同的加密方式进行加密，以增加健康档案泄漏出去后解密的难度，并根据各个需要加密的词语的先后顺序生成用于解密的标识串序列，并生成用于对健康档案进行解密的解密二维码，以便只有用户才能对健康档案进行解密，通过上述方法，可以避免健康档案中的内容泄漏出去，从而提高了健康档案中的内容的安全性。

Description

一种数据处理方法

技术领域

本申请涉及数据加密技术领域，具体而言，涉及一种数据处理方法。

背景技术

随着社会的发展，人们对自己的隐私越来越注意，尤其是自己的健康信息。人们会不定期到健康管理机构评估自身的健康状况，并记录当前的健康情况，以形成健康档案，以便根据健康档案中记录的内容评估自身健康的发展情况，但是健康档案中的内容存在泄漏的风险，在健康档案中的内容泄漏后会对用户带来不必要的麻烦，因此目前急需一种防止健康档案中的内容泄漏的方法。

发明内容

有鉴于此，本申请实施例提供了一种数据处理方法，以避免健康档案中的内容泄漏出去。

本申请实施例提供了一种数据处理方法，包括：

在检测到对健康档案进行关闭的操作指令时，对于所述健康档案中的每一主题部分，提取该主题部分中包括的关键词；

根据为该主题部分中包括的每一关键词所表征意思进行的赋值，通过反文档概率计算用于表示该关键词在该主题部分下的价值的得分值；

确定该主题部分中得分值高于预设得分值的目标关键词；

对于每个目标关键词，通过以下公式确定该主题部分中与该目标关键词为语义相似的相似词，以将该目标关键词和所述相似词作为待加密词语：

其中，

为该目标关键词，

为对该主题部分中的文本进行切词后得到的各个备选词语，

为大于数值0的阈值，

为

之间的边赋予的权重的最短路径长度；

对于每个待加密词语，利用随机算法，从词语加密库中选择该待加密词语对应的加密算法；

利用所述加密算法对对应的待加密词语进行加密，并根据各所述待加密词语在该主题部分下的文本中位置的先后顺序对各待加密词语对应的加密算法的标识进行排序；

对得到的排序结果和该主题部分的标识进行配对，以得到包含该主题部分的标识和所述排序结果的标识串；

在得到所述健康档案包括的所有主题部分的标识串后，按照各主题部分在所述健康档案中的先后顺序，对得到的多个标识串进行排序，得到标识串序列；

根据所述标识串序列和所述健康档案对应的标识生成所述健康档案的解密二维码，并将所述解密二维码发送给用户端，以使用户根据所述用户端中的解密二维码对所述健康档案进行解密。

可选地，所述提取该主题部分中包括的关键词，包括：

对获得的语音信息进行语义识别，将得到的目标语义下的词语作为所述关键词；

或者，

根据预设词典，确定该主题部分中包括的关键词；

或者，

对该主题部分下的文本内容进行分词，以将分词结果中除停用词之外的词语作为所述关键词。

可选地，所述方法还包括：

在通过二维码扫描设备得到目标解密二维码后，对所述目标解密二维码进行识别，确定所述目标解密二维码中包括的目标标识和目标标识串序列；

根据所述目标标识确定目标健康档案；

按照所述目标健康档案中各主题部分中的加密词语的先后顺序，使用所述目标标识串序列中该主题部分对应的标识串对加密词语进行解密，以对加密词语进行还原。

本申请的实施例提供的技术方案可以包括以下有益效果：

在本申请中，在得到主题部分中包括的关键词后，通过各关键词对该主题部分的价值对应的得分，确定该主题部分中价值较高的目标关键词，从而得到该主题部分中价值较高的词语（即：目标关键词），然后再确定出与目标关键词表达内容相似的相似词，然后确定出的各相似词和目标关键词采用不同的加密方式进行加密，以增加健康档案泄漏出去后解密的难度，并根据各个需要加密的词语的先后顺序生成用于解密的标识串序列，并生成用于对健康档案进行解密的解密二维码，以便只有用户才能对健康档案进行解密，通过上述方法，可以避免健康档案中的内容泄漏出去，并且，通过对价值较高的关键词和相似词加密的方式可以降低加密时的数据处理量，以及对不同的加密词语使用不同的加密方式有利于增加解密的难度，从而进一步提高了健康档案中的内容的安全性。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种数据处理方法的流程示意图；

图2为本申请实施例提供的另一种数据处理方法的流程示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例提供的一种数据处理方法的流程示意图，如图1所示，该方法包括以下步骤：

步骤101、在检测到对健康档案进行关闭的操作指令时，对于所述健康档案中的每一主题部分，提取该主题部分中包括的关键词。

具体的，在健康档案更新完毕后，需要关闭健康档案，以便对健康档案进行存储，为了避免健康档案在关闭后被人为泄漏出去，在健康档案关闭时，需要对健康档案中的内容进行加密。

由于健康档案中包括多个主题部分，例如：患者信息部分、主治医生信息部分、病情信息部分、身体状态信息部分等，并且在不同的主题部分中，认定的价值较高的词语可能是不同的，在为了降低加密时的数据量且能保证健康档案中价值较高的内容泄漏出去，需要提取出各主题部分包括的关键词。

步骤102、根据为该主题部分中包括的每一关键词所表征意思进行的赋值，通过反文档概率计算用于表示该关键词在该主题部分下的价值的得分值。

具体的，由于不同的词语对各主题部分的影响力（价值）不同，例如：对于患者信息部分这个主题部分，患者姓名这个词语对该主题部分的影响力较高，而身高对该主题部分的影响力较低，对于女性而言，体重对该主题部分的影响力也相对较高，因此需要结合每一关键词在主题部分中所表征意思进行赋值，其中，关键字在文本中的价值是通过反文档频率来体现的，计算一个关键字的反文档频率的原则是在该关键字出现频率越高，则关键字的价值越低。

步骤103、确定该主题部分中得分值高于预设得分值的目标关键词。

具体的，为了降低后续的数据处理量，这里需要确定出该主题部分中得分值高于预设得分值的目标关键词，即：对不同的主题部分设定不同的分值，以便在降低数据处理量的同时避免价值较高的内容泄漏出去，从而保证患者的核心信息不被泄漏。

步骤104、对于每个目标关键词，通过以下公式确定该主题部分中与该目标关键词为语义相似的相似词，以将该目标关键词和所述相似词作为待加密词语：

其中，

为该目标关键词，

为对该主题部分中的文本进行切词后得到的各个备选词语，

为大于数值0的阈值，

为

之间的边赋予的权重的最短路径长度。

具体的，在计算词语之间的相似度前，利用一个深度函数给这两个词语之间的边赋予权重，边的权重是指在计算两个词汇之间的词义距离时该边的贡献，距离越大，则说明相似度越小。其中，边的权重与该边在待加密词语所构成的词汇库中的层次深度有关，通过给词汇库中的各个层次深度之间的边赋予权重，使得较上层的词汇减的词语相似度相对较小，下层词汇间的词语相似度相对较大，该词汇库中的边的权重可利用边的深度到边的权重的转换计算得出，如下式所示：

；

其中，h表示边edge的深度，a是一个取值在0到1之间的平滑因子，h可以通过计算从较上层的概念到根的层次深度数得到。如果两个概念处于同一层，则用其中任意一个即可。

因此词义相似度在0到1之间，而最短路径距离在0到无穷之间取值，因此本申请利用上述公式

来计算词语执念的词义相似度，使得两个词语之间的距离为0时（处于同一个概念中），其词义相似度为1，当两个词之间的距离逐渐增大至无穷时，其词义相似度也单调递减为，上述公式

也可以使用其他length单调递减的函数，在此不做具体限定，需要说明的是，关于两个词语间的路径长度的确定方法，以及在计算语义相似的相似词的过程中未详细说明的内容可以参考现有技术中的方法和相关解释，在此不再详细赘述。

步骤105、对于每个待加密词语，利用随机算法，从词语加密库中选择该待加密词语对应的加密算法。

具体的，对于每个待加密词语，该待加密词语在对应的主题部分中出现至少一次，为了增加加密后的破译难度，利用随机算法为每个待加密词语选择加密算法，即：对于同一主题部分在不同位置上的同一待加密词语可能使用不同的加密算法，以避免一个主题部分下的一个待加密词语被破译之后，该主题部分中其他位置上的同一待加密词语也被破译，从而有利于提高破译难度。

步骤106、利用所述加密算法对对应的待加密词语进行加密，并根据各所述待加密词语在该主题部分下的文本中位置的先后顺序对各待加密词语对应的加密算法的标识进行排序。

举例说明，一个主题部分下的文本为：XX的XXX中XXXX，其中，“XX”“XXX”“XXXX”分别表示一个待加密词语，XX使用第一加密算法加密，标识为1，XXX使用第二加密算法加密，标识为2，XXXX使用第三加密算法加密，标识为3，得到的排序结果为123，通过该排序结果可以找到该主题部分下的文本中待加密词语的加密算法，从而可以使用对应的解密算法得到各个待加密词语。

步骤107、对得到的排序结果和该主题部分的标识进行配对，以得到包含该主题部分的标识和所述排序结果的标识串。

举例说明，第一主题部分分配的标识为A，且第一主题部分对应的标识串为123时，得到的标识串为A123。在得到标识串后，可以确定各主题部分对应的加密算法的排序结果，从而对该主题部分下的待加密词语进行解密。

步骤108、在得到所述健康档案包括的所有主题部分的标识串后，按照各主题部分在所述健康档案中的先后顺序，对得到的多个标识串进行排序，得到标识串序列。

举例说明，第一主题部分的标识串为A123，第二主题部分的标识串为B234，第三主题部分的标识串为C412，且健康文档包括的主题按照第一主题部分、第二主题部分和第三主题部分的顺序进行排列，则得到的标识串序列为：A123 B234 C412，在对健康档案进行解密时，可以进行并行解密处理，例如：在解密时可以按照各主题部分对应的标识对标识串序列进行切分，从而得到A123、B234和 C412这三组标识串，对于第一主题部分，根据标识为1的加密算法、标识为2的加密算法和标识为3的加密算法逐个对文本为：XX的XXX中XXXX中的待加密词语进行解密。

步骤109、根据所述标识串序列和所述健康档案对应的标识生成所述健康档案的解密二维码，并将所述解密二维码发送给用户端，以使用户根据所述用户端中的解密二维码对所述健康档案进行解密。

具体的，在关闭健康档案后只有用户拥有解密方式，因此有利于避免人为泄密的可能性，从而增加了用户隐私的安全性。

需要再次说明的是，在对健康档案进行加密或解密时，可以对各主题部分采用并行加密或解密的方式进行。

在一个可行的实施方案中，在提取主题部分中包括的关键词时，可以通过以下方式实现：

方式一：对获得的语音信息进行语义识别，将得到的目标语义下的词语作为所述关键词。

具体的，用户可以通过语音的方式设定关键词，例如：用户想要对姓名、身高、年龄、病情、当前病情发展情况进行保密，用户可以说：姓名、身高、年龄、病情、当前病情发展，在采集到用户的语音后，通过语义识别，将该主题部分中和姓名、身高、年龄、病情、当前病情发展有关的词语进行加密。

方式二：根据预设词典，确定该主题部分中包括的关键词。

方式三：对该主题部分下的文本内容进行分词，以将分词结果中除停用词之外的词语作为所述关键词。

具体的，可以预先设置停用词词表，停用词词表中的词为对文本意思的影响相对较小的词语，例如：似乎、的、当然等词语。

在一个可行的实施方案中，图2为本申请实施例提供的另一种数据处理方法的流程示意图，如图2所示，该方法还包括以下步骤：

步骤201、在通过二维码扫描设备得到目标解密二维码后，对所述目标解密二维码进行识别，确定所述目标解密二维码中包括的目标标识和目标标识串序列。

步骤202、根据所述目标标识确定目标健康档案。

步骤203、按照所述目标健康档案中各主题部分中的加密词语的先后顺序，使用所述目标标识串序列中该主题部分对应的标识串对加密词语进行解密，以对加密词语进行还原。

具体的，当用户想要通过终端查看健康档案，或者需要对用户的健康档案进行更新是，用户可以出示解密二维码，通过二维码扫描设备获取到目标解密二维码后，对目标解密二维码后进行解密得到该目标解密二维码后对应的标识串序列，然后根据得到的标识串序列中健康档案对应的标识确定目标健康档案，然后根据得到的标识串序列中各个主题部分的标识和各主题部分的标识对应的排序结果对各主题部分中的加密词语进行解密，以得到完整的健康档案，然后在对健康档案进行操作，在操作完毕后可以对健康档案进行关闭操作，此时继续执行图1所述的步骤，以便对更新后的健康档案重新进行处理。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。