CN112233666A

CN112233666A - 一种云存储环境下中文语音密文存储、检索方法及系统

Info

Publication number: CN112233666A
Application number: CN202011138829.XA
Authority: CN
Inventors: 陈驰; 韦馨蕾; 田雪; 王佳宁; 苏帅
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2020-10-22
Filing date: 2020-10-22
Publication date: 2021-01-15

Abstract

本发明提供一种云存储环境下中文语音密文存储、检索方法及系统，包括：用户端，用以生成语音文件；生成查询关键字；解密密文数据，得到音频文件；服务端，用以接收并识别语音文件，生成识别文本文件；获取识别文本文件的关键字，并对语音文件与关键字加密，将生成的密文数据及密文索引上传至云服务器端；接收查询关键字并加密；根据加密结果，生成查询请求并发送至云服务端；接收云服务端发送的密文数据并返回至客户端；云服务端，用以存储语音文件的密文数据及密文索引；通过密文查询请求及密文索引，获取密文数据。本发明可以通过文本关键字对语音的内容进行检索，能够对语音文件进行密文检索。

Description

一种云存储环境下中文语音密文存储、检索方法及系统

技术领域

本发明涉及信息安全领域，具体地说，涉及一种云存储环境下中文语音密文存储、检索方法及系统。

背景技术

云计算技术以及大数据存储技术的发展优化了传统的数据存储，通过虚拟化和分布式计算与存储技术，云存储将多个存储介质整合为统一的存储资源池，向用户提供存储服务，用户不再需要自行购买硬件，只需要简单地操作就能将数据存储到云端。由于云存储的便捷与经济，许多企业与个人将数据上传到云端交由第三方云服务商保存。然而，在云计算环境下，数据管理权从数据所有者转移到了第三方云服务商，云存储在给企业与个人的数据管理带来便利的同时，也带来了极大的安全隐患。根据云安全联盟(CSA)在2016年公布的云计算面临的十二大安全威胁中，数据泄露排在了第一位。数据泄露会带来隐私泄露的问题，极大地威胁了云存储中企业以及个人数据的机密性。为了保证云存储中数据的机密性，可以采取密文存储的方式，先对文件进行加密，再将密文文件存储到云端。然而，云计算中存在着海量的数据，如何快速查找到这些密文数据成为了一个难题。为了解决这一问题，出现了密文检索技术，然而大部分的密文检索技术仅仅针对文本文件进行检索。在云存储中，除了文本类型的文件，还存在着大量的其他类型的文件，语音类型的文件(如会议录音、通话记录等)也是云存储中常见的文件类型。因此，如何对语音内容进行快速、准确以及高效的密文检索成为了迫切需要解决的问题。

已公开的专利申请CN201910500492.3提供了一种语音检索方法及系统。该方法借鉴生物哈希技术，对原始语音进行特征提取，获取原始语音的第一哈希序列，将第一哈希序列作为检索摘要，通过比较第一哈希序列和查询语音的第二哈希序列的汉明距离，完成检索内容的匹配。该方法通过采用生物哈希技术提取语音的哈希摘要，提高了语音哈希摘要的安全性，但是该方法只能通过语音检索到相似的语音文件，不能通过文本关键字对语音内包含的信息进行检索。

已公开的专利申请CN201910019614.7基于音频浓缩摘要的海量音频检索方法，提供了一种基于音频浓缩摘要的海量音频检索方法。包括如下步骤：选择文件夹，生成多线程执行浓缩任务，打开待浓缩的文件，读取音频帧并解码，得到裸的PCM数据，使用VAD算法对PCM裸数据进行判定，并进行语音识别生成摘要信息和音频索引文件，提供音频的检索和播放功能。通过使用多线程并行方式对海量音频数据所在的文件夹进行浓缩，提取出有价值的语音和文字信息，并生成包含摘要信息的音频索引文件，用户可输入文本关键字进行快速检索，大大提高了工作效率。然而，该方法对语音文件的摘要和检索主要在明文状态下进行，在云存储环境下难以保证安全性。

发明内容

针对现有技术中存在的技术问题，本发明的目的在于提供一种云存储环境下中文语音密文存储、检索方法及系统，主要思想是通过中文语音识别生成语音内容的文字信息，并生成包含语音内容的密文索引，最终通过密文检索接口，利用文本关键词实现对加密的语音文件内容进行检索，其为企业和用户提供语音文件的安全加密存储，并且在语音数据不解密的情况下，对用户提供利用文本关键字检索语音内容的功能，保证云存储环境下语音文件的机密性，保护用户的隐私不被侵犯，并提高检索效率。

本发明的技术方案如下：

一种云存储环境下中文语音密文存储方法，适用于云服务端、服务端及用户端组成的网络系统，其步骤包括：

1)接收并识别用户端发送的语音文件，生成识别文本文件；

2)获取所述识别文本文件的关键字，并对所述语音文件与关键字加密，生成语音文件的密文数据及密文索引；

3)将语音文件的密文数据及密文索引上传至相应云服务器端，使相应云服务器端存储语音文件的密文数据及密文索引。

进一步地，将所述语言文件输入一训练好的识别网络，生成识别文本文件；其中，通过以下步骤得到所述训练好的识别网络：

1)取样本语音数据集，将提取的各样本语音数据声学特征输入一声学模型，得到预训练声学模型；

2)取样本文本数据集，将各样本文本数据输入一语言模型，得到预训练语言模型；

3)各样本语音数据输入一由所述预训练声学模型、预训练语言模型及字典组成的识别网络，通过搜索算法在该识别网络中寻找最佳的一条路径，以最大概率输出该语音信号的词串为目标，训练所述识别网络，得到训练好的识别网络。

进一步地，所述语言模型包括：统计语言模型或N-gram语言模型。

进一步地，所述声学模型包括：HMM声学模型。

进一步地，通过以下步骤得到关键字：

1)对识别文本文件进行预处理；

2)采用分词系统对预处理后的识别文本文件进行分词处理，得到关键字。

进一步地，所述预处理包括：去除冗余字段、停用词和标点符号。

进一步地，通过以下步骤得到密文索引：

1)对各关键字进行分析，获取关键字的评分；

2)通过用户密钥与加密算法加密索引中的关键字加密，得到密文关键字；

3)依据关键字的评分，对密文关键字进行整理，得到密文索引。

一种云存储环境下中文语音密文检索方法，适用于云服务端、服务端及用户端组成的网络系统，其步骤包括：

1)接收用户端的查询关键字，并对查询关键字进行加密；

2)根据加密结果，生成查询请求，并将所述查询请求发送至相应云服务端，以使相应云服务端通过所述查询请求及通过以上方法得到的密文索引，获取密文数据；

3)接收云服务端发送的密文数据，并将所述密文数据返回至用户端，以使用户端通过用户密钥对所述密文数据解密，得到相应的音频文件。

进一步地，加密结果包括：查询关键字的哈希计算结果。

一种云存储环境下中文语音密文检索系统，包括：

用户端，用以生成语音文件；生成查询关键字；通过用户密钥对所述密文数据解密，得到相应的音频文件；

服务端，用以接收并识别用户端发送的语音文件，生成识别文本文件；获取所述识别文本文件的关键字，并对所述语音文件与关键字加密，生成语音文件的密文数据及密文索引；将语音文件的密文数据及密文索引上传至相应云服务器端；接收用户端的查询关键字，并对查询关键字进行加密；根据加密结果，生成查询请求，并将所述查询请求发送至相应云服务端；接收云服务端发送的密文数据，并将所述密文数据返回至客户端；

云服务端，用以存储语音文件的密文数据及密文索引；通过所述密文查询请求及密文索引，获取密文数据。

和现有技术相比，本发明具有如下优势：

1.可以通过文本关键字对语音的内容进行检索。本发明的方法，不同于传统的以音频特征检索语音文件的方式，通过提取语音文件的内容构成索引，可以直接通过输入文本关键字检索语音文件。在云存储的海量数据中，通过对内容进行检索，可以快速定位相应的语音文件，提高检索效率。

2.能够对语音文件进行密文检索。本发明的方法，能够在文件加密以及索引加密的状态下进行检索，满足用户对于云存储的安全性需求，提高了云存储环境下语音数据的机密性，保护了用户的隐私。

附图说明

图1是本发明的云存储环境下中文语音密文检索系统结构图。

图2是本发明的语音识别流程图。

图3本发明的一种云存储环境下中文语音密文检索方法的具体实施流程图。

具体实施方式

下面结合具体实施例对本发明做进一步详细的说明，但不以任何方式限制本发明的范围。

本发明的云存储环境下中文语音密文检索系统主要包含两个部分，如图1，一是语音文件的上传，二是语音文件的检索。其中，语音文件上传主要包括语音识别模块、密文索引生成模块。语音文件检索主要包含密文检索模块。

各模块的功能为：

a)语音识别模块。采用语音识别组件，通过中文的声学模型、语言模型以及拼音字典将中文语音内容转换为中文文本信息。

b)密文索引生成模块。在提取语音的内容信息后，调用安全组件生成密文索引。

c)密文检索模块。输入文本关键字，能够实现语音文件的密文检索。

本发明的语音识别流程如图2所示，语音识别包括以下几个步骤：

步骤1.声学模型训练。获取网络上公开的中文语音数据集，提取声学特征，通过训练得到声学模型。

步骤2.语言模型训练。获取中文文本数据集，通过训练获得中文语言模型，可用的语言模型包括统计语言模型、N-gram语言模型等，本发明采用的是统计语言模型。

步骤3.语音内容识别。输入语音文件，针对输入的语音信号，根据己经训练好的HMM声学模型、统计语言模型及字典建立一个识别网络，根据搜索算法在该网络中寻找最佳的一条路径，最终以最大概率输出该语音信号的词串，最终确定并输出语音文件包含的文字信息，生成对应的文本文件。

密文索引生成主要通过对语音文件识别出的中文内容生成索引，使得可以通过中文关键字对语音文件进行内容检索，主要包含以下几个步骤：

步骤1.对语音识别生成的文件进行预处理，包括去除冗余字段、停用词、标点符号等。

步骤2.采用分词系统进行分词处理，得到关键字。

步骤3.对每个关键字进行分析，获取关键字的评分。

步骤4.采用用户密钥以及SHA-1加密算法加密索引中的关键字部分，将得到的密文关键字与评分进行整理，最终输出格式统一的索引文件。

密文检索即采用中文文本关键字，通过密文索引对加密的语音文件内容进行检索，主要包括以下几个步骤：

步骤1.用户输入文本关键字进行密文查询。

步骤2.对查询关键字使用用户密钥以及进行SHA-1加密算法加密处理，即调用加密算法对关键字求其哈希。

步骤3.根据关键字的哈希，生成固定格式的查询请求。

步骤4.客户端向云服务器发送该查询请求。

步骤5.云服务器调用接受到查询请求后，根据关键字的哈希进行密文索引检索语音文件，向服务端返回密文检索结果。

步骤6.服务器端根据检索结果调用云存储服务平台上的密文数据返回至服务器端。

步骤7.客户端获取服务器的检索结果，选择相应的语音文件下载，并通过用户密钥对文件进行解密，最终获取明文语音文件。

如图3所示，该系统主要包括用户端、服务器端和云服务器端，用户端进行语音文件加密上传、中文语音识别并生成密文索引以及输入文本关键字进行语音文件检索操作，服务器端接受客户端上传的密文索引以及密文数据，将密文索引以及密文数据存储至云服务器端；在用户输入文本关键字进行检索时，服务器端通过调用云服务器端的密文检索接口实现密文检索功能，获得检索结果，将检索到的结果解密返回给用户端，实现中文语音加密检索。

在用户上传语音时，包括以下四个步骤：

步骤一：用户登录系统，执行上传语音文件Si的相关操作；

步骤二：客户端接收语音文件Si，并对其进行语音识别操作，生成语音内容的文本文件Ti；

步骤三：使用用户密钥对语音文件Si和其识别内容Ti进行加密，生成语音文件的密文数据CSi以及其内容的密文索引CTi；

步骤四：将密文数据CSi以及密文索引CTi上传至对应的云服务器端。

在用户检索语音文件时，包括以下四个步骤：

步骤一：用户登录系统，输入文本关键字对音频文件进行检索。

步骤二：服务器端获取关键字，向云安全服务平台发送密文检索请求。

步骤三：云服务器端进行密文检索，向服务端返回密文检索结果。

步骤三：服务器端根据检索结果调用云存储服务平台上的密文数据返回至服务器端，服务器端将密文数据CSi发送到客户端；

步骤四：客户端根据用户密钥解密获得结果Si。

从以上步骤可以看出，通过本发明公开的方法和系统，完善的解决了背景技术中提到的现有技术方案的缺陷和风险，通过一种云存储环境下的中文语音密文检索的方法和系统，保存到第三方云存储平台的语音文件是密文形式的，云服务提供商不能恶意的窥探用户的数据，语音文件上传过程中不易被窃听，除此之外，一种云存储环境下的中文语音密文检索的方法和系统提供的密文检索服务很好的满足了用户对语音文件的内容检索的需求。

以上实施仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种云存储环境下中文语音密文存储方法，适用于云服务端、服务端及用户端组成的网络系统，其步骤包括：

1)接收并识别用户端发送的语音文件，生成识别文本文件；

2.如权利要求1所述的方法，其特征在于，将所述语言文件输入一训练好的识别网络，生成识别文本文件；其中，通过以下步骤得到所述训练好的识别网络：

3.如权利要求2所述的方法，其特征在于，所述语言模型包括：统计语言模型或N-gram语言模型。

4.如权利要求2所述的方法，其特征在于，所述声学模型包括：HMM声学模型。

5.如权利要求1所述的方法，其特征在于，通过以下步骤得到关键字：

1)对识别文本文件进行预处理；

6.如权利要求5所述的方法，其特征在于，所述预处理包括：去除冗余字段、停用词和标点符号。

7.如权利要求1所述的方法，其特征在于，通过以下步骤得到密文索引：

1)对各关键字进行分析，获取关键字的评分；

8.一种云存储环境下中文语音密文检索方法，适用于云服务端、服务端及用户端组成的网络系统，其步骤包括：

1)接收用户端的查询关键字，并对查询关键字进行加密；

9.如权利要求8所述的方法，其特征在于，加密结果包括：查询关键字的哈希计算结果。

10.一种云存储环境下中文语音密文检索系统，包括：

用户端，用以生成语音文件；生成查询关键字；通过用户密钥对密文数据解密，得到相应的音频文件；

服务端，用以接收并识别用户端发送的语音文件，生成识别文本文件；获取识别文本文件的关键字，并对语音文件与关键字加密，生成语音文件的密文数据及密文索引；将语音文件的密文数据及密文索引上传至相应云服务器端；接收用户端的查询关键字，并对查询关键字进行加密；根据加密结果，生成查询请求，并将查询请求发送至相应云服务端；接收云服务端发送的密文数据，并将密文数据返回至客户端；

云服务端，用以存储语音文件的密文数据及密文索引；通过密文查询请求及密文索引，获取密文数据。