CN112885371A

CN112885371A - 音频脱敏的方法、装置、电子设备以及可读存储介质

Info

Publication number: CN112885371A
Application number: CN202110039707.3A
Authority: CN
Inventors: 张晴晴; 曹艳丽; 贾艳明; 张雪璐
Original assignee: Beijing Aishu Wisdom Technology Co ltd
Current assignee: Beijing Qingshu Intelligent Technology Co ltd
Priority date: 2021-01-13
Filing date: 2021-01-13
Publication date: 2021-06-01
Anticipated expiration: 2041-01-13
Also published as: CN112885371B

Abstract

本申请公开了一种音频脱敏的方法、装置、电子设备以及可读存储介质，音频脱敏的方法包括：获取用户的第一音频数据，第一音频数据包括全部音素的发音片段；获取所述第一音频中所述全部音素的发音片段；利用语音合成技术对发音片段进行合成，以得到敏感词汇对应的合成音频；建立与对应的敏感音频特征模型；获取用户的第二音频数据；通过敏感音频特征模型对第二音频数据的声学特征进行相似度匹配；在相似度大于预设值的情况下，对第二音频数据进行内容识别，以得到与第二音频数据对应的内容识别文本；以敏感内容词库作为匹配数据库，判断内容识别文本中是否含有敏感词汇；在内容识别文本中存在敏感词汇时，对敏感词汇对应的语音片段进行替换。

Description

音频脱敏的方法、装置、电子设备以及可读存储介质

技术领域

本申请属于人工智能技术领域，具体涉及一种音频脱敏的方法和装置。

背景技术

如今大量的企业都会自主进行语音数据的采集，例如对客服和用户之间的通话进行录音等，因此采集的音频中往往包含大量的敏感信息，例如个人证件号码、姓名、地址、价格、注册信息等。

目前的现有技术至少存在如下问题：这样的音频数据采集环境是安全性较低。在通信的过程中，不法组织往往会利用如今的语音数据采集来骗取用户的重要个人信息。

发明内容

本申请实施例的目的是提供一种音频脱敏的方法、装置、电子设备和可读存储介质，能够解决目前音频数据采集安全性较低，用户易被骗取重要个人信息的技术问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种音频脱敏的方法，其特征在于，包括：

获取用户的第一音频数据，所述第一音频数据包括全部音素的发音片段；

对所述第一音频数据进行声学特征提取，并获取所述第一音频中所述全部音素的发音片段；

将所述用户的标识和与所述用户对应的所述全部音素的发音片段记录到音源库中；

以与所述用户对应的所述全部音素的发音片段作为声音来源，以敏感内容词库作为内容来源，利用语音合成技术对所述发音片段进行合成，以得到敏感词汇对应的合成音频；

对所述合成音频进行声学特征提取，并根据所述合成音频的声学特征建立与所述用户对应的敏感音频特征模型；

获取所述用户的第二音频数据；

通过所述敏感音频特征模型对所述第二音频数据的声学特征进行相似度匹配；

在相似度大于预设值的情况下，对所述第二音频数据进行内容识别，以得到与所述第二音频数据对应的内容识别文本；

以所述敏感内容词库作为匹配数据库，判断所述内容识别文本中是否含有所述敏感词汇；

在所述内容识别文本中存在所述敏感词汇的情况下，对所述敏感词汇对应的语音片段进行替换。

进一步地，所述对所述敏感词汇对应的语音片段进行替换，具体为：

将所述敏感词汇对应的语音片段替换为同等时长的空白音频。

进一步地，所述对所述敏感词汇对应的语音片段进行替换，具体包括：

对所述内容识别文本中存在的所述敏感词汇进行分类；

根据分类结果，将所述敏感词汇替换为同类型的脱敏词汇；

利用所述用户对应的所述全部音素的发音片段合成所述脱敏词汇对应的语音片段；

将所述脱敏词汇对应的语音片段的时长调整为所述敏感词汇对应的语音片段的时长；

将所述敏感词汇对应的语音片段替换为所述脱敏词汇对应的语音片段，以得到脱敏后的第三音频数据。

进一步地，在所述将所述敏感词汇对应的语音片段替换为所述脱敏词汇对应的语音片段，以得到脱敏后的第三音频数据之后，还包括：

对所述第三音频数据进行平滑处理，并加入少量随机噪声。

进一步地，所述方法还包括：

根据网络爬虫数据，实时更新所述敏感内容词库中的所述敏感词汇。

第二方面，本申请实施例提供了一种音频脱敏的装置，其特征在于，包括：

第一获取模块，用于获取用户的第一音频数据，所述第一音频数据包括全部音素的发音片段；

提取模块，用于对所述第一音频数据进行声学特征提取，并获取所述第一音频中所述全部音素的发音片段；

记录模块，用于将所述用户的标识和与所述用户对应的所述全部音素的发音片段记录到音源库中；

合成模块，用于以与所述用户对应的所述全部音素的发音片段作为声音来源，以敏感内容词库作为内容来源，利用语音合成技术对所述发音片段进行合成，以得到敏感词汇对应的合成音频；

模型建立模块，用于对所述合成音频进行声学特征提取，并根据所述合成音频的声学特征建立与所述用户对应的敏感音频特征模型；

第二获取模块，用于获取所述用户的第二音频数据；

匹配模块，用于通过所述敏感音频特征模型对所述第二音频数据的声学特征进行相似度匹配；

识别模块，用于在相似度大于预设值的情况下，对所述第二音频数据进行内容识别，以得到与所述第二音频数据对应的内容识别文本；

判断模块，用于以所述敏感内容词库作为匹配数据库，判断所述内容识别文本中是否含有所述敏感词汇；

替换模块，用于在所述内容识别文本中存在所述敏感词汇的情况下，对所述敏感词汇对应的语音片段进行替换。

进一步地，所述替换模块，具体用于：

进一步地，所述替换模块，具体包括：

分类子模块，用于对所述内容识别文本中存在的所述敏感词汇进行分类；

第一替换子模块，根据分类结果，将所述敏感词汇替换为同类型的脱敏词汇；

合成子模块，用于利用所述用户对应的所述全部音素的发音片段合成所述脱敏词汇对应的语音片段；

调整模块，用于将所述脱敏词汇对应的语音片段的时长调整为所述敏感词汇对应的语音片段的时长；

第二替换子模块，用于将所述敏感词汇对应的语音片段替换为所述脱敏词汇对应的语音片段，以得到脱敏后的第三音频数据。

进一步地，所述替换模块还包括：

平滑处理子模块，用于对所述第三音频数据进行平滑处理，并加入少量随机噪声。

进一步地，所述装置还包括：

更新模块，用于根据网络爬虫数据，实时更新所述敏感内容词库中的所述敏感词汇。

第三方面，本申请实施例提供了一种电子设备，所述电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

在本申请实施例中，通过获取用户对象对于所有音素发音，拼接得到用户发出敏感词汇时的发音，之后在采集用户对象的音频数据时，通过比对预发现用户是否发出敏感词汇，并通过语义识别进一步排查，在确定用户发出的音频数据确实包括敏感词汇时对敏感词汇进行替换，以完成脱敏。增加了采集用户音频的安全性，实时的对敏感词汇进行替换，可以防止用户被骗取重要个人信息。

附图说明

图1是本申请实施例提供的一种音频脱敏的方法的流程示意图；

图2是本申请实施例提供的另一种音频脱敏的方法的流程示意图；

图3是本申请实施例提供的一种音频脱敏的装置的结构示意图；

图4是本申请实施例提供的一种电子设备的硬件结构示意图。

本发明目的的实现、功能特点及优点将结合实施例、参照附图做进一步说明。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的音频脱敏的方法进行详细地说明。

实施例一

参照图1，示出了本申请实施例提供的一种音频脱敏的方法的流程示意图，方法包括：

S101：获取用户的第一音频数据，第一音频数据包括全部音素的发音片段。

其中，音素是根据语音的自然属性划分出来的最小语音单元。可以理解的是，根据全部音素发音片段可以拼接组合成为任意词汇。

可选地，可以要求用户朗读特定的文本内容，特定的文本内容可以使得用户在朗读的过程中发出所有的音素。

可选地，可以采集用户平时说话的语音，直至采集到全部的音素的发音片段。

S102：对第一音频数据进行声学特征提取，并获取第一音频中全部音素的发音片段。

其中，声学特征包括基频、ivector、MCFF等，声学特征可以用于表征用户的个人音色特点，通过对于声学特征的识别可以判断语音的发出者。

S103：将用户的标识和与用户对应的全部音素的发音片段记录到音源库中。

其中，用户的标识可以是用户的姓名、编号等。全部音素的发音片段与用户之间建立有一一对应的关联关系。

例如，用户在注册时朗读了“上海”这一词汇，“上海”的发音覆盖了“sh”、“ang”、“h”和“ai”4个音素，则在音源库中存储“sh”、“ang”、“h”和“ai”这4个音素，并将其记录在相应的用户名下，以便后续的应用。

S104：以与用户对应的全部音素的发音片段作为声音来源，以敏感内容词库作为内容来源，利用语音合成技术对发音片段进行合成，以得到敏感词汇对应的合成音频。

例如，敏感词汇库包括用户的家庭住址“深圳”“南山”，即使用户在注册时并未提供与敏感词汇相对应的语音，可以利用用户记录在音源库中的全部音素对应的音频片段，预先拼接合成用户在说出“深圳”“南山”时的发音，以便于后续的比对和预识别。

S105：对合成音频进行声学特征提取，并根据合成音频的声学特征建立与用户对应的敏感音频特征模型。

可以理解的是，敏感音频特征模型可以用于识别用户是否发出敏感词汇。

需要说明的是，步骤S101至S105应用于用户注册阶段。

S106：获取用户的第二音频数据。

其中，第二音频数据可以是用户欲发送至其他设备的音频数据。

S107：通过敏感音频特征模型对第二音频数据的声学特征进行相似度匹配。

可以理解的是，此步骤主要用于对第二音频数据是否含有敏感词汇进行预识别。

S108：在相似度大于预设值的情况下，对第二音频数据进行内容识别，以得到与第二音频数据对应的内容识别文本。

可以理解的是，在相似度大于预设值的情况下，意味着初步判断第二音频数据大概率含有敏感词汇，此时才会对第二音频数据进行内容识别，以进一步确认。

其中，预设值可以根据实际需要进行设定，本发明实施例对其具体数值不做限定。

S109：以敏感内容词库作为匹配数据库，判断内容识别文本中是否含有敏感词汇。

应当理解的是，通过内容识别文本与敏感词汇的比对，可以进一步提供检测出第二音频数据中含有敏感词汇的准确性。

S110：在内容识别文本中存在敏感词汇的情况下，对敏感词汇对应的语音片段进行替换。

应当理解的是，对敏感词汇进行替换，替换的内容应该是非敏感词汇，以确保用户所说出的敏感词汇不会被不法分子收集。

可选地，可以将敏感词汇对应的语音片段替换为同等时长的空白音频。

实施例二

参照图2，示出了本申请实施例提供的另一种音频脱敏的方法的流程示意图。音频脱敏的方法，包括：

S201：获取用户的第一音频数据，第一音频数据包括全部音素的发音片段。

S202：对第一音频数据进行声学特征提取，并获取第一音频中全部音素的发音片段。

S203：将用户的标识和与用户对应的全部音素的发音片段记录到音源库中。

S204：以与用户对应的全部音素的发音片段作为声音来源，以敏感内容词库作为内容来源，利用语音合成技术对发音片段进行合成，以得到敏感词汇对应的合成音频。

S205：对合成音频进行声学特征提取，并根据合成音频的声学特征建立与用户对应的敏感音频特征模型。

S206：获取用户的第二音频数据。

S207：通过敏感音频特征模型对第二音频数据的声学特征进行相似度匹配。

S208：在相似度大于预设值的情况下，对第二音频数据进行内容识别，以得到与第二音频数据对应的内容识别文本。

S209：以敏感内容词库作为匹配数据库，判断内容识别文本中是否含有敏感词汇。

S210：对内容识别文本中存在的敏感词汇进行分类。

可选地，分类包括地址、身份信息、性别、价格等。

S211：根据分类结果，将敏感词汇替换为同类型的脱敏词汇。

例如，内容识别文本中包括用户的住址信息“深圳”，可以替换为同类型的脱敏词汇“上海”。

这样做可以保证语义的通顺。

S212：利用用户对应的全部音素的发音片段合成脱敏词汇对应的语音片段。

可以理解的是，根据全部音素发音片段可以拼接组合成为任意词汇，例如脱敏词汇“上海”。

S213：将脱敏词汇对应的语音片段的时长调整为敏感词汇对应的语音片段的时长。

其中，时长调整包括对语音片段进行加速处理或者减速处理。

这样做可以保证替换前后音频的时间长度不变，可以进一步保证语音的通顺。

S214：将敏感词汇对应的语音片段替换为脱敏词汇对应的语音片段，以得到脱敏后的第三音频数据。

S215：对第三音频数据进行平滑处理，并加入少量随机噪声。

进行平滑处理可以保证音频数据更加通顺自然。

加入少量随机噪声可以保证脱敏后的音频从听感上无法察觉哪部分经过脱敏处理，进一步加强音频数据的安全性。

S216：根据网络爬虫数据，实时更新敏感内容词库中的敏感词汇。

可选地，用户也可以手动向敏感内容词库中添加或者删除敏感词汇。

在本申请实施例中，通过对敏感词汇进行同类别的替换为脱敏词汇，对脱敏词汇的语音的时长进行调整，并进行平滑处理，可以保证脱敏后的音频数据更加通顺自然。

实施例三

参照图3，示出了本申请实施例提供的一种音频脱敏的装置的结构示意图，装置30包括：

第一获取模块301，用于获取用户的第一音频数据，第一音频数据包括全部音素的发音片段；

提取模块302，用于对第一音频数据进行声学特征提取，并获取第一音频中全部音素的发音片段；

记录模块303，用于将用户的标识和与用户对应的全部音素的发音片段记录到音源库中；

合成模块304，用于以与用户对应的全部音素的发音片段作为声音来源，以敏感内容词库作为内容来源，利用语音合成技术对发音片段进行合成，以得到敏感词汇对应的合成音频；

模型建立模块305，用于对合成音频进行声学特征提取，并根据合成音频的声学特征建立与用户对应的敏感音频特征模型；

第二获取模块306，用于获取用户的第二音频数据；

匹配模块307，用于通过敏感音频特征模型对第二音频数据的声学特征进行相似度匹配；

识别模块308，用于在相似度大于预设值的情况下，对第二音频数据进行内容识别，以得到与第二音频数据对应的内容识别文本；

判断模块309，用于以敏感内容词库作为匹配数据库，判断内容识别文本中是否含有敏感词汇；

替换模块310，用于在内容识别文本中存在敏感词汇的情况下，对敏感词汇对应的语音片段进行替换。

进一步地，替换模块310，具体用于：

将敏感词汇对应的语音片段替换为同等时长的空白音频。

进一步地，替换模块310，具体包括：

分类子模块3101，用于对内容识别文本中存在的敏感词汇进行分类；

第一替换子模块3102，根据分类结果，将敏感词汇替换为同类型的脱敏词汇；

合成子模块3103，用于利用用户对应的全部音素的发音片段合成脱敏词汇对应的语音片段；

调整模块3104，用于将脱敏词汇对应的语音片段的时长调整为敏感词汇对应的语音片段的时长；

第二替换子模块3105，用于将敏感词汇对应的语音片段替换为脱敏词汇对应的语音片段，以得到脱敏后的第三音频数据。

进一步地，替换模块310还包括：

平滑处理子模块3106，用于对第三音频数据进行平滑处理，并加入少量随机噪声。

进一步地，装置30还包括：

更新模块311，用于根据网络爬虫数据，实时更新敏感内容词库中的敏感词汇。

本申请实施例提供的音频脱敏的装置30能够实现上述方法实施例中实现的各个过程，为避免重复，这里不再赘述。

本申请实施例中的虚拟装置可以是装置，也可以是终端中的部件、集成电路、或芯片。

实施例四

参照图4，示出了本申请实施例提供的一种电子设备的硬件结构示意图。

该电子设备400包括但不限于：射频单元401、网络模块402、音频输出单元403、输入单元404、传感器405、显示单元406、用户输入单元407、接口单元408、存储器409、以及处理器410等部件。

本领域技术人员可以理解，电子设备400还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器410逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图4中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，输入单元404用于获取用户的第一音频数据，第一音频数据包括全部音素的发音片段。

处理器410用于对第一音频数据进行声学特征提取，并获取第一音频中全部音素的发音片段；将用户的标识和与用户对应的全部音素的发音片段记录到音源库中；以与用户对应的全部音素的发音片段作为声音来源，以敏感内容词库作为内容来源，利用语音合成技术对发音片段进行合成，以得到敏感词汇对应的合成音频；对合成音频进行声学特征提取，并根据合成音频的声学特征建立与用户对应的敏感音频特征模型。

输入单元404还用于获取用户的第二音频数据。

处理器410还用于通过敏感音频特征模型对第二音频数据的声学特征进行相似度匹配；在相似度大于预设值的情况下，对第二音频数据进行内容识别，以得到与第二音频数据对应的内容识别文本；以敏感内容词库作为匹配数据库，判断内容识别文本中是否含有敏感词汇；在内容识别文本中存在敏感词汇的情况下，对敏感词汇对应的语音片段进行替换。

进一步地，处理器410还用于将敏感词汇对应的语音片段替换为同等时长的空白音频。

进一步地，处理器410还用于对内容识别文本中存在的敏感词汇进行分类；根据分类结果，将敏感词汇替换为同类型的脱敏词汇；利用用户对应的全部音素的发音片段合成脱敏词汇对应的语音片段；将脱敏词汇对应的语音片段的时长调整为敏感词汇对应的语音片段的时长；将敏感词汇对应的语音片段替换为脱敏词汇对应的语音片段，以得到脱敏后的第三音频数据。

进一步地，处理器410还用于对第三音频数据进行平滑处理，并加入少量随机噪声。

进一步地，处理器410还用于根据网络爬虫数据，实时更新敏感内容词库中的敏感词汇。

应理解的是，本申请实施例中，输入单元404可以包括图形处理器(GraphicsProcessing Unit，GPU)4041和麦克风4042，图形处理器4041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元406可包括显示面板4061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板4061。用户输入单元407包括触控面板4071以及其他输入设备4072。触控面板4071，也称为触摸屏。触控面板4071可包括触摸检测装置和触摸控制器两个部分。其他输入设备4072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。存储器409可用于存储软件程序以及各种数据，包括但不限于应用程序和操作系统。处理器410可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器410中。

本申请实施例还提供一种可读存储介质，可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述音频脱敏的方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

以上所述仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种音频脱敏的方法，其特征在于，包括：

获取所述用户的第二音频数据；

2.根据权利要求1所述的方法，其特征在于，所述对所述敏感词汇对应的语音片段进行替换，具体为：

3.根据权利要求1所述的方法，其特征在于，所述对所述敏感词汇对应的语音片段进行替换，具体包括：

对所述内容识别文本中存在的所述敏感词汇进行分类；

根据分类结果，将所述敏感词汇替换为同类型的脱敏词汇；

4.根据权利要求3所述的方法，其特征在于，在所述将所述敏感词汇对应的语音片段替换为所述脱敏词汇对应的语音片段，以得到脱敏后的第三音频数据之后，还包括：

对所述第三音频数据进行平滑处理，并加入少量随机噪声。

5.根据权利要求1所述的方法，其特征在于，还包括：

6.一种音频脱敏的装置，其特征在于，包括：

第二获取模块，用于获取所述用户的第二音频数据；

7.根据权利要求6所述的装置，其特征在于，所述替换模块，具体用于：

8.根据权利要求6所述的装置，其特征在于，所述替换模块，具体包括：

9.根据权利要求8所述的装置，其特征在于，所述替换模块还包括：

10.根据权利要求6所述的装置，其特征在于，还包括：