CN110534113B

CN110534113B - 音频数据脱敏方法、装置、设备和存储介质

Info

Publication number: CN110534113B
Application number: CN201910790391.4A
Authority: CN
Inventors: 石真; 付嘉懿
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2019-08-26
Filing date: 2019-08-26
Publication date: 2021-08-24
Anticipated expiration: 2039-08-26
Also published as: CN110534113A

Abstract

本申请涉及一种音频数据脱敏方法、装置、设备和存储介质，终端通过对音频数据进行语音识别，得到音频数据对应的文本数据，以及文本数据中各文本片段与音频片段的对应关系，并利用预设的敏感信息识别模型对文本数据进行语义识别，通过语义识别获取敏感文本片段集合，进而根据敏感文本片段集合及各文本片段与音频片段的对应关系，对音频数据进行脱敏处理，得到脱敏后的音频数据，在对音频数据进行语音脱敏处理的过程中，各步骤均是自动获取的，避免了人工对音频数据进行脱敏的过程，提高了音频数据脱敏的效率。

Description

音频数据脱敏方法、装置、设备和存储介质

技术领域

本申请涉及语音识别技术领域，特别是涉及了一种音频数据脱敏方法、装置、设备和存储介质。

背景技术

随着社会的不断发展，通过音频数据进行信息交互变成了一种常见的通讯方式。例如，用户通过社交软件向其他用户发送一段音频数据，以使其他用户通过该音频数据了解用户想表达的信息。但是根据相关法律法规的规定，以及考虑到用户的隐私性，一些信息不适合传播，这些信息被定义为敏感词，将音频数据中的敏感词去除的过程被称为语音脱敏。

常见的语音脱敏是通过播放音频数据，以使相关人员根据听到的信息判断该音频数据中是否存在敏感词，当相关人员确定该音频数据中存在敏感词时，相关人员在音频数据中找到该敏感词对应的时段，并删除该时段内的音频。

然而当音频数据的数据量较大时，传统的语音脱敏方法的效率低。

发明内容

基于此，有必要针对传统的语音脱敏方法的效率低的问题，提供了一种音频数据脱敏方法、装置、设备和存储介质。

第一方面，一种音频数据脱敏方法，该方法包括：

对音频数据进行语音识别，得到音频数据对应的文本数据，以及文本数据中各文本片段与音频片段的对应关系；音频片段为音频数据中的一段音频；

利用预设的敏感信息识别模型对文本数据进行语义识别，通过语义识别获取敏感文本片段集合，敏感文本片段集合由文本数据中的敏感文本片段组成；

根据敏感文本片段集合及各文本片段与音频片段的对应关系，对音频数据进行脱敏处理，得到脱敏后的音频数据。

在其中一个实施例中，上述根据敏感文本片段集合及各文本片段与音频片段的对应关系，对音频数据进行脱敏处理包括：

接收用户输入的敏感文本片段选择指令；

根据敏感文本片段选择指令的指示在敏感文本片段集合中获取被选中的敏感文本片段；

根据被选中的敏感文本片段及各文本片段与音频片段的对应关系，对音频数据进行脱敏处理。

在其中一个实施例中，上述根据敏感文本片段集合及各文本片段与音频片段的对应关系，对音频数据进行脱敏处理，包括：

根据敏感文本片段集合中包括的每一敏感文本片段以及各文本片段与音频片段的对应关系，对音频数据进行脱敏处理。

在其中一个实施例中，上述对音频数据进行脱敏处理包括删除敏感文本片段对应的音频片段，或，覆盖敏感文本片段对应的音频片段。

在其中一个实施例中，上述预设的敏感信息识别模型为自然语言处理NLP神经网络模型。

在其中一个实施例中，上述对音频数据进行语音识别，得到音频数据对应的文本数据，以及文本数据中各文本片段与音频片段的对应关系，包括：

将音频数据输入预设的语音识别模型中，得到语音识别模型输出的音频数据对应的文本数据，以及文本数据中各文本片段与音频片段的对应关系。

在其中一个实施例中，上述语音识别模型为包括隐马尔科夫HMM、卷积神经网络CNN和加权有限状态机WFST的神经网络模型。

第二方面，一种音频数据脱敏装置，该装置包括：

第一获取模块，用于对音频数据进行语音识别，得到音频数据对应的文本数据，以及文本数据中各文本片段与音频片段的对应关系；音频片段为音频数据中的一段音频；

第二获取模块，用于利用预设的敏感信息识别模型对文本数据进行语义识别，通过语义识别获取敏感文本片段集合，敏感文本片段集合由文本数据中的敏感文本片段组成；

脱敏模块，用于根据敏感文本片段集合及各文本片段与音频片段的对应关系，对音频数据进行脱敏处理，得到脱敏后的音频数据。

第三方面，一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述音频数据脱敏方法所述的方法步骤。

第四方面，一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述音频数据脱敏方法所述的方法步骤。

上述音频数据脱敏方法、装置、设备和存储介质，终端通过对音频数据进行语音识别，得到音频数据对应的文本数据，以及文本数据中各文本片段与音频片段的对应关系，其中音频片段为音频数据中的一段音频，并利用预设的敏感信息识别模型对文本数据进行语义识别，通过语义识别获取敏感文本片段集合，其中敏感文本片段集合由文本数据中的敏感文本片段组成，进而根据敏感文本片段集合及各文本片段与音频片段的对应关系，对音频数据进行脱敏处理，得到脱敏后的音频数据，使得对音频数据的语音脱敏处理是根据敏感文本片段集合及各文本片段与音频片段之间的对应关系自动获得的，而敏感文本片段集合是通过预设的敏感信息识别模型对音频数据对应的文本数据进行自动的语义识别而得到，音频数据对应的文本数据是终端对音频数据进行语音识别而自动得到的，也即是说，在对音频数据进行语音脱敏处理的过程中，各步骤均是自动获取的，避免了人工对音频数据进行脱敏的过程，提高了音频数据脱敏的效率。

附图说明

图1为一个实施例中音频数据脱敏方法的应用环境的示意图；

图2为一个实施例中音频数据脱敏方法的流程示意图；

图3为另一个实施例中音频数据脱敏方法的流程示意图；

图4为一个实施例中提供的音频数据脱敏装置的结构示意图；

图5为另一个实施例中提供的音频数据脱敏装置的结构示意图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

本申请提供的音频数据脱敏方法、装置、设备和存储介质，旨在解决音频数据脱敏的效率低问题。下面将通过实施例并结合附图具体地对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

本实施例提供的音频数据脱敏方法，可以适用于如图1所示的应用环境中。其中音频数据脱敏终端102通过网络与服务器104进行通信。音频数据脱敏终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器104可以可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

需要说明的是，本申请实施例提供的音频数据脱敏方法，其执行主体可以是音频数据脱敏装置，该装置可以通过软件、硬件或者软硬件结合的方式实现成为音频数据脱敏终端部分或者全部。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。

图2为一个实施例中音频数据脱敏方法的流程示意图。本实施例涉及的是如何自动的对音频数据进行脱敏处理的具体过程。如图2所示，该方法包括以下步骤：

S101、对音频数据进行语音识别，得到音频数据对应的文本数据，以及文本数据中各文本片段与音频片段的对应关系；音频片段为音频数据中的一段音频。

其中，音频数据可以是用户通过社交软件进行通讯时产生的音频数据，也可以是通过通讯设备进行通讯时产生的音频数据，还可以是用户通过录音设备录制得到的音频数据，本申请实施例对此不做限制。音频片段可以是上述音频数据中的一段音频，包括该段音频在音频数据中的起始时刻信息，和，终止时刻信息。文本数据可以是对上述音频数据进行语音识别得到的，其中可以包括多个文本片段，每个文本片段可以是文本数据中的一个字，也可以是文本数据中的一个词，还可以是文本数据中的一段话，本申请实施例对此不做限制。文本数据中的各文本片段与音频数据中的各音频片段之间存在一一对应的关系。终端可以通过语音识别技术对音频数据进行语音识别，其中语音识别技术，也被称为自动语音识别(Automatic Speech Recognition，ASR)，其目标是将音频数据中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。

终端可以对通讯中的音频数据进行语音识别，也可以调用服务器中存储的音频数据，对该存储的音频数据进行语音识别，本申请实施例对此不做限制。在对音频数据进行语音识别，得到音频数据的对应的文本数据时，还同时得到了文本数据中各文本片段与音频数据中的各音频片段之间的对应关系。例如，音频数据为一段5S的音频数据，对该音频数据进行识别，得到的文本数据为“今天的气温为25℃”，其中文本片段“今天”对应的音频片段为第0S至第1S之间的音频片段，文本片段“的”对应的音频片段为第1S至第2S之间的音频片段，文本片段“气温”对应的音频片段为第2S至第3S之间的音频片段，文本片段“25℃”对应的音频片段为第3S至第5S之间的音频片段。

S102、利用预设的敏感信息识别模型对文本数据进行语义识别，通过语义识别获取敏感文本片段集合，敏感文本片段集合由文本数据中的敏感文本片段组成。

其中，预设的敏感信息识别模型可以用于对文本数据进行语义识别，识别出上述文本数据的语义，并根据文本数据中各文本片段的语义，确定文本数据中的各文本片段是否是敏感文本片段的模型，其可以是一种神经网络模型。敏感文本片段可以是敏感信息对应的文本片段，其中敏感信息可以是相关法律法规所规定的不允许传播的信息，也可以是涉及用户隐私的信息，还可以是涉及用户安全的信息，例如，敏感信息可以是用户的银行卡密码，还可以是不适合被未成年人查阅的信息。敏感文本片段集合中可以包括一个敏感文本片段，也可以包括多个敏感文本片段，还可以包括零个敏感文本片段，本申请实施例对此不做限制。

S103、根据敏感文本片段集合及各文本片段与音频片段的对应关系，对音频数据进行脱敏处理，得到脱敏后的音频数据。

在上述实施例的基础上，当得到了敏感文本片段集合，及，各文本片段与音频片段的对应关系时，可以根据敏感文本片段集合，及，各文本片段与音频片段的对应关系，对初始的音频数据进行脱敏处理，使得音频数据中没有敏感信息，得到脱敏后的音频数据。脱敏后的音频数据的时长可以与初始的音频数据的时长一致，也可以小于初始的音频数据的时长，本申请实施例对此不做限制。

上述音频数据脱敏方法，终端通过对音频数据进行语音识别，得到音频数据对应的文本数据，以及文本数据中各文本片段与音频片段的对应关系，其中音频片段为音频数据中的一段音频，并利用预设的敏感信息识别模型对文本数据进行语义识别，通过语义识别获取敏感文本片段集合，其中敏感文本片段集合由文本数据中的敏感文本片段组成，进而根据敏感文本片段集合及各文本片段与音频片段的对应关系，对音频数据进行脱敏处理，得到脱敏后的音频数据，使得对音频数据的语音脱敏处理是根据敏感文本片段集合及各文本片段与音频片段之间的对应关系自动获得的，而敏感文本片段集合是通过预设的敏感信息识别模型对音频数据对应的文本数据进行自动的语义识别而得到，音频数据对应的文本数据是终端对音频数据进行语音识别而自动得到的，也即是说，在对音频数据进行语音脱敏处理的过程中，各步骤均是自动获取的，避免了人工对音频数据进行脱敏的过程，提高了音频数据脱敏的效率。

可选地，根据敏感文本片段集合中包括的每一敏感文本片段以及各文本片段与音频片段的对应关系，对音频数据进行脱敏处理。

本实施例中，当得到了敏感文本片段集合后，可以自动的根据各文本片段与音频片段的对应关系，将敏感文本片段集合中的每一个敏感文本片段作为音频数据脱敏时的处理对象，对音频数据进行脱敏，可选地，对音频数据进行脱敏处理包括删除敏感文本片段对应的音频片段，或，覆盖敏感文本片段对应的音频片段。也即是说，根据敏感文本片段集合中包括的每一敏感文本片段以及各文本片段与音频片段的对应关系，对音频数据进行脱敏处理，是自动的将音频数据中与所有敏感文本片段对应的音频片段进行删除或覆盖得到的脱敏后的音频数据。

上述音频数据脱敏方法，终端根据敏感文本片段集合中包括的每一敏感文本片段以及各文本片段与音频片段的对应关系，对音频数据进行脱敏处理，使得得到脱敏后的音频数据是直接对敏感文本片段集合中包括的每一敏感文本片段进行脱敏得到了，使得对音频数据的脱敏处理是终端自动完成的，提高了音频数据脱敏的智能性。

图3为另一个实施例中音频数据脱敏方法的流程示意图。本实施例涉及的是如何根据敏感文本片段集合及各文本片段与音频片段的对应关系，对音频数据进行脱敏处理的具体过程。如图3所示，上述S103“根据敏感文本片段集合及各文本片段与音频片段的对应关系，对音频数据进行脱敏处理”一种可能的实现方法包括以下步骤：

S201、接收用户输入的敏感文本片段选择指令。

本实施例中，敏感文本片段选择指令可以是语音命令，也可以是文字命令，还可以是触控指令，本申请实施例对此不做限制。对应的，接收用户输入的敏感文本片段选择指令可以通过接收用户输入的语音命令，来接收敏感文本片段选择指令；也可以是接收用户输入输的文字命令，来接收敏感文本片段选择指令；还可以是接收用户输入的触控命令，来接收敏感文本片段选择指令；本申请实施例对此不做限制。

S202、根据敏感文本片段选择指令的指示在敏感文本片段集合中获取被选中的敏感文本片段。

在上述实施例的基础上，敏感文本片段集合中的敏感文本片段是通过预设的敏感信息识别模型得到的，当预设的敏感信息识别模型识别出的敏感文本片段不准确时，如果直接根据敏感文本片段集合对音频数据做脱敏处理时，可能会误删除一些非敏感信息。因此当接收到用户输入的敏感文本片段选择指令时，可以从敏感文本片段集合中获取被选中的敏感文本片段。也即是说，通过用户在敏感文本片段集合中进行筛选，剔除掉非敏感信息对应的敏感文本片段。终端可以根据敏感文本片段选择指令从敏感文本片段集合中选取全部的敏感文本片段，也可以选取部分的敏感文本片段，还可以不选取敏感文本片段，本申请实施例对此不做限制。

S203、根据被选中的敏感文本片段及各文本片段与音频片段的对应关系，对音频数据进行脱敏处理。

上述音频数据脱敏方法，终端通过接收用户输入的敏感文本片段选择指令，根据敏感文本片段选择指令的指示在敏感文本片段集合中获取被选中的敏感文本片段，根据被选中的敏感文本片段及各文本片段与音频片段的对应关系，对音频数据进行脱敏处理，使得在根据敏感文本片段集合中的敏感文本片段对音频数据进行脱敏处理之前，先根据用户的选择，剔除掉非敏感信息对应的敏感文本片段，进而使得根据敏感文本片段集合中的敏感文本片段对音频数据进行脱敏处理更加准确，提高了音频数据脱敏的准确性。

可选地，上述预设的敏感信息识别模型为自然语言处理NLP神经网络模型。

本实施例中，自然语言处理(Natural Language Processing，NLP)是人工智能的一个子领域，用于识别文字数据中的语义。一般而言，可以利用基于双向卷积神经网络(Bi-RNN)和条件随机场(CRF)的混合算法来实现自然语言处理。当然，本申请也保护通过其他算法来实现自然语言处理的过程。NLP可以由两个主要的技术领域构成：自然语言理解和自然语言生成。自然语言理解方向，主要目标是帮助机器更好理解人的语言，包括基础的词法、句法等语义理解，以及需求、篇章、情感层面的高层理解。自然语言生成方向，主要目标是帮助机器生成人能够理解的语言，比如文本生成、自动文摘等。例如：人们在搜索一个生僻字时，不知道拼音的情况下会搜索：“4个又念什么？”我们发现，搜索结果一定是告诉你这个“叕”字念什么，而不是“4个又念什么”的这几个词表面的匹配结果，这其中便应用了自然语言处理，它帮助计算机理解用户需要搜的是“由4个又组成的字”，而不是“4个又是什么”这几个孤零零的词。

可选地，将音频数据输入预设的语音识别模型中，得到语音识别模型输出的音频数据对应的文本数据，以及文本数据中各文本片段与音频片段的对应关系。

其中，预设的语音识别模型可以是神经网络模型，预设的语音识别模型中预存了音频数据和文本数据之间的映射关系，当将音频数据输入预设的语音识别模型之后，预设的语音识别模型根据音频数据和文本数据之间的映射关系，输出音频数据对应的文本数据，及，文本数据中各文本片段与音频片段的对应关系。可选地，语音识别模型为包括隐马尔科夫HMM、卷积神经网络CNN和加权有限状态机WFST的神经网络模型。

应该理解的是，虽然图2或3的流程图中的各个步骤按照箭头的指示，依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2或3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

图4为一个实施例中提供的音频数据脱敏装置的结构示意图，如图4所示，该音频数据脱敏装置包括：第一获取模块10、第二获取模块20和脱敏模块30，其中：

第一获取模块10用于对音频数据进行语音识别，得到音频数据对应的文本数据，以及文本数据中各文本片段与音频片段的对应关系；音频片段为音频数据中的一段音频；

第二获取模块20用于利用预设的敏感信息识别模型对文本数据进行语义识别，通过语义识别获取敏感文本片段集合，敏感文本片段集合由文本数据中的敏感文本片段组成；

脱敏模块30用于根据敏感文本片段集合及各文本片段与音频片段的对应关系，对音频数据进行脱敏处理，得到脱敏后的音频数据。

本申请实施例提供的音频数据脱敏装置，可以执行上述方法实施例，其实现原理和技术效果类似，在此不再赘述。

图5为另一个实施例中提供的音频数据脱敏装置的结构示意图，在图4所示实施例的基础上，如图5所示，脱敏模块30包括：接收单元301、选取单元302和脱敏单元303，其中：

接收单元301用于接收用户输入的敏感文本片段选择指令；

选取单元302用于根据敏感文本片段选择指令的指示在敏感文本片段集合中获取被选中的敏感文本片段；

脱敏单元303用于根据被选中的敏感文本片段及各文本片段与音频片段的对应关系，对音频数据进行脱敏处理。

在一个实施例中，脱敏模块30具体用于根据敏感文本片段集合中包括的每一敏感文本片段以及各文本片段与音频片段的对应关系，对音频数据进行脱敏处理。

在一个实施例中，对音频数据进行脱敏处理包括删除敏感文本片段对应的音频片段，或，覆盖敏感文本片段对应的音频片段。

在一个实施例中，预设的敏感信息识别模型为自然语言处理NLP神经网络模型。

在一个实施例中，第一获取模块10具体用于将音频数据输入预设的语音识别模型中，得到语音识别模型输出的音频数据对应的文本数据，以及文本数据中各文本片段与音频片段的对应关系。

在一个实施例中，语音识别模型为包括隐马尔科夫HMM、卷积神经网络CNN和加权有限状态机WFST的神经网络模型。

关于一种音频数据脱敏装置的具体限定可以参见上文中对音频数据脱敏方法的限定，在此不再赘述。上述音频数据脱敏装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端设备，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种音频数据脱敏方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种终端设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

在一个实施例中，处理器执行计算机程序时还实现以下步骤：接收用户输入的敏感文本片段选择指令；根据敏感文本片段选择指令的指示在敏感文本片段集合中获取被选中的敏感文本片段；根据被选中的敏感文本片段及各文本片段与音频片段的对应关系，对音频数据进行脱敏处理。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据敏感文本片段集合中包括的每一敏感文本片段以及各文本片段与音频片段的对应关系，对音频数据进行脱敏处理。

在一个实施例中，上述对音频数据进行脱敏处理包括删除敏感文本片段对应的音频片段，或，覆盖敏感文本片段对应的音频片段。

在一个实施例中，上述预设的敏感信息识别模型为自然语言处理NLP神经网络模型。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：将音频数据输入预设的语音识别模型中，得到语音识别模型输出的音频数据对应的文本数据，以及文本数据中各文本片段与音频片段的对应关系。

在一个实施例中，上述语音识别模型为包括隐马尔科夫HMM、卷积神经网络CNN和加权有限状态机WFST的神经网络模型。

本实施例提供的终端设备，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时实现以下步骤：接收用户输入的敏感文本片段选择指令；根据敏感文本片段选择指令的指示在敏感文本片段集合中获取被选中的敏感文本片段；根据被选中的敏感文本片段及各文本片段与音频片段的对应关系，对音频数据进行脱敏处理。

在一个实施例中，计算机程序被处理器执行时实现以下步骤：根据敏感文本片段集合中包括的每一敏感文本片段以及各文本片段与音频片段的对应关系，对音频数据进行脱敏处理。

在一个实施例中，计算机程序被处理器执行时实现以下步骤：将音频数据输入预设的语音识别模型中，得到语音识别模型输出的音频数据对应的文本数据，以及文本数据中各文本片段与音频片段的对应关系。

本实施例提供的计算机可读存储介质，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种音频数据脱敏方法，其特征在于，所述方法包括：

对音频数据进行语音识别，得到所述音频数据对应的文本数据，以及所述文本数据中各文本片段与音频片段的对应关系；所述音频片段为所述音频数据中的一段音频；

利用预设的敏感信息识别模型对所述文本数据进行语义识别，通过所述语义识别获取敏感文本片段集合，所述敏感文本片段集合由所述文本数据中的敏感文本片段组成；其中，所述预设的敏感信息识别模型，用于识别出所述文本数据中各文本片段的语义，并根据所述文本数据中各文本片段的语义，确定所述文本数据中的各文本片段是否是敏感文本片段；

根据所述敏感文本片段集合及各所述文本片段与音频片段的对应关系，对所述音频数据进行脱敏处理，得到脱敏后的音频数据；

其中，所述对音频数据进行语音识别，得到所述音频数据对应的文本数据，以及所述文本数据中各文本片段与音频片段的对应关系，包括：

将所述音频数据输入预设的语音识别模型中，得到所述语音识别模型输出的所述音频数据对应的文本数据，以及所述文本数据中各文本片段与音频片段的对应关系；所述语音识别模型为包括隐马尔科夫HMM、卷积神经网络CNN和加权有限状态机WFST的神经网络模型。

2.根据权利要求1所述的方法，其特征在于，所述根据所述敏感文本片段集合及各所述文本片段与音频片段的对应关系，对所述音频数据进行脱敏处理，包括：

接收用户输入的敏感文本片段选择指令；

根据所述敏感文本片段选择指令的指示在所述敏感文本片段集合中获取被选中的敏感文本片段；

根据所述被选中的敏感文本片段及各所述文本片段与音频片段的对应关系，对所述音频数据进行脱敏处理。

3.根据权利要求1所述的方法，其特征在于，所述根据所述敏感文本片段集合及各所述文本片段与音频片段的对应关系，对所述音频数据进行脱敏处理，包括：

根据所述敏感文本片段集合中包括的每一敏感文本片段以及各所述文本片段与音频片段的对应关系，对所述音频数据进行脱敏处理。

4.根据权利要求1-3任一所述方法，其特征在于，所述对所述音频数据进行脱敏处理包括删除敏感文本片段对应的音频片段，或，覆盖敏感文本片段对应的音频片段。

5.根据权利要求1-3任一项所述方法，其特征在于，所述预设的敏感信息识别模型为自然语言处理NLP神经网络模型；所述预设的敏感信息识别模型利用基于双向卷积神经网络Bi-RNN和条件随机场CRF的混合算法来实现自然语言处理。

6.一种音频数据脱敏装置，其特征在于，所述装置包括：

第一获取模块，用于对音频数据进行语音识别，得到所述音频数据对应的文本数据，以及所述文本数据中各文本片段与音频片段的对应关系；所述音频片段为所述音频数据中的一段音频；

第二获取模块，用于利用预设的敏感信息识别模型对所述文本数据进行语义识别，通过所述语义识别获取敏感文本片段集合，所述敏感文本片段集合由所述文本数据中的敏感文本片段组成；其中，所述预设的敏感信息识别模型，用于识别出所述文本数据中各文本片段的语义，并根据所述文本数据中各文本片段的语义，确定所述文本数据中的各文本片段是否是敏感文本片段；

脱敏模块，用于根据所述敏感文本片段集合及各所述文本片段与音频片段的对应关系，对所述音频数据进行脱敏处理，得到脱敏后的音频数据；

其中，所述第一获取模块，具体用于将所述音频数据输入预设的语音识别模型中，得到所述语音识别模型输出的所述音频数据对应的文本数据，以及所述文本数据中各文本片段与音频片段的对应关系；所述语音识别模型为包括隐马尔科夫HMM、卷积神经网络CNN和加权有限状态机WFST的神经网络模型。

7.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-5中任一项所述方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-5中任一项所述的方法的步骤。