CN111640420B

CN111640420B - 音频数据的处理方法和装置、存储介质

Info

Publication number: CN111640420B
Application number: CN202010524997.6A
Authority: CN
Inventors: 刘畅奕航; 梁志婷; 徐世超; 徐浩
Original assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Current assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date: 2020-06-10
Filing date: 2020-06-10
Publication date: 2023-05-12
Anticipated expiration: 2040-06-10
Also published as: CN111640420A

Abstract

本发明提供了一种音频数据的处理方法和装置、存储介质，包括：获取待处理音频数据的N个第一特征信息，其中，N为自然数；确定N个第一特征信息对应的N个语种，将N个音频数据分别输入至N个语种对应的N个语言识别模块中，其中，待处理音频数据包括N个音频数据，N个音频数据与N个第一特征信息一一对应；通过N个语言识别模块分别对N个音频数据进行处理，确定N个音频数据对应的N组目标词汇集，其中，N组目标词汇集中的词汇均为敏感词汇。采用上述技术方案，解决了相关技术中，无法有效的对方言进行脱敏的技术问题。

Description

音频数据的处理方法和装置、存储介质

技术领域

本发明涉及计算机领域，具体而言，涉及一种音频数据的处理方法和装置、存储介质。

背景技术

在语音识别领域中，用户的账号、密码、地址等敏感信息如果直接暴露出来，会极大的影响用户的财产和人身安全。另一方面，反动、暴力、色情、辱骂等不正当言论也会对网络环境造成极大的破坏。因此语音数据的脱敏是一个很重要的环节。

如今流行的脱敏技术方案是维护一套敏感词的规则库，语音转写内容经过规则匹配将敏感的词语抹掉或置为*号。但对于方言，其规则，发音和普通话相比有较大的变化，还存在方言和普通话穿插的场景。如果以普通话的规则去匹配方言的敏感词，会使方言的脱敏效果很差。

因此，针对相关技术中，无法有效的对方言进行脱敏的问题，尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种音频数据的处理方法和装置、存储介质，以至少解决相关技术中，无法有效的对方言进行脱敏的技术问题。

根据本发明实施例的一个方面，提供了一种音频数据的处理方法，包括：获取待处理音频数据的N个第一特征信息，其中，上述N为自然数；确定上述N个第一特征信息对应的N个语种，将N个音频数据分别输入至上述N个语种对应的N个语言识别模块中，其中，上述待处理音频数据包括上述N个音频数据，上述N个音频数据与上述N个第一特征信息一一对应；通过上述N个语言识别模块分别对上述N个音频数据进行处理，确定上述N个音频数据对应的N组目标词汇集，其中，上述N组目标词汇集中的词汇均为敏感词汇。

根据本发明实施例的另一方面，还提供了一种音频数据的处理装置，包括：检第一获取单元，用于获取待处理音频数据的N个第一特征信息，其中，上述N为自然数；第一确定单元，用于确定上述N个第一特征信息对应的N个语种，将N个音频数据分别输入至上述N个语种对应的N个语言识别模块中，其中，上述待处理音频数据包括上述N个音频数据，上述N个音频数据与上述N个第一特征信息一一对应；第二确定单元，用于通过上述N个语言识别模块分别对上述N个音频数据进行处理，确定上述N个音频数据对应的N组目标词汇集，其中，上述N组目标词汇集中的词汇均为敏感词汇。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述音频数据的处理方法。

根据本发明实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的音频数据的处理方法。

在本发明实施例中，获取待处理音频数据的N个第一特征信息，其中，上述N为自然数；确定上述N个第一特征信息对应的N个语种，将N个音频数据分别输入至上述N个语种对应的N个语言识别模块中，其中，上述待处理音频数据包括上述N个音频数据，上述N个音频数据与上述N个第一特征信息一一对应；通过上述N个语言识别模块分别对上述N个音频数据进行处理，确定上述N个音频数据对应的N组目标词汇集，其中，上述N组目标词汇集中的词汇均为敏感词汇，进而解决了相关技术中，无法有效的对方言进行脱敏的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的音频数据的处理方法的流程示意图；

图2是根据本发明实施例的另一种可选的音频数据的处理方法的流程示意图；

图3是根据本发明实施例的一种可选的音频数据的处理方法的结构示意图；

图4是根据本发明实施例的一种可选的电子装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

可选地，在本实施例中，如图1所示，提供了一种音频数据的处理方法的方法，具体可以包括以下步骤：

步骤S102，获取待处理音频数据的N个第一特征信息，其中，上述N为自然数；

步骤S104，确定上述N个第一特征信息对应的N个语种，将N个音频数据分别输入至上述N个语种对应的N个语言识别模块中，其中，上述待处理音频数据包括上述N个音频数据，上述N个音频数据与上述N个第一特征信息一一对应；

步骤S106，通过上述N个语言识别模块分别对上述N个音频数据进行处理，确定上述N个音频数据对应的N组目标词汇集，其中，上述N组目标词汇集中的词汇均为敏感词汇。

其中，敏感词汇可以理解为一种包含用户的账号、密码、地址等敏感信息的词汇。或者，敏感词汇也可以为与反动、暴力、色情、辱骂等不正当言论相关的词汇。可理解，以上仅为一种示例，本实施例在此不作任何限定。

可选地，上述音频数据的处理方法可以但不限于数据脱敏的场景中。

通过本实施例，获取待处理音频数据的N个第一特征信息，其中，上述N为自然数；确定上述N个第一特征信息对应的N个语种，将N个音频数据分别输入至上述N个语种对应的N个语言识别模块中，其中，上述待处理音频数据包括上述N个音频数据，上述N个音频数据与上述N个第一特征信息一一对应；通过上述N个语言识别模块分别对上述N个音频数据进行处理，确定上述N个音频数据对应的N组目标词汇集，其中，上述N组目标词汇集中的词汇均为敏感词汇，进而解决了相关技术中，无法有效的对方言进行脱敏的技术问题。

在一种可选的实施例中，上述确定上述N个第一特征信息对应的N个语种，包括：将每个上述N个第一特征信息与一组样本特征信息一一匹配，确定与上述N个第一特征信息匹配的N个第二特征信息；其中，上述一组样本特征信息为预先确定的样本特征信息，上述一组样本特征信息中的一个样本特征信息对应于一个语种，上述N个第二特征信息为上述一组样本特征信息中的N个样本特征信息；根据上述N个第二特征信息确定上述N个语种，其中，上述N个语种与上述N个第二特征信息一一对应，上述N个第二特征信息用于指示上述N个语种对应的上述N个语言识别模块。

在一种可选地实施例中，在上述将N个音频数据分别输入至上述N个语种对应的N个语言识别模块中之前，上述方法还包括：对上述N个第一特征信息分别标记N个时间信息，其中，上述N个时间信息用于指示在上述待处理音频数据中产生上述N个第一特征信息的起止时间；按照上述N个时间信息对上述待处理音频数据进行拆分，得到上述N个音频数据。

在一种可选地实施例中，上述通过上述N个语言识别模块分别对上述N个音频数据进行处理，确定上述N个音频数据对应的N组目标词汇集，包括：通过上述N个语言识别模块分别确定上述N个音频数据对应的N个文本数据；将上述N个文本数据中的词汇与上述N个语言识别模块中预先记录的N组样本词汇集中的词汇进行匹配，得到上述N组目标词汇集，其中，上述N组目标词汇集与上述N个文本数据一一对应，上述N组目标词汇集中的一个目标词汇集所包括的M个词汇与上述N组样本词汇集中的一个样本词汇集中的M个词汇匹配，上述M为自然数。

在一种可选地实施例中，在上述将上述N个文本数据中的词汇与上述N个语言识别模块中预先记录的N组样本词汇集中的词汇进行匹配，得到上述N组目标词汇集之后，上述方法还包括：根据上述N组目标词汇集、上述N个文本数据，以及N个时间信息确定目标文本数据，其中，上述N个时间信息用于指示上述N个音频在上述待处理音频数据中产生的起止时间，上述N个文本数据与上述N个音频数据一一对应。

在一种可选地实施例中，上述根据上述N组目标词汇集、上述N个文本数据，以及N个时间信息确定目标文本数据，包括：将上述N个目标词汇集从上述N个文本数据中删除，或者，将上述N组目标词汇集中的词汇替换为目标标识，得到N个第一文本数据，其中，上述目标标识用于标记上述N组目标词汇集中的词汇，以使上述N组目标词汇集中的词汇所对应的信息不可见；将上述第一文本数据按照上述N个时间信息进行拼接，得到上述目标文本数据。

下面结合可选示例对音频数据的处理方法的流程进行说明，如图2所示，该方法具体过程如下：

该音频数据的处理方法可以采用专有云消息处理系统，相关处理流程如下：

步骤1，用户的语音文件(包含方言、方言与普通话混合的音频数据)被送到云处理系统进行识别。其中，方言、方言与普通话混合的音频数据对应于上述待处理音频数据。

步骤2，方言识别模块首先提取音频数据的语音特征(音频频谱)；对音频数据的音调频谱等特征进行分析，并与各方言的频谱进行校对，从而确定具体是哪一种方言。方言识别模块确定该段音频是哪种方言后，则将将段音频通过调度模块分配到对应的方言规则库。

步骤3，方言识别模块识别后，方言音频数据就可以由调度模块分发到对应的方言规则库进行语音识别和脱敏处理。

在各方言规则库中包含方言识别子模块(如上述N个语言识别模块)，方言识别子模块将接收到的方言音频数据进行语音识别得到方言文本数据(如上述N个文本数据)。

步骤4，在各方言规则库中提前录入了该方言对应的敏感词(如上述预先记录的N组样本词汇集)，根据关键词匹配技术将方言文本数据中的敏感词删除或替换为特殊符号(*)，实现脱敏，得到脱敏文本数据(如上述目标文本数据)。云处理后的脱敏文本数据，传送到业务系统进行对应的业务分析处理。

可选地，上述音频数据的处理方法还可以用于处理包含多种方言的混合语音，具体过程如下：

步骤1，方言识别模块对混合语音进行语音特征提取和分析，对混合语音基于时间线进行方言种类的标记。

例如，一段包含方言和普通话的时长为1分钟的混合语音；A说：你想说什么；B说：别说那三七旮旯话。经过方言识别模块处理，则标记为：第0-40秒为普通话，第41-60秒为东北话。

步骤2，调度模块根据混合语音中的不同标识，将原音频段进行拆分，并分配到对应的方言规则库中处理。

例如，混合语音中的第0-40秒音频段分配到(普通话)方言规则库，第41-60秒音频段分配到(东北话)方言规则库。

步骤3，各方言规则库分别对接收到的音频段进行语音识别和脱敏处理；在脱敏处理时，可以将原敏感词文本替换为特殊标号(如*、#等符号)，(删除敏感词破坏文本数据的时间线，不利于下一步骤的文本拼接组合)。

步骤4，将各方言规则库处理后得到的分段脱敏文本数据按照时间线进行文本组合，得到完整的脱敏文本数据(如上述目标文本数据)。

通过本实施例，可以实现对包含方言的音频数据中的敏感词进行有效的脱敏，并且可以对每个方言规则分别维护，互相独立，有效提高了对包含方言的音频数据的脱敏。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的又一方面，还提供了一种音频数据的处理方法，如图3所示，该装置包括：

第一获取单元302，用于获取待处理音频数据的N个第一特征信息，其中，上述N为自然数；

第一确定单元304，用于确定上述N个第一特征信息对应的N个语种，将N个音频数据分别输入至上述N个语种对应的N个语言识别模块中，其中，上述待处理音频数据包括上述N个音频数据，上述N个音频数据与上述N个第一特征信息一一对应；

第二确定单306，用于通过上述N个语言识别模块分别对上述N个音频数据进行处理，确定上述N个音频数据对应的N组目标词汇集，其中，上述N组目标词汇集中的词汇均为敏感词汇。

作为一种可选的技术方案，上述第一确定单元，包括：

第一确定模块，用于将每个上述N个第一特征信息与一组样本特征信息一一匹配，确定与上述N个第一特征信息匹配的N个第二特征信息；其中，上述一组样本特征信息为预先确定的样本特征信息，上述一组样本特征信息中的一个样本特征信息对应于一个语种，上述N个第二特征信息为上述一组样本特征信息中的N个样本特征信息；

第二确定模块，用于根据上述N个第二特征信息确定上述N个语种，其中，上述N个语种与上述N个第二特征信息一一对应，上述N个第二特征信息用于指示上述N个语种对应的上述N个语言识别模块。

作为一种可选的技术方案，上述装置还包括：

标记单元，用于在上述将N个音频数据分别输入至上述N个语种对应的N个语言识别模块中之前，对上述N个第一特征信息分别标记N个时间信息，其中，上述N个时间信息用于指示在上述待处理音频数据中产生上述N个第一特征信息的起止时间；

拆分单元，用于按照上述N个时间信息对上述待处理音频数据进行拆分，得到上述N个音频数据。

作为一种可选的技术方案，上述第二确定单元，包括：

第三确定模块，用于通过上述N个语言识别模块分别确定上述N个音频数据对应的N个文本数据；

第一处理单元，用于将上述N个文本数据中的词汇与上述N个语言识别模块中预先记录的N组样本词汇集中的词汇进行匹配，得到上述N组目标词汇集，其中，上述N组目标词汇集与上述N个文本数据一一对应，上述N组目标词汇集中的一个目标词汇集所包括的M个词汇与上述N组样本词汇集中的一个样本词汇集中的M个词汇匹配，上述M为自然数。

作为一种可选的技术方案，上述装置还包括：

第三确定单元，用于在上述将上述N个文本数据中的词汇与上述N个语言识别模块中预先记录的N组样本词汇集中的词汇进行匹配，得到上述N组目标词汇集之后，根据上述N组目标词汇集、上述N个文本数据，以及N个时间信息确定目标文本数据，其中，上述N个时间信息用于指示上述N个音频在上述待处理音频数据中产生的起止时间，上述N个文本数据与上述N个音频数据一一对应。

作为一种可选的技术方案，上述第三确定单元，包括：

第一处理模块，用于将上述N个目标词汇集从上述N个文本数据中删除，或者，将上述N组目标词汇集中的词汇替换为目标标识，得到N个第一文本数据，其中，上述目标标识用于标记上述N组目标词汇集中的词汇，以使上述N组目标词汇集中的词汇所对应的信息不可见；

第二处理模块，用于将上述第一文本数据按照上述N个时间信息进行拼接，得到上述目标文本数据。

根据本发明的实施例的又一方面，还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取待处理音频数据的N个第一特征信息，其中，上述N为自然数；

S2，确定上述N个第一特征信息对应的N个语种，将N个音频数据分别输入至上述N个语种对应的N个语言识别模块中，其中，上述待处理音频数据包括上述N个音频数据，上述N个音频数据与上述N个第一特征信息一一对应；

S3，通过上述N个语言识别模块分别对上述N个音频数据进行处理，确定上述N个音频数据对应的N组目标词汇集，其中，上述N组目标词汇集中的词汇均为敏感词汇。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随机存取器)、磁盘或光盘等。

根据本发明实施例的又一个方面，还提供了一种用于实施上述音频数据的处理方法的电子装置，如图4所示，该电子装置包括存储器402和处理器404，该存储器402中存储有计算机程序，该处理器404被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

可选地，本领域普通技术人员可以理解，图4所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图4其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图4中所示更多或者更少的组件(如网络接口等)，或者具有与图4所示不同的配置。

其中，存储器402可用于存储软件程序以及模块，如本发明实施例中的音频数据的处理方法和装置对应的程序指令/模块，处理器404通过运行存储在存储器402内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的音频数据的处理方法。存储器402可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器402可进一步包括相对于处理器404远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器402具体可以但不限于用于存储物品的样本特征与目标虚拟资源账号等信息。作为一种示例，如图4所示，上述存储器402中可以但不限于包括上述音频数据的处理方法中的第一获取单元302、第一确定单元304、第二确定单元306。此外，还可以包括但不限于上述音频数据的处理方法中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置406用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置406包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置406为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器408；和连接总线410，用于连接上述电子装置中的各个模块部件。

在其他实施例中，上述终端或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点(P2P，Peer To Peer)网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种音频数据的处理方法，其特征在于，包括：

获取待处理音频数据的N个第一特征信息，其中，所述N为自然数；

确定所述N个第一特征信息对应的N个语种，将N个音频数据分别输入至所述N个语种对应的N个语言识别模块中，其中，所述待处理音频数据包括所述N个音频数据，所述N个音频数据与所述N个第一特征信息一一对应；

通过所述N个语言识别模块分别对所述N个音频数据进行处理，确定所述N个音频数据对应的N组目标词汇集，其中，所述N组目标词汇集中的词汇均为敏感词汇。

2.根据权利要求1所述的方法，其特征在于，所述确定所述N个第一特征信息对应的N个语种，包括：

将每个所述N个第一特征信息与一组样本特征信息一一匹配，确定与所述N个第一特征信息匹配的N个第二特征信息；其中，所述一组样本特征信息为预先确定的样本特征信息，所述一组样本特征信息中的一个样本特征信息对应于一个语种，所述N个第二特征信息为所述一组样本特征信息中的N个样本特征信息；

根据所述N个第二特征信息确定所述N个语种，其中，所述N个语种与所述N个第二特征信息一一对应，所述N个第二特征信息用于指示所述N个语种对应的所述N个语言识别模块。

3.根据权利要求1所述的方法，其特征在于，在所述将N个音频数据分别输入至所述N个语种对应的N个语言识别模块中之前，所述方法还包括：

对所述N个第一特征信息分别标记N个时间信息，其中，所述N个时间信息用于指示在所述待处理音频数据中产生所述N个第一特征信息的起止时间；

按照所述N个时间信息对所述待处理音频数据进行拆分，得到所述N个音频数据。

4.根据权利要求1所述的方法，其特征在于，所述通过所述N个语言识别模块分别对所述N个音频数据进行处理，确定所述N个音频数据对应的N组目标词汇集，包括：

通过所述N个语言识别模块分别确定所述N个音频数据对应的N个文本数据；

将所述N个文本数据中的词汇与所述N个语言识别模块中预先记录的N组样本词汇集中的词汇进行匹配，得到所述N组目标词汇集，其中，所述N组目标词汇集与所述N个文本数据一一对应，所述N组目标词汇集中的一个目标词汇集所包括的M个词汇与所述N组样本词汇集中的一个样本词汇集中的M个词汇匹配，所述M为自然数。

5.根据权利要求4所述的方法，其特征在于，在所述将所述N个文本数据中的词汇与所述N个语言识别模块中预先记录的N组样本词汇集中的词汇进行匹配，得到所述N组目标词汇集之后，所述方法还包括：

根据所述N组目标词汇集、所述N个文本数据，以及N个时间信息确定目标文本数据，其中，所述N个时间信息用于指示所述N个音频在所述待处理音频数据中产生的起止时间，所述N个文本数据与所述N个音频数据一一对应。

6.根据权利要求5所述的方法，其特征在于，所述根据所述N组目标词汇集、所述N个文本数据，以及N个时间信息确定目标文本数据，包括：

将所述N个目标词汇集从所述N个文本数据中删除，或者，将所述N组目标词汇集中的词汇替换为目标标识，得到N个第一文本数据，其中，所述目标标识用于标记所述N组目标词汇集中的词汇，以使所述N组目标词汇集中的词汇所对应的信息不可见；

将所述第一文本数据按照所述N个时间信息进行拼接，得到所述目标文本数据。

7.一种音频数据的处理装置，其特征在于，包括：

第一获取单元，用于获取待处理音频数据的N个第一特征信息，其中，所述N为自然数；

第一确定单元，用于确定所述N个第一特征信息对应的N个语种，将N个音频数据分别输入至所述N个语种对应的N个语言识别模块中，其中，所述待处理音频数据包括所述N个音频数据，所述N个音频数据与所述N个第一特征信息一一对应；

第二确定单元，用于通过所述N个语言识别模块分别对所述N个音频数据进行处理，确定所述N个音频数据对应的N组目标词汇集，其中，所述N组目标词汇集中的词汇均为敏感词汇。

8.根据权利要求7所述的装置，其特征在于，所述第一确定单元，包括：

第一确定模块，用于将每个所述N个第一特征信息与一组样本特征信息一一匹配，确定与所述N个第一特征信息匹配的N个第二特征信息；其中，所述一组样本特征信息为预先确定的样本特征信息，所述一组样本特征信息中的一个样本特征信息对应于一个语种，所述N个第二特征信息为所述一组样本特征信息中的N个样本特征信息；

第二确定模块，用于根据所述N个第二特征信息确定所述N个语种，其中，所述N个语种与所述N个第二特征信息一一对应，所述N个第二特征信息用于指示所述N个语种对应的所述N个语言识别模块。

9.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至6任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至6任一项中所述的方法。