CN112231748A

CN112231748A - 脱敏处理方法及装置、存储介质和电子装置

Info

Publication number: CN112231748A
Application number: CN202011091998.2A
Authority: CN
Inventors: 刘畅奕航; 梁志婷; 徐世超; 徐浩
Original assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Current assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date: 2020-10-13
Filing date: 2020-10-13
Publication date: 2021-01-15
Anticipated expiration: 2040-10-13

Abstract

本发明提供了一种脱敏处理方法及装置、存储介质和电子装置，包括：获取由语音采集设备采集得到的语音数据；根据语音采集设备的身份信息，在预先建立的数据库中查找与身份信息相匹配的脱敏实体集；将语音数据中与脱敏实体集中的脱敏实体相匹配的词语进行脱敏处理。通过本发明，解决了由于现有技术中的语音脱敏不能结合语境，导致的语音脱敏准确率低的问题，进而达到了可以结合语境对语音进行脱敏处理，提高语音脱敏准确率的效果。

Description

脱敏处理方法及装置、存储介质和电子装置

技术领域

本发明涉及通信领域，具体而言，涉及一种脱敏处理方法及装置、存储介质和电子装置。

背景技术

在语音识别领域中，用户的账号、密码、地址等敏感信息如果直接暴露出来，会极大的影响用户的财产和人身安全。

目前的语音脱敏处理仅针对个别词语进行脱敏处理，例如，涉及反动、暴力、色情、辱骂等词语。用户讲话在场景中是存在一定的目的性，传统方案不能根据语境变化动态选择脱敏方案，脱敏效果差并且配置不灵活。

针对相关技术中，由于现有技术中的语音脱敏不能结合语境，导致的语音脱敏准确率低的问题，目前尚未存在有效的解决方案。

发明内容

本发明实施例提供了一种脱敏处理方法及装置、存储介质和电子装置，以至少解决相关技术中由于现有技术中的语音脱敏不能结合语境，导致的语音脱敏准确率低的问题。

根据本发明的一个实施例，提供了一种脱敏处理方法，包括：获取由语音采集设备采集得到的语音数据；根据所述语音采集设备的身份信息，在预先建立的数据库中查找与所述身份信息相匹配的脱敏实体集；将所述语音数据中与所述脱敏实体集中的脱敏实体相匹配的词语进行脱敏处理。

可选地，将所述语音数据中与所述脱敏实体集中的脱敏实体相匹配的词语进行脱敏处理，包括：将所述语音数据拆分为N组语音数据集，其中，所述N组语音数据集分别是由N对象发出的语音数据，一组语音数据集对应于一个对象，N是大于或等于1的整数；根据每组语音数据集相对应的对象的身份标识，在所述脱敏实体集中确定与所述身份标识相对应的脱敏实体子集；将所述每组语音数据集中与对应的所述脱敏实体子集中的脱敏实体相匹配的词语进行脱敏处理。

可选地，在所述根据所述语音采集设备的身份信息，在预先建立的数据库中查找与所述身份信息相匹配的脱敏实体集之前，所述方法包括：建立所述语音采集设备的身份信息、所述对象的身份标识，和所述脱敏实体子集之间的映射关系；将所述映射关系存储在所述数据库中。

可选地，将所述语音数据中与所述脱敏实体集中的脱敏实体相匹配的词语进行脱敏处理，包括：将所述每组语音数据集中的词语与所述脱敏实体子集中的脱敏实体进行匹配；将与所述每组语音数据集中与所述脱敏实体相匹配的词语替换为预设字符。

可选地，将所述语音数据中与所述脱敏实体集中的脱敏实体相匹配的词语进行脱敏处理，还包括：将所述每组语音数据集中的词语与所述脱敏实体子集中的脱敏实体进行匹配；删除与所述每组语音数据集中与所述脱敏实体相匹配的词语。

根据本发明的另一个实施例，提供了一种脱敏处理装置，包括：获取模块，用于获取由语音采集设备采集得到的语音数据；查找模块，用于根据所述语音采集设备的身份信息，在预先建立的数据库中查找与所述身份信息相匹配的脱敏实体集；处理模块，用于将所述语音数据中与所述脱敏实体集中的脱敏实体相匹配的词语进行脱敏处理。

可选地，所述处理模块包括：拆分单元，用于将所述语音数据拆分为N组语音数据集，其中，所述N组语音数据集分别是由N对象发出的语音数据，一组语音数据集对应于一个对象，N是大于或等于1的整数；确定单元，用于根据每组语音数据集相对应的对象的身份标识，在所述脱敏实体集中确定与所述身份标识相对应的脱敏实体子集；处理单元，用于将所述每组语音数据集中与对应的所述脱敏实体子集中的脱敏实体相匹配的词语进行脱敏处理。

可选地，所述装置还包括：建立模块，用于在所述根据所述语音采集设备的身份信息，在预先建立的数据库中查找与所述身份信息相匹配的脱敏实体集之前，建立所述语音采集设备的身份信息、所述对象的身份标识，和所述脱敏实体子集之间的映射关系；存储模块，用于将所述映射关系存储在所述数据库中。

根据本发明的又一个实施例，还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，由于获取由语音采集设备采集得到的语音数据；根据语音采集设备的身份信息，在预先建立的数据库中查找与身份信息相匹配的脱敏实体集；将语音数据中与脱敏实体集中的脱敏实体相匹配的词语进行脱敏处理。因此，可以解决由于现有技术中的语音脱敏不能结合语境，导致的语音脱敏准确率低问题，达到可以结合语境对语音进行脱敏处理，提高语音脱敏准确率的效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的一种脱敏处理方法的移动终端的硬件结构框图；

图2是根据本发明实施例的脱敏处理的流程图；

图3是根据本发明实施例的脱敏处理装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的一种脱敏处理方法的移动终端的硬件结构框图。如图1所示，移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，可选地，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的脱敏处理方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种运行于上述移动终端的脱敏处理方法，图2是根据本发明实施例的脱敏处理的流程图，如图2所示，该流程包括如下步骤：

步骤S202，获取由语音采集设备采集得到的语音数据；

步骤S204，根据所述语音采集设备的身份信息，在预先建立的数据库中查找与所述身份信息相匹配的脱敏实体集；

步骤S206，将所述语音数据中与所述脱敏实体集中的脱敏实体相匹配的词语进行脱敏处理。

通过上述步骤，由于获取由语音采集设备采集得到的语音数据；根据语音采集设备的身份信息，在预先建立的数据库中查找与身份信息相匹配的脱敏实体集；将语音数据中与脱敏实体集中的脱敏实体相匹配的词语进行脱敏处理。因此，可以解决由于现有技术中的语音脱敏不能结合语境，导致的语音脱敏准确率低问题，达到可以结合语境对语音进行脱敏处理，提高语音脱敏准确率的效果。

可选地，上述步骤的执行主体可以为终端等，但不限于此。

作为一个可选的实施方式，上述语音采集设备可以是麦克风阵列。工作人员佩戴有语音采集设备，工作人员与语音采集设备是一一绑定的关系。每个语音采集设备具备相应的身份信息，该身份信息可以唯一的标识语音采集设备，身份信息可以是语音采集设备的型号、编码等信息。由于工作人员通常情况下的工作环境是固定场景。因此，通过工作人员与语音采集设备是一一对应关系，可以确定该语音采集设备所采集的语音数据所对应的业务场景。结合业务场景在预先建立的数据库中查找与当前业务场景相匹配的脱敏实体集，将所采集的语音数据中与脱敏实体集中相匹配的词语进行脱敏处理。

作为一个可选的实施方式，预先建立的数据库中可以包括多个脱敏实体集，每个脱敏实体集可以对应于一种业务场景。例如，银行场景、家居销售场景分别对应于不同的脱敏实体集。本实施例中，通过不同的业务场景对应于不同的脱敏实体集，可以基于不同的业务场景对所采集到的语音数据进行脱敏处理，由于本实施例中结合了业务场景，基于语境进行脱敏，可以提高语音脱敏的准确性，提高语音信息的安全性。

作为一个可选的实施方式，在业务场景中，通常有多个用户对象进行语音对话，语音采集设备可以采集到当前业务场景中多个用户对象的语音数据，例如，在家居销售场景中的工作人员销售者与购买人员的语音对话。语音采集设备中的麦克风阵列可以将采集到的语音数据进行分离，可以将采集到的语音拆分成多路音轨，可以将多个用户对象发出的语音进行拆分。例如，将销售者和顾客的语音进行拆分。

作为一个可选的实施方式，上述对象可以包括用户角色所对应的人员，身份标识可以用于标识对象的角色，例如可以通过不同的身份标识销售人员和顾客。不同的用户角色可以对应于不同的脱敏实体子集，例如，销售人员与顾客所对应的脱敏实体子集是不同的。销售人员脱敏实体可以是设计方案、优惠活动、合同详情等商业机密；顾客的脱敏实体可以是地址、电话、银行卡号、身份证号等个人重要信息。可以根据语音发音者的角色所对应的脱敏实体子集，对相应的用户角色所发出的语音中的词语进行脱敏处理。

作为一个可选的实施方式，将语音采集设备的身份信息与对象的身份标识进行绑定，可以基于对象的身份信息确定语音采集设备所采集到的语音数据的业务场景，并且可以根据对象的身份标识确定用户角色。将语音采集设备的身份信息、对象的身份标识，和脱敏实体子集建立映射关系，并将该映射关系存储在数据库中，可以基于该映射关系在数据库中查找到与语音采集设备和用户角色相对应的脱敏实体子集，根据脱敏实体子集中的脱敏词语对语音采集设备采集到的语音进行脱敏处理。

作为一个可选的实施方式，例如语音采集设备采集到的顾客的语音数据为“我家住在华龙苑”，若脱敏实体子集中的脱敏实体为“地址”，识别出“华龙苑”与脱敏实体为“地址”相匹配，可以将“华龙苑”进行脱敏处理，使用预设字符对“华龙苑”进行替换，例如，可以将“华龙苑”替换为XXX，则对语音数据“我家住在华龙苑”进行脱敏处理后的文本为“我家住在XXX”。

作为一个可选的实施方式，也可以将脱敏词语删除，例如，上述“我家住在华龙苑”，若脱敏实体子集中的脱敏实体为“地址”，识别出“华龙苑”与脱敏实体为“地址”相匹配，可以将“华龙苑”进行脱敏处理，可以将“华龙苑”删除，则对语音数据“我家住在华龙苑”进行脱敏处理后的文本为“我家住在”。

下面通过一个具体实施例说明本申请。该方案采用录音设备和语音处理系统，相关处理流程如下：

(1)获取语音数据的来源以确定业务场景。

预先在数据库中，设置关联数据表：将录音设备编号与工作人员身份、工作人员所处业务场景(对应企业标识)进行关联。录音设备根据自身的设备编号保证唯一。根据录音设备的设备编号，可以确定使用该录音设备的工作人员身份，从而确定其对应的业务场景。每个业务场景又分为服务人员和顾客两种角色。

(2)拆分对话语音数据。

录音设备采集的对话语音数据包括两路音轨，将对话语音数据基于身份标记拆分为两个语音数据文件，一个是服务人员角色的语音，一个是顾客角色的语音。

将拆分后的语音数据分别进行语音识别处理，得到两个文本数据。

(3)根据文本数据对应的用户角色，查找相应的脱敏实体。

根据设备编号所确定的业务场景，去脱敏方案库中寻找该业务场景下与服务人员和顾客对应的脱敏实体。

例如，在家居销售行业中，服务人员脱敏实体可以是设计方案、优惠活动、合同详情等商业机密；顾客脱敏实体可以是地址、电话、银行卡号、身份证号等个人重要信息。脱敏实体下面对应的是一类关键词，例如地址实体包括：省，市，区，楼，层。实体可以解决大部分目的明确的对话。

针对于一些复杂语义对话场景，可以根据通过设备编号确定企业话术对应语言模型。预先在语言模型中记录了一些通用的句式，例如：“我家住在华龙苑”可以识别为“华龙苑”为地址。

(4)根据脱敏实体和语音模型，对不同角色的文本数据进行脱敏处理。

根据脱敏实体和语音模型，找到对应的脱敏关键词，将其转换为脱敏符号即可，上例中的文本可转换为“我家住在XXX”。

在本实施例中，可以得到以下有益效果：根据语音采集设备的身份信息和用户角色针对性选择脱敏方案；借助语言模型能分析一些复杂上下文句式，准确率更高。各场景角色脱敏规则分别维护，互相独立。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

在本实施例中还提供了一种脱敏处理装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图3是根据本发明实施例的脱敏处理装置的结构框图，如图3所示，该装置包括：获取模块32，用于获取由语音采集设备采集得到的语音数据；查找模块34，用于根据所述语音采集设备的身份信息，在预先建立的数据库中查找与所述身份信息相匹配的脱敏实体集；处理模块36，用于将所述语音数据中与所述脱敏实体集中的脱敏实体相匹配的词语进行脱敏处理。

可选地，上述装置还用于通过如下方式实现将所述语音数据中与所述脱敏实体集中的脱敏实体相匹配的词语进行脱敏处理：将所述每组语音数据集中的词语与所述脱敏实体子集中的脱敏实体进行匹配；将与所述每组语音数据集中与所述脱敏实体相匹配的词语替换为预设字符。

可选地，上述装置还用于通过如下方式实现将所述语音数据中与所述脱敏实体集中的脱敏实体相匹配的词语进行脱敏处理：将所述每组语音数据集中的词语与所述脱敏实体子集中的脱敏实体进行匹配；删除与所述每组语音数据集中与所述脱敏实体相匹配的词语。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取由语音采集设备采集得到的语音数据；

S2，根据所述语音采集设备的身份信息，在预先建立的数据库中查找与所述身份信息相匹配的脱敏实体集；

S3，将所述语音数据中与所述脱敏实体集中的脱敏实体相匹配的词语进行脱敏处理。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取由语音采集设备采集得到的语音数据；

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种脱敏处理方法，其特征在于，包括：

获取由语音采集设备采集得到的语音数据；

根据所述语音采集设备的身份信息，在预先建立的数据库中查找与所述身份信息相匹配的脱敏实体集；

将所述语音数据中与所述脱敏实体集中的脱敏实体相匹配的词语进行脱敏处理。

2.根据权利要求1所述的方法，其特征在于，将所述语音数据中与所述脱敏实体集中的脱敏实体相匹配的词语进行脱敏处理，包括：

将所述语音数据拆分为N组语音数据集，其中，所述N组语音数据集分别是由N对象发出的语音数据，一组语音数据集对应于一个对象，N是大于或等于1的整数；

根据每组语音数据集相对应的对象的身份标识，在所述脱敏实体集中确定与所述身份标识相对应的脱敏实体子集；

将所述每组语音数据集中与对应的所述脱敏实体子集中的脱敏实体相匹配的词语进行脱敏处理。

3.根据权利要求2所述的方法，其特征在于，在所述根据所述语音采集设备的身份信息，在预先建立的数据库中查找与所述身份信息相匹配的脱敏实体集之前，所述方法包括：

建立所述语音采集设备的身份信息、所述对象的身份标识，和所述脱敏实体子集之间的映射关系；

将所述映射关系存储在所述数据库中。

4.根据权利要求2所述的方法，其特征在于，将所述语音数据中与所述脱敏实体集中的脱敏实体相匹配的词语进行脱敏处理，包括：

将所述每组语音数据集中的词语与所述脱敏实体子集中的脱敏实体进行匹配；

将与所述每组语音数据集中与所述脱敏实体相匹配的词语替换为预设字符。

5.根据权利要求2所述的方法，其特征在于，将所述语音数据中与所述脱敏实体集中的脱敏实体相匹配的词语进行脱敏处理，还包括：

删除与所述每组语音数据集中与所述脱敏实体相匹配的词语。

6.一种脱敏处理装置，其特征在于，包括：

获取模块，用于获取由语音采集设备采集得到的语音数据；

查找模块，用于根据所述语音采集设备的身份信息，在预先建立的数据库中查找与所述身份信息相匹配的脱敏实体集；

处理模块，用于将所述语音数据中与所述脱敏实体集中的脱敏实体相匹配的词语进行脱敏处理。

7.根据权利要求6所述的装置，其特征在于，所述处理模块包括：

拆分单元，用于将所述语音数据拆分为N组语音数据集，其中，所述N组语音数据集分别是由N对象发出的语音数据，一组语音数据集对应于一个对象，N是大于或等于1的整数；

确定单元，用于根据每组语音数据集相对应的对象的身份标识，在所述脱敏实体集中确定与所述身份标识相对应的脱敏实体子集；

处理单元，用于将所述每组语音数据集中与对应的所述脱敏实体子集中的脱敏实体相匹配的词语进行脱敏处理。

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

建立模块，用于在所述根据所述语音采集设备的身份信息，在预先建立的数据库中查找与所述身份信息相匹配的脱敏实体集之前，建立所述语音采集设备的身份信息、所述对象的身份标识，和所述脱敏实体子集之间的映射关系；

存储模块，用于将所述映射关系存储在所述数据库中。

9.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述程序可被终端设备或计算机运行时执行所述权利要求1至5任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至5任一项中所述的方法。