CN113053393B

CN113053393B - 音频标注处理装置

Info

Publication number: CN113053393B
Application number: CN202110337053.2A
Authority: CN
Inventors: 关胤; 徐戈
Original assignee: Fuzhou Changle District Extremely Micro Information Technology Co ltd; Minjiang University
Current assignee: Fuzhou Changle District Extremely Micro Information Technology Co ltd; Minjiang University
Priority date: 2021-03-30
Filing date: 2021-03-30
Publication date: 2024-04-30
Anticipated expiration: 2041-03-30
Also published as: CN113053393A

Abstract

本发明提供一种音频标注处理装置，用于解决人工智能语音数据标注工作中的隐私保护问题。

Description

音频标注处理装置

技术领域

本发明涉及一种音频标注处理装置，特别是一种隐私安全的音频标注处理装置。

背景技术

音频标注处理主要用于对大量的音频数据进行标注，并将标注结果与音频数据送入人工智能模型中学习，从而实现诸如语音识别、对话系统等技术。

发明内容

经发明人深入调研发现，传统音频标注方法存在隐私安全问题，即便通过严格的规则制度进行约束，依然容易经由标注人员使得音频内容外泄。发明人对此问题进一步分析发现，其内在矛盾在于，从隐私安全角度出发，希望标注人员尽可能少地理解音频内容，而从标注角度出发，又希望标注人员尽可能准确地提取音频中的特定信息，譬如，语音对话中的文本信息，据此，发明人将解决该问题的方法抽象为解决如下问题：如何在尽可能不理解音频内容的前提下提取音频中的特定信息。

本发明实施例提供一种音频标注处理装置，包括切分单元UnitS、处理单元UnitP和合成单元UnitC，其中切分单元具体包括：

待标注音频文件获取单元，用于获取N个待标注音频文件F_1，F_2，F_3 ... F_N，

待标注音频文件切分单元，用于对每个待标注音频文件,切分成多个音频片段，具体方法可以是，对每个待标注音频文件F_i，计算M_i个切分点，并将F_i切分为M_i+1个音频片段，i取值为1，2，3……N，与所述待标注音频文件的数量一致，

乱序处理单元，用于将所有待标注音频文件切分形成的音频片段乱序处理，生成乱序处理后的音频片段集合As；

切分记录单元，记录所有待标注音频文件的切分点位置，以及所述切分点位置与所述切分位置对应的所述音频片段集合As中的元素的对应关系，形成切分记录Rs；

其中处理单元UnitP具体包括：

音频片段获取单元，用于获取乱序处理后的音频片段集合As，

标注处理单元，用于根据对乱序后的音频片段进行标注处理的结果，形成标注记录Ls；

其中合成单元UnitC具体包括：

标注记录获取单元，用于获取标注记录Ls，

切分记录获取单元，用于获取切分记录Rs，

标注记录重组单元，用于利用Rs将Ls中的标注内容重组排列，使得重组后的标注内容的顺序与所述待标注音频文件的内容一致，形成重组标注记录RLs；

所述切分记录Rs对所述处理单元UnitP隔离。

通过以上方案处理，由于标注时接触的是乱序后的音频片段，无法通过上下文整体上理解音频的内容，能够减低隐私泄露的风险，提升安全性。

附图说明

图1为本发明一种音频标注处理装置的一个实施例的示意图。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

在语音识别、对话系统等模型训练中，需要把音频人工转写为文本，或者先自动转写为文本，再由人工校验核对，完成后再进行模型训练，上述工作称为音频标注。本发明实施例提供的方案包括切分单元UnitS、处理单元UnitP和合成单元UnitC，其中切分单元UnitS具体包括：

待标注音频文件获取单元，用于获取N个待标注音频文件F_1，F_2，F_3 ... F_N，这些待标注音频文件的一个来源是电话录音，譬如银行客服电话、健康咨询电话等，每个音频文件通常是一整个电话的录音，因此包含了一定的隐私安全信息。

待标注音频文件切分单元，用于对每个待标注音频文件F_i，计算M_i个切分点，并将F_i切分为M_i+1个音频片段，i取值为1，2，3……N，与所述待标注音频文件的数量一致，切分方式可以是按固定时长切分，更优的方式是可以通过VAD语音端点检测，以每个VAD检测的开始端点为切分点，进一步的优化可以是将切分后的音频片段合并为时长大致相当的片段，譬如合并切分后的音频片段，使得合并后的音频片段的最大时长不超过最小时长的2倍。这样处理的技术效果包括容易计算切分人员的工作量。

乱序处理单元，用于将所有待标注音频文件切分形成的音频片段乱序处理，生成乱序处理后的音频片段集合As，注意集合As是可被排序的，包括通过文件名字母顺序、文件时长大小、文件修改时间等；所述乱序处理后的音频片段集合As中，每两个相邻的音频片段以大于或等于P1的概率不属于同一个待标注音频文件，以大于或等于P2的概率不是同一个待标注音频文件的相邻两个切分。譬如，P1为0.8且P2为0.9，更优的，P1为0.99且P2为0.999。具体处理方式可以是先将音频片段集合As的音频文件随机重命名，并记录重命名后的文件和原文件的对应关系，该对应关系被设置为标注人员不可见，譬如可以保存至切分记录Rs中，然后将音频片段集合As的音频文件以文件名字母顺序排序，然后执行校验重排操作：获取两个相邻的音频片段属于同一个待标注音频文件的音频片段集合S1，获取两个相邻的音频片段是同一个待标注音频文件的相邻两个切分的音频片段集合2，如果N(S1)/N(As)>1-P1，则将属于S1的音频片段文件再次随机重命名，如果N(S2)/N(As)>1-P2，则将属于S2的音频片段文件再次随机重命名,其中N(·)表示音频片段集合·中的音频文件总数。可以执行以上校验重排操作多次，直到满足条件“每两个相邻的音频片段以大于或等于P1的概率不属于同一个待标注音频文件，以大于或等于P2的概率不是同一个待标注音频文件的相邻两个切分”为止。这样处理的好处包括使得标注人员不容易找出具有关联性的音频片段，从而提高了安全保密性。

为进一步提高安全保密性，还可以进一步对每个音频片段的时长进行随机微调，包括通过添加静音段、重采样/改变采样率等方法。也可以进一步对文件创建修改的时间进行修改混淆。

切分记录单元，用于记录所有待标注音频文件的切分点位置，以及所述切分点位置与所述切分位置对应的所述音频片段集合As中的元素的对应关系，形成切分记录Rs，该切分记录Rs被设置为标注人员不可见。

处理单元UnitP具体包括：

标注处理单元，用于根据对乱序后的音频片段进行标注处理的结果，形成标注记录Ls；标注处理可以是由标注人员听音频并转写成文本，也可以先有语音识别系统对音频进行自动文本转写，再由标注人员听音频进行校对修改。

合成单元UnitC具体包括：

标注记录获取单元，用于获取标注记录Ls，

切分记录获取单元，用于获取切分记录Rs，

标注记录重组单元，用于利用Rs将Ls中的标注内容重组排列，使得重组后的标注内容的顺序与所述待标注音频文件的内容一致，形成重组标注记录RLs；譬如，通过处理步骤，标注人员通过标注记录Ls给出了音频片段集合As中的每个音频片段的转写文本，通过Rs可知每个音频片段的转写文本对应到原始的待标注音频文件的位置，这样就可以重组获得每个待标注音频文件对应的完整有序的转写文本。

注意在以上处理单元和操作步骤中，所述切分记录Rs对所述处理单元UnitP隔离，也就是不应让标注人员接触到Rs的内容，避免标注人员自行恢复出待标注音频文件完整的文本转写内容。

具体方法可以是，处理单元UnitP中的子单元和/或涉及的装置，被设置为不获取所述切分记录Rs的内容；处理单元UnitP中的子单元和/或涉及的装置，被设置为可以获得切分记录Rs的加密形式，但不获取可以解密的所述切分记录Rs的加密形式的密钥信息；处理单元UnitP中的子单元和/或涉及的装置，被设置为不获取所述切分记录Rs的内容，但可以获取由Rs通过不可逆推原始内容的操作处理后获得指纹信息；等等。

在大多数实施例中，所述待标注音频文件获取单元获取的N个待标注音频文件的内容通常是语音录音。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括……”或“包含……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外，在本文中，“大于”、“小于”、“超过”等理解为不包括本数；“以上”、“以下”、“以内”等理解为包括本数。当用于表示度量区间时，“X~Y”、“[X，Y]”、“X到Y之间”、“X至Y之间”、“X与Y之间”、“X和Y之间”等表示包括左右端点的区间，“(X，Y)”表示不包括左右端点的区间；“(X，Y]”、“[X，Y)”分别表示不包括左端点但包括右端点的区间、包括左端点但不包括右端点的区间。

本领域内的技术人员应明白，上述各实施例可提供为方法、装置、或计算机程序产品。这些实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。上述各实施例涉及的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机设备可读取的存储介质中，用于执行上述各实施例方法所述的全部或部分步骤。所述计算机设备，包括但不限于：个人计算机、服务器、通用计算机、专用计算机、网络设备、嵌入式设备、可编程设备、智能移动终端、智能家居设备、穿戴式智能设备、车载智能设备等；所述的存储介质，包括但不限于：RAM、ROM、磁碟、磁带、光盘、闪存、U盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。

上述各实施例是参照根据实施例所述的方法、设备(系统)、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到计算机设备的处理器以产生一个机器，使得通过计算机设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机设备以特定方式工作的计算机设备可读存储器中，使得存储在该计算机设备可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机设备上，使得在计算机设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已经对上述各实施例进行了描述，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改，所以以上所述仅为本发明的实施例，并非因此限制本发明的专利保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围之内。

Claims

1.一种音频标注处理装置,其特征在于,包括切分单元UnitS、处理单元UnitP和合成单元UnitC，其中切分单元具体包括:待标注音频文件获取单元,用于获取N个待标注音频文件F1,F2,F3...Fn,待标注音频文件切分单元,用于将每个待标注音频文件切分成多个音频片段，乱序处理单元，用于将所有待标注音频文件切分形成的音频片段乱序处理,生成乱序处理后的音频片段集合As，生成的音频片段集合As被配置为,每两个相邻的音频片段以大于或等于P1的概率不属于同一个待标注音频文件,以大于或等于P2的概率不是同一个待标注音频文件的相邻两个切分；

切分记录单元,记录所有待标注音频文件的切分点位置,以及所述切分点位置与所述切分位置对应的所述音频片段集合As中的元素的对应关系,形成切分记录Rs；其中处理单元UnitP具体包括:

音频片段获取单元，用于获取乱序处理后的音频片段集合As，标注处理单元,用于根据对乱序后的音频片段进行标注处理的结果,形成标注记录Ls；其中合成单元UnitC具体包括:

标注记录获取单元,用于获取标注记录Ls，

切分记录获取单元,用于获取切分记录Rs，

标注记录重组单元，用于利用Rs将Ls中的标注内容重组排列,使得重组后的标注内容的顺序与所述待标注音频文件的内容一致,形成重组标注记录RLs；所述切分记录Rs对所述处理单元UnitP隔离；具体为，处理单元UnitP中的子单元和/或涉及的装置，被设置为不获取所述切分记录Rs的内容或被设置为获得切分记录Rs的加密形式，但不获取解密的所述切分记录Rs的加密形式的密钥信息或被设置为不获取所述切分记录Rs的内容，但获取由Rs通过不可逆推原始内容的操作处理后获得指纹信息；

所述切分单元UnitS还包括如下单元：

随机重命名单元,用于将音频片段集合As的音频文件随机重命名,记录重命名后的文件和原文件的对应关系，

文件名排序单元,用于将音频片段集合As的音频文件以文件名字母顺序排序校验重排单元,用于执行校验重排操作:

获取两个相邻的音频片段属于同一个待标注音频文件的音频片段集合S1,获取两个相邻的音频片段是同一个待标注音频文件的相邻两个切分的音频片段集合S2,如果N(S1)/N(As)>1-P1,则将属于S1的音频片段文件再次随机重命名,如果N(S2)/N(As)>1-P2,则将属于S2的音频片段文件再次随机重命名,其中N(·)表示音频片段集合·中的音频文件总数，执行所述校验重排操作多次,直到满足条件“每两个相邻的音频片段以大于或等于P1的概率不属于同一个待标注音频文件,以大于或等于P2的概率不是同一个待标注音频文件的相邻两个切分”为止；

随机微调单元,用于对所述音频片段集合As中的每个音频片段的时长进行随机微调；时间修改单元,用于对所述音频片段集合As中的每个音频片段的文件创建修改时间进行修改混淆。

2.如权利要求1所述一种音频标注处理装置,其特征在于,P1为0.8且P2为0.9。

3.如权利要求1所述一种音频标注处理装置,其特征在于,P1为0.99且P2为0.999。

4.如权利要求1所述一种音频标注处理装置，其特征在于，所述待标注音频文件获取单元获取的N个待标注音频文件的内容是语音录音。