CN111312219A

CN111312219A - 电话录音标注方法、系统、存储介质和电子设备

Info

Publication number: CN111312219A
Application number: CN202010046451.4A
Authority: CN
Inventors: 袁鹏; 江文斌; 李健
Original assignee: Shanghai Ctrip International Travel Agency Co Ltd
Current assignee: Shanghai Ctrip International Travel Agency Co Ltd
Priority date: 2020-01-16
Filing date: 2020-01-16
Publication date: 2020-06-19
Anticipated expiration: 2040-01-16
Also published as: CN111312219B

Abstract

本发明公开了一种电话录音标注方法、系统、存储介质和电子设备，该方法包括获取一电话录音的音频文件，并将所述音频文件进行通道分离和格式转换；将通道分离和格式转换后的所述音频文件以VAD方法切割为多个音频片段；调用语音识别接口将所述音频片段识别为文本；对所述文本进行纠错以生成一标注文件。实现了对录音数据的自动标注，减少了人工标注音频的时间，能更好地将标注的音频和文本运用到语音识别和语音合成的场景中。

Description

电话录音标注方法、系统、存储介质和电子设备

技术领域

本发明涉及音频信号处理领域，尤其涉及电话录音标注方法、系统、存储介质和电子设备。

背景技术

语言是人类思想最重要的载体，是人们交流最有效、最方便、最自然的方式。而说起人机交流的语言，主要分为语音识别和语音合成。语音识别技术是让机器接收、识别和理解语音信号，并将其转换成相应数字信号的技术；而语音合成技术，是赋予机器“人工嘴巴”的功能，解决的是如何让机器像人那样说话的问题。语音识别(Automatic SpeechRecognition，简称ASR)和语音合成(Text to Speech，简称TTS)前期需要大量的语料去训练，音频切割和语料半自动标注就是为其服务的。

现有技术中获得所述语料的方式为通过人工的方式进行音频的标注，进而制作录音数据集，效率较低，不便于后期语音识别和语音合成的训练，亟需改进。

发明内容

本发明要解决的技术问题是为了克服现有技术中人工标注音频效率较低，而不便于后期语音识别和语音合成的训练的缺陷，提供一种电话录音标注方法、系统、存储介质和电子设备，使得切割的录音和半自动标注后的文本可以用于智能客服的语音识别和语音合成训练，从而能够达到自定义扩充智能客服的语音识别和语音合成训练测试样本集的效果。

本发明是通过下述技术方案来解决上述技术问题：

一种电话录音标注方法，其特点在于，包括以下步骤：

S1、获取一电话录音的音频文件，并将所述音频文件进行通道分离和格式转换；

S2、将通道分离和格式转换后的所述音频文件以VAD(Voice ActivityDetection，语音端点检测)方法切割为多个音频片段；

S3、调用语音识别接口将所述音频片段识别为文本；

S4、对所述文本进行纠错以生成一标注文件。

较佳地，步骤S1包括：

S11、将所述音频文件进行左声道和右声道的分离，并保存分离后的左声道音频数据和右声道音频数据；

S12、转换所述左声道音频数据和所述右声道音频数据的采样频率、位宽和编码格式。

较佳地，步骤S2包括：

S21、初始化VAD的参数，所述参数包括帧长；

S22、以自适应调节VAD的参数的方式对所述音频文件进行切割；

S23、判断切割后的音频片段的时长是否在一时长阈值内，若是，则保存该音频片段；若否，则返回步骤S22。

较佳地，步骤S2和步骤S3之间包括：

S2a、筛选出音频分割段数不为0的录音数据。

较佳地，步骤S3和步骤S4之间包括：

S3a、筛选包含口语化文本的音频片段的数量为总音频片段数量的第一百分比、筛选包含数字文本但不包含口语化文本的音频片段的数量为总音频片段数量的第二百分比、筛选不包含口语化文本和数字文本的音频片段的数量为总音频片段数量的第三百分比；

S3b、将筛选出的音频片段构成音频池。

较佳地，步骤S4包括：

S41、判断所述音频片段被识别的文本是否正确，若是，则保存该文本，若否，进入步骤S42；

S42、判断所述文本对应的所述音频池中的所述音频片段是否为噪声，若是，将该音频片段标记为噪声；若否，修改该文本后保存。

一种电话录音标注系统，其特点在于，包括：

音频处理模块，用于获取一电话录音的音频文件，并将所述音频文件进行通道分离和格式转换的处理；

切割模块，用于通过VAD方法对处理后的所述音频文件进行切割；

语音识别模块，用于调用语音识别接口将所述音频片段识别为文本；

纠错模块，用于对所述文本进行纠错以生成一标注文件。

较佳地，所述音频处理模块包括：

通道分离模块，用于将所述音频文件进行左声道和右声道的分离，并保存分离后的左声道音频数据和右声道音频数据；

格式转换模块，用于转换所述左声道音频数据和所述右声道音频数据的采样频率、位宽和编码格式。

较佳地，所述切割模块包括：

初始化模块，用于初始化VAD的参数，所述参数包括帧长；

调节模块，用于以自适应调节VAD的参数的方式对所述音频文件进行切割；

判断模块，用于判断切割后的音频片段的时长是否在一时长阈值内，若是，则保存该音频片段；若否，调用所述调节模块。

一种计算机可读存储介质，其上存储有计算机程序，其特点在于，所述计算机程序被处理器执行时实现如上所述的电话录音标注方法的步骤。

一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其特点在于，所述处理器执行所述计算机程序时实现如上所述的电话录音标注方法的步骤。

本发明的积极进步效果在于：本方案自动将录音文件分割成满足条件的音频片段，并将音频片段自动识别为文本，实现了对录音数据的自动标注，减少了人工标注音频的时间。之后再对文本进行纠错，以及噪音判断，能够提升后语音识别的性能，能更好地将标注的音频和文本运用到语音识别和语音合成的场景中。

附图说明

图1为本发明实施例1的电话录音标注方法流程图。

图2为本发明实施例1的电话录音标注方法中步骤S23的流程图。

图3为本发明实施例1的电话录音标注方法中筛选符合条件的语音段的流程图。

图4为本发明实施例1的电话录音标注方法中步骤S4的流程图。

图5为本发明实施例2的电话录音标注系统结构图。

图6为本发明实施例4的电子设备的硬件结构示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

实施例1

本实施例涉及一种客服录音半自动标注方法，隶属音频信号处理领域，是属于音频信号预处理和标签处理阶段。主要采用了语音信号处理领域中的端点检测的方法，来找出长语音中的有效语音段，然后进行切割和语音识别，最后主观试听并修改识别有误的文本。

而切割与标注好的音频既可以用于语音识别获知客服录音的内容，也可以用于语音合成的语料训练。语音合成之后的语音可以使得智能客服像人一样自然的发音，两者结合起来就可以用于一些企业内的客户服务中心、尤其是旅游服务中心的智能客服，可以降低大量的人工成本，大幅提升服务效率。本实施例主要应用于旅游产品中的客户服务中心，比如预定的订单确认，售后问题解决，目的是保证更好地服务客户，沟通客户，进而做到充分保障消费者的权益，为客户提供最满意的服务。

一种电话录音标注方法，如图1所示，包括以下步骤：

通道分离主要是对双通道客服录音数据进行分离，为了将音频文件精准的切割、以及准确的语音识别出文本，将所述音频文件进行左声道和右声道的分离，并保存分离后的左声道音频数据和右声道音频数据。

其中，左声道是客户方的音频，右声道是客服方的音频。

然后转换所述左声道音频数据和所述右声道音频数据的采样频率、位宽和编码格式。具体地，将分离得到的左右声道音频采样频率转换为16kHz,位宽转换为16bit，编码格式转换成PCM编码，得到符合语音识别API(applicationinterface，应用程序接口)输入格式的音频格式。

S2、将通道分离和格式转换后的所述音频文件以VAD方法切割为多个音频片段；

VAD目的是从声音信号流里识别和消除长时间的静音期，以达到在不降低业务质量的情况下节省话路资源的作用。

具体地，S21、初始化VAD的参数，所述参数包括帧长。初始化帧长为30ms，也即30ms为一帧。根据语音的短时平稳性，该帧长可调节的范围是20ms和10ms，即20ms为一帧或10ms为一帧。

S22、以自适应调节VAD的参数的方式对所述音频文件进行切割。此时还需满足切割的音频文件中不能把字或者词语给切割开来。

VAD算法运用了两个模型来对语音进行GMM(高斯混合模型)建模，分成噪声类和语音类。主要是通过比较似然比的方法来确定是否是语音。GMM的更新方法是梯度法，同时在切割长语音时，采用了自适应调节VAD参数进行长语音分割。

S23、判断切割后的音频片段的时长是否在一时长阈值内，若是，则保存该音频片段；若否，则返回步骤S22。步骤S23可表达为如图2所示。

如，若每一小段音频片段的时长在1s-10s内，如果不在，则将帧长调节为10ms或20ms后重新对音频文件进行分割。在遍历所有可调节的VAD参数后分割得到的音频片段时长仍然是大于10s的，就抛弃此小段分割得到的语音。

之后对分割完成后的音频片段筛选出音频分割段数不为0的录音数据。

S3、调用语音识别接口将所述音频片段识别为文本；

由于客服电话录音中出现大量的数字和口语化的音频，为了保证后续智能客服语音识别和语音合成的准确性，在总数据量一定的情况，需要筛选出符合条件的语音段，筛选过程如图3所示。因此，筛选包含口语化文本的音频片段的数量为总音频片段数量的第一百分比，如10％左右。筛选包含数字文本但不包含口语化文本的音频片段的数量为总音频片段数量的第二百分比，如80％左右。为了保证数据的多样性，筛选不包含口语化文本和数字文本的音频片段的数量为总音频片段数量的第三百分比，如10％左右。

由于本实施例主要用于公司旅游服务中心的智能客服，因此音频数据主要对象是客服数据，在数据筛选时更多的从客服问答的角度进行考虑。

将筛选出的音频片段构成音频池。

S4、对所述文本进行纠错以生成一标注文件。

纠正的主要思路是通过试听音频池中的音频，对比识别的文本，判断识别的文本是否需要修改，从而生成新的标注文本构成数据集，

例如步骤S4表达为如图4所示：用户登陆客服录音半自动标注登录页面，服务器获取到用户的账号，目的是为了保证不同的用户获取音频池中的音频数据时不会发生冲突，同时为了保证标注的有效性，每个待标注音频需要被2个不同账号的人标注；

成功登陆后进入客服录音半自动标注页面，然后从需要标注的音频池中随机分发待标注的音频到半自动音频标注页面；

用户对每一小段音频进行试听的方式判断文本是否识别有误。若识别正确直接保存。若识别错误，则判断对应的该音频是否为噪声，如果是噪声直接点击噪声选项框后保存，如果不是噪声就直接修改文本内容。每一个声道分离后筛选出来的短音频经过半自动文本标注后会重新生成标注文件。

本实施例在针对客服录音进行半自动标注，并将其运用到智能客服的语音合成和自动语音识别场景下，其提出的客服录音半自动标注系统，切割的音频文件可以满足100％的要求，通过半自动标注页面系统试听音频后文本纠错也可以达到90％，性能提升较大，在方便制作客服录音数据集的同时极大的减少了人员标注音频的时间。

实施例2

本实施例提供一种电话录音标注系统，该系统执行如实施例1所述的方法，如图5所示，包括：

音频处理模块1，用于获取一电话录音的音频文件，并将所述音频文件进行通道分离和格式转换的处理；

其包括：通道分离模块11，用于将所述音频文件进行左声道和右声道的分离，并保存分离后的左声道音频数据和右声道音频数据；

以及格式转换模块12，用于转换所述左声道音频数据和所述右声道音频数据的采样频率、位宽和编码格式。

切割模块2，用于通过VAD方法对处理后的所述音频文件进行切割；

其包括：初始化模块21，用于初始化VAD的参数，所述参数包括帧长；

调节模块22，用于以自适应调节VAD的参数的方式对所述音频文件进行切割；

判断模块23，用于判断切割后的音频片段的时长是否在一时长阈值内，若是，则保存该音频片段；若否，调用所述调节模块。

语音识别模块3，用于调用语音识别接口将所述音频片段识别为文本；

纠错模块4，用于对所述文本进行纠错以生成一标注文件。

该系统能够达到与实施例1相同的技术效果。

实施例3

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现实施例1提供的电话录音标注方法的步骤。

其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行实现实施例1中的电话录音标注方法的步骤。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

实施例4

本实施例提供一种电子设备，电子设备可以通过计算设备的形式表现(例如可以为服务器设备)，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中处理器执行计算机程序时可以实现实施例1提供的电话录音标注方法。

图6示出了本实施例的硬件结构示意图，如图6所示，电子设备9具体包括：

至少一个处理器91、至少一个存储器92以及用于连接不同系统组件(包括处理器91和存储器92)的总线93，其中：

总线93包括数据总线、地址总线和控制总线。

存储器92包括易失性存储器，例如随机存取存储器(RAM)921和/或高速缓存存储器922，还可以进一步包括只读存储器(ROM)923。

存储器92还包括具有一组(至少一个)程序模块924的程序/实用工具925，这样的程序模块924包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器91通过运行存储在存储器92中的计算机程序，从而执行各种功能应用以及数据处理，例如本发明实施例1所提供的电话录音标注方法。

电子设备9进一步可以与一个或多个外部设备94(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口95进行。并且，电子设备9还可以通过网络适配器96与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器96通过总线93与电子设备9的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备9使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种电话录音标注方法，其特征在于，包括以下步骤：

S3、调用语音识别接口将所述音频片段识别为文本；

S4、对所述文本进行纠错以生成一标注文件。

2.如权利要求1所述的电话录音标注方法，其特征在于，步骤S1包括：

3.如权利要求1所述的电话录音标注方法，其特征在于，步骤S2包括：

S21、初始化VAD的参数，所述参数包括帧长；

4.如权利要求1所述的电话录音标注方法，其特征在于，步骤S2和步骤S3之间包括：

S2a、筛选出音频分割段数不为0的录音数据。

5.如权利要求1-4中任意一项所述的电话录音标注方法，其特征在于，步骤S3和步骤S4之间包括：

S3b、将筛选出的音频片段构成音频池。

6.如权利要求5所述的电话录音标注方法，其特征在于，步骤S4包括：

7.一种电话录音标注系统，其特征在于，包括：

纠错模块，用于对所述文本进行纠错以生成一标注文件。

8.如权利要求7所述的电话录音标注系统，其特征在于，所述音频处理模块包括：

9.如权利要求7或8所述的电话录音标注系统，其特征在于，所述切割模块包括：

初始化模块，用于初始化VAD的参数，所述参数包括帧长；

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-6中任意一项所述的电话录音标注方法的步骤。

11.一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-6中任意一项所述的电话录音标注方法的步骤。