CN113421543A

CN113421543A - 一种数据标注方法、装置、设备及可读存储介质

Info

Publication number: CN113421543A
Application number: CN202110741584.8A
Authority: CN
Inventors: 陈百灵; 刘云峰; 汶林丁
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2021-09-21
Anticipated expiration: 2041-06-30
Also published as: CN113421543B

Abstract

本申请公开了一种数据标注方法、装置、设备及可读存储介质。本申请在获取到相互对应的音频数据和文本数据后，将音频数据用音频波形图和基频线图表示，然后识别音频数据中的静音片段和音高重置片段；最后将静音片段在文本数据中对应的文本标注为语调短语，将音高重置片段在文本数据中对应的文本标注为韵律短语，从而标注出了文本中的自然语感和韵律，据此训练TTS模型，可以使TTS模型学习人说话时的自然语感和韵律，避免TTS模型输出的语音机械感较重。相应地，本申请提供的一种数据标注装置、设备及可读存储介质，也同样具有上述技术效果。

Description

一种数据标注方法、装置、设备及可读存储介质

技术领域

本申请涉及计算机技术领域，特别涉及一种数据标注方法、装置、设备及可读存储介质。

背景技术

目前，通过标注文本中的介词、代词、双音节词、三音节词来训练TTS(Text ToSpeech)模型，据此训练得到的TTS模型输出的语音机械感较重，即比较生硬，不能模拟人说话时所具有的自然语感和韵律。

因此，如何使TTS模型学习人说话时的自然语感和韵律，是本领域技术人员需要解决的问题。

发明内容

有鉴于此，本申请的目的在于提供一种数据标注方法、装置、设备及可读存储介质，以使TTS模型学习人说话时的自然语感和韵律。其具体方案如下：

第一方面，本申请提供了一种数据标注方法，包括：

获取音频数据，以及所述音频数据对应的文本数据；

确定所述音频数据对应的音频波形图和基频线图；

基于所述音频波形图确定所述音频数据中的静音片段，基于所述基频线图确定所述音频数据中的音高重置片段；

将所述静音片段在所述文本数据中对应的文本标注为语调短语，将所述音高重置片段在所述文本数据中对应的文本标注为韵律短语。

优选地，所述确定所述音频数据对应的音频波形图和基频线图，包括：

将所述音频数据输入语音分析工具，以输出所述音频波形图和所述基频线图。

优选地，所述基于所述音频波形图确定所述音频数据中的静音片段，基于所述基频线图确定所述音频数据中的音高重置片段，包括：

利用图像识别技术识别所述音频波形图中的静音区域，以及所述基频线图中的线中断区域；

将所述静音区域在所述音频数据中对应的音频段确定为所述静音片段，将所述线中断区域在所述音频数据中对应的音频段确定为所述音高重置片段。

优选地，所述图像识别技术包括用于图像识别的机器学习模型、算法或图像库。

优选地，还包括：

基于表示句尾位置的标点符号在所述文本数据中标注话段。

优选地，还包括：

若所述文本数据中的任意文本段不属于所述语调短语、所述韵律短语或所述话段，则利用词典库标注所述文本段为韵律词。

优选地，所述语调短语、所述韵律短语和所述韵律词分别设有允许标注的最大连续字数。

第二方面，本申请提供了一种数据标注装置，包括：

获取模块，用于获取音频数据，以及所述音频数据对应的文本数据；

第一确定模块，用于确定所述音频数据对应的音频波形图和基频线图；

第二确定模块，用于基于所述音频波形图确定所述音频数据中的静音片段，基于所述基频线图确定所述音频数据中的音高重置片段；

标注模块，用于将所述静音片段在所述文本数据中对应的文本标注为语调短语，将所述音高重置片段在所述文本数据中对应的文本标注为韵律短语。

在一种具体实施方式中，第一确定模块具体用于：

将音频数据输入语音分析工具，以输出音频波形图和基频线图。

在一种具体实施方式中，第二确定模块包括：

图像识别单元，用于利用图像识别技术识别音频波形图中的静音区域，以及基频线图中的线中断区域；

确定单元，用于将静音区域在音频数据中对应的音频段确定为静音片段，将线中断区域在音频数据中对应的音频段确定为音高重置片段。

在一种具体实施方式中，图像识别技术包括用于图像识别的机器学习模型、算法或图像库。

在一种具体实施方式中，还包括：

话段标注模块，用于基于表示句尾位置的标点符号在文本数据中标注话段。

在一种具体实施方式中，还包括：

韵律词标注模块，用于若文本数据中的任意文本段不属于语调短语、韵律短语或话段，则利用词典库标注文本段为韵律词。

在一种具体实施方式中，语调短语、韵律短语和韵律词分别设有允许标注的最大连续字数。

第三方面，本申请提供了一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，以实现前述公开的数据标注方法。

第四方面，本申请提供了一种可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述公开的数据标注方法。

通过以上方案可知，本申请提供了一种数据标注方法，包括：获取音频数据，以及所述音频数据对应的文本数据；确定所述音频数据对应的音频波形图和基频线图；基于所述音频波形图确定所述音频数据中的静音片段，基于所述基频线图确定所述音频数据中的音高重置片段；将所述静音片段在所述文本数据中对应的文本标注为语调短语，将所述音高重置片段在所述文本数据中对应的文本标注为韵律短语。

可见，本申请在获取到相互对应的音频数据和文本数据后，将音频数据用音频波形图和基频线图表示，然后识别音频数据中的静音片段和音高重置片段；最后将静音片段在文本数据中对应的文本标注为语调短语，将音高重置片段在文本数据中对应的文本标注为韵律短语，从而标注出了文本中的自然语感和韵律，据此训练TTS模型，可以使TTS模型学习人说话时的自然语感和韵律，避免TTS模型输出的语音机械感较重。其中，静音片段表示较长时间的静音，其与韵律中的语调短语对应；音高重置片段表示说话时有较短停顿或语气转变，其与韵律中的韵律短语对应，故在文本中标注此二者可以标出自然语感和韵律。

相应地，本申请提供的一种数据标注装置、设备及可读存储介质，也同样具有上述技术效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请公开的一种数据标注方法流程图；

图2为本申请公开的一种音频波形图；

图3为本申请公开的一种基频线图；

图4为本申请公开的一种数据标注装置示意图；

图5为本申请公开的一种电子设备示意图；

图6为本申请公开的一种交互系统示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。利用本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，标注文本中的介词、代词、双音节词、三音节词来训练TTS模型，据此训练得到的TTS模型输出的语音机械感较重，即比较生硬，不能模拟人说话时所具有的自然语感和韵律。为此，本申请提供了一种数据标注方案，能够标注出文本中的自然语感和韵律，据此训练TTS模型，可以使TTS模型学习人说话时的自然语感和韵律。

参见图1所示，本申请实施例公开了一种数据标注方法，包括：

S101、获取音频数据，以及音频数据对应的文本数据。

其中，音频数据和文本数据在时间上相互对齐，即：某一个或几个字对应音频数据中的哪段语音是已知的。当然，文本数据可以由音频数据转换得到。文本数据优选为中文文本。

S102、确定音频数据对应的音频波形图和基频线图。

具体的，音频数据对应的音频波形图和基频线图可以使用任意语音分析工具得到，语音分析工具如：praat等。

在一种具体实施方式中，确定音频数据对应的音频波形图和基频线图，包括：将音频数据输入语音分析工具，以输出音频波形图和基频线图。

S103、基于音频波形图确定音频数据中的静音片段，基于基频线图确定音频数据中的音高重置片段。

如图2所示，静音片段在音频波形图中呈现为直线。如图3所示，音高重置片段在基频线图中呈现为基频线出现断裂。并且音频波形图和基频线图在本质上是图片，因此可以利用图像识别技术识别音频波形图中的静音区域，以及基频线图中的线中断区域。当然，也可以人工从音频波形图和基频线图中截取。

S104、将静音片段在文本数据中对应的文本标注为语调短语，将音高重置片段在文本数据中对应的文本标注为韵律短语。

在本实施例中，静音片段表示较长时间的静音，其与韵律中的语调短语对应；音高重置片段表示说话时有较短停顿或语气转变，其与韵律中的韵律短语对应，故在文本中标注此二者可以标出自然语感和韵律。

其中，标注语调短语和韵律短语时，可以使用预设的标注符号，如：用“#3”表示语调短语(对应静音片段)，用“#2”表示韵律短语(对应音高重置片段)。同时，可以预设标注符号的标注位置，假设默认标注符号均标注在相应文字之后。那么标注示例可以为：“您好#2，我们的车辆上的都是全险#3，包含乘客险。”。在该示例中，“您好”后一般有短暂停顿或语气变换，其音频段呈现为基频线中断，因此在“您好”后标注#2；而“全险”后一般会有稍长时间(如2ms以上)的停顿换气，其音频段相应静音，因此在“全险”后标注#3。一般地，可以将超过2毫秒的静音音频段判定为静音片段。

可见，本实施例在获取到相互对应的音频数据和文本数据后，将音频数据用音频波形图和基频线图表示，然后识别音频数据中的静音片段和音高重置片段；最后将静音片段在文本数据中对应的文本标注为语调短语，将音高重置片段在文本数据中对应的文本标注为韵律短语，从而标注出了文本中的自然语感和韵律，据此训练TTS模型，可以使TTS模型学习人说话时的自然语感和韵律，避免TTS模型输出的语音机械感较重。

基于上述实施例，需要说明的是，基于音频波形图确定音频数据中的静音片段，基于基频线图确定音频数据中的音高重置片段，包括：利用图像识别技术识别音频波形图中的静音区域，以及基频线图中的线中断区域；将静音区域在音频数据中对应的音频段确定为静音片段，将线中断区域在音频数据中对应的音频段确定为音高重置片段。

其中，图像识别技术包括用于图像识别的机器学习模型(如CNN等)、算法或图像库。图像库中可以预置常见的静音波形图和基频线中断图，然后使用图片匹配方法来识别音频波形图中的静音区域，以及基频线图中的线中断区域。

基于上述实施例，需要说明的是，为了方便标注，可以规范文本数据。例如：规定文本数据中，句末仅可出现句号或问号；句中仅可出现逗号，不可出现感叹号、顿号、冒号、空格等。当然，文本数据可以由音频数据转换得到，在转换时遵循上述规则，这样得到的文本数据就能够符合上述规范。

在一种具体实施方式中，基于表示句尾位置的标点符号在文本数据中标注话段。例如：规定句末仅可出现句号或问号，那么一旦识别到句号或问号，就可以判定一句话的句末，故在句号或问号前标注话段。假设话段对应的标注符号为“#4”，那么标注示例可以为：“您好#2，我们的车辆上的都是全险#3，包含乘客险#4。”

在上述示例中，用“#3”表示语调短语(对应静音片段)，用“#2”表示韵律短语(对应音高重置片段)，用“#4”表示话段(对应句末)。而由于韵律可以分为音节(一般不标注)、韵律词、韵律短语、语调短语、话段，因此还可以标注韵律词。韵律词的标注可以遵循以下规则：当文本中某一词语需要进行标注，但识别此词语后确定：此词语既不对应静音片段，又不对应高重置片段，还不是句末，此时标注此词语为韵律词。也就是：韵律词的权重与韵律短语、语调短语、话段的权重相比时最小，当其遇到韵律短语、语调短语、话段时不体现。

在上述示例“您好#2，我们的车辆上的都是全险#3，包含乘客险#4。”中，“我们的”、“车辆”、“上的”、“都是”、“包含”均满足上述标注韵律词的规则，故上述示例可标注为：您好#2，我们的#1车辆#1上的#1都是#1全险#3，包含#1乘客险#4。其中，用“#1”表示韵律词。

因此在一种具体实施方式中，若文本数据中的任意文本段不属于语调短语、韵律短语或话段，则利用词典库标注该文本段为韵律词。词典库中包括各种词和字，若待识别词出现在词典库中且该词不属于语调短语、韵律短语或话段，则标注该词为韵律词。

为了能够正确标注出古诗词，可以设定各个标注符号允许标注的最大连续字数。语调短语、韵律短语和韵律词分别设有允许标注的最大连续字数。例如：设定#3前仅可容纳5个字中间无标注符号。如：唧唧复唧唧#3，木兰#1当户织#4。#2前仅可容纳4个字中间无标注符号。如：我们#1一起去#1吃饭去吧#2好吗#4。：#1前仅可容纳4个字中间无标注符号。如：我们#1一起去#1吃饭去吧#1好吗#4。

本申请实施例公开了一种标注实现方案，该方案包括：文本转换规则的设定、识别和标注规则的设定等。

1、文本转换规则设定为：句末仅可出现句号或问号；句中仅可出现逗号，不可出现感叹号、顿号、冒号、空格等。

2、识别和标注规则的设定：

(1)将韵律分为音节、韵律词、韵律短语、语调短语、话段5个韵律层级，并使用#0～#4作为标注符号，各个标注符号与上述不同韵律层级的对应关系参见表1。

表1

规律层级	音节	韵律词	韵律短语	语调短语	话段
						符号表示	#0	#1	#2	#3	#4

(2)各个标注符号对应的识别和标注方法。

各个标注符号均标注在相应文字之后，若有标点符号，则标注符号设置在标点符号之前、文字之后。

各个标注符号前所标注的字数受限，受限规则为：#3前仅可容纳5个字中间无标注符号。#2前仅可容纳4个字中间无标注符号。#1前仅可容纳4个字中间无标注符号。其中，各个标注符号的受限字数可以灵活设置，但不宜太多也不宜太少。一个标注符号的受限字数太多会导致标注太少，不够精细，标注后的文本与原文本区别不大；受限字数太少会导致标注太多，精细度高，但标注后的文本中存在大量连续重复标注，标注效率较低。

上述各个韵律层级的具体识别和标注方法为：

#0默认不标。

#4标注在句尾，可通过标点符号【。？】来识别具体位置。

若识别到超过2ms的静音段，则判定为语调短语，标注#3。

若识别到音高重置片段，则判定为韵律短语，标注#2。

若未识别静音段和音高重置片段，则分词处理后根据文本词典库标注#1。

标注示例如：盼望着(假设此处出现音高重置)#2盼望着#3，东风#1来了#3，春天的#1脚步#1近了#4。

其中，静音段是指：无波形的时间段，一般情况下静音段中无任何声音或有微弱噪音，故静音段的识别根据波形判断即可，具体可参见图2。

音高重置片段是指：在2ms(2毫秒)内，基频线无法平缓连接的部分。一般情况下音高重置处对应的音频有停顿或音调折断等不连贯现象，具体可参见图3。

本实施例标注文本时标注静音段及音高重置，可使韵律标注不再只是单纯的根据文本词典进行标注，对于实际音频中不连贯、停顿等现象也可标记，标注后的文本能尽可能与语音数据相对应，据此训练得到的TTS模型的自然感、语流感可有较大幅度的提升，更接近真人说话的状态。

下面对本申请实施例提供的一种数据标注装置进行介绍，下文描述的一种数据标注装置与上文描述的一种数据标注方法可以相互参照。

参见图4所示，本申请实施例公开了本申请提供了一种数据标注装置，包括：

获取模块401，用于获取音频数据，以及音频数据对应的文本数据；

第一确定模块402，用于确定音频数据对应的音频波形图和基频线图；

第二确定模块403，用于基于音频波形图确定音频数据中的静音片段，基于基频线图确定音频数据中的音高重置片段；

标注模块404，用于将静音片段在文本数据中对应的文本标注为语调短语，将音高重置片段在文本数据中对应的文本标注为韵律短语。

在一种具体实施方式中，第一确定模块具体用于：

在一种具体实施方式中，第二确定模块包括：

在一种具体实施方式中，还包括：

其中，关于本实施例中各个模块、单元更加具体的工作过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

可见，本实施例提供了一种数据标注装置，能够标注出文本中的自然语感和韵律，据此训练TTS模型，可以使TTS模型学习人说话时的自然语感和韵律，避免TTS模型输出的语音机械感较重。

下面对本申请实施例提供的一种电子设备进行介绍，下文描述的一种电子设备与上文描述的一种数据标注方法及装置可以相互参照。

参见图5所示，本申请实施例公开了一种电子设备，包括：

存储器501，用于保存计算机程序；

处理器502，用于执行所述计算机程序，以实现：获取音频数据，以及音频数据对应的文本数据；确定音频数据对应的音频波形图和基频线图；基于音频波形图确定音频数据中的静音片段，基于基频线图确定音频数据中的音高重置片段；将静音片段在文本数据中对应的文本标注为语调短语，将音高重置片段在文本数据中对应的文本标注为韵律短语。

本实施例中，所述处理器执行所述存储器中保存的计算机子程序时，可以具体实现以下步骤：将音频数据输入语音分析工具，以输出音频波形图和基频线图。

本实施例中，所述处理器执行所述存储器中保存的计算机子程序时，可以具体实现以下步骤：利用图像识别技术识别音频波形图中的静音区域，以及基频线图中的线中断区域；将静音区域在音频数据中对应的音频段确定为静音片段，将线中断区域在音频数据中对应的音频段确定为音高重置片段。

本实施例中，所述处理器执行所述存储器中保存的计算机子程序时，可以具体实现以下步骤：基于表示句尾位置的标点符号在文本数据中标注话段。

本实施例中，所述处理器执行所述存储器中保存的计算机子程序时，可以具体实现以下步骤：若文本数据中的任意文本段不属于语调短语、韵律短语或话段，则利用词典库标注文本段为韵律词。

下面对本申请实施例提供的一种可读存储介质进行介绍，下文描述的一种可读存储介质与上文描述的一种数据标注方法、装置及设备可以相互参照。

一种可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述实施例公开的数据标注方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容，在此不再进行赘述。

下面结合具体应用场景详细介绍本申请提供的数据标注方法，需要说明的是，使用该数据标注方法标注得到的文本可以用于训练TTS模型，制作智能机器人模型(如银行、运营商、电商等领域内的智能客服)等。

请参阅图6，图6示出了一种适用于本申请实施例的应用环境示意图。本申请实施例提供的数据标注方法可以应该用于如图6所示的交互系统。交互系统包括终端设备101以及服务器102，服务器102与终端设备101通信连接。其中，服务器102可以是传统服务器，也可以是云端服务器，在此不做具体限定。

其中，终端设备101可以是具有显示屏、具有数据标注模块、具有拍摄相机、具有音频输入/输出等功能，且支持数据输入的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机、自助服务终端和可穿戴式电子设备等。具体的，数据输入可以是基于电子设备上具有的语音模块输入语音、字符输入模块输入字符等。

其中，终端设备101上可以安装有客户端应用程序，用户可以基于客户端应用程序(例如APP，微信小程序等)，其中，本实施例的对话机器人也是配置于终端设备101中的一个客户端应用程序。用户可以基于客户端应用程序在服务器102注册一个用户账号，并基于该用户账号与服务器102进行通信，例如用户在客户端应用程序登录用户账号，并基于该用户账号通过客户端应用程序进行输入，可以输入文字信息或语音信息等，客户端应用程序接收到用户输入的信息后，可以将该信息发送至服务器102，使得服务器102可以接收该信息并进行处理及存储，服务器102还可以接收该信息并根据该信息返回一个对应的输出信息至终端设备101。

在一些实施方式中，对待标注文本进行处理的装置也可以设置于终端设备101上，使得终端设备101无需依赖于服务器102建立通信即可实现与用户的交互，此时交互系统可以只包括终端设备101。

本申请涉及的“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法或设备固有的其它步骤或单元。

需要说明的是，在本申请中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的可读存储介质中。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种数据标注方法，其特征在于，包括：

获取音频数据，以及所述音频数据对应的文本数据；

确定所述音频数据对应的音频波形图和基频线图；

2.根据权利要求1所述的方法，其特征在于，所述确定所述音频数据对应的音频波形图和基频线图，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述音频波形图确定所述音频数据中的静音片段，基于所述基频线图确定所述音频数据中的音高重置片段，包括：

4.根据权利要求3所述的方法，其特征在于，所述图像识别技术包括用于图像识别的机器学习模型、算法或图像库。

5.根据权利要求1所述的方法，其特征在于，还包括：

基于表示句尾位置的标点符号在所述文本数据中标注话段。

6.根据权利要求5所述的方法，其特征在于，还包括：

7.根据权利要求6所述的方法，其特征在于，所述语调短语、所述韵律短语和所述韵律词分别设有允许标注的最大连续字数。

8.一种数据标注装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1至7任一项所述的方法。

10.一种可读存储介质，其特征在于，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。