CN113392645B

CN113392645B - 一种韵律短语边界预测方法、装置、电子设备和存储介质

Info

Publication number: CN113392645B
Application number: CN202110695132.0A
Authority: CN
Inventors: 吴朗; 孙见青; 梁家恩
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2021-06-22
Filing date: 2021-06-22
Publication date: 2023-12-15
Anticipated expiration: 2041-06-22
Also published as: CN113392645A

Abstract

本发明涉及一种韵律短语边界预测方法、装置、电子设备和存储介质，该方法包括：获取音频；将音频输入至声学模型和语言模型中输出第一带静音标签的拼音序列和第一文本序列；将第一带静音标签的拼音序列和第一文本序列进行降噪处理得到第二带静音标签的拼音序列和第二文本序列；根据第二带静音标签的拼音序列和第二文本序列训练预测模型；获取待确定韵律短语边界的文本，将待确定韵律短语边界的文本输入至预测模型中确定韵律短语边界。本申请通过带标签的拼音序列、文本序列训练预测模型，通过预测模型直接确定韵律边界，不依赖人工标注韵律短语边界数据和语言先验知识，并且，避免不同标注人员之间的不一致问题，提高韵律短语边界预测鲁棒性。

Description

一种韵律短语边界预测方法、装置、电子设备和存储介质

技术领域

本发明涉及韵律短语边界预测技术领域，具体涉及一种韵律短语边界预测方法、装置、电子设备和存储介质。

背景技术

目前，韵律短语边界预测一般有两种方法：一是基于语法规则方法，由语言专家总结出短语边界预测规则，再将这些规则制作成一个计算机可以理解的信息库。计算机会根据规则逐条进行条件匹配，来判决句子的韵律短语边界。二是基于数据驱动方法，人工制作大量韵律短语边界数据，然后训练韵律短语边界预测模型。模型训练一般分为两种方法：一是传统机器学习方法，例如决策树，条件随机场等；二是深度学习方法。

目前的上述方法一依赖语言专家先验知识，而且当短语边界预测规则增加时，极易产生规则冲突。上述方法二依赖人工精标的短语边界预测数据，传统机器学习方法还依赖所选取的语法特征，例如分词，词性，音节等；深度学习方法虽然对特征选取要求不高，但是对数据量规模要求较高。

发明内容

本发明提供一种韵律短语边界预测方法、装置、电子设备和存储介质，能够解决上述韵律短语边界预测中的技术问题。

本发明解决上述技术问题的技术方案如下：

第一方面，本发明实施例提供了一种韵律短语边界预测方法，包括：

获取音频；

将音频输入至声学模型和语言模型中输出第一带静音标签的拼音序列和第一文本序列；

将第一带静音标签的拼音序列和第一文本序列进行降噪处理得到第二带静音标签的拼音序列和第二文本序列；

根据第二带静音标签的拼音序列和第二文本序列训练预测模型；

获取待确定韵律短语边界的文本，将待确定韵律短语边界的文本输入至预测模型中确定韵律短语边界。

在一些实施例中，上述韵律短语边界预测方法中将音频输入至声学模型和语言模型中输出第一带静音标签的拼音序列和第一文本序列，包括：

所述将所述音频输入至声学模型和语言模型中有两个层级的输出，第一层级是第一带静音标签的拼音序列，第二层级是音频对应的第一文本序列。

在一些实施例中，上述韵律短语边界预测方法中，将第一带静音标签的拼音序列和第一文本序列进行降噪处理得到第二带静音标签的拼音序列和第二文本序列，包括：

将第一带静音标签的拼音序列和第一文本序列输入至标点符号预测模块中确定标点符号和韵律短语边界；

筛选掉其中的标点符号得到第二带静音标签的拼音序列和第二文本序列。

在一些实施例中，上述韵律短语边界预测方法中，根据第二带静音标签的拼音序列和第二文本序列训练预测模型，包括：

根据第二带静音标签的拼音序列和第二文本序列确定字符向量、单词边界、词性向量和单词位置向量；

将字符向量、单词边界、词性向量和单词位置向量作为输入，是韵律短语边界和不是韵律短语边界作为输出训练第一模型得到预测模型；

第一模型的主体网络结构采用Transformer网络结构。

在一些实施例中，上述韵律短语边界预测方法中，将待确定韵律短语边界的文本输入至所述预测模型中确定韵律短语边界，包括：

对待确定韵律短语边界的文本进行预处理得到处理后的待确定韵律短语边界的文本序列；

确定处理后的待确定韵律短语边界的文本序列中的单词词性和单词边界；

获取字符向量、词边界向量、单词词性向量和单词位置向量；

将字符向量、单词边界向量、单词词性向量和单词位置向量拼接输入预测模型中确定韵律短语边界。

在一些实施例中，上述韵律短语边界预测方法中，声学模型是通过以下步骤训练的：

获取语音数据及对应的带静音标签的拼音序列；

将语音数据作为输入，带静音标签的拼音序列作为输出训练第二模型得到声学模型；

第二模型由一个多层最小门控制单元层神经网络后接一个线性输入映射层构成。

在一些实施例中，上述韵律短语边界预测方法中，语言模型是通过以下步骤训练的：

获取文本字符序列；

使用文本字符序列训练第三模型得到语言模型；

第三模型的主体网络结构采用Transformer网络结构。

第二方面，本发明实施例提供了一种韵律短语边界预测装置，包括：

获取模块：用于获取音频；

输入输出模块：用于将音频输入至声学模型和语言模型中输出第一带静音标签的拼音序列和第一文本序列；

降噪处理模块：用于将第一带静音标签的拼音序列和第一文本序列进行降噪处理得到第二带静音标签的拼音序列和第二文本序列；

训练模块：用于第二带静音标签的拼音序列和第二文本序列训练预测模型；

确定模块：用于获取待确定韵律短语边界的文本，将待确定韵律短语边界的文本输入至预测模型中确定韵律短语边界。

第三方面，本发明实施例还提供了一种电子设备，包括：处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行如上所述任一项一种韵律短语边界预测方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如上所述任一项所述一种韵律短语边界预测方法。

本发明的有益效果是：本申请通过获取音频；将音频输入至声学模型和语言模型中输出第一带静音标签的拼音序列和第一文本序列；将第一带静音标签的拼音序列和第一文本序列进行降噪处理得到第二带静音标签的拼音序列和第二文本序列；根据第二带静音标签的拼音序列和第二文本序列训练预测模型；获取待确定韵律短语边界的文本，将待确定韵律短语边界的文本输入至预测模型中确定韵律短语边界。本申请通过带标签的拼音序列、文本序列训练预测模型，通过预测模型直接确定韵律边界，不依赖人工标注韵律短语边界数据和语言先验知识，节省了人力，并且，避免不同标注人员之间的不一致问题，提高韵律短语边界预测鲁棒性。

附图说明

图1为本发明实施例提供的一种韵律短语边界预测方法图一；

图2为本发明实施例提供的一种韵律短语边界预测方法图二；

图3为本发明实施例提供的一种韵律短语边界预测方法图三；

图4为本发明实施例提供的一种韵律短语边界预测方法图四；

图5为本发明实施例提供的一种韵律短语边界预测装置图；

图6为本发明实施例提供的一种电子设备的示意性框图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本公开，而非对本申请的限定。基于所描述的本申请的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

图1为本发明实施例提供的一种韵律短语边界预测方法图一。

第一方面，本发明实施例提供了一种韵律短语边界预测方法，包括S101-S105五个步骤：

S101：获取音频；

具体的，本申请实施例中的音频可以是新闻联播音频、学习视频音频等等，示例性的如：音频内容为“请参考一种基于远程监督的韵律短语边界预测方法”。

S102：将音频输入至声学模型和语言模型中输出第一带静音标签的拼音序列和第一文本序列；

具体的，本申请实施例中，示例性的，将音频“请参考一种基于远程监督的韵律短语边界预测”输入至声学模型和语言模型中输出“请参考#一种基于远程监督的#韵律短语边界预测方法”的拼音序列和“请参考一种基于远程监督的韵律短语边界预测方法”的文本序列，应理解，文字中间的#就是静音标签，具体应用中也可以是其它的静音标签，并不以此限定不申请的保护范围。

S103：将第一带静音标签的拼音序列和第一文本序列进行降噪处理得到第二带静音标签的拼音序列和第二文本序列；

具体的，本申请实施例中，在得到第一带静音标签的拼音序列和第一文本序列后，还不知道静音标签#，哪个是标定符号，哪个是韵律短语边界，通过降噪处理首先确定“请参考#一种基于远程监督的#韵律短语边界预测方法”中第一个#是标定符号，第二个#是韵律短语边界，然后筛选掉标定符号得到第二带静音标签的拼音序列和第二文本序列。

S104：根据第二带静音标签的拼音序列和第二文本序列训练预测模型；

具体的，本申请实施例中，筛选掉标定符号得到第二带静音标签的拼音序列和第二文本序列，根据第二带静音标签的拼音序列和第二文本序列训练预测模型。

S105：获取待确定韵律短语边界的文本，将待确定韵律短语边界的文本输入至预测模型中确定韵律短语边界。

具体的，本申请实施例中，获取待确定韵律短语边界的文本如“请参考：一种基于远程监督的韵律短语边界预测方法”，输入至预测模型中确定韵律边界为“请参考：一种基于远程监督的#韵律短语边界预测方法”。

将音频输入至声学模型和语言模型中有两个层级的输出，第一层级是第一带静音标签的拼音序列，第二层级是音频对应的第一文本序列。

具体的，本申请实施例中，将音频“请参考一种基于远程监督的韵律短语边界预测方法”输入至声学模型和语言模型中，联合声学模型和语言模型，有两个层级的输出，第一层级是“请参考#一种基于远程监督的#韵律短语边界预测方法”的拼音序列，第二层级是“请参考一种基于远程监督的韵律短语边界预测方法”的文本序列。

图2为本发明实施例提供的一种韵律短语边界预测方法图二。

在一些实施例中，上述韵律短语边界预测方法中，将第一带静音标签的拼音序列和第一文本序列进行降噪处理得到第二带静音标签的拼音序列和第二文本序列，包括S201和S202两个步骤：

S201：将第一带静音标签的拼音序列和第一文本序列输入至标点符号预测模块中确定标点符号和韵律短语边界；

具体的，本申请实施例中，“请参考#一种基于远程监督的#韵律短语边界预测方法”的拼音序列和“请参考一种基于远程监督的韵律短语边界预测方法”的拼音序列输入至标点符号预测模块中确定第一个#是标点符号，第二个#是韵律短语边界。

S202：筛选掉其中的标点符号得到第二带静音标签的拼音序列和第二文本序列。

具体的，本申请实施例中，筛选掉其中的标点符号得到第二带静音标签的拼音序列和第二文本序列，如得到“请参考：一种基于远程监督的#韵律短语边界预测方法”的拼音序列和文本序列。

应理解，将韵律短语边界中的标点符号筛选掉，可以提高韵律短语边界预测的准确率。

图3为本发明实施例提供的一种韵律短语边界预测方法图三。

在一些实施例中，上述韵律短语边界预测方法中，根据第二带静音标签的拼音序列和第二文本序列训练预测模型，包括S301和S302两个步骤：

S301：根据第二带静音标签的拼音序列和第二文本序列确定字符向量、单词边界、词性向量、单词位置向量、是韵律短语边界和不是韵律短语边界；

具体的，本申请实施例中，如根据“请参考：一种基于远程监督的#韵律短语边界预测方法”的拼音序列和文本序列确定字符向量、单词边界、词性向量、单词位置向量、是韵律短语边界和不是韵律短语边界。

S302：将字符向量、单词边界、词性向量和单词位置向量作为输入，是韵律短语边界和不是韵律短语边界作为输出训练第一模型得到预测模型；

第一模型的主体网络结构采用Transformer网络结构。

具体的，本申请实施例中，将字符向量、单词边界、词性向量和单词位置向量作为输入，是韵律短语边界和不是韵律短语边界作为输出训练第一模型得到预测模型，第一模型的主体网络结构采用Transformer网络结构，Transformer网络结构保证看到足够的上下文环境情况下，能够实现并行计算，从而进一步提高了预测模型预测的准确率。

图4为本发明实施例提供的一种韵律短语边界预测方法图四。

在一些实施例中，上述韵律短语边界预测方法中，将待确定韵律短语边界的文本输入至预测模型中确定韵律短语边界，包括如下四个步骤：

S401：对待确定韵律短语边界的文本进行预处理得到处理后的待确定韵律短语边界的文本序列；

具体的，本申请中的预处理可以是格式的处理。

S402：确定处理后的待确定韵律短语边界的文本序列中的单词词性和单词边界；

示例性的，确定单词词性，对“一种基于远程监督的韵律短语边界预测方法”进行分词和词性标注，假设利用结巴分词工具，得到“一种/数词基于/介词远程/名词监督/名动词的/助词韵律/名词短语/名词边界/名词预测/名动词方法/名词”。

确定单词边界，对single begin middle end确定单词边界分别为s、b、m、e，分别表示当前字属于词的单字词、词首、词中、词尾。

S403：获取字符向量、词边界向量、单词词性向量和单词位置向量；

具体的，本申请再确定单词词性和单词边界后，获取字符向量、词边界向量、单词词性向量和单词位置向量。

S404：将字符向量、单词边界向量、单词词性向量和单词位置向量拼接输入预测模型中确定韵律短语边界。

应理解，通过上述S401-S404四个步骤介绍了确定韵律短语边界的过程。

获取语音数据及对应的带静音标签的拼音序列；

应理解，通过由一个多层最小门控制单元层神经网络后接一个线性输入映射层构成的第二模型具有语音数据和拼音序列强制对齐的功能，从而利用第二模型得到的声学模型更准确。

获取文本字符序列；

使用文本字符序列训练第三模型得到语言模型；

第三模型的主体网络结构采用Transformer网络结构。

应理解，本申请实施例中的第三模型的主体网络结构采用Transformer网络结构保证看到足够的上下文环境情况下，能够实现并行计算，得到的语言模型考虑了上下文环境，更准确。

图5为本发明实施例提供的一种韵律短语边界预测装置图。

获取模块501：用于获取音频；

具体的，本申请实施例中通过获取模块501获取音频，音频可以是新闻联播音频、学习视频音频等等，示例性的如：音频内容为“请参考一种基于远程监督的韵律短语边界预测方法”。

输入输出模块502：用于将音频输入至声学模型和语言模型中输出第一带静音标签的拼音序列和第一文本序列；

具体的，本申请实施例中，通过输入输出模块502将音频“请参考一种基于远程监督的韵律短语边界预测”输入至声学模型和语言模型中输出“请参考#一种基于远程监督的#韵律短语边界预测方法”的拼音序列和“请参考一种基于远程监督的韵律短语边界预测方法”的文本序列，应理解，文字中间的#就是静音标签，具体应用中也可以是其它的静音标签，并不以此限定不申请的保护范围。

降噪处理模块503：用于将第一带静音标签的拼音序列和第一文本序列进行降噪处理得到第二带静音标签的拼音序列和第二文本序列；

具体的，本申请实施例中，在得到第一带静音标签的拼音序列和第一文本序列后，还不知道静音标签#，哪个是标定符号，哪个是韵律短语边界，通过降噪处理模块503降噪处理首先确定“请参考#一种基于远程监督的#韵律短语边界预测方法”中第一个#是标定符号，第二个#是韵律短语边界，然后筛选掉标定符号得到第二带静音标签的拼音序列和第二文本序列。

训练模块504：用于第二带静音标签的拼音序列和第二文本序列训练预测模型；

具体的，本申请实施例中，筛选掉标定符号得到第二带静音标签的拼音序列和第二文本序列，通过训练模块504训练第二带静音标签的拼音序列和第二文本序列得到预测模型。

确定模块505：用于获取待确定韵律短语边界的文本，将待确定韵律短语边界的文本输入至预测模型中确定韵律短语边界。

具体的，本申请实施例中，获取待确定韵律短语边界的文本如“请参考：一种基于远程监督的韵律短语边界预测方法”，输入至预测模型中确定模块505确定韵律边界为“请参考：一种基于远程监督的#韵律短语边界预测方法”。

图6是本公开实施例提供的一种电子设备的示意性框图。

如图6所示，电子设备包括：至少一个处理器601、至少一个存储器602和至少一个通信接口603。电子设备中的各个组件通过总线系统604耦合在一起。通信接口603，用于与外部设备之间的信息传输。可理解，总线系统604用于实现这些组件之间的连接通信。总线系统604除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见，在图6中将各种总线都标为总线系统604。

可以理解，本实施例中的存储器602可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

在一些实施方式中，存储器602存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作系统和应用程序。

其中，操作系统，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本申请实施例提供的一种韵律短语边界预测方法中任一方法的程序可以包含在应用程序中。

在本申请实施例中，处理器601通过调用存储器602存储的程序或指令，具体的，可以是应用程序中存储的程序或指令，处理器601用于执行本申请实施例提供的一种韵律短语边界预测方法各实施例的步骤。

获取音频；

本申请实施例提供的一种韵律短语边界预测方法中任一方法可以应用于处理器601中，或者由处理器601实现。处理器601可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器601中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器601可以是通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本申请实施例提供的一种韵律短语边界预测方法中任一方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器602，处理器601读取存储器602中的信息，结合其硬件完成一种韵律短语边界预测方法的步骤。

本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。

本领域的技术人员能够理解，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

虽然结合附图描述了本申请的实施方式，但是本领域技术人员可以在不脱离本申请的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种韵律短语边界预测方法，其特征在于，包括：

获取音频；

将所述音频输入至声学模型和语言模型中输出第一带静音标签的拼音序列和第一文本序列；

将所述第一带静音标签的拼音序列和所述第一文本序列输入至标点符号预测模块中确定标点符号和韵律短语边界；

筛选掉其中的标点符号得到第二带静音标签的拼音序列和第二文本序列；

根据所述第二带静音标签的拼音序列和所述第二文本序列训练预测模型；

获取待确定韵律短语边界的文本，将所述待确定韵律短语边界的文本输入至所述预测模型中确定韵律短语边界。

2.根据权利要求1所述的一种韵律短语边界预测方法，其特征在于，所述将所述音频输入至声学模型和语言模型中输出第一带静音标签的拼音序列和第一文本序列，包括：

3.根据权利要求1所述的一种韵律短语边界预测方法，其特征在于，所述根据所述第二带静音标签的拼音序列和所述第二文本序列训练预测模型，包括：

根据所述第二带静音标签的拼音序列和所述第二文本序列确定字符向量、单词边界、词性向量和单词位置向量；

将所述字符向量、所述单词边界、所述词性向量和所述单词位置向量作为输入，是韵律短语边界和不是韵律短语边界作为输出训练第一模型得到预测模型；

所述第一模型的主体网络结构采用Transformer网络结构。

4.根据权利要求1所述的一种韵律短语边界预测方法，其特征在于，将所述待确定韵律短语边界的文本输入至所述预测模型中确定韵律短语边界，包括：

对所述待确定韵律短语边界的文本进行预处理得到处理后的待确定韵律短语边界的文本序列；

确定所述处理后的待确定韵律短语边界的文本序列中的单词词性和单词边界；

将所述字符向量、所述单词边界向量、所述单词词性向量和所述单词位置向量拼接输入所述预测模型中确定韵律短语边界。

5.根据权利要求1所述的一种韵律短语边界预测方法，其特征在于，所述声学模型是通过以下步骤训练的：

获取语音数据及对应的带静音标签的拼音序列；

将所述语音数据作为输入，带静音标签的拼音序列作为输出训练第二模型得到声学模型；

所述第二模型由一个多层最小门控制单元层神经网络后接一个线性输入映射层构成。

6.根据权利要求1所述的一种韵律短语边界预测方法，其特征在于，所述语言模型是通过以下步骤训练的：

获取文本字符序列；

使用所述文本字符序列训练第三模型得到语言模型；

所述第三模型的主体网络结构采用Transformer网络结构。

7.一种韵律短语边界预测装置，其特征在于，包括：

获取模块：用于获取音频；

输入输出模块：用于将所述音频输入至声学模型和语言模型中输出第一带静音标签的拼音序列和第一文本序列；

降噪处理模块：用于将所述第一带静音标签的拼音序列和所述第一文本序列输入至标点符号预测模块中确定标点符号和韵律短语边界；

训练模块：用于所述第二带静音标签的拼音序列和所述第二文本序列训练预测模型；

确定模块：用于获取待确定韵律短语边界的文本，将所述待确定韵律短语边界的文本输入至所述预测模型中确定韵律短语边界。

8.一种电子设备，其特征在于，包括：处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行如权利要求1至6任一项所述一种韵律短语边界预测方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如权利要求1至6任一项所述一种韵律短语边界预测方法。