CN111312231B

CN111312231B - 音频检测方法、装置、电子设备及可读存储介质

Info

Publication number: CN111312231B
Application number: CN202010408508.0A
Authority: CN
Inventors: 林炳怀; 王丽园
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-05-14
Filing date: 2020-05-14
Publication date: 2020-09-04
Anticipated expiration: 2040-05-14
Also published as: CN111312231A

Abstract

本申请涉及信息处理技术领域，公开了一种音频检测方法、装置、电子设备和可读存储介质，音频检测方法包括：接收终端发送的待检测的音频以及与音频对应的文本；将音频与文本进行对齐处理，得到音频中与文本对应的多个音素的每一音素的起止时间；提取音频中的每一音素的音素特征向量，并基于每一音素的起止时间获取音频的音频序列特征；基于音素特征向量和音频序列特征，获取音频的韵律检测结果；韵律检测结果包括音频的重音特征和停顿特征；将韵律检测结果返回至终端，以使终端显示对应标记出重音特征和停顿特征的文本。本申请提供的音频检测方法可以提高韵律检测结果的准确性。

Description

音频检测方法、装置、电子设备及可读存储介质

技术领域

本申请涉及语音技术领域，具体而言，本申请涉及一种音频检测方法、装置、电子设备及可读存储介质。

背景技术

人工智能(Artificial Intelligence，AI)是计算机科学的一个综合技术，通过研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。语音韵律检测是人工智能技术的一个重要应用领域，其主要用于对用户的语音数据进行韵律检测，通过检测出语音数据中出现的错误韵律，从而给用户提供实时的反馈与纠正，以帮助用户提高语言水平。

目前的音频检测方式，通常是对音频中的重音或停顿分别进行检测，没有考虑重音与停顿之间的相互影响，得到的韵律检测结果准确率不够高。

发明内容

本申请的目的旨在至少能解决上述的技术缺陷之一，特提出以下技术方案：

第一方面，提供了一种音频检测方法，包括：

接收终端发送的待检测的音频以及与音频对应的文本；

将音频与文本进行对齐处理，得到音频中与文本对应的多个音素的每一音素的起止时间；

提取音频中的每一音素的音素特征向量，并基于每一音素的起止时间获取音频的音频序列特征；

基于音素特征向量和音频序列特征，获取音频的韵律检测结果；韵律检测结果包括音频的重音特征和停顿特征；

将韵律检测结果返回至终端，以使终端显示对应标记出重音特征和停顿特征的文本。

在第一方面的可选实施例中，音频序列特征包括音频中的每一音素的序列特征、每一音节的序列特征以及每一词语的序列特征；序列特征包括音高、音强和发音时长；

基于每一音素的起止时间获取音频的音频序列特征，包括：

以预设时长为一帧，获取音频中每一帧音频的音高和音强；

基于音频中每一帧音频的音高和音强，确定音频的音高和音强；

基于每一音素的起止时间以及音频的音高和音强，分别确定音频中的每一音素的音高、音强和发音时长，每一音节的音高、音强和发音时长以及每一词语的音高、音强和发音时长。

在第一方面的可选实施例中，获取音频中每一帧音频的音高和音强，包括：

获取音频中每一帧音频的原始音高和原始音强；

对原始音高和原始音强进行归一化，得到每一帧音频的音高和音强。

在第一方面的可选实施例中，基于音素特征向量和音频序列特征，获取音频的韵律检测结果，包括：

针对音频中的每一音素，将该音素的音素特征向量和该音素的序列特征进行拼接，得到每一音素的音素层特征；

基于每一音素的音素层特征，获取音频中每一音节的音节特征向量；

针对音频中的每一音节，将该音节的音节特征向量和该音节的序列特征进行拼接，得到音节层特征；

基于每一音节的音节层特征，获取音频中的重音特征和音频中每一词语的词语特征向量；

针对音频中的每一词语，将该词语的词语特征向量和该词语的序列特征进行拼接，得到每一词语的词语层特征；

基于每一词语的词语层特征，确定音频中的停顿特征。

在第一方面的可选实施例中，基于每一音节的音节层特征，获取音频中的重音特征和音频中每一词语的词语特征向量，包括：

基于每一音节的音节层特征，获取与每一音节的音节层特征对应的音节输出特征，以及所述音频中每一词语的词语特征向量；

对所得到的音节输出特征进行分类，得到重音特征。

在第一方面的可选实施例中，基于每一词语的词语层特征，确定音频中的停顿特征，包括：

对音频中的多个词语的词语层特征进行分类，预测每一词语后的静音时长；

基于每一词语后的静音时长，确定音频中的停顿特征。

在第一方面的可选实施例中，对音频中的多个词语的词语层特征进行分类，预测每一词语后的静音时长，包括：

对音频中的多个词语的词语层特征进行分类，预测得到每一词语后的初始静音时长；

获取文本的标准时长，并获取音频的总时长；

基于标准时长、总时长对每一词语后的初始静音时长归一化，得到每一词语后的静音时长。

第二方面，提供了一种音频检测装置，包括：

接收模块，用于接收终端发送的待检测的音频以及与音频对应的文本；

对齐模块，用于将音频与文本进行对齐处理，得到音频中与文本对应的多个音素的每一音素的起止时间；

提取模块，用于提取音频中的每一音素的音素特征向量，并基于每一音素的起止时间获取音频的音频序列特征；

获取模块，用于基于音素特征向量和音频序列特征，获取音频的韵律检测结果；韵律检测结果包括音频的重音特征和停顿特征；

显示模块，用于将韵律检测结果返回至终端，以使终端显示对应标记出重音特征和停顿特征的文本。

在第二方面的可选实施例中，音频序列特征包括音频中的每一音素的序列特征、每一音节的序列特征以及每一词语的序列特征；序列特征包括音高、音强和发音时长；

提取模块在基于每一音素的起止时间获取音频的音频序列特征时，具体用于：

以预设时长为一帧，获取音频中每一帧音频的音高和音强；

基于每一音素的起止时间以及所述音频的音高和音强，分别确定所述音频中的每一音素的音高、音强和发音时长，每一音节的音高、音强和发音时长以及每一词语的音高、音强和发音时长。

在第二方面的可选实施例中，提取模块在获取音频中每一帧音频的音高和音强时，具体用于：

获取音频中每一帧音频的原始音高和原始音强；

在第二方面的可选实施例中，获取模块在基于音素特征向量和音频序列特征，获取音频的韵律检测结果时，具体用于：

基于每一词语的词语层特征，确定音频中的停顿特征。

在第二方面的可选实施例中，获取模块在基于每一音节的音节层特征，获取音频中的重音特征和音频中每一词语的词语特征向量时，具体用于：

对所得到的音节输出特征进行分类，得到重音特征。

在第二方面的可选实施例中，获取模块在基于每一词语的词语层特征，确定音频中的停顿特征时，具体用于：

基于每一词语后的静音时长，确定音频中的停顿特征。

在第二方面的可选实施例中，获取模块在对音频中的多个词语的词语层特征进行分类，预测每一词语后的静音时长时，具体用于：

获取文本的标准时长，并获取音频的总时长；

第三方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现本申请第一方面所示的音频检测方法。

第四方面，提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现本申请第一方面所示的音频检测方法。

本申请提供的技术方案带来的有益效果是：通过提取待检测的音频中的每一音素的音素特征向量，并基于每一音素的起止时间获取音频的音频序列特征，基于音素特征向量和音频序列特征，获取音频的重音特征和停顿特征，可以结合重音特征与停顿特征之间的相互影响，同时输出重音特征与停顿特征两种韵律信息，有效提高韵律结果检测的准确性。

本申请附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例提供的一种音频检测方法的应用环境图；

图2为本申请实施例提供的一种音频检测方法的流程示意图；

图3为本申请一个示例中的终端接收音频的界面示意图；

图4为本申请一个示例中的终端显示韵律检测结果的界面示意图；

图5为本申请实施例提供的一种音频检测方法的流程示意图；

图6为本申请一个示例提供的一种音频检测方法的流程示意图；

图7为本申请一个示例提供的一种音频检测方法的流程示意图；

图8为本申请实施例提供的音频检测的结构示意图；

图9为本申请实施例提供的一种音频检测装置的结构示意图；

图10为本申请实施例提供的一种音频检测的电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请提供的音频检测方法、装置、电子设备及计算机可读存储介质，旨在解决现有技术的如上技术问题。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

本申请提供的音频检测方法，可以应用于如图1所示的应用环境中。具体的，终端101接收用户选择的文本，以及用户输入的与文本对应的待检测的音频；终端101将文本与音频发送给服务器102，服务器102将音频与所述文本进行对齐处理，得到所述音频中与所述文本对应的多个音素的每一音素的起止时间；服务器102提取所述音频中的每一音素的音素特征向量，并基于每一音素的起止时间获取所述音频的音频序列特征；服务器102基于所述音素特征向量和所述音频序列特征，获取所述音频的韵律检测结果；所述韵律检测结果包括所述音频的重音特征和停顿特征；服务器102将所述韵律检测结果返回至所述终端101，终端在所述文本上对应标记出所述重音特征和所述停顿特征并显示。

上述应用场景中的音频检测方法在服务器中进行，在其他应用场景中，上述的音频检测方法也可以应用于终端。

本技术领域技术人员可以理解，这里所使用的“终端”可以是手机、平板电脑、PDA（Personal Digital Assistant，个人数字助理）、MID（Mobile Internet Device，移动互联网设备）等；“服务器”可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

本申请实施例中提供了一种可能的实现方式，如图2所示，提供了一种音频检测方法，以该方法应用于图1中的服务器为例进行说明，可以包括以下步骤：

步骤S201，接收终端发送的待检测的音频以及与音频对应的文本。

具体的，终端可以在展示界面上显示多个文本，用户可以选择其中一个文本，输入与该文本对应的音频。

步骤S202，将音频与文本进行对齐处理，得到音频中与文本对应的多个音素的每一音素的起止时间。

其中，音素是根据音频的自然属性划分出来的最小语音单位，音频可以包括多个音素。从声学性质来看，音素是从音质角度划分出来的最小语音单位；从生理性质来看，一个发音动作形成一个音素。如“ma”包含“m”和“a”两个发音动作，即包含两个音素。

具体的，本申请中的对齐是音素级别的对齐，即文本的每一音素都对上音频中该音素的发音时间。

在具体实施过程中，可以采用对齐工具，将音频和文本对齐，例如，可以用speech-aligner将音频和文本进行音素级别对齐，speech-aligner是一个从“人声语音”及其“语言文本”，产生音素级别时间对齐标注的工具。

步骤S203，提取音频中的每一音素的音素特征向量，并基于每一音素的起止时间获取音频的音频序列特征。

其中，由于不同音素的发音特性不同，可以将不同音素表示成不同的特征向量(phone embed)，即本申请中的音素特征向量，通过网络目标优化可以自动提取每个音素的独特特征，得到音素特征向量。

其中，音频序列特征可以是音素级别、音节级别和词语级别的音高、音强、发音时长序列参数，例如对于音素级别，音频序列特征可以包括每个音素的最大音高、最小音高、最大音强、最小音强、平均音强、平均音高、音强上升和下降幅度、音高上升和下降幅度、音节时长等特征。

其中，音频中可以包括多个词语，每一个词语对应包括至少一个音节，音节是由单个元音音素和辅音音素组合发音的最小语音单位，单个元音音素也可自成音节，也就是说，一个音节包括至少一个音素。步骤S204，基于音素特征向量和音频序列特征，获取音频的韵律检测结果；韵律检测结果包括音频的重音特征和停顿特征。

具体的，可以将音素特征向量结合音频序列特征中的音素的序列特征，获取音节特征向量；然后将音节特征向量结合音频序列特征中的音节的序列特征，得到音节层特征向量，基于音节层特征向量获取词语特征向量和重音特征；结合词语特征向量和音频序列特征中的词语的序列特征，获取停顿特征。具体的韵律检测结果的获取过程将在下文进行详细阐述。

步骤S205，将韵律检测结果返回至终端，以使终端显示对应标记出重音特征和停顿特征的文本。

具体的，可以是终端在文本上进行标记并显示，也可以是服务器在文本上进行标记后，将标记后的文本发送至终端，使得终端显示标记后的文本，可以采用不同的颜色在文本中标记出重音特征，可以采用在词语的后面插入形状，如竖线的形式，在文本中标记出停顿特征，具体的韵律检测结果的表现形式在此不作限制。

如图3所示，在一个示例中，终端可以在展示界面上显示有文本“Iknowthefact”，展示界面上还显示有接收用户输入音频的控件，如图3中的“开始朗读”，当用户触发“开始朗读”的控件后，用户输入音频，此时展示界面上显示有结束接收音频的控件，如“结束朗读”，当用户触发“结束朗读”后，音频接收完成，终端将文本和音频发送给服务器，服务器对音频进行检测，得到韵律检测结果。

如图4所示，在一个示例中，终端可以在展示界面的文本中，以下划线的形式标记出重音特征，以在词语后插入竖线的形式，在文本中标记出停顿特征，图4中“know”、“fact”和“know”均为重音特征，“thefact”之间有停顿特征，“youknow”之间也有停顿特征。

上述实施例中，通过提取待检测的音频中的每一音素的音素特征向量，并基于每一音素的起止时间获取音频的音频序列特征，基于音素特征向量和音频序列特征，获取音频的重音特征和停顿特征，可以结合重音特征与停顿特征之间的相互影响，同时输出重音特征与停顿特征两种韵律信息，有效提高韵律结果检测的准确性。

本申请实施例中提供了一种可能的实现方式，音频序列特征包括音频中的每一音素的序列特征、每一音节的序列特征以及每一词语的序列特征；序列特征包括音高、音强和发音时长。

也就是说，音频序列特征包括音素的音高、音强和发音时长，音节的音高、音强和发音时长，以及词语的音高、音强和发音时长。

其中，音高、音强和发音时长，可以包括最大音高、最小音高、最大音强、最小音强、平均音强、平均音高、音强上升和下降幅度、音高上升和下降幅度、音节时长等特征。

本申请实施例中提供了一种可能的实现方式，如图5所示，步骤S203的基于每一音素的起止时间获取音频的音频序列特征，可以包括：

步骤S310，以预设时长为一帧，获取音频中每一帧音频的音高和音强。

具体的，可以以预设秒数为一帧，例如，以10秒为一帧，可以用kaldi工具提取每帧音频的音高与音强；其中，kaldi工具是一种语音识别开源工具。

具体的，步骤S310 获取音频中每一帧音频的音高和音强，可以包括：

（1）获取音频中每一帧音频的原始音高和原始音强；

（2）对原始音高和原始音强进行归一化，得到每一帧音频的音高和音强。

在具体实施过程中，考虑到不同人的音高与音强不在一个范围内，因此对这些特征进行归一化，可以提高所得到的音强序列特征的准确性，从而提高韵律检测结果的准确性。

步骤S320，基于音频中每一帧音频的音高和音强，确定音频的音高和音强。

具体的，由于音高与音强参数是离散点，因此对多帧窗口之内音强和音高计算平均值进行平滑。

步骤S330，基于每一音素的起止时间以及音频的音高和音强，分别确定音频中的每一音素的音高、音强和发音时长，每一音节的音高、音强和发音时长以及每一词语的音高、音强和发音时长。

具体的，通过帧数与时间的对应关系，获取每个音素对应的音高、音强、发音时长等序列特征。

具体的，步骤S330的基于每一音素的起止时间以及音频的音高和音强，分别确定音频中的每一音素的音高、音强和发音时长，每一音节的音高、音强和发音时长以及每一词语的音高、音强和发音时长，可以包括：

（1）基于每一音素的起止时间以及音频的音高和音强，确定音频中的每一音素的音高、音强和发音时长；

（2）基于每一音素的起止时间，确定每一音素所在的音节的起止时间，得到每一音节的起止时间；

（3）基于每一音节的起止时间以及音频的音高和音强，确定音频中的每一音节的音高、音强和发音时长；

（4）基于每一音节的起止时间，确定每一音节所在的词语的起止时间，得到每一词语的起止时间；

（5）基于每一词语的起止时间以及音频的音高和音强，确定音频中的每一词语的音高、音强和发音时长。

在具体实施过程中，音节由音素构成，词语由音节构成，可以基于每一音素的起止时间，获取每一音节的起止时间，并获取每一词语的起止时间；再基于每一音素的起止时间、音频的音高和音强，得到每一音素的音高、音强和发音时长；基于每一音节的起止时间、音频的音高和音强，得到每一音节的音高、音强和发音时长；基于每一词语的起止时间、音频的音高和音强，得到每一词语的音高、音强和发音时长。

上述实施例阐述了音频序列特征的获取过程，以下将结合附图和实施例阐述韵律检测结果的获取过程。

本申请实施例中提供了一种可能的实现方式，步骤S204的基于音素特征向量和音频序列特征，获取音频的韵律检测结果，可以包括：

（1）针对音频中的每一音素，将该音素的音素特征向量和该音素的序列特征进行拼接，得到每一音素的音素层特征。

具体的，不同音素的发音特性不同，将不同音素表示成不同的特征向量，通过网络目标优化可以自动提取每个音素的独特特征。

基于音素级别的音高、音强、发音时长序列参数，提取提取每个音素的相关特征，即序列特征：最大音高、最小音高、最大音强、最小音强、平均音强、平均音高、音强上升和下降幅度、音高上升和下降幅度、音节时长等特征，将这些特征与音素特征向量进行拼接。

（2）基于每一音素的音素层特征，获取音频中每一音节的音节特征向量。

具体的，可以将多个音素的音素层特征输入到BILSTM（Bi-directional LongShort-Term Memory，双向长短期记忆网络），得到每一音素层特征对应的输出结果，以及多个音素的音素层特征拼接形成的音节特征向量。

在其他实施例中，也可以将多个音素的音素层特征输入到其他的学习网络中，例如，基于自注意力机制的网络或卷积神经网络（Convolutional Neural Networks, CNN）等其他编码网络中，得到每一音素层特征对应的输出结果以及音节特征向量。

（3）针对音频中的每一音节，将该音节的音节特征向量和该音节的序列特征进行拼接，得到音节层特征。

具体的，不同语言类型的音节发音时长特征不同，例如，英语是一种重读等时性语言，即重读音节之间的时长相等；例如中文是一种音节等时性语言，即每个音节发音时长几乎相同，每个音节发音强弱几乎相同，两者差别主要体现在音节发音上。

对于不同的语言，音节重读都主要与音节音高、音强、音高变化、音强变化、音节时长相关，可以提取每个音节的相关特征，即音节的序列特征：最大音高、最小音高、最大音强、最小音强、平均音强、平均音高、音强上升和下降幅度、音高上升和下降幅度、音节时长等。

将音节的序列特征和音节特征向量进行拼接，得到音节层特征。

（4）基于每一音节的音节层特征，获取音频中的重音特征和音频中每一词语的词语特征向量。

具体的，基于每一音节的音节层特征，获取音频中的重音特征和音频中每一词语的词语特征向量，可以包括：

a、基于每一音节的音节层特征，获取与每一音节的音节层特征对应的音节输出特征，以及所述音频中每一词语的词语特征向量；

b、对所得到的音节输出特征进行分类，得到重音特征。

具体的，将多个音节的音节层特征输入到BILSTM，可以得到和每一音节层特征对应的音节输出特征，并得到多个音节层特征拼接形成的词语特征向量。

可以理解的是，这里的BILSTM可以和音素层特征所输入的BILSTM结构相同，参数可相同可以不同。

在其他实施例中，也可以将多个音节的音节层特征输入到其他的学习网络中，例如，基于自注意力机制的网络或卷积神经网络等其他编码网络中，得到对应的音节输出特征和词语特征向量。

（5）针对音频中的每一词语，将该词语的词语特征向量和该词语的序列特征进行拼接，得到每一词语的词语层特征。

具体的，一个词语能量很高时，词语后面会伴随停顿，可以结合词语词的音高及音强特征以及这些特征的统计结果如最大值、最小值、平均值等作为探测句子停顿的特征。当一个词语与另一个词语音高或强度突然出现变化时，也是停顿产生的标记，可以计算相邻词之间的音高和音强变化趋势作为特征。词语基于这些序列特征，拼接音节层的特征输出，即词语特征向量，得到词语层特征，作为词语层长短期记忆网络的输入。

（6）基于每一词语的词语层特征，确定音频中的停顿特征。

具体的，基于每一词语的词语层特征，确定音频中的停顿特征，可以包括：

a、对音频中的多个词语的词语层特征进行分类，预测每一词语后的静音时长。

具体的，可以将多个词语的词语层特征输入到一个BILSTM，得到每一词语后的静音时长。

在其他实施例中，也可以将多个词语的词语层特征输入到其他的学习网络中，例如，基于自注意力机制的网络或卷积神经网络等其他编码网络中，得到每一词语后的静音时长。

在具体实施过程中，不同人语速有快慢区别，可以对初始静音时长进行语速归一化，得到静音时长。

其中，对音频中的多个词语的词语层特征进行分类，预测每一词语后的静音时长，可以包括：

a1、对音频中的多个词语的词语层特征进行分类，预测得到每一词语后的初始静音时长；

a2、获取文本的标准时长，并获取音频的总时长；

a3、基于标准时长、总时长对每一词语后的初始静音时长归一化，得到每一词语后的静音时长。

b、基于每一词语后的静音时长，确定音频中的停顿特征。

具体的，若静音时长超过预设时长，可以确定该词语后有停顿特征。

上述的音频检测方法，通过提取待检测的音频中的每一音素的音素特征向量，并基于每一音素的起止时间获取音频的音频序列特征，基于音素特征向量和音频序列特征，获取音频的重音特征和停顿特征，可以结合重音特征与停顿特征之间的相互影响，同时输出重音特征与停顿特征两种韵律信息，有效提高韵律结果检测的准确性。

为了更好地理解上述音频检测方法，如图6所示，以下详细阐述一个本申请的音频检测方法的示例：

在一个示例中，本申请提供的音频检测方法，包括如下步骤：

1）终端接收用户输入朗读的英文句子的文本；

2）终端接收用户输入的与文本对应的音频；

3）终端将文本和音频发送给服务器；

4）服务器中设置有自动语音识别模块，自动语音识别模块基于音频和文本生成音频文本音素级别对齐结果，获取每个发音音素的起止时间；

5）服务器中设置有韵律检测模块，韵律检测模块基于音频和每个发音音素的起止时间生成韵律检测结果，包括：实际句重读位置（即重音特征）、实际句停顿位置（即停顿特征）；

6）服务器将韵律检测结果发送给终端，终端在文本上展示韵律检测结果。

为了更好地理解上述音频检测方法，如图7所示，以下从服务器角度，详细阐述一个本申请的音频检测方法的示例：

在一个示例中，以“I amhappy”音频为例，音频中包括“I”、“am”和“happy”这三个词，其中，“I”包括“AY”音节，“AY”音节包括“AY”音素；“am”包括“AEM”音节，“AEM”音节包括“AE”音素和“M”音素；“happy”包括“HHAE”音节和“PIY”音节，“HHAE”音节包括“HH”音素和“AE”音素，“PIY”音节包括“P”音素和“IY”音素，则针对“I amhappy”音频，检测方法可以包括如下步骤：

1）基于一句话中每个音素，提取音素层特征，音素层特征包括音素的序列特征（音素的音高、音强和发音时长）和音素特征向量；例如，图中分别提取了“AY”音素、“AE”音素、“M”音素、“P”音素和“IY”音素的音素层特征，以“AY”音素为例，包括“AY”音素的音高特征（0.1,0.2）、音强特征（0.1,0.5）和音素特征向量（0.01,0.03）（即图中所示的音素向量）；

2）音素层特征经过双向长短期记忆网络获得音节特征向量；以“AY”音素为例，“AY”音素的音素层特征经过BILSTM后，得到“AY”音节的音节特征向量，即图中所示的“AY”音节的音节向量（0.03,0.03）；同样的，对于“AEM”音节、“HHAE”音节和“PIY”音节，也是基于相同的过程得到对应的音节特征向量；3）音节特征向量结合音节的序列特征（音节的音高、音强和发音时长）和音节特征向量，得到音节层特征；以“AY”音节为例，将所得到的“AY”音节的音节向量（0.03,0.03），结合“AY”音节的音高特征（0.1,0.2）和音强特征（0.1,0.5），得到“AY”音节的音节层特征；同样的，对于“AEM”音节、“HHAE”音节和“PIY”音节，也是基于同样过程得到对应的音节层特征；

4）音节层特征经过双向长短期记忆网络获得词语特征向量，以及重音特征；以“AY”音节为例，将“AY”音节的音节层特征输入到BILSTM，得到“I”词语的词语特征向量，即图中所示的单词向量（0.02,0.03），并同时得到重音特征，及图中所示的“非重读”；对于其他“am”和“happy”词语，获取词语特征向量和重音特征的过程相同；

5）词语特征向量结合词语的序列特征（词语的音高、音强和发音时长），得到词语层特征；以“I”词语为例，结合“I”的词语特征向量，即单词向量,0.02,0.03），和“I”词语的音高特征（0.1,0.2）和音强特征（0.1,0.5），得到“I”词语的词语层特征；同样的，对于“am”和“happy”词语，获取词语层特征的过程相同；

6）对词语层特征进行分类，得到停顿特征，即图中以的“非停顿”或“停顿”。

上述示例中，步骤2）和步骤4）中的双向长短期记忆网络为两个独立的网络，参数可以相同也可以不同。

为了更好地理解上述音频检测方法，如图8所示，以下将结合韵律检测模型的结构，详细阐述本申请的音频检测模型的结构。

在一个实施例中，本申请中的韵律检测模型，可以包括音素层、音节层和词语层。音素层提取音素级别声学特征，即结合音素特征向量和音素的序列特征，经过双向长短期记忆网络，获得音节层特征表示（即音节特征向量），音节层结合音节的序列特征以及音节特征向量作为输入，经过双向长短期记忆网络，获得词语特征向量。词语层结合词语级别特征（即词语的序列特征）以及音节层输出（即词语特征向量）作为输入，经过双向长短期记忆网络，获得最终词语表示。其中音节层输出句重音预测结果，词语层输出句停顿预测结果。

如图8所示，分别获取“AY”音素、“AE”音素、“M”音素、“P”音素和“IY”音素的音素层特征，包括音素特征向量和音素的序列特征，将每一音素的音素层特征输入到对应的BILSMT后，得到每一音素所在的音节的音节特征向量，即分别得到“AY”音节、“AEM”音节、“HHAE”音节和“PIY”音节的音节特征向量；对于每一音节，将该音节的音节特征向量结合音节的序列特征，可以得到对应的音节层特征；将每一音节的音节层特征，分别输入到对应的BILSTM，可以得到每一音节所在的词语的词语特征向量，即得到“I”、“am”和“happy”这三个词语的词语特征向量，并同时得到与每一词语对应的重音特征；将I”、“am”和“happy”这三个词语的词语特征向量，分别结合每一词语的序列特征，得到每一词语的词语层特征；将每一词语的词语层特征，输入到对应的BILSMT，得到对应的停顿特征。

以下将阐述本申请中的韵律检测模型的训练过程。

在一个实施例中，本申请中的韵律检测模型包含两个任务句重音（重音特征）和句停顿（停顿特征）判断，句重音基于音节级别进行判断，句停顿基于单词级别进行判断，将两个任务的分类损失进行加权相加，得到整个韵律检测模型的损失。通过前向传播计算损失，反向计算损失对各参数导数，进行韵律检测模型的参数的更新。本实施例采用一种多任务学习的方式，不仅可以共享两个任务的表示，而且可以提高两种任务的性能。

L=ylog（p）+（1-y）log（1-p）（1）

式中，L为分类损失，包括停顿特征分类损失或重音特征分类损失；y为人工标注标签，p为模型预测的概率（如某个单词停顿的概率或某个音节重读的概率）。

本实施例中韵律检测模型的总损失为两个任务的分类损失加权相加值。

L _total =w×L _stress +（1-w）×L _break（2）

式中，L _total为韵律检测模型的总损失；L _stress为重音特征分类损失，L _break为停顿特征分类损失，w为重音特征分类损失权重值，值为0到1之间。

以下将阐述本申请实施例中的韵律检测方法的有益效果：

本申请的测试集来自于Aix-MARSEC (Aix-Machine Readable Spoken EnglishCorpus)[8]，该数据集由5个小时的BBC录音构成，由11种说话风格53个不同的发音者录音而成，包含55000个标注单词，每个单词包含重音标注与停顿标注。其中80%数据用于训练，20%数据用于预测。本技术方案与现有的基于CRF技术方案（CRF）对比，说明本方案较传统技术方案的优势。同时，为了进一步说明本方案两个任务同时优化的效果表现，将本申请的韵律检测模型(MTL-BILSTM)与现有技术中的两个任务独立优化方案(SL-BILSTM)进行对比。基于精确率，召回率，F1三个指标进行对比，结果如下表1所示。

表1

由表1中的结果可知，本方案较基于CRF技术方案具有一定的优势。更进一步，本申请通过采用多任务同时优化方法，较现有中的两个任务独立优化方法，效果有一定的提升。

本申请实施例中提供了一种可能的实现方式，如图9所示，提供了一种音频检测装置90，该音频检测装置90可以包括：接收模块901、对齐模块902、提取模块903、获取模块904和显示模块905，其中，

接收模块901，用于接收终端发送的待检测的音频以及与音频对应的文本；

对齐模块902，用于将音频与文本进行对齐处理，得到音频中与文本对应的多个音素的每一音素的起止时间；

提取模块903，用于提取音频中的每一音素的音素特征向量，并基于每一音素的起止时间获取音频的音频序列特征；

获取模块904，用于基于音素特征向量和音频序列特征，获取音频的韵律检测结果；韵律检测结果包括音频的重音特征和停顿特征；

显示模块905，用于将韵律检测结果返回至终端，以使终端显示对应标记出重音特征和停顿特征的文本。

上述的音频检测装置，通过提取待检测的音频中的每一音素的音素特征向量，并基于每一音素的起止时间获取音频的音频序列特征，基于音素特征向量和音频序列特征，获取音频的重音特征和停顿特征，可以结合重音特征与停顿特征之间的相互影响，同时输出重音特征与停顿特征两种韵律信息，有效提高韵律结果检测的准确性。

本申请实施例中提供了一种可能的实现方式，音频序列特征包括音频中的每一音素的序列特征、每一音节的序列特征以及每一词语的序列特征；序列特征包括音高、音强和发音时长；

提取模块903在基于每一音素的起止时间获取音频的音频序列特征时，具体用于：

以预设时长为一帧，获取音频中每一帧音频的音高和音强；

基于每一音素的起止时间以及音频的音高和音强，分别确定音频中的每一音素的音高、音强和发音时长,每一音节的音高、音强和发音时长以及每一词语的音高、音强和发音时长。

本申请实施例中提供了一种可能的实现方式，提取模块903在获取音频中每一帧音频的音高和音强时，具体用于：

获取音频中每一帧音频的原始音高和原始音强；

本申请实施例中提供了一种可能的实现方式，获取模块904在基于音素特征向量和音频序列特征，获取音频的韵律检测结果时，具体用于：

基于每一词语的词语层特征，确定音频中的停顿特征。

本申请实施例中提供了一种可能的实现方式，获取模块904在基于每一音节的音节层特征，获取音频中的重音特征和音频中每一词语的词语特征向量时，具体用于：

对所得到的音节输出特征进行分类，得到重音特征。

本申请实施例中提供了一种可能的实现方式，获取模块904在基于每一词语的词语层特征，确定音频中的停顿特征时，具体用于：

基于每一词语后的静音时长，确定音频中的停顿特征。

本申请实施例中提供了一种可能的实现方式，获取模块904在对音频中的多个词语的词语层特征进行分类，预测每一词语后的静音时长时，具体用于：

获取文本的标准时长，并获取音频的总时长；

本公开实施例的图片的音频检测装置可执行本公开的实施例所提供的一种图片的音频检测方法，其实现原理相类似，本公开各实施例中的图片的音频检测装置中的各模块所执行的动作是与本公开各实施例中的图片的音频检测方法中的步骤相对应的，对于图片的音频检测装置的各模块的详细功能描述具体可以参见前文中所示的对应的图片的音频检测方法中的描述，此处不再赘述。

基于与本公开的实施例中所示的方法相同的原理，本公开的实施例中还提供了一种电子设备，该电子设备可以包括但不限于：处理器和存储器；存储器，用于存储计算机操作指令；处理器，用于通过调用计算机操作指令执行实施例所示的音频检测方法。与现有技术相比，本申请中的音频检测方法检测可以提高韵律检测结果的准确性。

在一个可选实施例中提供了一种电子设备，如图10所示，图10所示的电子设备4000包括：处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括收发器4004。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU（Central Processing Unit，中央处理器），通用处理器，DSP（Digital Signal Processor，数据信号处理器），ASIC（Application SpecificIntegrated Circuit，专用集成电路），FPGA（Field Programmable Gate Array，现场可编程门阵列）或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是PCI（Peripheral Component Interconnect，外设部件互连标准）总线或EISA（ExtendedIndustry Standard Architecture，扩展工业标准结构）总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM（Read Only Memory，只读存储器）或可存储静态信息和指令的其他类型的静态存储设备，RAM（Random Access Memory，随机存取存储器）或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM（Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器）、CD-ROM（Compact DiscRead Only Memory，只读光盘）或其他光盘存储、光碟存储（包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等）、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器4003用于存储执行本申请方案的应用程序代码，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码，以实现前述方法实施例所示的内容。

其中，电子设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、PDA（个人数字助理）、PAD（平板电脑）、PMP（便携式多媒体播放器）、车载终端（例如车载导航终端）等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图10示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。与现有技术相比，本申请中的音频检测方法可以提高韵律检测结果的准确性。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF（射频）等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行上述实施例所示的方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块的名称在某种情况下并不构成对该模块本身的限定，例如，提取模块还可以被描述为“提取音素特征向量的模块”。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的（但不限于）具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种音频检测方法，其特征在于，包括：

接收终端发送的待检测的音频以及与所述音频对应的文本；

将所述音频与所述文本进行对齐处理，得到所述音频中与所述文本对应的多个音素的每一音素的起止时间；

提取所述音频中的每一音素的音素特征向量，并基于每一音素的起止时间获取所述音频的音频序列特征；

基于所述音素特征向量和所述音频序列特征，获取所述音频的韵律检测结果；所述韵律检测结果包括所述音频的重音特征和停顿特征；

将所述韵律检测结果返回至所述终端，以使所述终端显示对应标记出所述重音特征和所述停顿特征的所述文本。

2.根据权利要求1所述的音频检测方法，其特征在于，所述音频序列特征包括所述音频中的每一音素的序列特征、每一音节的序列特征以及每一词语的序列特征；所述序列特征包括音高、音强和发音时长；

所述基于每一音素的起止时间获取所述音频的音频序列特征，包括：

以预设时长为一帧，获取所述音频中每一帧音频的音高和音强；

基于所述音频中每一帧音频的音高和音强，确定所述音频的音高和音强；

3.根据权利要求2所述的音频检测方法，其特征在于，所述获取所述音频中每一帧音频的音高和音强，包括：

获取所述音频中每一帧音频的原始音高和原始音强；

对所述原始音高和原始音强进行归一化，得到每一帧音频的音高和音强。

4.根据权利要求2所述的音频检测方法，其特征在于，所述基于所述音素特征向量和所述音频序列特征，获取所述音频的韵律检测结果，包括：

针对所述音频中的每一音素，将该音素的音素特征向量和该音素的序列特征进行拼接，得到每一音素的音素层特征；

基于每一音素的音素层特征，获取所述音频中每一音节的音节特征向量；

针对所述音频中的每一音节，将该音节的音节特征向量和该音节的序列特征进行拼接，得到音节层特征；

基于每一音节的音节层特征，获取所述音频中的重音特征和所述音频中每一词语的词语特征向量；

针对所述音频中的每一词语，将该词语的词语特征向量和该词语的序列特征进行拼接，得到每一词语的词语层特征；

基于每一词语的词语层特征，确定所述音频中的停顿特征。

5.根据权利要求4所述的音频检测方法，其特征在于，所述基于每一音节的音节层特征，获取所述音频中的重音特征和所述音频中每一词语的词语特征向量，包括：

对所得到的音节输出特征进行分类，得到所述重音特征。

6.根据权利要求4所述的音频检测方法，其特征在于，所述基于每一词语的词语层特征，确定所述音频中的停顿特征，包括：

对所述音频中的多个词语的词语层特征进行分类，预测每一词语后的静音时长；

基于每一词语后的静音时长，确定所述音频中的停顿特征。

7.根据权利要求6所述的音频检测方法，其特征在于，所述对所述音频中的多个词语的词语层特征进行分类，预测每一词语后的静音时长，包括：

对所述音频中的多个词语的词语层特征进行分类，预测得到每一词语后的初始静音时长；

获取所述文本的标准时长，并获取所述音频的总时长；

基于所述标准时长、所述总时长对每一词语后的初始静音时长归一化，得到每一词语后的静音时长。

8.一种音频检测装置，其特征在于，包括：

接收模块，用于接收终端发送的待检测的音频以及与所述音频对应的文本；

对齐模块，用于将所述音频与所述文本进行对齐处理，得到所述音频中与所述文本对应的多个音素的每一音素的起止时间；

提取模块，用于提取所述音频中的每一音素的音素特征向量，并基于每一音素的起止时间获取所述音频的音频序列特征；

获取模块，用于基于所述音素特征向量和所述音频序列特征，获取所述音频的韵律检测结果；所述韵律检测结果包括所述音频的重音特征和停顿特征；

显示模块，用于将所述韵律检测结果返回至所述终端，以使所述终端显示对应标记出所述重音特征和所述停顿特征的所述文本。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-7任一项所述的音频检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现权利要求1-7任一项所述的音频检测方法。