CN111640418B

CN111640418B - 一种韵律短语识别方法、装置及电子设备

Info

Publication number: CN111640418B
Application number: CN202010472771.6A
Authority: CN
Inventors: 高岩; 贾晓丰; 张晰; 王大亮; 赵聃; 齐红威
Original assignee: Datang Beijing Intelligent Technology Co ltd
Current assignee: Datang Beijing Intelligent Technology Co ltd
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2024-04-16
Anticipated expiration: 2040-05-29
Also published as: CN111640418A

Abstract

本申请公开了一种韵律短语识别方法、装置及电子设备，获得待识别的目标数据，目标数据中至少包含文本数据和文本数据对应的音频数据，文本数据中包含至少一个语句；获得文本数据对应的文本特征编码和音频数据对应的声学特征编码；对文本特征编码和声学特征编码进行处理，以得到关于文本和音频相对齐的多模态特征；将多模态特征输入到预先训练完成的韵律识别模型，以得到韵律识别模型输出的韵律短语序列，韵律短语序列中包含多个韵律短语，且韵律短语之间至少利用韵律符号分割；其中，韵律识别模型为利用至少两个具有韵律短语标签的语句样本和语句样本对应的音频样本进行训练得到。

Description

一种韵律短语识别方法、装置及电子设备

技术领域

本申请涉及文本识别技术领域，尤其涉及一种韵律短语识别方法、装置及电子设备。

背景技术

韵律是语言交际的重要元素，是一种听觉和感知相结合的概念。韵律短语是指口语中某些词自然的结合在一起，而某些词有明显间隔或彼此分开。韵律短语识别是指对于给定的词汇，要判定在它后面是否存在一个韵律边界。例如，对“小池春水浸明霞”进行韵律短语识别之后，得到“小池#1春水#1浸明霞#4”，其中，“小池”“春水”和“浸明霞”为识别出的韵律短语，用符号“#”分割，并在“#”后添加能够表示停顿级别的数字。

目前对韵律短语进行识别的方案中，通常是利用具有人工标注的韵律标签的语句对预先构建的韵律识别模型进行训练，经过训练的韵律识别模型能够对未知韵律的语句中的韵律短语进行识别。

但是以上实现方案中单依赖于文本的韵律标注，由此会存在模型训练样本单一的情况，使得最终识别出的韵律短语可能存在不准确的问题。

发明内容

有鉴于此，本申请提供一种韵律短语识别方法、装置及电子设备，如下：

一种韵律短语识别方法，所述方法包括：

获得待识别的目标数据，所述目标数据中至少包含文本数据和所述文本数据对应的音频数据，所述文本数据中包含至少一个语句；

获得所述文本数据对应的文本特征编码和所述音频数据对应的声学特征编码；

对所述文本特征编码和所述声学特征编码进行处理，以得到关于文本和音频相对齐的多模态特征；

将所述多模态特征输入到预先训练完成的韵律识别模型，以得到所述韵律识别模型输出的韵律短语序列，所述韵律短语序列中包含多个韵律短语，且所述韵律短语之间至少利用韵律符号分割；

其中，所述韵律识别模型为利用至少两个具有韵律短语标签的语句样本和所述语句样本对应的音频样本进行训练得到。

上述方法，优选的，所述韵律识别模型通过以下方式训练得到：

获得所述语句样本和其对应的音频样本的多模态特征样本；

将所述多模态特征样本输入到初始创建的韵律识别模型，以得到所述韵律识别模型的输出结果；

将所述输出结果中的韵律短语序列和所述语句样本的韵律短语标签进行比对，以得到比对结果；

根据所述比对结果，对所述韵律识别模型的模型参数进行调整。

上述方法，优选的，获得所述语句样本和其对应的音频样本的多模态特征样本，包括：

获得所述语句样本对应的文本特征编码样本和所述音频样本对应的声学特征编码样本；

对所述文本特征编码样本和所述声学特征编码样本进行处理，以得到关于文本和音频相对齐的多模态特征样本。

上述方法，优选的，获得所述语句样本对应的文本特征编码样本和所述音频样本对应的声学特征编码样本，包括：

分别对所述语句样本和所述音频样本进行转换，得到所述语句样本对应的文本向量样本和所述音频样本对应的声学向量样本；

分别对所述文本向量样本和所述声学向量样本进行特征编码，以得到所述文本向量样本对应的文本特征编码样本和所述声学向量样本对应的声学特征编码样本。

上述方法，优选的，对所述文本特征编码样本和所述声学特征编码样本进行处理，以得到关于文本和音频相对齐的多模态特征样本，包括：

利用注意力机制，将所述文本特征编码样本和所述声学特征编码样本关于文本和音频进行对齐，以得到对齐特征样本；

将所述对齐特征样本进行向量特征的转换，得到多模态特征样本。

上述方法，优选的，对所述文本特征编码和所述声学特征编码进行处理，以得到关于文本和音频相对齐的多模态特征，包括：

利用注意力机制，将所述文本特征编码和所述声学特征编码关于文本和音频进行对齐，以得到对齐特征；

将所述对齐特征进行向量特征的转换，得到多模态特征。

上述方法，优选的，获得所述文本数据对应的文本特征编码和所述音频数据对应的声学特征编码，包括：

分别对所述文本数据和所述音频数据进行转换，得到所述文本数据对应的文本向量和所述音频数据对应的声学向量；

分别对所述文本向量和所述声学向量进行特征编码，以得到所述文本向量对应的文本特征编码和所述声学向量对应的声学特征编码。

一种韵律短语识别装置，装置包括：

数据获得单元，用于获得待识别的目标数据，所述目标数据中至少包含文本数据和所述文本数据对应的音频数据，所述文本数据中包含至少一个语句；

特征编码获得单元，用于获得所述文本数据对应的文本特征编码和所述音频数据对应的声学特征编码；

多模态特征获得单元，用于对所述文本特征编码和所述声学特征编码进行处理，以得到关于文本和音频相对齐的多模态特征；

模型运行单元，用于将所述多模态特征输入到预先训练完成的韵律识别模型，以得到所述韵律识别模型输出的韵律短语序列，所述韵律短语序列中包含多个韵律短语，且所述韵律短语之间至少利用韵律符号分割；

上述装置，优选的，还包括：

模型训练单元，用于获得所述语句样本和其对应的音频样本的多模态特征样本；将所述语句样本对应的多模态特征样本输入到初始创建的韵律识别模型，以得到所述韵律识别模型的输出结果；将所述输出结果中的韵律短语序列和所述语句样本的韵律短语标签进行比对，以得到比对结果；根据所述比对结果，对所述韵律识别模型的模型参数进行调整。

一种电子设备，电子设备包括：

存储器，用于存储应用程序和所述应用程序运行所产生的数据；

处理器，用于执行所述应用程序，以实现：获得待识别的目标数据，所述目标数据中至少包含文本数据和所述文本数据对应的音频数据，所述文本数据中包含至少一个语句；获得所述文本数据对应的文本特征编码和所述音频数据对应的声学特征编码；对所述文本特征编码和所述声学特征编码进行处理，以得到关于文本和音频相对齐的多模态特征；将所述多模态特征输入到预先训练完成的韵律识别模型，以得到所述韵律识别模型输出的韵律短语序列，所述韵律短语序列中包含多个韵律短语，且所述韵律短语之间至少利用韵律符号分割；其中，所述韵律识别模型为利用至少两个具有韵律短语标签的语句样本和所述语句样本对应的音频样本进行训练得到。

从上述技术方案可以看出，本申请公开的一种韵律短语识别方法、装置及电子设备中，在需要进行韵律短语识别时，不仅获得文本数据，还需要获得到文本数据所对应的音频数据，之后利用文本数据对应的文本特征编码和音频数据对应的声学特征编码得到关于文本和音频对齐的多模态特征，进而将多模态特征作为综合语句样本和音频样本一起训练所得到的韵律识别模型的输入，而不是单将文本特征作为韵律识别模型的输入，由此，韵律识别模型通过对多模态特征进行处理，输出相应的包含多个韵律短语且用韵律符号分割的韵律短语序列。可见，本申请将语句样本对应的音频样本与语句样本一起加入到韵律识别模型的训练中，从而丰富韵律识别模型的训练样本，由于文本对应的音频能够更加贴合真实环境下的韵律发音，因此训练完成的韵律识别模型能够对文本数据和相应音频数据对应的多模态特征进行处理并输出更加准确的韵律短语序列，从而避免单靠文本进行韵律识别所引起的识别准确率低的情况，达到提高识别韵律短语准确率的目的。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例一提供的一种韵律短语识别方法的流程图；

图2为本申请实施例一中的部分流程图；

图3为本申请实施例一中的部分流程图；

图4为本申请实施例二提供的一种韵律短语识别装置的结构示意图；

图5为本申请实施例二提供的另一种韵律短语识别装置的结构示意图；

图6为本申请实施例二提供的另一种韵律短语识别装置的部分结构示意图；

图7为本申请实施例三提供的一种电子设备的结构示意图；

图8为本申请实施例中提供的一种韵律短语识别方案的单元架构图；

图9为本申请实施例提供的一种声学特征提取示意图；

图10为本申请实施例提供的一种条件随机场标签概率预测示意图；

图11为本申请实施例提供的一种模型推断示例图；

图12为本申请实施例中的举例图。

具体实施方式

目前存在一种基于人工智能韵律预测样本标注的实现方案，通过使用样本音频文件与对应的文本序列，获取文本序列中每个字的文本特征和发音时长，使用预训练的韵律短语识别模型对文本序列进行标注。韵律短语指的是介于韵律词和语调短语之间的中间节奏块。

本申请的发明人经过研究发现，以上方案中，主要通过机器学习与深度学习对韵律短语的边界点进行预测，或者通过模型融合的方式实现韵律短语的识别，但是这种实现方案中单以文本为训练样本，使得韵律短语识别模型单靠文本特征进行韵律短语的识别，会存在识别准确错误的情况。

有鉴于此，本申请的发明人经过进一步研究，提出一种能够结合文本和文本对应的音频进行韵律短语识别的技术方案，具体如下：

首先，获得待识别的目标数据，所述目标数据中至少包含文本数据和所述文本数据对应的音频数据，所述文本数据中包含至少一个语句；之后，获得所述文本数据对应的文本特征编码和所述音频数据对应的声学特征编码；基于此，在对所述文本特征编码和所述声学特征编码进行处理，以得到关于文本和音频相对齐的多模态特征之后，将所述多模态特征输入到预先训练完成的韵律识别模型，以得到所述韵律识别模型输出的韵律短语序列，所述韵律短语序列中包含多个韵律短语，且所述韵律短语之间至少利用韵律符号分割；其中，所述韵律识别模型为利用至少两个具有韵律短语标签的语句样本和所述语句样本对应的音频样本进行训练得到。

由此，本申请将语句样本对应的音频样本与语句样本一起加入到韵律识别模型的训练中，从而丰富韵律识别模型的训练样本，由于文本对应的音频能够更加贴合真实环境下的韵律发音，因此训练完成的韵律识别模型能够对文本数据和相应音频数据对应的多模态特征进行处理并输出更加准确的韵律短语序列，从而避免单靠文本进行韵律识别所引起的识别准确率低的情况，达到提高识别韵律短语准确率的目的。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

参考图1，为本申请实施例一提供的一种韵律短语识别方法的实现流程图，该方法可以适用于能够进行数据处理特别是特征融合处理的电子设备中，如计算机或者服务器等。本实施例中的技术方案主要用于在进行韵律短语识别时，基于文本和音频的多模态特征进行处理，以得到相应的包含多个韵律短语且用韵律符号分割的韵律短语序列，以避免单靠文本进行韵律识别所引起的识别准确率低的情况。

在具体实现中，本实施例中的方法可以包括以下步骤：

步骤101：获得待识别的目标数据。

其中，目标数据中至少包含文本数据和文本数据对应的音频数据，例如，目标数据包含有：文本数据“今天天气真不错，大家要出去打羽毛球吗？去哪里打好呢？”，还包含有这些文本数据“今天天气真不错，大家要出去打羽毛球吗？去哪里打好呢？”对应的音频数据。

在一种实现方式中，本实施例中可以先获得一段需要进行韵律识别的视音频数据，之后，再对这些视音频数据进行音频数据的提取，最后再基于自动语音识别技术ASR(Automatic Speech Recognition)对音频数据进行语音识别，得到相应的文本数据，由此获得到包含文本数据和文本数据对应的音频数据的目标数据；

或者，本实施例中可以先获得文本数据，如由多个语句组成的文章等，之后，利用基于音频生成工具生成该文本数据对应的音频数据或者由人工朗读文本数据中的语句以得到相应的音频数据，由此获得到包含文本数据和文本数据对应的音频数据的目标数据；

也就是说，本实施例中在进行韵律短语识别之前，如果所获取的目标数据中同时包含音、视频数据和文本数据，则可以直接根据音频数据和文本数据进行后续的韵律短语的识别流程；而如果所获得的目标数据中仅包含音、视频数据，那么可以通过ASR系统将音视频数据中的音、频数据进行提取，再将音频数据转换为文本数据，之后再根据音频数据和文本数据进行后续的韵律短语的识别流程；如果所获得的目标数据中仅包含文本数据时，那么可以通过人工朗读或者音频生成工具获得到文本数据对应的音频数据，之后再根据音频数据和文本数据进行后续的韵律短语的识别流程。

其中，文本数据中包含至少一个语句，例如，文本数据中包含：“今天天气真不错，大家要出去打羽毛球吗？去哪里打好呢？”中包含“今天天气真不错”、“大家要出去打羽毛球吗？”、“去哪里打好呢？”这些多个语句。相应的，音频数据中包含每个语句对应的音频片段。

具体实现中，本实施例中可以通过文本数据输入单元获取文本数据，通过音、视频输入单元获取音频文件或者视频文件，例如，通过文本数据输入单元获取文本数据“今天天气真不错”，通过音、视频输入单元获取文本数据“今天天气真不错”对应的音频数据文件或视频文件。

步骤102：获得所述文本数据对应的文本特征编码和所述音频数据对应的声学特征编码。

在一种实现方式中，步骤102可以通过特征编码算法如神经网络等方式对文本数据及音频数据进行编码，得到文本数据对应的文本特征编码和音频数据对应的声学特征编码。

具体的，步骤102可以通过以下方式实现：

首先，分别对文本数据和音频数据进行向量转换，以得到文本数据对应的文本向量和音频数据对应的声学向量，其中文本向量中包含有各个语句的语句向量，而每个语句向量中包含有一个或多个词向量，同样的，声学向量中可以包含有各个语句对应的声学片段的片段向量，而每个片段向量是由一个或多个发声或发音的片段对应的向量组成；

具体的，本实施例中对语句样本进行转换可以通过预训练的词向量矩阵，将语句样本转换成计算机可以理解的向量化表示。例如，首先通过词向量预训练算法将分好词的所有标注数据进行词向量训练，词向量指的是把每个词表征为K纬的实数向量，把相似的单词分组映射到向量空间的不同部分。词向量训练的计算公式如公式(1)：

上述公式中，E_Word表示词嵌入矩阵，x_i表示第i个字符索引的独热表现形式，表示第i个字符的词向量。

其中，对所述音频数据进行转换使用的计算公式如公式(2)：

v_i＝W_FB·e_FB+W_MFCC·e_MFCC+b 公式(2)

上述公式中，W_FB、W_MFCC、b为待训练参数，e_FB为基于Filter bank特征提取算法提取到的声学向量，e_MFCC为基于MFCC特征提取算法提取到的声学向量(本申请中为了提高准确性，对使用不同方法所提取到的声学向量进行融合)，由待训练参数和声学特征提取的向量经过权重相乘再相加得到所述音频对应的声学向量。

具体实现中，本实施例中通过文本嵌入表示单元将所述语句样本通过词向量预训练算法转换得到对应的文本向量，通过声学特征提取单元对音频数据进行预加重、分帧、加窗等操作使得声学信号变得平滑并且能够快速进行傅里叶变换，然后对每段信号进行快速傅里叶变换，变换之后可以得到一个频谱图，使用Mel频标上线性分布的三角窗滤波器对信号进行滤波，最后对三角滤波器的输出取对数，生成Filter bank向量，该向量一般为40维。如果增加离散余弦变换可以得到MFCC特征向量，均能够作为声学特征，再经过融合之后获得到声学向量。

之后，分别对文本向量和声学向量进行特征编码，以得到文本向量对应的文本特征编码和声学向量对应的声学特征编码。

其中，文本特征编码是指对文本向量进行编码之后所得到的特征编码，具体的，文本特征编码可以为通过双向长短时记忆神经网络对文本数据所生成的文本向量进行编码，有多种方法可以对文本向量进行编码，例如，可以用下述公式(3)-(5)对文本向量进行编码。

上述公式中，e_i表示文本向量中的各个词向量，表示正向隐藏层状态，由正向长短时记忆神经网络编码获得，/>表示逆向隐藏层状态，由逆向长短时记忆神经网络编码获得，h_i表示文本特征经过神经网络的编码，是两个向量的相连，i的取值范围是1，2，......，M。

其中，声学特征编码是指对音频向量进行向量编码之后所得到的特征编码，具体的，声学特征编码可以为通过双向长短时记忆神经网络对音频数据所生成的声学向量进行编码，有多种方法可以对声学向量进行编码，例如，可以用下述公式(6)-(8)对Mel频率倒谱系数MFCC(Mel Frequency Cepstrum Coefficient)向量进行编码。

上述公式中，vi表示音频数据所生成的声学向量，表示正向隐藏层状态，由正向长短时记忆神经网络编码获得，/>表示逆向隐藏层状态，由逆向长短时记忆神经网络编码获得，s_i表示声学特征经过神经网络的编码，是两个向量的相连，i的取值范围是1，2，......，N。

具体实现中，本实施例中通过文本特征编码单元使用双向长短时记忆神经网络对文本数据所生成的文本向量(或者称为文本特征)进行编码操作，将文本特征转换为向量化表示，得到文本特征编码h_i，通过声学特征编码单元使用双向长短时记忆神经网络对音频数据所生成的声学向量(或者称为声学特征)进行编码操作，将声学特征转换为向量化表示，得到声学特征编码s_i。

步骤103：对所述文本特征编码和所述声学特征编码进行处理，以得到关于文本和音频相对齐的多模态特征。

其中，步骤103中可以通过对两种特征编码进行对齐及融合处理，进而得到多模态特征，该多模态特征为融合有文本特征编码和声学特征编码两种特征编码且两种特征编码关于文本和音频对齐的特征。

具体的，步骤103可以通过以下方式实现：

首先，利用注意力机制，将文本特征编码和声学特征编码关于文本和音频进行对齐，以得到对齐特征，该对齐特征中文本的字符和音频的片段是相应对齐的，例如，文本字符“今天”和音频片段“今天”是对齐或者说是具有映射关系的。

其中，注意力机制是用于快速提取稀疏数据的重要特征的机制。具体实现中，本实施例中通过注意力机制对齐单元使用注意力机制，将声学特征编码与文本特征编码计算注意力权重，目的在于使基于注意力机制的学习模型能够学习声学特征和文本特征的对齐权值，使得学习模型能够学习到这两个特征在音字层面的对齐，本实施例中通过下述公式(9)-(11)对所述文本特征编码和所述声学特征编码关于文本和音频进行对齐，以得到对齐特征。

a_i,j=tabh(u^Ts_i+v^Th_j+b) 公式(9)

上述公式中，tanh为双曲正切函数，t表示每一次训练或处理的迭代次数表示，e表示词向量，N表示一句话的词个数，si表示声学编码特征，hi表示文本编码特征，u^T、v^T与b表示待学习的参数，表示经过注意力机制对齐之后生成的对齐向量，a_i，j表示注意力权重，是一个属于[0，1]的权重向量，代表每一个词与对应音频的相似程度。

之后，将对齐特征进行向量特征的转换，得到多模态特征。

其中，本实施例中可以利用特征编码算法如神经网络等方式对对齐特征进行编码，以得到对齐特征向量化表示的多模态特征。

具体实现中，本实施例中可以先通过注意力机制特征对齐单元将文本特征编码和声学特征编码进行特征对齐，使得文本特征编码和声学特征编码之间关于文本字符以及声学片段对齐，之后，再通过对齐特征编码单元将对齐的特征或向量经过双向长短时记忆神经网络进行特征编码，获得融合声学特征与文本特征的向量化表示，即多模态特征。本实施例中可以通过下述公式(12)-(14)对所述文本特征编码和所述声学特征编码进行处理，以得到关于文本和音频相对齐的多模态特征。

上述公式中，c_i表示融合了对齐之后的文本特征和声学特征的综合向量，即多模态特征，其有效长度为经过分词之后的文本长度，表示经过注意力机制对齐之后生成的对齐特征的向量，i的取值范围是1，2，......，N。

步骤104：将所述多模态特征输入到预先训练完成的韵律识别模型，以得到所述韵律识别模型输出的韵律短语序列。

其中，所述韵律短语序列中可以包含多个韵律短语，且所述韵律短语之间至少利用韵律符号分割，例如，“今天#1天气#1真不错#4”中包含韵律短语“今天”、“天气”、“真不错”，分别以“#1”、“#1”、“#4”分割，其中，“#”表示韵律停顿，“1”和“4”分别表示停顿的级别。

具体实现中，本实施例中的韵律识别模型预先基于序列标签预测方法构建，如条件随机场、隐马尔科夫方法、维特比编码等基于状态概率转移的方法构建韵律识别模型。在韵律识别模型被初始构建之后，可以利用至少两个具有韵律短语标签的语句样本和所述语句样本对应的音频样本对韵律识别模型进行训练。

例如，本实施例中依次将诸如语句样本“小池#1春水#1浸明霞#4”和对应的音频样本的多个语句样本和相应的音频样本进行预处理后得到的多模态特征样本输入到韵律识别模型中，这里的语句样本中具有韵律短语标签，如在“小池”后的“#1”以及“浸明霞”后的“#4”等，基于此，韵律识别模型基于初始化的模型参数对这些语句样本和相应的音频样本的多模态特征样本进行学习，输出相应的韵律识别结果，该韵律识别结果中包含有“小池春水浸明霞”的韵律短语序列，此时，本实施例中将韵律识别结果中的韵律短语序列和语句样本中的韵律短语标签进行对比，以比较当前的模型参数下韵律识别模型所输出的韵律识别结果是否准确，进而根据比对的结果来对韵律识别模型的模型参数进行调整，在经过多个语句样本和相应音频样本的训练之后，韵律识别模型的模型参数经过多次调整，直到连续几次的比对结果均表明韵律识别结果准确，完成模型训练，而训练完成的韵律识别模型能够准确的对文本数据和相应的音频数据进行韵律短语的识别。

由上述方案可知，本申请实施例一提供的一种韵律短语识别方法中，在需要进行韵律短语识别时，不仅获得文本数据，还需要获得到文本数据所对应的音频数据，之后利用文本数据对应的文本特征编码和音频数据对应的声学特征编码得到关于文本和音频对齐的多模态特征，进而将多模态特征作为综合语句样本和音频样本一起训练所得到的韵律识别模型的输入，而不是单将文本特征作为韵律识别模型的输入，由此，韵律识别模型通过对多模态特征进行处理，输出相应的包含多个韵律短语且用韵律符号分割的韵律短语序列。可见，本申请将语句样本对应的音频样本与语句样本一起加入到韵律识别模型的训练中，从而丰富韵律识别模型的训练样本，由于文本对应的音频能够更加贴合真实环境下的韵律发音，因此训练完成的韵律识别模型能够对文本数据和相应音频数据对应的多模态特征进行处理并输出更加准确的韵律短语序列，从而避免单靠文本进行韵律识别所引起的识别准确率低的情况，达到提高识别韵律短语准确率的目的。

在一种实现方式中，本实施例中的韵律识别模型具体可以通过以下方式训练得到，如图2中所示：

步骤201：获得所述语句样本和其对应的音频样本的多模态特征样本。

其中，多模态特征样本可以理解为语句样本所生成的文本向量样本和音频样本所生成的声学向量样本经过对齐及向量化转换之后的多模态特征。

具体实现中，本实施例中通过文本数据输入单元获取语句样本，通过音、视频输入单元获取其对应的音频样本，例如，通过文本数据输入单元获取语句样本“等一会#1再给你打#3，我现在#1不在家#4”，其中的语句样本中包含有韵律短语标签，通过音、视频输入单元获取语句样本“等一会#1再给你打#3，我现在#1不在家#4”对应的音频样本。

需要说明的是，获取语句样本时需要将语句样本转换成机器可读编码格式，例如，UTF-8编码格式；获取音频样本时需要将音频文件统一处理成模型的输入格式，例如，pcm、wav、mp3等等输入格式。

步骤202：将多模态特征样本输入到初始创建的韵律识别模型，以得到所述韵律识别模型的输出结果。

具体的，在多模态特征样本输入到初始创建的韵律识别模型之后，韵律识别模型基于初始化的模型参数对这些多模态特征样本进行学习，输出相应的韵律识别结果，即输出结果，该输出结果中包含有韵律短语序列，如“小池#3春水#1浸明霞#4”。

具体实现中，本实施例中将所述语句样本对应的多模态特征样本输入到初始创建的韵律识别模型中，通过文本特征编码单元获取到所述语句样本的文本特征编码，通过声学特征编码单元获取到其对应的音频样本的声学特征编码，再利用注意力机制对齐单元将所述文本特征编码和声学特征编码对齐，最后通过对齐特征编码单元将对对齐的特征进行编码得到融合文本、声学特征的综合向量表示，最后通过模型决策单元使用序列标注得分算法，考虑前后标签的出现情况，计算所有可能的标签序列的得分，并且选取得分最大的一个序列作为模型的输出序列，以得到所述韵律识别模型的输出结果。

步骤203：将所述输出结果中的韵律短语序列和所述语句样本的韵律短语标签进行比对，以得到比对结果。

其中，本实施例中可以将输出结果中的韵律短语序列如“小池#3春水#1浸明霞#4和语句样本中的韵律短语标签如“小池#1春水#1浸明霞#4”进行对比，以比较当前的模型参数下韵律识别模型所输出的结果是否准确。例如，比对结果可以为根据输出结果中的韵律短语序列和所述语句样本的韵律短语标签所计算出的交叉熵的结果，该交叉熵能够表征输出结果中的韵律短语序列和所述语句样本的韵律短语标签之间的相似程度，比如交叉熵越小，表征输出结果中的韵律短语序列和所述语句样本的韵律短语标签越相似。

步骤204：根据所述比对结果，对所述韵律识别模型的模型参数进行调整。

具体实现中，本实施例中通过判断比对结果是否满足预设的调整条件来确定是否对韵律识别模型的模型参数进行调整并确定对韵律识别模型的模型参数的调整方式，如一项或多项模型参数的值增大或减小某个值。基于此，如果比对结果满足预设的调整条件并对模型参数进行调整之后，本实施例中可以返回步骤201中，重新获得一组新的多模态特征样本，并继续进行比对结果的获取，以此类推，直到所得到的比对结果不满足调整条件，如比对结果中的交叉熵表征输出结果中的韵律短语序列和所述语句样本的韵律短语标签的相似程度大于一定阈值，训练完成。

在一种实现方式中，本实施例中在对韵律识别模型进行训练之前，先获得到大量的语句样本和相应的音频样本。其中，本实施例中所获得的原始的语句样本可能会存在编码格式、网络标签、表情符号等这些针对韵律短语识别任务没有意义的字符，这时候就可以对数据进行数据预去噪处理，例如通过数据预处理单元去除非法网络标签、简体转繁体、半全角转换、去掉标签符号、统计数据音素、查看音素平衡状况等去噪工作，并通过人工标记结果对数据进行分词处理，确保每一个词对应每一个韵律标签。

具体实现中，本实施例中步骤201在获得所述语句样本对应的文本特征编码样本和所述音频样本对应的声学特征编码样本时，可以通过以下方式实现，如图3中所示：

步骤301：获得所述语句样本对应的文本特征编码样本和所述音频样本对应的声学特征编码样本。

在一种实现方式中，步骤301可以通过特征编码算法如神经网络等方式对语句样本及音频样本进行编码，得到语句样本对应的文本特征编码样本和音频样本对应的声学特征编码样本。

具体的，步骤301可以通过以下方式实现：

首先，分别对语句样本和音频样本进行向量转换，以得到语句样本对应的文本向量样本和音频样本对应的声学向量样本，其中文本向量样本中包含有各个语句样本的语句向量样本，而每个语句向量样本中包含有一个或多个词向量样本，同样的，声学向量样本中可以包含有各个语句样本对应的声学片段的片段向量样本，而每个片段向量样本是由一个或多个发声或发音的片段样本对应的向量样本组成；

具体的，本实施例中对语句样本进行转换可以通过预训练的词向量矩阵，将语句样本转换成计算机可以理解的向量化表示。例如，首先通过词向量预训练算法将分好词的所有标注数据进行词向量训练，词向量指的是把每个词表征为K纬的实数向量，把相似的单词分组映射到向量空间的不同部分。词向量训练的计算公式如公式(1)，对所述音频样本进行转换使用的计算公式如公式(2)，其中，本申请中为了提高准确性，利用公式(2)对使用不同方法所提取到的声学向量样本进行融合，由待训练参数和声学特征提取的向量经过权重相乘再相加得到所述音频样本对应的声学向量样本。

具体实现中，本实施例中通过文本嵌入表示单元将所述语句样本通过词向量预训练算法转换得到对应的文本向量样本，通过声学特征提取单元对所述音频样本进行预加重、分帧、加窗等操作使得声学信号变得平滑并且能够快速进行傅里叶变换，然后对每段信号进行快速傅里叶变换，变换之后可以得到一个频谱图，使用Mel频标上线性分布的三角窗滤波器对信号进行滤波，最后对三角滤波器的输出取对数，生成Filter bank向量，该向量一般为40维。如果增加离散余弦变换可以得到MFCC特征向量，均能够作为声学特征样本，在经过融合之后获得到声学向量样本。

之后，分别对文本向量样本和声学向量样本进行特征编码，以得到文本向量样本对应的文本特征编码样本和声学向量对应的声学特征编码样本。

其中，文本特征编码样本是指对文本向量样本进行编码之后所得到的特征编码样本，具体的，文本特征编码样本可以为通过双向长短时记忆神经网络对文本向量样本进行编码，有多种方法可以对文本向量样本进行编码，例如，可以用上述公式(3)-(5)对文本向量进行编码。

其中，声学特征编码样本是指对声学向量样本进行向量编码之后所得到的特征编码样本，具体的，声学特征编码样本可以为通过双向长短时记忆神经网络对声学向量样本进行编码，有多种方法可以对声学向量样本进行编码，例如，可以用上述公式(6)-(8)对MFCC向量进行编码。

具体实现中，本实施例中通过文本特征编码单元使用双向长短时记忆神经网络对文本向量样本进行编码操作，将文本向量样本转换为向量化表示，得到文本特征编码样本h_i，通过声学特征编码单元使用双向长短时记忆神经网络对声学向量样本进行编码操作，将声学特征样本转换为向量化表示，得到声学特征编码样本s_i。

步骤302：对所述文本特征编码样本和所述声学特征编码样本进行处理，以得到关于文本和音频相对齐的多模态特征样本。

其中，本实施例中可以通过对两种特征编码样本进行对齐及融合处理，进而得到多模态特征样本，该多模态特征样本为融合有文本特征编码样本和声学特征编码样本两种特征编码样本且两种特征编码样本关于文本和音频对齐的特征样本。

在一种实现方式中，步骤302可以通过以下方式实现：

首先，利用注意力机制，将所述文本特征编码样本和所述声学特征编码样本关于文本和音频进行对齐，以得到对齐特征样本；

其中，注意力机制是用于快速提取稀疏数据的重要特征的机制。具体实现中，本实施例中通过注意力机制对齐单元使用注意力机制，将声学特征编码样本与文本特征编码样本计算注意力权重，目的在于使基于注意力机制的学习模型能够学习声学特征样本和文本特征样本的对齐权值，使得学习模型能够学习到这两个特征在音字层面的对齐，本实施例中通过公式(9)-(11)对所述文本特征编码样本和所述声学特征编码样本关于文本和音频进行对齐，以得到对齐特征样本。

之后，将所述对齐特征样本进行向量特征的转换，得到多模态特征样本。

其中，本实施例中可以利用特征编码算法如神经网络等方式对对齐特征样本进行编码，以得到对齐特征向量化表示的多模态特征样本。

具体实现中，本实施例中可以先通过注意力机制特征对齐单元将文本特征编码样本和声学特征编码样本进行特征对齐，使得文本特征编码样本和声学特征编码样本之间关于文本字符以及声学片段对齐，之后，再通过对齐特征编码单元将对齐的特征或向量样本经过双向长短时记忆神经网络进行特征编码，获得融合声学特征与文本特征的向量化表示，即多模态特征样本。本实施例中可以通过公式(12)-(14)对所述文本特征编码样本和所述声学特征编码样本进行处理，以得到关于文本和音频相对齐的多模态特征样本。

需要强调的是，本实施例中适用于文本数据和音频数据均存在的情况下的韵律短语的识别，当然，在缺失文本数据或者音频数据的情况下，本实施例中的技术方案仍然能够实现韵律短语的识别，例如，在缺失文本数据时，可以对音频数据进行语音识别，得到文本数据后，综合文本数据和音频数据进行韵律短语的识别，或者，只基于音频数据进行韵律短语的识别；或者，在缺失音频数据的情况下，可以对文本数据由人工或者音频生成工具生成相应的音频数据，之后，综合文本数据和音频数据进行韵律短语的识别，或者，只基于文本数据进行韵律短语的识别。

参考图4，为本申请实施例二提供的一种韵律短语识别装置的结构示意图，该装置可以配置在能够进行数据处理的电子设备中，本申请中的技术方案主要用于在将语句样本对应的音频样本与语句样本一起加入到韵律识别模型的训练中，从而丰富韵律识别模型的训练样本，训练完成的韵律识别模型能够对文本数据和相应音频数据对应的多模态特征进行处理并输出更加准确的韵律短语序列，从而避免单靠文本进行韵律识别所引起的识别准确率低的情况，达到提高识别韵律短语准确率的目的。

具体的，该装置可以包括以下单元：

数据获得单元401，用于获得待识别的目标数据，所述目标数据中至少包含文本数据和所述文本数据对应的音频数据，所述文本数据中包含至少一个语句；

特征编码获得单元402，用于获得所述文本数据对应的文本特征编码和所述音频数据对应的声学特征编码；

多模态特征获得单元403，用于对所述文本特征编码和所述声学特征编码进行处理，以得到关于文本和音频相对齐的多模态特征；

模型运行单元404，用于将所述多模态特征输入到预先训练完成的韵律识别模型，以得到所述韵律识别模型输出的韵律短语序列，所述韵律短语序列中包含多个韵律短语，且所述韵律短语之间至少利用韵律符号分割；

由上述方案可知，本申请实施例二提供的一种韵律短语识别装置，在需要进行韵律短语识别时，不仅获得文本数据，还需要获得到文本数据所对应的音频数据，之后利用文本数据对应的文本特征编码和音频数据对应的声学特征编码得到关于文本和音频对齐的多模态特征，进而将多模态特征作为综合语句样本和音频样本一起训练所得到的韵律识别模型的输入，而不是单将文本特征作为韵律识别模型的输入，由此，韵律识别模型通过对多模态特征进行处理，输出相应的包含多个韵律短语且用韵律符号分割的韵律短语序列。可见，本申请将语句样本对应的音频样本与语句样本一起加入到韵律识别模型的训练中，从而丰富韵律识别模型的训练样本，由于文本对应的音频能够更加贴合真实环境下的韵律发音，因此训练完成的韵律识别模型能够对文本数据和相应音频数据对应的多模态特征进行处理并输出更加准确的韵律短语序列，从而避免单靠文本进行韵律识别所引起的识别准确率低的情况，达到提高识别韵律短语准确率的目的。

参考图5，在本申请实施例二中的装置还可以包括以下结构：

模型训练单元405，用于获得所述语句样本和其对应的音频样本的多模态特征样本；将所述语句样本对应的多模态特征样本输入到初始创建的韵律识别模型，以得到所述韵律识别模型的输出结果；将所述输出结果中的韵律短语序列和所述语句样本的韵律短语标签进行比对，以得到比对结果；根据所述比对结果，对所述韵律识别模型的模型参数进行调整。

其中，模型训练单元405具体可以通过以下模块实现，如图6中所示：

数据获取模块601，用于获得所述语句样本和其对应的音频样本的多模态特征样本；

其中，数据获取模块601具体用于：获得所述语句样本对应的文本特征编码样本和所述音频样本对应的声学特征编码样本，例如，首先分别对所述语句样本和所述音频样本进行转换，得到所述语句样本对应的文本向量样本和所述音频样本对应的声学向量样本，之后再分别对所述文本向量样本和所述声学向量样本进行特征编码，以得到所述文本向量样本对应的文本特征编码样本和所述声学向量样本对应的声学特征编码样本；对所述文本特征编码样本和所述声学特征编码样本进行处理，以得到关于文本和音频相对齐的多模态特征样本，例如，首先利用注意力机制，将所述文本特征编码样本和所述声学特征编码样本关于文本和音频进行对齐，以得到对齐特征样本，之后，再将所述对齐特征样本进行向量特征的转换，得到多模态特征样本。

数据输入模块602，用于将所述语句样本对应的多模态特征样本输入到初始创建的韵律识别模型，以得到所述韵律识别模型的输出结果；

数据对比模块603，用于将所述输出结果中的韵律短语序列和所述语句样本的韵律短语标签进行比对，以得到比对结果；

数据调整模块604，根据所述比对结果，对所述韵律识别模型的模型参数进行调整。

在一种实现方式中，特征编码获得单元402具体用于：利用注意力机制，将所述文本特征编码和所述声学特征编码关于文本和音频进行对齐，以得到对齐特征；将所述对齐特征进行向量特征的转换，得到多模态特征。

在一种实现方式中，多模态特征获得单元403具体用于：利用注意力机制，将所述文本特征编码和所述声学特征编码关于文本和音频进行对齐，以得到对齐特征；将所述对齐特征进行向量特征的转换，得到多模态特征。

需要说明的是，本实施例中各单元的具体实现可以参考前文中相应内容，此处不再详述。

参考图7，为本申请实施例三提供的一种电子设备的结构示意图，该电子设备可以为能够进行数据处理的电子设备，如计算机或服务器等。本实施例中的电子设备主要建立韵律识别的模型。

具体的，本实施例中的电子设备可以包括以下结构：

存储器701，用于存储应用程序和所述应用程序运行所产生的数据；

处理器702，用于执行所述应用程序，以实现：获得待识别的目标数据，所述目标数据中至少包含文本数据和所述文本数据对应的音频数据，所述文本数据中包含至少一个语句；获得所述文本数据对应的文本特征编码和所述音频数据对应的声学特征编码；对所述文本特征编码和所述声学特征编码进行处理，以得到关于文本和音频相对齐的多模态特征；将所述多模态特征输入到预先训练完成的韵律识别模型，以得到所述韵律识别模型输出的韵律短语序列，所述韵律短语序列中包含多个韵律短语，且所述韵律短语之间至少利用韵律符号分割；其中，所述韵律识别模型为利用至少两个具有韵律短语标签的语句样本和所述语句样本对应的音频样本进行训练得到。

由上述方案可知，本申请实施例三提供的一种电子设备，在需要进行韵律短语识别时，不仅获得文本数据，还需要获得到文本数据所对应的音频数据，之后利用文本数据对应的文本特征编码和音频数据对应的声学特征编码得到关于文本和音频对齐的多模态特征，进而将多模态特征作为综合语句样本和音频样本一起训练所得到的韵律识别模型的输入，而不是单将文本特征作为韵律识别模型的输入，由此，韵律识别模型通过对多模态特征进行处理，输出相应的包含多个韵律短语且用韵律符号分割的韵律短语序列。可见，本申请将语句样本对应的音频样本与语句样本一起加入到韵律识别模型的训练中，从而丰富韵律识别模型的训练样本，由于文本对应的音频能够更加贴合真实环境下的韵律发音，因此训练完成的韵律识别模型能够对文本数据和相应音频数据对应的多模态特征进行处理并输出更加准确的韵律短语序列，从而避免单靠文本进行韵律识别所引起的识别准确率低的情况，达到提高识别韵律短语准确率的目的。

需要说明的是，本实施例中处理器的具体实现可以参考前文中相应内容，此处不再详述。

图8为本申请实施例中提成的一种韵律短语识别方案的单元架构图，以下各单元分别用于前期的韵律识别模型的训练，以及，实际应用中的韵律短语识别：

1、音、视频输入单元：该单元用于获取音频或视频文件，其中，音频文件统一处理成模型的输入格式，而视频文件则先进行音频提取。

2、声学特征提取单元：通过该单元提取声学特征，对音频类型的文件分别进行分割、傅里叶变换等操作获得声学特征向量(即声学向量或声学向量样本)。

3、声学特征编码单元：使用双向长短时记忆神经网络对声学特征进行编码操作，将声学特征转换为向量化表示(即声学特征编码或声学特征编码样本)。

4、文本数据输入单元：该单元用于读取人工标注好的韵律短语数据。并转成计算机可读编码及格式。

5、文本数据预处理单元：该单元对数据进行数据去噪预处理，例如去除标签、繁体转简体等去噪工作以及分词处理。

6、文本嵌入表示单元：文本嵌入表示将输入的词通过映射转换为字向量(即文本向量或文本向量样本)。

7、文本特征编码单元：使用双向长短时记忆神经网络对文本信息进行编码操作，将文本特征转换为向量化表示(即文本特征编码或文本特征编码样本)。

8、注意力机制对齐单元：使用注意力机制，将声学特征向量与文本特征向量计算注意力权重，用于两者的对齐(即对齐特征或对齐特征样本)。

9、对齐特征编码单元：将对齐的特征向量经过双向长短时记忆神经网络进行编码，获得融合声学特征与文本特征的向量化表示(即多模态特征或多模态特征样本)。

10、模型决策单元：使用序列标注得分算法，计算所有可能的标签序列的得分，并且选取得分最大的一个序列作为模型的输出序列(即输出结果，输出结果中包含韵律短语序列，当然在训练阶段根据输出序列对模型参数进行调整以实现模型训练)。

11、结果输出单元：将条件随机场预测的概率最大的序列转换为韵律短语识别的结果标签，作为整个模型的最终输出。

具体的，本申请的技术方案通过以下流程实现对韵律识别模型的训练及韵律短语的识别：

1、数据采集

本申请中采集并标注了大量语句样本，根据语句样本，通过人工方式录制音频或者通过音频生成工具生成音频，并进行了韵律短语标注文本与音频文件映射。构建了一个多模态韵律短语识别数据集，即训练样本。

同样的，数据采集还用于获得待韵律识别的目标数据。

2、数据预处理

数据预处理即对采集到的训练样本及待识别的目标数据进行音素统计与去噪处理，其中，原始的训练数据存在例如编码格式、网络标签、表情符号等，针对这些对韵律短语识别任务没有意义的字符，需要进行如下处理：统计数据音素、查看音素平衡等状况、去除非法网络标签、去除表情符号、繁简体转换、全半角转换等。

并且，本申请中通过人工标记结果对训练样本进行分词处理，确保每一个词对应一个韵律标签。

同样的，本申请对于待识别的目标数据中的文本数据也会进行分词处理。

3、文本嵌入向量生成

本申请中使用预训练的词向量矩阵，将样本中的词转换成计算机可以理解的向量化表示。具体的首先通过词向量预训练算法，将分好词的所有的标注数据进行词向量训练。词向量的基本思想是把每个词表征为K维的实数向量，将相似的单词分组映射到向量空间的不同部分。词向量训练过程中能够学习到词与词之间的关系，因此可以将词汇很好的用词向量的形式表达，例如，使用计算公式(1)实现向量转换。

4、声学特征提取

本申请中可以通过多种方法提取音频中的声学特征，如MFCC、Filter bank等。以Filter bank为例，特征的提取方式如图9所示。首先将音频文件进行预加重、分帧、加窗等操作，目的在于对声学信号变得平滑并且能够进行快速傅里叶变换；然后对每段信号进行快速傅里叶变换，变换之后可以得到一个频谱图；使用Mel频标上线性分布的三角窗滤波器对信号进行滤波；最后对三角滤波器的输出取对数，生成Filter bank向量，该向量一般为40维。如果增加离散余弦变换可以得到MFCC特征向量，均能够作为声学特征。

5、声学特征融合

本申请中对于使用不同方法提取的声学特征向量，使用全连接网络对声学特征进行融合，以MFCC特征与Filter bank特征为例，如公式(2)所示实现多声学特征的融合。

6、声学特征编码

本申请中可以通过双向长短时记忆神经网络对MFCC向量进行编码，神经网络对声学特征向量进行学习，获得声学特征的深层特征表示向量，如公式(6)-(8)所示。

7、文本特征编码

本申请中可以通过双向长短时记忆神经网络对文本向量进行编码，该神经网络与声学特征编码网络参数不共享，为独立文本编码网络，同样通过神经网络获得文本向量的深层特征表示向量，如公式(3)-(5)所示。

8、声学特征、文本特征对齐

由于声学特征是用过固定时长对声学文件分割，再经过若干次变换得到声学特征向量，而文本是通过分词操作获得词向量，因此需要对声学特征与文本特征进行对齐操作，在本环节中使用注意力机制实现，目的在于使模型能够学习声学特征和文本特征的对齐权值，使得模型能够学习到这两个特征在音字层面的对齐，如公式(9)-(11)所示。

9、对齐特征编码

对齐后的特征仍然需要通过双向长短时记忆神经网络进行编码，获得融合文本、声学特征的综合向量表示，计算公式如(12)-(14)所示。

10、序列标签预测

通过序列标签预测方法将对齐编码特征的每一个隐藏层状态进行标签预测。一般情况下，在模型进行打标签(韵律短语分割)阶段可以使用softmax函数进行处理，使用每一个词所预测的概率最大的标签作为韵律短语的标签，但是这种方法在处理输出标签直接有强烈关系的数据时，效果还是有限的。韵律短语识别每一个词的韵律标签是相互影响的，因此需要使用基于状态概率转移的方法进行标签预测，如条件随机场、隐马尔科夫方法、维特比编码等。以条件随机场为例，该算法能够以路径为单位，考虑的是路径的概率，而不是将每一个词独立考虑，因此输出是最佳的标签序列。如图10所示，2-5-2-4-4的韵律短语序列为最佳的标签序列。

11、结果输出

本申请中将条件随机场预测韵律单于标签概率值转换成对应的实际标签，并且与真实标签计算模型损失，用于优化模型训练。

12、模型推断

如图11所示，其中的推断数据(待识别的数据)可以分为三类，如果测试数据同时包含音、视频和文本文件，则可以直接进行韵律短语的推断；如果推断数据仅包含音、视频可以通过ASR系统进行声音到文字的转换，再进行韵律短语的推断；同样当推断数据仅包含文本时，仅使用文本进行预测。通过该方案能够使模型能够针对更多场景，增加模型的适应性。

可见，本申请中的技术方案基于多模态特征融合，实现韵律短语识别，具体融合声学特征与文本特征，并使用融合特征进行韵律短语识别，基于此进行序列标签预测，能够使序列预测部分更加充分考虑上下文依赖关系。

以古代诗词的韵律短语识别为例，以下对本申请的技术方案进行举例说明：

如图12中所示，除了标点符号作为切分点之外，“暖日#1閒窗#映碧#1纱#4。小池#1春水#1浸明霞#4。”在口语中还包含更小的韵律短语边界，在这种情况下就需要引入韵律自动识别技术，将文本切分成为韵律短语片段，使用“#”分割，其后面的数字代表停顿级别。在传统的韵律短语采集方法中，通过人工听取语音数据，并判断每一个词后是否存在韵律边界，因此存在受到分词影响导致韵律边界预测错误，如图12(a)所示，在诗歌、古文、小说等文体中尤为突出。而基于本申请的技术方案，如图12(b)所示，在增加声学特征后，融合文本特征和声学特征，能够有效提升韵律短语识别的准确性。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种韵律短语识别方法，其特征在于，所述方法包括：

其中，所述韵律识别模型为利用至少两个具有韵律短语标签的语句样本和所述语句样本对应的音频样本进行训练得到；

其中，获得所述文本数据对应的文本特征编码和所述音频数据对应的声学特征编码，包括：

分别对所述文本向量和所述声学向量进行特征编码，以得到所述文本向量对应的文本特征编码和所述声学向量对应的声学特征编码；

其中，对所述音频数据进行转换使用的计算公式如公式(2)：

v_i＝W_FB·e_FB+W_MFCC·e_MFCC+b 公式(2)

上述公式(2)中，W_FB、W_MFCC、b为待训练参数，e_FB为基于Filter bank特征提取算法提取到的声学向量，e_MFCC为基于MFCC特征提取算法提取到的声学向量，由待训练参数和声学特征提取的向量经过权重相乘再相加得到所述音频对应的声学向量；

其中，所述韵律识别模型通过以下方式训练得到：

获得所述语句样本和其对应的音频样本的多模态特征样本；

根据所述比对结果，对所述韵律识别模型的模型参数进行调整；

其中，获得所述语句样本和其对应的音频样本的多模态特征样本，包括：

对所述文本特征编码样本和所述声学特征编码样本进行处理，以得到关于文本和音频相对齐的多模态特征样本；

其中，获得所述语句样本对应的文本特征编码样本和所述音频样本对应的声学特征编码样本，包括：

分别对所述文本向量样本和所述声学向量样本进行特征编码，以得到所述文本向量样本对应的文本特征编码样本和所述声学向量样本对应的声学特征编码样本；

其中，对所述文本特征编码样本和所述声学特征编码样本进行处理，以得到关于文本和音频相对齐的多模态特征样本，包括：

将所述对齐特征样本进行向量特征的转换，得到多模态特征样本；

其中，对所述文本特征编码和所述声学特征编码进行处理，以得到关于文本和音频相对齐的多模态特征，包括：

将所述对齐特征进行向量特征的转换，得到多模态特征。

2.一种韵律短语识别装置，其特征在于，所述装置包括：

其中，所述特征编码获得单元，具体用于：

其中，对所述音频数据进行转换使用的计算公式如公式(2)：

v_i＝W_FB·e_FB+W_MFCC·e_MFCC+b 公式(2)

模型训练单元，用于获得所述语句样本和其对应的音频样本的多模态特征样本；将所述语句样本对应的多模态特征样本输入到初始创建的韵律识别模型，以得到所述韵律识别模型的输出结果；将所述输出结果中的韵律短语序列和所述语句样本的韵律短语标签进行比对，以得到比对结果；根据所述比对结果，对所述韵律识别模型的模型参数进行调整；

将所述对齐特征进行向量特征的转换，得到多模态特征。

3.一种电子设备，其特征在于，包括：

处理器，用于执行所述应用程序，以实现：获得待识别的目标数据，所述目标数据中至少包含文本数据和所述文本数据对应的音频数据，所述文本数据中包含至少一个语句；获得所述文本数据对应的文本特征编码和所述音频数据对应的声学特征编码；对所述文本特征编码和所述声学特征编码进行处理，以得到关于文本和音频相对齐的多模态特征；将所述多模态特征输入到预先训练完成的韵律识别模型，以得到所述韵律识别模型输出的韵律短语序列，所述韵律短语序列中包含多个韵律短语，且所述韵律短语之间至少利用韵律符号分割；其中，所述韵律识别模型为利用至少两个具有韵律短语标签的语句样本和所述语句样本对应的音频样本进行训练得到；

其中，对所述音频数据进行转换使用的计算公式如公式(2)：

v_i＝W_FB·e_FB+W_MFCC·e_MFCC+b 公式(2)

其中，所述韵律识别模型通过以下方式训练得到：

获得所述语句样本和其对应的音频样本的多模态特征样本；

将所述对齐特征进行向量特征的转换，得到多模态特征。