CN110827813A

CN110827813A - 一种基于多模态特征的重音检测方法及系统

Info

Publication number: CN110827813A
Application number: CN201910995480.2A
Authority: CN
Inventors: 吴志勇; 刘良琪
Original assignee: Shenzhen International Graduate School of Tsinghua University
Current assignee: Shenzhen International Graduate School of Tsinghua University
Priority date: 2019-10-18
Filing date: 2019-10-18
Publication date: 2020-02-21
Anticipated expiration: 2039-10-18
Also published as: CN110827813B

Abstract

本发明提供一种基于多模态特征的重音检测方法及系统，方法包括：获取用户输入的原始语音的语音识别结果以及文本和语音的对齐信息；通过原始语音波形和对齐信息输出词级别的声学特征抽象表示；对文本中词的语言学特征进行编码，语言学特征包括词的位置、词性、词义；词级别的声学特征抽象表示和语言学特征通过卷积网络组建模重音词相对其邻居词的局部凸显性，建模原始语音的语句中的局部上下文依赖关系；将具有局部上下文依赖关系的抽象特征通过循环神经网络或者注意力机制层提取重音词和整个原始语音的语句的全局依赖关系；将具有全局依赖关系的抽象特征作为输入，输出重音分类。能自动、有效地检测出语音中的重音凸显位置，提升用户满意度。

Description

一种基于多模态特征的重音检测方法及系统

技术领域

本发明涉及重音检测技术领域，尤其涉及一种基于多模态特征的重音检测方法及系统。

背景技术

重音，是语音交互过程中说话人着重强调的逻辑重点或感情重点。重音的感知与检测在人机交互领域具有非常广泛的应用前景，如在人机口语对话系统中，可以根据检测出的重音单词正确理解语义和用户的真实意图。

最早的重音检测系统最简单的方法就是对焦点单词进行手工标注，此种方法的优点是焦点标注的准确率比较高，也更加符合人的听觉感知，缺点是通常需要耗费大量的人力，并且不同的人标注的结果也会不一样。现有技术也提出通过计算原始语音与合成语音的基频(F0)差值来检测重音，但阈值的选取过大或过小会对检测产生较大影响。

现有技术还公开了一种汉语口语重音自动检测的方法，该方法首先将语音文件结合原始朗读文本划分为多个音节，然后从切分的音节中提取帧级别的声学特征，并通过统计学的方式获取音节级的声学特征，最后通过传统的机器学习方法如支持向量机对重音进行检测。

传统的重音检测模型主要存在以下几个方面的问题：(1)传统的重音检测方法没有有效的利用特征序列的上下文信息，重音是语音中的局部凸显性，高度依赖于其所处的上下文；(2)只考虑了单一模态的信息对重音进行检测，也即仅利用到语音中的声学信息；(3)直接通过统计的方式将帧级别的声学特征映射为词级别的声学特征，损失大量的有效信息。由于这几方面的问题影响了目前重音检测的准确率和召回率。

发明内容

本发明为了解决现有的问题，提供一种基于多模态特征的重音检测方法及系统。

为了解决上述问题，本发明采用的技术方案如下所述：

一种基于多模态特征的重音检测方法，包括如下步骤：S1：获取用户输入的原始语音的语音识别结果以及文本和语音的对齐信息；S2：通过原始语音波形和所述对齐信息输出词级别的声学特征抽象表示；S3：对所述文本中词的语言学特征进行编码，所述语言学特征包括词的位置、词性、词义；S4：所述词级别的声学特征抽象表示和所述语言学特征通过卷积网络组建模重音词相对其邻居词的局部凸显性，建模所述原始语音的语句中的局部上下文依赖关系；S5：将具有局部上下文依赖关系的所述声学特征抽象表示通过循环神经网络或者注意力机制层提取重音词和整个所述原始语音的语句的全局依赖关系；S6：将具有全局依赖关系的抽象特征作为输入，输出重音分类。

优选地，通过原始语音波形和所述对齐信息输出词级别的声学特征抽象表示包括如下步骤：S21：从原始语音波形中提取出帧级别的声学特征，所述帧级别的声学特征包括频谱参数、基频参数、能量参数；S22：将所述帧级别的声学特征与所述对齐信息结合，得到所述原始语音中每个词对应的若干帧的帧级别的声学特征和每个词的时长信息；S23：所述帧级别的声学特征通过空洞卷积网络获得覆盖至少两个词的感受野，然后通过平均池化层聚合为所述词级别的抽象表示。

优选地，所述卷积网络组由一组不同大小的卷积核的一维卷积滤波器组成。

优选地，将所述不同大小的卷积核的一维卷积滤波器生成的特征映射拼接在一起形成所述原始语音的语句中的局部上下文依赖关系。

优选地，所述注意力机制是自注意力机制，用于将所述原始语音的序列的每个位置关联到序列中的全部位置。

本发明还提供一种基于多模态特征的重音检测系统，包括：语音识别单元，用于获取用户输入的原始语音的语音识别结果以及文本和语音的对齐信息；声学特征提取单元，用于接收原始语音波形和所述对齐信息，输出词级别的声学特征抽象表示；语言学特征提取单元，用于对所述文本中词的语言学特征进行编码，所述语言学特征包括词的位置、词性、词义；局部依赖提取单元，用于将所述词级别的声学特征抽象表示和所述语言学特征通过卷积网络组建模重音词相对其邻居词的局部凸显性，建模所述原始语音的语句中的局部上下文依赖关系；全局依赖提取单元，用于将具有局部上下文依赖关系的所述声学特征抽象表示通过RNN或者注意力机制层提取重音词和整个语句的全局依赖关系；重音分类单元，用于将具有全局依赖关系的所述声学特征抽象表示作为输入，输出重音分类。

优选地，所述注意力机制是自注意力机制，用于将所述原始语音中序列的每个位置关联到序列中的全部位置。

优选地，所述重音分类单元是多层神经网络，所述多层神经网络是多层卷积神经网络、循环神经网络或全连接网络。

本发明再提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上任一所述方法的步骤。

本发明的有益效果为：提供一种基于多模态特征的重音检测方法及系统，首先通过语音识别技术得到语音波形对应的文本内容及对齐信息，然后利用语音信号处理技术提取帧级别的声学特征，并通过深度学习的方法映射为词级别的声学特征，同时结合文本内容中的词级别的语言学特征，从多个模态获取与重音相关的信息；通过深度学习的方法显示的建模了重音词与其邻居词的局部上下文关系，以及重音词与整个语句的全局依赖关系，最终对得到的高层次的抽象特征进行分类，判定语句中的每个词是否为重音词；本发明能自动、有效地检测出语音中的重音凸显位置，应用于智能语音交互系统中，有助于系统更好的理解用户的意图，从而做出有效的反馈，提升用户的满意度。

附图说明

图1是本发明实施例中一种基于多模态特征的重音检测方法示意图。

图2是本发明实施例中一种基于多模态特征的重音检测的模型示意图。

图3是本发明实施例中通过原始语音波形和对齐信息输出词级别的声学特征抽象表示的方法示意图。

图4是本发明实施例中一种基于多模态特征的重音检测系统的示意图。

图5是本发明实施例中声学特征提取单元的示意图。

图6是本发明实施例中局部依赖提取单元的示意图。

具体实施方式

为了使本发明实施例所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

需要说明的是，当元件被称为“固定于”或“设置于”另一个元件，它可以直接在另一个元件上或者间接在该另一个元件上。当一个元件被称为是“连接于”另一个元件，它可以是直接连接到另一个元件或间接连接至该另一个元件上。另外，连接既可以是用于固定作用也可以是用于电路连通作用。

需要理解的是，术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明实施例和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多该特征。在本发明实施例的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

本发明中涉及的缩略语和关键术语定义：

多模态：重音检测中，利用到多种不同来源或者形式的信息，如文本以及语音。每一种信息的来源或者形式，都可以称为一种模态。

空洞卷积网络：是一种特殊的卷积操作，卷积核以特定步数跳过输入值，从而扩大感受野。

卷积网络组:包含不同大小卷积核的卷积神经网络。

自注意力机制：注意力机制中的一种，通过关联每个词和句子中的所有词，学习句子内部的词依赖关系，捕获句子的内部结构。

语音识别单元：接收原始语音波形数据作为输入，输出语音波形对应的文本内容以及切分信息(文本中每个词对应的语音起始端点，终止端点以及时长信息)。

声学特征提取单元：接收原始语音波形数据和语音识别单元输出的切分信息作为输入，利用语音信号处理提取帧级别的频谱特征，基频特征以及能量特征等，并通过统计学或空洞卷积网络中等深度学习的方式将帧级别的声学特征映射为词级别的声学特征。

语言学特征提取单元：接收语音识别单元输出的文本作为输入，输出词性，词位置以及词嵌入表示等抽象特征用于重音检测。

局部依赖提取单元：接收声学特征提取模块和语言学特征提取单元所提取的词级别的多模态特征，通过多层卷积网络组等卷积神经网络建模语句中的局部上下文依赖关系。

全局依赖提取单元：接收局部依赖提取单元提取的具有局部上下文关系的抽象特征作为输入，通过循环神经网络,自注意力机制等建模重音词在语句中的全局依赖关系。

重音分类单元:接收全局依赖提取单元提取的具有局部以及全局上下文信息的高层次的抽象特征作为输入，输出重音分类。重音分类单元可用多层神经网络来实现。

如图1所示，本发明提供一种基于多模态特征的重音检测方法，包括如下步骤：

S1：获取用户输入的原始语音的语音识别结果以及文本和语音的对齐信息；

S2：通过原始语音波形和所述对齐信息输出词级别的声学特征抽象表示；

S3：对所述文本中词的语言学特征进行编码，所述语言学特征包括词的位置、词性、词义；

S4：所述词级别的声学特征抽象表示和所述语言学特征通过卷积网络组建模重音词相对其邻居词的局部凸显性，建模所述原始语音的语句中的局部上下文依赖关系；

S5：将具有局部上下文依赖关系的所述声学特征抽象表示通过循环神经网络(Recurrent Neural Network,RNN)或者注意力机制层提取重音词和整个所述原始语音的语句的全局依赖关系；

S6：将具有全局依赖关系的抽象特征作为输入，输出重音分类。

关于上下文信息，本发明重点在于建模出重音词的局部上下文信息和全局上下文信息，也可采用其他的神经网络实现。关于从帧级别的声学特征得到词级别的声学特征，本发明重点在于，如何从不固定长度的帧级别的特征得到保留足够有效信息的固定长度的词级别的声学特征的抽象表示，可用其他类型的卷积神经网络代替空洞卷积神经网络，可用其他池化层代替平均池化层，或者通过自编码器等方式获得词级别的声学特征的抽象表示。重音检测也可认为是回归问题进行预测。

如图2所示，传统重音检测的方法仅仅利用到单个模态的信息，也即仅利用到语音中的声学特征，本发明联合利用文本和语音等多个模态的信息，能够更好的对重音进行检测。研究表明重音在词级别的检测最有效，如何将帧级别的声学特征映射为词级别的声学特征并且不损失大量的信息是一个值得研究的问题。传统的方法直接通过统计的方式，将帧级别的声学特征在每个词范围内的最大值，最小值，均值，变化范围差值，标准差等统计指标作为词级别的声学特征，这种统计学的方式实际上会损失大量的有效信息。本发明通过神经网络自动学习到将若干帧的声学特征压缩为固定长度的词级别的声学特征的映射，能够有效的避免这一问题。同时，基于目前的研究缺乏对重音词局部凸显性的显示建模，提出通过不同卷积核大小的卷积层分别建模出重音词和其邻居词的局部上下文依赖关系，并通过循环神经网络或自注意力机制进一步建模重音词在语句中的全局上下文关系。

如图3所示，通过原始语音波形和所述对齐信息输出词级别的声学特征抽象表示包括如下步骤：

S21：从原始语音波形中提取出帧级别的声学特征，所述帧级别的声学特征包括频谱参数、基频参数、能量参数；

S22：将所述帧级别的声学特征与所述对齐信息结合，得到所述原始语音中每个词对应的若干帧的帧级别的声学特征；

S23：所述帧级别的声学特征通过空洞卷积网络获得覆盖至少两个词的感受野，然后通过平均池化层聚合为所述词级别的抽象表示。

在本发明的一种实施例中，卷积网络组由一组不同大小的卷积核的一维卷积滤波器组成，将所述不同大小的卷积核的一维卷积滤波器生成的特征映射拼接在一起形成所述原始语音的语句中的局部上下文依赖关系。

在本发明的一种实施例中，注意力机制是自注意力机制，用于将所述原始语音的序列的每个位置关联到序列中的全部位置。

如图4所示，本发明还提供一种基于多模态特征的重音检测系统，包括：

语音识别单元，用于获取用户输入的原始语音的语音识别结果以及文本和语音的对齐信息；

声学特征提取单元，用于接收原始语音波形和所述对齐信息，输出词级别的声学特征抽象表示；

语言学特征提取单元，用于对所述文本中词的语言学特征进行编码，所述语言学特征包括词的位置、词性、词义；

局部依赖提取单元，用于将所述词级别的声学特征抽象表示和所述语言学特征通过卷积网络组建模重音词相对其邻居词的局部凸显性，建模所述原始语音的语句中的局部上下文依赖关系；

全局依赖提取单元，用于将具有局部上下文依赖关系的所述声学特征抽象表示通过RNN或者注意力机制层提取重音词和整个语句的全局依赖关系；

重音分类单元，用于将具有全局依赖关系的所述声学特征抽象表示作为输入，输出重音分类。

具体的，语音识别单元通过语音识别技术获得用户输入的原始语音数据的语音识别结果(文本内容)以及文本和语音的对齐信息。这里的语音识别技术可以采用现有技术中可行的技术。

如图5所示，对于声学特征提取单元，输入原始语音波形和对齐信息，输出词级别的声学特征抽象表示。首先从原始语音波形中提取出帧级别的声学特征(频谱参数，基频参数，能量参数等)，帧级别的声学特征可通过空洞卷积网络获得足够大的感受野(语音的帧数较多)，一般覆盖2个词以上；然后通过平均池化层聚合为词级别的抽象表示，而不是简单通过统计的方式将帧级别的声学特征聚合为词级别的声学特征，从而能够充分的利用到语音中包含的信息。

语言学特征提取单元将词的位置，词性,词义等语言学特征通过多层神经网络进行编码。联合文本和语音的信息，能够获取鲁棒的特征表达。

如图6所示，局部依赖提取模块：输入词级别的声学特征和语言学特征，通过卷积网络组建模重音词相对其邻居词的局部凸显性，当卷积核的大小为1时，关注当前词；当卷积核的大小为2时，关注前一个词和当前词，当卷积核的大小为3时，关注当前词，前一个词，后一个词；通过这种方式建模出重音词与其邻居词的局部上下为关系

卷积网络组由一组不同大小(从1到K)卷积核的一维卷积滤波器组成，从而显示的建模出重音词与其邻居词类似一元文法，二元文法，三元文法等的上下文信息，然后将不同大小卷积核的卷积滤波器生成的特征映射拼接在一起。

重音分类单元为多层神经网络。具体可用多层卷积神经网络、循环神经网络或全连接网络来实现。通过若干层全连接神经网络，得到是重音词以及不是重音词的分数，并通过softmax函数进行归一化，得到是重音词以及不是重音词的概率，根据概率设定阈值最终判定语句中的每一个词是否是重音词。

在使用本发明的方法和系统时，用户只需提供原始的语音波形作为输入。系统接受原始语音作为输入后，会输出该语音所对应的每个词的重音标签，也即该词是重音词或不是重音词。

重音检测，可应用在智能语音交互系统中，用户输入语音，如果只根据语音对应的文本进行分析和反馈是不够的，文本中可能存在歧义，如

案例1:迪士尼乐园(【重音】)有蹦床吗？

案例2:迪士尼乐园有(蹦床【重音】)吗？

两段用户语音输入对应相同的文本内容，但意图上是有所侧重的，如果如果迪士尼乐园有蹦床，那么系统自然会给出“迪士尼乐园有蹦床”这一积极的反馈，但是如果迪士尼乐园没有蹦床，系统仅仅给出“迪士尼乐园没有蹦床”的负面反馈是不够的，实际上用户需要更多相关的信息。通过用户输入的语音检测出重音单词，可以进一步的明确用户着重强调的部分，从而更加明确用户的意图，给出进一步的反馈。

对于案例1用户强调“迪士尼乐园”，用户意图侧重是去迪士尼乐园，通过重音的分析，系统可额外告知用户迪士尼乐园其他的娱乐运动和项目；对于案例2，用户强调“蹦床”，用户的意图侧重是去玩蹦床，同理，系统首先反馈给用户迪士尼乐园没有蹦床，并进一步告知用户迪士尼乐园附近有哪些地方有蹦床。

因此，通过本发明的重音检测能够更好的明确用户的意图，从而给出更有效的反馈。

本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

本发明提出了基于多模态特征的重音检测方法。相比于现有方法，本方案有以下三点优势：

1.同时从语音和文本等多个模态获取和重音相关的特征。联合文本和语音的信息，获取鲁棒的特征表达

2.分别显示地建模了重音词与其邻居词的局部上下文关系，以及重音词与整个语句的全局依赖关系。

3.通过空洞卷积网络和平均池化层，有效的学习了从帧级别的声学特征到词级别的声学特征的映射。

以上内容是结合具体的优选实施方式对本发明所做的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围。

Claims

1.一种基于多模态特征的重音检测方法，其特征在于，包括如下步骤：

S5：将具有局部上下文依赖关系的所述声学特征抽象表示通过循环神经网络或者注意力机制层提取重音词和整个所述原始语音的语句的全局依赖关系；

2.如权利要求1所述的基于多模态特征的重音检测方法，其特征在于，通过原始语音波形和所述对齐信息输出词级别的声学特征抽象表示包括如下步骤：

S22：将所述帧级别的声学特征与所述对齐信息结合，得到所述原始语音中每个词对应的若干帧的帧级别的声学特征以及每个词的时长信息；

3.如权利要求1所述的基于多模态特征的重音检测方法，其特征在于，所述卷积网络组由一组不同大小的卷积核的一维卷积滤波器组成。

4.如权利要求3所述的基于多模态特征的重音检测方法，其特征在于，将所述不同大小的卷积核的一维卷积滤波器生成的特征映射拼接在一起形成所述原始语音的语句中的局部上下文依赖关系。

5.如权利要求1所述的基于多模态特征的重音检测方法，其特征在于，所述注意力机制是自注意力机制，用于将所述原始语音的序列的每个位置关联到序列中的全部位置。

6.一种基于多模态特征的重音检测系统，其特征在于，包括：

局部依赖提取单元，用于将所述词级别的声学特征抽象表示和所述词级别的语言学特征通过卷积网络组建模重音词相对其邻居词的局部凸显性，建模所述原始语音的语句中的局部上下文依赖关系；

全局依赖提取单元，用于将具有局部上下文依赖关系的所述声学特征抽象表示通过循环神经网络或者注意力机制层提取重音词和整个语句的全局依赖关系；

7.如权利要求6所述的基于多模态特征的重音检测系统，其特征在于，所述卷积网络组由一组不同大小的卷积核的一维卷积滤波器组成。

8.如权利要求6所述的基于多模态特征的重音检测系统，其特征在于，所述注意力机制是自注意力机制，用于将所述原始语音中词序列的每个位置关联到序列中的全部位置。

9.如权利要求6所述的基于多模态特征的重音检测系统，其特征在于，所述重音分类单元是多层神经网络，所述多层神经网络是多层卷积神经网络、循环神经网络或全连接网络。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5任一所述方法的步骤。