CN114267347A

CN114267347A - 一种基于智能语音交互的多模态拒识方法和系统

Info

Publication number: CN114267347A
Application number: CN202111282240.1A
Authority: CN
Inventors: 李向阳; 谢志华; 王满红
Original assignee: Huizhou Desay SV Automotive Co Ltd
Current assignee: Huizhou Desay SV Automotive Co Ltd
Priority date: 2021-11-01
Filing date: 2021-11-01
Publication date: 2022-04-01

Abstract

本发明涉及人机语音交互技术领域，提供一种基于智能语音交互的多模态拒识方法和系统，提取语音交互过程中语音指令对应的音频信息、语音识别后的文本信息以及同步捕捉到的视觉信息等几种不同模态的异构信息作为多模态数据输入，根据预设融合算法完成异构数据信息的融合，得到融合特征向量代入预设评分规则，获取直观且全面的目标拒识概率，根据目标拒识概率即可直接判断是否执行拒识操作；通过融合多种模态的信息(语音、文本、视频)，扩大了语音拒识的信息输入范围，多种模态的信息相互补充、相互增强，从而大大提升拒识的准确度，进而大大提升语音交互系统的可用性和用户体验。

Description

一种基于智能语音交互的多模态拒识方法和系统

技术领域

本发明涉及人机语音交互技术领域，尤其涉及一种基于智能语音交互的多模态拒识方法和系统。

背景技术

在语音交互过程中，在对话交互期间，尤其是诸如全双工的连续语音对话等场景，能够使用户唤醒一次后可以连续输入语音指令，同时可以边听边说，随时打断，以及支持基于上下文理解的多轮对话能力等，从而给用户带来更好的体验。但由于在全双工场景下，为等待用户的语音输入，麦克风一直处于拾音状态，这就会将周围所有的一揽子声音全部录入，比如环境噪声、周围人的说话声等无效人声，导致非目标的语音输入都会被识别，从而造成语音交互系统的误识别，极大地降低可用性和用户体验。所以就需要对这部分非目标输入的声音信号进行处理，背景的噪音可以通过VAD(活动音检测)来进行滤除，而无效人声就是拒识的处理对象。所谓拒识，顾名思义就是拒绝识别，对语音交互系统中非目标的语音输入进行拒绝识别，就是对其不进行响应。

在市面上常见的语音交互系统中，常见的有基于场景的技术方案和基于策略的技术方案。

基于场景的技术方案，总体上分为两种，一种是基于多音区的拒识方案，这种方案依赖声音中的声源定位技术，另一种是基于语义的场景拒识，主要是通过针对目标场景设计与场景对应的意图的集合，新的语音指令经过语义分析后，如果对应的意图在先前设计的意图的有限集合内，则走正常的语音交互流程，否则进行拒识。因此，基于语义的场景拒识高度依赖于语音识别。

而策略拒识，则是通过提取一系列语音交互过程中的特征，基于这些特征进行拒识策略的设计，这些特征往往是一些可解释性比较强的人工抽取的特征，可能来自语音也可能来自文本的语义。上述基于场景拒识的方法，其信息来自于一种模态，即语音或者经过语音识别之后的文本的语义，并且是基于分析引擎处理之后的单一维度的信息。而基于策略的拒识方案，其特征也是通过人工抽取的具有可解释性的有限维度的特征，并且策略拒识中，策略的设计往往会存在不同特征之间的冲突，比较难以处理。因此，策略拒识中的各个特征存在较大的前端依赖性。

发明内容

本发明提供一种基于智能语音交互的多模态拒识方法和系统，解决了现有的拒识策略过于依赖语音识别的前端设备，识别依据单一，拒识准确率较低的技术问题。

为解决以上技术问题，本发明提供一种基于智能语音交互的多模态拒识方法，包括步骤：

S1、从语音交互中获取包含语音指令的音频信息，并采集相关的视觉信息；

S2、根据预设特征提取算法处理所述音频信息，得到中间特征向量；从所述视觉信息中提取出对应的视觉特征；

S3、根据所述中间特征向量，获取对应的文本指令、语音高维表征向量、语音高阶信息向量；

S4、识别所述文本指令，获取的文本高维语义向量、语义高阶特征；

S5、将所述语音高维表征向量、所述文本高维语义向量、所述语音高阶信息向量、所述语义高阶特征和所述视觉特征代入预设融合算法，输出融合特征向量；

S6、将所述融合特征向量代入预设评分规则，计算出目标拒识概率并确定是否执行拒识操作。

本基础方案提取语音交互过程中语音指令对应的音频信息、语音识别后的文本信息以及同步捕捉到的视觉信息等几种不同模态的异构信息作为多模态数据输入，进而通过采用不同的、适合于对应模态的神经网络结构提取出对应模态信息的隐藏语义表征，即语音高维表征向量、文本高维语义向量、语音高阶信息向量、语义高阶特征和视觉特征；随后根据预设融合算法完成异构数据信息的融合，得到融合特征向量代入预设评分规则，获取直观且全面的目标拒识概率，根据目标拒识概率即可直接判断是否执行拒识操作。通过融合多种模态的信息(语音、文本、视频)，扩大了语音拒识的信息输入范围，多种模态的信息相互补充、相互增强，从而大大提升拒识的准确度，进而大大提升语音交互系统的可用性和用户体验。

在进一步的实施方案中，所述步骤S2包括：

S21、根据预设特征提取算法对获取到的所述包含语音指令的音频信息进行音频处理，得到目标特征向量，作为中间特征向量；

S22、采用神经网络结构处理所述视觉信息，从中提取出对应的视觉特征；

所述预设特征提取算法包括预加重、分帧、加窗、FFT、Mel滤波器组滤波、log变换、DCT解卷积；

所述神经网络结构为P3D+LSTM网络，或ImageNet网络。

本方案在获取到原始的包含语音指令的音频信息后，采用常规的特征提取算法对语音指令进行音频处理，初步得到目标特征向量，作为中间特征向量，一方面是语音模态下特征提取的必要过程，另一方面则是为文本模态的特征抽取提供可识别的基础数据；在获取到视觉信息后，直接采用神经网络结构即可处理得到计算机可处理的离散数据张量形式的视觉特征，从而将视觉信息数据化、标准化，并引入语音交互过程中的拒识判断中，进一步提高输入数据的多样性、拒识准确率。

在进一步的实施方案中，所述步骤S3包括：

S31、采用语音识别模型识别所述中间特征向量，得到对应的文本指令；

S32、采用CNN+LSTM网络结构对所述中间特征向量进行进一步的抽象表征提取，得到语音高维表征向量；

S33、根据所述中间特征向量获取语音高阶信息向量；

所述语音高阶信息向量包括音量值、信噪比、语速。

本方案以包含语音指令的音频信息为基础信息，采用CNN+LSTM网络结构对所述中间特征向量进行抽象表征提取，直接从中提取出对应语音模态下的语音高维表征向量、语音高阶信息向量，通过隐藏语义表征(以计算机可处理的离散数据张量的形式存在)的提取将虚拟的语音数据化、书面化，从而使得计算机等处理器可代替人工完成智能识别工作。

在进一步的实施方案中，所述步骤S4包括：

S41、获取预设阶段内的历史文本指令，与当前获取到的所述文本指令拼接，得到拼接文本指令；

S42、将所述拼接文本指令输入Bert预训练模型中进行特征提取，得到文本高维语义向量；

S43、采用自然语言理解技术对所述文本指令进行理解、解析，得到语义高阶特征；

所述语义高阶特征包括Domain得分和Intent得分。

本方案对包含语音指令的音频信息进行语音识别后得到对应的文本指令，使得指令书面化，通过对预设阶段内的历史文本指令与当前获取到的文本指令拼接识别，以及利用Bert预训练模型得到文本高维语义向量、采用自然语言理解技术得到语义高阶特征，将文本数据转换为向量数据，使得计算机可直接从向量数据中获取来自于文本数据当中的语言特性。

在进一步的实施方案中，所述步骤S5包括：

S51、采用深度神经网络融合所述语音高维表征向量和所述文本高维语义向量，得到第一融合信息向量；

S52、将所述第一融合信息向量与所述语音高阶信息向量、所述语义高阶特征进行融合或拼接，得到第二融合信息向量；

S53、采用深度神经网络融合所述第二融合信息向量和所述视觉特征，得到融合特征向量。

在进一步的实施方案中，所述步骤S6包括：

S61、将所述融合特征向量从高纬度映射为目标维度的目标特征向量；

S62、对所述目标特征向量进行归一化处理，将输出值作为目标拒识概率；

S63、判断所述目标拒识概率是否大于预设阈值，若是则确定执行拒识操作，若否则执行语音交互响应。

本方案在获取到融合特征向量之后，依次进行降维处理、归一化处理，将原本的高维向量转化为具备代表性的目标拒识概率，由于其处于0～1之间的值，也可直接设置预设阈值，作为拒识判断标准，从而有效提高拒识准确率。

本发明还提供一种基于智能语音交互的多模态拒识系统，包括依次连接的特征提取模块、异构信息融合模块和拒识判决模块；

所述特征提取模块用于根据预设特征提取算法识别获取到的包含语音指令的音频信息，获取语音高维表征向量、文本高维语义向量、语音高阶信息向量、语义高阶特征，并从获取到的视觉信息中提取出视觉特征；

所述异构信息融合模块用于根据预设融合算法，融合所述语音高维表征向量、所述文本高维语义向量、所述语音高阶信息向量、所述语义高阶特征和所述视觉特征，输出融合特征向量；

所述拒识判决模块用于根据预设评分规则和所述融合特征向量，计算出目标拒识概率并确定是否执行拒识操作。

在进一步的实施方案中，所述特征提取模块包括语音特征提取模块、文本特征提取模块和视觉特征提取模块；

所述语音特征提取模块用于根据预设特征提取算法处理所述音频信息，得到中间特征向量；用于采用CNN+LSTM网络结构对所述中间特征向量进行进一步的抽象表征提取，得到语音高维表征向量；还用于识别所述中间特征向量，获取语音高阶信息向量；

所述文本特征提取模块用于采用语音识别模型识别所述中间特征向量，得到对应的文本指令；结合当前的所述文本指令与历史文本指令并识别，从中提取出文本高维语义向量和语义高阶特征；

所述视觉特征提取模块用于从所述视觉信息中提取出对应的视觉特征。

在进一步的实施方案中，所述拒识判决模块包括连接的全链接隐藏层和Softmax激活层；

所述全链接隐藏层用于将所述融合特征向量从高纬度映射为目标维度的目标特征向量；

所述Softmax激活层用于对所述目标特征向量进行归一化处理，将输出值作为目标拒识概率。

在进一步的实施方案中，所述语音高阶信息向量包括音量值、信噪比、语速；所述语义高阶特征包括Domain得分和Intent得分。

附图说明

图1是本发明实施例提供的一种基于智能语音交互的多模态拒识方法的系统流程图；

图2是本发明实施例提供的预设特征提取算法的工作流程图；

图3是本发明实施例提供的一种基于智能语音交互的多模态拒识方法的工作流程图；

图4是本发明实施例提供的一种基于智能语音交互的多模态拒识系统的系统框架图。

具体实施方式

下面结合附图具体阐明本发明的实施方式，实施例的给出仅仅是为了说明目的，并不能理解为对本发明的限定，包括附图仅供参考和说明使用，不构成对本发明专利保护范围的限制，因为在不脱离本发明精神和范围基础上，可以对本发明进行许多改变。

实施例1

本发明实施例提供的一种基于智能语音交互的多模态拒识方法和系统，如图1、图3所示，在本实施例中，包括步骤S1～S6：

S2、根据预设特征提取算法处理音频信息，得到中间特征向量；从视觉信息中提取出对应的视觉特征；包括步骤S21～S22：

S21、根据预设特征提取算法对获取到的音频信息进行音频处理，得到的目标特征向量，作为中间特征向量；

在本实施例中，目标特征向量包括但不限于MFCC(梅尔频率倒谱系数)类型、FBANK(Filter bank)类型的特征向量。

S22、采用神经网络结构处理视觉信息，从中提取出对应的视觉特征。

在本实施例中，可采用P3D+LSTM网络处理视觉信息，或者采用前置图像处理的预训练模型(如ImageNet等神经网络结构)，方便更丰富特征的提取。

参见图2，预设特征提取算法包括预加重、分帧、加窗、FFT、Mel滤波器组滤波、log变换、DCT(离散余弦变换)解卷积；

神经网络结构包括但不限于P3D+LSTM网络、ImageNet网络。

本实施例在获取到原始的包含语音指令的音频信息后，采用常规的特征提取算法对音频信息进行音频处理，初步得到目标特征向量，作为中间特征向量，一方面是语音模态下特征提取的必要过程，另一方面则是为文本模态的特征抽取提供可识别的基础数据；在获取到视觉信息后，直接采用神经网络结构即可处理得到计算机可处理的离散数据张量形式的视觉特征，从而将视觉信息数据化、标准化，并引入语音交互过程中的拒识判断中，进一步提高输入数据的多样性、拒识准确率。

S3、根据中间特征向量，获取对应的文本指令、语音高维表征向量、语音高阶信息向量，包括步骤S31～S33：

S31、采用语音识别模型识别中间特征向量，得到对应的文本指令；

其中，语音识别模型主体包括但不限于声学模型、语言模型和解码。

S32、采用CNN(卷积神经网络)+LSTM(长短期记忆网络)网络结构的Encoder层对中间特征向量进行进一步的抽象表征提取，得到语音高维表征向量。

其中，CNN(卷积神经网络)对于一段输入信息来说，对局部(单层网络)和全局(多层网络堆叠)关键信息比较有效，而LSTM(长短期记忆网络)网络对于提取时序信号的特征具有较好效果。

在其它实施例中，可根据需要选择与CNN、LSTM具备相似功能的深度学习网络结构完成进一步的抽象表征提取。

S33、以One-hot的形式对中间特征向量进行编码和向量化后，获取语音高阶信息向量；

语音高阶信息向量包括但不限于音量值、信噪比、语速。

本实施例以包含语音指令的音频信息为基础信息，采用CNN+LSTM网络结构对中间特征向量进行抽象表征提取，直接从中提取出对应语音模态下的语音高维表征向量、语音高阶信息向量，通过隐藏语义表征(以计算机可处理的离散数据张量的形式存在)的提取将虚拟的语音数据化、书面化，从而使得计算机等处理器可代替人工完成智能识别工作。

S4、识别文本指令，获取的文本高维语义向量、语义高阶特征，包括步骤S41～S43：

S41、获取预设阶段内的历史文本指令，与当前获取到的文本指令拼接，得到拼接文本指令；

其中，预设阶段可根据需要进行设置，例如仅获取前次交互历史文本指令。

S42、将拼接文本指令输入Bert预训练模型中进行特征提取，得到文本高维语义向量；

在其它实施例中，也可根据需要选择与Bert预训练模型功能类似的神经网络模型进行文本特征提取。

S43、采用自然语言理解技术对文本指令进行理解、解析，得到语义高阶特征；

语义高阶特征包括但不限于Domain得分和Intent得分。具体地，采用NLU引擎分析文本指令得到的语义结果，进而从语义结果中提取出文本指令所属的Domain得分和Intent得分，并以one-hot的形式对其进行编码得到语义高阶特征。

本实施例对包含语音指令的音频信息进行语音识别后得到对应的文本指令，使得指令书面化，通过对预设阶段内的历史文本指令与当前获取到的文本指令拼接识别，以及利用Bert预训练模型得到文本高维语义向量、采用自然语言理解技术得到语义高阶特征，将文本数据转换为向量数据，使得计算机可直接从向量数据中获取来自于文本数据当中的语言特性。

S5、将语音高维表征向量、文本高维语义向量、语音高阶信息向量、语义高阶特征和视觉特征代入预设融合算法，输出融合特征向量，包括步骤S51～S53：

S51、采用深度神经网络融合语音高维表征向量和文本高维语义向量，得到第一融合信息向量；

S52、将第一融合信息向量与语音高阶信息向量、语义高阶特征进行融合或拼接，得到第二融合信息向量；

S53、采用深度神经网络融合第二融合信息向量和视觉特征，得到融合特征向量。

以上三段融合均可采用如Attention机制的深度神经网络实现。

S6、将融合特征向量代入预设评分规则，计算出目标拒识概率并确定是否执行拒识操作，包括步骤S61～S63：

S61、将融合特征向量从高纬度映射为目标维度的目标特征向量；

在本实施例中，目标维度为二维。

S62、对目标特征向量进行归一化处理，将输出值作为目标拒识概率；

S63、判断目标拒识概率是否大于预设阈值，若是则确定执行拒识操作，若否则执行语音交互响应。

本实施例在获取到融合特征向量之后，依次进行降维处理、归一化处理，将原本的高维向量转化为具备代表性的目标拒识概率，由于其处于0～1之间的值，也可直接设置预设阈值，作为拒识判断标准，从而有效提高拒识准确率。

本发明实施例提取语音交互过程中语音指令对应的音频信息、语音识别后的文本信息以及同步捕捉到的视觉信息等几种不同模态的异构信息作为多模态数据输入，进而通过采用不同的、适合于对应模态的神经网络结构提取出对应模态信息的隐藏语义表征，即语音高维表征向量、文本高维语义向量、语音高阶信息向量、语义高阶特征和视觉特征；随后根据预设融合算法完成异构数据信息的融合，得到融合特征向量代入预设评分规则，获取直观且全面的目标拒识概率，根据目标拒识概率即可直接判断是否执行拒识操作。通过融合多种模态的信息(语音、文本、视频)，扩大了语音拒识的信息输入范围，多种模态的信息相互补充、相互增强，从而大大提升拒识的准确度，进而大大提升语音交互系统的可用性和用户体验。

实施例2

本发明实施例附图的附图标记包括：特征提取模块1，语音特征提取模块11、文本特征提取模块12、视觉特征提取模块13；异构信息融合模块2；拒识判决模块3，全链接隐藏层31、Softmax激活层32。

本发明还提供一种基于智能语音交互的多模态拒识系统，参见图4，包括依次连接的特征提取模块1、异构信息融合模块2和拒识判决模块3；

特征提取模块1用于根据预设特征提取算法识别获取到的包含语音指令的音频信息，获取语音高维表征向量、文本高维语义向量、语音高阶信息向量、语义高阶特征，并从获取到的视觉信息中提取出视觉特征；

其中，包含语音指令的音频信息为从麦克风采集到的语音信号；此时，视觉信息采集设备(如监控摄像头)将同步采集对应时间段内的视觉信息。

异构信息融合模块2用于根据预设融合算法，融合语音高维表征向量、文本高维语义向量、语音高阶信息向量、语义高阶特征和视觉特征，输出融合特征向量；

拒识判决模块3用于根据预设评分规则和融合特征向量，计算出目标拒识概率并确定是否执行拒识操作。

在本实施例中，特征提取模块1包括语音特征提取模块11、文本特征提取模块12和视觉特征提取模块13；

语音特征提取模块11用于根据预设特征提取算法处理音频信息，得到中间特征向量；用于采用CNN+LSTM等深度学习网络结构对中间特征向量进行进一步的抽象表征提取，得到语音高维表征向量；还用于识别中间特征向量，获取语音高阶信息向量。

文本特征提取模块12用于采用语音识别模型识别中间特征向量，得到对应的文本指令；结合当前的文本指令与历史文本指令并识别，从中提取出文本高维语义向量和语义高阶特征；

视觉特征提取模块13用于从视觉信息中提取出对应的视觉特征。

在本实施例中，拒识判决模块3包括连接的全链接隐藏层31和Softmax激活层32；

全链接隐藏层31用于将融合特征向量从高纬度映射为目标维度的目标特征向量；

Softmax激活层32用于对目标特征向量进行归一化处理，将输出值作为目标拒识概率。

在本实施例中，语音高阶信息向量包括但不限于音量值、信噪比、语速；语义高阶特征包括但不限于Domain得分和Intent得分。

本实施例所提供的拒识系统采用各个模块实现拒识方法中的各个步骤，为拒识方法提供硬件基础，便于方法实施。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于智能语音交互的多模态拒识方法，其特征在于，包括步骤：

2.如权利要求1所述的一种基于智能语音交互的多模态拒识方法，其特征在于，所述步骤S2包括：

S21、根据预设特征提取算法对获取到的所述音频信息进行音频处理，得到目标特征向量，作为中间特征向量；

所述神经网络结构为P3D+LSTM网络，或ImageNet网络。

3.如权利要求2所述的一种基于智能语音交互的多模态拒识方法，其特征在于，所述步骤S3包括：

S33、根据所述中间特征向量获取语音高阶信息向量；

所述语音高阶信息向量包括音量值、信噪比、语速。

4.如权利要求1所述的一种基于智能语音交互的多模态拒识方法，其特征在于，所述步骤S4包括：

所述语义高阶特征包括Domain得分和Intent得分。

5.如权利要求1所述的一种基于智能语音交互的多模态拒识方法，其特征在于，所述步骤S5包括：

6.如权利要求1所述的一种基于智能语音交互的多模态拒识方法，其特征在于，所述步骤S6包括：

7.一种基于智能语音交互的多模态拒识系统，其特征在于：包括依次连接的特征提取模块、异构信息融合模块和拒识判决模块；

8.如权利要求7所述的一种基于智能语音交互的多模态拒识系统，其特征在于：所述特征提取模块包括语音特征提取模块、文本特征提取模块和视觉特征提取模块；

9.如权利要求8所述的一种基于智能语音交互的多模态拒识系统，其特征在于：所述拒识判决模块包括连接的全链接隐藏层和Softmax激活层；

10.如权利要求8所述的一种基于智能语音交互的多模态拒识系统，其特征在于：所述语音高阶信息向量包括音量值、信噪比、语速；所述语义高阶特征包括Domain得分和Intent得分。