CN107240398A

CN107240398A - 智能语音交互方法及装置

Info

Publication number: CN107240398A
Application number: CN201710538745.7A
Authority: CN
Inventors: 李深安; 马军涛; 王兴宝; 庄纪军; 王雪初; 孔祥星; 韩后岳
Original assignee: iFlytek Co Ltd
Current assignee: Beijing Xunfei Jizhi Technology Co ltd
Priority date: 2017-07-04
Filing date: 2017-07-04
Publication date: 2017-10-10
Anticipated expiration: 2037-07-04
Also published as: CN107240398B

Abstract

本发明公开了一种智能语音交互方法及装置，该方法包括：获取人机交互语音数据，对人机交互语音数据进行语义理解，得到当前语义理解结果，然后判断当前语义理解结果是否可信，并对可信语义理解结果做出响应，当语义理解结果不可信时，基于存储的人人交互数据的相关信息对当前语义理解结果进行校正，得到校正后的语义理解结果，然后对所述校正后的语义理解结果做出响应。由于现有车载环境下的智能交互方法，只利用了人机交互信息，然而车内用户与其他乘客交谈，与他人打电话等过程中都隐含着与车机业务相关的信息，本发明采用人人交互数据的相关信息来校正人机交互中意图理解，提高对人机交互语音理解的正确率，提升用户体验。

Description

智能语音交互方法及装置

技术领域

本发明涉及语音信号处理领域，具体涉及一种智能语音交互方法及装置。

背景技术

随着人工智能相关技术的日益成熟，人们的生活开始走向智能化，各种智能设备逐渐进入人们的日常生活中，如智能车机。语音交互作为智能设备应用中主流的交互方式之一，其方便快捷的优势有目共睹，然而其交互的效果受环境影响较大，虽然现在已有较多成熟的技术方案提升语音交互的效果，但对于较为复杂的交互环境，其准确性还是难以得到很高的保证。如在车载环境下，受以下因素的影响：用户离车机麦克风一般有一定的距离、车载环境下存在各种噪声(如胎噪、空调噪声、外界噪声等)、用户表达多样化，对于用户的交互语音可能会做出错误的理解，从而导致车机做出错误的响应，带来较差的用户体验。

发明内容

本发明实施例提供一种智能语音交互方法及装置，以提高对人机交互语音理解的正确率，提升用户体验。

为此，本发明提供如下技术方案：

一种智能语音交互方法，所述方法包括：

获取人机交互语音数据；

对所述人机交互语音数据进行语义理解，得到当前语义理解结果；

判断所述当前语义理解结果是否可信，并对可信语义理解结果做出响应；

当语义理解结果不可信时，基于存储的人人交互数据的相关信息对所述当前语义理解结果进行校正，得到校正后的语义理解结果；然后对所述校正后的语义理解结果做出响应。

优选地，所述方法还包括：

接收交互语音数据；

判断所述交互语音数据的类型，所述交互语音数据的类型包括：人人交互数据和人机交互数据；

如果所述交互语音数据为人人交互数据，则对所述人人交互数据进行处理，并存储处理后的人人交互数据的相关信息。

优选地，所述方法还包括：预先构建语音交互环境判断模型；

所述判断所述交互语音数据的类型包括：

提取所述交互语音数据的类别特征；

将所述类别特征输入所述语音交互环境判断模型，根据所述语音交互环境判断模型的输出判断所述交互语音数据的类型。

优选地，所述类别特征包括以下任意两种或多种：是否有唤醒词、唤醒后间隔时间、与上一句时间间隔、与上一句内容的关联度、声源定位信息。

优选地，所述人人交互数据的相关信息包括：人人交互数据产生的时间信息及对人人交互数据进行处理后得到的处理结果；

所述对所述人人交互数据进行处理包括：

对所述人人交互数据进行语音识别，得到识别文本；

对所述识别文本进行语义理解，得到所述人人交互数据对应的语义理解结果；

所述存储处理后的人人交互数据的相关信息包括：

将所述人人交互数据产生的时间信息、语义理解结果存储到数据库中。

优选地，所述基于存储的人人交互数据的相关信息对所述当前语义理解结果进行校正，得到校正后的语义理解结果包括：

在所述数据库中搜索得到数条在预设时间内与所述当前语义理解结果相关的所述人人交互数据的相关信息，并将所述相关信息作为候选校准信息；

对于每个候选校准信息，依次用该候选校准信息中的各语义槽信息替换当前语义理解结果中对应的语义槽信息，得到候选语义理解结果，并计算替换得分，每个语意槽信息对应语义理解结果中的一部分；

将总替换得分最高的候选语义理解结果作为校正结果。

优选地，所述方法还包括：预先构建数据相关性判断模型；

所述在所述数据库中搜索得到数条在预设时间内与所述当前语义理解结果相关的所述人人交互数据的相关信息，并将所述相关信息作为候选校准信息包括：

将人机交互数据的识别文本的文本向量、数据库中人人交互数据的识别文本的文本向量、人人交互数据产生的时间信息和人机交互数据产生的时间信息输入所述数据相关性判断模型，得到数据库中各人人交互数据的相关信息与该人机交互数据的相关性；

将不超过设定个数的相关性最高的人人交互数据的相关信息或者相关性大于设定阈值的人人交互数据的相关信息作为候选校准信息。

优选地，所述方法还包括：预先构建语义槽替换判断模型，预先设定各语义槽的权重；

所述依次用该候选校准信息中的各语义槽信息替换当前语义理解结果中对应的语义槽信息，得到候选语义理解结果，并计算替换得分包括：

将候选校准信息中的各语义槽信息、当前语义理解结果中对应的各语义槽信息、人人交互数据产生的时间信息、人机交互数据产生的时间信息和当前车机状态输入所述语义槽替换判断模型，得到候选校准信息中的各语义槽信息替换当前语义理解结果中对应的语义槽信息的概率；

将各概率的加权和作为候选语义理解结果的得分。

优选地，所述人人交互数据包括以下任意一种或多种：

乘客交谈语音数据、乘客电话语音数据、乘客视频语音数据。

相应地，本发明还提供了一种智能语音交互装置，所述装置包括：

获取模块，用于获取人机交互语音数据；

语义理解模块，用于对所述人机交互数据进行语义理解，得到当前语义理解结果；

可信度判断模块，用于判断所述当前语义理解结果是否可信；

校正模块，用于当语义理解结果不可信时，基于存储的人人交互数据的相关信息对所述当前语义理解结果进行校正，得到校正后的语义理解结果；

响应模块，用于对可信语义理解结果做出响应或者对所述校正后的语义理解结果做出响应。

优选地，所述装置还包括：

语音接收模块，用于接收交互语音数据；

类型判断模块，用于判断所述交互语音数据的类型，所述交互语音数据的类型包括：人人交互数据和人机交互数据；

处理模块，用于在所述交互语音数据为人人交互数据时，对所述人人交互数据进行处理；

存储模块，用于存储处理后的人人交互数据的相关信息。

优选地，所述装置还包括：

语音交互环境判断模型构建模块，用于预先构建语音交互环境判断模型；

所述类型判断模块包括：

特征提取单元，用于提取所述交互语音数据的类别特征；

类型输出单元，用于将所述类别特征输入所述语音交互环境判断模型，根据所述语音交互环境判断模型的输出判断所述交互语音数据的类型。

所述处理模块包括：

文本获取单元，用于对所述人人交互数据进行语音识别，得到识别文本；

语义理解单元，用于对所述识别文本进行语义理解，得到所述人人交互数据对应的语义理解结果；

所述存储模块具体用于将所述人人交互数据产生的时间信息、语义理解结果存储到数据库中。

优选地，所述校正模块包括：

候选校准信息获取单元，用于在所述数据库中搜索得到数条在预设时间内与所述当前语义理解结果相关的所述人人交互数据的相关信息，并将所述相关信息作为候选校准信息；

替换得分计算单元，用于对于每个候选校准信息，依次用该候选校准信息中的各语义槽信息替换当前语义理解结果中对应的语义槽信息，得到候选语义理解结果，并计算替换得分，每个语意槽信息对应语义理解结果中的一部分；

校正结果获取单元，用于将总替换得分最高的候选语义理解结果作为校正结果。

优选地，所述装置还包括：

数据相关性判断模型构建模块，用于预先构建数据相关性判断模型；

所述候选校准信息获取单元包括：

相关性获取子单元，用于将人机交互数据的识别文本的文本向量、数据库中人人交互数据的识别文本的文本向量、人人交互数据产生的时间信息和人机交互数据产生的时间信息输入所述数据相关性判断模型，得到数据库中各人人交互数据的相关信息与该人机交互数据的相关性；

候选校准信息获取子单元，用于将不超过设定个数的相关性最高的人人交互数据的相关信息或者相关性大于设定阈值的人人交互数据的相关信息作为候选校准信息。

优选地，所述装置还包括：

语义槽替换判断模型构建模块，用于预先构建语义槽替换判断模型；

权重设定模块，用于预先设定各语义槽的权重；

所述替换得分计算单元包括：

替换概率获取子单元，用于将候选校准信息中的各语义槽信息、当前语义理解结果中对应的各语义槽信息、人人交互数据产生的时间信息、人机交互数据产生的时间信息和当前车机状态输入所述语义槽替换判断模型，得到候选校准信息中的各语义槽信息替换当前语义理解结果中对应的语义槽信息的概率；

候选得分获取子单元，用于将各概率的加权和作为候选语义理解结果的得分。

本发明实施例提供的智能语音交互方法及装置，在获取人机交互语音数据之后，对所述人机交互语音数据进行语义理解，得到当前语义理解结果，然后判断所述当前语义理解结果是否可信，并对可信语义理解结果做出响应，当语义理解结果不可信时，基于存储的人人交互数据的相关信息对所述当前语义理解结果进行校正，得到校正后的语义理解结果；然后对所述校正后的语义理解结果做出响应。由于现有车载环境下的智能交互方法，只利用了人机交互信息，例如上一次人机交互时的交互信息，然而车内用户与其他乘客交谈，与他人打电话等过程中都隐含着与车机业务相关的信息，本发明采用人人交互数据的相关信息来校正人机交互中意图理解，例如，驾驶员通过语音设定导航目的地之前的一段时间内，可能会与其他乘员讨论要去的地方(即导航的目的地)，当噪声等环境因素导致人机交互的语义理解结果不可信时，可以根据驾驶员与其他乘员讨论产生的人人交互数据进行校正，得到校正后的语义理解结果，并进行响应。这样可以更加全面的利用现有的车载环境下的交互信息，提高对人机交互语音理解的正确率，提升用户体验。

进一步地，本发明实施例提供的智能语音交互方法及装置，还给出了人人交互数据的相关信息的获取方法；接收交互语音数据，包括人人交互和人机交互，然后对该交互语音数据进行分类来获取人人交互数据，这样的好处是这两种数据的相关性更高，使得获取的人人交互数据的校正参考价值更高。

进一步地，本发明实施例提供的智能语音交互方法及装置，还预先构建了语音交互环境判断模型，利用该模型可以准确判断接收的交互语音数据的类型。

进一步地，本发明实施例提供的智能语音交互方法及装置，还提供了基于存储的人人交互数据的相关信息对所述当前语义理解结果进行校正的具体方法，通过对语义槽信息进行替换，并计算替换得分，这样可以量化替换的效果，便于根据得分准确判断该替换过程是否提升了语义理解结果的可信度。

进一步地，本发明实施例提供的智能语音交互方法及装置，从存储的相关信息中筛选出相关性高的相关信息作为候选校准信息，这样有效减少了校正数据的数量，且有效排除了不相关信息，有助于提升校正的准确度。

进一步地，本发明实施例提供的智能语音交互方法及装置，还设定了各语义槽的权重：给更重要的语义槽设定更大的权重，有助于提升人机交互语音理解的正确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例智能语音交互方法的一种流程图；

图2是本发明实施例对所述当前语义理解结果进行校正的一种流程图；

图3是本发明实施例获取候选校准信息的一种流程图；

图4是本发明实施例获取候选语义理解结果并计算替换得分的一种流程图；

图5是本发明实施例智能语音交互装置的第一种结构示意图；

图6是本发明实施例智能语音交互装置的第二种结构示意图；

图7是本发明实施例类型判断模块的一种结构示意图；

图8是本发明实施例相关信息获取模块的一种结构示意图；

图9是本发明实施例校正模块的一种结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

现有车载环境下的智能交互方法，在进行语义理解时，一般是针对该轮交互进行语义理解。然而在一些人机交互的环境中，还会有一些人人交互的语音，而这些人人交互的语音通常会包含有与人机交互内容相关的信息，比如车内用户与其他乘客交谈、或者与他人打电话过程中大都隐含着与车机业务相关的信息，这些信息对提升人机交互中意图理解有较大帮助。为此，本发明实施例提供一种智能交互方法及装置，利用多重语音信息辅助用户意图理解完成智能交互，由于充分利用了各种可利用的信息，因此，可进一步提高语义理解的准确性，提升用户体验。

如图1所示，是本发明实施例智能语音交互方法的一种流程图，包括以下步骤：

步骤101，获取人机交互语音数据。

在本实施例中，该人机交互数据可以是包括唤醒词的人机交互数据，当然，也可以是通过其它现有技术获取的人机交互数据，在此不做限定。

需要说明的是，所述人机交互语音数据是指去除噪声后的有效语音数据。而且，在人机交互的场景下，时常还会存在人人交互的语音，因此，在本发明实施例中，在接收到人机交互语音数据的同一时间段内，还可能会存在人人交互数据。比如，在车载环境下，所述交互语音数据可以是用户与车机的人机交互数据，以及车内的人人交互数据，如乘客交谈语音数据、乘客电话语音数据、乘客视频语音数据等，该人人交互数据中可能包含可对人机交互数据进行校正的有用信息。

在一个具体实施例中，所述方法还包括：

首先，接收交互语音数据，该交互语音数据可以为通过麦克风等装置采集的语音数据。由于一段时间内的语音数据可能包含人机交互数据和人人交互数据。因此，在接收到交互语音数据后，判断所述交互语音数据的类型。具体可以采用现有技术中确定人机交互数据的方法确定人机交互数据，例如，将同一时间段内的非人机交互数据的语音数据作为人人交互数据即可。

如果是人人交互数据，可以将其存入相应的数据库中，以便后续利用这些人人交互数据对人机交互语音数据进行语义理解得到的语义理解结果进行校正。此外，在实际应用中，也可以预先构建人人交互数据库，然后通过分类、语义理解等技术手段从该数据库中筛选出用于校正的候选人人交互数据，在此不做限定。

进一步地，本发明还可以对得到的人人交互数据进行处理，以获取所述人人交互数据的相关信息。例如，如果所述交互语音数据为人人交互数据，则对所述人人交互数据进行处理，并存储处理后的人人交互数据的相关信息。

人人交互数据产生的时间信息可以根据接收交互语音数据的时间来得到。其中，对人人交互数据进行处理具体可以包括：首先对所述人人交互数据进行语音识别，得到识别文本，然后对所述识别文本进行语义理解，得到所述人人交互数据对应的语义理解结果，语义理解过程可以同现有技术，当然，也可以与人机交互数据的语义理解过程相同。所述存储处理后的人人交互数据的相关信息包括：将所述人人交互数据产生的时间信息、语义理解结果存储到数据库中。

相应地，在存储时，为了后续查找方便，可以将上述时间信息、语义理解结果等信息做成数据索引结构，进行存储。

在其他实施例中，还可以通过预先训练的语音交互环境判断模型来判断所述交互语音数据的类型，这样可以有效提升判断语音数据的类型的准确度。例如，在接收到交互语音数据后，对该交互语音数据类型的判断可以利用分类或回归模型如CNN(卷积神经网络)、DNN(深度神经网络)、RNN(循环神经网络)、SVM(支持向量机)等来进行判断。

比如，可以预先构建语音交互环境判断模型，该模型的具体构建过程如下步骤：

(1)确定语音交互环境判断模型的拓扑结构。

其中，所述类别特征包括以下任意两种或多种：是否有唤醒词、唤醒后间隔时间、与上一句时间间隔、与上一句内容的关联度、声源定位信息。具体地，模型的输入可以是提取的类别特征：是否有唤醒词(可以为1维向量，如有唤醒词为1，没有为0)、唤醒后间隔时间、与上一句时间间隔、与上一句内容的关联度(可以为语义理解结果的相似度，例如文本向量的相似度)、声源定位信息(比如，在车载环境，可以为一个5维的向量，每一维分别表示主驾驶、副驾驶、后左、后中、后右)等。需要说明的是，输入的类别特征都是以VAD(语音端点检测)断句后一个句子为分析对象。

模型的输出可以是交互语音数据的类型，如输出为2个节点，分别为人人交互数据和人机交互数据，属于哪种类型哪种输出为1，否则为0；当然，模型的输出也可以是所属环境的概率。

(2)收集大量交互语音数据作为训练数据，并对所述训练数据进行交互环境标注。

(3)提取所述训练数据的类别特征。

(4)利用所述类别特征及标注信息训练得到模型参数。

相应地，在利用该语音交互环境判断模型对接收的交互语音数据进行类型判断时，需要提取所述交互语音数据的类别特征；然后将提取的类别特征输入该语音交互环境判断模型，根据语音交互环境判断模型的输出判断所述交互语音数据的类型。如果采用回归模型，则模型的输出为所属环境的概率，选取概率最大的环境对应的语音数据类型作为所述交互语音数据的类型。

步骤102，对所述人机交互语音数据进行语义理解，得到当前语义理解结果。

对人机交互数据进行语义理解，需要先对人机交互数据进行语音识别，得到识别文本，然后再对所述识别文本进行语义理解，得到语义理解结果，所述语义理解结果包括语义理解内容及对应的置信度。

所述语音识别可采用现有相关技术，在此不再详细描述，所述语义理解可以采用与对人人交互数据进行语义理解同样的方法。

具体地，语义理解结果可以包括语义理解结果对应的置信度，以及以下任意一种或多种：意图类别、原始语义和词集语义。其中，意图类别为：人机数据的意图归类，如查询目的地、路况、天气、听音乐等，具体可根据收集的现有网络数据及对应的标定结果训练意图类别判断模型，该意图类别判断模型可以为回归模型也可以为分类模型，本实施例以SVM为例进行说明，其输入为人人交互数据的文本向量，输出为意图判断结果。原始语义可采用现有语义理解相关技术实现，如基于文法网络等，需要说明的是：此处文本语义理解可以是利用历史人机交互数据的语义理解，也可以是不考虑历史人机交互数据的语义理解，对此本案不做限定。词集语义为利用已知的同义词、集合词关系，对原始语义进行归一化。比如用户说的目的地是“KFC”，根据同义词关系，映射成目的地“肯德基”，通过词集语义映射后的目的地信息能更好的作为POI搜索的条件，另外，词集语义映射还包括对POI的类型进行确定，比如道路，火锅店，公园等(利用更多的POI类型信息做到更精确的搜索)。需要说明的是，采用词集语义相对于采用原始语义能提升最终结果的可信度。

步骤103，判断所述当前语义理解结果是否可信，并对可信语义理解结果做出响应。

具体地，可以根据各语义理解结果的置信度来判断对应的语义理解结果是否可信，如果语义理解结果对应的置信度大于设定阈值，则确定该语义理解结果可信；否则确定该语义理解结果不可信。所述阈值可以根据实际应用情况和/或大量实验、经验确定。

对可信语义理解结果做出响应可以根据应用需要而定，可以有多种响应方式，比如，根据所述语义理解结果生成响应文本，并通过语音播报的方式将所述响应文本反馈给用户；再比如，可以是执行语义理解结果对应的动作等。

步骤104，基于存储的人人交互数据的相关信息对所述当前语义理解结果进行校正，得到校正后的语义理解结果；然后对所述校正后的语义理解结果做出响应。

具体地，如图2所示，是本发明实施例对所述当前语义理解结果进行校正的一种流程图，可以包括以下步骤：

步骤201，在所述数据库中搜索得到数条在预设时间内与所述当前语义理解结果相关的所述人人交互数据的相关信息，并将所述相关信息作为候选校准信息。

例如，可以为在预设时间内，与当前语义理解结果的文本向量的相似距离小于预设阈值的人人交互数据的相关信息，当然，也可以采用训练的模型来确定候选校准信息，在此不做限定。

步骤202，对于每个候选校准信息，依次用该候选校准信息中的各语义槽信息替换当前语义理解结果中对应的语义槽信息，得到候选语义理解结果，并计算替换得分，每个语意槽信息对应语义理解结果中的一部分。

步骤203，将总替换得分最高的候选语义理解结果作为校正结果。

需要说明的是，校正后的语义理解结果的响应方式可以同步骤105，在此不再详述。

本发明实施例提供的智能语音交互方法及装置，在获取人机交互语音数据之后，对所述人机交互语音数据进行语义理解，得到当前语义理解结果，然后判断所述当前语义理解结果是否可信，并对可信语义理解结果做出响应，当语义理解结果不可信时，基于存储的人人交互数据的相关信息对所述当前语义理解结果进行校正，得到校正后的语义理解结果；然后对所述校正后的语义理解结果做出响应。由于现有车载环境下的智能交互方法，只利用了人机交互信息，然而车内用户与其他乘客交谈，与他人打电话等过程中都隐含着与车机业务相关的信息，本发明在噪声等环境因素导致人机交互的语义理解结果不可信时，可以根据人人交互数据的语义理解结果对人机交互数据的语义理解结果进行校正，得到校正后的语义理解结果，并进行响应。这样可以更加全面的利用现有的车载环境下的交互信息，提高对人机交互语音理解的正确率，提升用户体验。

如图3所示，是本发明实施例获取候选校准信息的一种流程图。在本实施例中，所述方法还包括：预先构建数据相关性判断模型。所述在所述数据库中搜索得到数条在预设时间内与所述当前语义理解结果相关的所述人人交互数据的相关信息，并将所述相关信息作为候选校准信息包括：

步骤301，将人机交互数据的识别文本的文本向量、数据库中人人交互数据的识别文本的文本向量、人人交互数据产生的时间信息和人机交互数据产生的时间信息输入所述数据相关性判断模型，得到数据库中各人人交互数据的相关信息与该人机交互数据的相关性。

具体地，可通过回归模型(如DNN、RNN等)得到预设时间内每条人人数据与当前人机交互数据的相关性。以DNN为例，模型的输入为当前人机交互数据的文本向量、人人交互数据的文本向量、人人交互数据时间和人机交互数据实际，输出为人人交互数据与当前人机交互数据的相关性，可以是一个0-1之间的值。

步骤302，将不超过设定个数的相关性最高的人人交互数据的相关信息或者相关性大于设定阈值的人人交互数据的相关信息作为候选校准信息。

具体地，将相关性大于设定阈值的对应人人交互数据的相关信息作为当前人机交互语义理解结果相关的数个候选人人交互数据的相关信息。此外，为了简化计算，也可以是时间相近的数条人人交互数据，在此不做限定。

如图4所示，是本发明实施例获取候选语义理解结果并计算替换得分的一种流程图。在本实施例中，所述方法还包括：预先构建语义槽替换判断模型，预先设定各语义槽的权重。所述依次用该候选校准信息中的各语义槽信息替换当前语义理解结果中对应的语义槽信息，得到候选语义理解结果，并计算替换得分包括：

步骤401，将候选校准信息中的各语义槽信息、当前语义理解结果中对应的各语义槽信息、人人交互数据产生的时间信息、人机交互数据产生的时间信息和当前车机状态输入所述语义槽替换判断模型，得到候选校准信息中的各语义槽信息替换当前语义理解结果中对应的语义槽信息的概率。

其中，语义理解结果校正主要指利用人人交互数据对应语义槽信息校正当前人机交互数据对应语义槽信息。语义槽信息反应的就是语义理解结果中的一个个信息。

具体地，通过神经网络模型(如DNN、CNN、RNN等)来判断候选校准信息的每个语义槽能否将对应人机交互数据的语义槽替换，以DNN网络为例，模型的输入为当前人机交互数据每个语义槽信息(如目的地)、候选校准信息对应的每个语义槽信息(对应为人人交互数据的目的地)、当前人机交互数据时间、候选校准信息对应的人人交互数据时间、当前车机状态(如导航界面、音乐界面)；输出为人人交互数据的各语义槽信息替换对应人机交互数据的各语义槽信息的概率(0-1之间)。其中，语义槽替换判断模型的训练过程可以同现有的神经网络模型训练方法，在此不再详述。

步骤402，将各概率的加权和作为候选语义理解结果的得分。

每个候选校准信息对应替换后(即校正后)的一个语义理解结果，该语义理解结果得分为替换后每个语义槽的得分加权和，根据槽信息的重要程度设定不同槽的权重，也可以设定各语义槽的权重都为1，其中，权重可以根据经验设定或者通过大量现有网络数据训练模型得到，如导航时，出发地、目的地对应的语义槽的权重应该高于途径地对应的语义槽的权重。在这里，被替换的语义槽的替换得分为上述替换概率，未替换的语义槽的替换得分为1。根据数个候选校准信息，校正当前人机交互数据的语义理解结果得到替换得分，选择对应总替换得分最高的语义理解结果作为最终当前人机交互语义理解结果。

以下举例进行说明：当前人机交互数据语义理解结果：出发点—北京、目的地—南昌、意图—导航，如果语义理解结果为不可信，则需要对人机交互数据的语义结果进行校正。

根据数据相关性判断模型，得到2个对应的人人交互数据的相关信息作为候选校准信息，分别为：1、出发点—天津、目的地—南京、意图—导航，2、出发点—北京、目的地——南京、意图—导航。

根据语义槽替换判断模型得到候选校准信息1中，出发点对应替换得分为0.3、目的地对应替换得分为0.8、意图替换得分为1，则根据候选校准信息1校正后的语义理解结果得分为2.1分。候选校准信息2中，出发点对应替换得分为1、目的地对应替换得分为0.8、意图替换得分为1，则根据候选校正信息2校正后的语义理解结果得分为2.8分。则最后将基于候选校准信息2校正后的语义理解结果作为可信度最高的语义理解结果，然后进行响应。

本发明实施例提供的智能语音交互方法，还提供了基于存储的人人交互数据的相关信息对所述当前语义理解结果进行校正的具体方法，通过对语义槽信息进行替换，并计算替换得分，这样可以量化替换的效果，便于根据得分准确判断该替换过程是否提升了语义理解结果的可信度。

相应地，本发明还提供了一种智能语音交互装置，如图5所示，是本发明实施例智能语音交互装置的第一种结构示意图。所述装置包括：

获取模块501，用于获取人机交互语音数据。

语义理解模块502，用于对所述人机交互数据进行语义理解，得到当前语义理解结果。

可信度判断模块503，用于判断所述当前语义理解结果是否可信。

校正模块504，用于当语义理解结果不可信时，基于存储的人人交互数据的相关信息对所述当前语义理解结果进行校正，得到校正后的语义理解结果。

响应模块505，用于对可信语义理解结果做出响应或者对所述校正后的语义理解结果做出响应。

在本实施例中，为了提升判断语音数据的类型的准确度，所述装置还可以包括：

语音接收模块，用于接收交互语音数据。

类型判断模块5012，用于判断所述交互语音数据的类型，所述交互语音数据的类型包括：人人交互数据和人机交互数据。

处理模块5013，用于在所述交互语音数据为人人交互数据时，对所述人人交互数据进行处理。

存储模块，用于存储处理后的人人交互数据的相关信息。

如图6所示，是本发明实施例智能语音交互装置的第二种结构示意图。在实际应用中，可以通过预先构建的语音交互环境判断模型来判断所述交互语音数据的类型，具体地，所述装置还包括：

语音交互环境判断模型构建模块601，用于预先构建语音交互环境判断模型。

在本实施例中，如图7所示，是本发明实施例类型判断模块5012的一种结构示意图，其中，所述类型判断模块5012包括：

特征提取单元50121，用于提取所述交互语音数据的类别特征。

类型输出单元50122，用于将所述类别特征输入所述语音交互环境判断模型，根据所述语音交互环境判断模型的输出判断所述交互语音数据的类型。

其中，所述人人交互数据的相关信息包括：人人交互数据产生的时间信息及对人人交互数据进行处理后得到的处理结果。

如图8所示，是本发明实施例处理模块5013的一种结构示意图，所述处理模块5013包括：

文本获取单元50131，用于对所述人人交互数据进行语音识别，得到识别文本。

语义理解单元50132，用于对所述识别文本进行语义理解，得到所述人人交互数据对应的语义理解结果。需要说明的是，语义理解模块可以与语义理解单元为同一功能块，在此不做限定。

进一步地，本发明还给出了校正模块504的具体结构，如图9所示，是本发明实施例校正模块504的一种结构示意图，所述校正模块504包括：

候选校准信息获取单元5041，用于在所述数据库中搜索得到数条在预设时间内与所述当前语义理解结果相关的所述人人交互数据的相关信息，并将所述相关信息作为候选校准信息。

替换得分计算单元5042，用于对于每个候选校准信息，依次用该候选校准信息中的各语义槽信息替换当前语义理解结果中对应的语义槽信息，得到候选语义理解结果，并计算替换得分，每个语意槽信息对应语义理解结果中的一部分。

校正结果获取单元5043，用于将总替换得分最高的候选语义理解结果作为校正结果。

优选地，所述装置还包括：

数据相关性判断模型构建模块901，用于预先构建数据相关性判断模型。

其中，所述候选校准信息获取单元5041包括：

相关性获取子单元50411，用于将人机交互数据的识别文本的文本向量、数据库中人人交互数据的识别文本的文本向量、人人交互数据产生的时间信息和人机交互数据产生的时间信息输入所述数据相关性判断模型，得到数据库中各人人交互数据的相关信息与该人机交互数据的相关性。

候选校准信息获取子单元50412，用于将不超过设定个数的相关性最高的人人交互数据的相关信息或者相关性大于设定阈值的人人交互数据的相关信息作为候选校准信息。

此外，所述装置还可以包括：

语义槽替换判断模型构建模块902，用于预先构建语义槽替换判断模型。

权重设定模块903，用于预先设定各语义槽的权重。

所述替换得分计算单元5042包括：

替换概率获取子单元50421，用于将候选校准信息中的各语义槽信息、当前语义理解结果中对应的各语义槽信息、人人交互数据产生的时间信息、人机交互数据产生的时间信息和当前车机状态输入所述语义槽替换判断模型，得到候选校准信息中的各语义槽信息替换当前语义理解结果中对应的语义槽信息的概率。

候选得分获取子单元50422，用于将各概率的加权和作为候选语义理解结果的得分。

本发明实施例提供的智能语音交互装置，与现有技术相比，还包括：校正模块504，由于现有车载环境下的智能交互方法，只利用了人机交互信息，然而车内用户与其他乘客交谈，与他人打电话过程中都隐含着与车机业务相关的信息，本发明基于存储的人人交互数据的相关信息对提升人机交互中意图理解有较大帮助，如果人机交互信息数据的语义理解结果不可信，则校正模块504会对所述当前语义理解结果进行校正，得到校正后的语义理解结果。这样可以更加全面的利用现有的车载环境下的交互信息，提高对人机交互语音理解的正确率，提升用户体验。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及装置；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种智能语音交互方法，其特征在于，所述方法包括：

获取人机交互语音数据；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

接收交互语音数据；

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：预先构建语音交互环境判断模型；

所述判断所述交互语音数据的类型包括：

提取所述交互语音数据的类别特征；

4.根据权利要求3所述的方法，其特征在于，所述类别特征包括以下任意两种或多种：是否有唤醒词、唤醒后间隔时间、与上一句时间间隔、与上一句内容的关联度、声源定位信息。

5.根据权利要求2所述的方法，其特征在于，所述人人交互数据的相关信息包括：人人交互数据产生的时间信息及对人人交互数据进行处理后得到的处理结果；

所述对所述人人交互数据进行处理包括：

对所述人人交互数据进行语音识别，得到识别文本；

所述存储处理后的人人交互数据的相关信息包括：

6.根据权利要求5所述的方法，其特征在于，所述基于存储的人人交互数据的相关信息对所述当前语义理解结果进行校正，得到校正后的语义理解结果包括：

将总替换得分最高的候选语义理解结果作为校正结果。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：预先构建数据相关性判断模型；

8.根据权利要求6所述的方法，其特征在于，所述方法还包括：预先构建语义槽替换判断模型，预先设定各语义槽的权重；

将各概率的加权和作为候选语义理解结果的得分。

9.根据权利要求1至8任一项所述的方法，其特征在于，所述人人交互数据包括以下任意一种或多种：

10.一种智能语音交互装置，其特征在于，所述装置包括：

获取模块，用于获取人机交互语音数据；

11.根据权利要求10所述的装置，其特征在于，所述装置还包括：

语音接收模块，用于接收交互语音数据；

存储模块，用于存储处理后的人人交互数据的相关信息。

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：

所述类型判断模块包括：

特征提取单元，用于提取所述交互语音数据的类别特征；

13.根据权利要求11所述的装置，其特征在于，所述人人交互数据的相关信息包括：人人交互数据产生的时间信息及对人人交互数据进行处理后得到的处理结果；

所述处理模块包括：

所述存储单元具体用于将所述人人交互数据产生的时间信息、语义理解结果存储到数据库中。

14.根据权利要求13所述的装置，其特征在于，所述校正模块包括：

15.根据权利要求13所述的装置，其特征在于，所述装置还包括：

所述候选校准信息获取单元包括：

16.根据权利要求13所述的装置，其特征在于，所述装置还包括：

权重设定模块，用于预先设定各语义槽的权重；

所述替换得分计算单元包括：