CN112447173A

CN112447173A - 语音交互方法、装置及计算机存储介质

Info

Publication number: CN112447173A
Application number: CN201910759850.2A
Authority: CN
Inventors: 李亚丽; 卓著; 温丽云; 雷赟
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-08-16
Filing date: 2019-08-16
Publication date: 2021-03-05

Abstract

本发明实施例提供了一种语音交互方法、装置及计算机存储介质。其中，语音交互方法包括：对用户输入的语音对话内容进行分析，获取所述语音对话内容中的词条；将所述词条输入至训练的有监督学习模型，通过所述有监督学习模型输出所述词条的多个词条标签及每个词条标签对应的置信度；根据所述词条及多个词条标签分别对应的置信度，确定所述语音对话内容对应的对话反馈内容，以进行语音交互。根据本实施例提供的方案，可以提高对话模块DM的命中率，避免了现有技术中选择的标签不符合用户需求导致对话模块DW的命中率降低的问题。

Description

语音交互方法、装置及计算机存储介质

技术领域

本发明实施例涉及数据处理技术领域，尤其涉及一种语音交互方法、装置及计算机存储介质。

背景技术

对话系统是一种用于进行人机对话交互的系统，尤其适用于用户与机器进行语音交互。现有的对话系统主要包括：自然语言理解模块NLU、对话模块DM。其中，自然语言理解模块NLU用于将用户输入的语音对话内容转化为机器可以理解的语义表示，具体为通过为词条增加标签使得机器可以通过标签理解词条；对话模块DM用于根据自然语言理解模块NLU理解的语义内容以及对话的状态判断机器需要表达的内容，即向用户输出交互内容。

但是，在实际使用过程中，有些词条对应的标签可能有多个，例如，语音对话内容“播放海阔天空”可能对应视频的播放，也可能对应音乐的播放，针对该词条，自然语言理解模块NLU输出的标签包括视频、音乐两个标签，此时，对话模块DM会根据所述多个词条标签分别对应的置信度以及根据所述语音对话内容的上下文内容，对所述多个词条标签进行排序，还可以根据该词条在标签下的输入特征或者对话模块DM内部的标签优先级等对多个词条标签进行排序。然而，由于不同标签之间的输入特征不具备可比性，例如，某个词条在音乐标签下的点击次数远远低于在视频标签下的点击次数，但是由于音乐标签总的点击次数和视频标签下的总点击次数目前无法直接进行比较，导致不能根据该词条在这两个标签下的点击次数确定符合用户需求的标签；而针对标签优先级，不同词条适用的标签优先级不同，这会导致对话模块DM根据内部的标签优先级选择时容易出错，进而导致对话模块DM确定的交互内容命中率降低。

发明内容

有鉴于此，本发明实施例提供一种语音交互方法、装置及计算机存储介质，以解决上述问题。

根据本发明实施例的第一方面，提供了一种语音交互方法，其包括：对用户输入的语音对话内容进行分析，获取所述语音对话内容中的词条；将所述词条输入至训练的有监督学习模型，通过所述有监督学习模型输出所述词条的多个词条标签及每个词条标签对应的置信度；根据所述词条及多个词条标签分别对应的置信度，确定所述语音对话内容对应的对话反馈内容，以进行语音交互。

根据本发明实施例的第二方面，提供了一种语音交互装置，其包括：词条获取模块，用于对用户输入的语音对话内容进行分析，获取所述语音对话内容中的词条；置信度确定模块，用于将所述词条输入至训练的有监督学习模型，通过所述有监督学习模型输出所述词条的多个词条标签及每个词条标签对应的置信度；反馈确定模块，用于根据所述词条及多个词条标签分别对应的置信度，确定所述语音对话内容对应的对话反馈内容，以进行语音交互。

根据本发明实施例提供的方案，通过对用户输入的语音对话内容进行分析，获取所述语音对话内容中的词条；之后将所述词条输入至训练的有监督学习模型，通过所述有监督学习模型输出所述词条的多个词条标签及每个词条标签对应的置信度，使得不同的标签之间具有可比性，后续根据所述词条及多个词条标签分别对应的置信度确定所述语音对话内容对应的对话反馈内容来完成语音交互时，可以根据多个词条标签分别对应的置信度从多个词条标签选择一个，使得确定的对话反馈内容更加符合用户的需求，即在实际使用时，提高了对话模块DM的命中率，避免了现有技术中选择的标签不符合用户需求导致对话模块DW的命中率降低的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例一的一种语音交互方法的步骤流程图；

图2为本发明实施例二的一种有监督学习模型的训练方法的步骤流程图；

图3为本发明实施例三的一种语音交互方法的步骤流程图；

图4为本发明实施例三的一种有监督学习模型的训练方法的步骤流程图；

图5为本发明实施例三的一种对话系统的结构示意图；

图6为发明实施例四的一种语音交互装置的结构框图；

图7为本发明实施例五的一种终端设备的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本发明实施例中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明实施例一部分实施例，而不是全部的实施例。基于本发明实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本发明实施例保护的范围。

下面结合本发明实施例附图进一步说明本发明实施例具体实现。

实施例一

参照图1，示出了根据本发明实施例一的一种语音交互方法的步骤流程图。

本申请提供的语音交互方法包括的步骤如下：

S102、对用户输入的语音对话内容进行分析，获取所述语音对话内容中的词条。

用户可以通过任意适当的方式输入语音对话内容，例如通过智能音箱等输入，本实施例对此不进行限定。

对语音对话内容进行分析时，可以先将语音对话内容转换为文字内容，再对文字内容进行分析，来获取语音对话内容中的词条，当然，本领域的技术人员也可以采用其他任意适当的方式确定语音对话内容中的词条，本实施例对此不进行限定。

词条也叫词目、条目、辞条，词条可以是字、词，也可以由字、词等组成，词条一般为名词，例如可以为某些领域内的专有名词、术语、影视作品的名称等。

语音对话内容可能会包括动作以及动作对应的执行对象，例如语音对话内容“播放海阔天空”中的“播放”为动作，“海阔天空”为动作的执行对象，通过获得语音对话内容中的词条，可以方便地确定语音对话内容包括的执行对象，从而确定语音对话内容对应的对话反馈内容。

S104、将所述词条输入至训练的有监督学习模型，通过所述有监督学习模型输出所述词条对应的多个词条标签及每个词条标签对应的置信度。

有监督学习模用于保证输出的词条标签的置信度与所述词条在实际使用时词条标签被用户采纳的概率。有监督学习模型可以采用已有结构，如LR模型、SVM模型、MLP模型、CNN模型等，本实施例对此不进行限定。

由于上步骤中确定的词条本身只是一个词或一个字，机器并不能理解其含义，因此，需要通过标签进行辅助，使得机器可以通过标签确定其含义。即，通过有监督学习模型输出的词条标签确定词条对应的领域，进而确定词条在该领域内的具体含义。部分词条可能仅对应有一个词条标签，因此可以方便地确定其含义，但有些词条对应有多个词条标签，使得一个词条可能对应有多个含义。例如，词条“海阔天空”对应的词条标签可以为音乐、视频等，当其词条标签为音乐时，海阔天空即为beyond演唱的歌曲，当其词条标签为视频时，海阔天空为一部电视剧。此时，通过有监督学习模型输出的置信度，可以确定词条标签被用户采纳的概率，进而确定多个词条的含义中某个词条的含义被用户采纳的概率。

当词条对应有多个词条标签时，需要从中选择一个最符合用户需求的词条标签，使得根据确定的反馈结果更加符合用户的需求。词条标签对应的标签置信度表征优先选择该标签作为词条标签的概率，从而通过比较置信度使得多个词条标签具有可比性，进而可以将词条标签的置信度作为后续步骤中确定对话反馈内容的依据。例如，若词条对应的标签包括A、B、C，三个标签对应的标签置信度分别为置信度A、置信度B、置信度C，若A>B>C，则置信度A对应的标签被选择的概率高于置信度B对应的标签，而置信度B对应的标签被选择的概率高于置信度C对应的标签，根据置信度可以选择对应的标签，以依据选择的标签确定对话反馈内容。且，通过有监督训练模型输出词条标签的置信度，可以通过调整有监督学习模型的参数使得输出的置信度更加符合用户需求，通过置信度确定的对话反馈结果更加符合用户需求，即可以提高对话反馈结果的命中率。

本实施例中，置信度的范围可以由本领域的技术人员根据需要设定，例如将置信度的范围设置为0-1；或者，可以将置信度的范围设置为0-100，等等。

S106、根据所述词条及多个词条标签分别对应的置信度，确定所述语音对话内容对应的对话反馈内容，以进行语音交互。

在根据词条和多个词条标签分别对应的置信度确定对话反馈内容时，可以直接比较置信度来选择一个词条标签，也可以在比较置信度的同时考虑其他因素来选择一个词条标签。之后可以基于选择的词条标签和词条确定对话反馈内容，对话反馈内容可以包括执行语音对话内容对应的操作，例如，语音对话内容为“播放海阔天空”，则对话反馈内容可以为执行播放动作，播放内容为海阔天空的音乐。

本实施例提供的方案，通过对用户输入的语音对话内容进行分析，获取所述语音对话内容中的词条；之后将所述词条输入至训练的有监督学习模型，通过所述有监督学习模型输出所述词条的多个词条标签及每个词条标签对应的置信度，使得不同的标签之间具有可比性，后续根据所述词条及多个词条标签分别对应的置信度确定所述语音对话内容对应的对话反馈内容来完成语音交互时，可以根据多个词条标签分别对应的置信度从多个词条标签选择一个，使得确定的对话反馈内容更加符合用户的需求，即在实际使用时，提高了对话模块DM的命中率，避免了现有技术中选择的标签不符合用户需求导致对话模块DW的命中率降低的问题。

本实施例的有语音交互方法可以由任意适当的具有数据处理能力的终端设备执行，包括但不限于：服务器、移动终端(如平板电脑、手机等)和PC机。

实施例二

参照图2，示出了根据本发明实施例二的一种有监督学习模型的训练方法的步骤流程图。

通过本实施例训练的有监督学习模型可以用于上述实施例中，在执行上述实施例一时，可以根据用户对对话反馈内容的满意程度等条件或者根据更新后的词条等，继续训练有监督学习模型。

本申请提供的有监督学习模型的训练方法包括的步骤如下：

S202、确定多个样本词条对应的输入特征，以及确定所述多个样本词条对应标签的样本标签置信度。

本实施例中，样本词条可以从词条数据库中获取。

样本词条的输入特征可以为向机器输入的与样本词条相关内容的特征集合。例如，可以包括用户想要得到的结果为样本词条对应的结果时，用户的输入内容，例如，样本词条为“海阔天空”时，则输入特征可以包括：用户输入的“播放海阔天空”的信息、用户从手机或PC的界面中点选“海阔天空”选项的信息等。

样本词条因本身只是一个词，机器并不能理解其含义，因此，需要通过标签进行辅助，使得机器可以通过标签确定其含义。例如，样本词条“海阔天空”对应的标签可以为音乐、视频等，当其标签为音乐时，海阔天空即为beyond演唱的歌曲，当其标签为视频时，海阔天空为一部电视剧。

与样本词条的标签对应的标签置信度表征优先选择该标签作为样本词条标签的概率，可以通过人工标注或通过相关模型标注获得。例如，若样本词条对应的标签包括A、B、C，三个标签对应的样本标签置信度分别为置信度A、置信度B、置信度C，若A>B>C，则置信度A对应的标签被选择的概率高于置信度B对应的标签，而置信度B对应的标签被选择的概率高于置信度C对应的标签。

S204、将所述样本标签置信度作为有监督学习模型的训练目标参数，根据所述多个样本词条的所述输入特征，对所述有监督学习模型进行标签置信度训练，以通过训练的所述有监督学习模型获取词条标签的置信度。

本实施例中，通过将样本标签置信度作为训练目标参数(如作为损失函数的参数)，以及根据多个样本词条的输入特征，对有监督学习模型进行标签置信度训练，以使经过训练的有监督学习模型输出的置信度尽量贴近所述样本标签置信度。

本实施例提供的方案，可以使得有监督学习模型学习样本词条的输入特征与样本标签置信度之间的关系，以使经过训练的有监督学习模型输出的置信度尽量贴近所述样本标签置信度，也即，尽量符合实际应用中的标签设定。尤其是当词条包括多个标签时，可以通过有监督学习模型输出多个词条标签分别对应的置信度，由于置信度之间可以进行比较，因此可以通过比较置信度实现标签的比较，以更为准确地确定词条的标签。基于此，输出的多个置信度在后续可以作为对话模块的参考，使得对话模块可以根据多个标签的置信度的比较结果来选择词条对应的标签，从而可以通过比较置信度来辅助对话模块DM进行正确地选择，进一步提高了对话模块DM的命中率。

本实施例的有监督学习模型的训练方法可以由任意适当的具有数据处理能力的终端设备执行，包括但不限于：服务器、移动终端(如平板电脑、手机等)和PC机。

实施例三

参照图3，示出了根据本发明实施例三的一种语音交互方法的步骤流程图。

本实施例以样本词条同时包括对应有多个标签的多标签样本词条以及包括对应有一个标签的单标签样本词条为例进行说明，当然，在使用过程中，样本词条也可以仅包括多标签样本词条等，本实施例对此不进行限定；同理，本领域的技术人员可以根据需求确定样本词条中多标签样本词条以及单标签样本词条的占比，本实施例同样不对此进行限定。

本实施例的语音交互方法包括以下步骤：

S302、确定多个样本词条对应的输入特征。

可选地，本实施例中，样本词条对应的输入特征包括以下至少之一：使用通用词对所述样本词条进行查询的通用词频、使用搜索词查询所述样本词条的搜索词频、点击所述样本词条对应的查询结果的点击词频。

通用词频具体可以为在查询样本词条时，各个通用词(基于某一行业类别的关键词，例如:鞋、衣服等)的使用频率；搜索词频具体可以为在搜索引擎例如地图、音频软件、视频软件或通用搜索引擎下搜索样本词频时，各个搜索词的使用频率；点击词频具体可以为当向用户展示样本词条的相关内容时，各个相关内容对应的词条被用户点击的频率。本实施例中，通过将通用词频、搜索词频、点击词频中的一个或多个作为输入特征，可以使得确定的样本词条的输入特征较为全面，从而在根据样本词条的输入特征对有监督学习模型进行训练时，有监督学习模型学习到的输入特征与样本标签置信度的关系较为全面，进而使得通过有监督学习模型确定的词条标签的置信度更加准确。

由于本实施例中，样本词条包括单标签词条以及多标签词条，则在确定输入特征时，针对各个单标签样本词条以及多标签样本词条，均需要确定其对应的输入特征。

S304、获取多标签样本词条的用户标注数据，根据所述用户标注数据确定所述多标签样本词条的多个标签分别对应的多个样本标签置信度。

本实施例中，多标签样本词条即对应有多个标签的样本词条，例如多标签样本词条“海阔天空”可以对应有video、music、map等标签，多标签样本词条“七龙珠”可以对应有video、app等标签。

在具体实现时，可以将多标签样本词条进行众包，在进行众包时，每个用户均会从多标签样本词条的多个标签中选择符合自身需求的标签。通过众包方式，可以获得多个用户的选择结果，对用户的选择结果进行汇总整理后可以获得每个多标签样本词条的用户标注数据，进而根据用户标注数据进行统计计算，得到多个标签的样本标签置信度。

其中，进行众包时，可以限制用户针对一个多标签样本词条仅选择一个标签。则获得该多标签样本词条对应的用户标注数据后，可以将每个标签被选择的次数除以该多标签样本词条的选择总次数，从而确定多标签样本词条各个标签对应的样本标签置信度。例如，针对多标签样本词条“七龙珠”，进行众包时，供用户选择的标签包括app、video两个标签，每个用户仅可以选择一个标签。众包完成后，根据众包结果可以确定共有100个用户选择了“七龙珠”的标签，则该多标签样本词条的选择总次数为100次，其中，标签app被选择的次数为80次，标签video被选择的次数为20次，将被选择的次数除以选择总次数后，可以确定标签app对应的样本标签置信度为0.8，标签video对应的样本标签置信度为0.2。

当然，在本申请的其他实现方式中，在进行众包时，也可以限制用户选择的标签数量上限等，本实施例对此不进行限定；另外，当众包方式不同时(例如上述限制用户针对一个词条仅可以选择一个标签，或者限制用户能够选择的标签数量上限等)，根据用户标注数据确定样本标签置信度的方法也不同，本领域的技术人员可根据需要选择确定样本标签置信度的方法，本实施例对此同样不进行限定。

本实施例中，与通过其他方式相比，例如通过大数据统计的方式确定样本标签置信度，根据用户标注数据确定的多标签样本词条的多个标签对应的样本标签置信度的值更加准确，由于样本标签置信度在后续步骤中作为训练目标参数使用，因此，保证样本标签置信度的准确性可以保证通过有监督模型确定的词条标签的置信度更加符合用户需求。

S306、为所述单标签样本词条对应的标签的样本标签置信度设置第一置信度值。

本实施例中，单标签样本词条为对应有一个标签的词条，因此可以直接将其对应的标签的样本标签置信度设置为第一置信度值，无需通过其他步骤确定，例如无需众包、无需进行大数据分析等，极大地减小了确定单标签样本词条的样本标签置信度的时间。

在实际使用时，由于不能直接确定单标签样本词条对应的标签具体为哪个标签，因此可能存在多个标签备选项，则在设置样本标签置信度时，可以将除与单标签样本词条对应的标签之外的其他标签备选项的样本标签置信度设置为第二置信度值。

具体地，第一置信度值可以置信度的范围内的极大值，例如为1，第二置信度值可以为置信度的范围内的极小值，例如为0。

另外需要说明的是，本实施例中对步骤S202、S204、S206的执行先后顺序不进行限定，三个步骤的执行顺序可由本领域技术人员进行任意变化，三个步骤也可以两两之间并行执行，三个步骤也可以全部并行执行，本实施例对此不进行限定。

S308、将所述样本标签置信度作为有监督学习模型的训练目标参数，根据所述多个样本词条的所述输入特征，对所述有监督学习模型进行标签置信度训练。

具体地，本实施例中，如图4所示，步骤S308具体可以包括：

S3081、将所述多个样本词条的所述输入特征分别输入所述有监督学习模型，通过所述有监督学习模型输出各个样本词条对应的预测标签置信度。

本实施例中，有监督学习模型可以采用已有结构，如LR模型、SVM模型、MLP模型、CNN模型等，将有监督学习模型中的训练目标参数设置为所述样本标签置信度即可，如，设置为损失函数中的标准输出参数。则，该有监督学习模型在训练过程中，可首先根据样本词条的输入特征对该样本词条的标签置信度进行预测，得到预测标签置信度。进而，执行步骤S3082。

S3082、根据预设的损失函数，确定各个样本词条的预测标签置信度与对应的所述样本标签置信度的差异。

本实施例中，由于训练有监督学习模型的目的在于使得有监督学习模型的输出尽量贴近样本标签置信度，因此，本实施例中，可以通过损失函数计算样本标签置信度以及预测标签置信度的差异(如损失值)，从而通过计算得到的差异确定预测标签置信度与样本标签置信度的相近程度。

S3083、根据所述差异调整所述有监督学习模型中的训练参数，并使用所述训练参数继续对所述有监督学习模型进行训练。

本实施例中，根据差异调整有监督学习模型中的训练参数，可以使得调整训练参数后有监督学习模型输出的预测标签置信度更加贴近样本标签置信度。其中，所述训练参数包括但不限于有监督学习模型中的权重参数等常规训练参数。

在完成当前样本词条的训练之后，可以将下一样本词条的输入特征输入至调整训练参数后的有监督模型，从而使用调整训练参数后的有监督学习模型根据输入特征继续进行训练，直至符合训练结束条件。如，训练次数达到设定次数，或者，预测标签置信度与样本标签置信度之间的差异满足预设阈值。

本实施例提供的方案中，通过根据样本标签置信度生成的损失函数可以直接、简单地确定各个样本词条的预测标签置信度与对应的所述样本标签置信度的差异，进而可以方便地根据差异调整有监督学习模型中的训练参数，最大程度地复用了现有机器学习模型的结构和流程，降低了本方案的实现成本。

当然，本申请的其他实现方式中，也可以通过其他训练方式对有监督模型进行训练，本实施例对此不进行限定。

另外，当样本词条为单标签样本词条时，可以仅将单标签样本词条对应的一个样本标签置信度作为训练目标参数；当样本词条为多标签样本词条时，可以将多标签样本词条对应的多个样本标签置信度同时作为训练目标参数，并可以同时根据损失函数确定多个预测标签置信度与多个样本标签置信度之间的差异，从而使得有监督学习模型可以较为准确地输出一个词条的多个标签的置信度，避免当词条为多标签词条时，有监督学习模型输出的一个标签置信度较为准确，而其他标签的置信度偏差较大的情况。

通过上述过程，实现了有监督学习模型的训练，使得有监督训练模型学习输入特征与样本标签置信度之间的映射关系。基于训练的有监督学习模型，可以根据获取词条标签的置信度，尤其当词条有多个标签时，可以获得多个标签分别对应的置信度，置信度之间具有可比性。基于此，可选地，还可以根据获得的置信度执行下述步骤S310。

S310、接收到语音对话内容后，获取所述语音对话内容中的词条，通过训练的所述有监督学习模型输出多个词条标签分别对应的置信度，以根据所述词条及多个词条标签分别对应的置信度确定对话反馈内容。

本实施例提供的方案，通过采用样本标签置信度作为训练目标参数，使得有监督学习模型可以直接输出词条标签的置信度，从而可以使得对话模块DM直接根据词条标签的置信度进行选择等操作。

若词条为多标签词条，则可以直接通过有监督学习模型获得该词条的多个标签分别对应的置信度。对话模块DM可以根据所述有监督学习模型获得的多个标签分别对应的置信度，从词条的多个所述标签中确定一个标签。

具体地，可以将词条的标签以及有监督学习模型输出的词条标签的置信度均输入至对话模块DM中，对话模块DM可以根据所述多个词条标签分别对应的置信度，对所述多个词条标签进行排序；根据排序结果以及所述词条，确定所述语音对话内容对应的对话反馈内容。另外，本实施例中，仅将标签的置信度作为对话模块DM需要考虑的一个因素，由于对话模块DM需要综合考虑多个因素(例如下述的上下文等)来从多个标签中确定一个标签，因此，对话模块DM选择的一个标签可能不是置信度最高的标签。

由于多个标签的置信度采用的是统一的衡量标准，因此置信度之间可以进行比较，可以通过比较置信度实现标签的比较来确定哪个标签可以优先选择，从而避免了由于各个标签下词条对应的输入特征不可比导致的标签不可比的情况，且通过置信度实现各个标签的比较更加方便、快捷、直观。

进一步地，若在词条对应的当前对话内容的基础上，还存在当前对话内容的上下文内容，则对话模块DM还可以根据所述多个词条标签分别对应的置信度以及根据所述语音对话内容的上下文内容，对所述多个词条标签进行排序。例如，若用户当前输入的对话内容为“播放海阔天空”，而在此之前还包括用户输入的“我想看电视剧”，以及机器返回给用户的对话内容“亲，想看什么呢”。则，“我想看电视剧”、“亲，想看什么呢”即为“播放海阔天空”的上下文，对话模块DM可以确定“海阔天空”对应的标签包括电视剧、音乐，电视剧的置信度可以为0.2、音乐的置信度可以为0.8，且对话模块DM可以结合已经存在的上下文对标签进行排序，并根据排序结果确定“海阔天空”选择的一个标签为电视剧。

此外，在根据多个词条标签分别对应的置信度，选择与所述用户对应的词条标签后，可以根据选择的词条标签进行词条检索，根据词条检索结果确定所述语音对话内容对应的对话反馈内容，以进行语音交互。具体地词条检索方法可以参考现有技术，本实施例在此不再赘述。

例如，用户输入的内容为“播放海阔天空”，且对话模块DM可以确定词条“海阔天空”对应的标签为音乐，则可以在音乐领域进行词条检索，以检索与“海阔天空”对应的音乐内容。检索完成后，对话模块DM可以进一步确定对话反馈内容为：输出动作为播放动作，播放动作的具体播放内容为海阔天空的音乐，并控制机器执行输出动作，以进行语音交互。

具体地，在实际使用时，可以将有监督学习模型集成至自然语言理解模块404(NLU)中，以得到新的自然语言理解模块404(NLU)。

具体使用方法可以如图5所示，用户输入一段语音作为语音交互内容，自然语言处理模块402(NLP)可以将语音转换为文字内容，并识别出文字内容中的词条，然后将词条输入至自然语言理解模块404(NLU)。

通过本申请中的自然语言理解模块404(NLU)，可以根据用户输入的语音输出词条对应的标签以及标签的置信度，当词条包括多个标签时，自然语言理解模块404(NLU)可以输出词条的多个标签分别对应的置信度。

对话模块406(DM)可以根据标签对应的置信度、已有的对话内容等，确定对话反馈内容具体包括的机器输出动作。通过控制机器执行输出动作，可以对用户输入的语音进行反馈，从而进行语音交互。

可选地，本实施例中，所述用户输入的语音对话内容具体可以为用于指示进行目标对象检索的语音内容，所述词条至少包括所述目标对象对应的目标对象词条；则，确定对话反馈内容时，可以根据所述目标对象词条及多个词条标签分别对应的置信度，确定包含所述目标对象的检索结果的对话反馈内容。

例如，输入的语音对话内容“搜索beyond”来指示进行检索，“beyond”即为包括目标对象对应的目标对象词条。确定对话反馈内容时，可以根据beyond的多个词条标签乐队、英文单词等对应的置信度，确定包含检索结果的对话反馈内容。例如，若词条标签乐队对应的置信度较高，则包含检索结果的对话反馈内容可以为语音朗读beyond乐队的简介。

本实施例的语音交互方法可以由任意适当的具有数据处理能力的终端设备执行，包括但不限于：服务器、移动终端(如平板电脑、手机等)和PC机。

实施例四

参照图6，示出了根据本发明实施例四的一种语音交互装置的结构框图。

如图6所示，本实施例中语音交互装置包括：词条获取模块502、置信度确定模块504、反馈确定模块506。

词条获取模块502，用于对用户输入的语音对话内容进行分析，获取所述语音对话内容中的词条；

置信度确定模块504，用于将所述词条输入至训练的有监督学习模型，通过所述有监督学习模型输出所述词条的多个词条标签及每个词条标签对应的置信度；

反馈确定模块506，用于根据所述词条及多个词条标签分别对应的置信度，确定所述语音对话内容对应的对话反馈内容，以进行语音交互。

在一种可选地实施方式中，根据所述多个词条标签分别对应的置信度，对所述多个词条标签进行排序；根据排序结果以及所述词条，确定所述语音对话内容对应的对话反馈内容。

在一种可选地实施方式中，根据所述多个词条标签分别对应的置信度以及根据所述语音对话内容的上下文内容，对所述多个词条标签进行排序。

在一种可选地实施方式中，所述有监督学习模型通过下述方法确定：确定多个样本词条对应的输入特征，以及确定所述多个样本词条对应标签的样本标签置信度；将所述样本标签置信度作为有监督学习模型的训练目标参数，根据所述多个样本词条的所述输入特征，对所述有监督学习模型进行标签置信度训练，以通过训练的所述有监督学习模型获取词条标签的置信度。

在一种可选地实施方式中，样本词条对应的输入特征包括以下至少之一：使用通用词对所述样本词条进行查询的通用词频、使用搜索词查询所述样本词条的搜索词频、点击所述样本词条对应的查询结果的点击词频。

在一种可选地实施方式中，将所述多个样本词条的所述输入特征分别输入所述有监督学习模型，通过所述有监督学习模型输出各个样本词条对应的预测标签置信度；根据预设的损失函数，确定各个样本词条的预测标签置信度与对应的所述样本标签置信度的差异；根据所述差异调整所述有监督学习模型中的训练参数，并使用所述训练参数继续对所述有监督学习模型进行训练。

在一种可选地实施方式中，所述样本词条包括对应有多个标签的多标签样本词条，获取多标签样本词条的用户标注数据，根据所述用户标注数据确定所述多标签样本词条的多个标签分别对应的多个样本标签置信度。

在一种可选地实施方式中，所述样本词条包括对应有一个标签的单标签样本词条，为所述单标签样本词条对应的标签的样本标签置信度设置第一置信度值。

在一种可选地实施方式中，所述用户输入的语音对话内容为用于指示进行目标对象检索的语音内容，所述词条至少包括所述目标对象对应的目标对象词条；所述反馈确定模块506包括：检索确定模块，用于根据所述目标对象词条及多个词条标签分别对应的置信度，确定包含所述目标对象的检索结果的对话反馈内容。

实施例五

一种终端设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如上所述的语音交互方法对应的操作。

具体地，参照图7，示出了根据本发明实施例五的一种终端设备的结构示意图，本发明具体实施例并不对终端设备的具体实现做限定。

如图7所示，该终端设备可以包括：处理器(processor)602、通信接口(Communications Interface)604、存储器(memory)606、以及通信总线608。

其中：

处理器602、通信接口604、以及存储器606通过通信总线608完成相互间的通信。

通信接口604，用于与其它终端设备或服务器进行通信。

处理器602，用于执行程序610，具体可以执行上述语音交互方法实施例中的相关步骤。

具体地，程序610可以包括程序代码，该程序代码包括计算机操作指令。

处理器602可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。终端设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器606，用于存放程序610。存储器606可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序610具体可以用于使得处理器602执行以下操作：对用户输入的语音对话内容进行分析，获取所述语音对话内容中的词条；将所述词条输入至训练的有监督学习模型，通过所述有监督学习模型输出所述词条的多个词条标签及每个词条标签对应的置信度；根据所述词条及多个词条标签分别对应的置信度，确定所述语音对话内容对应的对话反馈内容，以进行语音交互。

在一种可选地实施方式中，所述用户输入的语音对话内容为用于指示进行目标对象检索的语音内容，所述词条至少包括所述目标对象对应的目标对象词条；所述根据所述词条及多个词条标签分别对应的置信度，确定所述语音对话内容对应的对话反馈内容，包括：根据所述目标对象词条及多个词条标签分别对应的置信度，确定包含所述目标对象的检索结果的对话反馈内容。

程序610中各步骤的具体实现可以参见上述语音交互方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

本实施例的终端设备，通过对用户输入的语音对话内容进行分析，获取所述语音对话内容中的词条；之后将所述词条输入至训练的有监督学习模型，通过所述有监督学习模型输出所述词条的多个词条标签及每个词条标签对应的置信度，使得不同的标签之间具有可比性，后续根据所述词条及多个词条标签分别对应的置信度确定所述语音对话内容对应的对话反馈内容来完成语音交互时，可以根据多个词条标签分别对应的置信度从多个词条标签选择一个，使得确定的对话反馈内容更加符合用户的需求，即在实际使用时，提高了对话模块DM的命中率，避免了现有技术中选择的标签不符合用户需求导致对话模块DW的命中率降低的问题。

需要指出，根据实施的需要，可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本发明实施例的目的。

上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的语音交互方法。此外，当通用计算机访问用于实现在此示出的语音交互方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的语音交互方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明实施例的范围。

以上实施方式仅用于说明本发明实施例，而并非对本发明实施例的限制，有关技术领域的普通技术人员，在不脱离本发明实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明实施例的范畴，本发明实施例的专利保护范围应由权利要求限定。

Claims

1.一种语音交互方法，其特征在于，包括：

对用户输入的语音对话内容进行分析，获取所述语音对话内容中的词条；

将所述词条输入至训练的有监督学习模型，通过所述有监督学习模型输出所述词条的多个词条标签及每个词条标签对应的置信度；

根据所述词条及多个词条标签分别对应的置信度，确定所述语音对话内容对应的对话反馈内容，以进行语音交互。

2.根据权利要求1所述的方法，其中，

根据所述多个词条标签分别对应的置信度，对所述多个词条标签进行排序；

根据排序结果以及所述词条，确定所述语音对话内容对应的对话反馈内容。

3.根据权利要求2所述的方法，其中，根据所述多个词条标签分别对应的置信度以及根据所述语音对话内容的上下文内容，对所述多个词条标签进行排序。

4.根据权利要求1所述的方法，其中，所述有监督学习模型通过下述方法确定：

确定多个样本词条对应的输入特征，以及确定所述多个样本词条对应标签的样本标签置信度；

将所述样本标签置信度作为有监督学习模型的训练目标参数，根据所述多个样本词条的所述输入特征，对所述有监督学习模型进行标签置信度训练，以通过训练的所述有监督学习模型获取词条标签的置信度。

5.根据权利要求4所述的方法，其中，样本词条对应的输入特征包括以下至少之一：使用通用词对所述样本词条进行查询的通用词频、使用搜索词查询所述样本词条的搜索词频、点击所述样本词条对应的查询结果的点击词频。

6.根据权利要求4或5所述的方法，其中，将所述多个样本词条的所述输入特征分别输入所述有监督学习模型，通过所述有监督学习模型输出各个样本词条对应的预测标签置信度；

根据预设的损失函数，确定各个样本词条的预测标签置信度与对应的所述样本标签置信度的差异；

根据所述差异调整所述有监督学习模型中的训练参数，并使用所述训练参数继续对所述有监督学习模型进行训练。

7.根据权利要求4所述的方法，其中，所述样本词条包括对应有多个标签的多标签样本词条，获取多标签样本词条的用户标注数据，根据所述用户标注数据确定所述多标签样本词条的多个标签分别对应的多个样本标签置信度。

8.根据权利要求4所述的方法，其中，所述样本词条包括对应有一个标签的单标签样本词条，为所述单标签样本词条对应的标签的样本标签置信度设置第一置信度值。

9.根据权利要求1所述的方法，其中，所述用户输入的语音对话内容为用于指示进行目标对象检索的语音内容，所述词条至少包括所述目标对象对应的目标对象词条；

所述根据所述词条及多个词条标签分别对应的置信度，确定所述语音对话内容对应的对话反馈内容，包括：

根据所述目标对象词条及多个词条标签分别对应的置信度，确定包含所述目标对象的检索结果的对话反馈内容。

10.一种语音交互装置，其特征在于，包括：

词条获取模块，用于对用户输入的语音对话内容进行分析，获取所述语音对话内容中的词条；

置信度确定模块，用于将所述词条输入至训练的有监督学习模型，通过所述有监督学习模型输出所述词条的多个词条标签及每个词条标签对应的置信度；

反馈确定模块，用于根据所述词条及多个词条标签分别对应的置信度，确定所述语音对话内容对应的对话反馈内容，以进行语音交互。

11.一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-9中任一所述的语音交互方法。