CN113806467A

CN113806467A - 交互控制方法、对话策略调整方法、电子设备及存储介质

Info

Publication number: CN113806467A
Application number: CN202111102617.0A
Authority: CN
Inventors: 施晨; 张增明; 姜飞俊; 胡于响
Original assignee: Alibaba Cloud Computing Ltd
Current assignee: Alibaba Cloud Computing Ltd
Priority date: 2021-09-21
Filing date: 2021-09-21
Publication date: 2021-12-17

Abstract

本申请实施例提供一种基于用户行为的交互控制方法、对话策略调整方法、电子设备及计算机存储介质，其中，基于用户行为的交互控制方法包括：确定收集的用户实时行为信息是否为负向用户行为信息；如是，则对备选技能中所述负向用户行为信息所对应的技能的置信度分数进行负向调整；根据调整后的置信度分数，从所述备选技能中选择置信度分数排名最高的技能进行展示。本申请实施例能够根据用户行为，动态提供对应的技能，改善了交互控制的灵活性与鲁棒性，优化了用户体验。

Description

交互控制方法、对话策略调整方法、电子设备及存储介质

技术领域

本申请实施例涉及互联网技术领域，尤其涉及一种基于用户行为的交互控制方法、一种对话策略调整方法、一种电子设备及一种计算机存储介质。

背景技术

随着互联网技术的发展，用户对于人机之间的交互控制具有更加无缝和高效的体验要求。但由于用户类型的多样化以及搭载的三方技能的广谱化，对于一个用户行为通常会对应多个技能为其进行服务。例如，用户输入一个语音指令，与语音内容对应的音乐、视频、百科等多个技能可以为其进行服务。

因此，如何获得与用户行为最为相关的技能进行展示，以改善人机之间交互控制的用户体验成为亟待解决的技术问题。

发明内容

有鉴于此，本申请实施例提供一种基于用户行为的交互控制方案，以至少部分解决上述问题。

根据本申请实施例的第一方面，提供了一种基于用户行为的交互控制方法，包括：确定收集的用户实时行为信息是否为负向用户行为信息；如是，则对备选技能中所述负向用户行为信息所对应的技能的置信度分数进行负向调整；根据调整后的置信度分数，从所述备选技能中选择置信度分数排名最高的技能进行展示。

根据本申请实施例的第二方面，提供了一种基于用户行为的对话策略调整方法，包括：收集用户和语音助理系统之间的多轮次对话，并实时确定所述对话是否为负向用户行为信息；如是，则对所述语音助理系统所给出的备选技能中所述负向用户行为信息所对应的技能的置信度分数进行负向调整；根据调整后的置信度分数，令所述语音助理系统从所述备选技能中选择置信度分数排名最高的技能进行展示。

根据本申请实施例的第三方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一方面所述的基于用户行为的交互控制方法对应的操作。

根据本申请实施例的第四方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的基于用户行为的交互控制方法。

根据本申请实施例的第五方面，提供了一种计算机程序产品，包括计算机指令，所述计算机指令指示计算设备执行如第一方面所述的基于用户行为的交互控制方法对应的操作。

根据本申请实施例提供的基于用户行为的交互控制方案，当收集的用户实时行为信息为负向用户行为信息时，则将备选技能中负向用户行为信息所对应的技能的置信度分数进行负向调整。因此，本申请实施例通过动态调整负向用户行为信息所对应的技能的置信度分数，令备选技能中的置信度分数排名最高的技能替换负向用户行为信息所对应的技能。本申请实施例能够根据用户行为，动态提供对应的技能，改善了交互控制的灵活性与鲁棒性，优化了用户体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为适用本申请实施例的基于用户行为的交互控制方法的示例性系统的示意图；

图2为根据本申请一实施例的交互控制方法的步骤流程图；

图3为根据本申请一实施例的交互控制方法中的步骤21的步骤流程图；

图4为根据本申请另一实施例的交互控制方法的步骤流程图；

图5为根据本申请再一实施例的交互控制方法的实现示意图；

图6为根据本申请再一实施例的交互控制方法的实现示意图；

图7为根据本申请再一实施例的交互控制装置的结构框图；

图8为根据本申请再一实施例的一种电子设备的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本申请实施例中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请实施例保护的范围。

下面结合本申请实施例附图进一步说明本申请实施例具体实现。

本申请涉及基于用户行为的交互控制方案，其中用户行为包括用户输入的语音、文字、图像、视频等用于实现人机交互控制的行为。例如，用户通过安装于用户设备的语音助理输入的语音指令，语音助理使用自动话语辨识(ASR)和自动语言处理(NLP)算法来处理语音指令以确定语音指令对应的内容，并基于内容确定与语音内容对应的音乐、视频、百科等多个技能可以为其进行服务。具体的服务方式可以采用电子设备的音频或者显示装置对技能进行展示。用户可以通过多次输入语音指令对展示的技能进行调整，以获得满足用户需求的技能。

语音助理安装的用户设备可以至少包括：网络接口、麦克风和扬声器的电子设备。

用户设备可以为手机、PAD、计算机，用户设备可以与服务器连接，用户设备本地或者通过服务器提供与用户行为对应的技能。

图1示出了一种适用本申请实施例的基于用户行为的交互控制方法的示例性系统。如图1所示，该系统100可以包括服务器102、通信网络104和/或一个或多个用户设备106，图1中示例为多个用户设备。

服务器102可以是用于存储信息、数据、程序和/或任何其他合适类型的内容的任何适当的服务器。在一些实施例中，服务器102可以执行任何适当的功能。例如，在一些实施例中，服务器102可以用于提供视频、音乐、图像、百科、天气、闹钟等各类技能。

在一些实施例中，通信网络104可以是一个或多个有线和/或无线网络的任何适当的组合。例如，通信网络104能够包括以下各项中的任何一种或多种：互联网、内联网、广域网(WAN)、局域网(LAN)、无线网络、数字订户线路(DSL)网络、帧中继网络、异步转移模式(ATM)网络、虚拟专用网(VPN)和/或任何其它合适的通信网络。用户设备106能够通过一个或多个通信链路(例如，通信链路112)连接到通信网络104，该通信网络104能够经由一个或多个通信链路(例如，通信链路114)被链接到服务器102。通信链路可以是适合于在用户设备106和服务器102之间传送数据的任何通信链路，诸如网络链路、拨号链路、无线链路、硬连线链路、任何其它合适的通信链路或此类链路的任何合适的组合。

用户设备106可以包括适合于呈现视频、音乐、图像、百科、天气、闹钟的任何一个或多个用户设备。在一些实施例中，用户设备106可以包括任何合适类型的设备。例如，在一些实施例中，用户设备106可以包括移动设备、平板计算机、膝上型计算机、台式计算机、可穿戴计算机、游戏控制台、媒体播放器、车辆娱乐系统和/或任何其他合适类型的用户设备。注意，在一些实施例中，用户设备106可以附加地或可替选地用于实现结合图2和图3描述的任何功能以呈现视频、音乐、图像、百科、天气、闹钟。

尽管将服务器102图示为一个设备，但是在一些实施例中，可以使用任何适当数量的设备来执行由服务器102执行的功能。例如，在一些实施例中，可以使用多个设备来实现由服务器102执行的功能。或者，可使用云服务实现服务器102的功能。

基于上述系统，本申请实施例提供了一种基于用户行为的交互控制方法，以下通过多个实施例进行说明。

在本申请一些具体实现中，参见图2，提供一种基于用户行为的交互控制方法，包括：

21、确定收集的用户实时行为信息是否为负向用户行为信息。

示例性地，用户实时行为信息包括：用户输入的语音、文字、图片、视频等行为信息。本申请实施例收集用户实时行为信息可以采用用户设备的键盘、麦克风、绘图板、摄像头等实现。

在一些具体的实施例中，确定收集的用户实时行为信息是否为负向用户行为信息，包括：

如用户实时行为中出现：用户的重复输入、当前技能的展示被打断、系统输出被打断、用户输出责备信息、系统输出无实质内容、用户无响应中至少一种，则用户实时行为信息为负向用户行为信息。

具体地，用户的重复输入表征用户并未获得满意的技能，即用户实时行为信息为负向用户行为信息。用户重复输入表明用户初步判断输入不清晰或者存在其他输入表述缺陷，或者用户设备未能对输入指令进行正确的解析。用户具有通过重复输入，再次执行用户输入指令解析来获得满意的与用户实时行为信息对应的技能。

具体地，当前技能的展示被打断或者系统输出被打断，甚至用户输出责备信息表征用户并未获得满意的技能，即用户实时行为信息为负向用户行为信息。

用户的重复输入、当前技能的展示被打断、系统输出被打断、用户输出责备信息都属于显式负向用户行为信息，而一些用户行为虽然没有显式负向用户行为信息明确表示用户并未获得满意的技能，其也隐含了用户并未获得满意的技能，称之为隐式负向用户行为信息。

具体地，系统输出“对不起，我不知道”这类无实质内容，以及用户无响应属于隐式负向用户行为信息。

在本申请一些具体实现中，由于交互链路日志中存储了用户输入输出信息以及系统输出信息，通过根据交互链路日志中当前用户交互信息或者历史用户交互信息与当前用户交互信息比对，可以获得用户的重复输入、用户输出责备信息、系统输出无实质内容、用户无响应的用户行为信息。

在本申请一些具体实现中，由于埋点信息会记录展示是否出现中断，则可以通过技能展示或者系统输出时的埋点信息获得当前技能的展示被打断、系统输出被打断。

本申请实施例通过用户实时行为信息是否为负向用户行为信息，则可以实时对用户行为进行感知，能够根据用户行为信息的反馈，对用户行为信息所对应的技能进行实时调整。

22、如确定为负向用户行为信息，则对备选技能中负向用户行为信息所对应的技能的置信度分数进行负向调整。

在本申请一些具体实现中，一个用户行为信息会对应多个备选技能，各备选技能具有对应的置信度分数。各备选技能对应的置信度分数表征各备选技能与用户行为的相关度。如确定获得负向用户行为信息，则表明对应的技能与该用户行为的相关度被评估的过高，则通过对该技能的置信度分数进行负向调整，以修正该技能与用户行为信息的相关度。

在本申请一些具体实现中，参见图3，步骤22包括：

221、如为负向用户行为信息，且当前展示技能为负向用户行为信息对应的技能，则对当前展示技能的置信度分数添加惩罚性的偏置项。

具体地，惩罚性的偏置项(Punish bias)用于表征对置信度分数所进行的负向调整幅度，惩罚性的偏置项的数值根据所有技能的置信度分数范围确定。

222、根据惩罚性的偏执项，对当前展示技能对应的置信度分数进行负向偏置调整。

本申请实施例通过添加惩罚性的偏置项，能够根据负向用户行为信息实时对其对应的技能的置信度分数进行负向调整，实现了技能的置信度分数的灵活调整。

23、根据调整后的置信度分数，从备选技能中选择置信度分数排名最高的技能进行展示。

在本申请一些具体实现中，由于负向用户行为信息对应的技能的置信度分数被负向调整，则备选技能中置信度分数排名发生变化，从备选技能中选择置信度分数排名最高的技能替换负向用户行为信息所对应的技能。因此，本申请实施例能够实现实时根据负向用户行为信息，调整展示的技能。

因此，本申请实施例通过动态调整负向用户行为信息所对应的技能的置信度分数，令备选技能中的置信度分数排名最高的技能替换负向用户行为信息所对应的技能。本申请实施例能够根据用户行为，动态提供对应的技能，改善了交互控制的灵活性与鲁棒性，优化了用户体验。

本实施例的基于用户行为的交互控制方法可以由任意适当的具有数据处理能力的电子设备执行，包括但不限于：服务器、移动终端(如手机、PAD等)和PC机等。

在本申请另一些具体实现中，参见图4，本申请实施例应用于语音助理场景下的交互控制方法，包括：

41、收集用户和语音助理系统之间的多轮次对话，每个对话轮次包括用户提问和语音助理回答。

示例性地，每次用户提问采用Q代表，每次语音助理回答采用R代表，其组成一个轮次T，用户和语音助理系统之间的多轮次对话采用序列C表示，具体为：

其中Q₁,Q₂,…,Q_N为用户的N次提问，R₁,R₂,…,R_N为用户的N次回答。

42、实时确定每个轮次的对话是否为负向用户行为信息，即是否包括：用户的重复发问、当前技能的展示被打断、系统回复语音被打断、用户输出责备信息、系统输出无实质内容、用户无响应中至少一种。

具体地，参见表一，将负向用户行为信息分为显式负向用户行为信和隐式负向用户行为信息。

表一

用户的重复发问、当前技能的展示被打断、系统回复语音被打断、用户输出责备信息都属于显式负向用户行为信息，而一些用户行为虽然没有显式负向用户行为信息明确表示用户并未获得满意的技能，其也隐含了用户并未获得满意的技能，称之为隐式负向用户行为信息。

本申请实施例通过不仅对显式负向用户行为信息进行实时确定，也对隐式负向用户行为信息进行实时确定，能够更加全面地对负向用户行为信息进行实时确定，从而对负向用户行为信息对应的技能进行调整设定。

在本申请一些具体实现中，通过检查语音链路日志中当前用户提问和语音助理回答或者前一轮次用户提问和语音助理回答与当前轮次用户提问和语音助理回答比对，可以获得用户的重复输入、用户输出责备信息、系统输出无实质内容、用户无响应的用户行为信息。

本申请实施例可以准确及时地对获得用户的重复输入、用户输出责备信息、系统输出无实质内容、用户无响应的用户行为信息，以便实时对负向用户行为信息进行实时确定。

在本申请一些具体实现中，通过技能展示或者系统回复语音播放的埋点信息捕获当前技能的展示被打断、系统输出被打断。

本申请实施例可以准确及时地对获得当前技能的展示被打断、系统输出被打断的用户行为信息，以便实时对负向用户行为信息进行实时确定。

对每个轮次T，实时确定负向用户行为信息为：

其中，每个B_i1,…,B_i6分别为表一中的一种用户负向行为，B_i表示对话的负向用户行为信息评价。一个轮次的对话中出现表一中的一种用户负向行为，即B_i1,…,B_i6中的任一个值为1，则B_i＝1，即对话为负向用户行为信息，否则B_i＝0，即该对话为正向用户行为信息。

示例性地，当第一轮次的对话Q₁R₁以及第二轮次的对话Q₂发生，通过比对发现Q₁和Q₂为用户重复发问，则确定为负向用户行为信息。

示例性地，当第一轮次的对话Q₁R₁发生，与Q₁对应的技能的展示被用户打断，则将第一轮次的对话信息确定为负向用户行为信息。

示例性地，当第一轮次的对话Q₁R₁发生，与R₁被用户打断，则确定为负向用户行为信息。

示例性地，当第一轮次的对话Q₁R₁发生，用户输出责备信息，比如侮辱性语言，则确定为负向用户行为信息。

示例性地，当第一轮次的对话Q₁发生，系统输出“对不起，我不知道”，则确定为负向用户行为信息。

示例性地，当多轮次对话发生，用户不再响应语音助理，则确定为负向用户行为信息。

43、如果一个轮次的对话为负向用户行为信息，且当前展示技能为负向用户行为信息对应的技能，则对当前展示技能的置信度分数添加惩罚性的偏置项，获得调整后的当前展示技能的置信度分数。

具体地，对于每个问句Q，语音助理召回包含L个备选技能的集合{Si₁，Si₂，...，Si_L}。利用训练好的分类器f计算出每个技能对应的置信度分数Score(Si_i)∈[0，1]。即，每个技能对应的置信度分数大于等于0，且小于等于1。若当前展示技能Si_j与前一轮次对话对应的技能Si_j-1相同，且前一轮次的对话出现了用户负向行为即B_i等于1，则给Si_j对应的置信度分数添加一个惩罚性的偏置项。即：

Ada_score(S_ij)＝Score(s_ij)+λ_i，其中，Ada_score(S_ij)：为调整后的当前展示技能Si_j的置信度分数，Score(S_ij)为调整前的当前展示技能Si_j的置信度分数，λ_i为添加的惩罚性的偏置项。

在本方案应用的场景中，根据分类器f计算出每个技能对应的置信度分数Score(Si_j)∈[0，1]，选择将惩罚性的偏置项设为0.5。

44、根据调整后的当前展示技能的置信度分数，从备选技能中选择置信度分数排名最高的技能进行展示。

具体地，当采用Ada_score(S_ij)对当前展示技能Si_j的置信度分数进行调整后，当前展示技能Si_j在L个备选技能的集合{Si₁，Si₂，...，Si_L}中的排名降低，Si_j+1的置信度分数Score(Si_j+1)排名最高，则选择展示技能Si_j+1。

参见图5，示例一中用户输入Q₁“听到下雨的声音”，语音助理回答R₁“请听听到下雨的声音”，语音助理首先给出了“声音博物馆”技能Si₁。但在展示“声音博物馆”技能Si₁中播放下雨声时被用户打断，且用户重复输入Q₂“听到下雨的声音”，则满足表一中“当前技能的展示被打断”以及“用户重复发问”，确定为负向用户行为信息。“声音博物馆”技能Si₁为负向用户行为信息对应的技能，对“声音博物馆”技能Si₁的置信度分数Score(Si₁)添加惩罚性的偏置项，获得调整后的“声音博物馆”技能Si₁的置信度分数Ada_Score(Si₁)。对于用户输入Q₁“听到下雨的声音”，具有两个排名最高的技能：“声音博物馆”技能Si₁技能和“周杰伦的歌曲”技能Si₂，这两个技能的置信度分数较为接近。调整后的“声音博物馆”技能Si₁技能的置信度分数Ada_Score(Si₁)要低于“周杰伦的歌曲”技能Si₂的置信度分数Score(Si₂)，语音助理回答R₂“请听听到下雨的声音”，进一步展示“周杰伦的歌曲”技能Si₂，即播放周杰伦的歌曲“听到下雨的声音”。

参见图6，示例二中用户输入Q₁“明月几时有”，语音助理回答R₁“请听明月几时有”，语音助理首先给出了“王菲的歌曲”技能Si₁。但在展示“王菲的歌曲”技能Si₁中播放王菲歌曲“明月几时有”时被用户打断，则满足表一中“当前技能的展示被打断”，确定为负向用户行为信息。“王菲的歌曲”技能Si₁为负向用户行为信息对应的技能，对“王菲的歌曲”技能Si₁的置信度分数Score(Si₁)添加惩罚性的偏置项，获得调整后的“王菲的歌曲”的置信度分数Ada_Score(Si₁)。对于用户输入Q₁“明月几时有”，具有两个排名最高的技能：“王菲的歌曲”技能Si₁技能和“苏轼的诗词”技能Si₂，这两个技能的置信度分数较为接近。调整后的“王菲的歌曲”技能的置信度分数Ada_Score(Si₁)要低于“苏轼的诗词”技能Si₂，语音助理回答R₂“请听明月几时有”，进一步展示“苏轼的诗词”技能Si₂，即播放苏轼的诗“水调歌头”。

对于两个排名最高的技能的置信度分数较为接近的混淆场景，当先前提供的技能导致负向用户行为信息，可以实时纠正展示的技能，展示调整后的技能，改善了语音助理的灵活性与鲁棒性，提升了用户体验。

本申请实施例由于引入了实时负向用户行为信息，并通过对当前技能的置信度分数添加惩罚性的偏置项，因此使语音助理的技能选择策略不再实时根据用户的体验来自适应变更。本申请实施例有助于鼓励语音助手为用户提供更多样性的技能，当先前提供的技能导致负向用户行为信息，则通过调整先前提供的技能的置信度分数，重新提供满足用户需求的技能。

对应上述方法，参见图7，本申请实施例还提供一种基于用户行为的交互控制装置，包括：

行为确定模块71，用于确定收集的用户实时行为信息是否为负向用户行为信息。

分数调整模块72，用于当为负向用户行为信息时，对备选技能中所述负向用户行为信息所对应的技能的置信度分数进行负向调整。

技能展示模块73，用于根据调整后的置信度分数，从所述备选技能中选择置信度分数排名最高的技能进行展示。

参照图8，示出了根据本申请实施例的一种电子设备的结构示意图，本申请具体实施例并不对电子设备的具体实现做限定。

如图8所示，该电子设备可以包括：处理器(processor)802、通信接口(Communications Interface)804、存储器(memory)806、以及通信总线808。

其中：

处理器802、通信接口804、以及存储器806通过通信总线808完成相互间的通信。

通信接口804，用于与其它电子设备或服务器进行通信。

处理器802，用于执行程序810，具体可以执行上述校验码生成方法实施例中的相关步骤。

具体地，程序810可以包括程序代码，该程序代码包括计算机操作指令。

处理器802可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器806，用于存放程序810。存储器806可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序810具体可以用于使得处理器802执行前述多个方法实施例中任一所描述的方法。

程序810中各步骤的具体实现可以参见上述交互控制方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

本实施例的电子设备通过动态调整负向用户行为信息所对应的技能的置信度分数，令备选技能中的置信度分数排名最高的技能替换负向用户行为信息所对应的技能。本申请实施例能够根据用户行为，动态提供对应的技能，改善了交互控制的灵活性与鲁棒性，优化了用户体验。

本申请实施例还提供了一种计算机程序产品，包括计算机指令，该计算机指令指示计算设备执行上述多个方法实施例中的任一对应的操作。

需要指出，根据实施的需要，可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本申请实施例的目的。

上述根据本申请实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的方法。此外，当通用计算机访问用于实现在此示出的方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

以上实施方式仅用于说明本申请实施例，而并非对本申请实施例的限制，有关技术领域的普通技术人员，在不脱离本申请实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本申请实施例的范畴，本申请实施例的专利保护范围应由权利要求限定。

Claims

1.一种基于用户行为的交互控制方法，包括：

确定收集的用户实时行为信息是否为负向用户行为信息；

如是，则对备选技能中所述负向用户行为信息所对应的技能的置信度分数进行负向调整；

根据调整后的置信度分数，从所述备选技能中选择置信度分数排名最高的技能进行展示。

2.根据权利要求1所述的方法，其中，所述确定收集的用户实时行为信息是否为负向用户行为信息，包括：

3.根据权利要求2所述的方法，其中，所述用户的重复输入、用户输出责备信息、系统输出无实质内容、用户无响应为根据交互链路日志中当前用户交互信息获得；或者，根据交互链路日志中历史用户交互信息与当前用户交互信息比对获得。

4.根据权利要求2所述的方法，其中，所述当前技能的展示被打断、系统输出被打断为根据当前技能展示或者系统输出时的埋点信息获得。

5.根据权利要求1-4中任一项所述的方法，其中，所述如是，则对备选技能中所述负向用户行为信息所对应的技能的置信度分数进行负向调整，包括：

如为负向用户行为信息，且当前展示技能为所述负向用户行为信息对应的技能，则对所述当前展示技能的置信度分数添加惩罚性的偏置项；

根据所述惩罚性的偏执项，对所述当前展示技能对应的置信度分数进行负向偏置调整。

6.一种基于用户行为的对话策略调整方法，包括：

收集用户和语音助理系统之间的多轮次对话，并实时确定所述对话是否为负向用户行为信息；

如是，则对所述语音助理系统所给出的备选技能中所述负向用户行为信息所对应的技能的置信度分数进行负向调整；

根据调整后的置信度分数，令所述语音助理系统从所述备选技能中选择置信度分数排名最高的技能进行展示。

7.根据权利要求6所述的方法，其中，所述如是，则对所述语音助理系统所给出的备选技能中所述负向用户行为信息所对应的技能的置信度分数进行负向调整，包括：

8.一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-7中任一项所述方法对应的操作。

9.一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-7中任一所述方法。

10.一种计算机程序产品，包括计算机指令，所述计算机指令指示计算设备执行如权利要求1-7中任一所述方法对应的操作。