CN110473537A

CN110473537A - 语音技能的控制方法、装置、设备及存储介质

Info

Publication number: CN110473537A
Application number: CN201910777055.6A
Authority: CN
Inventors: 熊志伟; 周晓
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Shanghai Xiaodu Technology Co Ltd
Priority date: 2019-08-22
Filing date: 2019-08-22
Publication date: 2019-11-19
Anticipated expiration: 2039-08-22
Also published as: CN110473537B

Abstract

本申请公开了语音技能的控制方法、装置、设备及存储介质，涉及人工智能领域。具体实现方案为：语音技能的控制方法应用于电子设备，电子设备包括：多个语音技能，多个语音技能包括：第三方语音技能和至少一个内置语音技能，电子设备当前处于第三方语音技能，方法包括：接收用户的当前需求指令；响应于当前需求指令计算当前需求指令分别与各语音技能对应的技能控制特征数据；各语音技能包括：当前第三方语音技能和至少一个内置语音技能；根据技能控制特征数据确定与当前需求指令相匹配的语音技能；采用相匹配的语音技能对当前需求指令进行响应。

Description

语音技能的控制方法、装置、设备及存储介质

技术领域

本申请涉及到数据处理技术领域，尤其涉及人工智能技术。

背景技术

随着人工智能技术的成熟，出现了越来越多的智能语音交互设备，如智能音箱，智能电视，智能冰箱等家电设备。为了不断丰富智能语音交互设备的语音技能，在智能语音交互设备中可同时存在内置语音技能(英文为：built-in)和第三方语音技能。

现有技术中，若用户进入到智能语音交互设备的某一第三方语音技能中后，则智能语音交互设备默认用户的所有需求均限定在当前的第三方语音技能中，均由当前第三方语音技能进行用户需求的响应。

但当前第三方语音技能所能提供的用户需求有限，导致不能对每个用户需求均作出满意响应。若想要满足用户新的需求，需要用户发出切出当前第三方语音技能的请求，再进入到另一匹配的语音技能中才能满足该新的用户需求，增加了用户使用智能语音交互设备的时间成本，无法实现语音技能间的平滑切换，降低了用户使用智能语音交互设备的体验。

发明内容

本申请实施例提供一种语音技能的控制方法、装置、设备及存储介质，解决了现有技术中不能对每个用户需求均作出满意响应，增加用户使用智能语音交互设备的时间成本，无法实现语音技能间的平滑切换，降低了用户使用智能语音交互设备的体验的技术问题。

本申请实施例第一方面提供一种语音技能的控制方法，所述方法应用于电子设备，所述电子设备包括：多个语音技能，所述多个语音技能包括：第三方语音技能和至少一个内置语音技能，所述电子设备当前处于所述第三方语音技能，所述方法包括：

接收用户的当前需求指令；响应于所述当前需求指令计算所述当前需求指令分别与各语音技能对应的技能控制特征数据；所述各语音技能包括：所述当前第三方语音技能和至少一个内置语音技能；根据所述技能控制特征数据确定与所述当前需求指令相匹配的语音技能；采用所述相匹配的语音技能对所述当前需求指令进行响应。

本申请实施例中，能够在每次接收到用户的当前需求指令后，都能直接由相匹配的语音技能进行响应，对每个用户需求均作出满意的响应。若相匹配的语音技能为某一内置语音技能，也能够在用户无感知的情况下实现语音技能间的平滑切换。降低了用户使用智能语音交互设备的时间成本，提高了用户使用智能语音交互设备的体验。

进一步地，如上所述的方法，所述技能控制特征数据包括意图匹配度；所述根据所述技能控制特征数据确定与所述当前需求指令相匹配的语音技能，包括：若所述意图匹配度满足预设条件，则根据所述意图匹配度确定与所述当前需求指令相匹配的语音技能。

本申请实施例中，在判断出意图匹配度满足预设条件的情况下，单独采用当前需求指令分别与各语音技能的意图匹配度确定相匹配的语音技能，能够减少耗时。使相匹配的语音技能对当前需求指令快速进行响应。

进一步地，如上所述的方法，若所述意图匹配度满足预设条件，则根据所述意图匹配度确定与所述当前需求指令相匹配的语音技能，包括：若所述当前第三方语音技能对应的意图匹配度大于第一预设匹配度阈值且各所述内置语音技能对应的意图匹配度均小于第二预设匹配度阈值，则确定与所述当前需求指令相匹配的语音技能为所述当前第三方语音技能；其中，第一预设匹配度阈值与所述第二预设匹配度阈值的差值大于预设数值。

本申请实施例中，若当前第三方语音技能对应的意图匹配度明显大于其他内置语音技能的意图匹配度，则可高置信地确定与当前第三方语音技能相匹配的语音技能为当前第三方语音技能，能够保证匹配结果的准确性的前提下，减少了耗时。

进一步地，如上所述的方法，技能控制特征数据还包括：技能满足度；所述根据所述技能控制特征数据确定与所述当前需求指令相匹配的语音技能，包括：若所述意图匹配度不满足预设条件，则根据所述意图匹配度和所述技能满足度确定与所述当前需求指令相匹配的语音技能。

本申请实施例中，在判断出意图匹配度不满足预设条件的情况下，采用意图匹配度和所述技能满足度确定与所述当前需求指令相匹配的语音技能，能够保证匹配结果的准确性。

进一步地，如上所述的方法，根据所述意图匹配度和所述技能满足度确定与所述当前需求指令相匹配的语音技能，包括：将各所述语音技能对应的意图匹配度和技能满足度输入到已训练至收敛的总分值预测模型中，以由所述总分值预测模型输出各所述语音技能对应的技能控制总分值；将最大技能控制总分值对应的语音技能确定为与所述当前需求指令相匹配的语音技能。

本申请实施例中，采用已训练至收敛的总分值预测模型计算技能控制总分值，并将最大技能控制总分值对应的语音技能确定为与所述当前需求指令相匹配的语音技能，由于已训练至收敛的总分值预测模型能够对技能控制总分值进行准确预测，所以提高了匹配结果的准确性。

进一步地，如上所述的方法，所述计算所述当前需求指令与所述当前第三方语音技能的意图匹配度，包括：获取所述当前需求指令在所述当前第三方语音技能中对应的至少一种用户行为文本；分别计算所述当前需求指令与各用户行为文本的相似度分值；将最大相似度分值确定为所述意图匹配度。

本申请实施例中，能够在第三方语音技能的质量参差不齐的情况下，通过挖掘当前第三方语音技能内的用户行为数据与当前需求指令的相似度来确定意图匹配度，是更加适合第三方语音技能的方式，所以使确定出的与当前第三方语音技能的意图匹配度更加准确。

进一步地，如上所述的方法，所述用户行为文本包括：用户历史行为文本和用户当前行为文本；所述用户历史行为文本至少包括：前端页面展示的关键字文本，响应话术的关键字文本，当前需求指令与响应话术的重叠字文本和高频需求指令文本；所述用户当前行为文本包括：前一轮响应话术文本和当前轮期待响应话术文本。

本申请实施例中，通过确定用户历史行为数据、用户当前行为数据分别与当前需求指令的相似度，并将最大相似度分值确定为所述意图匹配度，由于用户行为数据更加全面，所以使得确定出的意图匹配度更加准确。

进一步地，如上所述的方法，分别计算所述当前需求指令与各用户行为文本的相似度分值，包括：

提取所述当前需求指令与各用户行为文本的文本匹配特征；将所述文本匹配特征输入到已训练至收敛的文本匹配模型中，以由所述文本匹配模型输出所述当前需求指令与各用户行为文本的第一相似度分值；若用户行为文本为所述用户当前行为文本，则将所述第一相似度分值确定为对应的相似度分值；若用户行为文本为所述用户历史行为文本，则根据第一相似度分值计算第二相似度分值，将所述第二相似度分值确定为对应的相似度分值。其中，所述文本匹配特征至少包括：文字重叠率，拼音编辑距离，重叠字的权重。

本申请实施例中，由于计算所述当前需求指令与各用户行为文本的相似度分值时，充分提取了文本匹配特征，并采用已训练至收敛的文本匹配模型计算相似度分值，所以使计算出的相似度分值更加准确。

进一步地，如上所述的方法，根据第一相似度分值计算第二相似度分值，包括：根据各所述用户历史行为文本的置信度确定对应的第一相似度分值的权重；将所述权重和对应的第一相似度分值的乘积确定为对应的用户历史行为文本的第二相似度分值。

本申请实施例中，由于计算当前需求指令与各用户历史行为文本的相似度时，根据每种用户历史行为文本的置信度设置不同的权重，使计算出的计算当前需求指令与各用户历史行为文本的相似度分值更加准确。

进一步地，如上所述的方法，计算所述当前需求指令与各所述内置语音技能的意图匹配度，包括：将所述当前需求指令输入至已训练至收敛的内置语音技能匹配度预测模型中,以由所述内置语音技能匹配度预测模型输出所述当前需求指令与各所述内置语音技能的意图匹配度。

在本申请实施例中，由于内置语音技能的质量通常比较高，能够明确确定每个已经发生过的需求指令对应的内置语音技能。所以内置语音技能匹配度预测模型的训练样本是采用已标注所属内置语音技能的需求指令，所以采用该已训练至收敛的内置语音技能匹配度预测模型计算当前需求指令与各所述内置语音技能的意图匹配度，是更适合内置语音技能的方式，使计算出的当前需求指令与各所述内置语音技能的意图匹配度更加准确。

进一步地，如上所述的方法，计算所述当前需求指令与所述当前第三方语音技能的技能满足度，包括：将所述当前第三方语音技能标识和所述当前需求指令输入到已训练至收敛的满足度预测模型中，以由所述满足度预测模型输出所述当前需求指令与所述当前第三方语音技能的技能满足度。

在本申请实施例中，由于已训练至收敛的满足度预测模型是通过已经发生过的第三方语音技能，需求指令与响应话术的对应关系训练得到的。能够使已训练至收敛的满足度预测模型更能体现每个语音技能是否能够真实满足需求指令。所以是更加适合第三方语音技能的方式，使计算出的当前需求指令与当前第三方语音技能的技能满足度更加准确。

进一步地，如上所述的方法，计算所述当前需求指令与所述当前第三方语音技能的技能满足度之前，还包括：采用已训练至收敛的响应类型预测模型对第一历史响应话术文本的类型进行预测，所述第一历史响应话术文本的类型包括：高满足度响应话术文本和低满足度响应话术文本；获取每个第一历史响应话术文本对应的需求指令，语音技能标识和预测类型，构成所述满足度预测模型的第一训练样本；采用所述第一训练样本对所述满足度预测模型进行训练，直至所述满足度预测模型收敛。

本申请实施例中，由于采用已训练至收敛的响应类型预测模型对第一历史响应话术文本的类型进行预测，已训练至收敛的响应类型预测模型为机器学习模型或深度学习模型，使预测出的第一历史响应话术文本的类型更加准确。并且采用更加准确的数据作为第一训练样本对满足度预测模型进行训练，使训练出的满足度预测模型更加准确，进而使计算出的当前需求指令与当前第三方语音技能的技能满足度更加准确。

进一步地，如上所述的方法，所述采用已训练至收敛的响应类型预测模型对第一历史响应话术文本的类型进行预测之前，还包括：将标注响应话术类型的第二历史响应话术文本作为所述响应类型预测模型的第二训练样本；采用所述第二训练样本对所述响应类型预测模型进行训练，直至所述响应类型预测模型收敛。

本申请实施例中，由于作为响应类型预测模型训练样本标注了响应话术类型，所以在对响应类型预测模型进行训练后，使训练出的响应类型预测模型更加准确。

进一步地，如上所述的方法，满足度预测模型和所述响应类型预测模型为逻辑回归模型。

本申请实施例中，由于逻辑回归模型为线性模型，所以采用响应类型预测模型和响应类型预测模型的训练和预测速度更加快速。

进一步地，如上所述的方法，计算所述当前需求指令与各所述内置语音技能的技能满足度，包括：将所述当前需求指令分别与各内置语音技能对应的资源进行匹配，确定与各内置语音技能的资源最高匹配度；将所述资源最高匹配度确定为所述当前需求指令与对应内置语音技能的技能满足度。

在本申请实施例中，由于利用当前需求指令与内置语音技能对应的资源进行匹配的方式是更加适合内置语音技能技能满足度的方式，所以使得当前需求指令与对应内置语音技能的技能满足度更加准确。

本申请实施例第二方面提供一种语音技能的控制装置，包括：

指令接收模块，用于接收用户的当前需求指令。控制特征计算模块，用于响应于所述当前需求指令计算所述当前需求指令分别与各语音技能对应的技能控制特征数据。技能匹配模块，用于根据所述技能控制特征数据确定与所述当前需求指令相匹配的语音技能。指令响应模块，用于采用所述相匹配的语音技能对所述当前需求指令进行响应。

进一步地，如上所述的装置，技能控制特征数据包括意图匹配度。技能匹配模块包括：第一技能匹配子模块和第二技能匹配子模块。

第一技能匹配子模块，用于若意图匹配度满足预设条件，则根据意图匹配度确定与当前需求指令相匹配的语音技能。

进一步地，如上所述的装置，第一技能匹配子模块，具体用于若当前第三方语音技能对应的意图匹配度大于第一预设匹配度阈值且各内置语音技能对应的意图匹配度均小于第二预设匹配度阈值，则确定与当前需求指令相匹配的语音技能为当前第三方语音技能；其中，第一预设匹配度阈值与第二预设匹配度阈值的差值大于预设数值。

进一步地，如上所述的装置，技能控制特征数据还包括：技能满足度。第二技能匹配模块，用于若意图匹配度不满足预设条件，则根据意图匹配度和技能满足度确定与当前需求指令相匹配的语音技能。

进一步地，如上所述的装置，第二技能匹配子模块，具体用于若意图匹配度不满足预设条件，则根据意图匹配度和技能满足度确定与当前需求指令相匹配的语音技能。

进一步地，如上所述的装置，控制特征计算模块包括：第一匹配度计算子模块，第二匹配度计算子模块，第一满足度计算子模块和第二满足度计算子模块。

第一匹配度计算子模块，用于获取当前需求指令在当前第三方语音技能中对应的至少一种用户行为文本；分别计算当前需求指令与各用户行为文本的相似度分值；将最大相似度分值确定为意图匹配度。

进一步地，如上所述的装置，用户行为文本包括：用户历史行为文本和用户当前行为文本；用户历史行为文本至少包括：前端页面展示的关键字文本，响应话术的关键字文本，当前需求指令与响应话术的重叠字文本和高频需求指令文本；用户当前行为文本包括：前一轮响应话术文本和当前轮期待响应话术文本。

进一步地，如上所述的装置，第一匹配度计算子模块，在分别计算当前需求指令与各用户行为文本的相似度分值时，具体用于提取当前需求指令与各用户行为文本的文本匹配特征；将文本匹配特征输入到已训练至收敛的文本匹配模型中，以由文本匹配模型输出当前需求指令与各用户行为文本的第一相似度分值；若用户行为文本为用户当前行为文本，则将第一相似度分值确定为对应的相似度分值；若用户行为文本为用户历史行为文本，则根据第一相似度分值计算第二相似度分值，将第二相似度分值确定为对应的相似度分值。

进一步地，如上所述的装置，文本匹配特征至少包括：文字重叠率，拼音编辑距离，重叠字的权重。

进一步地，如上所述的装置，第一匹配度计算子模块，在根据第一相似度分值计算第二相似度分值时，具体用于根据各用户历史行为文本的置信度确定对应的第一相似度分值的权重；将权重和对应的第一相似度分值的乘积确定为对应的用户历史行为文本的第二相似度分值。

进一步地，如上所述的装置，第二匹配度计算子模块，用于将当前需求指令输入至已训练至收敛的内置语音技能匹配度预测模型中,以由内置语音技能匹配度预测模型输出当前需求指令与各内置语音技能的意图匹配度。

进一步地，如上所述的装置，第一满足度计算子模块，用于将当前第三方语音技能标识和当前需求指令输入到已训练至收敛的满足度预测模型中，以由满足度预测模型输出当前需求指令与当前第三方语音技能的技能满足度。

进一步地，如上所述的装置，第一满足度计算子模块，在计算当前需求指令与当前第三方语音技能的技能满足度之前，还用于采用已训练至收敛的响应类型预测模型对第一历史响应话术文本的类型进行预测，第一历史响应话术文本的类型包括：高满足度响应话术文本和低满足度响应话术文本。获取每个第一历史响应话术文本对应的需求指令，语音技能标识和预测类型，构成满足度预测模型的第一训练样本。采用第一训练样本对满足度预测模型进行训练，直至满足度预测模型收敛。

进一步地，如上所述的装置，第一满足度计算子模块，在采用已训练至收敛的响应类型预测模型对第一历史响应话术文本的类型进行预测之前，还用于将标注响应话术类型的第二历史响应话术文本作为响应类型预测模型的第二训练样本。采用第二训练样本对响应类型预测模型进行训练，直至响应类型预测模型收敛。

其中，满足度预测模型和响应类型预测模型为逻辑回归模型。

进一步地，如上所述的装置，第二满足度计算子模块，用于将当前需求指令分别与各内置语音技能对应的资源进行匹配，确定与各内置语音技能的资源最高匹配度。将资源最高匹配度确定为当前需求指令与对应内置语音技能的技能满足度。

本申请实施例第三方面提供一种电子设备,包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够第一方面中任一项所述的方法。

本申请实施例第四方面提供一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行第一方面任一项所述的方法。

本申请实施例第五方面提供一种语音技能的控制方法，所述方法应用于电子设备，所述电子设备包括：第三方语音技能和内置语音技能，所述方法包括：

获取用户的当前需求指令；计算所述当前需求指令分别与各语音技能的技能控制特征数据；根据所述技能控制特征数据确定与所述当前需求指令相匹配的语音技能；采用所述相匹配的语音技能对所述当前需求指令进行响应。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是可以实现本申请实施例的语音技能的控制方法的第一场景图；

图2是可以实现本申请实施例的语音技能的控制方法的第二场景图；

图3是根据本申请第一实施例提供的语音技能的控制方法的流程示意图；

图4是根据本申请第二实施例提供的语音技能的控制方法的流程示意图；

图5是根据本申请第二实施例提供的语音技能的控制方法中步骤3021的流程示意图；

图6是根据本申请第二实施例提供的语音技能的控制方法中步骤3021b的流程示意图；

图7为根据本申请第二实施例提供的语音技能的控制方法中步骤3021b的原理图；

图8为根据本申请第二实施例提供的语音技能的控制方法中步骤3051的流程示意图；

图9为根据本申请第二实施例提供的语音技能的控制方法中步骤306的流程示意图；

图10为根据本申请第三实施例提供的语音技能的控制装置的结构示意图；

图11为根据本申请第四实施例提供的语音技能的控制装置的结构示意图；

图12是用来实现本申请实施例的语音技能的控制方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

为了清楚理解本申请的技术方案，下面对本申请中涉及的设备和术语进行解释：

智能语音交互设备：是采用语音方式实现人机交互的智能设备。如智能语音家居设备，终端设备等。智能语音家居设备可以为智能音箱，智能电视，智能冰箱等，终端设备可以为智能手机，车载终端，可穿戴设备等。智能语音交互设备能够识别用户的语音请求指令进行对应的响应。

内置语音技能：智能语音交互设备自身带有的语音技能。如智能音箱具有的音乐播放技能，录音技能等。智能电视具有的电视节目直播技能，回播技能等。

第三方语音技能：智能语音交互设备向第三方开发者开放技能平台，让开发者能够在平台上简单、高效地开发出的各类语音技能。第三方语音技能能够装载到智能语音交互设备中对用户需求进行响应。如安装到智能音箱中的百科查询语音技能，游戏语音技能等。

首先对本申请实施例提供的语音技能的控制方法的应用场景进行介绍。如图1所示，在该应用场景中，智能语音交互设备中包括多种内置语音技能和第三方语音技能。由于用户并不能对每个语音技能的名字记住，说出“小A小A，请打开XX巴士”的请求指令进入到某一语音技能中。对于用户而言，希望在对智能语音交互设备说出一个需求指令后，智能语音交互设备就能快速而准确地由相匹配的语音技能进行响应。如用户说出“小A小A，帮我查看一下今天天气”，就能由内置天气语音技能进行响应，输出“今天天气为晴天，温度为28-35摄氏度”的响应话术。所以本申请实施例提供的语音技能的控制方法的应用场景可以为：智能语音交互设备处于待机状态或者进入到任意一种语音技能中。当用户发出当前需求指令后，获取用户的当前需求指令，计算当前需求指令与智能语音交互设备中的各语音技能的技能控制特征数据，根据技能控制特征数据确定与当前需求指令相匹配的一种语音技能，由该相匹配的语音技能对当前需求指令进行响应。都能由相匹配的语音技能进行响应，对每个用户需求均作出满意的响应。若智能语音交互设备为待机状态，直接进入相匹配的语音技能，由相匹配的语音技能进行响应。若智能语音交互设备当前状态为进入到某一语音技能的状态，则通过保持该语音技能或进行语音技能的平滑切换实现对当前需求指令的响应，降低了用户使用智能语音交互设备的时间成本，提高了用户使用智能语音交互设备的体验。

进一步地，如图2所示，若智能语音交互设备当前处于第三方语音技能中，则本申请提供过的语音技能的控制方法还可以应用在如图2的场景中。智能语音交互设备中包括多种内置语音技能和第三方语音技能。用户通过需求指令(英文为Query)“小A小A，请打开XX巴士”使智能语音交互设备进入了“XX巴士”的第三方语音技能,并进行响应的话术可以为“主人，已打开XX巴士”。智能语音交互设备当前处于第三方语音技能中。在智能语音交互设备处于当前第三方语音技能中后，用户再通过当前需求指令“小A小A，请帮忙查一下今天天气”使智能语音交互设备进行响应。智能语音交互设备通过识别当前需求指令，计算当前需求指令分别与当前第三方语音技能，至少一个内置语音技能的技能控制特征数据，根据技能控制特征数据确定与当前需求指令相匹配的语音技能是当前第三方语音技能还是某一内置语音技能。若为当前第三方语音技能，则由当前第三方语音技能对当前需求指令进行响应。若为某一内置语音技能，则将当前第三方语音技能切换到该内置语音技能，由该内置语音技能进行响应。在上述举例中，例如与当前需求指令相匹配的语音技能为某一内置的天气查询技能，如为“XX天气”，则由该“XX天气”进行响应，输出“今天天气为晴天，温度为28-35摄氏度”的响应话术。若用户再有其他需求，则在用户说出新的当前需求指令后，再次进行上述语音技能的匹配，由相匹配的语音技能对该新的当前需求指令进行响应。因此在智能语音交互设备处于当前第三方语音技能中后，每次接收到用户的当前需求指令后，都能由相匹配的语音技能进行响应，对每个用户需求均作出满意的响应。若相匹配的语音技能为某一内置语音技能，也能够在用户无感知的情况下实现语音技能间的平滑切换。降低了用户使用智能语音交互设备的时间成本，提高了用户使用智能语音交互设备的体验。

以下将参照附图来具体描述本申请的实施例。

实施例一

图3是根据本申请第一实施例提供的语音技能的控制方法的流程示意图，如图3所示，本申请实施例的执行主体为语音技能的控制装置，该语音技能的控制装置可以集成在电子设备中，电子设备包括：多个语音技能，多个语音技能包括：第三方语音技能和至少一个内置语音技能，电子设备当前处于第三方语音技能。电子设备可以为智能语音交互设备中。智能语音交互设备可以为智能语音家居设备，终端设备等。则本实施例提供的语音技能的控制方法包括以下几个步骤。

步骤201，接收用户的当前需求指令。

本实施例中，在智能语音交互设备可具有收音组件和播放组件。通过收音组件接收用户发出的需求指令的语音。通过播放组件实现对需求指令进行响应的语音播放。

具体地，在本实施例中，智能语音交互设备处于第三方语音技能中。可通过收音组件接收用户的当前需求指令，并对当前需求指令进行语音识别，确定出当前需求指令的语义信息。

步骤202，响应于当前需求指令计算当前需求指令分别与各语音技能对应的技能控制特征数据。

其中，各语音技能包括：当前第三方语音技能，至少一个内置语音技能。

其中，技能控制特征数据是确定由哪个语音技能进行响应的特征数据。该技能控制特征数据可以包括当前需求指令与语音技能的意图匹配度，还可以包括语音技能与当前需求指令的技能满足度，或者还可以包括其他特征数据，本实施例中对此不作限定。

在本实施例中，计算当前需求指令与当前第三方语音技能的技能控制特征数据的方法与计算当前需求指令与各内置语音技能的技能控制特征数据的方法可以相同。但由于第三方语音技能并非内部开发者开发，所以各第三方语音技能的质量参差不齐。所以在计算当前需求指令与当前第三方语音技能的技能控制特征数据时，可采用和计算当前需求指令与各内置语音技能的技能控制特征数据不同的方法。

步骤203，根据技能控制特征数据确定与当前需求指令相匹配的语音技能。

作为一种可选实施方式，若技能控制特征数据为一个分值数据，则将每个语音技能对应的技能控制特征数据按照分值大小进行排序，获取技能控制特征数据分值最大的语音技能作为与当前需求指令相匹配的语音技能。

作为另一种可选实施方式，若技能控制特征数据为多个，每个技能控制特征数据均为一个分值数据，则可将每个技能控制特征数据进行加权求和，获得一个总分值，将每个语音技能对应的技能控制特征数据按照总分值大小进行排序，获取总分值最大的语音技能作为与当前需求指令相匹配的语音技能。

可以理解的是，根据技能控制特征数据确定与当前需求指令相匹配的语音技能的方式还可以为其他方式，本实施例中对此不作限定。

步骤204，采用相匹配的语音技能对当前需求指令进行响应。

具体地，本实施例中，相匹配的语音技能对当前需求指令进行响应时，可通过播放组件，以语音的形式输出响应话术。若智能语音交互设备具有显示组件，也可将播放组件和显示组件进行联动，采用语音形式输出响应话术的同时，在显示组件上显示响应话术的内容。

本实施例中，若相匹配的语音技能为当前第三方语音技能，则智能语音交互设备继续保持该当前第三方语音技能，由当前第三方语音技能进行响应。若相匹配的语音技能为某一内置语音技能，则智能语音交互设备将当前第三方语音技能切换到该内置语音技能，有该内置语音技能进行响应。

本实施例提供的语音技能的控制方法，接收用户的当前需求指令；响应于当前需求指令计算当前需求指令分别与各语音技能对应的技能控制特征数据；根据技能控制特征数据确定与当前需求指令相匹配的语音技能；采用相匹配的语音技能对当前需求指令进行响应。能够在每次接收到用户的当前需求指令后，都能直接由相匹配的语音技能进行响应，对每个用户需求均作出满意的响应。若相匹配的语音技能为某一内置语音技能，也能够在用户无感知的情况下实现语音技能间的平滑切换。降低了用户使用智能语音交互设备的时间成本，提高了用户使用智能语音交互设备的体验。

实施例二

图4是根据本申请第二实施例提供的语音技能的控制方法的流程示意图，如图4所示，本实施例提供的语音技能的控制方法，是在本申请实施例一提供的语音技能的控制方法的基础上，对步骤202-步骤203的进一步细化，则本实施例提供的语音技能的控制方法包括以下步骤。

步骤301，接收用户的当前需求指令。

本实施例中，电子设备当前处于第三方语音技能中，该第三方语音技能为当前第三方语音技能。

本实施例中，步骤301的实现方式与图3所示实施例的步骤201的实现方式相同，在此不再一一赘述。

步骤302，响应于当前需求指令计算当前需求指令分别与各语音技能对应的意图匹配度。

本实施例中，技能控制特征数据包括意图匹配度。当前需求指令与语音技能的意图匹配度是当前需求指令与该语音技能的匹配程度。如当前需求指令为“我要听XX气球”，则该当前需求指令与音乐类型的语音技能意图匹配度很高，与游戏类型的语音技能意图匹配度会很低。

进一步地，本实施例中，采用适合当前第三方语音技能的方式计算当前需求指令与当前第三方语音技能的意图匹配度。并采用合适内置语音技能的方式计算当前需求指令与各内置语音技能的意图匹配度。所以步骤302包括以下两个步骤。

步骤3021，计算当前需求指令与当前第三方语音技能的意图匹配度。

进一步地，在本实施例中，无论第三方语音技能的质量好坏，第三方语音技能中的用户行为数据能够更加直接准确地反映出当前需求指令与第三方语音技能的意图匹配程度。所以通过与当前需求指令对应的当前第三方语音技能中的用户行为数据计算当前需求指令与当前第三方语音技能的意图匹配度。如图5所示，步骤3021包括以下几个步骤。

步骤3021a，获取当前需求指令在当前第三方语音技能中对应的至少一种用户行为文本。

其中，用户行为文本包括：用户历史行为文本和用户当前行为文本。

本实施例中，用户历史行为文本为在当前第三方语音技能中已经发生过的针对当前需求指令对应的行为文本。其中，用户历史行为文本至少包括：前端页面展示的关键字文本，响应话术的关键字文本，当前需求指令与响应话术的重叠关键字文本，高频需求指令文本。

首先根据当前需求指令从当前第三方语音技能的日志文件中提取对应的用户历史行为文本。

若智能交互语音设备有显示组件，则获取前端页面展示的关键字文本。具体地，在接收到当前需求指令后在智能交互语音设备的前端页面上展示文本数据，提取前端页面上展示文本数据的关键字，形成前端页面展示关键字文本。

在获取响应话术的关键字文本时，获取日志文件中的当前需求指令对应的响应话术文本，可采用机器学习算法提取响应话术文本的关键字，将响应话术文本的关键字进行拼接，形成响应话术的关键字文本。

在获取当前需求指令与响应话术的重叠字文本时，获取日志文件中的当前需求指令对应的响应话术文本，提取当前需求指令与响应话术文本中的重叠字，将重叠字进行拼接，形成当前需求指令与响应话术的重叠字文本。

在获取高频需求指令文本时，可采用Tfldf算法从当前第三方语音技能中提取出现频次排在前N个的需求指令文本，确定为高频需求指令文本。其中，N为大于1的数值。如可以为20，30等。

在本实施例中，由于四种用户历史行为文本的来源不同，所以每种用户历史行为文本的置信度也不同。在上述四种用户历史行为文本中，置信度由高到低的排序分别为：前端页面展示的关键字文本，响应话术的关键字文本，当前需求指令与响应话术的重叠字文本和高频需求指令文本。可表示为表1所示。

表1：四种用户历史行为文本的置信度

本实施例中，用户当前行为文本包括：前一轮响应话术文本和当前轮期待响应话术文本。

其中，前一轮响应话术文本为在当前需求指令之前的一轮对话中的响应话术文本。当前轮期待响应话术文本为在与当前需求指令对应的当前第三方语音技能所期待的用户回复的话术文本。

下面分别对当前需求指令在当前第三方语音技能中对应的前一轮响应话术文本和当前轮期待响应话术文本进行举例说明。

若当前第三方语音技能为：XX巴士

每轮的需求指令和响应话术文本为如下所示：

User-Query：小A小A，打开XX巴士

Skill-Reply：这里是XX巴士，现在你可以对我说打开第一个

User-Query：打开第一个

若当前需求指令为“打开第一个”，则前一响应话术文本为“这里是XX巴士，现在你可以对我说打开第一个”。

若当前第三方语音技能为：XX数星星游戏

每轮的需求指令和响应话术文本为如下所示：

User-Query：开始游戏

Skill-Reply：请说出星空中星星的数量

Skill-ExpectResponse：4颗星星

User-Query：4颗星星

若当前需求指令为“4颗星星”，则在当前需求指令前的“4颗星星”为当前轮期待响应话术文本。

可以理解的是，由于不同的第三方语音技能的开发者不同，所以并非所有的第三方语音技能都会设置期待响应话术文本，所以若在当前第三方语音技能中没设置期待响应话术文本，则不再获取当前轮期待响应话术文本。

步骤3021b，分别计算当前需求指令与各用户行为文本的相似度分值。

进一步地，图6是根据本申请第二实施例提供的语音技能的控制方法中步骤3021b的流程示意图，图7为根据本申请第二实施例提供的语音技能的控制方法中步骤3021b的原理图。如图6和图7所示，本实施例中，步骤3021b包括以下步骤。

步骤3021b1，提取当前需求指令与各用户行为文本的文本匹配特征。

进一步地，本实施例中，文本匹配特征至少包括：文字重叠率，拼音编辑距离，重叠字的权重。

其中，当前需求指令与某用户行为文本的文字重叠率为重叠文字的个数占总文字个数的百分比。提取当前需求指令与某用户行为文本的文字重叠率的方式为计算当前需求指令与该用户行为文本的文字重叠率。

其中，当前需求指令与某用户行为文本的拼音编辑距离为当前需求指令与各用户行为文本在拼音上的编辑距离。提取当前需求指令与某用户行为文本的拼音重叠率的方式为：获取当前需求指令与该用户行为文本的拼音，确定拼音中的字母重叠率。根据字母重叠率计算拼音编辑距离。若字母重叠率越高，拼音编辑距离越大，相反拼音中的字母重叠率越低，拼音编辑距离约小。

其中，重叠字的权重为当前需求指令与用户行为文本中重叠字对应的权重。提取当前需求指令与某用户行为文本的重叠字的权重的方式为：将当前需求指令输入到深度学习算法中，深度学习算法对当前需求指令进行切词处理，根据每个字的语义和/或词性确定每个字的权重。

其中，深度学习算法可以为神经网络，卷积神经网络算法等，本实施例中对此不作限定。

步骤3021b2，将文本匹配特征输入到已训练至收敛的文本匹配模型中，以由文本匹配模型输出当前需求指令与各用户行为文本的第一相似度分值。

进一步地，本实施例中，首先采用带标注的用户行为文本提取文本匹配特征后作为训练样本对文本匹配模型进行训练，直到达到迭代次数文本匹配模型收敛，得到已训练至收敛的文本匹配模型。

然后将当前需求指令与用户行为文本的文本匹配特征输入到已训练至收敛的文本匹配模型中，已训练至收敛的文本匹配模型根据文本匹配特征计算第一相似度分值。

步骤3021b3，若用户行为文本为用户当前行为文本，则将第一相似度分值确定为对应的相似度分值。

步骤3021b4，若用户行为文本为用户历史行为文本，则根据第一相似度分值计算第二相似度分值，将第二相似度分值确定为对应的相似度分值。

进一步地，根据第一相似度分值计算第二相似度分值，包括：

首先，根据各用户历史行为文本的置信度确定对应的第一相似度分值的权重。

其次，将权重和对应的第一相似度分值的乘积确定为对应的用户历史行为文本的第二相似度分值。

具体地，由于每个用户历史行为文本的置信度不同，所以对应的第一相似度分值的权重也不同，可以理解的是，置信度越高，设置的第一相似度分值的权重越大。相反，置信度越低，设置的第一相似度分值的权重越小。将权重与对应的第一相似度分值进行乘法运算，得到第二相似度分值，将第二相似度分值确定为对应的相似度分值。

步骤3021c，将最大相似度分值确定为意图匹配度。

进一步地，将当前需求指令与各用户行为文本的相似度分值进行排序，获取最大相似度分值，将最大相似度分值确定为当前需求指令与当前第三方语音技能的意图匹配度。

在图7中，各公式中的sim()表示相似度计算模型。q表示当前需求指令，q’和t表示对应的用户行为文本。采用q’表示的用户行为文本表示短文本。采用t表示的用户行为文本表示长文本。w为每个用户历史行为文本的第一相似度分值对应的权重。Score1表示与用户历史行为文本的相似度得分，Score2表示与前一轮响应话术文本的相似度得分。Score3表示与当前轮期待响应话术文本的相似度得分。QS表示意图匹配度，其为最大相似度得分。

本实施例提供的语音技能的控制方法，在计算当前需求指令与当前第三方语音技能的意图匹配度时，获取当前需求指令在当前第三方语音技能中对应的至少一种用户行为文本；分别计算当前需求指令与各用户行为文本的相似度分值；将最大相似度分值确定为意图匹配度，能够在第三方语音技能的质量参差不齐的情况下，通过挖掘当前第三方语音技能内的用户行为数据与当前需求指令的相似度来确定意图匹配度，是更加适合第三方语音技能的方式，所以使确定出的与当前第三方语音技能的意图匹配度更加准确。

并且，本实施例中，用户行为文本包括多种类型的行为文本，并且在计算当前需求指令与各用户行为文本的相似度分值时，充分提取了文本匹配特征，并采用已训练至收敛的文本匹配模型计算相似度分值，所以使计算出的相似度分值更加准确。

步骤3022，计算当前需求指令与各内置语音技能的意图匹配度。

进一步地，本实施例中，计算当前需求指令与各内置语音技能的意图匹配度包括：

将当前需求指令输入至已训练至收敛的内置语音技能匹配度预测模型中,以由内置语音技能匹配度预测模型输出当前需求指令与各内置语音技能的意图匹配度。

具体地，首先采用已标注所属内置语音技能的已经发生的需求指令作为训练样本，对内置语音技能匹配度预测模型进行训练，直到内置语音技能匹配度预测模型收敛。然后将当前需求指令输入到已训练至收敛的内置语音技能匹配度预测模型中，已训练至收敛的内置语音技能匹配度预测模型对该当前需求指令与各内置语音技能的意图匹配度进行预测，输出当前需求指令与各内置语音技能的意图匹配度。

其中，内置语音技能匹配度预测模型可以为机器学习模型或深度学习模型等。

本实施例中，由于内置语音技能的质量通常比较高，所以采用已训练至收敛的内置语音技能匹配度预测模型计算当前需求指令与各内置语音技能的意图匹配度，是更适合内置语音技能的方式，所以使计算出的当前需求指令与各内置语音技能的意图匹配度更加准确。

步骤303，判断当前需求指令分别与各语音技能的意图匹配度是否满足预设条件，若是，则执行步骤304，否则执行步骤305。

进一步地，判断当前需求指令分别与各语音技能的意图匹配度是否满足预设条件，包括：

判断当前需求指令与当前第三方语音技能对应的意图匹配度是否大于第一预设匹配度阈值且各内置语音技能对应的意图匹配度是否均小于第二预设匹配度阈值，若是，则说明可直接通过意图匹配度确定与当前需求指令相匹配的语音技能，否则根据意图匹配度和技能满足度确定与当前需求指令相匹配的语音技能。

其中，第一预设匹配度阈值与第二预设匹配度阈值的差值大于预设数值。

步骤304，根据意图匹配度确定与当前需求指令相匹配的语音技能。

进一步地，根据意图匹配度确定与当前需求指令相匹配的语音技能，包括：

确定与当前需求指令相匹配的语音技能为当前第三方语音技能。

具体地，由于当前需求指令与当前第三方语音技能对应的意图匹配度明显大于当前需求指令与各内置语音技能的意图匹配度，则说明该当前需求指令与当前第三方语音技能的意图匹配程度明显高于与各内置语音技能的意图匹配程度，可高置信地确定与当前第三方语音技能相匹配的语音技能为当前第三方语音技能，无需再进行技能满足度的计算。否则还需要计算当前需求指令与各语音技能的技能满足度，根据意图匹配度和技能满足度确定与当前需求指令相匹配的语音技能。

步骤305，计算当前需求指令分别与各语音技能的技能满足度。

进一步地，本实施例中，采用适合当前第三方语音技能的方式计算当前需求指令与当前第三方语音技能的技能满足度。并采用合适内置语音技能的方式计算当前需求指令与各内置语音技能的技能满足度。所以步骤305包括以下两个步骤。

步骤3051，计算当前需求指令与当前第三方语音技能的技能满足度。

进一步地，图8为根据本申请第二实施例提供的语音技能的控制方法中步骤3051的流程示意图，如图8所示，步骤3051包括以下步骤：

步骤3051a，将标注响应话术类型的第二历史响应话术文本作为响应类型预测模型的第二训练样本。

可以理解的是，第二历史响应话术文本中的“第二”是为了后续区分第一历史响应话术文本。同理，第二训练样本中的“第二”是为了区分后续第一训练样本。

其中，响应类型预测模型对应的训练样本为第二训练样本。

本实施例中，第二历史响应话术文本为所有第三方语音技能中抽取的已经发生的响应话术文本。

其中，标注的响应话术类型为高满足度响应话术文本和低满足度响应话术文本。

具体地，在获取高满足度第二历史响应话术文本时，可通过获取所有第三方语音技能的高频需求指令对应的响应话术文本获取到。在获取低满足度第二历史响应话术文本时，可通过判断历史响应话术文本中是否包括低满足度的关键词获取到。如若在第二历史响应话术文本中包括“不能理解”，“再重复一次”等低满足的关键词，则该第二历史响应话术文本为低满足度第二历史响应话术文本。

步骤3051b，采用第二训练样本对响应类型预测模型进行训练，直至响应类型预测模型收敛。

进一步地，响应类型预测模型可以为深度学习模型或机器学习模型。由于逻辑回归模型为线性模型，训练速度很快，所以可选地，本实施例中响应类型预测模型采用逻辑回归模型。

具体地，将第二训练样本输入到响应类型预测模型中，对响应类型预测模型中的参数进行训练，直至响应类型预测模型收敛为止，得到已训练至收敛的响应类型预测模型。已训练至收敛的响应类型预测模型能够准确对响应话术文本的类型进行预测。

步骤3051c，采用已训练至收敛的响应类型预测模型对第一历史响应话术文本的类型进行预测。

其中，第一历史响应话术文本的类型包括：高满足度响应话术文本和低满足度响应话术文本。

本实施例中，第一历史响应话术文本也是从所有第三方语音技能中抽取出来的已经发生的响应话术文本，第一历史响应话术文本不同于第二历史响应话术。第一历史响应话术文本为多个。

进一步地，本实施例中，将第一历史响应话术文本输入到已训练至收敛的响应类型预测模型中，由已训练至收敛的响应类型预测模型对第一历史响应话术文本的类型进行预测。若预测出第一历史响应话术文本的响应类型为高满足度的，则将该第一历史响应话术文本标记为1，即label＝1。若预测出第一历史响应话术文本的响应类型为低满足度的，则将该第一历史响应话术文本标记为0，即label＝0。

步骤3051d，获取每个第一历史响应话术文本对应的需求指令，语音技能标识和预测类型，构成满足度预测模型的第一训练样本。

进一步地，获取每个第一历史响应话术文本对应的需求指令，语音技能标识和预测类型，形成三元组，可表示为(Skill ID，Query，label)将每个三元组构成第一训练样本。

本实施例中，第一训练样本为满足度预测模型对应的训练样本。

进一步地，满足度预测模型可以为深度学习模型或机器学习模型。由于逻辑回归模型为线性模型，训练速度很快，所以本实施例中满足度预测模型采用逻辑回归模型。

步骤3051e，采用第一训练样本对满足度预测模型进行训练，直至满足度预测模型收敛。

进一步地，将每个三元组构成的第一训练样本输入到满足度预测模型中，对满足度预测模型中的参数进行训练，直至满足度预测模型收敛，得到已训练至收敛的满足度预测模型。

步骤3051f，将当前第三方语音技能标识和当前需求指令输入到已训练至收敛的满足度预测模型中，以由满足度预测模型输出当前需求指令与当前第三方语音技能的技能满足度。

进一步地，将当前第三方语音技能标识和当前需求指令输入到已训练至收敛的满足度预测模型中，已训练至收敛的满足度预测模型对当前需求指令与当前第三方语音技能的技能满足度进行预测，输出0-1之间的一个预测值，将该0-1之间的预测值作为当前需求指令与当前第三方语音技能的技能满足度。

本实施例中，在计算当前需求指令与当前第三方语音技能的技能满足度，首先根据响应类型预测模型对从所有第三方语音技能中抽取出来的第一历史响应话术文本的响应类型进行预测，预测出高满足度和低满足度的响应话术文本。然后通过已经发生过的第三方语音技能，需求指令与响应话术的对应关系对满足度预测模型进行训练，能够使已训练至收敛的满足度预测模型更能体现每个语音技能是否能够真实满足需求指令。所以再采用该已训练至收敛的满足度预测模型对当前需求指令与当前第三方语音技能的技能满足度进行预测时，使预测出的结果更加准确，更加适合第三方语音技能。

步骤3052，计算当前需求指令与各内置语音技能的技能满足度。

进一步地，本实施例中，计算当前需求指令与各内置语音技能的技能满足度包括以下步骤。

步骤3052a，将当前需求指令分别与各内置语音技能对应的资源进行匹配，确定与各内置语音技能的资源最高匹配度。

在本实施例中，每个内置语音技能的资源均进行了存储。将当前需求指令分别与各内置语音技能对应的资源进行匹配，分别确定与各内置语音技能的资源最高匹配度。

若当前需求指令与某一内置语音技能的某一资源完全匹配上，则资源匹配度为1。若当前需求指令只能与某一内置语音技能的某一资源部分匹配上，则资源匹配度为0-1之间的数值。若当前需求指令与某一内置语音技能的所有资源均无法匹配上，则资源匹配度为0。

步骤3052b，将资源最高匹配度确定为当前需求指令与对应内置语音技能的技能满足度。

步骤306，根据意图匹配度和技能满足度确定与当前需求指令相匹配的语音技能。

进一步地，图9为根据本申请第二实施例提供的语音技能的控制方法中步骤306的流程示意图，如图9所示，步骤306包括以下步骤：

步骤3061，将各语音技能对应的意图匹配度和技能满足度输入到已训练至收敛的总分值预测模型中，以由总分值预测模型输出各语音技能对应的技能控制总分值。

进一步地，首先采用训练样本对总分值预测模型进行训练，训练样本为已标注总分值的意图匹配度和技能满足度。将总分值预测模型训练至收敛后，将各语音技能对应的意图匹配度和技能满足度输入到已训练至收敛的总分值预测模型中，已训练至收敛的总分值预测模型对每个语音技能的技能控制总分值进行预测，输出每个语音技能的技能控制总分值。

步骤3062，将最大技能控制总分值对应的语音技能确定为与当前需求指令相匹配的语音技能。

由于最大技能控制总得分对应的语音技能是与当前需求指令最匹配的语音技能，所以将最大技能控制总分值对应的语音技能确定为与当前需求指令相匹配的语音技能。

在本实施例中，采用已训练至收敛的总分值预测模型计算技能控制总分值，并将最大技能控制总分值对应的语音技能确定为与当前需求指令相匹配的语音技能，由于已训练至收敛的总分值预测模型能够对技能控制总分值进行准确预测，所以提高了匹配结果的准确性。

步骤307，采用相匹配的语音技能对当前需求指令进行响应。

本实施例提供的语音技能的控制方法，接收用户的当前需求指令，响应于当前需求指令计算当前需求指令分别与各语音技能对应的意图匹配度，若当前需求指令分别与各语音技能的意图匹配度满足预设条件，则根据意图匹配度确定与当前需求指令相匹配的语音技能，否则根据意图匹配度确定与当前需求指令相匹配的语音技能，根据意图匹配度和技能满足度确定与当前需求指令相匹配的语音技能，采用相匹配的语音技能对当前需求指令进行响应。在能够通过意图匹配度就可准确确定相匹配的语音技能的情况下，不再进行技能满足度的计算，能够减少耗时，使相匹配的语音技能对当前需求快速进行响应。若不能通过意图匹配度准确确定相匹配的语音技能，则通过意图匹配度和技能满足度确定相匹配的语音技能，保证确定出的相匹配的语音技能的准确性。

实施例三

图10为根据本申请第三实施例提供的语音技能的控制装置的结构示意图，如图10所示，本实施例提供的语音技能的控制装置位于电子设备，电子设备包括：多个语音技能，多个语音技能包括：第三方语音技能和至少一个内置语音技能，电子设备当前处于第三方语音技能。装置包括：指令接收模块901，控制特征计算模块902，技能匹配模块903和指令响应模块904。

其中，指令接收模块901，用于接收用户的当前需求指令。控制特征计算模块902，用于响应于当前需求指令计算当前需求指令分别与各语音技能对应的技能控制特征数据。技能匹配模块903，用于根据技能控制特征数据确定与当前需求指令相匹配的语音技能。指令响应模块904，用于采用相匹配的语音技能对当前需求指令进行响应。

本实施例提供的语音技能的控制装置可以执行图3所示方法实施例的技术方案，其实现原理和技术效果与图3所示方法实施例类似，在此不再一一赘述。

实施例四

图11为根据本申请第四实施例提供的语音技能的控制装置的结构示意图，如图11所示，本实施例提供的语音技能的控制装置在本申请实施例三提供的语音技能的控制装置的基础上，还包括以下技术方案。

进一步地，技能控制特征数据包括意图匹配度。技能匹配模块903，包括：第一技能匹配子模块9031和第二技能匹配子模块9032。

可选地，第一技能匹配子模块9031，用于若意图匹配度满足预设条件，则根据意图匹配度确定与当前需求指令相匹配的语音技能。

进一步地，第一技能匹配子模块9031，具体用于若当前第三方语音技能对应的意图匹配度大于第一预设匹配度阈值且各内置语音技能对应的意图匹配度均小于第二预设匹配度阈值，则确定与当前需求指令相匹配的语音技能为当前第三方语音技能；其中，第一预设匹配度阈值与第二预设匹配度阈值的差值大于预设数值。

进一步地，技能控制特征数据还包括：技能满足度。第二技能匹配模块9032，用于若意图匹配度不满足预设条件，则根据意图匹配度和技能满足度确定与当前需求指令相匹配的语音技能。

可选地，第二技能匹配子模块9032，具体用于若意图匹配度不满足预设条件，则根据意图匹配度和技能满足度确定与当前需求指令相匹配的语音技能。

进一步地，控制特征计算模块902包括：第一匹配度计算子模块9021，第二匹配度计算子模块9022，第一满足度计算子模块9023和第二满足度计算子模块9024。

其中，第一匹配度计算子模块9021，用于获取当前需求指令在当前第三方语音技能中对应的至少一种用户行为文本；分别计算当前需求指令与各用户行为文本的相似度分值；将最大相似度分值确定为意图匹配度。

其中，用户行为文本包括：用户历史行为文本和用户当前行为文本；

用户历史行为文本至少包括：前端页面展示的关键字文本，响应话术的关键字文本，当前需求指令与响应话术的重叠字文本和高频需求指令文本；

用户当前行为文本包括：前一轮响应话术文本和当前轮期待响应话术文本。

进一步地，第一匹配度计算子模块9021，在分别计算当前需求指令与各用户行为文本的相似度分值时，具体用于提取当前需求指令与各用户行为文本的文本匹配特征；将文本匹配特征输入到已训练至收敛的文本匹配模型中，以由文本匹配模型输出当前需求指令与各用户行为文本的第一相似度分值；若用户行为文本为用户当前行为文本，则将第一相似度分值确定为对应的相似度分值；若用户行为文本为用户历史行为文本，则根据第一相似度分值计算第二相似度分值，将第二相似度分值确定为对应的相似度分值。

其中，文本匹配特征至少包括：文字重叠率，拼音编辑距离，重叠字的权重。

进一步地，第一匹配度计算子模块9021，在根据第一相似度分值计算第二相似度分值时，具体用于根据各用户历史行为文本的置信度确定对应的第一相似度分值的权重；将权重和对应的第一相似度分值的乘积确定为对应的用户历史行为文本的第二相似度分值。

进一步地，第二匹配度计算子模块9022，用于将当前需求指令输入至已训练至收敛的内置语音技能匹配度预测模型中,以由内置语音技能匹配度预测模型输出当前需求指令与各内置语音技能的意图匹配度。

进一步地，第一满足度计算子模块9023，用于将当前第三方语音技能标识和当前需求指令输入到已训练至收敛的满足度预测模型中，以由满足度预测模型输出当前需求指令与当前第三方语音技能的技能满足度。

进一步地，第一满足度计算子模块9023，在计算当前需求指令与当前第三方语音技能的技能满足度之前，还用于采用已训练至收敛的响应类型预测模型对第一历史响应话术文本的类型进行预测，第一历史响应话术文本的类型包括：高满足度响应话术文本和低满足度响应话术文本。获取每个第一历史响应话术文本对应的需求指令，语音技能标识和预测类型，构成满足度预测模型的第一训练样本。采用第一训练样本对满足度预测模型进行训练，直至满足度预测模型收敛。

进一步地，第一满足度计算子模块9023，在采用已训练至收敛的响应类型预测模型对第一历史响应话术文本的类型进行预测之前，还用于将标注响应话术类型的第二历史响应话术文本作为响应类型预测模型的第二训练样本。采用第二训练样本对响应类型预测模型进行训练，直至响应类型预测模型收敛。

进一步地，第二满足度计算子模块9024，用于将当前需求指令分别与各内置语音技能对应的资源进行匹配，确定与各内置语音技能的资源最高匹配度。将资源最高匹配度确定为当前需求指令与对应内置语音技能的技能满足度。

本实施例提供的语音技能的控制装置可以执行图4-图9所示方法实施例的技术方案，其实现原理和技术效果与图4-图9所示方法实施例类似，在此不再一一赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图12所示，是根据本申请实施例的语音技能的控制方法的电子设备的框图。电子设备旨在具有语音交互功能的各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的具有语音交互功能的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。电子设备还可以表示各种形式的具有语音交互功能的家电设备，如智能音箱，智能电视，智能冰箱等。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图12所示，该电子设备包括：一个或多个处理器1101、存储器1102，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图12中以一个处理器1101为例。

存储器1102即为本申请所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本申请所提供的语音技能的控制方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的语音技能的控制方法。

存储器1102作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的语音技能的控制方法对应的程序指令/模块(例如，附图10所示的指令接收模块901、控制特征计算模块902、技能匹配模块903和指令响应模块904)。处理器1101通过运行存储在存储器1102中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的语音技能的控制方法。

存储器1102可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据图12的电子设备的使用所创建的数据等。此外，存储器1102可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器1102可选包括相对于处理器1101远程设置的存储器，这些远程存储器可以通过网络连接至图12的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

图12的电子设备还可以包括：输入装置1103和输出装置1104。处理器1101、存储器1102、输入装置1103和输出装置1104可以通过总线或者其他方式连接，图12中以通过总线连接为例。

输入装置1103可接收输入的语音、数字或字符信息，以及产生与图12的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1104可以包括语音播放设备、显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，能够在每次接收到用户的当前需求指令后，都能直接由相匹配的语音技能进行响应，对每个用户需求均作出满意的响应。若相匹配的语音技能为某一内置语音技能，也能够在用户无感知的情况下实现语音技能间的平滑切换。降低了用户使用智能语音交互设备的时间成本，提高了用户使用智能语音交互设备的体验。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种语音技能的控制方法，其特征在于，所述方法应用于电子设备，所述电子设备包括：多个语音技能，所述多个语音技能包括：第三方语音技能和至少一个内置语音技能，所述电子设备当前处于所述第三方语音技能，所述方法包括：

接收用户的当前需求指令；

响应于所述当前需求指令计算所述当前需求指令分别与各语音技能对应的技能控制特征数据；

根据所述技能控制特征数据确定与所述当前需求指令相匹配的语音技能；

采用所述相匹配的语音技能对所述当前需求指令进行响应。

2.根据权利要求1所述的方法，其特征在于，所述技能控制特征数据包括意图匹配度；

所述根据所述技能控制特征数据确定与所述当前需求指令相匹配的语音技能，包括：

若所述意图匹配度满足预设条件，则根据所述意图匹配度确定与所述当前需求指令相匹配的语音技能。

3.根据权利要求2所述的方法，其特征在于，若所述意图匹配度满足预设条件，则根据所述意图匹配度确定与所述当前需求指令相匹配的语音技能，包括：

若当前第三方语音技能对应的意图匹配度大于第一预设匹配度阈值且各所述内置语音技能对应的意图匹配度均小于第二预设匹配度阈值，则确定与所述当前需求指令相匹配的语音技能为所述当前第三方语音技能；

其中，第一预设匹配度阈值与所述第二预设匹配度阈值的差值大于预设数值。

4.根据权利要求2所述的方法，其特征在于，所述技能控制特征数据还包括：技能满足度；

若所述意图匹配度不满足预设条件，则根据所述意图匹配度和所述技能满足度确定与所述当前需求指令相匹配的语音技能。

5.根据权利要求4所述的方法，其特征在于，所述根据所述意图匹配度和所述技能满足度确定与所述当前需求指令相匹配的语音技能，包括：

将各所述语音技能对应的意图匹配度和技能满足度输入到已训练至收敛的总分值预测模型中，以由所述总分值预测模型输出各所述语音技能对应的技能控制总分值；

将最大技能控制总分值对应的语音技能确定为与所述当前需求指令相匹配的语音技能。

6.根据权利要求2所述的方法，其特征在于，所述计算所述当前需求指令与所述当前第三方语音技能的意图匹配度，包括：

获取所述当前需求指令在所述当前第三方语音技能中对应的至少一种用户行为文本；

分别计算所述当前需求指令与各用户行为文本的相似度分值；

将最大相似度分值确定为所述意图匹配度。

7.根据权利要求6所述的方法，其特征在于，所述用户行为文本包括：用户历史行为文本和用户当前行为文本；

所述用户历史行为文本至少包括：前端页面展示的关键字文本，响应话术的关键字文本，当前需求指令与响应话术的重叠字文本和高频需求指令文本；

所述用户当前行为文本包括：前一轮响应话术文本和当前轮期待响应话术文本。

8.根据权利要求6所述的方法，其特征在于，所述分别计算所述当前需求指令与各用户行为文本的相似度分值，包括：

提取所述当前需求指令与各用户行为文本的文本匹配特征；

将所述文本匹配特征输入到已训练至收敛的文本匹配模型中，以由所述文本匹配模型输出所述当前需求指令与各用户行为文本的第一相似度分值；

若用户行为文本为所述用户当前行为文本，则将所述第一相似度分值确定为对应的相似度分值；

若用户行为文本为所述用户历史行为文本，则根据第一相似度分值计算第二相似度分值，将所述第二相似度分值确定为对应的相似度分值。

9.根据权利要求8所述的方法，其特征在于，所述根据第一相似度分值计算第二相似度分值，包括：

根据各所述用户历史行为文本的置信度确定对应的第一相似度分值的权重；

将所述权重和对应的第一相似度分值的乘积确定为对应的用户历史行为文本的第二相似度分值。

10.根据权利要求8所述的方法，其特征在于，所述文本匹配特征至少包括：文字重叠率，拼音编辑距离，重叠字的权重。

11.根据权利要求2所述的方法，其特征在于，所述计算所述当前需求指令与各所述内置语音技能的意图匹配度，包括：

将所述当前需求指令输入至已训练至收敛的内置语音技能匹配度预测模型中,以由所述内置语音技能匹配度预测模型输出所述当前需求指令与各所述内置语音技能的意图匹配度。

12.根据权利要求4所述的方法，其特征在于，所述计算所述当前需求指令与所述当前第三方语音技能的技能满足度，包括：

将所述当前第三方语音技能标识和所述当前需求指令输入到已训练至收敛的满足度预测模型中，以由所述满足度预测模型输出所述当前需求指令与所述当前第三方语音技能的技能满足度。

13.根据权利要求12所述的方法，其特征在于，所述计算所述当前需求指令与所述当前第三方语音技能的技能满足度之前，还包括：

采用已训练至收敛的响应类型预测模型对第一历史响应话术文本的类型进行预测，所述第一历史响应话术文本的类型包括：高满足度响应话术文本和低满足度响应话术文本；

获取每个第一历史响应话术文本对应的需求指令，语音技能标识和预测类型，构成所述满足度预测模型的第一训练样本；

采用所述第一训练样本对所述满足度预测模型进行训练，直至所述满足度预测模型收敛。

14.根据权利要求13所述的方法，其特征在于，所述采用已训练至收敛的响应类型预测模型对第一历史响应话术文本的类型进行预测之前，还包括：

将标注响应话术类型的第二历史响应话术文本作为所述响应类型预测模型的第二训练样本；

采用所述第二训练样本对所述响应类型预测模型进行训练，直至所述响应类型预测模型收敛。

15.根据权利要求14所述的方法，其特征在于，所述满足度预测模型和所述响应类型预测模型为逻辑回归模型。

16.根据权利要求4所述的方法，其特征在于，所述计算所述当前需求指令与各所述内置语音技能的技能满足度，包括：

将所述当前需求指令分别与各内置语音技能对应的资源进行匹配，确定与各内置语音技能的资源最高匹配度；

将所述资源最高匹配度确定为所述当前需求指令与对应内置语音技能的技能满足度。

17.一种语音技能的控制装置，其特征在于，所述装置位于电子设备，所述电子设备包括：多个语音技能，所述多个语音技能包括：第三方语音技能和至少一个内置语音技能，所述电子设备当前处于所述第三方语音技能，所述装置包括：

指令接收模块，用于接收用户的当前需求指令；

控制特征计算模块，用于响应于所述当前需求指令计算所述当前需求指令分别与各语音技能对应的技能控制特征数据；

技能匹配模块，用于根据所述技能控制特征数据确定与所述当前需求指令相匹配的语音技能；

指令响应模块，用于采用所述相匹配的语音技能对所述当前需求指令进行响应。

18.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-13中任一项所述的方法。

19.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-13中任一项所述的方法。

20.一种语音技能的控制方法，其特征在于，所述方法应用于电子设备，所述电子设备包括：第三方语音技能和内置语音技能，所述方法包括：

获取用户的当前需求指令；

计算所述当前需求指令分别与各语音技能的技能控制特征数据；

采用所述相匹配的语音技能对所述当前需求指令进行响应。