CN115497458B

CN115497458B - 智能语音助手的持续学习方法、装置、电子设备及介质

Info

Publication number: CN115497458B
Application number: CN202210932974.8A
Authority: CN
Inventors: 黄际洲; 王海峰; 王少磊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-08-04
Filing date: 2022-08-04
Publication date: 2023-09-22
Anticipated expiration: 2042-08-04
Also published as: WO2024027089A1; CN115497458A

Abstract

本公开提供了一种智能语音助手的持续学习方法、装置、电子设备及存储介质，涉及人工智能以及语音技术等技术领域。具体实现方案为：获取用户的语音输入信息；获取智能语音助手基于所述用户的语音输入信息进行响应后，所述用户的反馈信息；基于所述用户的反馈信息，控制所述智能语音助手进行学习。本公开的技术，能够有效地提升智能语音助手的持续学习能力，优化和提升智能语音助手的性能。

Description

智能语音助手的持续学习方法、装置、电子设备及介质

技术领域

本公开涉及计算机技术领域，具体涉及人工智能以及语音技术等技术领域，尤其涉及一种智能语音助手的持续学习方法、装置、电子设备及介质。

背景技术

移动地图已经成为用户寻找最佳出行路线和获取导航服务必不可少的工具。目前智能手机提供的应用(application；app)交互的主流方式仍然是视觉+手动交互。用户通过手持操作和图形用户界面(Graphical User Interface；GUI)上的多点触摸手势控制来执行各种命令。然而，对于移动地图app来说，大量的交互场景发生在用户驾车过程中，视觉+手动的交互方式非常容易导致驾驶员分心。相关的研究表明，在驾驶过程中用手机执行视觉+手动操作会显著降低驾驶员的驾驶性能，并增加安全事件风险。

为了让用户能在驾车过程中方便且安全的进行导航操作，该领域中开发了一种智能语音助手，能够对移动地图用户的语音进行自动识别；并进一步基于语音识别的结果，进行自然语言理解；进而基于自然语言理解的结果，调取相应的技能，响应用户，实现为用户提供服务。整个过程，不用用户手动交互，能够有效地提升行车的安全性。

发明内容

本公开提供了一种智能语音助手的持续方法、装置、电子设备及介质。

根据本公开的一方面，提供了一种智能语音助手的持续学习方法，包括：

获取用户的语音输入信息；

获取智能语音助手基于所述用户的语音输入信息进行响应后，所述用户的反馈信息；

基于所述用户的反馈信息，控制所述智能语音助手进行学习。

根据本公开的另一方面，提供了一种智能语音助手的持续学习装置，包括：

获取模块，用于获取用户的语音输入信息；

所述获取模块，还用于获取智能语音助手基于所述用户的语音输入信息进行响应后，所述用户的反馈信息；

学习模块，用于基于所述用户的反馈信息，控制所述智能语音助手进行学习。

根据本公开的再一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的方面和任一可能的实现方式的方法。

根据本公开的又一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如上所述的方面和任一可能的实现方式的方法。

根据本公开的再另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上所述的方面和任一可能的实现方式的方法。

根据本公开的技术，能够有效地提升智能语音助手的持续学习能力，优化和提升智能语音助手的性能。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的示意图；

图2是根据本公开第二实施例的示意图；

图3是本实施例提供的一种智能语音助手的架构示意图；

图4是根据本公开第三实施例的示意图；

图5是根据本公开第四实施例的示意图；

图6是根据本公开第五实施例的示意图；

图7是用来实现本公开实施例的方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本公开保护的范围。

需要说明的是，本公开实施例中所涉及的终端设备可以包括但不限于手机、个人数字助理(Personal Digital Assistant，PDA)、无线手持设备、平板电脑(TabletComputer)等智能设备；显示设备可以包括但不限于个人电脑、电视等具有显示功能的设备。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

现有技术中，可以由研发人员通过市场调研，对智能语音助手的原有功能进行升级，或者也可以通过开发并增加新功能，对其进行升级。整个升级的流程，需要工作人员手动实现，也就是说，现有技术中，仅能够在工作人员主观判断需要对智能语音助手进行升级时，才可以对智能语音助手进行升级，智能语音助手不具备持续学习的能力，导致现有技术的智能语音助手的性能较差。

图1是根据本公开第一实施例的示意图；如图1所示，本实施例提供一种智能语音助手的持续学习方法，具体可以包括如下步骤：

S101、获取用户的语音输入信息；

S102、获取智能语音助手基于用户的语音输入信息进行响应后，用户的反馈信息；

S103、基于用户的反馈信息，控制智能语音助手进行学习。

本实施例的智能语音助手的持续学习方法的执行主体可以为智能语音助手的持续学习装置，该装置可以为电子实体，或者软件集成的应用。使用时，能够控制智能语音助手进行学习。

本实施例的智能语音助手，可以安装在电子地图等各种应用中，实现基于用户的语音输入，为用户提供服务。

本实施例中，可以在用户输入语音输入信息后，智能语音助手基于该用户的语音输入信息进行响应。此时，对应地可以获取到用户的反馈信息。例如，用户的反馈信息可以包括用户认可该响应，可以认为用户的请求得到满足。或者用户的反馈信息可以为用户在获取到响应后直接再次发起请求，此时可以认为用户不认可该响应，用户的请求没有得到满足。

进一步地，在本实施例中，基于用户的反馈信息，有针对性地对智能语音助手进行学习，进而优化智能语音助手的性能；而且随着反馈数据的不断产生，可以按照本实施例的上述步骤，基于反馈信息，控制智能语音助手持续学习，且学习过程可以自动实现，非常智能。

本实施例的智能语音助手的持续学习方法，通过获取智能语音助手基于用户的语音输入信息进行响应后，用户的反馈信息；并进一步基于用户的反馈信息，控制智能语音助手进行学习，而且本实施例的学习方法，在使用过程中，针对用户的每个语音输入信息对应的用户反馈信息，可以控制智能语音助手进行持续学习，不断地优化和提高智能语音助手的性能，而且智能语音助手的持续学习过程，可以非常智能地、自动化实现，持续学习的效率非常高。

图2是根据本公开第二实施例的示意图；如图2所示，本实施例智能语音助手的持续学习方法，在上述图1所示实施例的技术方案的基础上，进一步更加详细地介绍本公开的技术方案。如图2所示，本实施例智能语音助手的持续学习方法，具体可以包括如下步骤：

S201、获取用户的语音输入信息；

S202、获取智能语音助手基于用户的语音输入信息进行响应后，用户的反馈信息；

S203、确实用户的反馈信息标识用户为正反馈；

S204、基于用户的反馈信息，构建ASR模型、NLU模型和/或技能决策模型的第一训练数据；

S205、分别基于ASR模型、NLU模型和/或技能决策模型的第一训练数据，相应地对智能语音助手中的ASR模型、NLU模型和/或技能决策模型进行训练。

图3是本实施例提供的一种智能语音助手的架构示意图。如图3所示，本实施例中，智能语音助手主要包括自动语音识别(Automatic Speech Recognition；ASR)模型、自然语言理解(Natural Language Understanding；NLU))模块、技能决策模型等等。ASR模型，用于对采集到的用户的语音进行识别，并转录为文本。NLU模块中包括NLU策略模板和NLU模型，其中NLU策略模板中可以包括有多个NLU策略，各NLU策略中设置有槽位信息等。基于各NLU策略，可以对用户语音转录的文本进行信息识别，得到相应的识别信息。例如识别信息中可以包括用户意图以及关键信息。其中关键信息可以指的是实现用户意图的关键信息，如若用户意图是导航，则关键信息中需要包括导航的位置信息，如导航起始点和目标点。若用户的地图是点歌，则关键信息中需要包括歌曲名称和/或演唱者。本实施例的智能语音助手可以设置一定比例的流量采用NLU策略模板进行信息识别，而设置另一定比例的流量采用NLU模型进行信息识别。例如，若NLU策略模板无法识别某些文本时，可以采用NLU模型里对该文本进行信息识别。

技能决策模型，用于基于信息识别得到的识别信息，决策对应的技能标识。另外，在智能语音助手中还可以包括有各技能标识对应的技能服务模块，用于基于技能标识以及得到的识别信息，调用相应的技能服务，以满足用户的需求。在智能语音助手中，支持的技能的数量，可以根据实际需求来设置。例如，若智能语音助手应用在电子地图中时，技能可以指的是智能语音助手安装的电子地图或者使用该电子地图的终端支持的技能，即此时技能服务模块，基于相应的识别信息，调用电子地图中技能标识对应的技能，以响应用户的服务需求。技能服务模块，还可以根据调用结果，生成回复语句。例如，在用户请求导航时，可以在调用导航后，可以生成回复语句“已为您规划好去哪儿的路线”等之类的；在用户请求听音乐时，可以在调用音乐播放器，并打开用户请求的音乐之后，例如生成回复语句“已为您找到XXX演唱的YY歌曲，现在为您播放”。

在智能语音助手中还可以包括有语音合成(Text To Speech；TTS)模块，该模块主要负责根据技能服务模块生成的回复语句来合成对应的语音，并播放。

可选地，本实施例的智能语音助手，还可以包括其他模块，如纠错模块，在ASR之后，对ASR转录的文本进行纠错。或者还可以包括其他功能模块，在此不再举例赘述。

本实施例中，用户的反馈为正反馈，即用户认可智能语音助手响应的结果，则表示ASR模型、NLU模型以及技能决策模型的处理都是正确的。此时可以基于用户的反馈数据，构建ASR模型、NLU模型和/或技能决策模型的第一训练数据。

例如，用户输入语音后，ASR模型对该语音进行自动识别，转录为文本。在用户反馈为正反馈时，此时认为ASR模型的识别结果是准确地。此时可以基于ASR模型的输入语音以及转录后的文本，构建第一训练数据，对ASR模型进行训练，不但能够提高ASR模型的性能，还能大幅提高其鲁棒性。实际应用中，可以参照上述方式，采集一定数量的用户正反馈对应的第一训练数据，集中对ASR模型进行训练，以提高ASR模型的性能。

进一步地，在NLU模块内包括有NLU策略模板和NLU模型，用于对ASR转录后的文本进行信息识别。NLU策略模板的优先级高于NLU模型。也就是说，先采用NLU策略模板对转录的文本进行信息识别，若未识别到，可以采用NLU模型对转录的文本进行信息识别。在当前场景下，可以检测NLU模型是否工作。若工作，由于用户的反馈是正反馈，可以确定NLU模型进行信息识别是正确的。此时可以获取NLU模型的输入信息，即ASR模型转录后的文本，以及NLU模型输出的识别信息，构成NLU模型的第一训练数据，对NLU模型进行训练，不但能够提高NLU模型的性能，还能大幅提高其鲁棒性。实际应用中，可以参照上述方式，采集一定数量的用户正反馈对应的第一训练数据，集中对NLU模型进行训练，以提高NLU模型的性能。

可选地，实际应用中若NLU模型在当前场景下，未工作，此时NLU模型不参与训练。

进一步地，技能决策模型可以基于NLU模块识别到的识别信息，进行技能的决策。在用户反馈是正反馈时，也可以确定技能决策模型的决策是正确的。此时可以获取技能决策模型的输入信息，即NLU模块识别到的识别信息，以及技能决策模型输出的技能标识对应的技能，构成技能决策模型的第一训练数据，对技能决策模型进行训练，不但能够提高技能决策模型的性能，还能大幅提高其鲁棒性。实际应用中，可以参照上述方式，采集一定数量的用户正反馈对应的第一训练数据，集中对技能决策模型进行训练，以提高技能决策模型的性能。

本实施例的智能语音助手的持续学习方法，能够基于用户的正反馈信息，生成合理、有效地训练数据，这类训练数据非常真实，采用该类训练数据对ASR模型、NLU模型和/或技能决策模型进行训练，使得智能语音助手可以在使用过程中，具备持续学习的能力，不但能够持续优化和提高各模型的性能，还能大幅提高各模型的鲁棒性。因此，采用本实施例的智能语音助手的持续学习方法，可以有效地提高智能语音助手的持续学习效率，同时也能够不断地优化和提升智能语音助手的性能。

图4是根据本公开第三实施例的示意图；如图4所示，本实施例智能语音助手的持续学习方法，在上述图1所示实施例的技术方案的基础上，进一步更加详细地介绍本公开的技术方案。如图4所示，本实施例智能语音助手的持续学习方法，具体可以包括如下步骤：

S401、获取用户的语音输入信息；

S402、获取智能语音助手基于用户的语音输入信息进行响应后，用户的反馈信息；

S403、确实用户的反馈信息标识用户为负反馈；

例如，本实施例中，确定用户的反馈信息标识用户为负反馈，具体可以包括如下步骤：

(1)获取智能语音助手基于用户的第一语音输入信息进行响应后，用户的第一反馈信息；

(2)若第一反馈信息标识用户未采纳智能语音助手的响应结果，确定用户的第一反馈信息为负反馈。

与上述图2所示实施例中，确定用户的反馈信息为正反馈不同的是，负反馈时，用户未采纳智能语音助手基于第一语音输入信息的响应结果。例如，第一反馈信息对应用户在智能语音助手基于用户的第一语音输入信息进行响应后，预设时间段内重新发起语音输入。该预设时间段可以根据实际需求来设置。例如可以为5S、10S等时间长度。例如，用户发出语音请求，请求导航到目的地A，智能语音助手基于用户的语音请求，响应到达目的地B的导航。用户在响应后的预设时间段内，确定导航错了，立马重发发起到目的地A的导航请求。此时根据用户在响应后、预设时间段内的快速的重新发起导航请求，可以确定用户未采纳智能语音助手的响应结果，所以可以确定用户的反馈为负反馈。该确定用户的反馈为负反馈的方式，非常准确，可靠。

S404、定位智能语音助手的学习信息；

S405、基于学习信息，控制智能语音助手进行学习。

实际应用中，负反馈对应的情况较为复杂。例如，参考上述图3所示实施例的架构，在用户为负反馈时，可能是NLU策略模板不能满足需求需要学习，也可能是智能语音助手的技能需要学习，还有可能是ASR模型、NLU模型或者技能决策模型准确性欠佳，需要学习。所以，在用户的反馈为负反馈时，需要定位智能语音助手的学习信息，才可以进一步基于学习信息，对智能语音助手进行更加准确地学习，以提升和优化智能语音助手的性能。

例如，本实施例的步骤S304，定位智能语音助手的学习信息，具体可以包括如下几种情形：

第一种情形、确定智能语音助手中的ASR模型、NLU模型或技能决策模型需要学习，具体可以包括如下步骤：

(a1)获取用户在第一反馈信息后预设时间长度内输入的第二语音输入信息；

(b1)获取智能语音助手基于用户的第二语音输入信息进行响应后，用户的第二反馈信息；

(c1)确定第二反馈信息标识用户采纳智能语音助手的响应结果；

(d1)若第二语音输入信息和第一语音输入信息的语义相似度小于预设相似度阈值，确定智能语音助手中的ASR模型、NLU模型或技能决策模型需要学习。

在该种情形中，智能语音助手在基于用户的第一语音输入信息响应后，用户的第一反馈信息标识用户未采纳相应的响应结果。并在响应后预设时间段内，再次发起第二语音输入。而智能语音助手基于第二语音输入信息响应后，用户的第二反馈信息又标识用户采纳了相应的响应结果。而且进一步确定第二语音输入信息和第一语音输入信息的语义相似度小于预设相似度阈值时，此时可以准确地确定，是智能语音助手响应错误。其中，第二语音输入信息和第一语音输入信息的语义相似度计算时，可以先获取ASR模型分别对第一语音输入信息转录的第一文本，和对第二语音输入信息转录的第二文本。然后取第一文本和第二文本的语义相似度。例如，可以提取第一文本的关键信息和第二文本信息的关键信息，然后取两者关键信息的语义相似度。例如，“ABCD”和“PBCD”，两者仅相差一个字符，语义相似度较高。如可以取相同字符数除以平均字符数，平均字符数可以取第一文本的关键信息和第二文本的关键信息的字数的平均值。或者还可以采用其他方式计算语义相似度，在此不做限定。

基于以上所述，可以得知，在该种场景中，可以理解为智能语音助手支持的NLU策略模板和技能不需要学习。即可以推断可能是ASR模型在语音识别时，识别的信息出现错误。或者可以推断NLU模型具备信息识别能力，只是基于用户的第一语音输入信息，NLU模型可能信息识别错误。同理，在该种情形中，也可以确定技能决策模型能够决策到技能，但是在基于用户的第一语音输入信息进行响应时，技能决策模型可能决策的技能错误。所以，此时可以确定智能语音助手的ASR模型、NLU模型或者技能决策模型需要学习。

例如，若ASR模型基于第一语音输入信息，识别的第一识别结果信息的置信度小于预设置信度阈值，确定ASR模型需要学习；

若NLU模型识别的第一识别信息和第二识别信息不同，确定NLU模型需要学习；其中第一识别信息为NLU模型基于第一语音输入信息识别的，第二识别信息为NLU模型基于第二语音输入信息识别的；或

若技能决策模型决策的第一技能和第二技能不同，确定技能决策模型需要学习；其中第一技能为技能决策模型基于第一识别信息决策的，第二技能为技能决策模型基于第二识别信息决策的。

对应地，步骤S305基于学习信息，控制智能语音助手进行学习，具体可以包括如下步骤：

(a2)基于第一语音输入信息和第二语音输入信息，构建第二训练数据；

(b2)基于第二训练数据，对ASR模型、NLU模型或技能决策模型进行训练。

例如，对应的步骤(a2)具体可以包括如下步骤：

(a3)获取基于第一语音输入信息，ASR模型、NLU模型或者技能决策模型对应的第一输入信息；

(b3)获取基于第二语音输入信息，ASR模型、NLU模型或者技能决策模型对应的第二输入信息；

(c3)获取基于第二语音输入信息，ASR模型、NLU模型或者技能决策模型对应的第二输出信息；

(d3)展示第一输入信息、第二输入信息以及第二输出信息，以供工作人员基于展示的信息，确定第一输入信息对应的第一理论输出信息；

例如，具体可以以弹框的形式展示。或者也可以发出携带第一输入信息、第二输入信息以及第二输出信息的报警提示信息，以更加明显的方式告知工作人员，可以参考第二输入信息和第二输出信息，更加准确地确定第一理论输出信息。可选地，在本公开的一个实施例中，也可以省去步骤(b3)和(c3)，该步骤(d3)也仅仅展示第一输入信息，也能够实现。

(e3)接收输入的第一理论输出信息；

(e3)基于第一输入信息和第一理论输出信息，构建第二训练数据。

需要说明的是，实际应用中，并非ASR模型、NLU模型以及技能决策模型三个模型都出现问题，都需要学习。按照上述实施例的方式，可能可以确定其中一个模型出现了问题。由于错误会出现累加，所以在定位问题时，可以按照ASR模型、NLU模型以及技能决策模型三个模型由前到后的顺序，依次检测，以便于准确定位需要学习的信息。

例如，若检测到ASR模型基于第一语音输入信息，识别的第一识别结果信息的置信度小于预设置信度阈值，此时虽然经过NLU模型以及技能决策模型的处理，最终的响应结果是错误的，但可以将这种错误理解为是ASR模型的识别错误导致的错误。所以，此时可以确定是ASR模型需要学习。而若ASR基于第一语音输入信息，识别的第一识别结果信息的置信度大于或者等于预设置信度阈值，此时可以认为ASR模型识别的结果信息是正确的。同理，可以进一步确定NLU模型是否需要学习，按照上述方式，若NLU模型识别的第一识别信息和第二识别信息不同，此时确定NLU模型需要学习。而若检测到NLU模型不用学习，此时若NLU模型识别的第一识别信息和第二识别信息不同。例如，第一识别信息的意图和第二识别信息的意图不同和/或关键信息不同。可以认为是NLU模型识别错误，需要学习。同理，针对于语义相似度较大的第一语音输入信息和第二语音输入信息，理论上，技能决策模型识别的技能也应该是一样的，而按照上述实施例的方式，若技能决策模型基于决策的第一技能和第二技能不同，确定技能决策模型需要学习。

本实施例中，基于第二语音输入信息，ASR模型、NLU模型或者技能决策模型对应的第二输入信息和相应的第二输出信息都是正确的。可以参考上述正反馈对应的训练数据的构建方式，基于第二语音输入信息，获取ASR模型、NLU模型或者技能决策模型对应的第二输入信息和相应的第二输出信息，构建训练数据，并采用训练数据对相应的模型进行训练。而且实际应用中，按照上述方式，基于用户的大规模的反馈信息，可以实现对智能语音助手的持续学习，不断地优化和提升智能语音助手的性能。

而针对第一语音输入信息，可以获取到ASR模型、NLU模型或者技能决策模型对应的第一输入信息，而由于第一语音输入信息的响应结果不被用户采纳，所以不能获取相应的第一输出信息，构建样本。而是展示第一输入信息、第二输入信息以及第二输出信息，以供工作人员基于展示的信息，确定第一输入信息对应的第一理论输出信息。由于第一语音输入信息和第二语音信息的语义相似度较高，此处，同时输出第二输入信息和第二输出信息，可以便于工作人员参考，可以更加准确地确定第一语音输入信息对应的第一理论输出信息。最后接收工作人员通过人机接口模块输入的第一理论输出信息；并基于第一输入信息和第一理论输出信息，构建第二训练数据。并采用第二训练数据对相应的ASR模型、NLU模型或者技能决策模型进行训练，以实现智能语音助手中的ASR模型、NLU模型或者技能决策模型学习，进而实现智能语音助手的学习，从而提升和优化智能语音助手的性能。

第二种情形、确定智能语音助手中的NLU策略模板和NLU模型需要学习。

例如，若经过检测，ASR模型基于第一语音输入信息的识别结果的置信度大于预设置信度阈值，则确定ASR模型识别是准确的。接着检测NLU模型，若确定NLU模型基于第一语音输入信息的输出结果为未识别到信息，即未识别到意图以及对应的关键信息，则可以确定NLU策略模板中包括的NLU策略均不能理解第一语音输入信息对应的输入信息，需要学习。而且还可以确定NLU模型也不能理解第一语音输入信息对应的输入信息，也需要学习。

由于该情形下，NLU策略模板和NLU模型无法识别基于第一语音输入信息在NLU模块中的输入信息，所以，即使用户再次发起语义相似的语音输入，仍然会无法识别，此时，对应地，步骤S305基于学习信息，控制智能语音助手进行学习，具体可以包括如下步骤：

(a4)基于用户的第一语音输入信息，发出第一报警提示信息，第一报警提示信息中携带第一语音识别信息，以提示NLU模板，无法识别第一语音识别信息；该第一语音识别信息为用户输入第一语音输入信息时，对应地ASR模型识别的语音识别信息，即该第一语音识别信息是输入值NLU模块中的信息，NLU模块中的NLU策略模板和NLU模型都无法识别该信息。

(b4)接收第一语音识别信息对应的NLU策略；

(c4)将NLU策略存入NLU策略模板中。

具体地，工作人员根据第一报警提示信息，可以根据第一语音识别信息，对该NLU策略模板进行学习，配置并输入第一语音识别信息对应的NLU策略。在智能语音助手的持续学习装置一侧，可以接收该第一语音识别信息对应的NLU策略；并将NLU策略存入NLU策略模板中，实现智能语音助手的学习。通过该持续学习方式，可以使得NLU策略模板具备识别该第一语音识别信息的能力，能够有效地提升智能语音助手的性能。

另外，在该情形下，还可以对NLU模型也进行学习，例如，具体可以包括如下步骤：

(a5)获取基于第一语音输入信息，NLU模型对应的第三输入信息；

(b5)发出携带第三输入信息的第二报警提示信息，以提示NLU模型无法识别第三输入信息；

(c5)接收输入的第三理论输出信息；

(d5)基于第三输入信息和第三理论输出信息，构建第三训练数据；

(e5)基于第三训练数据，对NLU模型进行训练。

其中，第三输入信息，也即是上述的第一语音识别信息。另外，本实施例中，该第二报警提示信息可以以弹框的形式展示在界面，此时工作人员看到该第二报警提示信息后，可以确定第三理论输出信息，并通过人机接口模块输入至智能语音助手的学习装置中，此时该智能语音助手的持续学习装置可以基于第三输入信息和第三理论输出信息，构建第三训练数据；并基于第三训练数据，对NLU模型进行训练，使得NLU模型学习识别第三输入信息的识别能力，提高NLU模型的性能，进而提升智能语音助手的性能。

可选地，在本公开的一个实施例中，若检测到NLU模型在工作，无论NLU识别的信息的置信度高低与否，都可以认为NLU策略模板需要学习，学习方式同上。若NLU模型识别的信息的置信度低，也需要更新NLU模型。若NLU模型的识别的信息的置信度高，可以暂时不用更新NLU模型，或者采用该置信度高对应的输入信息和输出信息，再次对该NLU模型进行训练，以强化NLU模型的性能。

第三种情形、确定智能语音助手中的技能策略需要学习。

在该情形中，可以认为ASR模型是准确的。NLU策略模板和/或NLU模型也不需要学习，而仅仅技能决策模型在进行技能决策时，确定技能决策模型输出结果为未决策到相应技能，此时确定智能语音助手中的技能策略需要学习。

(a6)基于用户的第一语音输入信息，发出第三报警提示信息，第三报警提示信息中携带第一语音输入信息对应的第三识别信息；第三识别信息为NLU模型基于第一语音输入信息理解和识别的；或者也可以是基于NLU策略模板理解和识别的，可以包括用户意图以及关键信息等；

(b6)配置第三识别信息对应的技能策略，以扩充智能语音助手能够决策的技能。

该配置过程，可以由工作人员人工控制，并输入至智能语音助手的学习装置中，以完成智能语音助手的技能策略的学习。

本实施例的上述各种情形的定位智能语音助手的学习信息的方法，都非常准确，能够准确地定位到智能语音助手的学习信息，进而可以控制智能语音助手有针对性地学习，能够有效地提升和优化智能语音助手的性能。

本实施例智能语音助手的持续学习方法，能够在用户的反馈信息为负反馈时，定位学习信息，并针对不同的学习信息，有针对性地对智能语音助手进行学习，能够提升和优化智能语音助手的性能，有效地提高智能语音助手的学习效率。而且，本实施例的学习方法，可以基于用户的反馈信息，进行持续不断地学习，不断地提升和优化智能语音助手的性能，使得智能语音助手可以一直处于最佳的状态。

基于本公开的上述实施例的智能语音助手的持续学习方法，可以基于大规模的用户反馈信息，对智能语音助手进行持续学习，可以不断地对智能语音助手的各个算法模型如ASR模型、NLU模型以及技能决策模型以及NLU策略模板进行优化，也能够不断地发现智能语音助手需要扩展的新技能，并及时构建相应的新技能；进而可以使得智能语音助手的用户体验不会在上线后持续衰减，而能够保持不断地优化和提升性能。

图5是根据本公开第四实施例的示意图；如图5所示，本实施例提供一种智能语音助手的持续学习装置500，包括：

获取模块501，用于获取用户的语音输入信息；

获取模块501，还用于获取智能语音助手基于所述用户的语音输入信息进行响应后，所述用户的反馈信息；

学习模块502，用于基于所述用户的反馈信息，控制所述智能语音助手进行学习。

本实施例的智能语音助手的持续学习装置500，通过采用上述模块实现智能语音助手的持续学习的实现原理以及技术效果，与上述相关方法实施例的实现相同，详细可以上述相关实施例的记载，在此不再赘述。

图6是根据本公开第四实施例的示意图；如图6所示，本实施例提供一种智能语音助手的持续学习装置600，包括上述图5所示实施例的同名同功能模块，获取模块601和学习模块602。

如图6所示，本实施例的智能语音助手的持续学习装置600，还包括：

确定模块603，用于确定所述用户的反馈信息标识所述用户为正反馈。

进一步可选地，在本公开的一个实施例中，学习模块602，用于：

基于所述用户的反馈信息，构建自动语音识别模型、自然语言理解模型和/或技能决策模型的第一训练数据；

分别基于所述自动语音识别模型、所述自然语言理解模型和/或所述技能决策模型的第一训练数据，相应地对所述智能语音助手中的所述自动语音识别模型、所述自然语言理解模型和/或所述技能决策模型进行训练。

进一步可选地，在本公开的一个实施例中，确定模块603，还用于：

确定所述用户的反馈信息标识所述用户为负反馈。

进一步可选地，在本公开的一个实施例中，确定模块603，用于：

获取所述智能语音助手基于所述用户的第一语音输入信息进行响应后，所述用户的第一反馈信息；

若所述第一反馈信息标识用户未采纳所述智能语音助手的响应结果，确定所述用户的第一反馈信息为负反馈。

定位所述智能语音助手的学习信息；

基于所述学习信息，控制所述智能语音助手进行学习。

获取所述用户在所述第一反馈信息后预设时间长度内输入的第二语音输入信息；

获取所述智能语音助手基于所述用户的第二语音输入信息进行响应后，所述用户的第二反馈信息；

确定所述第二反馈信息标识用户采纳所述智能语音助手的响应结果；

若所述第二语音输入信息和所述第一语音输入信息的语义相似度小于预设相似度阈值，确定所述智能语音助手中的自动语音识别模型、自然语言理解模型或技能决策模型需要学习。

若所述自动语音识别模型基于所述第一语音输入信息，识别的第一识别结果信息的置信度小于预设置信度阈值，确定所述自动语音识别模型需要学习；

若所述自然语言理解模型识别的第一识别信息和第二识别信息不同，确定所述自然语言理解模型需要学习；其中所述第一识别信息为所述自然语言理解模型基于所述第一语音输入信息识别的，所述第二识别信息为所述自然语言理解模型基于所述第二语音输入信息识别的；或

若所述技能决策模型决策的第一技能和所述第二技能不同，确定所述技能决策模型需要学习；其中所述第一技能为所述技能决策模型基于所述第一识别信息决策的，所述第二技能为所述技能决策模型基于所述第二识别信息决策的。

基于所述第一语音输入信息和所述第二语音输入信息，构建第二训练数据；

基于所述第二训练数据，对所述自动语音识别模型、所述自然语言理解模型或所述技能决策模型进行训练。

获取基于所述第一语音输入信息，所述自动语音识别模型、所述自然语言理解模型或者所述技能决策模型对应的第一输入信息；

获取基于所述第二语音输入信息，所述自动语音识别模型、所述自然语言理解模型或者所述技能决策模型对应的第二输入信息；

获取基于所述第二语音输入信息，所述自动语音识别模型、所述自然语言理解模型或者所述技能决策模型对应的第二输出信息；

展示所述第一输入信息、所述第二输入信息以及所述第二输出信息，以供工作人员基于展示的信息，确定所述第一输入信息对应的第一理论输出信息；

接收输入的所述第一理论输出信息；

基于所述第一输入信息和所述第一理论输出信息，构建所述第二训练数据。

确定所述自然语言理解模型基于所述第一语音输入信息的输出结果为未识别到信息；

确定所述智能语音助手中的自然语言理解策略模板和所述自然语言理解模型需要学习。

基于所述用户的第一语音输入信息，发出第一报警提示信息，所述第一报警提示信息中携带第一语音识别信息，以提示所述自然语言理解策略模板，无法识别所述第一语音识别信息；所述第一语义识别信息为用户输入所述第一语音输入信息时，所述自动语音识别模型识别的语音识别信息；

接收所述第一语音识别信息对应的自然语言理解策略；

将所述自然语言理解策略存入所述自然语言理解策略模板中。

获取基于所述第一语音输入信息，所述自然语言理解模型对应的第三输入信息；

发出携带所述第三输入信息的第二报警提示信息，以提示所述自然语言理解模型无法识别所述第三输入信息；

接收输入的所述第三理论输出信息；

基于所述第三输入信息和所述第三理论输出信息，构建第三训练数据；

基于所述第三训练数据，对所述自然语言理解模型进行训练。

确定所述技能决策模型输出结果为未决策到相应技能；

确定所述智能语音助手中的技能策略需要学习。

基于所述用户的第一语音输入信息，发出第三报警提示信息，所述第三报警提示信息中携带所述第一语音输入信息对应的第三识别信息；所述第三识别信息为所述自然语言理解模型基于所述第一语音输入信息识别的；

配置所述第三识别信息对应的所述技能策略，以扩充所述智能语音助手能够决策的技能。

本实施例的智能语音助手的持续学习装置600，通过采用上述模块实现智能语音助手的持续学习的实现原理以及技术效果，与上述相关方法实施例的实现相同，详细可以上述相关实施例的记载，在此不再赘述。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如本公开的上述方法。例如，在一些实施例中，本公开的上述方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的本公开的上述方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行本公开的上述方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种智能语音助手的持续学习方法，包括：

获取用户的第一语音输入信息；

获取智能语音助手基于所述用户的第一语音输入信息进行响应后，所述用户的第一反馈信息；

若所述第一反馈信息为负反馈，获取所述用户在所述第一反馈信息后预设时间长度内输入的第二语音输入信息；所述第二语音输入信息和所述第一语音输入信息的语义相似度小于预设相似度阈值；

基于所述用户的第二反馈信息，控制所述智能语音助手进行学习；

基于所述用户的第二反馈信息，控制所述智能语音助手进行学习，包括：

若所述用户的第二反馈信息为正反馈，定位所述智能语音助手的学习信息；

定位所述智能语音助手的学习信息，包括：

确定所述智能语音助手中的自动语音识别模型、自然语言理解模型或技能决策模型需要学习；

确定所述智能语音助手中的自动语音识别模型、自然语言理解模型或技能决策模型需要学习，包括：

若所述自然语言理解模型识别的第一识别信息和第二识别信息不同，确定所述自然语言理解模型需要学习；其中所述第一识别信息为所述自然语言理解模型基于所述第一语音输入信息识别的，所述第二识别信息为所述自然语言理解模型基于所述第二语音输入信息识别的。

2.根据权利要求1所述的方法，其中，获取智能语音助手基于所述用户的第一语音输入信息进行响应后，所述用户的第一反馈信息之后，所述方法还包括：

确定所述用户的第一反馈信息标识所述用户的反馈为正反馈。

3.根据权利要求2所述的方法，其中，确定所述用户的第一反馈信息标识所述用户的反馈为正反馈之后，所述方法还包括：

基于所述用户的第一反馈信息，构建自动语音识别模型、自然语言理解模型和/或技能决策模型的第一训练数据；

4.根据权利要求1所述的方法，其中，若所述第一反馈信息为负反馈，获取所述用户在所述第一反馈信息后预设时间长度内输入的第二语音输入信息之前，所述方法包括：

确定所述第一反馈信息标识用户未采纳所述智能语音助手基于所述用户的第一语音输入信息进行响应的响应结果。

5.根据权利要求1所述的方法，其中，基于所述用户的第二反馈信息，控制所述智能语音助手进行学习，还包括：

基于所述学习信息，控制所述智能语音助手进行学习。

6.根据权利要求5所述的方法，其中，若所述用户的第二反馈信息为正反馈，定位所述智能语音助手的学习信息之前，所述方法包括：

确定所述第二反馈信息标识用户采纳所述智能语音助手基于所述用户的第二语音输入信息进行响应后的响应结果。

7.根据权利要求5所述的方法，其中，确定所述智能语音助手中的自动语音识别模型、自然语言理解模型或技能决策模型需要学习，还包括：

若所述自动语音识别模型基于所述第一语音输入信息，识别的第一识别结果信息的置信度小于预设置信度阈值，确定所述自动语音识别模型需要学习；或

若所述技能决策模型决策的第一技能和第二技能不同，确定所述技能决策模型需要学习；其中所述第一技能为所述技能决策模型基于所述第一识别信息决策的，所述第二技能为所述技能决策模型基于所述第二识别信息决策的。

8.根据权利要求6或7所述的方法，其中，基于所述学习信息，对所述智能语音助手进行学习，包括：

9.根据权利要求8所述的方法，其中，基于所述第一语音输入信息和所述第二语音输入信息，构建第二训练数据，包括：

接收输入的所述第一理论输出信息；

10.根据权利要求5所述的方法，其中，定位所述智能语音助手的学习信息，还包括：

11.根据权利要求10所述的方法，其中，基于所述学习信息，对所述智能语音助手进行学习，包括：

基于所述用户的第一语音输入信息，发出第一报警提示信息，所述第一报警提示信息中携带第一语音识别信息，以提示根据所述自然语言理解策略模板，无法识别所述第一语音识别信息；所述第一语音识别信息为用户输入所述第一语音输入信息时，所述自动语音识别模型识别的语音识别信息；

接收所述第一语音识别信息对应的自然语言理解策略；

12.根据权利要求10所述的方法，其中，基于所述学习信息，控制所述智能语音助手进行学习，包括：

接收输入的第三理论输出信息；

13.根据权利要求5所述的方法，其中，定位所述智能语音助手的学习信息，还包括：

确定所述技能决策模型输出结果为未决策到相应技能；

确定所述智能语音助手中的技能策略需要学习。

14.根据权利要求13所述的方法，其中，基于所述学习信息，控制所述智能语音助手进行学习，包括：

15.一种智能语音助手的持续学习装置，包括：

获取模块，用于获取用户的第一语音输入信息；

所述获取模块，还用于获取智能语音助手基于所述用户的第一语音输入信息进行响应后，所述用户的第一反馈信息；

所述获取模块，还用于若所述第一反馈信息为负反馈，获取所述用户在所述第一反馈信息后预设时间长度内输入的第二语音输入信息；所述第二语音输入信息和所述第一语音输入信息的语义相似度小于预设相似度阈值；

所述获取模块，还用于获取所述智能语音助手基于所述用户的第二语音输入信息进行响应后，所述用户的第二反馈信息；

学习模块，用于基于所述用户的第二反馈信息，控制所述智能语音助手进行学习；

所述学习模块，用于若所述用户的第二反馈信息为正反馈，定位所述智能语音助手的学习信息；

所述学习模块，用于确定所述智能语音助手中的自动语音识别模型、自然语言理解模型或技能决策模型需要学习；

所述学习模块，用于若所述自然语言理解模型识别的第一识别信息和第二识别信息不同，确定所述自然语言理解模型需要学习；其中所述第一识别信息为所述自然语言理解模型基于所述第一语音输入信息识别的，所述第二识别信息为所述自然语言理解模型基于所述第二语音输入信息识别的。

16.根据权利要求15所述的装置，其中，所述装置还包括：

确定模块，用于确定所述用户的第一反馈信息标识所述用户的反馈为正反馈。

17.根据权利要求16所述的装置，其中，所述学习模块，还用于：

18.根据权利要求16所述的装置，其中，所述确定模块，还用于：

19.根据权利要求16所述的装置，其中，所述学习模块，还用于：

基于所述学习信息，控制所述智能语音助手进行学习。

20.根据权利要求19所述的装置，其中，所述确定模块，还用于：

21.根据权利要求19所述的装置，其中，所述学习模块，用于：

22.根据权利要求20或21所述的装置，其中，所述学习模块，用于：

23.根据权利要求22所述的装置，其中，所述学习模块，用于：

接收输入的所述第一理论输出信息；

24.根据权利要求19所述的装置，其中，所述学习模块，用于：

25.根据权利要求24所述的装置，其中，所述学习模块，用于：

接收所述第一语音识别信息对应的自然语言理解策略；

26.根据权利要求24所述的装置，其中，所述学习模块，用于：

接收输入的第三理论输出信息；

27.根据权利要求19所述的装置，其中，所述学习模块，用于：

确定所述技能决策模型输出结果为未决策到相应技能；

确定所述智能语音助手中的技能策略需要学习。

28.根据权利要求27所述的装置，其中，所述学习模块，用于：

29.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-14中任一项所述的方法。

30.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-14中任一项所述的方法。