CN113628622A

CN113628622A - 语音交互方法、装置、电子设备及存储介质

Info

Publication number: CN113628622A
Application number: CN202110973383.0A
Authority: CN
Inventors: 程益君; 徐昕媚
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-08-24
Filing date: 2021-08-24
Publication date: 2021-11-09
Also published as: WO2023024455A1

Abstract

本公开关于一种语音交互方法、装置、电子设备及存储介质，该方法包括在目标视频播放过程中，获取第一目标采集语音；基于第一目标采集语音进行语音助手唤醒识别，得到第一唤醒识别结果；若第一唤醒识别结果为唤醒目标语音助手，在目标视频对应的播放页面展示预设提示信息，预设提示信息指示目标语音助手唤醒成功，以及基于语音控制与目标视频关联的交互操作。利用本公开实施例可以提升交互便捷性、交互效率以及提升语音交互的精准性。

Description

语音交互方法、装置、电子设备及存储介质

技术领域

本公开涉及互联网技术领域，尤其涉及一种语音交互方法、装置、电子设备及存储介质。

背景技术

随着互联网技术的发展和移动设备的普及，利用移动设备查看影视剧、直播等视频已经成为人们日常生活中的一部分，目前在视频播放过程中，用户往往会对视频进行评论、发送弹幕等交互操作。相关技术中，用户往往需要结合视频播放页面的相关操作控件，通过手动触屏等方式执行相应的交互操作。但上述相关技术中基于操作控件的交互方式，往往存在交互操作繁琐、交互效率等问题。

发明内容

本公开提供一种语音交互方法、装置、电子设备及存储介质，以至少解决相关技术中交互操作繁琐、交互效率的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种语音交互方法，包括：

在目标视频播放过程中，获取第一目标采集语音；

基于所述第一目标采集语音进行语音助手唤醒识别，得到第一唤醒识别结果；

若所述第一唤醒识别结果为唤醒目标语音助手，在所述目标视频对应的播放页面展示预设提示信息，所述预设提示信息指示所述目标语音助手唤醒成功，以及基于语音控制与所述目标视频关联的交互操作。

可选的，所述获取第一目标采集语音包括：

获取第一采集语音和所述第一采集语音采集时所述目标视频对应的第一播放语音；

基于所述第一播放语音对所述第一采集语音进行声学回声消除处理，得到所述第一目标采集语音。

可选的，在所述目标视频对应的播放页面展示预设提示信息之后，所述方法还包括：

获取第二采集语音和所述第二采集语音采集时所述目标视频对应的第二播放语音；

基于所述第二播放语音对所述第二采集语音进行声学回声消除处理，得到第二目标采集语音；

向服务器发送第一操控信息获取请求，所述第一操控信息获取请求包括所述第二目标采集语音；

接收所述服务器发送的所述第二目标采集语音对应的第二操控信息；

基于所述第二操控信息，执行与所述第二采集语音对应的第二目标交互操作。

若所述第一目标采集语音包括多轮交互指示语音，将所述目标语音助手的服务模式由第一状态更新为第二状态，所述第一状态的服务模式指示在所述目标语音助手唤醒期间，执行一次基于语音控制的所述目标视频关联的交互操作，所述第二状态的服务模式指示在所述目标语音助手唤醒期间，执行至少一次基于语音控制的所述目标视频关联的交互操作。

可选的，所述方法还包括：

获取第三采集语音和所述第三采集语音采集时所述目标视频对应的第三播放语音；

基于所述第三播放语音对所述第三采集语音进行声学回声消除处理，得到第三目标采集语音；

基于所述第三目标采集语音进行语音助手唤醒识别，得到第二唤醒识别结果；

若所述第二唤醒识别结果为不唤醒所述目标语音助手，向服务器发送第二操控信息获取请求，所述第二操控信息获取请求包括所述第三目标采集语音；

接收所述服务器发送的所述第三目标采集语音对应的第三操控信息；

基于所述第三操控信息，执行与所述第三采集语音对应的第三目标交互操作。

可选的，所述方法还包括：

若所述第二唤醒识别结果为唤醒所述目标语音助手，将所述目标语音助手的服务模式由所述第二状态更新为所述第一状态。

可选的，所述若所述第一唤醒识别结果为唤醒目标语音助手，在所述目标视频对应的播放页面展示预设提示信息包括：

若所述第一唤醒识别结果为唤醒目标语音助手，向服务器发送提示信息获取请求，所述提示信息获取请求包括所述第一目标采集语音；

接收所述服务器发送的所述预设提示信息，所述预设提示信息为基于所述第一目标采集语音生成的；

在所述播放页面展示所述预设提示信息。

可选的，在所述向服务器发送所述第一目标采集语音之后，所述方法还包括：

若所述第一目标采集语音包括操控语音，接收所述服务器发送的与所述操作语音对应的第一操控信息，所述操作语音用于指示执行与所述目标视频关联的第一目标交互操作；

基于所述第一操控信息，执行所述第一目标交互操作。

可选的，所述基于所述第一目标采集语音进行语音助手唤醒识别，得到第一唤醒识别结果包括：

获取预设唤醒语音；

基于所述预设唤醒语音对所述第一目标采集语音进行唤醒识别，得到所述第一唤醒识别结果。

获取预设唤醒语音；

基于所述预设唤醒语音对所述第一目标采集语音进行唤醒识别，得到初始唤醒识别结果；

若所述初始唤醒识别结果为唤醒所述目标语音助手，向服务器发送所述第一目标采集语音；

接收所述服务器发送的所述第一唤醒识别结果，所述第一唤醒识别结果为基于预设唤醒识别模型，对所述第一目标采集语音对应的文本进行唤醒识别处理得到的。

可选的，所述方法还包括：

向服务器发送语音响应请求，所述语音响应请求包括所述第一目标采集语音；

接收所述服务器发送的所述第一目标采集语音对应的响应语音；

播放所述响应语音。

若预设时间段内未获取到新增采集语音，将所述播放页面展示的所述预设提示信息，更新为所述目标语音助手的关闭提示信息。

根据本公开实施例的第二方面，提供一种语音交互装置，包括：

第一目标采集语音获取模块，被配置为执行在目标视频播放过程中，获取第一目标采集语音；

第一唤醒识别模块，被配置为执行基于所述第一目标采集语音进行语音助手唤醒识别，得到第一唤醒识别结果；

预设提示信息展示模块，被配置为执行若所述第一唤醒识别结果为唤醒目标语音助手，在所述目标视频对应的播放页面展示预设提示信息，所述预设提示信息指示所述目标语音助手唤醒成功，以及基于语音控制与所述目标视频关联的交互操作。

可选的，所述第一目标采集语音获取模块包括：

第一语音获取单元，被配置为执行在目标视频播放过程中，获取第一采集语音和所述第一采集语音采集时所述目标视频对应的第一播放语音；

第一声学回声消除处理单元，被配置为执行基于所述第一播放语音对所述第一采集语音进行声学回声消除处理，得到第一目标采集语音。

可选的，所述装置还包括：

第二语音获取模块，被配置为执行在所述目标视频对应的播放页面展示预设提示信息之后，获取第二采集语音和所述第二采集语音采集时所述目标视频对应的第二播放语音；

第二声学回声消除处理模块，被配置为执行基于所述第二播放语音对所述第二采集语音进行声学回声消除处理，得到第二目标采集语音；

第一操控信息获取请求发送模块，被配置为执行向服务器发送第一操控信息获取请求，所述第一操控信息获取请求包括所述第二目标采集语音；

第二操控信息接收模块，被配置为执行接收所述服务器发送的所述第二目标采集语音对应的第二操控信息；

第二目标交互操作执行模块，被配置为执行基于所述第二操控信息，执行与所述第二采集语音对应的第二目标交互操作。

可选的，所述装置还包括：

第一服务模式更新模块，被配置为执行在所述目标视频对应的播放页面展示预设提示信息之后，若所述第一目标采集语音包括多轮交互指示语音，将所述目标语音助手的服务模式由第一状态更新为第二状态，所述第一状态的服务模式指示在所述目标语音助手唤醒期间，执行一次基于语音控制的所述目标视频关联的交互操作，所述第二状态的服务模式指示在所述目标语音助手唤醒期间，执行至少一次基于语音控制的所述目标视频关联的交互操作。

可选的，所述装置还包括：

第三语音获取模块，被配置为执行获取第三采集语音和所述第三采集语音采集时所述目标视频对应的第三播放语音；

第三声学回声消除处理模块，被配置为执行基于所述第三播放语音对所述第三采集语音进行声学回声消除处理，得到第三目标采集语音；

第二唤醒识别模块，被配置为执行基于所述第三目标采集语音进行语音助手唤醒识别，得到第二唤醒识别结果；

第二操控信息获取请求发送模块，被配置为执行若所述第二唤醒识别结果为不唤醒所述目标语音助手，向服务器发送第二操控信息获取请求，所述第二操控信息获取请求包括所述第三目标采集语音；

第三操控信息接收模块，被配置为执行接收所述服务器发送的所述第三目标采集语音对应的第三操控信息；

第三目标交互操作执行模块，被配置为执行基于所述第三操控信息，执行与所述第三采集语音对应的第三目标交互操作。

可选的，所述装置还包括：

第二服务模式更新模块，被配置为执行若所述第二唤醒识别结果为唤醒所述目标语音助手，将所述目标语音助手的服务模式由所述第二状态更新为所述第一状态。

可选的，所述预设提示信息展示模块包括：

第一提示信息获取请求发送单元，被配置为执行若所述第一唤醒识别结果为唤醒目标语音助手，向服务器发送提示信息获取请求，所述提示信息获取请求包括所述第一目标采集语音；

预设提示信息接收单元，被配置为执行接收所述服务器发送的所述预设提示信息，所述预设提示信息为基于所述第一目标采集语音生成的；

预设提示信息展示单元，被配置为执行在所述播放页面展示所述预设提示信息。

可选的，所述装置还包括：

第一操控信息接收模块，被配置为执行在所述向服务器发送所述第一目标采集语音之后，若所述第一目标采集语音包括操控语音，接收所述服务器发送的与所述操作语音对应的第一操控信息，所述操作语音用于指示执行与所述目标视频关联的第一目标交互操作；

第一操控信息执行模块，被配置为执行基于所述第一操控信息，执行所述第一目标交互操作。

可选的，所述第一唤醒识别模块包括：

第一预设唤醒语音获取单元，被配置为执行获取预设唤醒语音；

第一唤醒识别单元，被配置为执行基于所述预设唤醒语音对所述第一目标采集语音进行唤醒识别，得到所述第一唤醒识别结果。

可选的，所述第一唤醒识别模块包括：

第二预设唤醒语音获取单元，被配置为执行获取预设唤醒语音；

第二唤醒识别单元，被配置为执行基于所述预设唤醒语音对所述第一目标采集语音进行唤醒识别，得到初始唤醒识别结果；

第一目标采集语音发送单元，被配置为执行若所述初始唤醒识别结果为唤醒所述目标语音助手，向服务器发送所述第一目标采集语音；

第一唤醒识别结果接收单元，被配置为执行接收所述服务器发送的所述第一唤醒识别结果，所述第一唤醒识别结果为基于预设唤醒识别模型，对所述第一目标采集语音对应的文本进行唤醒识别处理得到的。

可选的，所述装置还包括：

语音响应请求发送模块，被配置为执行向服务器发送语音响应请求，所述语音响应请求包括所述第一目标采集语音；

响应语音接收模块，被配置为执行接收所述服务器发送的所述第一目标采集语音对应的响应语音；

响应语音播放模块，被配置为执行播放所述响应语音。

可选的，所述装置还包括：

关闭提示模块，被配置为执行在所述目标视频对应的播放页面展示预设提示信息之后，若预设时间段内未获取到新增采集语音，将所述播放页面展示的所述预设提示信息，更新为所述目标语音助手的关闭提示信息。

根据本公开实施例的第三方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如上述第一方面中任一项所述的方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行本公开实施例的第一方面中任一所述方法。

根据本公开实施例的第五方面，提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行本公开实施例的第一方面中任一所述方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

在目标视频播放过程中，结合第一目标采集语音进行语音助手唤醒识别，可以有效避免误触发的语音交互情况，提升语音交互的精准性；另外，在唤醒目标语音助手的情况下，在目标视频对应的播放页面展示可以指示目标语音助手唤醒成功，以及基于语音控制与目标视频关联的交互操作的预设提示信息，可以实现基于语音与目标视频的交互，大大提升交互便捷性和交互效率，进而也可以在直播等场景中，更好的提升用户与主播的互动性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种应用环境的示意图；

图2是根据一示例性实施例示出的一种语音交互方法的流程图；

图3是根据一示例性实施例示出的一种基于第一目标采集语音进行语音助手唤醒识别，得到第一唤醒识别结果的流程图；

图4是根据一示例性实施例提供的一种展示有预设提示信息的播放页面的示意图；

图5是根据一示例性实施例示出的一种若第一唤醒识别结果为唤醒目标语音助手，在目标视频对应的播放页面展示预设提示信息的流程图；

图6是根据一示例性实施例示出的一种基于采集的语音执行相应的交互操作的流程图；

图7是根据一示例性实施例示出的另一种基于采集的语音执行相应的交互操作的流程图；

图8是根据一示例性实施例示出的一种语音交互装置框图；

图9是根据一示例性实施例示出的一种用于语音交互的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

需要说明的是，本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

请参阅图1，图1是根据一示例性实施例示出的一种应用环境的示意图，如图1所示，该应用环境可以包括终端100和服务器200。

终端100可以用于面向任一用户提供直播服务和语音助手服务。具体的，终端100可以包括但不限于智能手机、台式计算机、平板电脑、笔记本电脑、智能音箱、数字助理、增强现实(augmentedreality，AR)/虚拟现实(virtualreality，VR)设备、智能可穿戴设备等类型的电子设备，也可以为运行于上述电子设备的软体，例如应用程序等。可选的，电子设备上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows等。

在一个可选的实施例中，服务器200可以为终端100提供后台服务。具体的，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(ContentDeliveryNetwork，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。

此外，需要说明的是，图1所示的仅仅是本公开提供的一种应用环境，在实际应用中，还可以包括其他应用环境，例如可以包括更多的终端。

本说明书实施例中，上述终端100以及服务器200可以通过有线或无线通信方式进行直接或间接地连接，本公开在此不做限制。

图2是根据一示例性实施例示出的一种语音交互方法的流程图，如图2所示，该语音交互方法可以用于终端等电子设备中，包括以下步骤。

在步骤S201中，在目标视频播放过程中，获取第一目标采集语音。

在一个具体的实施例中，上述目标视频播放过程，可以包括目标视频对应的应用运行在前台情况下，目标视频在相应的播放页面中进行播放的过程，也可以包括对应的应用运行在后台情况下，目标视频在悬浮弹窗播放页面中进行播放的过程。

在一个具体的实施例中，目标视频可以包括但不限于直播视频、预先录制好的视频(影视剧、短视频等)。

在一个可选的实施例中，上述获取第一目标采集语音可以包括：

在一个具体的实施例中，终端上往往设置有可以采集语音的语音采集装置，例如麦克风；可选的，可以基于终端上的麦克风采集语音。相应的，第一采集语音可以为目标视频播放过程中，基于语音采集装置采集到的语音信息。具体的，第一播放语音可以为第一采集语音采集时目标视频中的语音信息。可选的，目标视频往往基于相应的播放器来播放，相应的，可以通过获取播放器来获取第一播放语音。

在实际应用中，由于第一采集语音采集过程中目标视频在播放，相应的，第一采集语音中除了需要采集的用户发出的语音信息外，还会采集到目标视频播放过程中发出的语音信息，相应的，为了精准提取用户发出的语音信息，可以基于第一播放语音对第一采集语音进行声学回声消除处理，得到抵消掉第一采集语音后的第一目标采集语音，进而保证后续唤醒识别的精准性。

在一个可选的实施例中，终端可以设置有语音处理组件，可选的，该语音处理组件可以用于采集语音以及进行声学回声消除处理。

上述实施例中，结合语音采集时目标视频对应第一播放语音，对第一采集语音进行声学回声消除处理，可以有效保证用于进行语音助手唤醒识别的第一目标采集语音的有效性，进而提升后续语音唤醒识别的精准性。

在一个可选的实施例中，在目标视频播放过程中，也可能存在目标视频播放语音较小等，导致对采集语音的影响较小的情况，相应的，也可以将第一采集语音作为上述第一目标采集语音。

在步骤S203中，基于第一目标采集语音进行语音助手唤醒识别，得到第一唤醒识别结果；

在一个可选的实施例中，可以在终端本地进行语音助手唤醒识别，相应的，上述基于第一目标采集语音进行语音助手唤醒识别，得到第一唤醒识别结果可以包括：

获取预设唤醒语音；

基于预设唤醒语音对第一目标采集语音进行唤醒识别，得到第一唤醒识别结果。

在一个具体的实施例中，预设唤醒语音可以为包括预设的用于触发目标语音助手唤醒的语音。具体的，结合实际应用场景预先设置。

在一个具体的实施例中，基于预设唤醒语音对第一目标采集语音进行唤醒识别可以包括将预设唤醒语音与第一目标采集语音进行匹配，若第一目标采集语音包括预设唤醒语音，第一唤醒识别结果可以为唤醒目标语音助手；反之，若第一目标采集语音不包括预设唤醒语音，第一唤醒识别结果可以为不唤醒目标语音助手。

在一个可选的实施例中，终端可以设置有本地语音唤醒组件，可选的，该本地语音唤醒组件可以用于进行本地的唤醒识别。

上述实施例中，结合预设唤醒语音对第一目标采集语音进行唤醒识别，可以有效避免误触发的语音交互情况，提升语音交互的精准性。

在一个可选的实施例中，可以在终端本地进行语音助手唤醒识别基础上，结合服务器进行二次唤醒识别；相应的，如图3所示，上述基于第一目标采集语音进行语音助手唤醒识别，得到第一唤醒识别结果可以包括以下步骤：

在步骤S301中，获取预设唤醒语音；

在步骤S303中，基于预设唤醒语音对第一目标采集语音进行唤醒识别，得到初始唤醒识别结果；

在步骤S305中，若初始唤醒识别结果为唤醒目标语音助手，向服务器发送第一目标采集语音；

在步骤S307中，接收服务器发送的第一唤醒识别结果。

在一个具体的实施例中，上述步骤S301和步骤S303的具体细化参见上述相关描述，在此不再赘述。

在一个具体的实施例中，上述第一唤醒识别结果可以为基于预设唤醒识别模型，对第一目标采集语音对应的文本进行唤醒识别处理得到的。具体的，预设唤醒识别模型可以为基于样本语音和样本语音对应的唤醒标注信息对预设深度学习模型进行训练得到的。具体的，样本语音可以包括正样本语音和负样本语音；具体的，正样本语音对应的唤醒标注信息为唤醒目标语音助手，负样本语音对应的唤醒标注信息为不唤醒目标语音助手。

在一个具体的实施例中，服务器在接收到第一目标采集语音可以将第一目标采集语音转换为相应的文本信息，并将文本信息输入预设唤醒识别模型进行唤醒识别处理，以得到第一唤醒识别结果。

可选的，若初始唤醒识别结果为不唤醒目标语音助手，可以不向服务器发送第一目标采集语音，进而可以降低服务器的压力。

上述实施例中，在终端本地识别出唤醒目标语音助手的情况下，结合服务器进行二次唤醒识别，可以大大提升唤醒识别的精准性，更好的避免误触发的语音交互情况。

在步骤S205中，若第一唤醒识别结果为唤醒目标语音助手，在目标视频对应的播放页面展示预设提示信息。

在一个具体的实施例中，上述预设提示信息可以指示目标语音助手唤醒成功，以及基于语音控制与目标视频关联的交互操作，相应的，目标语音助手可以为基于语音控制，与目标视频关联的交互操作的语音助手。在目标语音助手唤醒成功后，用户可以基于语音控制与目标视频关联的交互操作。

在一个具体的实施例中，预设提示信息的信息形式可以包括但不限于文本、语音、图像等，可以结合实际应用需求间设置。

在一个具体的实施例中，目标视频关联的交互操作可以结合实际应用场景的不同而不同。可选的，以目标视频为直播视频为例，目标视频关联的交互操作可以包括但不限于评论、关注对应主播、赠送虚拟资源等。以目标视频为影视剧等预先录制好的视频为例，目标视频关联的交互操作可以包括但不限于发弹幕、选集、调整分辨率等。以目标视频为短视频等预先录制好的视频为例，目标视频关联的交互操作可以包括但不限于点赞、关注等。

在一个可选的实施例中，若第一唤醒识别结果为不唤醒目标语音助手，可以继续进行语音的采集，若在目标视频播放过程中，采集的新的语音，可以继续上述进行语音交互的流程。

在一个具体的实施例中，如图4所示，图4是根据一示例性实施例提供的一种展示有预设提示信息的播放页面的示意图。具体的，图4中400对应的信息可以为预设提示信息。

在一个可选的实施例中，如图5所示，上述若第一唤醒识别结果为唤醒目标语音助手，在目标视频对应的播放页面展示预设提示信息可以包括：

在步骤S2051中，若第一唤醒识别结果为唤醒目标语音助手，向服务器发送提示信息获取请求，提示信息获取请求包括第一目标采集语音；

在步骤S2053中，接收服务器发送的预设提示信息，预设提示信息为基于第一目标采集语音生成的；

在步骤S2055中，在播放页面展示预设提示信息。

在一个可选的实施例中，终端在将语音发送个服务器之前，可以先进行语音格式转换，以便服务器可以识别相应的语音。可选的，假设格式转换前的第一目标采集语音的语音格式为PCM(PulseCodeModulation----脉码调制录音)，服务器可识别的语音格式为Opus(一个有损声音编码的格式)相应的，上述向服务器发送第一目标采集语音可以包括向服务器发送格式转换后的语音。

在一个可选的实施例中，终端可以设置有本地格式转换组件，可选的，该格式转换组件可以用于进行语音格式转换，可选的，语音格式转换的功能集成在上述本地语音唤醒组件。

在一个可选的实施例中，在向服务器发送第一目标采集语音之后，上述方法还包括：

若第一目标采集语音包括操控语音，接收服务器发送的与操作语音对应的第一操控信息，上述操作语音用于指示执行与目标视频关联的第一目标交互操作；

基于第一操控信息，执行第一目标交互操作。

在实际应用中，第一目标采集语音中除了包括预设唤醒语音外，还可以包括指示执行目标视频关联的交互操作的语音信息，相应的。通过在提示信息获取请求中携带第一目标采集语音，可以便于服务器通过对第一目标采集语音的语义分析，在确定预设提示信息的同时，确定出第一操控信息，以便终端基于第一操控信息，执行第一目标交互操作。

在一个具体的实施例中，以直播场景为例，假设预设唤醒语音对应的文本为“小k”，且第一目标采集语音对应文本为“小k，我要关注主播”相应的，第一操控信息可以为关注主播的指令。进一步的，终端在接收到第一操控信息后可以自动触发关注主播的交互操作(第一目标交互操作)。

上述实施例中，在第一唤醒识别结果为唤醒目标语音助手的情况下，通过在提示信息获取请求中携带第一目标采集语音，可以便于获取预设提示信息的同时，从服务器获取第一目标采集语音中操控语音对应的第一操控信息，进而实现交互操作的自动执行，大大提升交互便捷性和效率。

由以上本说明书实施例提供的技术方案可见，本说明书在目标视频播放过程中，结合第一目标采集语音进行语音助手唤醒识别，可以有效避免误触发的语音交互情况，提升语音交互的精准性；另外，在唤醒目标语音助手的情况下，在目标视频对应的播放页面展示可以指示目标语音助手唤醒成功，以及基于语音控制与目标视频关联的交互操作的预设提示信息，可以实现基于语音与目标视频的交互，大大提升交互便捷性和交互效率，进而也可以在直播等场景中，更好的提升用户与主播的互动性。

在一个可选的实施例中，在目标视频对应的播放页面展示预设提示信息之后，还可以基于采集的语音执行相应的交互操作，相应的，如图6所示，上述方法还可以包括：

在步骤S601中，获取第二采集语音和第二采集语音采集时目标视频对应的第二播放语音；

在步骤S603中，基于第二播放语音对第二采集语音进行声学回声消除处理，得到第二目标采集语音；

在步骤S605中，向服务器发送第一操控信息获取请求，第一操控信息获取请求包括第二目标采集语音；

在步骤S607中，接收服务器发送的第二目标采集语音对应的第二操控信息；

在步骤S609中，基于第二操控信息，执行与第二采集语音对应的第二目标交互操作。

在一个具体的实施例中，上述步骤S208和步骤S209的具体细化，可以参见上述步骤S201和步骤S203的相关细化描述，在此不再赘述。

在一个具体的实施例中，目标语音助手唤醒后的第二目标采集语音可以为一种操控语音，相应的，在获取到第二目标采集语音可以进行操控流程，向服务器发送携带第二目标采集语音的第一操控信息获取请求。相应的，服务器可以通过对第二目标采集语音进行语义分析，确定出第二操控信息，并返回给终端，以便终端基于第二操控信息，执行与第二采集语音对应的第二目标交互操作。

在一个具体的实施例中，以直播场景为例，假设预设唤醒语音对应的文本为“小k”，且第二目标采集语音对应文本为“我要关注主播”相应的，第二操控信息可以为关注主播的指令。进一步的，终端在接收到第二操控信息后可以自动触发关注主播的交互操作(第一目标交互操作)。

在一个可选的实施例中，在目标视频播放过程中，也可能存在目标视频播放语音较小等，导致对采集语音的影响较小的情况，相应的，也可以将第二采集语音作为上述第二目标采集语音。

上述实施例中，在目标语音助手成功唤醒后，结合第二播放语音对第二采集语音进行声学回声消除处理，可以有效保证操控语音(第二目标采集语音)的有效性，保证了从服务器获取到的第二操控信息的准确性，进而在大大提升交互便捷性和效率的基础上，提升语音交互的精准性。

在一个可选的实施例中，在目标视频对应的播放页面展示预设提示信息之后，上述方法还可以包括：

若第一目标采集语音包括多轮交互指示语音，将目标语音助手的服务模式由第一状态更新为第二状态。

在一个具体的实施例中，第一状态的服务模式(可以简称为单轮交互模式)指示在目标语音助手唤醒期间，执行一次基于语音控制的目标视频关联的交互操作；即在目标语音助手唤醒后，执行一次基于语音控制的目标视频关联的交互操作后，关闭目标语音助手。

在一个具体的实施例中，第二状态的服务模式(可以简称为多轮交互模式)指示在目标语音助手唤醒期间，执行至少一次基于语音控制的目标视频关联的交互操作。即在目标语音助手唤醒后，可以执行一次或多次基于语音控制的目标视频关联的交互操作。

在一个具体的实施例中，多轮交互指示语音可以用于指示开启多轮交互模式。具体的，多轮交互指示语音可以为预先设置的用于开启多轮交互模式的特定语音，具体的实施例中，特定语音可以为打开多轮交互模式。相应的，若在第一目标采集语音识别到特定语音，可以确定第一目标采集语音包括多轮交互指示语音。

在一个可选的实施例中，多轮交互指示语音可以为具有需要进行多次交互语义的语音信息。例如语音“我要送个礼物”。相应的，可以结合预设多次交互识别模型对第一目标采集语音进行多次交互识别，以确定第一目标采集语音是否包括多轮交互指示语音。

具体的，预设多次交互识别模型可以为基于样本语音和样本语音对应的交互标注信息对预设深度学习模型进行训练得到的。具体的，预设多次交互识别模型对应的样本语音可中的正样本语音对应的交互标注信息可以为包括多轮交互指示语音，负样本语音对应的交互标注信息为不多轮交互指示语音。

在一个可选的实施例中，可以由服务器在首次接收到第一目标采集语音的情况下，将第一目标采集语音转换为相应的文本信息，并将文本信息输入预设多次交互识别模型进行多次交互识别，以确定第一目标采集语音是否包括多轮交互指示语音。

可选的，若上述第二目标采集语音包括多轮交互指示语音，也可以将目标语音助手的服务模式由第一状态更新为第二状态。

上述实施例中，在第一目标采集语音包括多轮交互指示语音的情况下，通过将目标语音助手的服务模式由第一状态更新为第二状态，可以便于在目标语音助手唤醒期间，执行至少一次基于语音控制的目标视频关联的交互操作，更好的提升语音交互操作的便利性和效率，同时也提升了语音交互操作的多样性。

在一个可选的实施例中，在第二状态的服务模式开启后，还可以基于采集到的语音执行相应的交互操作，相应的，如图7所示，上述方法还包括：

在步骤S701中，获取第三采集语音和第三采集语音采集时目标视频对应的第三播放语音；

在步骤S703中，基于第三播放语音对第三采集语音进行声学回声消除处理，得到第三目标采集语音；

在步骤S705中，基于第三目标采集语音进行语音助手唤醒识别，得到第二唤醒识别结果；

在步骤S707中，若第二唤醒识别结果为不唤醒目标语音助手，向服务器发送第二操控信息获取请求，第二操控信息获取请求包括第三目标采集语音；

在步骤S709中，接收服务器发送的第三目标采集语音对应的第三操控信息；

在步骤S711中，基于第三操控信息，执行与第三采集语音对应的第三目标交互操作。

在一个具体的实施例中，上述步骤S701至步骤S711的具体细化，可以参见上述相关步骤的细化描述，在此不再赘述。

在一个可选的实施例中，在目标视频播放过程中，也可能存在目标视频播放语音较小等，导致对采集语音的影响较小的情况，相应的，也可以将第三采集语音作为上述第三目标采集语音。

上述实施例中，在多轮交互模式开启后，结合新采集到的进行声学回声消除处理操控语音(第三目标采集语音)，可以在大大提升交互便捷性和效率的基础上，提升语音交互的精准性。

在一个可选的实施例中，上述方法还可以包括：

若第二唤醒识别结果为唤醒目标语音助手，将目标语音助手的服务模式由第二状态更新为第一状态。

在一个可选的实施例中，为了支持第二状态的服务模式，终端可以同时创建两个识别引擎的实例，其中一个识别引擎可以用于进行唤醒识别，另一识别引擎可以进行多轮交互的语义识别，当进入第二状态的服务模式后，用于进行唤醒识别的识别引擎识别出重新采集到预设唤醒语音，即第二唤醒识别结果为唤醒目标语音助手的情况下，会打断多轮交互的语义识别，以重新进入第一状态的服务模式。

上述实施例中，在多轮交互模式下，若重新唤醒目标语音助手，可以打断多轮交互模式，以重新进入单轮交互模式，实现两种交互模式的灵活切换。

在一个可选的实施例中，上述方法还可以包括：

向服务器发送语音响应请求，语音响应请求包括第一目标采集语音；

接收服务器发送的第一目标采集语音对应的响应语音；

播放响应语音。

在一个具体的实施例中，为了更好的提升用户体验，目标语音助手唤醒后，可以从服务器获取相应的响应语音。具体的，响应语音可以以语音的形式提示用户目标语音助手已唤醒。具体的，响应语音的内容可以结合实际应用预先设置。

在一个具体的实施例中，假设预设唤醒语音对应的文本为“小k”，且第一目标采集语音为“小k”，可选的，响应语音对应的文本可以为“在的”。

在一个具体的实施例中，假设预设唤醒语音对应的文本为“小k”，且第一目标采集语音“小k，我要个礼物”，可选的，响应语音对应的文本可以为“在的，请说”。

上述实施例中，通过播放第一目标采集语音对应的响应语音，可以更好的提升与用户间的交互性，进而更好的改善用户体验。

在一个可选的实施例中，在所述目标视频对应的播放页面展示预设提示信息之后，上述方法还可以包括：

在一个可选的实施例中，新增采集语音可以为目标语音助手被唤醒后采集到的语音，也可以为目标语音助手被唤醒后采集到的语音进行声学回声消除处理的语音。

在实际应用中，为了避免语音助手长时间的无效待机，往往预先设置交互等待时长，一旦超出交互等待时长，就会关闭目标语音助手，需要重新唤醒目标语音助手。具体的，交互等待时长可以为预先设置的目标语音助手被唤醒至获取到新增采集语音的等待上限时长。

在一个具体的实施例中，预设时间段可以结合预设的交互等待时长和目标语音助手被唤醒时的时间确定。可选的，每次目标语音助手被唤醒后的交互等待时长(预设时间段)内，若未获取到新增采集语音，可以确定目标语音助手因超时关闭，相应的，可以将所述播放页面展示的所述预设提示信息，更新为所述目标语音助手的关闭提示信息。

上述实施例中，在目标语音助手唤醒后，若预设时间段内未获取到新增采集语音，通过将播放页面展示的预设提示信息，更新为目标语音助手的关闭提示信息，可以有效避免长时间的无效待机，降低设备资源消耗；且结合关闭提示信息的展示，可以提醒用户，有效改善用户体验。

图8是根据一示例性实施例示出的一种语音交互装置框图。参照图8，该装置包括：

第一目标采集语音获取模块810，被配置为执行在目标视频播放过程中，获取第一目标采集语音；

第一唤醒识别模块820，被配置为执行基于第一目标采集语音进行语音助手唤醒识别，得到第一唤醒识别结果；

预设提示信息展示模块830，被配置为执行若第一唤醒识别结果为唤醒目标语音助手，在目标视频对应的播放页面展示预设提示信息，预设提示信息指示目标语音助手唤醒成功，以及基于语音控制与目标视频关联的交互操作。

可选的，第一目标采集语音获取模块810包括：

可选的，上述装置还包括：

第二语音获取模块，被配置为执行在目标视频对应的播放页面展示预设提示信息之后，获取第二采集语音和第二采集语音采集时目标视频对应的第二播放语音；

第二声学回声消除处理模块，被配置为执行基于第二播放语音对第二采集语音进行声学回声消除处理，得到第二目标采集语音；

第一操控信息获取请求发送模块，被配置为执行向服务器发送第一操控信息获取请求，第一操控信息获取请求包括第二目标采集语音；

第二操控信息接收模块，被配置为执行接收服务器发送的第二目标采集语音对应的第二操控信息；

第二目标交互操作执行模块，被配置为执行基于第二操控信息，执行与第二采集语音对应的第二目标交互操作。

可选的，上述装置还包括：

第一服务模式更新模块，被配置为执行在目标视频对应的播放页面展示预设提示信息之后，若第一目标采集语音包括多轮交互指示语音，将目标语音助手的服务模式由第一状态更新为第二状态，第一状态的服务模式指示在目标语音助手唤醒期间，执行一次基于语音控制的目标视频关联的交互操作，第二状态的服务模式指示在目标语音助手唤醒期间，执行至少一次基于语音控制的目标视频关联的交互操作。

可选的，上述装置还包括：

第三语音获取模块，被配置为执行获取第三采集语音和第三采集语音采集时目标视频对应的第三播放语音；

第三声学回声消除处理模块，被配置为执行基于第三播放语音对第三采集语音进行声学回声消除处理，得到第三目标采集语音；

第二唤醒识别模块，被配置为执行基于第三目标采集语音进行语音助手唤醒识别，得到第二唤醒识别结果；

第二操控信息获取请求发送模块，被配置为执行若第二唤醒识别结果为不唤醒目标语音助手，向服务器发送第二操控信息获取请求，第二操控信息获取请求包括第三目标采集语音；

第三操控信息接收模块，被配置为执行接收服务器发送的第三目标采集语音对应的第三操控信息；

第三目标交互操作执行模块，被配置为执行基于第三操控信息，执行与第三采集语音对应的第三目标交互操作。

可选的，上述装置还包括：

第二服务模式更新模块，被配置为执行若第二唤醒识别结果为唤醒目标语音助手，将目标语音助手的服务模式由第二状态更新为第一状态。

可选的，预设提示信息展示模块830包括：

第一提示信息获取请求发送单元，被配置为执行若第一唤醒识别结果为唤醒目标语音助手，向服务器发送提示信息获取请求，提示信息获取请求包括第一目标采集语音；

预设提示信息接收单元，被配置为执行接收服务器发送的预设提示信息，预设提示信息为基于第一目标采集语音生成的；

预设提示信息展示单元，被配置为执行在播放页面展示预设提示信息。

可选的，上述装置还包括：

第一操控信息接收模块，被配置为执行在向服务器发送第一目标采集语音之后，若第一目标采集语音包括操控语音，接收服务器发送的与操作语音对应的第一操控信息，操作语音用于指示执行与目标视频关联的第一目标交互操作；

第一操控信息执行模块，被配置为执行基于第一操控信息，执行第一目标交互操作。

可选的，第一唤醒识别模块820包括：

第一唤醒识别单元，被配置为执行基于预设唤醒语音对第一目标采集语音进行唤醒识别，得到第一唤醒识别结果。

可选的，第一唤醒识别模块820包括：

第二唤醒识别单元，被配置为执行基于预设唤醒语音对第一目标采集语音进行唤醒识别，得到初始唤醒识别结果；

第一目标采集语音发送单元，被配置为执行若初始唤醒识别结果为唤醒目标语音助手，向服务器发送第一目标采集语音；

第一唤醒识别结果接收单元，被配置为执行接收服务器发送的第一唤醒识别结果，第一唤醒识别结果为基于预设唤醒识别模型，对第一目标采集语音对应的文本进行唤醒识别处理得到的。

可选的，上述装置还包括：

语音响应请求发送模块，被配置为执行向服务器发送语音响应请求，语音响应请求包括第一目标采集语音；

响应语音接收模块，被配置为执行接收服务器发送的第一目标采集语音对应的响应语音；

响应语音播放模块，被配置为执行播放响应语音。

可选的，上述装置还包括：

关闭提示模块，被配置为执行在目标视频对应的播放页面展示预设提示信息之后，若预设时间段内未获取到新增采集语音，将播放页面展示的预设提示信息，更新为目标语音助手的关闭提示信息。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图9是根据一示例性实施例示出的一种用于语音交互的电子设备的框图，该电子设备可以是终端，其内部结构图可以如图9所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音交互方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本公开方案相关的部分结构的框图，并不构成对本公开方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在示例性实施例中，还提供了一种电子设备，包括：处理器；用于存储该处理器可执行指令的存储器；其中，该处理器被配置为执行该指令，以实现如本公开实施例中的语音交互方法。

在示例性实施例中，还提供了一种计算机可读存储介质，当该存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行本公开实施例中的语音交互方法。

在示例性实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行本公开实施例中的语音交互方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音交互方法，其特征在于，包括：

在目标视频播放过程中，获取第一目标采集语音；

2.根据权利要求1所述的语音交互方法，其特征在于，所述获取第一目标采集语音包括：

3.根据权利要求1所述的语音交互方法，其特征在于，在所述目标视频对应的播放页面展示预设提示信息之后，所述方法还包括：

4.根据权利要求1至3任一所述的语音交互方法，其特征在于，在所述目标视频对应的播放页面展示预设提示信息之后，所述方法还包括：

5.根据权利要求4所述的语音交互方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的语音交互方法，其特征在于，所述方法还包括：

7.一种语音交互装置，其特征在于，包括：

8.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的语音交互方法。

9.一种计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至6中任一项所述的语音交互方法。

10.一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令被处理器执行时实现权利要求1至6中任一项所述的语音交互方法。