CN115662423B

CN115662423B - 语音控制方法、装置、设备及存储介质

Info

Publication number: CN115662423B
Application number: CN202211281999.2A
Authority: CN
Inventors: 贾成成
Original assignee: Pateo Connect Nanjing Co Ltd
Current assignee: Pateo Connect Nanjing Co Ltd
Priority date: 2022-10-19
Filing date: 2022-10-19
Publication date: 2023-11-03
Anticipated expiration: 2042-10-19
Also published as: CN115662423A

Abstract

本申请实施例公开了一种语音控制方法、装置、设备及存储介质，涉及数据处理技术领域。其中，所述方法包括：在展示当前页面的过程中接收语音指令，解析所述语音指令得到包括指令语音词的解析结果；在所述当前页面中的至少一个重复语音词中确定与所述指令语音词匹配的目标重复语音词；所述目标重复语音词与所述当前页面中重复出现的至少两个页面位置的待选语音词对应；基于所述目标重复语音词对应的每一所述待选语音词的页面位置，在所述目标重复语音词对应的至少两个待选语音词中确定待响应语音词；将所述目标重复语音词对应的动作指令分配给所述待响应语音词，以响应所述语音指令。

Description

语音控制方法、装置、设备及存储介质

技术领域

本申请涉及但不限于数据处理技术领域，尤其涉及一种语音控制方法、装置、设备及存储介质。

背景技术

随着车载电子设备的发展，车载电子设备的种类越来越多。例如，车载收音机、车载音乐播放器、车载视频播放器、车载通讯系统及车载导航装置等车载应用装置。车载应用装置的操控技术已经从之前的手动控制操作发展到语音控制操作。然而，在进行语音控制时，面对页面中控件标识为重复出现的语音词的情况，现有语音控制技术中，无法从重复出现的语音词中准确的响应目标语音词。

发明内容

有鉴于此，本申请实施例至少提供一种语音控制方法、装置、设备及存储介质。

本申请实施例的技术方案是这样实现的：

一方面，本申请实施例提供一种语音控制方法，所述方法包括：

在展示当前页面的过程中接收语音指令，解析所述语音指令得到包括指令语音词的解析结果；

在所述当前页面中的至少一个重复语音词中确定与所述指令语音词匹配的目标重复语音词；所述目标重复语音词与所述当前页面中重复出现的至少两个页面位置的待选语音词对应；

基于所述目标重复语音词对应的每一所述待选语音词的页面位置，在所述目标重复语音词对应的至少两个待选语音词中确定待响应语音词；

将所述目标重复语音词对应的动作指令分配给所述待响应语音词，以响应所述语音指令。

在一些实施例中，所述方法还包括：

响应于所述当前页面的展示事件，遍历所述当前页面，得到所述当前页面中存在的多个页面语音词和每一所述页面语音词的页面位置；

对所述多个页面语音词中重复的页面语音词进行关联，得到每一所述重复语音词对应的至少两个页面位置。

在一些实施例中，所述方法还包括：

在所述当前页面中重复的页面语音词关联完成的情况下，为每一所述重复语音词分配对应的动作指令。

在一些实施例中，所述解析结果还包括所述指令语音词在当前页面中的位置信息；所述基于所述目标重复语音词对应的每一所述待选语音词的页面位置，在所述目标重复语音词对应的至少两个待选语音词中确定待响应语音词，包括：

基于所述指令语音词对应的位置信息和所述目标重复语音词对应的每一所述待选语音词的页面位置，在所述目标重复语音词对应的至少两个待选语音词中确定待响应语音词。

在一些实施例中，所述基于所述目标重复语音词对应的每一所述待选语音词的页面位置，在所述目标重复语音词对应的至少两个待选语音词中确定待响应语音词，包括：

展示所述目标重复语音词对应的每一所述待选语音词对应的选择控件；所述待选语音词的选择控件与所述待选语音词的页面位置相关；

响应于针对至少两个所述选择控件中的目标选择控件的选择操作，将所述目标选择控件对应的待选语音词作为所述待响应语音词。

在一些实施例中，所述解析结果还包括所述指令语音词的声纹信息；所述基于所述目标重复语音词对应的每一所述待选语音词的页面位置，在所述目标重复语音词对应的至少两个待选语音词中确定待响应语音词，包括：

获取所述声纹信息对应的优先级策略，所述优先级策略包括至少一个页面区域中每一所述页面区域对应的优先级；

基于每一所述待选语音词的页面位置和每一所述页面区域对应的优先级，确定每一所述待选语音词对应的优先级；

将优先级最高的待选语音词作为所述待响应语音词。

在一些实施例中，所述目标重复语音词与所述当前页面中重复出现的至少两个页面位置的页面语音词对应，所述至少两个页面语音词包括所述至少两个待选语音词；所述基于所述目标重复语音词对应的每一所述待选语音词的页面位置，在所述目标重复语音词对应的至少两个待选语音词中确定待响应语音词之前，所述方法还包括：

在所述目标重复语音词对应的每一页面语音词的页面位置表征所述目标重复语音词位于至少两个显示设备的情况下，获取所述语音指令对应的音源信息；

基于所述音源信息在所述至少两个显示设备中确定目标显示设备；

在所述至少两个页面语音词中，将页面位置位于所述目标显示设备的页面语音词中确定所述待选语音词。

另一方面，本申请实施例提供一种语音控制装置，所述装置包括：

接收模块，用于在展示当前页面的过程中接收语音指令，解析所述语音指令得到包括指令语音词的解析结果；

第一确定模块，用于在所述当前页面中的至少一个重复语音词中确定与所述指令语音词匹配的目标重复语音词；所述目标重复语音词与所述当前页面中重复出现的至少两个页面位置的待选语音词对应；

第二确定模块，用于基于所述目标重复语音词对应的每一所述待选语音词的页面位置，在所述目标重复语音词对应的至少两个待选语音词中确定待响应语音词；

响应模块，用于将所述目标重复语音词对应的动作指令分配给所述待响应语音词，以响应所述语音指令。

再一方面，本申请实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法中的部分或全部步骤。

又一方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法中的部分或全部步骤。

本申请实施例中，在语音指令中携带的指令语音词为当前页面中的目标重复语音词的情况下，可以基于该目标重复语音词对应的每一待选语音词的页面位置，确定语音指令实际需要触发的待响应语音词，进而将对应的动作指令分配给该待响应语音词。这样，相较于传统技术中仅响应最后注册的语音词的方案，可以减少语音指令错误响应的情况，从而可以从整体上提升语音控制的准确性和控制效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本申请的技术方案。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本申请的实施例，并与说明书一起用于说明本申请的技术方案。

图1A为本申请实施例提供的一种语音控制方法的实现流程示意图；

图1B为本申请实施例提供的一种页面示意图；

图2为本申请实施例提供的一种语音控制方法的实现流程示意图；

图3A为本申请实施例提供的一种语音控制方法的实现流程示意图；

图3B为本申请实施例提供的另一种页面示意图；

图3C为本申请实施例提供的又一种页面示意图；

图4为本申请实施例提供的一种语音控制方法的实现流程示意图；

图5为本申请实施例提供的一种语音控制方法的实现流程示意图；

图6A为本申请实施例提供的一种语音控制方法的实现流程示意图；

图6B为本申请实施例提供的一种语音控制方法的实施场景示意图；

图7为本申请实施例提供的一种语音控制方法的实现流程示意图；

图8为本申请实施例提供的一种语音控制装置的组成结构示意图；

图9为本申请实施例提供的一种计算机设备的硬件实体示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面结合附图和实施例对本申请的技术方案进一步详细阐述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。所涉及的术语“第一/第二/第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一/第二/第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请的目的，不是旨在限制本申请。

本申请实施例提供一种语音控制方法，该方法可以由计算机设备的处理器执行。其中，计算机设备指的可以是服务器、笔记本电脑、平板电脑、台式计算机、智能电视、机顶盒、移动设备(例如移动电话、便携式视频播放器、个人数字助理、专用消息设备、便携式游戏设备)等具备数据处理能力的设备。在一些实施例中，该计算机设备可以为车载终端设备。其中，该车载终端设备可以为部署于车辆的终端设备，该终端设备与车辆通信连接，可以独立于车辆使用，也可以集成在车辆控制系统中，本申请对此不作限定。

图1A为本申请实施例提供的一种语音控制方法的实现流程示意图，如图1A所示，该方法包括如下步骤S101至步骤S103：

步骤S101、在展示当前页面的过程中接收语音指令，解析所述语音指令得到包括指令语音词的解析结果。

在一些实施例中，上述解析语音指令的过程可以是将该语音指令转换为文字信息，再从文字信息中识别出该指令语音词。其中，将语音指令转换为文字信息的方法可以采用任何已知的语音识别方法，可以但不限于是隐马尔可夫模型、基于统计概率的语言模型和人工神经网络等。

在一些实施例中，在将语音指令转换为文字信息之后，可以采用分词算法从该文字信息中提取语音词，并判断提取的语音词是否出现在当前页面中，将出现在当前页面中的语音词作为该指令语音词。

在一些实施例中，解析语音指令的过程可以是由计算机设备(车载终端设备)执行，即计算机设备在接收到语音指令后，通过本地存储的解析程序对该语音指令进行解析，进而得到上述解析结果。在另一些实施例中，解析语音指令的过程可以由服务器(提供语音解析服务的云端)执行，即计算机设备在接收到语音指令后，将该语音指令发送至服务器，服务器对该语音指令进行解析得到对应的解析结果，并将该解析结果反馈至计算机设备。

步骤S102、在所述当前页面中的至少一个重复语音词中确定与所述指令语音词匹配的目标重复语音词；所述目标重复语音词与所述当前页面中重复出现的至少两个页面位置的待选语音词对应。

在一些实施例中，当前页面中可以存在多个页面语音词，上述重复语音词为当前页面中重复出现的页面语音词。

示例性的，请参阅图1B，其示出了一个页面示意图。其中，显示设备B10显示有当前页面，该当前页面包括第一窗口B11和第二窗口B12，在第一窗口B11中，包括第一页面语音词B111“确定”、第二页面语音词B112“返回”、第三页面语音词B113“删除”；在第二窗口B12中，包括第四页面语音词B121“确定”和第五页面语音词B122“返回”，可以看出，虽然这五个页面语音词存在于当前页面中的不同位置、不同窗口，但仍然同时存在与当前页面中，此时，当前页面中出现的重复语音词可以包括“确定”和“返回”。需要说明的是，该重复语音词对应的页面语音词的数量至少为两个，还可以为三个或更多。

其中，该重复语音词对应至少两个页面语音词，由于每一页面语音词位于当前页面的不同位置，即每一页面语音词对应一个页面位置，则重复语音词对应至少两个页面位置。

在一些实施例中，步骤S102通过在至少一个重复语音词中查询与该指令语音词匹配的重复语音词作为该目标重复语音词，将与该指令语音词匹配的重复语音词对应的至少两个页面语音词作为该目标重复语音词对应的至少两个待选语音词，由此，该目标重复语音词与当前页面中重复出现的至少两个页面位置的待选语音词对应。

示例性的，以指令语音词为“确定”为例，基于上述举例，在当前页面中出现的重复语音词“确定”和“返回”可以确定该目标重复语音词为“确定”，其中，该目标重复语音词“确定”对应的两个待选语音词包括第一页面语音词“确定”和第四页面语音词“确定”。

步骤S103、基于所述目标重复语音词对应的每一所述待选语音词的页面位置，在所述目标重复语音词对应的至少两个待选语音词中确定待响应语音词。

在一些实施例中，可以通过以下实现方式实现上述步骤S103：获取预设的位置偏好策略；基于所述位置偏好策略和每一待选语音词的页面位置，确定目标页面位置；将目标页面位置对应的待选语音词作为待响应语音词。其中，该位置偏好策略可以为优先选择位置偏左的待选语音词，也可以为优先选择位置偏上的待选语音词，还可以为优先选择距离页面中心最近的待选语音词等，本申请对此不作限定。

以上述位置偏好策略为优先选择距离中心最近的待选语音词为例，可以基于每一待选语音词的页面位置和页面中心位置，确定每一待选语音词与页面中心的距离；将与页面中心的距离最小的待选语音词作为该待响应语音词，该页面中心为当前页面的中心点，即显示该当前页面的显示设备的中心点。当然，位置偏好策略还可以为优先选择位置偏左的待选语音词，或，优先选择位置偏上的待选语音词，相应地，可以将上述页面中心位置替换为页面左边缘位置或页面上边缘位置。

在另一些实施例中，还可以通过以下实现方式实现上述步骤S103：获取每一所述页面位置对应的窗口优先级；基于每一待选语音词对应的页面位置，和每一页面位置对应的窗口优先级，确定每一待选语音词对应的窗口优先级；将窗口优先级最高的待选语音词作为该待响应语音词。

其中，该窗口优先级为页面位置的显示优先级，一般情况下，一个页面可以同时显示多个操作窗口，每一操作窗口拥有对应的显示优先级，且不同的操作窗口拥有不同的显示优先级，基于该显示优先级，多个操作窗口可以实现堆叠显示。上述将窗口优先级最高的待选语音词作为该待响应语音词，实际上是将显示在最上层的操作窗口内的待选语音词作为该待响应语音词。

步骤S104、将所述目标重复语音词对应的动作指令分配给所述待响应语音词，以响应所述语音指令。

在一些实施例中，可以将该目标重复语音词对应的动作指令分配给待响应语音词对应的操作窗口/控件，相应地，该待响应语音词对应的操作窗口/控件执行该动作指令对应的操作。在相关操作完成之后，该语音指令以完成响应。

图2是本申请实施例提供的语音控制方法的一个可选的流程示意图，该方法可以由计算机设备的处理器执行。基于图1A，所述方法还可以包括步骤S201至S203，将结合图2示出的步骤进行说明。

步骤S201、响应于所述当前页面的展示事件，遍历所述当前页面，得到所述当前页面中存在的多个页面语音词和每一所述页面语音词的页面位置。

在一些实施例中，可以生成该当前页面并显示的情况下，生成该当前页面的展示事件；在另一些实施例中，还可以在从显示其他页面的状态切换到显示该当前页面的情况下，生成该当前页面的展示事件；在另一些实施例中，还可以在当前页面的页面结构发生变化的情况下，生成该当前页面的展示事件。

在一些实施例中，以安卓系统为例，可以通过获取应用程序的显示界面的View树内容，通过遍历View树内容中各信息节点以得到当前页面中的多个页面语音词，和每一页面语音词的页面位置。

其中，该页面位置用于表征该页面语音词在当前页面中的位置。

步骤S202、对所述多个页面语音词中重复的页面语音词进行关联，得到每一所述重复语音词对应的至少两个页面位置。

在一些实施例中，对于遍历得到的多个页面语音词，将相同的至少两个页面语音词关联起来作为一个重复语音词；由于该重复语音词对应至少两个页面语音词，因此，可以建立该重复语音词对应的每一个页面语音词的页面位置与该重复语音词之间的映射关系，进而得到该重复语音词对应的至少两个页面位置。

示例性的，以当前页面存在第一页面语音词“确定”、第二页面语音词“返回”、第三页面语音词“删除”、第四页面语音词“确定”和第五页面语音词“返回”的情况为例，在遍历当前页面得到包括“确定”、“返回”、“删除”、“确定”和“返回”共五个页面语音词之后，基于步骤S202的方案，可以将重复出现的两个“确定”关联起来，得到第一重复语音词“确定”，该第一重复语音词对应第一页面语音词的页面位置和第四页面语音词的页面位置共两个页面位置；还可以将重复出现的两个“返回”关联起来，得到第二重复语音词“返回”，该第二重复语音词对应第二页面语音词的页面位置和第五页面语音词的页面位置共两个页面位置。

在一些实施例中，响应于重复的语音词关联完成，将得到的重复语音词和每一重复语音词对应的至少两个页面位置缓存在本地，作为语音词缓存。其中，在接收到语音指令，并得到指令语音词之后，该语音词缓存用于确定该指令语音词是否存在于当前页面之中，同时，在指令语音词存在与当前页面的情况下，确定该指令语音词对应的至少两个页面位置。

在一些实施例中，为了提升动作指令的分配效率，提升语音指令的响应效率，还可以响应于该当前页面的展示事件，在重复的页面语音词关联完成之后，为每一重复语音词重新分配动作指令。基于此，图2所示实施例还可以包括步骤S203。

步骤S203、在所述当前页面中重复的页面语音词关联完成的情况下，为每一所述重复语音词分配对应的动作指令。

在一些实施例中，针对每一组重复的页面语音词，可以响应于该组重复的页面语音词关联完成，直接为该组重复的页面语音词对应的重复语音词分配对应的动作指令。这样，可以提升动作指令的分配效率。

示例性的，以上述将重复出现的两个“确定”关联起来，得到第一重复语音词“确定”为例进行说明，在对该组页面语音词关联完成之后，直接为该第一重复语音词分配“确定”对应的动作指令。

在另一些实施例中，需要对每一组重复的页面语音词进行关联，并在每一组重复的页面语音词均关联完成之后，为当前页面的所有重复语音词中每一重复语音词分配对应的动作指令。这样，通过批量分配动作指令的方式，可以减少不必要的数据通信过程。

本申请实施例中，通过响应于当前页面的展示事件，遍历当前页面中的语音词并分配动作指令，这样，可以随着显示页面的变化，注册的语音词和对应的动作指令也随之更新，在后续为目标重复语音词分配动作指令的过程中，可以提升响应效率；同时，由于将页面中重复的页面语音词进行关联，为关联后得到的每一个重复语音词分配一个动作指令，并在后续方案中再确定该动作指令分配至重复语音词对应的哪一个页面位置的语音词，由此，可以解决传统技术中对于重复语音词的错误响应的问题。

图3A是本申请实施例提供的语音控制方法的一个可选的流程示意图，该方法可以由计算机设备的处理器执行。基于图1A，所述解析结果还包括所述指令语音词在当前页面中的位置信息；图1A中的S103可以更新为S301，将结合图3A示出的步骤进行说明。

步骤S301、基于所述指令语音词对应的位置信息和所述目标重复语音词对应的每一所述待选语音词的页面位置，在所述目标重复语音词对应的至少两个待选语音词中确定待响应语音词。

其中，在步骤S101对该语音指令进行解析，得到解析结果的过程中，该解析结果还可以包括指示该指令语音词在当前页面中位置的位置信息。

在一些实施例中，该位置信息可以为该指令语音词相对于该当前页面的第一位置信息。

示例性的，请参阅图3B，其示出了一个页面示意图。其中，显示设备B30显示有当前页面，该当前页面包括第一页面语音词“确定”B31位于页面左上区域，第二页面语音词“确定”B32位于页面右下区域；用户为了提升语音控制的准确度，可以在说出“确定”的同时，说出“页面左边的确定”来区分当前页面中出现重复的两个“确定”；这里，在解析上述语音指令的过程中，可以解析得到的“页面左边”作为该第一位置信息。

相应地，可以在目标重复语音词对应的每一所述待选语音词的页面位置中，找到与该语音指令的位置信息匹配的目标页面位置，将该目标页面位置对应的待选语音词作为该待响应语音词。

在一些实施例中，该位置信息可以为该指令语音词相对于其他语音词的第二位置信息。该其他语音词为所述当前页面中与该指令语音词相同的其他页面语音词。

示例性的，请参阅图3C，其示出了一个页面示意图。其中，显示设备C30显示有当前页面，该当前页面包括第一页面语音词“确定”C31和第二页面语音词“确定”C32；可以看出，第一页面语音词位于当前页面靠中心的位置，用户难以准确的描述该语音词相对于当前页面的位置，因此，用户为了提升语音控制的准确度，可以在说出“确定”的同时，说出“左边的确定”或“上边的确定”来区分当前页面中出现重复的两个“确定”；这里，在解析上述语音指令的过程中，可以解析得到的“左边”或“上边”作为该第二位置信息。与上述第一位置信息不同的是，该第二位置信息并未说明指令语音词以哪个对象作为参照对象，因此，第二位置信息默认为该指令语音词相对于其他语音词的位置。

相应地，可以基于目标重复语音词对应的每一所述待选语音词的页面位置，确定每一所述待选语音词相对于其他待选语音词的相对位置信息，进而基于该第二位置信息，和每一所述待选语音词相对于其他待选语音词的相对位置信息，确定与该第二位置信息匹配的目标相对位置信息，将该目标相对位置信息对应的待选语音词作为该待响应语音词。

本申请实施例中，通过获取语音指令中携带的位置信息，由于该位置信息可以用于表征该指令语音词的位置。这样，可以基于该位置信息和每一所述待选语音词的页面位置确定语音指令实际对应的语音词，提升了重复语音词的识别准确度，进而提升了语音指令响应的准确率。

图4是本申请实施例提供的语音控制方法的一个可选的流程示意图，该方法可以由计算机设备的处理器执行。基于图1A，图1A中的S103可以更新为S401至S402，将结合图4示出的步骤进行说明。

步骤S401、展示所述目标重复语音词对应的每一所述待选语音词对应的选择控件；所述待选语音词的选择控件与所述待选语音词的页面位置相关。

在一些实施例中，针对每一所述待选语音词，可以基于该待选语音词的页面位置，在该页面位置或该页面位置的周围展示该待选语音词对应的选择控件。由此，可以展示每一待选语音词对应的选择控件。

在另一些实施例中，针对每一所述待选语音词，可以基于该待选语音词的页面位置，生成携带该页面位置的位置文案，在该当前页面中的任一位置展示包括该位置文案的选择控件。由此，可以展示每一待选语音词对应的选择控件。该位置文案包括携带位置语义的文本信息，示例性的，该位置文案可以为“左边的确定”或“上边的确定”。

步骤S402、响应于针对至少两个所述选择控件中的目标选择控件的选择操作，将所述目标选择控件对应的待选语音词作为所述待响应语音词。

在一些实施例中，上述选择操作可以但不限于是点击操作、长按操作、双击操作、滑动等。

本申请实施例中，在语音指令中携带重复的语音词的情况下，可以将最符合当前指令语音词的至少两个待选语音词以选择控件的方式展示给用户，并接收用户的选择操作，进而确定最终的待响应语音词。由此，可以实现自动化生成选择控件和人工选择的结合，在辅助用户操作的同时，还能保证语音控制的准确性。

图5是本申请实施例提供的语音控制方法的一个可选的流程示意图，该方法可以由计算机设备的处理器执行。基于图1A，所述解析结果还包括所述指令语音词的声纹信息；图1A中的S103可以更新为S501至S503，将结合图5示出的步骤进行说明。

步骤S501、获取所述声纹信息对应的优先级策略，所述优先级策略包括至少一个页面区域中每一所述页面区域对应的优先级。

在一些实施例中，针对不同用户的用户习惯，可以针对每一用户预设对应的优先级策略。该优先级策略用于表征语音指令中携带指令语音词的情况下，该指令语音词位于每一页面区域的概率。

其中，当前页面可以包括至少一个页面区域。上述优先级策略可以由以下方法生成：获取目标用户对应的携带历史指令语音词的至少一个历史语音指令，并确定每一所述历史语音指令对应的意向位置，所述意向位置表征所述历史指令语音词所在的页面区域；基于每一历史语音指令对应的页面区域，确定该目标用户对应的优先级策略；该优先级策略用于表征该目标用户的语音指令中携带该历史指令语音词的情况下，该历史指令语音词位于每一页面区域的概率。

在一些实施例中，针对每一个用户，可以收集该用户对应的声纹信息，并存储于用户声纹库。在接收到上述语音指令，并解析得到该语音指令对应的声纹信息之后，可以基于该用户声纹库确定该语音指令对应的用户，进而获取该用户的与语音指令词对应的优先级策略。

步骤S502、基于每一所述待选语音词的页面位置和每一所述页面区域对应的优先级，确定每一所述待选语音词对应的优先级。

在一些实施例中，针对任意一个待选语音词，可以基于该待选语音词的页面位置，在至少一个页面区域中确定该待选语音词所在的页面区域；将该待选语音词所在的页面区域对应的优先级，作为该待选语音词对应的优先级。以此类推，可以得到每一待选语音词对应的优先级。

步骤S503、将优先级最高的待选语音词作为所述待响应语音词。

其中，由于该优先级策略用于表征语音指令中携带指令语音词的情况下，该指令语音词位于每一页面区域的概率，即，待选语音词对应的优先级越高，则表征该待选语音词为用户实际意向的概率越高。基于此，将优先级最高的待选语音词作为所述待响应语音词。

本申请实施例中，通过获取语音指令的声纹信息，进而获取该声纹信息对应用户的优先级策略，由于该优先级策略表征该声纹信息对应用户的语音指令中携带该指令语音词的情况下，该指令语音词位于每一页面区域的概率。这样，可以确定每一待选语音词对应的优先级，进而可以将优先级(概率)最高的待选语音词确定为待响应语音词。

图6A是本申请实施例提供的语音控制方法的一个可选的流程示意图，该方法可以由计算机设备的处理器执行。基于图1A，目标重复语音词与所述当前页面中重复出现的至少两个页面位置的页面语音词对应，所述至少两个页面语音词包括所述至少两个待选语音词；图1A中的S103之前，还可以包括S601至S603，将结合图6A示出的步骤进行说明。

在一些实施例中，所述终端设备与至少两个显示设备相连，因此，上述页面语音词的页面位置不仅可以确定页面语音词在当前页面中的位置，还可以确定页面语音词所在的显示设备。其中，由于该目标重复语音词与当前页面中重复出现的至少两个页面语音词对应，基于各个页面语音词对应的页面位置，可以确定该至少两个页面语音词是否位于同一个显示设备中。在该至少两个页面语音词是否位于同一个显示设备的情况下，可以直接将所有页面语音词作为该至少两个待选语音词。

在另一些实施例中，在该目标重复语音词对应的每一所述页面语音词的页面位置位于不同的显示设备的情况下，本申请实施例可以基于获取的音源信息，从至少两个显示设备中确定目标显示设备，即判断待响应语音词应该位于哪一个显示设备中，在从位于该目标显示设备的页面语音词中确定所述待选语音词。请参阅图6B示出的实施场景中，该目标重复语音词可以同时位于显示设备B61和显示设备B62中，本申请实施例可以基于获取的音源信息，从显示设备B61和显示设备B62中确定目标显示设备。

实施过程可以参阅步骤S601至S603。

步骤S601、在所述目标重复语音词对应的每一页面语音词的页面位置表征所述目标重复语音词位于至少两个显示设备的情况下，获取所述语音指令对应的音源信息。

步骤S602、基于所述音源信息在所述至少两个显示设备中确定目标显示设备。

在一些实施例中，每一所述显示设备设置有对应的第一拾音设备，所述音源信息包括每一所述显示设备接收的语音指令的语音质量。其中，该语音指令可以包括以下至少之一：语音音量、语音清晰度等。其中，在接收所述语音指令的过程中，可以通过每一所述显示设备对应的第一拾音设备接收所述语音指令，以确定每一所述显示设备接收的语音指令的语音质量。

在一些实施例中，由于该第一拾音设备设置于显示设备上，音源距离目标显示设备的距离越近，相应的，设置于目标显示设备上的第一拾音设备拾取到的语音指令的语音质量越高。基于此，可以在至少两个显示设备中，将语音质量最高的第一拾音设备所在的显示设备作为目标显示设备。

在另一些实施例中，本申请实施例可以应用于车辆中，该车辆部署有至少一个第二拾音设备，与上述第一拾音设备不同的是，该第二拾音设备可以设置于车辆的任一位置，所述音源信息包括每一所述第二拾音设备接收的语音指令的语音质量。其中，该语音指令可以包括以下至少之一：语音音量、语音清晰度等。

在一些实施例中，基于每一第二拾音设备在车辆中的部署位置，和每一所述第二拾音设备接收的语音指令的语音质量可以确定音源相对于该车辆的音源位置。之后，由于各显示设备相对于车辆的显示设备位置是固定的，因此，可以基于该音源位置和每一所述显示设备的显示设备位置，确定该音源与每一显示设备的距离，将距离最近的显示设备作为所述目标显示设备。

步骤S603、在所述至少两个页面语音词中，将页面位置位于所述目标显示设备的页面语音词中确定所述待选语音词。

在一些实施例中，将页面位置位于所述目标显示设备的页面语音词中确定为所述待选语音词。其中，在该页面位置位于所述目标显示设备的页面语音词的数量为一个的情况下，直接将该页面语音词作为待响应语音词；在该页面位置位于所述目标显示设备的页面语音词的数量为至少两个的情况下，直接将该至少两个页面语音词作为至少两个待选语音词。

本申请实施例中，通过在获取语音指令的过程中，获取语音指令对应的音源信息，进而可以基于音源信息在多个页面语音词中，将位于目标显示设备的页面语音词筛选出来，减少了错误的将位于用户后方显示设备的页面语音词判定为待响应语音词的情况，可以有效的提升重复语音词识别的准确度。

图7是本申请实施例提供的语音控制方法的一个可选的流程示意图，该方法可以由终端设备和服务器共同执行，将结合图7示出的步骤进行说明。

步骤S701、终端设备在展示当前页面的过程中接收语音指令，并向服务器发送携带所述语音指令的解析请求。

在一些实施例中，在步骤S701之前，所述终端设备响应于所述当前页面的展示事件，遍历所述当前页面，得到所述当前页面中存在的多个页面语音词和每一所述页面语音词的页面位置；对所述多个页面语音词中重复的页面语音词进行关联，得到每一所述重复语音词对应的至少两个页面位置。在所述当前页面中重复的页面语音词关联完成的情况下，向服务器发送语音词注册请求。所述服务器接收该语音词注册请求，并为每一重复语音词分配对应的动作指令。

步骤S702、服务器接收所述解析请求并解析所述语音指令，确定所述语音指令中的指令语音词，并为所述当前页面的所述指令语音词分配对应的动作指令。

在一些实施例中，服务器解析语音指令确定所述语音指令中的指令语音词，并为所述当前页面的所述指令语音词分配对应的动作指令的具体实施方法与终端设备侧相同，可以参阅图1A和图2中的实施细节。

步骤S703、服务器向所述终端设备发送携带指令语音词和所述指令语音词对应的动作指令的反馈消息。

步骤S704、终端设备接收所述反馈消息，得到指令语音词和所述指令语音词对应的动作指令。

步骤S705、终端设备在所述当前页面中的至少一个重复语音词中确定与所述指令语音词匹配的目标重复语音词。

步骤S706、终端设备基于所述目标重复语音词对应的每一所述待选语音词的页面位置，在所述目标重复语音词对应的至少两个待选语音词中确定待响应语音词。

步骤S707、终端设备将所述目标重复语音词对应的动作指令分配给所述待响应语音词，以响应所述语音指令。

其中，上述步骤S705至步骤S707的实施方式与终端设备侧的语音控制方法相同，具体可以参阅图1A至图6A的实施细节。

基于前述的实施例，本申请实施例提供一种语音控制装置，该装置包括所包括的各单元、以及各单元所包括的各模块，可以通过计算机设备中的处理器来实现；当然也可通过具体的逻辑电路实现；在实施的过程中，处理器可以为中央处理器(Central ProcessingUnit，CPU)、微处理器(Microprocessor Unit，MPU)、数字信号处理器(Digital SignalProcessor，DSP)或现场可编程门阵列(Field Programmable Gate Array，FPGA)等。

图8为本申请实施例提供的一种语音控制装置的组成结构示意图，如图8所示，语音控制装置800包括：接收模块810、第一确定模块820、第二确定模块830、响应模块840，其中：

接收模块810，用于在展示当前页面的过程中接收语音指令，解析所述语音指令得到包括指令语音词的解析结果；

第一确定模块820，用于在所述当前页面中的至少一个重复语音词中确定与所述指令语音词匹配的目标重复语音词；所述目标重复语音词与所述当前页面中重复出现的至少两个页面位置的待选语音词对应；

第二确定模块830，用于基于所述目标重复语音词对应的每一所述待选语音词的页面位置，在所述目标重复语音词对应的至少两个待选语音词中确定待响应语音词；

响应模块840，用于将所述目标重复语音词对应的动作指令分配给所述待响应语音词，以响应所述语音指令。

在一些实施例中，所述语音控制装置800还包括注册模块，所述注册模块用于：响应于所述当前页面的展示事件，遍历所述当前页面，得到所述当前页面中存在的多个页面语音词和每一所述页面语音词的页面位置；对所述多个页面语音词中重复的页面语音词进行关联，得到每一所述重复语音词对应的至少两个页面位置。

在一些实施例中，所述注册模块还用于：

在一些实施例中，所述解析结果还包括所述指令语音词在当前页面中的位置信息；所述第二确定模块830，还用于：

在一些实施例中，所述第二确定模块830，还用于：

在一些实施例中，所述解析结果还包括所述指令语音词的声纹信息；所述第二确定模块830，还用于：

将优先级最高的待选语音词作为所述待响应语音词。

在一些实施例中，所述目标重复语音词与所述当前页面中重复出现的至少两个页面位置的页面语音词对应，所述至少两个页面语音词包括所述至少两个待选语音词；所述第一确定模块820，还用于：

以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。在一些实施例中，本申请实施例提供的装置具有的功能或包含的模块可以用于执行上述方法实施例描述的方法，对于本申请装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

需要说明的是，本申请实施例中，如果以软件功能模块的形式实现上述的语音控制方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read OnlyMemory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件、软件或固件，或者硬件、软件、固件三者之间的任意结合。

本申请实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法中的部分或全部步骤。

本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法中的部分或全部步骤。所述计算机可读存储介质可以是瞬时性的，也可以是非瞬时性的。

本申请实施例提供一种计算机程序，包括计算机可读代码，在所述计算机可读代码在计算机设备中运行的情况下，所述计算机设备中的处理器执行用于实现上述方法中的部分或全部步骤。

本申请实施例提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序被计算机读取并执行时，实现上述方法中的部分或全部步骤。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一些实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一些实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

这里需要指出的是：上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考。以上设备、存储介质、计算机程序及计算机程序产品实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请设备、存储介质、计算机程序及计算机程序产品实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

图9为本申请实施例提供的一种语音控制设备的硬件实体示意图，如图9所示，该语音控制设备900的硬件实体包括：处理器901和存储器902，其中，存储器902存储有可在处理器901上运行的计算机程序，处理器901执行程序时实现上述任一实施例的方法中的步骤。

存储器902存储有可在处理器上运行的计算机程序，存储器902配置为存储由处理器901可执行的指令和应用，还可以缓存待处理器901以及语音控制设备900中各模块待处理或已经处理的数据(例如，图像数据、音频数据、语音通信数据和视频通信数据)，可以通过闪存(FLASH)或随机访问存储器(Random Access Memory，RAM)实现。

处理器901执行程序时实现上述任一项的语音控制方法的步骤。处理器901通常控制语音控制设备900的总体操作。

本申请实施例提供一种计算机存储介质，计算机存储介质存储有一个或者多个程序，该一个或者多个程序可被一个或者多个处理器执行，以实现如上任一实施例的语音控制方法的步骤。

这里需要指出的是：以上存储介质和设备实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请存储介质和设备实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

上述处理器可以为目标用途集成电路(Application Specific IntegratedCircuit，ASIC)、数字信号处理器(Digital Signal Processor，DSP)、数字信号处理装置(Digital Signal Processing Device，DSPD)、可编程逻辑装置(Programmable LogicDevice，PLD)、现场可编程门阵列(Field Programmable Gate Array，FPGA)、中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器中的至少一种。可以理解地，实现上述处理器功能的电子器件还可以为其它，本申请实施例不作具体限定。

上述计算机存储介质/存储器可以是只读存储器(Read Only Memory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory，FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory，CD-ROM)等存储器；也可以是包括上述存储器之一或任意组合的各种终端，如移动电话、计算机、平板设备、个人数字助理等。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各步骤/过程的序号的大小并不意味着执行顺序的先后，各步骤/过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种语音控制方法，其特征在于，所述方法包括：

响应于当前页面的展示事件，遍历所述当前页面，得到所述当前页面中存在的多个页面语音词和每一所述页面语音词的页面位置；

对所述多个页面语音词中重复的页面语音词进行关联，得到每一重复语音词对应的至少两个页面位置；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述解析结果还包括所述指令语音词在当前页面中的位置信息；所述基于所述目标重复语音词对应的每一所述待选语音词的页面位置，在所述目标重复语音词对应的至少两个待选语音词中确定待响应语音词，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述目标重复语音词对应的每一所述待选语音词的页面位置，在所述目标重复语音词对应的至少两个待选语音词中确定待响应语音词，包括：

5.根据权利要求1所述的方法，其特征在于，所述解析结果还包括所述指令语音词的声纹信息；所述基于所述目标重复语音词对应的每一所述待选语音词的页面位置，在所述目标重复语音词对应的至少两个待选语音词中确定待响应语音词，包括：

将优先级最高的待选语音词作为所述待响应语音词。

6.根据权利要求3至5任一项所述的方法，其特征在于，所述目标重复语音词与所述当前页面中重复出现的至少两个页面位置的页面语音词对应，所述至少两个页面语音词包括所述至少两个待选语音词；所述基于所述目标重复语音词对应的每一所述待选语音词的页面位置，在所述目标重复语音词对应的至少两个待选语音词中确定待响应语音词之前，所述方法还包括：

7.一种语音控制装置，其特征在于，包括：

注册模块，用于响应于当前页面的展示事件，遍历所述当前页面，得到所述当前页面中存在的多个页面语音词和每一页面语音词的页面位置；对所述多个页面语音词中重复的页面语音词进行关联，得到每一重复语音词对应的至少两个页面位置；

8.一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至6任一项所述方法中的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至6任一项所述方法中的步骤。