CN117198291A

CN117198291A - 一种语音控制终端界面的方法、装置及系统

Info

Publication number: CN117198291A
Application number: CN202311474968.3A
Authority: CN
Inventors: 王帅; 谭克强; 周舒婷; 王建; 熊文轩
Original assignee: Sichuan Shutian Information Technology Co ltd
Current assignee: Sichuan Shutian Information Technology Co ltd
Priority date: 2023-11-08
Filing date: 2023-11-08
Publication date: 2023-12-08
Anticipated expiration: 2043-11-08
Also published as: CN117198291B

Abstract

本发明提供了一种语音控制终端界面的方法、装置及系统，涉及智能语音交互的技术领域，该方法包括：通过图形用户界面显示目标场景的初始化页面；响应作用于目标元素对象的控制操作，以获取麦克风的访问权限，以及，在初始化页面显示第二区域；通过麦克风响应语音指令，将语音指令发送至服务器，以使服务器根据语音指令的颗粒度确定响应内容；接收服务器发送的包含响应内容的第一响应请求；提取响应内容，控制图形用户界面按照响应内容进行展示。本发明提供的语音控制终端界面的方法、装置及系统，通过语音控制交互界面，可以解放双手且不需要额外设备进行辅助操控，极大地提升了用户体验。

Description

一种语音控制终端界面的方法、装置及系统

技术领域

本发明涉及智能语音交互的技术领域，尤其是涉及一种语音控制终端界面的方法、装置及系统。

背景技术

随着大数据时代的到来，越来越多的企业之间面临着海量数据的处理，而利用数据可视化技术，将海量数据转为易于理解和分析的图表、图像等有价值的信息，可以达到加强商业信息的传递效率，并能快速访问相关业务信息、更好的理解运营动态等效果。

目前，在一些需要通过交互式数据可视化大屏获取有效信息的场景中，大多需要经过用户的多次连续点击或多次输入的方式，才能够访问相应的页面，不仅操作繁琐，也存在交互效率低的问题，降低了用户的体验感。

发明内容

有鉴于此，本发明的目的在于提供一种语音控制终端界面的方法、装置及系统，以缓解了上述技术问题。

第一方面，本发明实施例提供了一种语音控制终端界面的方法，所述方法应用于终端，所述终端用于提供图形用户界面，且，所述终端与服务器通信，所述方法包括：通过所述图形用户界面显示目标场景的初始化页面，所述初始化页面包括第一区域和目标元素对象，所述第一区域设置有至少一个第一对象的控件，其中，所述第一对象用于表示通过当前所述终端可查询的所述目标场景中预设维度的信息；所述目标元素对象与所述终端的麦克风关联；响应作用于所述目标元素对象的控制操作，以获取所述麦克风的访问权限，以及，在所述初始化页面显示第二区域；所述第二区域用于显示人机交互信息；通过所述麦克风响应语音指令，将所述语音指令发送至所述服务器，以使所述服务器根据所述语音指令的颗粒度确定响应内容，其中，所述响应内容包括：所述第一区域中对应的第一对象、所述第一对象中关联的预设维度的信息，以及，所述图形用户界面中所显示的页面响应动作和所述页面响应动作的执行顺序，所述页面响应动作至少包括与所述语音指令对应的人机交互对话文本、人机交互对话文本中应答文本对应的语音播放动作，以及，所述初始化页面的切换显示动作；接收所述服务器发送的包含所述响应内容的第一响应请求；提取所述响应内容，控制所述图形用户界面按照所述响应内容进行展示。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，上述图形用户界面的显示区包括第三区域和第四区域；其中，所述第三区域位于所述图形用户界面的边缘位置，所述第四区域位于所述图形用户界面的中央位置；控制所述图形用户界面按照所述响应内容进行展示的步骤，包括：在所述第一区域中，按照预先设置的显示方式对所述第一对象进行突出显示；以及，根据所述页面响应动作中包括的与所述语音指令对应的人机交互对话文本更新所述第二区域中显示的人机交互信息，并对所述人机交互对话文本中的应答文本进行语音播放；以及，在所述第三区域显示至少一个第三对象，其中，所述第三对象为所述第一对象关联下一级的对象，且，所述第三对象用于标识在所述第一对象预设维度的信息中用户直接获得的信息；以及，在所述第四区域显示所述第一对象中与所述语音指令的颗粒度对应的实景模型。

结合第一方面的第一种可能的实施方式，本发明实施例提供了第一方面的第二种可能的实施方式，其中，上述语音指令包括语音查询指令或者语音导航指令其中之一；在所述第四区域显示所述第一对象中与所述语音指令的颗粒度对应的实景模型的步骤，包括：如果所述语音指令包括语音查询指令，则在所述第四区域显示所述第一对象中与所述语音查询指令相关的可视化查询结果；如果所述语音指令包括语音导航指令，则在所述第一区域中按照预设的显示动作对所述语音导航指令对应的所述第一对象进行显示，以及，将所述第四区域显示的内容切换至所述语音导航指令对应的所述第一对象所标识的通过当前所述终端可查询的所述目标场景中预设维度的信息。

结合第一方面的第一种可能的实施方式，本发明实施例提供了第一方面的第三种可能的实施方式，其中，上述第三区域设置有多个分割区域，每个所述分割区域用于显示同一属性信息的所述第三对象；在所述第三区域显示至少一个第三对象的步骤，包括，按照所述响应内容中记载的初始化页面的切换显示动作来控制所述第三对象进入所述分割区域的运行轨迹。

结合第一方面的第三种可能的实施方式，本发明实施例提供了第一方面的第四种可能的实施方式，其中，上述在所述第三区域显示至少一个第三对象的步骤，还包括：如果所述分割区域内的所述第三对象的数量超过预设目标个数，则在所述分割区域内，对所有的所述第三对象使用预设显示方式进行展示。

结合第一方面的第一种可能的实施方式，本发明实施例提供了第一方面的第五种可能的实施方式，其中，上述在所述第四区域显示所述第一对象中与所述语音指令的颗粒度对应的实景模型的步骤，还包括：如果所述语音指令的颗粒度对应的同一所述第三对象的数量大于1，则在所述第四区域中显示所述语音指令的颗粒度对应的实景模型，以及，在所述实景模型中对多个所述第三对象进行图号显示标记。

结合第一方面，本发明实施例提供了第一方面的第六种可能的实施方式，其中，上述通过所述麦克风响应语音指令，将所述语音指令发送至所述服务器的步骤，包括：判断所述语音指令是否为可识别语音；如果是，将所述语音指令发送至所述服务器；如果否，获取预先设置的第一应答内容；在所述第二区域显示所述第一应答内容的文本，以及，对所述第一应答内容的文本进行语音播放。

结合第一方面和第一方面的第六种可能的实施方式，本发明实施例提供了第一方面的第七种可能的实施方式，其中，上述方法还包括：将所述语音指令发送至所述服务器之后，接收所述服务器基于所述语音指令返回的第二应答内容，其中，所述第二应答内容为所述服务器解析出所述语音指令的参数与预先设置的指令库中的指令参数不一致时向所述终端返回的信息；对所述第二应答内容进行播放，以提示用户持续输入与所述语音指令关联的语音信息；将所述语音信息返回至所述服务器，以使所述服务器基于所述语音信息明确所述语音指令的意图，并根据所述语音指令的颗粒度确定响应内容；以及，统计所述第二应答内容的播放次数，如果所述第二应答内容的播放次数达到预设的播放阈值，则获取第三应答内容；在所述第二区域显示所述第三应答内容的文本，以及，对所述第三应答内容的文本进行语音播放。

第二方面，本发明实施例还提供一种语音控制终端界面的装置，所述装置应用于终端，所述终端用于提供图形用户界面，且，所述终端与服务器通信，所述装置包括：初始模块，用于通过所述图形用户界面显示目标场景的初始化页面，所述初始化页面包括第一区域和目标元素对象，所述第一区域设置有至少一个第一对象的控件，其中，所述第一对象用于表示通过当前所述终端可查询的所述目标场景中预设维度的信息；所述目标元素对象与所述终端的麦克风关联；控制模块，用于响应作用于所述目标元素对象的控制操作，以获取所述麦克风的访问权限，以及，在所述初始化页面显示第二区域；所述第二区域用于显示人机交互信息；交互模块，用于通过所述麦克风响应语音指令，将所述语音指令发送至所述服务器，以使所述服务器根据所述语音指令的颗粒度确定响应内容，其中，所述响应内容包括所述第一区域中对应的第一对象、所述第一对象中关联的预设维度的信息，以及，所述图形用户界面中所显示的页面响应动作和所述页面响应动作的执行顺序，所述页面响应动作至少包括与所述语音指令对应的人机交互对话文本、人机交互对话文本中应答文本对应的语音播放动作，以及，所述初始化页面的切换显示动作；第一接收模块，用于接收所述服务器发送的包含所述响应内容的第一响应请求；展示模块，用于提取所述响应内容，控制所述图形用户界面按照所述响应内容进行展示。

第三方面，本发明实施例还提供一种语音控制终端界面的系统，所述系统包括终端和服务器，所述终端用于提供图形用户界面，且，所述终端与所述服务器通信；其中，所述终端用于执行第一方面所述的方法。

第四方面，本发明实施例还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的方法的步骤。

第五方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述第一方面所述的方法的步骤。

本发明实施例带来了以下有益效果：

本发明实施例提供的语音控制终端界面的方法、装置及系统，能够通过图形用户界面显示目标场景的初始化页面，并响应作用于目标元素对象的控制操作，以获取麦克风的访问权限，以及，在初始化页面显示第二区域，并通过麦克风响应语音指令，将语音指令发送至服务器，以使服务器根据语音指令的颗粒度确定响应内容，进而接收服务器发送的包含该响应内容的第一响应请求，提取响应内容，以控制图形用户界面按照响应内容进行展示，整个控制过程中，用户仅通过简单的语音指令即可完成颗粒度较细的信息查询和展示，有效减少了繁琐的查询操作，缩短了端到端的响应时间，提高了交互效率，且交互过程中通过语音控制交互界面，可以解放双手且不需要额外设备进行辅助操控，极大地提升了用户体验。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种语音控制终端界面的方法的流程图；

图2为本发明实施例提供的一种图形用户界面的示意图；

图3为本发明实施例提供的另一种语音控制终端界面的方法的流程图；

图4为本发明实施例提供的一种语音控制终端界面的装置的结构示意图；

图5为本发明实施例提供的另一种语音控制终端界面的装置的结构示意图；

图6为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，端对端的数据交互过程，大多需要经过用户多次的连续点击或输入的方式才能够实现通过界面显示数据信息，不仅操作繁琐，存在交互效率低的问题，也降低了用户的体验感。

基于此，本发明实施例提供的一种语音控制终端界面的方法、装置及系统，可以有效缓解上述技术问题。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种语音控制终端界面的方法进行详细介绍。

在一种可能的实施方式中，本发明实施例提供了一种语音控制终端界面的方法，该方法应用于终端，该终端用于提供图形用户界面，且，终端与服务器通信。

在实际使用时，本发明实施例中的终端是一种显示终端，用于将信息呈现给用户，包括液晶电视、触摸显示大屏、显示器等具有显示功能的设备，进一步，上述服务器作为该终端的后台服务器，一般存储有目标场景的数据，如某个产业园区、住宅区、商业区的所有数据，包括园区管理、招商管理、典型应用等多个维度的内容，通常，可以利用数字孪生技术在服务器端构建与实际物理实体完全等价的数字化模型，终端与服务器通信之后，可以在服务器端通过对接收到不同类型的语音指令进行解析，确定对应不同颗粒度的查询需求的查询指令，进而控制终端的图形用户界面直接跳转至对应语音指令的页面中，并对该语音指令相关的数据以特定的突显方式进行显示。

为了具体地，如图1所示的一种语音控制终端界面的方法，该方法包括以下步骤：

步骤S102，通过图形用户界面显示目标场景的初始化页面；

具体地，本发明实施例中，初始化页面包括第一区域和目标元素对象，第一区域设置有至少一个第一对象的控件，其中，第一对象用于表示通过当前终端可查询的目标场景中预设维度的信息；目标元素对象与终端的麦克风关联；

在实际使用时，上述初始化页面是在没有用户操作时终端所显示的页面，通常包括目标场景的整体轮廓，或者目标场景的简介等，以目标场景为某产业园为例，初始化页面可以显示该产业园的整体外观图，或者该产业园的简介、宣传视频等信息。

其中，第一区域通常设置于图形用户界面的下方，所显示的第一对象实际是目标场景中预设维度的信息的图标控件，同样以某产业园为例，假设通过本发明实施例提供的方法，可以显示园区首页、园区管理、招商管理、平安园区和典型应用等维度的信息，此时，对于每个维度，均可以设置一个图标控件，并作为第一对象设置于第一区域，用户可以通过第一区域显示的第一对象快速了解在终端上可操作的业务范围有哪些。

同时，在初始化页面可以显示目标元素对象的图标，作为启动麦克风的访问权限的控件，该目标元素对象可以设置于任意位置，还可以直接设置于第一区域。通常，目标元素对象的图标可以是麦克风图标，也可以是喇叭图标，具体以实际使用情况为准，本发明实施例对此不进行限制。

步骤S104，响应作用于目标元素对象的控制操作，以获取麦克风的访问权限，以及，在初始化页面显示第二区域；

其中，第二区域用于显示人机交互信息；

具体地，第二区域多设置于图形用户界面边缘位置，以避免对响应内容进行遮挡，如放置于左下角等等，具体以实际使用情况为准，本发明实施例对此不进行限制。

进一步，上述作用于目标元素对象的控制操作，可以是用户对目标元素对象的点击、触碰或者语音唤醒中的任意一种，以启用麦克风的访问权限。此时终端可以响应该控制操作，并在初始化页面显示第二区域，该第二区域中显示的人机交互信息通常可以作为第二区域中显示的第二对象，即，第二对象包括服务器响应于控制操作的应答信息，应答信息中至少包括人机交互的所有文字信息，进一步，对于终端支持语音播报的实施方式，该第二对象还可以包括人机交互的所有文字信息中，机器应答文本对应的语音信息。

例如，用户可以通过语音输入方式触发预设唤醒关键词，或点击目标元素对象等方式开启麦克风的访问权限后，终端可以被唤醒，并在图形用户界面的第二区域内显示第二对象，第二对象可以为弹框的形式，在该弹框内显示服务器响应于该语音指令时对应的应答文字，如“您好请问有什么可以帮助您的”，以及该应答文字对应的应答语音在前端进行播放，用户可以进一步输入语音指令供终端响应，以便于执行下述步骤。

步骤S106，通过麦克风响应语音指令，将语音指令发送至服务器，以使服务器根据语音指令的颗粒度确定响应内容；

其中，本发明实施例中的响应内容包括第一对象、第一对象中关联的预设维度的信息，以及，图形用户界面中所显示的页面响应动作和页面响应动作的执行顺序，页面响应动作至少包括与语音指令对应的人机交互对话文本、人机交互对话文本中应答文本对应的语音播放动作，以及，初始化页面的切换显示动作；

进一步，上述预设维度信息为根据语音指令的颗粒度确定的信息，例如，以某产业园为例，第一对象包括园区首页、园区管理、招商管理、平安园区和典型应用等维度的信息，如果语音指令为显示园区管理，则此时确定的预设维度信息即为园区管理的首页的信息，即，该语音指令的颗粒度为园区管理的首页，而如果语音指令进一步为显示园区管理中XX内容，则此时语音指令的颗粒度为更为精细的园区管理的首页的下一级，此时第一对象中关联的预设维度的信息则为显示园区管理中XX内容，即服务器会从相应数据库中调取显示园区管理中XX内容的资源，以生成响应内容。

步骤S108，接收服务器发送的包含响应内容的第一响应请求；

步骤S110，提取响应内容，控制图形用户界面按照响应内容进行展示。

因此，本发明实施例提供的语音控制终端界面的方法，能够通过图形用户界面显示目标场景的初始化页面，并响应作用于目标元素对象的控制操作，以获取麦克风的访问权限，以及，在初始化页面显示第二区域，并通过麦克风响应语音指令，将语音指令发送至服务器，以使服务器根据语音指令的颗粒度确定响应内容，进而接收服务器发送的包含该响应内容的第一响应请求，提取响应内容，以控制图形用户界面按照响应内容进行展示，整个控制过程中，用户仅通过简单的语音指令即可完成颗粒度较细的信息查询和展示，有效减少了繁琐的查询操作，缩短了端到端的响应时间，提高了交互效率，且交互过程中通过语音控制交互界面，可以解放双手且不需要额外设备进行辅助操控，极大地提升了用户体验。

在实际使用时，终端接收到用户输入的语音指令之后，传输至服务器进行识别，如果服务器识别成功，则可以根据语音指令的颗粒度确定响应内容，并返回至终端，终端可以控制图形用户界面按照响应内容进行展示，具体地，本发明实施例中的图形用户界面的显示区包括第三区域和第四区域；其中，第三区域位于图形用户界面的边缘位置，第四区域位于图形用户界面的中央位置；上述步骤S110中，展示的动作包括：

（1）在第一区域中，按照预先设置的显示方式对语音指令确定的第一对象进行突出显示；

（2）根据页面响应动作中包括的与语音指令对应的人机交互对话文本更新第二区域中显示的人机交互信息，并对人机交互对话文本中的应答文本进行语音播放；

（3）在第三区域显示至少一个第三对象；

其中，第三对象为第一对象关联下一级的对象，且，第三对象用于标识在第一对象预设维度的信息中用户可以直接获得的信息；

（4）在第四区域显示第一对象中与语音指令的颗粒度对应的实景模型。

例如，服务器可以生成第一控制指令，并对应向终端发起第一响应请求，以使终端按照上述（1）~（4）执行展示的动作，如，该第一控制指令可以包括对第一区域的多个第一对象中任一第一对象进行操作时对应的显示动作指令，即上述（1）中对第一对象进行突出显示，例如，可以使用第一显示方式对第一对象进行展示，如对第一对象进行高亮显示，其他与语音指令不对应的第一对象则以第二显示方式显示，如，亮度低于第一显示方式等。

进一步，本发明实施例中，每个第一对象分别用来表示用户在终端所显示的初始化页面中可查询的不同维度的信息，不同维度的信息至少包括数据的性质、用户关心的角度、便于数据处理分析的角度、运营管理的角度中一种或多种。

在实际使用时，服务器基于语音指令判断出用户的意图之后，即可根据语音指令的颗粒度确定响应内容，进一步，本发明实施例中，页面响应动作至少包括与语音指令对应的人机交互对话文本、人机交互对话文本中应答文本对应的语音播放动作，以及，初始化页面的切换显示动作，终端接收到响应内容之后，可以获知与当前语音指令对应的人机交互对话文本的显示动作、应答文本对应的语音播放动作，以及，初始化页面的切换显示动作等信息。

例如，同样以某产业园为例，上述初始化页面相当于是对该产业园的导航页面，用户可以在该导航页面下输入语音指令，包括但不限于“进入首页”“跳转园区管理页面”“查看平安页”等等，此时终端响应语音指令发送至服务器之后，可以得到服务器发送的包含响应内容的第一响应请求，并且，终端的响应动作可以包括页面跳转动作，并在第一区域内高亮与该语音指令对应的第一对象，应答文本的显示动作，如，在第二区域内显示“好的，马上为您跳转”等类似的交互文本信息，以及，应答文本的语音播放动作，如语音播报“好的，马上为您跳转”等，并控制图形用户界面按照响应内容进行展示。

为了便于理解，图2还示出了一种图形用户界面的示意图，如图2所示，第一区域设置在图形用户界面的下方，且，第一区域中设置有多个第一对象，第二区域设置于图形用户界面的左下角，第三区域位于图形用户界面两侧的边缘位置，第四区域位于图形用户界面的中央位置。

以某产业园为例，用户面对初始化页面所显示的网页时，可以输入语音指令包括但不限于“进入首页”“跳转园区管理页面”“查看平安页”等等，此时，对用户来说，终端的响应动作包括页面跳转动作，如，第一区域内高亮与该语音指令对应的第一对象，同时，第三区域中，每个子图标，例如“监控设备”等第三对象，进入第三区域的显示动作，如，从两边分别滑入对应的第三区域内，以及，第二区域中应答文本显示动作，如，在第二区域内显示“好的，马上为您跳转”等类似的交互文本信息，和应答文本语音播放动作等，同时，第四区域中直接显示与语音指令相关的实景模型。

在实际使用时，同一导航页面中所有第三对象的集合对应同一维度信息的某一个第一对象，例如，产业园中，监控设备、本年度园区事件、异常设备等多个第三对象为平安园区这个第一对象的子集合，即，在平安园区这个第一对象关联的下一级对象中，可以包括监控设备、本年度园区事件、异常设备等多个第三对象。这些第三对象在第三区域中显示，且，在显示时，每个第三对象以其各自特定的运行轨迹滑入第三区域，同时，第四区域中显示与语音指令的颗粒度对应的实景模型，如，显示产业园某个区域或者某个实物的3D实景模型等等，该3D实景模型为所要展现的某个区域或者某个实物按照预设比例重构的三维全景图。

例如：响应“进入园区管理页面”的语音指令时，充电桩使用率、访客人数等多个第三对象可以从图形用户界面的左侧以直线的运行轨迹向右滑入第三区域，监控数量、用电量等多个第三对象可以从图形用户界面的右侧以直线的运行轨迹向左侧滑入第三区域；同时，第四区域显示通过角度旋转或放大等方式显示与语音指令对应的部分的3D实景模型，例如，第一对象为园区管理时，其对应于整个园区3D实景模型中某个特定区域内的三维实景模型。

进一步，本发明实施例中，第三区域设置有多个分割区域，每个分割区域用于显示同一属性信息的第三对象；在第三区域显示至少一个第三对象时，可以按照上述响应内容中记载的初始化页面的切换显示动作来控制第三对象进入分割区域的运行轨迹。

例如，第三区域内设置有3个分割区域，第一分割区域内显示产业园中多个明星企业的图标，第二分割区域内显示有多个园区获得荣誉情况等等。

进一步，如果分割区域内的第三对象的数量超过预设目标个数，则在分割区域内，对所有的第三对象使用预设显示方式进行展示，例如，某个分割区域内的第三对象超过10个，则该分割区域内的所有第三对象使用第三显示方式进行展示，如滚动显示等等，如，第二分割区域内显示的园区荣誉的项数超过20个，则对园区荣誉进行滚动显示。

本发明实施例中，对第三区域划分成分割区域的方式，可以对相同属性的内容进行归纳，尽可能多的在一个页面内展示当前第一对象对应的维度信息，并使对应的页面可查询所有类型的消息，使得图形用户界面达到所能见到的是可以查询的所有种类的信息，如此既能让用户快速知道自己能查什么类型的数据，不用特意的去记忆特定的语音指令，又能便于用户快速定位自己需要查询数据在那个板块的某个具体位置。

此外，对相同属性的内容进行归纳显示在同一分割区域内，能快速对全局数据做大致了解。例如：平安园区（第一对象）中安防总览（第三区域内的分割区域内）中显示设备异常数量（第三对象），通过上述分割区域可以对园区中所涉及的所有设备异常情况进行可视化显示，便于管理者快速了解园区内设备的具体情况以快速作出响应应对，避免造成损失。而且，在每个类型数据对应的分割区域内滚动显示所有信息，以便于占用较少的区域显示全部信息。

进一步，本发明实施例中的语音指令包括语音查询指令或者语音导航指令其中之一；这样，在上述第四区域中显示第一对象中与语音指令的颗粒度对应的实景模型时，如果语音指令包括语音查询指令，则在第四区域显示第一对象中与语音查询指令相关的可视化查询结果，例如，查询某个公司的用电量，则可以在第四区域中显示该公司的用电量的统计结果表格；如果查询某个入口的实时监控状况，则在第四区域中显示该入口的监控视频等。如果语音指令包括语音导航指令，则在第一区域中按照预设的显示动作对语音导航指令对应的第一对象进行显示，以及，将第四区域显示的内容切换至语音导航指令对应的第一对象所标识的通过当前终端可查询的目标场景中预设维度的信息。

例如，当前第四区域显示的是第一对象“园区首页”的内容，如果此时终端接收到语音导航指令为“园区管理”的第一对象的指令，则按照预设的显示动作对“园区管理”这一第一对象的控件进行突出显示，如，高亮显示，同时，将“园区首页”的第一对象的控件的突出显示取消，即，与其他第一对象的显示方式一致，以突出当前语音导航指令对应的“园区管理”的第一对象。同时，在第四区域中，将当前显示的第一对象“园区首页”的内容切换至“园区管理”对应的内容。

即，本发明实施例中的上述语音导航指令相当于是页面导航指令，可以对第一对象所标识的可查询信息进行直接切换。

在实际使用时，上述语音导航指令包括但不限于“进入首页”“跳转园区管理页面”“查看平安页”等等，此时，终端可以在第一区域内高亮与该语音导航指令对应的第一对象，同时，第三区域中，按照预设的显示动作切换至该第一对象的每个子图标，如，从两边分别滑入对应的第三区域内，以及，第二区域中应答文本显示动作，如，在第二区域内显示“好的，马上为您跳转”等类似的交互文本信息，和应答文本语音播放动作，并在第四区域中将显示的内容切换至对应的第一对象所标识的可查询的维度信息。

进一步，以某产业园为例，对语音查询指令进行进一步说明，具体地，本发明实施例中，语音查询指令的统计结果模型通常包括视频或者图表中的任意一种，例如，当语音查询指令为“查看1号出入口监控”，终端将语音查询指令发送至服务器之后，服务器可以确定第一对象为“平安园区”，并，基于该第一对象确定出响应内容，此时，响应内容包括的第一对象中关联的预设维度的信息实际指的是1号出入口监控的实时监控信息，因此，终端在接收到服务器返回的包含响应内容的第一响应请求之后，可以根据提取的响应内容，在第四区域中对1号出入口位置的3D实景模型进行聚焦，并高亮显示，并在第四区域播放1号出入口的监控画面的视频。

当输入的语音查询指令为“查看1号充电桩”，对应的，在终端的第四区域中，可以对1号充电桩位置的3D实景模型进行聚焦、高亮显示，同时，在第四区域显示1号充电桩的使用记录表。

当输入的语音查询指令为“查询2号楼3层会议室预约情况”，则在第四区域中显示会议预约图表，等等，根据语音查询指令可以确定出对应的统计结果模型并在第四区域进行显示。

即，本发明实施例中，第一对象中关联的预设维度的信息实际是服务器根据语音指令的颗粒度确定的信息；例如，如果语言指令中查询某个楼宇，则服务器中则确定该楼宇的位置，而如果语言指令中是查询某个楼宇中具体的某个房间，则该服务器在确定响应内容时，确定的则是该楼宇中具体的某个房间的位置。即，最终终端所呈现的内容，是基于语音指令的信息颗粒度确定的，服务器可以识别出的最小查询信息颗粒度对应的则是终端上可以显示的最小可拆卸单元的3D实景模型，即，终端在在第四区域显示第一对象中与语音指令相关的实景模型时，是在第四区域中，按照预先设置的显示方式对第一对象中与该信息颗粒度匹配的实景模型进行显示。

具体地，以某产业园为例，并结合图2进行说明，假设用户输入的语音指令为“去年2月最后一周2号楼1层103房间的用电量是多少”，此时服务器基于该语音指令可以确定第一对象为初始化页面中的“典型应用”，服务器返回第一对象的响应内容后，在终端一侧，首先，在图形用户界面上，第一区域的第一对象“典型应用”被高亮显示，同时在第二区域内，可以显示多条文本信息，至少包括本次对话的“去年2月最后一周2号楼1层103房间的用电量是多少”和“2号楼1层103房间2022年的用电量为X”两条信息，并在终端播放应答文本对应的语音“2号楼1层103房间2022年的用电量为X”。同时，多个“用电类型”“年总碳排放量”“数据中心标注”等第三对象从图形用户界面的左右两侧以直线分别滑入第三区域。第四区域中通过旋转放大的方式显示对应2号楼的3D模型，然后再进行爆炸图拆分将1层103房间显现出来，并进行高亮显示。

即，本次语音指令中的信息颗粒度可以辨别到1层103房间。

进一步，在上述同一页面中，再次语音输入“查询园区布局”时，第一区域、第三区域的显示内容及显示动作同上，第二区域中的第二对象实时更新交互信息的文字“查询园区布局”“已开发地块占比55%，开发中地块占比35%，待开发地块占比10%”等内容，并播放应答文本对应语音，同时，在第四区域中，可以将3种不同类型的已开发地块、开发中地块、待开发地块区域对应的3D实景模型缩略图以不同显示亮度或不同颜色显示亮度进行展示。

进一步，如果语音指令的颗粒度对应的同一第三对象的数量大于1，则在第四区域中显示语音指令的颗粒度对应的实景模型，以及，在实景模型中对所有同一第三对象分别进行图号显示标记。即，如果相关的第三对象的数量大于1，则在第四区域中，还可以在3D实景模型内对所有相关的第三对象进行图号显示标记。

例如，响应查询“充电桩使用情况”的语音指令时，可以对第一区域内第一对象“园区管理”高亮显示，第二区域显示“正在使用电桩为XX，空闲电桩为XX”的文本并语音播放，第三区域显示与园区管理相关的所有第三对象，当园区内的充电桩有1个以上时则在第四区域内对整体的3D实景模型中所设置的所有充电桩高亮显示，并可用编号等图标进行显示标记。又例如，语音指令为跳转至“出入口监控”，当园区内的出入口有1个以上时，则在第四区域内，对整体的3D实景模型中将对应的所有出入口高亮显示的同时还用编号等图标进行显示标记。在用户不熟悉或记不住园区地形的使用场景下，用户通过图号显示标记可快速在3D模型的缩略图中从不同地理位置对应的同一观测物中锁定符合其心中预期场地，并基于该场地进行相关数据的查询任务，提高效率的同时也降低了使用门槛。

上述在图形用户界面的具体显示情况，可以在服务器端进行配置，即，配置对应的响应内容中所包括的内容。而为了实现上述显示格式或者显示方式，在服务器端，可以预先通过数字孪生技术构建产业园的3D实景模型，进而实现可以查询同一物理实体不同时间维度下的数据对比信息，便于帮助用户快速地进行数据分析；也可以对存在相对空间位置关系的某一第三对象的相关信息进行查询，对于用户陌生地方或不便于记忆的地方能够帮助用户通过目标地点与参照地点之间的相对位置关系速定位目的地并查阅相关信息，降低用户交互门槛。例如，在响应的语音指令诸如“查看2栋今年4月的用电量环比情况”这类针对同一个第三对象查询不同时间维度信息进行对比的查询指令时，在第一区域中，可以将对应的第一对象“典型应用”进行高亮显示，其余第一对象灰度显示。然后，在第二区域内，显示第二对象包括人机交互对话信息的文本和图表，例如，包含用户输入的“查看2栋今年4月的用电量环比情况”以及应答的“2号楼2022年3月的用电量为X，2022年4月的用电量为X”以及，对应该应答信息的统计图（即2栋今年4月与3月两个不同时间维度其各自用电量环比数据形成的环比统计图），如饼状图或折线图等等，同时，在第三区域显示与“典型页面”相关的第三对象，以及，在第四区域内放大并高亮2栋楼的3D实景模型。

再例如，在响应的语音指令“2号楼附件闲置的充电桩情况”这类针对某个第三对象在不同空间维度分布的查询指令时，服务器首先对查询指令进行解析确定相对空间关系，并根据数字孪生技术构建产业园的3D实景模型中的空间相对关系数据进行匹配，确定查询指令中对应的实景模型以及其他对应响应内容后向前端发送响应请求。前端响应该请求会在第四区域内直接显示2号楼附件的充电桩所在区域，并在第二区域内显示第二对象为2号楼为该区域内充电桩的使用状态等。

在实际使用时，对于用户输入的语音指令，通常包括意图明晰的操控指令和意图模糊的操控指令，对于意图明晰的操控指令，终端发送至服务器之后，服务器可以根据语音指令的颗粒度确定响应内容；而如果是意图模糊的操控指令，则需要通过多轮语音询问的方式来确定语音指令的必要信息，直至确定为意图明晰的操控指令，而如果用户输入的语音指令，则是无法识别的语音，如掺杂了一定的噪音时，则在终端测就可以对语音进行一定的过滤。

因此，本发明实施例中，在通过麦克风响应语音指令，将语音指令发送至服务器时，可以先判断语音指令是否为可识别语音，如果是，则将语音指令发送至服务器；如果否，则获取预先设置的第一应答内容；在第二区域显示第一应答内容的文本，以及，对第一应答内容的文本进行语音播放。

具体地，上述第一应答内容为终端无法识别当前的语音指令时，进行的应答，例如，用户输入的语音指令掺杂了较为嘈杂的环境声音，导致终端无法识别，此时终端则直接通过第一应答内容进行回复，如“抱歉，我无法识别您的指令”等等，以提示用户重新输入语音指令。

而对于终端可以识别的清晰语音，则可以发送至服务器，使服务器进行进一步识别。

进一步，在将语音指令发送至服务器之后，还可以接收服务器基于语音指令返回的第二应答内容，其中，该第二应答内容为服务器解析出语音指令的参数与预先设置的指令库中的指令参数不一致时向终端返回的信息；例如，服务器从语音指令中未识别出指令参数，或者识别出部分指令参数，此时，基于识别结果，服务器无法确定出语音指令的颗粒度，更无法确定出响应内容，因此，可以向终端返回第二应答内容，此时，终端可以对第二应答内容进行播放，以提示用户持续输入与语音指令关联的语音信息；终端继续将语音信息返回至服务器，以使服务器基于语音信息明确语音指令的意图，并根据语音指令的颗粒度确定响应内容。进一步，在终端一侧，还可以进一步统计第二应答内容的播放次数，如果第二应答内容的播放次数达到预设的播放阈值，则获取第三应答内容；在第二区域显示第三应答内容的文本，以及，对第三应答内容的文本进行语音播放。

其中，本发明实施例中的第三应答内容，是在服务器多次提示用户输入与语音指令关联的语音信息之后仍然无法明确语音指令的意图时在终端一侧做出的回应，此时的回应可以与第一应答内容类似，如“抱歉，我无法识别您的指令”等等，也可以设置成其他的固定应答的内容，如，“我不知道该怎么答复您”等等，并在第二区域内显示相应的文本内容，以提示用户对于当前的语音指令无法进行识别，具体的第三应答内容可以根据实际使用情况进行设置，本发明实施例对此不进行限制。

进一步，为了便于理解，以用户输入的语音指令为“请查询今年3月的用电量”为例进行说明，此时，终端将语音指令发送至服务器之后，服务器可以识别出“用电量”这个指令参数，但是无法进一步识别查询谁的用电量，因此，可以返回第二应答内容，以通过多轮语音交互询问用户关于该意图对应的所有必要信息，如在第二区域内显示“请输入您想查询的楼宇名称”的文字并语音询问，直至收到所有的必要信息后生成意图明晰的操控指令。

需要说明的是，在输入的语音指令为诸如“查看2栋今年4月的用电量环比情况”这类针对同一个第三对象查询不同时间维度信息进行数据对比的查询指令时，服务器可以基于语音指令中的参数进行对应原始数据的获取，然后再经过相应计算公式处理，或者，不需要公式处理的可直接进行渲染，得到处理结果之后，可以确定与该语音指令对应的图形用户界面上的第一对象为“典型应用”，进行确定第一对象的响应内容，例如，响应内容包括控制第四区域调整该第一对象的响应动作，调取2栋在两个不同时间维度对应的原始数据，并对应进行对比处理的动作，将人机交互对话信息在第二区域内更新的动作，以及各个区域内包含对应图标对象动态滑入、高亮等显示响应动作，以及每个动作执行的先后顺序等等。

通过上述语音交互信息的方式，针对用户输入的意图模糊的对话场景，可以通过多轮交互明晰用户的真实意图，进而提高最终响应信息的准确率。同时也能避免每次语音指令时，都图形用户进行信息可视化处理，只在确定用户最终意图后进行一次查询任务，减少服务器压力。

进一步，在上述实施例的基础上，本发明实施例还提供了另一种语音控制终端界面的方法，该方法应用于服务器，该服务器与终端通信，且，终端用于提供图形用户界面，如图3所示的另一种语音控制终端界面的方法的流程图，该方法包括：

步骤S302，接收终端发送的语音指令；

步骤S304，解析语音指令，以根据语音指令的颗粒度确定响应内容；

其中，服务器中都预先存储有指令库，服务器在解析语音指令时，实际需要先将语音指令转化成对应的文本来进行识别，转化成文本的过程，可以在终端实现，也可以在服务器实现，具体以实际使用情况进行设置，本发明实施例对此不进行限制。

进一步，如果服务器解析出语音指令转化成对应的文本中，包括与指令库中一致的指令参数，则可以识别该语音指令，进行进一步解析，以得到响应内容。

进一步，本发明实施例中，上述响应内容包括第一区域中对应的第一对象、第一对象中关联的预设维度的信息，以及，图形用户界面中所显示的页面响应动作和页面响应动作的执行顺序，页面响应动作至少包括与语音指令对应的人机交互对话文本、人机交互对话文本中应答文本对应的语音播放动作，以及，初始化页面的切换显示动作；

步骤S306，生成包含响应内容的第一响应请求；

步骤S308，将第一响应请求返回至终端，以使终端提取响应内容，并控制图形用户界面按照响应内容进行展示。

进一步，上述步骤S304中，如果解析出语音指令的参数与预先设置的指令库中的指令参数不一致，即，语音指令的文本中包括的指令参数少于指令库中的某条指令的指令参数，或者，语音指令的文本中完全不包括任何的指令参数时，则向终端返回第二应答内容，以使终端对第二应答内容进行播放，以提示用户持续输入与语音指令关联的语音信息；然后接收终端返回的语音信息，直至语音指令的参数与预先设置的指令库中的指令参数一致，以解析出语音指令的清晰意图。

综上，基于本发明实施例的语音控制终端界面的方法，在面对海量数据时，可以通过对应的一个语音指令即可完成颗粒度较细的信息的查询，减少繁琐的查询操作，缩短端到端的响应时间，提价交互效率，且交互过程中通过语音指令控制交互界面，不仅解放了用户的双手，且不需要额外的设备进行辅助操控，便于操控交互界面的切换。

进一步，本发明实施例中，可以利用数字孪生技术在服务器的虚拟空间构建与物理实体完全等价的数字化模型，并将物理实体产生的信息数据一一映射至数字化模型中进行同步，基于物理实体的三维空间属性将海量数据进行空间对应显示，完整地透视物理实体中每个组成部分的实际运行情况。由此当识别到用户输入的语音指令中包含有与物理实体在虚拟数字化模型中对应唯一标识的信息时，可以通过物体全域标识实现虚实体对应物体的快速索引、定位及关联信息加载，并在显示界面以高亮、图像标注等不同突显形式进行虚拟实体的展现，便于用户能够更精准、更直观、更快速、更容易的理解自己所要查询的相关信息，且针对用户的应答信息均会语音播报，为用户提供视觉、听觉多重感官的交互体验，提升用户体验感。

进一步，对应于图1所示的语音控制终端界面的方法，本发明实施例还提供了一种语音控制终端界面的装置，该装置应用于终端，所述终端用于提供图形用户界面，且，所述终端与服务器通信，如图4所示的一种语音控制终端界面的装置的结构示意图，该装置包括以下结构：

初始模块40，用于通过所述图形用户界面显示目标场景的初始化页面，所述初始化页面包括第一区域和目标元素对象，所述第一区域设置有至少一个第一对象的控件，其中，所述第一对象用于表示通过当前所述终端可查询的所述目标场景中预设维度的信息；所述目标元素对象与所述终端的麦克风关联；

控制模块42，用于响应作用于所述目标元素对象的控制操作，以获取所述麦克风的访问权限，以及，在所述初始化页面显示第二区域；所述第二区域用于显示人机交互信息；

交互模块44，用于通过所述麦克风响应语音指令，将所述语音指令发送至所述服务器，以使所述服务器根据所述语音指令的颗粒度确定响应内容，其中，所述响应内容包括所述第一区域中对应的第一对象、所述第一对象中关联的预设维度的信息，以及，所述图形用户界面中所显示的页面响应动作和所述页面响应动作的执行顺序，所述页面响应动作至少包括与所述语音指令对应的人机交互对话文本、人机交互对话文本中应答文本对应的语音播放动作，以及，所述初始化页面的切换显示动作；

第一接收模块46，用于接收所述服务器发送的包含所述响应内容的第一响应请求；

展示模块48，用于提取所述响应内容，控制所述图形用户界面按照所述响应内容进行展示。

进一步，对应于上述图3所示的语音控制终端界面的方法，本发明实施例还提供了另一种语音控制终端界面的装置，该装置应用于服务器，所述服务器与终端通信，所述终端用于提供图形用户界面，如图5所示的另一种语音控制终端界面的装置的结构示意图，该装置包括以下结构：

第二接收模块50，用于接收所述终端发送的语音指令；

解析模块52，用于解析所述语音指令，以根据所述语音指令的颗粒度确定响应内容；其中，所述响应内容包括第一区域中对应的第一对象、所述第一对象中关联的预设维度的信息，以及，所述图形用户界面中所显示的页面响应动作和所述页面响应动作的执行顺序，所述页面响应动作至少包括与所述语音指令对应的人机交互对话文本、人机交互对话文本中应答文本对应的语音播放动作，以及，初始化页面的切换显示动作；

生成模块54，用于生成包含所述响应内容的第一响应请求；

返回模块56，用于将所述第一响应请求返回至所述终端，以使所述终端提取所述响应内容，并控制所述图形用户界面按照所述响应内容进行展示。

本发明实施例提供的语音控制终端界面的装置，与上述实施例提供的语音控制终端界面的方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

进一步，本发明实施例还提供了一种语音控制终端界面的系统，该系统包括终端和服务器，所述终端用于提供图形用户界面，且，所述终端与所述服务器通信；其中，该终端用于执行图1所示的方法；所述服务器用于执行图3所示的方法。

进一步，本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述方法的步骤。

进一步，本发明实施例还提供了一种电子设备的结构示意图，如图6所示，为该电子设备的结构示意图，其中，该电子设备包括处理器61和存储器60，该存储器60存储有能够被该处理器61执行的计算机可执行指令，该处理器61执行该计算机可执行指令以实现上述方法。

在图6示出的实施方式中，该电子设备还包括总线62和通信接口63，其中，处理器61、通信接口63和存储器60通过总线62连接。

其中，存储器60可能包含高速随机存取存储器（RAM，Random Access Memory），也可能还包括非不稳定的存储器（non-volatile memory），例如至少一个磁盘存储器。通过至少一个通信接口63（可以是有线或者无线）实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。总线62可以是ISA（IndustryStandard Architecture，工业标准体系结构）总线、PCI（Peripheral ComponentInterconnect，外设部件互连标准）总线或EISA（Extended Industry StandardArchitecture，扩展工业标准结构）总线等。所述总线62可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

处理器61可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器61中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器61可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital SignalProcessor，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器61读取存储器中的信息，结合其硬件完成前述方法。

本发明实施例所提供的语音控制终端界面的方法、装置及系统的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音控制终端界面的方法，其特征在于，所述方法应用于终端，所述终端用于提供图形用户界面，且，所述终端与服务器通信，所述方法包括：

通过所述图形用户界面显示目标场景的初始化页面，所述初始化页面包括第一区域和目标元素对象，所述第一区域设置有至少一个第一对象的控件，其中，所述第一对象用于表示通过当前所述终端可查询的所述目标场景中预设维度的信息；所述目标元素对象与所述终端的麦克风关联；

响应作用于所述目标元素对象的控制操作，以获取所述麦克风的访问权限，以及，在所述初始化页面显示第二区域；所述第二区域用于显示人机交互信息；

通过所述麦克风响应语音指令，将所述语音指令发送至所述服务器，以使所述服务器根据所述语音指令的颗粒度确定响应内容，其中，所述响应内容包括所述第一区域中对应的第一对象、所述第一对象中关联的预设维度的信息，以及，所述图形用户界面中所显示的页面响应动作和所述页面响应动作的执行顺序，所述页面响应动作至少包括与所述语音指令对应的人机交互对话文本、人机交互对话文本中应答文本对应的语音播放动作，以及，所述初始化页面的切换显示动作；

接收所述服务器发送的包含所述响应内容的第一响应请求；

提取所述响应内容，控制所述图形用户界面按照所述响应内容进行展示。

2.根据权利要求1所述的方法，其特征在于，所述图形用户界面的显示区包括第三区域和第四区域；

其中，所述第三区域位于所述图形用户界面的边缘位置，所述第四区域位于所述图形用户界面的中央位置；

控制所述图形用户界面按照所述响应内容进行展示的步骤，包括：

在所述第一区域中，按照预先设置的显示方式对所述第一对象进行突出显示；以及，

根据所述页面响应动作中包括的与所述语音指令对应的人机交互对话文本更新所述第二区域中显示的人机交互信息，并对所述人机交互对话文本中的应答文本进行语音播放；以及，

在所述第三区域显示至少一个第三对象，其中，所述第三对象为所述第一对象关联下一级的对象，且，所述第三对象用于标识在所述第一对象预设维度的信息中用户直接获得的信息；以及，

在所述第四区域显示所述第一对象中与所述语音指令的颗粒度对应的实景模型。

3.根据权利要求2所述的方法，其特征在于，所述语音指令包括语音查询指令或者语音导航指令其中之一；

在所述第四区域显示所述第一对象中与所述语音指令的颗粒度对应的实景模型的步骤，包括：

如果所述语音指令包括语音查询指令，则在所述第四区域显示所述第一对象中与所述语音查询指令相关的可视化查询结果；

如果所述语音指令包括语音导航指令，则在所述第一区域中按照预设的显示动作对所述语音导航指令对应的所述第一对象进行显示，以及，将所述第四区域显示的内容切换至所述语音导航指令对应的所述第一对象所标识的通过当前所述终端可查询的所述目标场景中预设维度的信息。

4.根据权利要求2所述的方法，其特征在于，所述第三区域设置有多个分割区域，每个所述分割区域用于显示同一属性信息的所述第三对象；

在所述第三区域显示至少一个第三对象的步骤，包括，

按照所述响应内容中记载的初始化页面的切换显示动作来控制所述第三对象进入所述分割区域的运行轨迹。

5.根据权利要求4所述的方法，其特征在于，在所述第三区域显示至少一个第三对象的步骤，还包括：

如果所述分割区域内的所述第三对象的数量超过预设目标个数，则在所述分割区域内，对所有的所述第三对象使用预设显示方式进行展示。

6.根据权利要求2所述的方法，其特征在于，在所述第四区域显示所述第一对象中与所述语音指令的颗粒度对应的实景模型的步骤，还包括：

如果所述语音指令的颗粒度对应的同一所述第三对象的数量大于1，则在所述第四区域中显示所述语音指令的颗粒度对应的实景模型，以及，在所述实景模型中对所有同一所述第三对象分别进行图号显示标记。

7.根据权利要求1所述的方法，其特征在于，通过所述麦克风响应语音指令，将所述语音指令发送至所述服务器的步骤，包括：

判断所述语音指令是否为可识别语音；

如果是，将所述语音指令发送至所述服务器；

如果否，获取预先设置的第一应答内容；

在所述第二区域显示所述第一应答内容的文本，以及，对所述第一应答内容的文本进行语音播放。

8.根据权利要求1或7所述的方法，其特征在于，所述方法还包括：

将所述语音指令发送至所述服务器之后，接收所述服务器基于所述语音指令返回的第二应答内容，其中，所述第二应答内容为所述服务器解析出所述语音指令的参数与预先设置的指令库中的指令参数不一致时向所述终端返回的信息；

对所述第二应答内容进行播放，以提示用户持续输入与所述语音指令关联的语音信息；

将所述语音信息返回至所述服务器，以使所述服务器基于所述语音信息明确所述语音指令的意图，并根据所述语音指令的颗粒度确定响应内容；以及，

统计所述第二应答内容的播放次数，如果所述第二应答内容的播放次数达到预设的播放阈值，则获取第三应答内容；

在所述第二区域显示所述第三应答内容的文本，以及，对所述第三应答内容的文本进行语音播放。

9.一种语音控制终端界面的装置，其特征在于，所述装置应用于终端，所述终端用于提供图形用户界面，且，所述终端与服务器通信，所述装置包括：

初始模块，用于通过所述图形用户界面显示目标场景的初始化页面，所述初始化页面包括第一区域和目标元素对象，所述第一区域设置有至少一个第一对象的控件，其中，所述第一对象用于表示通过当前所述终端可查询的所述目标场景中预设维度的信息；所述目标元素对象与所述终端的麦克风关联；

控制模块，用于响应作用于所述目标元素对象的控制操作，以获取所述麦克风的访问权限，以及，在所述初始化页面显示第二区域；所述第二区域用于显示人机交互信息；

交互模块，用于通过所述麦克风响应语音指令，将所述语音指令发送至所述服务器，以使所述服务器根据所述语音指令的颗粒度确定响应内容，其中，所述响应内容包括所述第一区域中对应的第一对象、所述第一对象中关联的预设维度的信息，以及，所述图形用户界面中所显示的页面响应动作和所述页面响应动作的执行顺序，所述页面响应动作至少包括与所述语音指令对应的人机交互对话文本、人机交互对话文本中应答文本对应的语音播放动作，以及，所述初始化页面的切换显示动作；

第一接收模块，用于接收所述服务器发送的包含所述响应内容的第一响应请求；

展示模块，用于提取所述响应内容，控制所述图形用户界面按照所述响应内容进行展示。

10.一种语音控制终端界面的系统，其特征在于，所述系统包括终端和服务器，所述终端用于提供图形用户界面，且，所述终端与所述服务器通信；

其中，所述终端用于执行权利要求1~8任一项所述的语音控制终端界面的方法。