CN110660391A

CN110660391A - 基于rpa接口实现大屏终端语音控制的定制方法及系统

Info

Publication number: CN110660391A
Application number: CN201910931253.3A
Authority: CN
Inventors: 刘博�
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2019-09-29
Filing date: 2019-09-29
Publication date: 2020-01-07

Abstract

本发明实施例提供一种基于RPA接口实现大屏终端语音控制的定制方法。该方法包括：获取大屏操作系统的多个控制指令信息；基于多个控制指令信息和对应于多个控制指令信息的样本语料，训练用户意图确定模型；获取大屏操作系统的页面中的多个元素信息；从多个控制指令信息中，确定与多个元素信息中的元素信息相匹配的控制指令信息；通过RPA接口将所确定的相互匹配的控制指令信息和元素信息进行集成，以实现大屏操作系统的控制。本发明实施例还提供一种基于RPA接口实现大屏终端语音控制的定制系统。本发明实施例通过软硬一体大屏终端+RPA方式实现大屏语音操控，快速升级大屏交互体验，为用户提供智能化、效率极高的大屏操控体验。

Description

基于RPA接口实现大屏终端语音控制的定制方法及系统

技术领域

本发明涉及智能语音对话领域，尤其涉及一种基于RPA接口实现大屏终端语音控制的定制方法及系统。

背景技术

为了在企业场景中，充分体现信息呈现的优势，比如带领客户到公司内部的技术展览区进行参观介绍，通常技术展览区内会摆放着一个超大屏幕的智能终端，通过控制智能终端播放或执行某些任务向客户进行信息展示，可以将所要表达的内容通过大屏幕的智能设备充分展现出来。虽然投屏的形式会比大屏幕的智能设备所展现的区域要大，在这种场景或者需要客户亲自体验的场景，例如，企业、银行等，通常会避免使用投屏的形式，投屏会影响用户观感的体验，并且这种信息呈现通常客户是无法操控的，投屏的形式并不适用于这些场景。因此，对于这些特殊的使用场景还是会使用这种大屏终端设备。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

在大屏终端设备的使用中，绝大多数都是通过“鼠标、键盘、触屏”的操作方式进行交互，为了保障鼠标的精准度，就会使得鼠标的移动速度不会过快，在这硕大的屏幕中鼠标的操作效率相对低下。对于触屏这种操作，个人使用相对还好，但是如果需要向客户展示信息，那么操作屏幕的人使用起来就十分麻烦。对于现有的大屏终端，并不都具备语音交互功能，而接入语音交互大屏，也需要进行较大人力投入的二次系统开发，系统升级时间和成本都较大。

发明内容

为了至少解决现有技术中大屏终端操作效率低下，接入语音交互大屏，需要较大人力投入的二次系统开发，系统升级时间和成本都较大的问题。

第一方面，本发明实施例提供一种基于RPA接口实现大屏终端语音控制的定制方法，包括：

获取大屏操作系统的多个控制指令信息；

基于所述多个控制指令信息和对应于所述多个控制指令信息的样本语料，训练用户意图确定模型，以用于当接收到用户语音时确定用户意图；

获取所述大屏操作系统的页面中的多个元素信息；

从所述多个控制指令信息中，确定与所述多个元素信息中的元素信息相匹配的控制指令信息；

通过RPA接口将所确定的相互匹配的控制指令信息和元素信息进行集成，以用于当进行语音控制时，根据所述用户意图确定模型所确定的用户意图调用所述相互匹配的控制指令信息和元素信息实现所述大屏操作系统的控制。

第二方面，本发明实施例提供一种基于RPA接口实现大屏终端语音控制方法，包括：

接收用户输入语音数据；

根据所述语音数据确定用户的当前用户意图；

查询预先在对话管理配置中存储的用户意图-控制指令映射关系，以确定对应于所述当前用户意图的当前控制指令；

获取预先存储的对应于所述当前控制指令的系统操作路径；

基于预先配置的RPA接口，根据所述当前控制指令和所述系统操作路径控制所述大屏操作系统执行相应操作。

第三方面，本发明实施例提供一种基于RPA接口实现大屏终端语音控制的定制系统，包括：

指令信息获取程序模块，用于获取大屏操作系统的多个控制指令信息；

模型训练程序模块，用于基于所述多个控制指令信息和对应于所述多个控制指令信息的样本语料，训练用户意图确定模型，以用于当接收到用户语音时确定用户意图；

元素信息获取程序模块，用于获取所述大屏操作系统的页面中的多个元素信息；

控制指令确定程序模块，用于从所述多个控制指令信息中，确定与所述多个元素信息中的元素信息相匹配的控制指令信息；

定制程序模块，用于通过RPA接口将所确定的相互匹配的控制指令信息和元素信息进行集成，以用于当进行语音控制时，根据所述用户意图确定模型所确定的用户意图调用所述相互匹配的控制指令信息和元素信息实现所述大屏操作系统的控制。

第四方面，本发明实施例提供一种基于RPA接口实现大屏终端语音控制系统，包括：

语音接收程序模块，用于接收用户输入语音数据；

意图确定程序模块，用于根据所述语音数据确定用户的当前用户意图；

控制指令确定程序模块，用于查询预先在对话管理配置中存储的用户意图-控制指令映射关系，以确定对应于所述当前用户意图的当前控制指令；

系统操作路径确定程序模块，用于获取预先存储的对应于所述当前控制指令的系统操作路径；

控制程序模块，用于基于预先配置的RPA接口，根据所述当前控制指令和所述系统操作路径控制所述大屏操作系统执行相应操作。

第五方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的基于RPA接口实现大屏终端语音控制的定制方法以及基于RPA接口实现大屏终端语音控制方法的步骤。

第六方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的基于RPA接口实现大屏终端语音控制的定制方法以及基于RPA接口实现大屏终端语音控制方法的步骤。

本发明实施例的有益效果在于：通过软硬一体大屏终端+RPA方式实现大屏语音操控，能以低成本低人力投入低周期的方式，快速升级大屏交互体验，并且对于大屏终端的配置要求极低，为用户提供智能化、效率极高的大屏操控体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种基于RPA接口实现大屏终端语音控制的定制方法的流程图；

图2是本发明一实施例提供的一种基于RPA接口实现大屏终端语音控制方法的流程图；

图3是本发明一实施例提供的一种基于RPA接口实现大屏终端语音控制的定制系统的结构示意图；

图4是本发明一实施例提供的一种基于RPA接口实现大屏终端语音控制系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种基于RPA接口实现大屏终端语音控制的定制方法的流程图，包括如下步骤：

S11：获取大屏操作系统的多个控制指令信息；

S12：基于所述多个控制指令信息和对应于所述多个控制指令信息的样本语料，训练用户意图确定模型，以用于当接收到用户语音时确定用户意图；

S13：获取所述大屏操作系统的页面中的多个元素信息；

S14：从所述多个控制指令信息中，确定与所述多个元素信息中的元素信息相匹配的控制指令信息；

S15：通过RPA接口将所确定的相互匹配的控制指令信息和元素信息进行集成，以用于当进行语音控制时，根据所述用户意图确定模型所确定的用户意图调用所述相互匹配的控制指令信息和元素信息实现所述大屏操作系统的控制。

在本实施方式中，通过对ASR自动语音识别、NLU自然语言处理、DM对话管理控制以及RPA接口组装调试，整合为大屏语音控制模块。同时，大屏终端区别于现有的计算机，升级改造相对困难，并且控制指令也相对较少。

对于步骤S11，客户在基于现有的系统，根据其自身的需求，或者一些功能期望，梳理出多个大屏操作系统的控制指令，所述控制指令信息包括控制指令和相应的指令系统操作路径，获取了所述大屏控制指令对应的指令系统操作路径，才可以实现对大屏终端的控制，从而大屏语音控制模块获取客户梳理出的这些多个大屏的控制指令信息。

对于步骤S12，根据所述多个控制指令信息，以及对应于所述多个控制指令信息的样本语料，例如，大屏终端有天气查询的控制指令，对应于“天气查询”的样本语料可以包括“明天天气怎么样”，“今天会下雨嘛”，“什么时候晴天”“天气如何”这类的样本语料，进行用户意图确定模型训练。其中，所述用户意图确定模型包括语音识别模型和自然语言理解模型从而可以根据用户输入的语音中判断出用户的意图，进而确定所要调用的控制指令。

对于步骤S13，获取所述大屏操作系统(也就是大屏终端)中页面的多个元素信息，例如，可以将本方法所述的大屏语音控制模块与大屏操作系统进行连接，通过实时接收屏幕的信息进行获取元素信息，也可以将大屏操作系统个元素的位置信息输入至大屏语音控制模块，进行多个元素信息的获取。

作为一种实施方式，所述元素信息包括页面元素和所述页面元素的位置信息，所述页面元素至少包括：超链接元素、按钮元素、文档元素、图片元素。

例如这些页面元素包括，大屏页面中的超链接、各功能模块的按钮、展示的文档或者图片。同时还要确定出这些超链接、各功能模块的按钮、文档、图片所在的大屏页面中的位置。

对于步骤S14，将在步骤S12中确定的多个控制指令信息，以及在步骤S13中确定的元素信息进行匹配。将各控制指令与超链接、各功能模块按钮进行匹配，确定出哪一个按钮对应哪一条控制指令。

对于步骤S15，所述RPA(Robotic Process Automation，机器人流程自动化)可以按照事先约定好的规则，进行鼠标点击、敲击键盘、数据处理等操作。借助上述步骤中确定的互相匹配的控制信息指令和元素信息，通过语音控制替换手动的操作，从而完成对大屏终端的大屏终端语音控制的定制。

通过该实施方式可以看出，通过软硬一体大屏终端+RPA方式实现大屏语音操控，能以低成本低人力投入低周期的方式，快速升级大屏交互体验，并且对于大屏终端的配置要求极低，为用户提供智能化、效率极高的大屏操控体验。

作为一种实施方式，在本实施例中，所述方法还包括：用于配置所述用户意图调用所述相互匹配的控制指令信息的对话管理配置框；

在所述对话管理配置框中提供用户意图选择列表，以及与所述用户意图相互匹配的控制指令输入文本框。

在本实施方式中，为了实现定制化，为用户提供了对话管理配置框，通过用户在所述用户意图选择列表与相互匹配的控制指令输入文本框进行专属定制。通过接收用户在所述用户意图选择列表的选择以及控制指令输入文本框的输入，为大屏终端提供定制的操作，提高了大屏操作的体验。

作为一种实施方式，在本实施例中，所述对话管理配置框还包括：意图条件添加按钮，用于配置命中所述意图后跳转至控制指令的与/或条件。

为了实现一些较高要求的操作定制，在用户意图选择列表与相互匹配的控制指令输入文本框的基础上，提供了与/或条件的添加按钮，用户通过使用点击按钮后提供的界面，对语音大屏操控进行高端定制，进一步提高了大屏操作的体验。

如图2所示为本发明一实施例提供的一种基于RPA接口实现大屏终端语音控制方法的流程图，包括如下步骤：

S21：接收用户输入语音数据；

S22：根据所述语音数据确定用户的当前用户意图；

S23：查询预先在对话管理配置中存储的用户意图-控制指令映射关系，以确定对应于所述当前用户意图的当前控制指令；

S24：获取预先存储的对应于所述当前控制指令的系统操作路径；

S25：基于预先配置的RPA接口，根据所述当前控制指令和所述系统操作路径控制所述大屏操作系统执行相应操作。

在本实施方式中，在大屏终端语音控制定制完成后，进行语音控制。在使用时与需要控制的大屏终端进行预先连接，这样才可以对大屏终端进行控制。

对于步骤S21，接收用户输入的语音数据，例如，采集用户说的“打开**程序”、“放大”、“下一页”等。

对于步骤S22，根据所述语音数据确定用户当前的用户意图，由于已经预先训练了包含语音识别模型和自然语言理解模型的用户意图确定模型，在这步中，可以根据识别出用户输入语音数据中的用户的意图。

对于步骤S23，查询预先在对话管理配置中存储的用户意图-控制指令的映射关系，由于在对话管理配置中已经预先配置好相应的映射关系，可以直接确定出用户当前意图对应的当前控制指令。采用语音→意图→控制指令，通过意图在中间的承接，可以使控制指令对应更多的语音，让用户说话更加自由，提高用户的体验。

对于步骤S24，在步骤S23中已经确定出控制指令，获取出大屏终端的这个控制指令的系统操作路径，由于需要控制大屏终端，就需要可以操控大屏终端的指令，而这些操作指令对应的调用函数存储在大屏终端的存储器中。通过获取预先存储的对应于所述当前控制指令的系统操作路径，可以得知用户意图对应的控制指令在大屏终端的系统存储的操作路径在何处。

对于步骤S25，基于预先配置的RPA接口，根据确定的当前控制指令和所述系统操作路径，进行流程自动化的控制，执行相应的操作，例如，点击大屏终端页面中的超链接或某一按钮或文档或图片。

通过该实施方式可以看出，通过使用基于RPA接口实现大屏终端语音控制的定制过的大屏终端，提高了用户的操作效率。

如图3所示为本发明一实施例提供的一种基于RPA接口实现大屏终端语音控制的定制系统的结构示意图，该系统可执行上述任意实施例所述的基于RPA接口实现大屏终端语音控制的定制方法，并配置在终端中。

本实施例提供的一种基于RPA接口实现大屏终端语音控制的定制系统包括：指令信息获取程序模块11，模型训练程序模块12，元素信息获取程序模块13，控制指令确定程序模块14和定制程序模块15。

其中，指令信息获取程序模块11用于获取大屏操作系统的多个控制指令信息；模型训练程序模块12用于基于所述多个控制指令信息和对应于所述多个控制指令信息的样本语料，训练用户意图确定模型，以用于当接收到用户语音时确定用户意图；元素信息获取程序模块13用于获取所述大屏操作系统的页面中的多个元素信息；控制指令确定程序模块14用于从所述多个控制指令信息中，确定与所述多个元素信息中的元素信息相匹配的控制指令信息；定制程序模块15用于通过RPA接口将所确定的相互匹配的控制指令信息和元素信息进行集成，以用于当进行语音控制时，根据所述用户意图确定模型所确定的用户意图调用所述相互匹配的控制指令信息和元素信息实现所述大屏操作系统的控制。

如图4所示为本发明一实施例提供的一种基于RPA接口实现大屏终端语音控制系统的结构示意图，该系统可执行上述任意实施例所述的基于RPA接口实现大屏终端语音控制方法，并配置在终端中。

本实施例提供的一种基于RPA接口实现大屏终端语音控制系统包括：语音接收程序模块21，意图确定程序模块22，控制指令确定程序模块23，系统操作路径确定程序模块24和控制程序模块25。

其中，语音接收程序模块21用于接收用户输入语音数据；意图确定程序模块22用于根据所述语音数据确定用户的当前用户意图；控制指令确定程序模块23用于查询预先在对话管理配置中存储的用户意图-控制指令映射关系，以确定对应于所述当前用户意图的当前控制指令；系统操作路径确定程序模块24用于获取预先存储的对应于所述当前控制指令的系统操作路径；控制程序模块25用于基于预先配置的RPA接口，根据所述当前控制指令和所述系统操作路径控制所述大屏操作系统执行相应操作。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的基于RPA接口实现大屏终端语音控制的定制方法以及基于RPA接口实现大屏终端语音控制方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

获取大屏操作系统的多个控制指令信息；

获取所述大屏操作系统的页面中的多个元素信息；

作为另一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

接收用户输入语音数据；

根据所述语音数据确定用户的当前用户意图；

获取预先存储的对应于所述当前控制指令的系统操作路径；

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的基于RPA接口实现大屏终端语音控制的定制方法以及基于RPA接口实现大屏终端语音控制方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的基于RPA接口实现大屏终端语音控制的定制方法以及基于RPA接口实现大屏终端语音控制方法的步骤。

本申请实施例的客户端以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于RPA接口实现大屏终端语音控制的定制方法，包括：

获取大屏操作系统的多个控制指令信息；

获取所述大屏操作系统的页面中的多个元素信息；

2.根据权利要求1所述的方法，其中，所述方法还包括：用于配置所述用户意图调用所述相互匹配的控制指令信息的对话管理配置框；

3.根据权利要求2所述的方法，其中，所述对话管理配置框还包括：意图条件添加按钮，用于配置命中所述意图后跳转至控制指令的与/或条件。

4.根据权利要求1所述的方法，其中，所述用户意图确定模型包括语音识别模型和自然语言理解模型。

5.根据权利要求1所述的方法，其中，所述控制指令信息包括控制指令和相应的指令系统操作路径；

所述元素信息包括页面元素和所述页面元素的位置信息，所述页面元素至少包括：超链接元素、按钮元素、文档元素、图片元素。

6.一种基于RPA接口实现大屏终端语音控制方法，包括：

接收用户输入语音数据；

根据所述语音数据确定用户的当前用户意图；

获取预先存储的对应于所述当前控制指令的系统操作路径；

7.一种基于RPA接口实现大屏终端语音控制的定制系统，包括：

8.一种基于RPA接口实现大屏终端语音控制系统，包括：

语音接收程序模块，用于接收用户输入语音数据；

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-6中任一项所述方法的步骤。