CN110619878B

CN110619878B - 用于办公系统的语音交互方法和装置

Info

Publication number: CN110619878B
Application number: CN201910989648.9A
Authority: CN
Inventors: 刘凡超; 初敏
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2019-10-17
Filing date: 2019-10-17
Publication date: 2022-04-12
Anticipated expiration: 2039-10-17
Also published as: CN110619878A

Abstract

本发明公开用于办公系统的语音交互方法及装置，其中，一种用于办公系统的语音交互方法，包括：响应于经由智能音箱接收到用户的语音指令，识别并理解所述语音指令对应的意图；对所述意图进行类别判断，其中，所述类别包括办公流程；基于所述类别判断，进入与所述类别对应的流程处理并生成相应的处理结果，其中，所述流程处理包括办公系统的办公流程处理；将所述处理结果反馈给所述用户。本申请的方法和装置通过提供一种办公场景下的语音交互逻辑，可以使得在办公场景下也能更好的进行语音交互，更准确地执行用户的语音指令。

Description

用于办公系统的语音交互方法和装置

技术领域

本发明属于语音识别技术领域，尤其涉及用于办公系统的语音交互方法和装置。

背景技术

相关技术中，目前市场上已存在搭载智能对话交互系统的各种带屏音箱，带屏音箱如某讯叮当、某度在家、某米等，将已有的智能对话技术通过屏幕有效的展示出来，提供更优的信息交互体验，多用于娱乐和教育场景，用户直接使用大屏智能音箱可以进行听歌、查询天气、快递信息，日常闲聊、百科知识答疑等。

发明人在实现本申请的过程中发现，现有方案至少存在以下缺陷：现有技术的方案无法进行对话内容的个性化定制，无法和其他系统关联使用，也无法进一步的拓展使用场景，如进行智能办公、OA系统信息查询。

发明内容

本发明实施例提供一种用于办公系统的语音交互方法和装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种用于办公系统的语音交互方法，包括：响应于经由智能音箱接收到用户的语音指令，识别并理解所述语音指令对应的意图；对所述意图进行类别判断，其中，所述类别包括办公流程；基于所述类别判断，进入与所述类别对应的流程处理并生成相应的处理结果，其中，所述流程处理包括办公系统的办公流程处理；以及将所述处理结果反馈给所述用户。

第二方面，本发明实施例提供一种用于办公系统的语音交互装置，包括：接收模块，配置为响应于经由智能音箱接收到用户的语音指令，识别并理解所述语音指令对应的意图；判别模块，配置为对所述意图进行类别判断，其中，所述类别包括办公流程；处理模块，配置为基于所述类别判断，进入与所述类别对应的流程处理并生成相应的处理结果，其中，所述流程处理包括办公系统的办公流程处理；以及反馈模块，配置为将所述处理结果反馈给所述用户。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于办公系统的语音交互方法的步骤。

第四方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的用于办公系统的语音交互方法的步骤。

本申请的方法和装置提供的方案通过用于办公系统的语音交互装置采集用户的语音指令之后对其进行识别和理解以得到相应的意图，然后判断该意图的分类，如果是办公场景的意图，则可以到相应的办公系统进行处理，最后将相应的处理结果反馈给用户。从而本申请的方法通过提供一种办公场景下的语音交互逻辑，可以使得在办公场景下也能更好的进行语音交互，更准确地执行用户的语音指令。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种用于办公系统的语音交互方法的流程图；

图2为本发明一实施例提供的另一种用于办公系统的语音交互方法的流程图；

图3为本发明一实施例提供的又一种用于办公系统的语音交互方法的流程图；

图4为本发明一实施例提供的用户办公系统的语音交互方法的一具体实施例的原理示意图；

图5为本发明一实施例提供的一种用于办公系统的语音交互装置的框图；

图6是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本申请的用于办公系统的语音交互方法一实施例的流程图，本实施例的用于办公系统的语音交互方法可以适用于具备语音识别能力的终端、如智能语音电视、智能音箱、智能对话玩具以及其他现有的具备用于办公系统的语音交互能力的智能终端等。

如图1所示，在步骤101中，响应于经由智能音箱接收到用户的语音指令，识别并理解所述语音指令对应的意图；

在步骤102中，对所述意图进行类别判断，其中，所述类别包括办公流程；

在步骤103中，基于所述类别判断，进入与所述类别对应的流程处理并生成相应的处理结果，其中，所述流程处理包括办公系统的办公流程处理；

在步骤104中，将所述处理结果反馈给所述用户。

在本实施例中，对于步骤101，当用于办公系统的语音交互装置接收到用户的语音指令之后，语音交互装置对该语音指令所对应的意图进行识别和理解。由于用户办公系统的语音指令与一般日常生活中的语音指令可能会不太一样，因此可能需要对相应的办公场景的用户说法进行相应的定制，使得办公场景下的一些说法也能被准确地识别出来。比如“我想从明天开始请三天假”，这种说法日常生活中可能会被定义为普通的交谈，但是在办公系统上是会有相应的处理的，例如可能是先登录到办公系统的请假界面，然后填写请假的时间，起始时间是明天的日期，结束时间是明天的日期加上三天，最后请用户确认是否按照该日期请假即可。

之后，对于步骤102，用于办公系统的语音交互装置对意图进行分类判断，如果发现该指令是用于办公场景的指令，例如是之前定制的指令，则可以将该意图分类到办公流程。如果不是的话，可以分类到其他类别然后进行相应的处理。然后，对于步骤103，基于分类判断，进入与所述类别对应的流程处理并生成相应的处理结果，其中，所述流程处理包括办公系统的办公流程处理。因为对于不同的场景，会有不同的处理流程，因此先分类别再进行相应的处理可以使得处理结果更加地精准，更加符合用户的期望。

最后，对于步骤104，用于办公系统的语音交互装置将处理结果反馈给用户，例如可以通过语音反馈，办公场景的智能音箱一般都有屏幕，因此也可以通过屏幕反馈。例如还是之前请假的例子，填写好相关信息之后在屏幕上显示和/或语音告知用户请用户确认是否按照填写的信息请假，如果用户确认可以就可以提交相应的请假请求至办公系统。

本实施例的方法通过用于办公系统的语音交互装置采集用户的语音指令之后对其进行识别和理解以得到相应的意图，然后判断该意图的分类，如果是办公场景的意图，则可以到相应的办公系统进行处理，最后将相应的处理结果反馈给用户。从而本申请的方法通过提供一种办公场景下的语音交互逻辑，可以使得在办公场景下也能更好的进行语音交互，更准确地执行用户的语音指令。

进一步参考图2，其示出了本申请用于办公系统的语音交互方法的另一实施例的流程图。该流程图主要是对图1中步骤101之前的步骤进一步限定的步骤的流程。

如图2所示，在步骤201中，将所述智能音箱经由机器人流程自动化与所述用户的办公设备建立连接；

在步骤202中，将所述智能音箱通过所述办公系统的应用程序接口与所述办公系统建立连接。

在本实施例中，对于步骤201，将智能音箱与办公设备通过机器人流程自动化(RPA，Robotic Process Automation)建立连接，使得通过智能音箱的指令能够控制办公设备。对于步骤202，将智能音箱通过办公系统的应用程序接口(API，applicationprogramming interface)与办公系统打通建立连接，使得智能音箱采集的语音指令能够作用于办公系统，有权限对办公系统进行相应的操作。需要说明的是，以上虽然采用步骤的顺序对以上内容进行了限定，但该顺序并不用于限制必须按照该顺序执行，还可以按照相反的顺序执行，本申请在此没有限制。

本实施例的方法通过先使得智能音箱分别和办公设备以及办公系统打通，使得之后智能音箱采集的语音指令能对办公设备和办公系统进行相应的控制和操作，从而更好的进行办公场景下的语音交互。

进一步参考图3，其示出了本申请用于办公系统的语音交互方法的又一实施例的流程图。该流程图主要是对图1中步骤103的流程中类别为办公流程时进一步限定的步骤的流程。

如图3所示，在步骤301中，基于所述意图，生成与所述意图对应的至少一个用于所述办公系统的办公指令；

在步骤302中，向所述办公系统发送所述办公指令以控制所述办公系统按顺序执行对应的操作。

在本实施例中，对于步骤301，用于办公系统的语音交互装置根据理解出来的用户意图生成与该用户意图对应的至少一个用于该办公系统的办公指令，例如，对于请假这个意图，需要填写请假的起始时间和请假的结束时间，因此需要从用户的意图里面提取出请假的起始时间和请假的结束时间，如果用户意图中没有明确请假的起始时间和结束时间，例如用户只说了“我想请假”，则还需要通过向用户提问的方式获取请假的起始时间和请假的结束时间才能完成请假的填写。该步骤是在与办公系统打通之后才能实现的，因为打通之后才能了解办公系统对于某一个意图所需的参数，才能更好的从用户处采集相应的参数，从而完成相应的办公流程。由于每个公司的办公系统都有可能存在各种差异，而利用API与办公系统进行打通这种方式也是很常见的，不同的是需要通过语音交互的方式实现整个流程，首先可能需要从用户的意图中提取出可用信息，如果信息不完整，则需要通过语音交互的方式从用户处获得，在此不再赘述。

之后，在步骤302中，语音交互装置向办公系统发送所述办公指令以控制所述办公系统按顺序执行对应的操作，通过执行一系列的指令完成相应的办公流程，实现通过语音控制办公系统。

本实施例的方法通过对于意图分类为办公流程时，进一步将意图拆解为相应的至少一个办公指令，之后通过该至少一个办公指令控制办公系统执行相应的办公流程，可以使得在办公场景下用户能够通过语音交互的方式控制办公系统执行相应的办公流程完成语音办公。

在一些可选的实施例中，上述方法还包括：若所述办公指令中包含与其他用户的交互指令，经由所述智能音箱与所述办公系统的连接将所述交互指令通过与所述其他用户关联的智能音箱反馈给所述其他用户。从而在需要与其他用户交互的情况下，例如视频会议，可以先通过办公系统将相关的交互指令传达给其他用户，例如办公系统如果绑定了相关的视频会议软件的话，可以在该视频会议软件上与其他用户发起视频会议请求，之后其他用户的智能音箱就会接收到该会议请求进行语音播报和展示，然后该其他用户可以通过语音控制同意该视频会议请求，从而通过语音交互完成视频会议从请求到同意开始的过程。

在一些可选的实施例中，上述类别还包括智能问答和电脑指令操控。从而用户在办公场景下除了能够通过语音控制对办公系统进行操作，还能通过语音控制进行智能问答以及进行对办公设备的电脑指令操控，例如打开某个软件等操作。

在一些可选的实施例中，上述方法还包括：基于所述办公系统的办公指令对用户说法进行定制以使得所述用户语音指令能被识别成相应的意图。通过根据办公系统的办公指令可能会涉及的一些用户说法进行定制，使得各种不同的针对办公系统的办公指令的说法都能被很好地识别和理解，从而更准确地作用于办公系统，用户体验更好。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

发明人在实现本申请的过程中发现，现有技术的缺陷主要是由于以下内容导致的：现有技术的方案多用于娱乐和教育场景，用户直接使用大屏智能音箱可以进行听歌、查询天气、快递信息，日常闲聊、百科知识答疑等，但无法进行对话内容的个性化定制和其他系统关联使用，进一步的拓展使用场景，如进行智能办公、OA系统信息查询。

本申请的方案提出了一种用于办公系统的语音交互装置。

本发明提出一种基于对话内容可定制的对话系统(会话精灵)，将该系统集成在带屏音箱上，形成一个内容可定制化的带屏智能音箱，同时将该系统通过RPA与用户的电脑系统连通，这样用户可直接通过语音控制电脑进行日常简单的办公，也可通过API与企业用户的OA系统连通，这样企业员工可在带屏智能音箱上直接进行OA办公流程处理、员工之间的办公信息沟通。

目前市面上的基本上没有带屏智能音箱能支持业务内容定制化，同时带屏智能音箱作为独立的系统单独使用运行，主要用于娱乐和教育场景。

本发明的技术创新点：

将可定制业务对话内容的会话精灵集成开发到带屏音箱内。通过带屏音箱的安卓系统api接口与会话精灵进行连通，这样安卓系统拾取的声音文件信息传送给会话精灵进行处理，处理后的结果由带屏音箱进行展示和交互。

将带屏音箱系统通过API与企业的OA系统连接起来，甚至还可以在带屏音箱上增加视频会议app等，用户可以直接通过语音，带屏音箱拾取声音通过API传送给会话精灵的NLU进行自然语言的意图处理。如用户说“我想请年假”，这样带屏音箱可以直接打开OA系统上请年假的功能模块，用户直接进行填写，或者用户直接说“我想从明天开始请三天年假”，带屏音箱进行中的会话精灵进行NLU处理后，将日期、请假天数意图识别出来，填写到OA系统工单里，待用户确认后进行提交处理。用户还可以直接说“我现在要和张三开视频会议”，张三桌上的带屏智能音箱会被触发提醒，待张三确认后，两人可直接进行视频会议对接。

将带屏音箱系统通过RPA与企业员工的个人电脑绑定连接，这样员工可直接通过桌上的音箱控制电脑，进行智能化办公。例如员工对着音箱说“我想查下今天的邮件”，电脑会自动打开邮件软件，搜索今天的邮件内容；或者员工说“我想查看北京的房价”，电脑能自动打开浏览器搜索北京的房价地图。

通过带屏智能音箱与办公系统的链接，直接实现智能化办公的场景，满足企业员工需求。

图4示出了整体系统的相互链接示意图。如图4所示，用户直接与带屏音箱进行语音或触屏的交互，会话精灵识别意图后进行信息分发，判断执行什么事项如智能问答、OA办公流程还是电脑指令操控等，完成智能化的便捷办公。

请参考图5，其示出了本发明一实施例提供的一种用于办公系统的语音交互装置的框图。

如图5所示，用于办公系统的智能语音交互装置500，包括接收模块510、判别模块520、处理模块530和反馈模块540。

其中，接收模块510，配置为响应于经由智能音箱接收到用户的语音指令，识别并理解所述语音指令对应的意图；判别模块520，配置为对所述意图进行类别判断，其中，所述类别包括办公流程；处理模块530，配置为基于所述类别判断，进入与所述类别对应的流程处理并生成相应的处理结果，其中，所述流程处理包括办公系统的办公流程处理；以及反馈模块540，配置为将所述处理结果反馈给所述用户。

在一些可选的实施例中，上述装置还包括定制模块(图中未示出)，配置为基于所述办公系统的办公指令对用户说法进行定制以使得所述用户语音指令能被识别成相应的意图。

应当理解，图5中记载的诸模块与参考图1、图2和图3中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图5中的诸模块，在此不再赘述。

值得注意的是，本申请的实施例中的模块并不用于限制本申请的方案，例如分词模块可以描述为将接收的语句文本分为说法和至少一个词条的模块。另外，还可以通过硬件处理器来实现相关功能模块，例如分词模块也可以用处理器实现，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的用于办公系统的语音交互方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

响应于经由智能音箱接收到用户的语音指令，识别并理解所述语音指令对应的意图；

对所述意图进行类别判断，其中，所述类别包括办公流程；

基于所述类别判断，进入与所述类别对应的流程处理并生成相应的处理结果，其中，所述流程处理包括办公系统的办公流程处理；

将所述处理结果反馈给所述用户。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语音交互装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至语音识别装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项语音识别方法。

图6是本发明实施例提供的电子设备的结构示意图，如图6所示，该设备包括：一个或多个处理器610以及存储器620，图6中以一个处理器610为例。语音识别方法的设备还可以包括：输入装置630和输出装置640。处理器610、存储器620、输入装置630和输出装置640可以通过总线或者其他方式连接，图6中以通过总线连接为例。存储器620为上述的非易失性计算机可读存储介质。处理器610通过运行存储在存储器620中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例语音识别方法。输入装置630可接收输入的数字或字符信息，以及产生与语音识别装置的用户设置以及功能控制有关的键信号输入。输出装置640可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于用于办公系统的语音交互装置中，包括：

至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

对所述意图进行类别判断，其中，所述类别包括办公流程；

将所述处理结果反馈给所述用户。

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用于办公系统的智能语音交互方法，其中，所述办公系统为OA系统，所述方法包括：

对所述意图进行类别判断，其中，所述类别包括办公流程、智能问答和电脑指令操控，所述办公流程为OA流程；

将所述处理结果反馈给所述用户。

2.根据权利要求1所述的方法，其中，在所述响应于经由音箱接收用户的语音指令之前，所述方法还包括：

将所述智能音箱经由机器人流程自动化与所述用户的办公设备建立连接；

将所述智能音箱通过所述办公系统的应用程序接口与所述办公系统建立连接。

3.根据权利要求2所述的方法，其中，若所述类别为办公流程，所述基于所述类别判断，进入与所述类别对应的流程处理并生成相应的处理结果包括：

基于所述意图，生成与所述意图对应的至少一个用于所述办公系统的办公指令；

向所述办公系统发送所述办公指令以控制所述办公系统按顺序执行对应的操作。

4.根据权利要求3所述的方法，其中，所述方法还包括：

若所述办公指令中包含与其他用户的交互指令，经由所述智能音箱与所述办公系统的连接将所述交互指令通过与所述其他用户关联的智能音箱反馈给所述其他用户。

5.根据权利要求1所述的方法，其中，所述方法还包括：

基于所述办公系统的办公指令对用户说法进行定制以使得所述用户语音指令能被识别成相应的意图。

6.一种用于办公系统的智能语音交互装置，其中，所述办公系统为OA系统，包括：

接收模块，配置为响应于经由智能音箱接收到用户的语音指令，识别并理解所述语音指令对应的意图；

判别模块，配置为对所述意图进行类别判断，其中，所述类别包括办公流程、智能问答和电脑指令操控，所述办公流程为OA流程；

处理模块，配置为基于所述类别判断，进入与所述类别对应的流程处理并生成相应的处理结果，其中，所述流程处理包括办公系统的办公流程处理；

反馈模块，配置为将所述处理结果反馈给所述用户。

7.根据权利要求6所述的装置，其中，还包括：

定制模块，配置为基于所述办公系统的办公指令对用户说法进行定制以使得所述用户语音指令能被识别成相应的意图。

8.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至5任一项所述方法的步骤。

9.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至5任一项所述方法的步骤。