CN108597509A

CN108597509A - 智能语音交互实现方法、装置、计算机设备及存储介质

Info

Publication number: CN108597509A
Application number: CN201810291735.2A
Authority: CN
Inventors: 杨鹏
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-03-30
Filing date: 2018-03-30
Publication date: 2018-09-28

Abstract

本发明公开了智能语音交互实现方法、装置、计算机设备及存储介质，其中方法包括：获取来自智能语音设备的用户query，所述query为用户与智能语音设备进行语音交互过程中输入的query；确定出query对应的对话场景；按照对话场景对应的场景对话应答策略，生成应答语音，并将应答语音返回给智能语音设备进行播放。应用本发明所述方案，对对话场景进行区分，根据对话场景的不同，分别使用不同的场景对话应答策略，从而表达合适的语音人格，使得语音交互更加感性、拟人、智能化，为用户带来更加符合人类对话习惯的交互体验等。

Description

智能语音交互实现方法、装置、计算机设备及存储介质

【技术领域】

本发明涉及计算机应用技术，特别涉及智能语音交互实现方法、装置、计算机设备及存储介质。

【背景技术】

智能语音交互是基于语音输入的新一代交互模式，通过说话就可以得到反馈结果。随着技术的发展和完善，智能语音设备(如智能音箱)越来越普及，得到了越来越广泛的应用。

当前的语音交互对话形式，尽管通过人工预先编辑应答格式，改善音色等，从表面上使得对话更接近人类对话，具备一定亲和感。但还是典型的一刀切，基于云端预置的一套规则，召回相应的应答语音，对话僵硬机械，与人类对话习惯差距明显，用户没有代入感，只能满足简单的你问我答，无法满足更高级的人机智能语音对话要求。

【发明内容】

有鉴于此，本发明提供了智能语音交互实现方法、装置、计算机设备及存储介质。

具体技术方案如下：

一种智能语音交互实现方法，包括：

获取来自智能语音设备的用户query，所述query为用户与所述智能语音设备进行语音交互过程中输入的query；

确定出所述query对应的对话场景；

按照所述对话场景对应的场景对话应答策略，生成应答语音，并将所述应答语音返回给所述智能语音设备进行播放。

根据本发明一优选实施例，所述确定出所述query对应的对话场景包括：

针对每次获取到的query，分别确定出所述query对应的对话场景。

根据本发明一优选实施例，所述分别确定出所述query对应的对话场景包括：

根据每次获取到的query，确定出所述query对应的对话场景；

或者，根据每次获取到的query以及所述query之前的N个query，确定出所述query对应的对话场景，所述N为正整数。

根据本发明一优选实施例，所述对应的对话场景包括：预先定义的至少两个对话场景中的一个；

针对每个对话场景，分别设置有对应的场景对话应答策略。

一种智能语音交互实现方法，包括：

获取语音交互过程中用户输入的query，将所述query发送给云端服务器，以便所述云端服务器确定出所述query对应的对话场景，并按照所述对话场景对应的场景对话应答策略，生成应答语音；

获取来自所述云端服务器的所述应答语音，并进行播放。

针对每个对话场景，分别设置有对应的场景对话应答策略。

一种智能语音交互实现装置，包括：第一获取单元、场景确定单元以及应答生成单元；

所述第一获取单元，用于获取来自智能语音设备的用户query，所述query为用户与所述智能语音设备进行语音交互过程中输入的query；

所述场景确定单元，用于确定出所述query对应的对话场景；

所述应答生成单元，用于按照所述对话场景对应的场景对话应答策略，生成应答语音，并将所述应答语音返回给所述智能语音设备进行播放。

根据本发明一优选实施例，所述场景确定单元针对每次获取到的query，分别确定出所述query对应的对话场景。

根据本发明一优选实施例，所述场景确定单元根据每次获取到的query，确定出所述query对应的对话场景；

或者，所述场景确定单元根据每次获取到的query以及所述query之前的N个query，确定出所述query对应的对话场景，所述N为正整数。

针对每个对话场景，分别设置有对应的场景对话应答策略。

一种智能语音交互实现装置，包括：第二获取单元以及应答播放单元；

所述第二获取单元，用于获取语音交互过程中用户输入的query，将所述query发送给云端服务器，以便所述云端服务器确定出所述query对应的对话场景，并按照所述对话场景对应的场景对话应答策略，生成应答语音；

所述应答播放单元，用于获取来自所述云端服务器的所述应答语音，并进行播放。

针对每个对话场景，分别设置有对应的场景对话应答策略。

一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如以上所述的方法。

一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如以上所述的方法。

基于上述介绍可以看出，采用本发明所述方案，云端服务器在获取到来自智能语音设备的用户query之后，可首先确定出query对应的对话场景，之后可按照对话场景对应的场景对话应答策略，生成应答语音，并将应答语音返回给智能语音设备，进而由智能语音设备将应答语音播放给用户，相比于现有技术，本发明所述方案中对对话场景进行区分，根据对话场景的不同，分别使用不同的场景对话应答策略，从而表达合适的语音人格，使得语音交互更加感性、拟人、智能化，为用户带来更加符合人类对话习惯的交互体验等。

【附图说明】

图1为本发明所述智能语音交互实现方法第一实施例的流程图。

图2为本发明所述智能语音交互实现方法第二实施例的流程图。

图3为本发明所述智能语音交互实现装置第一实施例的组成结构示意图。

图4为本发明所述智能语音交互实现装置第二实施例的组成结构示意图。

图5示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。

【具体实施方式】

为了使本发明的技术方案更加清楚、明白，以下参照附图并举实施例，对本发明所述方案进行进一步说明。

显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1为本发明所述智能语音交互实现方法第一实施例的流程图。如图1所示，包括以下具体实现方式。

在101中，获取来自智能语音设备的用户query，所述query为用户与智能语音设备进行语音交互过程中输入的query。

在102中，确定出获取到的query对应的对话场景。

在103中，按照确定出的对话场景对应的场景对话应答策略，生成应答语音，并将应答语音返回给智能语音设备进行播放。

本实施例中，可预先定义至少两个对话场景，对话场景的个数以及不同的对话场景分别为何种对话场景可根据实际需要而定。

比如，可定义以下对话场景：命令控制类对话场景、服务请求类对话场景以及聊天类对话场景等，其中，每类对话场景又可进一步细分为多个对话场景。

不同的对话场景的氛围和对沟通交流的要求也不同，如下所示。

一)命令控制类对话场景

这类对话场景主要涉及到命令、控制类的对话，比如“打开灯”、“关闭空调”等。

这类对话对于用户来说是使用上的刚需，注重效率和成功率。对应的场景对话应答策略需要是简短明了、高效的，能够给用户简单明了的反馈和信息告知。

二)服务请求类对话场景

这类对话场景主要涉及到请求服务，如可进一步细分为如下各对话场景。

1)普通服务请求类对话场景

这类对话主要是一些服务请求，如新闻、音乐、天气等，这类需求注重效率，对应的场景人格术应该是简短明了、高效的，能够给用户简单明了的反馈和信息告知。

2)特殊服务请求类对话场景

这类对话主要是一些特别的服务请求，对场景对话应答策略有着特殊的要求。比如，医疗、购物推荐等。

其中，医疗服务类对话场景由于其本身服务的特殊性，需要沉稳认真积极的对话风格，给用户一种靠谱的心理感受，给用户放心、放松的对话心理环境。

而对于购物推荐类对话场景，则需要主动积极、亲切的场景对话应答策略，能够给予用户全面的购物指导，帮助用户进行消费决策。

3)使用帮助类对话场景

这类对话主要是系统帮助、各个服务的帮助对话，需要详细、积极、耐心的场景对话应答策略，对用户更加包容，让用户在对话中放松的求助。

三)聊天类对话场景

这类对话主要是普通聊天等，需要耐心倾听、积极阳光的场景对话应答策略，给用户一种舒适的心理感受等。

针对不同的对话场景，可预先分别设置对应的场景对话应答策略。

较佳地，本实施例的执行主体可为云端服务器。

云端服务器可在每次获取到来自智能语音设备的query时，则确定出该query对应的对话场景，进而按照确定出的对话场景对应的场景对话应答策略，生成应答语音，并将应答语音返回给智能语音设备，由智能语音设备将应答语音播放给用户。

用户与智能语音设备进行语音交互时，通常会先通过唤醒词唤醒智能语音设备，之后，用户则可与智能语音设备进行正常的语音交互，向智能语音设备输入query，并获取智能语音设备播放的应答语音。智能语音设备可将每次获取到的query分别发送给云端服务器，相应地，云端服务器可针对每次获取到的query，分别确定出该query对应的对话场景。

由于在语音交互过程中，对话场景是可能发生变化的，因此，较佳地，云端服务器可在每次获取到query时，均重新确定对应的对话场景，以提升获取到的对话场景的准确性等。

其中，云端服务器可首先对获取到的query进行语音识别，从而得到文本形式的语音识别结果，进而可通过对语音识别结果进行语义解析等，确定出对应的对话场景。

另外，云端服务器在确定query对应的对话场景时，可以仅根据最新获取到的query确定对应的对话场景，或者，也可以根据最新获取到的query以及该query之前的N个query，确定出对应的对话场景，N为正整数，具体取值可根据实际需要而定，通常来说，连续的query之间是有关联性的，因此，结合连续的多个query确定对话场景，可提升确定结果的准确性。

云端服务器在按照确定出的对话场景对应的场景对话应答策略生成应答语音时，可首先得到文本形式的应答内容，之后可通过语音合成等技术生成应答语音，并返回给智能语音设备进行播放。

图2为本发明所述智能语音交互实现方法第二实施例的流程图。如图2所示，包括以下具体实现方式。

在201中，获取语音交互过程中用户输入的query，将获取到的query发送给云端服务器，以便云端服务器确定出query对应的对话场景，并按照确定出的对话场景对应的场景对话应答策略，生成应答语音。

在202中，获取来自云端服务器的应答语音，并进行播放。

可预先定义至少两个对话场景，对话场景的个数以及不同的对话场景分别为何种对话场景可根据实际需要而定。

并且，针对不同的对话场景，可预先分别设定对应的场景对话应答策略。

用户与智能语音设备进行语音交互时，通常会先通过唤醒词唤醒智能语音设备，之后，用户则可与智能语音设备进行正常的语音交互，向智能语音设备输入query，并获取智能语音设备播放的应答语音。智能语音设备可将每次获取到的query分别发送给云端服务器，相应地，云端服务器可针对每次获取到的query，分别确定出对应的对话场景，并按照确定出的对话场景对应的场景对话应答策略，生成应答语音，返回给智能语音设备，进而由智能语义设备将应答语音播放给用户。

需要说明的是，对于前述的各方法实施例，为了简单描述，将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

总之，采用上述各方法实施例所述方案，可对对话场景进行区分，根据对话场景的不同，分别使用不同的场景对话应答策略，从而表达合适的语音人格，使得语音交互更加感性、拟人、智能化，为用户带来更加符合人类对话习惯的交互体验等。

以上是关于方法实施例的介绍，以下通过装置实施例，对本发明所述方案进行进一步说明。

图3为本发明所述智能语音交互实现装置第一实施例的组成结构示意图。如图3所示，包括：第一获取单元301、场景确定单元302以及应答生成单元303。

第一获取单元301，用于获取来自智能语音设备的用户query，所述query为用户与智能语音设备进行语音交互过程中输入的query。

场景确定单元302，用于确定出query对应的对话场景。

应答生成单元303，用于按照对话场景对应的场景对话应答策略，生成应答语音，并将应答语音返回给智能语音设备进行播放。

本实施例中，可预先定义至少两个对话场景，对话场景的个数以及不同的对话场景分别为何种对话场景可根据实际需要而定。并且，针对不同的对话场景，可预先分别设置对应的场景对话应答策略。

第一获取单元301可将每次获取到的query发送给场景确定单元302，场景确定单元302可针对每次获取到的query，分别确定出对应的对话场景，进而由应答生成单元303按照对话场景对应的场景对话应答策略，生成应答语音，并将应答语音返回给智能语音设备，以便智能语音设备将应答语音播放给用户。

另外，场景确定单元302可根据每次获取到的query，确定出该query对应的对话场景，或者，根据每次获取到的query以及query之前的N个query，确定出该query对应的对话场景，N为正整数。

图4为本发明所述智能语音交互实现装置第二实施例的组成结构示意图。如图4所示，包括：第二获取单元401以及应答播放单元402。

第二获取单元401，用于获取语音交互过程中用户输入的query，将query发送给云端服务器，以便云端服务器确定出query对应的对话场景，并按照对话场景对应的场景对话应答策略，生成应答语音。

应答播放单元402，用于获取来自云端服务器的应答语音，并进行播放。

可预先定义至少两个对话场景，对话场景的个数以及不同的对话场景分别为何种对话场景可根据实际需要而定。并且，针对不同的对话场景，可预先分别设定对应的场景对话应答策略。

在实际应用中，图3所示装置可为云端服务器，图4所示装置可为智能语音设备。用户与智能语音设备进行语音交互时，通常会先通过唤醒词唤醒智能语音设备，之后，用户则可与智能语音设备进行正常的语音交互，向智能语音设备输入query，并获取智能语音设备播放的应答语音。智能语音设备可将每次获取到的query分别发送给云端服务器，相应地，云端服务器可针对每次获取到的query，分别确定出对应的对话场景，并按照确定出的对话场景对应的场景对话应答策略，生成应答语音，返回给智能语音设备，进而由智能语义设备将应答语音播放给用户。

图3和图4所示装置实施例的具体工作流程请参照前述方法实施例中的相应说明，不再赘述。

总之，采用上述各装置实施例所述方案，可对对话场景进行区分，根据对话场景的不同，分别使用不同的场景对话应答策略，从而表达合适的语音人格，使得语音交互更加感性、拟人、智能化，为用户带来更加符合人类对话习惯的交互体验等。

图5示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。图5显示的计算机系统/服务器12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于：一个或者多个处理器(处理单元)16，存储器28，连接不同系统组件(包括存储器28和处理器16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信，和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图5所示，网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机系统/服务器12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器16通过运行存储在存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现图1或2所示实施例中的方法。

本发明同时公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时将实现如图1或2所示实施例中的方法。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法等，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种智能语音交互实现方法，其特征在于，包括：

确定出所述query对应的对话场景；

2.根据权利要求1所述的方法，其特征在于，

所述确定出所述query对应的对话场景包括：

3.根据权利要求1所述的方法，其特征在于，

所述确定出所述query对应的对话场景包括：

根据每次获取到的query，确定出所述query对应的对话场景；

4.根据权利要求1所述的方法，其特征在于，

所述对应的对话场景包括：预先定义的至少两个对话场景中的一个；

针对每个对话场景，分别设置有对应的场景对话应答策略。

5.一种智能语音交互实现方法，其特征在于，包括：

获取来自所述云端服务器的所述应答语音，并进行播放。

6.根据权利要求5所述的方法，其特征在于，

针对每个对话场景，分别设置有对应的场景对话应答策略。

7.一种智能语音交互实现装置，其特征在于，包括：第一获取单元、场景确定单元以及应答生成单元；

所述场景确定单元，用于确定出所述query对应的对话场景；

8.根据权利要求7所述的装置，其特征在于，

所述场景确定单元针对每次获取到的query，分别确定出所述query对应的对话场景。

9.根据权利要求7所述的装置，其特征在于，

所述场景确定单元根据每次获取到的query，确定出所述query对应的对话场景；

10.根据权利要求7所述的装置，其特征在于，

针对每个对话场景，分别设置有对应的场景对话应答策略。

11.一种智能语音交互实现装置，其特征在于，包括：第二获取单元以及应答播放单元；

12.根据权利要求11所述的装置，其特征在于，

针对每个对话场景，分别设置有对应的场景对话应答策略。

13.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1～6中任一项所述的方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1～6中任一项所述的方法。