CN112084768A

CN112084768A - 一种多轮交互方法、装置及存储介质

Info

Publication number: CN112084768A
Application number: CN202010782810.2A
Authority: CN
Inventors: 王彬; 宋德超; 贾巨涛; 詹培旋; 胡广绪
Original assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Lianyun Technology Co Ltd
Current assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Lianyun Technology Co Ltd
Priority date: 2020-08-06
Filing date: 2020-08-06
Publication date: 2020-12-15
Also published as: WO2022028029A1

Abstract

本申请公开了一种多轮交互方法、装置及存储介质，涉及计算机处理领域，用以解决在语音唤醒结束后，再次唤醒则不能继续上一轮的交互的问题。该方法包括：接收到唤醒信息后，识别用户的语音信息；对语音信息进行特征提取，得到语音信息中的语句信息；若通过语义分析在多轮交互数据库中查找到与语句信息匹配的交互信息，则根据语句信息和交互信息，确定语音信息的回复信息；其中，多轮交互数据库中的交互信息为接收到唤醒信息之前对用户的语音信息进行特征提取得到的；将回复信息进行播报。这样，即使用户再次唤醒交互设备，交互设备仍然能够继续上一轮的交互，从而可以更好的完成多轮交互，提高了用户进行多轮交互时的体验。

Description

一种多轮交互方法、装置及存储介质

技术领域

本申请涉及计算机处理领域，尤其涉及一种多轮交互方法、装置及存储介质。

背景技术

在很多语音产品缺少多轮交互的技能，每一次使用都要对产品进行唤醒，给用户的使用带来了很多困扰。有的语音产品虽然带有多轮交互技能，但是多轮交互也是限制在一轮唤醒之中，在语音唤醒结束后，再次唤醒则不能继续上一轮的交互，也会为用户的交互带来不便。

发明内容

本申请实施例提供一种多轮交互方法、装置及存储介质，用以解决在语音唤醒结束后，再次唤醒则不能继续上一轮的交互的问题。

第一方面，本申请实施例提供一种多轮交互方法，该方法包括：

接收到唤醒信息后，识别用户的语音信息；

对所述语音信息进行特征提取，得到所述语音信息中的语句信息；

若通过语义分析在多轮交互数据库中查找到与所述语句信息匹配的交互信息，则根据所述语句信息和所述交互信息，确定所述语音信息的回复信息；其中，所述多轮交互数据库中的交互信息为接收到唤醒信息之前对用户的语音信息进行特征提取得到的；

将所述回复信息进行播报。

上述方法，接收到唤醒信息后，通过获取用户语音信息中的语句信息，并通过语义分析在多轮交互数据库中查找到与语句信息匹配的交互信息，确定回复信息。这样，即使用户再次唤醒交互设备，交互设备仍然能够继续上一轮的交互，从而可以更好的完成多轮交互，提高了用户进行多轮交互时的体验。

在一种可能的实现方式中，所述语句信息包括语句实体信息和语句关系信息；

所述对所述语音信息进行特征提取，得到所述语音信息的语义信息，包括：

对所述语音信息进行文本转换，得到所述语音信息的文本信息；

将所述文本信息输入到至少两个识别模型中，得到所述语音信息中的至少两个语句实体信息；

根据得到的至少两个语句实体信息之间的关系，确定所述语句关系信息。

上述方法，通过识别模型获取语音信息的语句实体信息，并根据获取的语句实体信息获取语句关系信息，从而可以准确的了解用户的语义，从而可以准确的进行多轮交互。

在一种可能的实现方式中，所述将所述文本信息输入到至少两个识别模型中，得到所述语音信息中的语句实体信息，包括：

将所述文本信息输入到至少两个识别模型中，得到各识别模型对应的语句实体信息；

若根据各识别模型得到的语句实体信息不完全相同，则将出现次数最多的语句实体信息作为所述语音信息中的语句实体信息；或，

若根据各识别模型得到的各语句实体信息的出现次数相同，则随机选择一个语句实体信息作为所述语音信息中的语句实体信息。

上述方法，通过至少两个识别模型对文本信息进行识别，可以更好的获取语句实体信息，提高了语句实体信息的准确性。

在一种可能的实现方式中，所述多轮交互数据库中的交互信息以语句实体信息为节点，语句关系信息为节点间连线的方式进行存储；

所述若通过语义分析在多轮交互数据库中查找到与所述语句信息匹配的交互信息之后，所述方法还包括：

将提取的所述语音信息的语句实体信息和语句关系信息存储到所述多轮交互数据库中。

上述方法，将当前语音信息的语句实体信息和语句关系信息存储到所述多轮交互数据库中，为后续的多轮交互提供了便利的条件。

在一种可能的实现方式中，所述方法还包括：

若接收到关机指令，则将所述多轮交互数据库中存储的所述交互信息删除。

上述方法，在关机之前将多轮交互数据库中存储的数据进行删除，可以节省交互设备的数据存储空间。

第二方面，本申请实施例提供的一种多轮交互装置，包括：

接收模块，用于接收到唤醒信息后，识别用户的语音信息；

特征提取模块，用于对所述语音信息进行特征提取，得到所述语音信息中的语句信息；

确定模块，用于若通过语义分析在多轮交互数据库中查找到与所述语句信息匹配的交互信息，则根据所述语句信息和所述交互信息，确定所述语音信息的回复信息；其中，所述多轮交互数据库中的交互信息为接收到唤醒信息之前对用户的语音信息进行特征提取得到的；

播报模块，用于将所述回复信息进行播报。

在一种可能的实现方式中，所述语句信息包括语句实体信息和语句关系信息；特征提取模块包括：

转换单元，用于对所述语音信息进行文本转换，得到所述语音信息的文本信息；

识别单元，用于将所述文本信息输入到至少两个识别模型中，得到所述语音信息中的至少两个语句实体信息；

确定关系单元，用于根据得到的至少两个语句实体信息之间的关系，确定所述语句关系信息。

在一种可能的实现方式中，识别单元包括：

获取语句实体信息子单元，用于将所述文本信息输入到至少两个识别模型中，得到各识别模型对应的语句实体信息；

第一确定语句实体信息子单元，用于若根据各识别模型得到的语句实体信息不完全相同，则将出现次数最多的语句实体信息作为所述语音信息中的语句实体信息；或，

第二确定语句实体信息子单元，用于若根据各识别模型得到的各语句实体信息的出现次数相同，则随机选择一个语句实体信息作为所述语音信息中的语句实体信息。

在一种可能的实现方式中，所述多轮交互数据库中的交互信息以语句实体信息为节点，语句关系信息为节点间连线的方式进行存储；所述装置还包括：

存储模块，用于确定模块若通过语义分析在多轮交互数据库中查找到与所述语句信息匹配的交互信息之后，将提取的所述语音信息的语句实体信息和语句关系信息存储到所述多轮交互数据库中。

在一种可能的实现方式中，所述装置还包括：

删除模块，用于若接收到关机指令，则将所述多轮交互数据库中存储的所述交互信息删除。

第三方面，提供一种计算装置，包括至少一个处理单元、以及至少一个存储单元，其中，存储单元存储有计算机程序，当程序被处理单元执行时，使得处理单元执行上述任意一种多轮交互方法的步骤。

在一个实施例中，计算装置可以使服务器，也可以是终端设备。

第四方面，提供一种计算机可读介质，其存储有可由终端设备执行的计算机程序，当程序在终端设备上运行时，使得终端设备执行上述任意一种多轮交互方法的步骤。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例中一种多轮交互方法的流程示意图；

图2为本申请实施例中获取语句实体信息和语句关系信息的流程示意图；

图3为本申请实施例中一种多轮交互装置的结构示意图；

图4为根据本申请实施方式的计算装置的结构示意图。

具体实施方式

为了解决现有技术中，在语音唤醒结束后，再次唤醒则不能继续上一轮的交互的问题，本申请实施例中提供一种多轮交互方法、装置及存储介质。为了更好的理解本申请实施例提供的技术方案，这里对该方案的基本原理做一下简单说明：

现有的语音产品虽然带有多轮交互技能，但是多轮交互也是限制在有限次轮的交互中，在语音唤醒结束后，再次唤醒则不能继续上一轮的交互，也会为用户的交互带来不便。

有鉴于此，本申请实施例中提供一种多轮交互方法、装置及存储介质，接收到唤醒信息后，通过获取用户语音信息中的语句信息，并通过语义分析在多轮交互数据库中查找到与语句信息匹配的交互信息，确定回复信息。这样，即使用户再次唤醒交互设备，交互设备仍然能够继续上一轮的交互，从而可以更好的完成多轮交互，提高了用户进行多轮交互时的体验。

以下结合说明书附图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本申请，并不用于限定本申请，并且在不冲突的情况下，本申请实施例中的实施例及实施例中的特征可以相互组合。

下面对本申请实施例提供的多轮交互方法进行进一步的解释说明。如图1所示，包括以下步骤：

S101：接收到唤醒信息后，识别用户的语音信息。

在本申请实施例中，若用户与交互设备进行交互后，若在预设的时间内没有再次进行交互，那么该交互设备将进入休眠状态，只有再次唤醒后，才能够继续进行交互。

其中，唤醒信息可以是唤醒词，也可以是唤醒手势等。例如：若交互设备的唤醒词为“你好”，则在交互设备处于休眠状态时，用户通过向交互设备说“你好，帮我播放一首歌曲”，此时，由此用户的语音信息中存在唤醒词，因此交互设备进入唤醒状态，与用户进行交互。

S102：对所述语音信息进行特征提取，得到所述语音信息中的语句信息。

其中，语句信息包括语句实体信息和语句关系信息。语句实体信息为这句话中的实体，语句关系信息为这句话中各实体之间的关系；通常情况下，语句实体信息为名词，语句关系信息为动词。例如：若语音信息为“小红明天要去北京”，那么这句话的语句实体信息为“小红”和“北京”，语句关系信息为“去”，即“小红”和“北京”之间的联系。

在本申请实施例中，获取语音信息的语句信息，需要将语音信息转换为文本信息，并对文本信息进行识别，具体可实施为步骤A1-A3：

步骤A1：对所述语音信息进行文本转换，得到所述语音信息的文本信息。

步骤A2：将所述文本信息输入到至少两个识别模型中，得到所述语音信息中的至少两个语句实体信息。

其中，一句话中通常为两个语句实体信息，但有时也会出现两个以上的语句实体信息。

在本申请实施例中，为了可以更好的获取语句实体信息，提高了语句实体信息的准确性，将文本信息输入到至少两个识别模型中；其中，各识别模型不同。如工具包jiagu、Bert预训练模型以及BiLSTM模型等。

根据不同的识别模型获取的语句实体信息，从而选择出最准确的语句实体信息。

具体可实施为：将所述文本信息输入到至少两个识别模型中，得到各识别模型对应的语句实体信息。

若根据各识别模型得到的语句实体信息不完全相同，则将出现次数最多的语句实体信息作为所述语音信息中的语句实体信息。

例如：若存在三个识别模型，经过识别语句实体信息A出现2次，而语句实体信息B出现一次，那么将语句实体信息A作为语音信息中的语句实体信息。

例如：若存在三个识别模型，经过识别语句实体信息A、语句实体信息B和语句实体信息C各出现一次，那么此时从ABC中随机选择一个作为语音信息中的语句实体信息。

步骤A3：根据得到的至少两个语句实体信息之间的关系，确定所述语句关系信息。

如图2所示，其为获取语句实体信息和语句关系信息的流程示意图。用户输入语音信息后，将语音信息转换为文本信息，并将文本信息输入到三个识别模型中，通过三个识别模型的输出结果，得到语句实体信息，根据语句实体信息确定语句关心信息。

这样，通过识别模型获取语音信息的语句实体信息，并根据获取的语句实体信息获取语句关系信息，从而可以准确的了解用户的语义，从而可以准确的进行多轮交互。

S103：若通过语义分析在多轮交互数据库中查找到与所述语句信息匹配的交互信息，则根据所述语句信息和所述交互信息，确定所述语音信息的回复信息；其中，所述多轮交互数据库中的交互信息为接收到唤醒信息之前对用户的语音信息进行特征提取得到的。

其中，多轮交互数据库中的交互信息以语句实体信息为节点，语句关系信息为节点间连线的方式进行存储；

在本申请实施例中，在多轮交互数据库中查找到与语句信息匹配的交互信息之后，将提取的所述语音信息的语句实体信息和语句关系信息存储到所述多轮交互数据库中。

这样，将当前语音信息的语句实体信息和语句关系信息存储到所述多轮交互数据库中，为后续的多轮交互提供了便利的条件。

S104：将所述回复信息进行播报。

这样，即使用户再次唤醒交互设备，交互设备仍然能够继续上一轮的交互，从而可以更好的完成多轮交互，提高了用户进行多轮交互时的体验。

在本申请实施例中，若交互设备将要关机时，需要多轮交互数据库中存储的数据删除，具体可实施为：若接收到关机指令，则将所述多轮交互数据库中存储的所述交互信息删除。

这样，在关机之前将多轮交互数据库中存储的数据进行删除，可以节省交互设备的数据存储空间。

基于相同的发明构思，本申请实施例还提供了一种多轮交互装置。如图3所示，该装置包括：

接收模块301，用于接收到唤醒信息后，识别用户的语音信息；

特征提取模块302，用于对所述语音信息进行特征提取，得到所述语音信息中的语句信息；

确定模块303，用于若通过语义分析在多轮交互数据库中查找到与所述语句信息匹配的交互信息，则根据所述语句信息和所述交互信息，确定所述语音信息的回复信息；其中，所述多轮交互数据库中的交互信息为接收到唤醒信息之前对用户的语音信息进行特征提取得到的；

播报模块304，用于将所述回复信息进行播报。

在一种可能的实现方式中，所述语句信息包括语句实体信息和语句关系信息；特征提取模块302包括：

在一种可能的实现方式中，识别单元包括：

存储模块，用于确定模块303若通过语义分析在多轮交互数据库中查找到与所述语句信息匹配的交互信息之后，将提取的所述语音信息的语句实体信息和语句关系信息存储到所述多轮交互数据库中。

在一种可能的实现方式中，所述装置还包括：

基于同一技术构思，本申请实施例还提供了一种终端设备400，参照图4所示，终端设备400用于实施上述各个方法实施例记载的方法，例如实施图2所示的实施例，终端设备400可以包括存储器401、处理器402、输入单元403和显示面板404。

存储器401，用于存储处理器402执行的计算机程序。存储器401可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据终端设备400的使用所创建的数据等。处理器402，可以是一个中央处理单元(central processing unit，CPU)，或者为数字处理单元等。输入单元403，可以用于获取用户输入的用户指令。显示面板404，用于显示由用户输入的信息或提供给用户的信息，本申请实施例中，显示面板404主要用于显示终端设备中各应用程序的显示界面以及各显示界面中显示的控件实体。可选的，显示面板404可以采用液晶显示器(liquid crystaldisplay，LCD)或OLED(organic light-emitting diode，有机发光二极管)等形式来配置显示面板404。

本申请实施例中不限定上述存储器401、处理器402、输入单元403和显示面板404之间的具体连接介质。本申请实施例在图4中以存储器401、处理器402、输入单元403、显示面板404之间通过总线405连接，总线405在图4中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线405可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器401可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器401也可以是非易失性存储器(non-volatilememory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)、或者存储器401是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器401可以是上述存储器的组合。

处理器402，用于实现如图1所示的实施例，包括：

处理器402，用于调用存储器401中存储的计算机程序执行如实施图1所示的实施例。

本申请实施例还提供了一种计算机可读存储介质，存储为执行上述处理器所需执行的计算机可执行指令，其包含用于执行上述处理器所需执行的程序。

在一些可能的实施方式中，本申请提供的一种多轮交互方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述描述的根据本申请各种示例性实施方式的一种多轮交互方法中的步骤。例如，终端设备可以执行如实施图1所示的实施例。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请的实施方式的用于一种多轮交互程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在计算设备上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，程序设计语言包括面向实体的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程文件处理设备的处理器以产生一个机器，使得通过计算机或其他可编程文件处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程文件处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程文件处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种多轮交互方法，其特征在于，所述方法包括：

接收到唤醒信息后，识别用户的语音信息；

将所述回复信息进行播报。

2.根据权利要求1所述的方法，其特征在于，所述语句信息包括语句实体信息和语句关系信息；

3.根据权利要求2所述的方法，其特征在于，所述将所述文本信息输入到至少两个识别模型中，得到所述语音信息中的语句实体信息，包括：

4.根据权利要求2所述的方法，其特征在于，所述多轮交互数据库中的交互信息以语句实体信息为节点，语句关系信息为节点间连线的方式进行存储；

5.根据权利要求1～4任一所述的方法，其特征在于，所述方法还包括：

6.一种多轮交互装置，其特征在于，所述装置包括：

接收模块，用于接收到唤醒信息后，识别用户的语音信息；

播报模块，用于将所述回复信息进行播报。

7.根据权利要求6所述的装置，其特征在于，所述语句信息包括语句实体信息和语句关系信息；特征提取模块包括：

8.根据权利要求7所述的装置，其特征在于，识别单元包括：

9.根据权利要求7所述的装置，其特征在于，所述多轮交互数据库中的交互信息以语句实体信息为节点，语句关系信息为节点间连线的方式进行存储；所述装置还包括：

10.根据权利要求6～9任一所述的装置，其特征在于，所述装置还包括：

11.一种电子设备，其特征在于，其包括处理器和存储器，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行权利要求1至5中任一所述方法的步骤。

12.一种计算机可读存储介质，其特征在于，其包括程序代码，当所述程序产品在电子设备上运行时，所述程序代码用于使所述电子设备执行权利要求1至5中任一所述方法的步骤。