CN111402872A

CN111402872A - 用于智能语音对话系统的语音数据处理方法及装置

Info

Publication number: CN111402872A
Application number: CN202010086219.3A
Authority: CN
Inventors: 彭殷路; 孔冬兵
Original assignee: Shengzhi Information Technology Nanjing Co ltd
Current assignee: Shengzhi Information Technology Nanjing Co ltd
Priority date: 2020-02-11
Filing date: 2020-02-11
Publication date: 2020-07-10
Anticipated expiration: 2040-02-11
Also published as: WO2021159904A1; CN111402872B

Abstract

本发明公开了一种用于智能语音对话系统的语音数据处理方法、装置、计算机设备和存储介质，将智能语音对话系统的各个业务组件分别定义为初始扩展函数，使所述初始扩展函数具有完成独立的逻辑调用或者业务调用，并支持模块化复用的功能，实现并发布所述初始扩展函数，使所述初始扩展函数在智能语音对话系统的函数库中，供用户使用，配置函数库中的初始扩展函数，得到目标扩展函数，再采用目标扩展函数处理通话过程中用户的语音数据，以获取所述语音数据表征的内容，提高智能语音对话系统中相应语音数据处理的效率，提升相关会话管理的灵活性。

Description

用于智能语音对话系统的语音数据处理方法及装置

技术领域

本发明涉及语音信号处理技术领域，尤其涉及一种用于智能语音对话系统的语音数据处理方法、装置、计算机设备和存储介质。

背景技术

智能语音对话系统，又称为智能会话Agent或者智能聊天系统。是指通过人工智能技术，以语音识别、自然语言处理和语音合成技术为基础，实现与人类进行语言交互的系统。智能语音对话系统从应用场景上主要分为任务导向型对话系统和非任务导向型对话系统，典型的任务导向型对话系统如智能语音助手、智能电话外呼系统，典型的非任务导向型系统如智能音箱、聊天机器人等。

传统智能语音对话系统的人机交互链路主要包含语音识别、语义理解和语音合成三个阶段。语音识别就是把用户说的语音转化为对应的文字；语义理解就是从用户表述的文字级对话上下文等信息中提取用户的意图并产生应答的文本；语音合成是指将回应的文本转化为语音并播放给用户。语音识别和语音合成技术具备较强的通用性，即智能语音对话系统的类型和应用领域的不同、甚至交互话术模版的配置不会对其效果造成较大的影响。

传统智能语音对话系统中的语义理解具备较强的对话领域和对话场景的相关性，虽然通用的自然语言理解模型从一定程度上解决了文本的意图判定、命名实体识别等技术问题，但是依然有很多不同领域的用户场景的需求，是基于传统的语义理解方案无法满足的，直接导致对话不智能和实际对话体验感非常差的问题。经验丰富的话术配置工程师能够在一定程度上通过话术的配置缓解对话体验的问题，但是这在一定程度上也导致了单个话术的复杂程度，在与用户进行对话过程中也更容易出现话术逻辑上的问题。尤其是任务导向型的智能语音对话系统，经常需要对接外部系统获取数据获取用户相关的数据，或者向外部系统发送指令帮助用户完成实际的任务操作，传统的解决方案是通过定制开发完成相关的功能，存在的问题主要是开发和集成的周期长，功能的实现不能满足复杂话术配置的要求，不具备在对话过程中处理复杂业务事件的能力，同时系统的可扩展性和可维护性很差，系统的功能和话术的配置杂糅在一起，需要更新系统才能实现话术能力的更新。

一般来说，传统的智能语音对话系统都是通过话术和话术流程实现对话服务的上线和交付使用，如智能电话外呼销售系统，会有运营人员根据销售场景统计、整理和归纳一些销售冠军的话术和话术流程。系统在外呼会话的过程中，会根据话术和话术流程的设计，进行意图识别和会话管理。

常见的话术和话术流程的结构化方式以及会话管理的方法包含：

基于关键词的简单交互结构，即通过关键词和关键短语的匹配来判定用户的意图，并根据用户的意图进行回应，典型的实现方式如AIML(人工智能标记语言)。这种方式能够基于有限的关键词支持简单的上下文理解和多伦对话能力，一般常见于早期的非任务导向型智能语音对话系统。

基于树或者有限状态机的结构化模版，即将话术和话术流程建模为树状结构或有限状态机的图结构，相比于基于关键词的简单交互结构，树和有限状态机的话术流程结构方式能够在对话的过程中能融合更多的会话上下文，并且能够将会话中获取的资源与通过其他途径获取用户信息结合起来，提供更加灵活的个性化对话服务。这种方法需要根据对话场景人为定义对话流程，适用于完全由系统引导对话的任务导向型场景，适用于简单的任务，缺点是难以扩展，很容易使话术流程变得复杂难以维护，输入比较有限，话术流程的运转灵活性较差。

基于命名实体识别的框架性模版，即基于槽值提取的框架性话术流程模版，这种技术方案通常将话术流程建模为一个槽值提取的过程。所谓槽值提取，就是从用表述中按照信息类型提取理解用户意图所需要补全的信息，并根据任务所需要的所有槽值信息的补全状态转化为明确的指令或回应。在具体的实现上，基于命名实体识别的框架通常作为有限状态机话术流程模版的扩展，用于获取相对复杂的信息和支持信息输入的种类和顺序，提升系统支持任务导向型和非任务导向型的混合场景的能力。

由于人类语言表述具备复杂性、随机性和非理性化这三个特点，传统的话术和话术流程的结构化方式以及会话管理的往往存在过程复杂，灵活性低的问题。

发明内容

针对以上问题，本发明提出一种用于智能语音对话系统的语音数据处理方法、装置、计算机设备和存储介质。

为实现本发明的目的，提供一种用于智能语音对话系统的语音数据处理方法，包括如下步骤：

S10，将智能语音对话系统的各个业务组件分别定义为初始扩展函数，使所述初始扩展函数具有完成独立的逻辑调用或者业务调用，并支持模块化复用的功能；

S20，实现并发布所述初始扩展函数，使所述初始扩展函数在智能语音对话系统的函数库中，供用户使用；

S30，配置函数库中的初始扩展函数，得到目标扩展函数；

S40，采用目标扩展函数处理通话过程中用户的语音数据，以获取所述语音数据表征的内容。

在一个实施例中，实现并发布所述初始扩展函数包括：

根据初始扩展函数的具体定义和初始扩展函数的功能需求实现并开发所述初始扩展函数。

在一个实施例中，配置函数库中的初始扩展函数，得到目标扩展函数包括：

将函数库中的一个初始扩展函数作为另一个初始扩展函数的输入，得到自定义的目标扩展函数。

在一个实施例中，采用目标扩展函数处理用户输入的语音数据，以获取所述语音数据表征的内容包括：

根据函数库中所提供的初始扩展函数以及目标扩展函数，在话术的节点进行函数配置，采用配置后的函数，定义通话过程中对用户的语音数据表征的意图和信息。

一种用于智能语音对话系统的语音数据处理装置，包括：

定义模块，用于将智能语音对话系统的各个业务组件分别定义为初始扩展函数，使所述初始扩展函数具有完成独立的逻辑调用或者业务调用，并支持模块化复用的功能；

实现模块，用于实现并发布所述初始扩展函数，使所述初始扩展函数在智能语音对话系统的函数库中，供用户使用；

配置模块，用于配置函数库中的初始扩展函数，得到目标扩展函数；

处理模块，用于采用目标扩展函数处理通话过程中用户的语音数据，以获取所述语音数据表征的内容。

在一个实施例中，所述实现模块进一步用于：

在一个实施例中，所述配置模块进一步用于：

在一个实施例中，所述处理模块进一步用于：

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一实施例的用于智能语音对话系统的语音数据处理方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一实施例的用于智能语音对话系统的语音数据处理方法的步骤。

上述用于智能语音对话系统的语音数据处理方法、装置、计算机设备和存储介质，将智能语音对话系统的各个业务组件分别定义为初始扩展函数，使所述初始扩展函数具有完成独立的逻辑调用或者业务调用，并支持模块化复用的功能，实现并发布所述初始扩展函数，使所述初始扩展函数在智能语音对话系统的函数库中，供用户使用，配置函数库中的初始扩展函数，得到目标扩展函数，再采用目标扩展函数处理通话过程中用户的语音数据，以获取所述语音数据表征的内容，提高智能语音对话系统中相应语音数据处理的效率，提升相关会话管理的灵活性。具体以模块组件化和服务组合的方式来实现智能语音对话系统中的常见逻辑组件、规则组件和业务领域组件，并通过动态配置化的方式来组装话术和话术流程，在增强话术模版业务描述能力的同时，降低话术模版的复杂度并提高可扩展性和可复用性。

附图说明

图1是一个实施例的高精确度告警方法流程图；

图2是一个实施例的基于扩展函数的话术流程模版执行实例调用流程示意图；

图3是一个实施例的高精确度告警装置结构示意图；

图4是一个实施例的计算机设备示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请提供的用于智能语音对话系统的语音数据处理方法，可以应用于相关智能语音对话系统。上述语音数据处理终端将智能语音对话系统的各个业务组件分别定义为初始扩展函数，使所述初始扩展函数具有完成独立的逻辑调用或者业务调用，并支持模块化复用的功能，实现并发布所述初始扩展函数，使所述初始扩展函数在智能语音对话系统的函数库中，供用户使用，配置函数库中的初始扩展函数，得到目标扩展函数，采用目标扩展函数处理通话过程中用户的语音数据，以获取所述语音数据表征的内容，以降低处理相应语音数据的复杂度，提高相关会话管理方案的灵活性。其中，语音数据处理终端可以但不限于是各种个人计算机和笔记本电脑等智能处理设备。

在一个实施例中，如图1所示，提供了一种用于智能语音对话系统的语音数据处理方法，以该方法应用于语音数据处理终端为例进行说明，包括以下步骤：

S10，将智能语音对话系统的各个业务组件分别定义为初始扩展函数，使所述初始扩展函数具有完成独立的逻辑调用或者业务调用，并支持模块化复用的功能。

上述步骤可以将智能语音对话系统的业务主角和对话系统所需要对接的外部系统的接口组件定义为扩展函数(初始扩展函数)。实质上为对智能语音对话系统及其应用的业务场景抽象化的过程，将智能语音对话系统中一些常用的业务组件定义为扩展函数，这些扩展函数能够完成独立简单的逻辑调用或者业务调用，并支持模块化的复用。

进一步地，扩展函数(初始扩展函数)可以根据功能进行分类，如逻辑函数、系统函数、命名实体识别函数、业务领域函数以及外部服务调用函数等。扩展函数需要定义函数输入，包含可接受的输入的参数及其类型；扩展函数需要定义函数输出，包含函数的输出及其类型，输出类型包括：数值型、布尔型、字符串和枚举型等。

扩展函数的分类用于对函数进行管理，提高话术搭建的交互体验。扩展函数的输入输出定义决定了函数执行的输入需要和最终输出行为。

S20，实现并发布所述初始扩展函数，使所述初始扩展函数在智能语音对话系统的函数库中，供用户使用。

上述用户可以包括智能语音对话系统的运营人员等。

在一个实施例中，实现并发布所述初始扩展函数包括：

初始扩展函数的具体定义是指所需要相应函数(初始扩展函数)实现的功能，即该函数用来解决什么问题。初始扩展函数的实现是指开发人员根据功能需求实现相应函数功能的过程。

具体地，本实施例可以初始扩展函数的具体定义和该业务函数(初始扩展函数)的功能需求开发实现业务函数的过程。扩展函数实现和发布后，会注册在智能语音对话系统的可用函数库中，供使用智能语音对话系统的运营人员等用户使用。

S30，配置函数库中的初始扩展函数，得到目标扩展函数。

本实施例可以将智能语音对话系统提供的扩展函数通过组合配置的方式，实现复杂功能的自定义扩展组件，从而得到目标扩展函数；这些自定义的扩展组件(目标扩展函数)依然通过自定义扩展函数的方式注册于系统的可用函数库中，运营人员等用户可以在不同的业务场景和话术模版中调用这些自定义的扩展函数。

本实施例是在智能语音对话系统的话术模版中定义智能语音对话系统及其自定义扩展函数组合调用方式，最终配置成一个可以使用的话术模版的过程。智能语音对话系统的服务执行引擎最终根据定义的话术模版调用扩展函数来实现对话过程中的意图识别和会话管理等功能。

进一步地，智能语音对话系统的话术搭建者在搭建话术的时候，可以根据智能语音对话系统的函数库中所提供的扩展函数以及自己配置定义的自定义扩展函数，在话术的节点进行函数配置，配置的内容包括需要执行的函数、函数执行的先后顺序、函数的输入的数据来源和输出的数据赋值。通过使用这些函数，可以清晰的定义通话过程中对用户说话的意图识别和信息抽取，这些扩展函数是能够在话术的不同话术节点甚至在不同话术中复用的，能够有效降低话术配置的复杂性。

上述用于智能语音对话系统的语音数据处理方法，将智能语音对话系统的各个业务组件分别定义为初始扩展函数，使所述初始扩展函数具有完成独立的逻辑调用或者业务调用，并支持模块化复用的功能，实现并发布所述初始扩展函数，使所述初始扩展函数在智能语音对话系统的函数库中，供用户使用，配置函数库中的初始扩展函数，得到目标扩展函数，再采用目标扩展函数处理通话过程中用户的语音数据，以获取所述语音数据表征的内容，提高智能语音对话系统中相应语音数据处理的效率，提升相关会话管理的灵活性。具体以模块组件化和服务组合的方式来实现智能语音对话系统中的常见逻辑组件、规则组件和业务领域组件，并通过动态配置化的方式来组装话术和话术流程，在增强话术模版业务描述能力的同时，降低话术模版的复杂度并提高可扩展性和可复用性。

在一个实施例中，遵循扩展函数构建和使用相剥离的原则，可以将智能语音对话系统的生产者分为扩展函数开发者和业务话术搭建者两类用户。其中，扩展函数开发者，具备专业的函数组合服务化和业务领域知识，其主要职责具体表现为：为智能语音对话系统提供扩展函数的具体实现和维护系统的函数库，包括新增、更新扩展函数，提供扩展函数对应的服务细节描述等。

业务话术搭建者，具备话术应用的业务领域知识和智能化话术搭建的能力，能够根据领域特征使用扩展函数库和话术流程结构化模板进行话术和话术流程搭建。

本实施例中由扩展函数开发者进行函数的封装，并提供函数的接口定义和实现描述，以城市名称命名实体提取的扩展函数实现为例，函数的输入是字符串类型，往往为用户表述的文本，函数的输出为提取的城市名称和预测分值，分别定义为字符串类型和数值类型。

在一个示例中，可以通过以下方式来描述该函数定义：

本实施例由话术搭建者使用扩展函数库进行自定义扩展函数的配置以及智能化话术的搭建配置。话术搭建者根据业务领域的话术要求和扩展函数的定义描述，通过扩展函数的合法组合搭建话术节点的关键处理步骤如意图识别和会话管理的行为能力。如针对用户“明天天气怎么样”的表述，话术搭建者需要且不限于使用以下扩展函数完成智能化的答复。

下面列出几个相关语音数据处理的示例：

基于关键字的话术领域筛选扩展函数，用于从用户表述语句中提取用户意图，如本例中通过“天气”关键字，输出话术领域为“询问天气”的领域节点。

基于语义相似度的领域筛选扩展函数，用于从用户表述语句中提取用户意图，如本例中输出话术领域为“询问天气”的领域节点和相似度得分0.99分。

领域话术节点匹配扩展函数，输入为候选的领域节点列表，输出为得分最高的领域话术节点。

日期命名实体提取扩展函数，用于从用户表述语句中提取日期，如本例中提取的日期实体为“明天”

城市地点命名实体提取扩展函数，用于从用户表述语句中提取地点。

日期自然语言表述格式化函数，输入为从用户表述中提取出的日期实体，输出为格式化的日期，如“2019-10-28”。

会话上下文信息提取扩展函数，在需要的命名实体提取为空的情况下从对话的上下文中检索可用的同类型信息。

天气查询扩展函数，在所需要参数(日期、地点城市)槽值都提取到的情况下，调用该函数输出天气信息。

答复文本生成扩展函数，基于天气查询扩展函数的输出和话术模版的定义输出答复用户的文本，如“南京明天会下雨，记得带伞”。

本发明在实施过程中最终会根据话术搭建者的话术配置将话术流程模版中所使用的扩展函数及其调用逻辑生成话术执行实例。在一个示例中，图2显示了本发明基于扩展函数的话术流程模版执行实例调用流程示意图。

参考图3所示，图3为一个实施例的用于智能语音对话系统的语音数据处理装置结构示意图，包括：

定义模块10，用于将智能语音对话系统的各个业务组件分别定义为初始扩展函数，使所述初始扩展函数具有完成独立的逻辑调用或者业务调用，并支持模块化复用的功能；

实现模块20，用于实现并发布所述初始扩展函数，使所述初始扩展函数在智能语音对话系统的函数库中，供用户使用；

配置模块30，用于配置函数库中的初始扩展函数，得到目标扩展函数；

处理模块40，用于采用目标扩展函数处理通话过程中用户的语音数据，以获取所述语音数据表征的内容。

在一个实施例中，所述实现模块进一步用于：

在一个实施例中，所述配置模块进一步用于：

在一个实施例中，所述处理模块进一步用于：

关于用于智能语音对话系统的语音数据处理装置的具体限定可以参见上文中对于用于智能语音对话系统的语音数据处理方法的限定，在此不再赘述。上述用于智能语音对话系统的语音数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种用于智能语音对话系统的语音数据处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

基于如上所述的示例，在一个实施例中还提供一种计算机设备，该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现如上述各实施例中的任意一种用于智能语音对话系统的语音数据处理方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性的计算机可读取存储介质中，如本发明实施例中，该程序可存储于计算机系统的存储介质中，并被该计算机系统中的至少一个处理器执行，以实现包括如上述用于智能语音对话系统的语音数据处理方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

据此，在一个实施例中还提供一种计算机存储介质计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如上述各实施例中的任意一种用于智能语音对话系统的语音数据处理方法。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

需要说明的是，本申请实施例所涉及的术语“第一\第二\第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二\第三”区分的对象在适当情况下可以互换，以使这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

本申请实施例的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种用于智能语音对话系统的语音数据处理方法，其特征在于，包括如下步骤：

S30，配置函数库中的初始扩展函数，得到目标扩展函数；

2.根据权利要求1所述的用于智能语音对话系统的语音数据处理方法，其特征在于，实现并发布所述初始扩展函数包括：

3.根据权利要求1所述的用于智能语音对话系统的语音数据处理方法，其特征在于，配置函数库中的初始扩展函数，得到目标扩展函数包括：

4.根据权利要求1所述的用于智能语音对话系统的语音数据处理方法，其特征在于，采用目标扩展函数处理用户输入的语音数据，以获取所述语音数据表征的内容包括：

5.一种用于智能语音对话系统的语音数据处理装置，其特征在于，包括：

6.根据权利要求5所述的用于智能语音对话系统的语音数据处理装置，其特征在于，所述实现模块进一步用于：

7.根据权利要求5所述的用于智能语音对话系统的语音数据处理装置，其特征在于，所述配置模块进一步用于：

8.根据权利要求5所述的用于智能语音对话系统的语音数据处理装置，其特征在于，所述处理模块进一步用于：

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述方法的步骤。