CN111105782B

CN111105782B - 会话交互处理方法、装置、计算机设备和存储介质

Info

Publication number: CN111105782B
Application number: CN201911182948.2A
Authority: CN
Inventors: 刘诗淼
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2022-10-11
Anticipated expiration: 2039-11-27
Also published as: CN111105782A

Abstract

本申请涉及一种会话交互处理方法、装置、计算机设备和存储介质。所述方法包括：获取用户终端输入的语音信息；对语音信息进行语音端点检测和语音识别，得到语音信息对应的语音端点信息和会话信息；根据语音端点信息识别静默时长，根据上下文会话信息确定当前语境；根据静默时长和当前语境获取相匹配的应答策略信息，将应答策略信息发送至用户终端；持续根据用户终端输入的语音信息的静默时长和当前语境匹配相应的应答策略信息进行交互，直到匹配到预设的结束应答策略信息，将结束应答策略信息发送至用户终端。采用本方法能够有效提高应答信息的匹配准确度，从而有效提高了交互效率。

Description

会话交互处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种会话交互处理方法、装置、计算机设备和存储介质。

背景技术

随着人工智能技术的发展，语音识别技术和应用逐渐成熟，例如一些外呼机器人、聊天机器人、智能客服以及智能助手等，过语音识别、语义理解以及对话管理等人工智能技术，理解用户意图和提问，通过自然流畅的人机交互提供自主在线问答、咨询、指令执行等服务。

然而，在实际的语音交互场景中，用户长时间静默时，机器人通常会重复多次询问，交互应答处理上不灵活，容易使得语音交互不通畅或者用户迅速结束交互，导致用户和智能机器人之间的交互效率较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够有效提高应答信息的匹配准确度以有效提高交互效率的会话交互处理方法、装置、计算机设备和存储介质。

一种会话交互处理方法，所述方法包括：

获取用户终端输入的语音信息；

对所述语音信息进行语音端点检测和语音识别，得到所述语音信息对应的语音端点信息和会话信息；

根据所述语音端点信息识别静默时长，根据上下文会话信息确定当前语境；

根据所述静默时长和所述当前语境获取相匹配的应答策略信息，将所述应答策略信息发送至所述用户终端；

持续根据所述用户终端输入的语音信息的静默时长和当前语境匹配相应的应答策略信息进行交互，直到匹配到预设的结束应答策略信息，将所述结束应答策略信息发送至所述用户终端。

在其中一个实施例中，所述对所述语音信息进行语音端点检测和语音识别，得到所述语音信息对应的语音端点信息包括：将所述语音信息输入至所述语音识别模型，通过所述语音识别模型提取所述语音信息对应的声学特征和频谱特征；根据所述声学特征和频谱特征识别所述语音信息的背景音信号和主语音信号；根据所述背景音信号和主语音信号的声学特征和频谱特征识别所述语音信息的起始点和终止点；根据所述语音信息的起始点和终止点确定所述语音信息的语音端点信息。

在其中一个实施例中，所述根据所述语音端点信息识别静默时长包括：根据所述语音端点信息确定所述语音信息的一个或多个语音信号片段；根据所述主语音信号和时序识别所述语音信息的语音片段和非语音片段；根据所述语音片段和所述非语音片段分别确定语音时长和静默时长。

在其中一个实施例中，所述根据上下文会话信息确定当前语境包括：获取当前会话对应的上下文会话信息；根据所述上下文会话信息对所述语音信息对应的文本信息进行上下文分析，得到所述文本信息的文本语义和实体信息；根据所述文本语义和实体信息确定文本信息对应的用户意图，根据所述用户意图确定所述语音信息的业务类型；根据所述文本语义、所述用户意图和所述业务类型确定所述语音信息对应的当前语境。

在其中一个实施例中，所述方法还包括：根据所述业务类型获取对应的会话节点信息；根据所述上下文会话信息和所述实体信息对当前会话进行对话状态追踪，得到历史会话节点；根据所述当前语境和所述历史会话节点确定所述语音信息对应的当前会话节点。

在其中一个实施例中，所述根据所述静默时长和所述当前语境获取相匹配的应答策略信息包括：根据所述业务类型和所述当前语境确定所述当前会话节点的节点权重；根据所述用户意图、所述节点权重和所述静默时长确定所述语音信息对应的应答策略。

在其中一个实施例中，所述应答策略包括静默应答策略，所述根据所述静默时长和所述当前语境获取相匹配的应答策略信息包括：当所述语音信息中的静默时长达到预设阈值时，根据所述静默时长和所述当前语境识别对应的静默意图；根据所述节点权重和所述静默意图确定所述语音信息的静默应答策略；根据所述静默应答策略获取相匹配的应答策略信息，并根据所述静默应答策略对当前会话进行对应的应答处理。

在其中一个实施例中，所述应答策略包括业务信息，所述根据所述静默时长和所述当前语境获取相匹配的应答策略信息包括：当所述语音信息中的语音时长满足条件阈值时，根据所述业务类型和所述用户意图获取所述当前会话节点对应的业务信息；计算所述用户意图与业务数据库中多个业务信息的匹配度；获取所述匹配度达到匹配度阈值的业务信息，将所述业务信息确定为所述语音信息对应的应答策略信息。

在其中一个实施例中，所述方法还包括：获取历史会话节点信息，根据所述历史会话节点信息确定静默次数；根据所述静默次数、所述静默时长和所述当前语境确定当前会话节点的应答策略信息；将所述结束应答策略信息发送至所述用户终端进行交互；当匹配到结束应答策略信息时，将所述结束应答策略信息发送至所述用户终端，并结束当前会话。

一种会话交互处理装置，所述装置包括：

信息获取模块，用于获取用户终端输入的语音信息；

语音识别模块，用于对所述语音信息进行语音端点检测和语音识别，得到所述语音信息对应的语音端点信息和会话信息；根据所述语音端点信息识别静默时长，根据上下文会话信息确定当前语境；

应答决策模块，用于根据所述静默时长和所述当前语境获取相匹配的应答策略信息，将所述应答策略信息发送至所述用户终端；

会话交互模块，用于持续根据所述用户终端输入的语音信息的静默时长和当前语境匹配相应的应答策略信息进行交互，直到匹配到预设的结束应答策略信息，将所述结束应答策略信息发送至所述用户终端。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现本申请任意一个实施例中提供的会话交互处理方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本申请任意一个实施例中提供的会话交互处理方法的步骤。

上述会话交互处理方法、装置、计算机设备和存储介质，获取用户终端输入的语音信息后，对语音信息进行语音端点检测和语音识别，得到语音信息对应的语音端点信息和会话信息。根据语音端点信息识别静默时长，根据上下文会话信息确定当前语境，由此能够准确有效地识别出语音信息的静默时长和对应的当前语境。进而根据静默时长和当前语境获取相匹配的应答策略信息，将应答策略信息发送至用户终端。持续根据用户终端输入的语音信息的静默时长和当前语境匹配相应的应答策略信息进行交互，直到匹配到预设的结束应答策略信息，将结束应答策略信息发送至用户终端。通过识别用户输入语音信息的静默状态和当前语境匹配相应的应答策略，由此能够灵活有效地根据用户的反应和静默状态进行应答，从而能够有效提高语境识别准确度和应答准确度，进而有效提高了交互效率。

附图说明

图1为一个实施例中会话交互处理方法的应用场景图；

图2为一个实施例中会话交互处理方法的流程示意图；

图3为一个实施例中识别静默时长步骤的流程示意图；

图4为一个实施例中匹配的应答策略信息步骤的流程示意图；

图5为一个实施例中匹配的应答策略信息步骤的流程示意图；

图6为一个实施例中会话交互处理装置的结构框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的会话交互处理方法，可以应用于如图1所示的应用环境中。其中，用户终端102通过网络与服务器104进行通信。服务器104获取用户终端102输入的语音信息后，对语音信息进行语音端点检测和语音识别，得到语音信息对应的语音端点信息和会话信息。服务器104则根据语音端点信息识别静默时长，根据上下文会话信息确定当前语境。服务器104进而根据静默时长和当前语境获取相匹配的应答策略信息，将应答策略信息发送至用户终端102。服务器104则持续根据用户终端102输入的语音信息的静默时长和当前语境匹配相应的应答策略信息进行交互，直到匹配到预设的结束应答策略信息，将结束应答策略信息发送至用户终端102。其中，用户终端102可以但不限于是各种智能机器人、个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种会话交互处理方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，获取用户终端输入的语音信息。

用户可以通过用户终端中部署的智能交互应用与服务器进行人机交互，例如常见的智能咨询交互系统以及智能呼叫机器人系统等。其中，智能呼叫机器人可以针对企业的业务进行外呼，还可以根据用户的呼入请求进行相应业务的交互处理，以实现相关业务场景的自动化和智能化信息交互。例如，可以应用于智能客服或售后服务平台等电话场景中。

其中，用户可以通过用户终端部署的交互应用进行语音交互，用户终端输入语音信息并发送至服务器对应的智能交互系统，服务器进而对接收的语音信息进行进一步处理，并获取相应的应答信息以进行交互。服务器返回的应答信息也可以为语音形式的应答信息，应答信息中还可以包括文本信息等其他形式的信息内容。

其中，在人机交互的过程中，用户可能会保持静默或者不方便语音通话等，因此，用户终端发送的语音信息中可能包括静默状态的语音信息。

步骤204，对语音信息进行语音端点检测和语音识别，得到语音信息对应的语音端点信息和会话信息。

其中，服务器可以利用预先训练的语音识别模型对语音信息进行语音端点检测和语音识别。语音识别模型为预先利用大量语音样本数据进行训练得到的。例如，语音识别模型可以由深度学习模型等基于神经网络模型进行训练所得到的。

服务器接收到终端发送的语音信息后，将语信息输入至已训练的语音识别模型中，通过语音识别模型对语音信息进行语音识别，识别语音信息的语音环境特征和语音信息对应的文本信息。

具体地，服务器获取语音信息后，获取语音信息对应的带噪语音信号，服务器可以对带噪语音信号进行噪声抑制等预处理，提取出带噪语音信号对应的语音信号特征。例如，语音信号特征可以为频谱特征等语音特征。

服务器进而根据带噪语音信号的语音信号特征识别语音信息的背景噪音和主语音信号，服务器根据主语音信号的声学特征和频谱特征识别语音信息的起始点和终止点，并根据语音信息的起始点和终止点确定语音端点信息。

步骤206，根据语音端点信息识别静默时长，根据上下文会话信息确定当前语境。

其中，静默时长可以表示在语音交互中，用户保持沉默的时间。上下文会话信息表示当前会话中所交互的会话信息，包括当前的语音信息和当前会话中的历史会话信息。历史会话信息可以为历史语音信息对应的文本信息。

服务器进而可以根据语音信息的起始点和终止点确定语音片段和非语音片段，其中，非语音片段则可以表示用户处于静默状态的语音片段。服务器并根据确定语音片段和非语音片段确定语音时长和静默时长。服务器还可以根据语音信息的片段时长确定静默时长的占比。

服务器识别出语音信息对应的文本信息后，还可以进一步对文本信息进行上下文分析，根据当前语音信息的上下文会话信息识别得到当前文本信息的当前语境。

例如，用户终端与服务器进行交互的过程中会产生多轮会话对应的会话信息，服务器在分析每一轮会话信息时，都可以获取当前回话中的历史会话信息，并结合历史会话信息对当前的文本信息进行上下文语义分析处理，从而得到较为准确的文本信息对应的当前语境。

步骤208，根据静默时长和当前语境获取相匹配的应答策略信息，将应答策略信息发送至用户终端。

服务器识别出当前语音信息对应的静默时长和当前语境后，根据静默时长和当前语境获取相匹配的应答策略信息。具体地，服务器可以根据静默时长和当前语境计算与数据库中的多个应答策略信息的匹配度，获取匹配度最高的应答策略信息，作为与当前语音信息对应的应答策略信息，并将应答策略信息发送至用户终端。

其中，服务器将应答策略信息返回至用户终端时，还可以将应答策略信息转换为对应的语音形式的应答信息发送至用户终端，以进行语音交互。

进一步地，服务器还可以根据语音信息的当前语境确定对应的业务类型和用户意图，进而根据业务类型和用户意图以及静默时长确定相匹配的应答策略信息。

例如，服务器识别出用户终端发送的语音信息中的静默时长超过预设阈值时，表示用户长时间静默，服务器则可以进行话术重拨、再次澄清、询问客户观点等多种应答策略信息，当用户多次静默时，服务器还可以进行挂机结束会话等应答策略。

步骤210，持续根据用户终端输入的语音信息的静默时长和当前语境匹配相应的应答策略信息进行交互，直到匹配到预设的结束应答策略信息，将结束应答策略信息发送至用户终端。

服务器根据当前的语音信息对应的静默时长和当前语境获取相匹配的应答策略信息，并将应答策略信息发送至用户终端以进行人机会话交互。服务器将当前语音信息对应的应答策略信息发送至用户终端后，持续获取用户终端输入的语音信息，并对语音信息进行语音端点检测和语音识别得到静默时长和当前语境，进而根据输入的语音信息的静默时长和当前语境匹配相应的应答策略信息持续与用户终端进行交互。直到服务器匹配得到用户输入语音信息对应的预设的结束应答策略信息，将结束应答策略信息发送至用户终端，并进行会话挂断结束处理，以结束当前会话。通过识别用户输入语音信息的静默状态，并根据用户静默状态匹配相应的应答策略，由此能够灵活有效地根据用户的反应和静默状态进行应答，从而能够有效提高语境识别准确度和应答准确度，有效保障了用户在语音交互过程中的满意度。

例如在电话销售的业务场景下，若服务器向用户终端询问用户“有一款新产品是否要介绍一下？”当服务器识别出用户静默时，服务器可以将当前语境理解为用户不需要，则不再会介绍，服务器则向用户终端发送“那不好意思，打扰您了”的应答策略信息，并采用挂断的应答策略以结束当前会话。

上述会话交互处理方法中，服务器获取用户终端输入的语音信息后，对语音信息进行语音端点检测和语音识别，得到语音信息对应的语音端点信息和会话信息。服务器则根据语音端点信息识别静默时长，根据上下文会话信息确定当前语境，由此能够准确有效地识别出语音信息的静默时长和对应的当前语境。服务器进而根据静默时长和当前语境获取相匹配的应答策略信息，将应答策略信息发送至用户终端。服务器则持续根据用户终端输入的语音信息的静默时长和当前语境匹配相应的应答策略信息进行交互，直到匹配到预设的结束应答策略信息，将结束应答策略信息发送至用户终端。通过识别用户输入语音信息的静默状态和当前语境匹配相应的应答策略，由此能够灵活有效地根据用户的反应和静默状态进行应答，从而能够有效提高语境识别准确度和应答准确度，进而有效提高了交互效率。

在一个实施例中，对语音信息进行语音端点检测和语音识别，得到语音信息对应的语音端点信息包括：将语音信息输入至语音识别模型，通过语音识别模型提取语音信息对应的声学特征和频谱特征；根据声学特征和频谱特征识别语音信息的背景音信号和主语音信号；根据背景音信号和主语音信号的声学特征和频谱特征识别语音信息的起始点和终止点；根据语音信息的起始点和终止点确定语音信息的语音端点信息。

其中，用户终端输入的语音信息可以为带噪语音信号。其中，声学特征可以包括带噪语音信号的清音、浊音，元音、辅音等特征信息。频谱特征可以包括带噪语音信号的振动频率、震动幅度以及带噪语音信号的响度、音色等特征信息。

服务器获取用户终端输入的语音信息后，将语音信息输入至已训练的语音识别模型中，利用语音识别模型对语音信息进行语音识别和情绪识别。具体地，服务器将语音信息对应的带噪语音信号输入至语音识别模型中，通过语音识别模型对带噪语音信号进行预处理，例如可以对带噪语音信号进行加窗分帧、以及快速傅里叶转换等预处理，由此可以得到带噪语音信号的频谱。服务器则提取出带噪语音信号对应的声学特征和频谱特征。例如可以通过梅尔倒谱系数(Mel-Frequency Cepstral Coefficients,MFCCs)进行频谱特征提取，得到相应的特征信息。

服务器进一步利用语音识别模型对根据声学特征和频谱特征对带噪语音信号进行端点检测和语音特征提取，具体地，服务器通过语音识别模型根据根据声学特征和频谱特征识别出带噪语音信号的背景音信号和主语音信号。背景音信号和主语音信号可以为分段的语音片段。

其中，主语音信号可以为人声语音信号，服务器可以利用语音识别模型中的声学模型识别出语音信号中的主语音信号。背景音信号则可以为非人声的背景噪音信号或静默信号等信号片段。

具体地，服务器还可以将声学特征转换为对应的声学特征向量，将频谱特征转换为对应的频谱特征向量。服务器进而通过语音识别模型对声学特征向量和频谱特征向量进行分类识别，识别语音类的声学特征向量和频谱特征向量和非语音类的声学特征向量和频谱特征向量。服务器根据分类识别结果对声学特征向量和频谱特征向量添加语音标签和非语音标签，从而提取出语音标签对应的语音信号。服务器可以将非语音标签对应的语音信号确定为背景音信号，并将添加语音标签的语音信号确定为主语音信号。

由于语音信号具有时序，添加了语音标签后的语音信号的时序仍然与输入的语音信息的时序相对应。服务器将添加了语音标签的声学特征向量和添加了语音标签的频谱特征向量解析为对应的添加了语音标签的语音信号。服务器由此能够根据语音信号的语音标签和时序确定带噪语音信号对应的起始点和终止点，进而根据语音信息的起始点和终止点确定语音信息的语音端点信息，由此能够准确有效地识别出语音信息的语音端点信息。

在一个实施例中，如图3所示，根据语音端点信息识别静默时长的步骤，具体包括以下步骤：

步骤302，根据语音端点信息确定语音信息的一个或多个语音信号片段。

步骤304，根据主语音信号和时序识别语音信息的语音片段和非语音片段。

步骤306，根据语音片段和非语音片段分别确定语音时长和静默时长。

服务器获取用户终端输入的语音信息后，将语音信息输入至语音识别模型，通过语音识别模型提取语音信息对应的声学特征和频谱特征；根据声学特征和频谱特征识别语音信息的背景音信号和主语音信号；根据主语音信号的声学特征和频谱特征识别语音信息的起始点和终止点；根据语音信息的起始点和终止点确定语音信息的语音端点信息。

服务器识别出语音信息的语音端点信息后，则可以根据语音端点信息中的起始点和终止点确定语音信号的一个或多个语音片段。其中，服务器可以根据识别出的背景音信号和主语音信号的语音端点信息确定对应的背景音信号片段和主语音信号片段。具体地，服务器根据语音信号的时序将背景音信号片段确定为对应的非语音片段，并根据语音信号的时序将主语音信号片段确定为对应的语音片段。

其中，语音片段和非语音片段均为连续的语音信号片段，语音时长表示用户在语音交互过程中用户说话的时长，静默时长用户在语音交互过程中保持沉默没有说话的时长。

服务器识别出语音信息中的语音片段和非语音片段后，进而可以根据语音片段确定对应的语音时长，并根据非语音片段确定对应的静默时长，由此能够准确有效地识别出用户在语音交互中的静默时长。

在一个实施例中，根据上下文会话信息确定当前语境包括：获取当前会话对应的上下文会话信息；根据上下文会话信息对语音信息对应的文本信息进行上下文分析，得到文本信息的文本语义和实体信息；根据文本语义和实体信息确定文本信息对应的用户意图，根据用户意图确定语音信息的业务类型；根据文本语义、用户意图和业务类型确定语音信息对应的当前语境。

服务器获取用户终端输入的语音信息后，通过语音识别模型对语音信息进行语音识别，识别语音信息的语音环境特征，能够准确地识别出语音信息的语音环境特征。同时提取语音信息对应的文本信息，对文本信息进行上下文分析，从而能够准确有效地得到文本信息的语义环境特征。

具体地，服务器通过语音识别模型提取出语音信息对应的文本信息后，还可以获取当前会话中的多轮历史会话信息，对当前语音信息的文本信息进行分词和特征提取，提取出多个文本词对应的文本词向量。服务器进而结合历史的会话信息对当前语音信息的文本信息进行上下文分析，根据历史会话信息的语义环境特征得到当前文本信息的文本语义。服务器计算当前文本信息的多个文本词向量的实体特征，根据实体特征提取语音信息中的实体关键词，将实体关键词和对应的实体特征类别确定为语音信息的实体信息。服务器进而根据文本语义和实体信息确定文本信息对应的用户意图，并根据用户意图确定语音信息的业务类型。

服务器识别出当前语音信息的文本语义、用户意图以及业务类型后，进而根据文本语义、用户意图和业务类型确定语音信息对应的语义环境特征，并将语义环境特征确定为语音信息的当前语境，由此能够准确地识别出当前语音信息的当前语境。由此能够准确有效地识别语音信息的语义，使得服务器根据静默时长和当前语境能够进一步准确地识别出语音信息对应的静默意图，从而能够有效获取更为匹配的应答信息进行交互，有效提高了交互效率。

在一个实施例中，该方法还包括：根据业务类型获取对应的会话节点信息；根据上下文会话信息和实体信息对当前会话进行对话状态追踪，得到历史会话节点；根据当前语境和历史会话节点确定语音信息对应的当前会话节点。

其中，对话状态追踪(Dialogu State Tracing，DST)用于表示根据所有对话历史信息推断当前对话状态，对话状态可以包括用户意图和会话节点等持续对话所需要的各种信息。服务器可以根据最新的机器会话和用户会话更新对话状态，以确定当前状态下机器人服务器应如何进行答复，也即采取何种最优的应答策略。

其中，服务器中部署了多个业务类型对应的智能交互系统，每个业务类型可以预先配置有对应的多个会话节点。

具体地，服务器获取用户终端输入的语音信息后，对语音信息进行语音端点检测和语音识别，得到语音信息对应的语音端点信息和会话信息，根据语音端点信息识别静默时长，并根据上下文会话信息确定当前语境。

服务器还可以识别当前语音信息对应的当前会话节点。具体地，服务器通过语音识别模型提取出语音信息对应的文本信息后，还可以获取当前会话中的多轮历史会话信息，对当前语音信息的文本信息进行分词和特征提取，提取出多个文本词对应的文本词向量。服务器进而结合历史的会话信息对当前语音信息的文本信息进行上下文分析，根据历史会话信息的语义环境特征得到当前文本信息的文本语义。服务器计算当前文本信息的多个文本词向量的实体特征，根据实体特征提取语音信息中的实体信息。服务器进而根据文本语义和实体信息确定文本信息对应的用户意图，并根据用户意图确定语音信息的业务类型。

服务器识别出当前语音信息的文本语义、用户意图以及业务类型后，进而根据文本语义、用户意图和业务类型确定语音信息对应的当前语境。

服务器识别出语音信息的业务类型后，由此可以根据业务类型获取对应的会话节点信息。服务器进而根据上下文会话信息和实体信息对当前会话进行对话状态追踪，得到历史会话节点。具体地，服务器获取每轮会话对应的会话状态信息，会话状态信息中包括了每轮会话的会话节点，由此可以得到当前会话的历史会话节点。服务器则根据当前语境和历史会话节点确定语音信息对应的当前会话节点。通过对会话进行会话节点追踪，能够有效识别当前会话节点，以进行相应的回复，进而能够有效提高人机交互效率。

在一个实施例中，根据静默时长和当前语境获取相匹配的应答策略信息包括：根据业务类型和当前语境确定当前会话节点的节点权重；根据用户意图、节点权重和静默时长确定语音信息对应的应答策略。

其中，服务器中部署了多个业务类型对应的智能交互系统，服务器中预先配置了业务配置表，业务配置表中配置了多种业务类型的业务配置信息，业务配置信息包括会话节点应答策略等信息。其中，每个业务类型可以预先配置有对应的多个会话节点，每个会话节点还可以配置有相应的应答策略。

服务器根据业务类型获取对应的会话节点信息，根据上下文会话信息和实体信息对当前会话进行对话状态追踪，得到历史会话节点，进而根据当前语境和历史会话节点确定语音信息对应的当前会话节点。服务器确定当前语音信息对应的当前会话节点后，还可以进一步获取当前会话节点的节点权重。

具体地，每个业务类型可以预先配置有对应的多个会话节点，其中，业务配置表中还可以包括每个会话节点相应的重要程度等级。服务器则可以直接根据业务类型获取当前会话节点的重要程度等级，并根据重要程度等级确定当前会话节点的节点权重。

进一步地，服务器还可以根据业务类型和当前语境计算出当前会话节点的节点权重。具体地，服务器可以根据业务类型和当前语境对应的用户意图利用预设算法计算出当前会话节点的节点权重。

服务器进而根据用户意图和节点权重以及静默时长确定语音信息对应的应答策略。其中，应答策略可以包括用户意图对应的应答信息以及静默应答策略。例如，服务器可以根据节点权重确定当前会话节点是否可以直接跳过，若当前会话节点为可直接跳过的会话节点时，服务器则可以跳过当前会话节点进行下一会话节点或挂断处理等。若当前会话节点为不可直接跳过的会话节点时，则确定相应的应答策略。由此能够有效地获取当前会话节点对应的应答策略。

在一个实施例中，如图4所示，根据静默时长和当前语境获取相匹配的应答策略信息的步骤，具体包括以下内容：

步骤402，当语音信息中的静默时长达到预设阈值时，根据静默时长和当前语境识别对应的静默意图。

步骤404，根据节点权重和静默意图确定语音信息的静默应答策略。

步骤406，根据静默应答策略获取相匹配的应答策略信息，并根据静默应答策略对当前会话进行对应的应答处理。

服务器对用户终端输入的语音信息进行语音端点检测和语音识别，得到语音信息对应的语音端点信息和会话信息，根据语音端点信息识别静默时长，并根据上下文会话信息确定当前语境后，服务器进而根据静默时长和当前语境获取相匹配的应答策略信息。

服务器根据当前语境和历史会话节点确定语音信息对应的当前会话节点，根据业务类型和当前语境确定当前会话节点的节点权重。当语音信息中的静默时长达到预设阈值时，表示用户在交互中长时间静默。服务器则采取相应的应答策略。

其中，静默意图可以表示用户在静默状态下的用户意图，例如，静默意图可以包括用户不想回答、静默思考以及未及时回答等用户意图。静默应答策略可以包括话术重拨、解释澄清、观点询问、结束话术以及挂机操作等应答处理策略。

具体地，服务器根据静默时长和当前语境识别对应的静默意图，服务器进而根据节点权重和静默意图确定语音信息的静默应答策略。例如服务器根据节点权重确定当前会话节点是否为可跳过节点，若为不可跳过节点，服务器则确定当前会话节点对应的静默应答策略。进而根据静默应答策略获取相匹配的应答策略信息，并根据静默应答策略对当前会话进行对应的应答处理。服务器持续根据用户终端输入的语音信息的静默时长和当前语境匹配相应的应答策略信息进行交互，直到匹配到预设的结束应答策略信息，将结束应答策略信息发送至用户终端。

例如，当服务器识别出用户输入的语音信息中的静默时长超过预设时长时，且当前会话节点无法跳过时，服务器则可以采取话术重拨的应答策略，将上一轮会话的信息重新发送至用户终端。当服务器再次识别到用户输入的语音信息中的静默时长超过预设时长时，服务器可以采取解释澄清的应答策略，即换个问法再次解释澄清，并向用户终端发送相应的会话信息。若服务器多次识别到用户输入的语音信息中的静默时长超过预设时长时，服务器则可以采取挂机操作的应答策略并结束当前会话。通过识别用户输入语音信息的静默状态，并根据用户静默状态匹配相应的应答策略，由此能够灵活有效地根据用户的反应和静默状态进行应答。

在一个实施例中，如图5所示，应答策略包括业务信息，根据静默时长和当前语境获取相匹配的应答策略信息的步骤，具体包括以下内容：

步骤502，当语音信息中的语音时长满足条件阈值时，根据业务类型和用户意图获取当前会话节点对应的业务信息。

步骤504，计算用户意图与业务数据库中多个业务信息的匹配度。

步骤506，获取匹配度达到匹配度阈值的业务信息，将业务信息确定为语音信息对应的应答策略信息。

服务器根据当前语境和历史会话节点确定语音信息对应的当前会话节点，根据业务类型和当前语境确定当前会话节点的节点权重。当语音信息中的语音时长满足条件阈值时，例如语音信息中包含有用户语音时，表示用户在交互中有进行相应的语音交互，服务器则采取相应的应答策略进行应答。

其中，业务类型对应了相应的业务数据库，业务数据库中包括若干业务信息。业务信息可以包括业务数据和业务应答信息等。

当语音信息中的语音时长满足条件阈值时，服务器根据业务类型和用户意图获取当前会话节点对应的业务信息。具体地，服务器根据业务类型确定对应的业务数据库，进而计算用户意图与业务数据库中多个业务信息的匹配度，获取匹配度达到匹配度阈值的业务信息，例如可以获取匹配度最高的业务信息。服务器则将该业务信息确定为当前会话节点的应答策略信息，并将应答策略信息发送至用户终端。服务器持续根据用户终端输入的语音信息的静默时长和当前语境匹配相应的应答策略信息进行交互，直到匹配到预设的结束应答策略信息，将结束应答策略信息发送至用户终端。通过识别用户输入语音信息的静默状态和语音状态匹配相应的应答策略，由此能够灵活有效地根据用户的反应进行应答，从而能够有效提高语境识别准确度和应答准确度，进而有效提高了交互效率。

在一个实施例中，该方法还包括：获取历史会话信息，根据历史会话信息确定静默次数；根据静默次数、静默时长和当前语境确定当前会话节点的应答策略信息；将结束应答策略信息发送至用户终端进行交互；当匹配到结束应答策略信息时，将结束应答策略信息发送至用户终端，并结束当前会话。

其中，历史会话信息中可以包括每一轮会话的语音时长和静默时长。静默次数表示用户在会话交互过程中所累计的静默次数。

服务器获取用户终端输入的语音信息后，识别出语音信息对应的语音时长和静默时长，并根据上下文会话信息确定当前语境。服务器还可以识别当前语音信息对应的当前会话节点，并获取当前会话中的多轮历史会话信息。当每一轮会话中的静默时长超过预设时长时，服务器可以对相应的语音信息添加静默标签。

服务器则可以根据历史会话信息和当前语音信息的静默时长确定用户在当前会话节点所累计的静默次数。服务器进而根据静默次数、静默时长和当前语境确定当前会话节点的应答策略信息，并将结束应答策略信息发送至用户终端进行交互。服务器持续识别用户终端输入的语音信息的静默时长和当前语境，并根据静默次数、静默时长和当前语境确定相应会话节点的应答策略信息，以持续进行会话交互。当服务器匹配到结束应答策略信息时，将结束应答策略信息发送至用户终端，并结束当前会话。

例如，当服务器第一次识别出用户输入的语音信息中的静默时长超过预设时长时，且当前会话节点无法跳过时，服务器则可以采取话术重拨的应答策略，将上一轮会话的信息重新发送至用户终端。当服务器第二次识别到用户输入的语音信息中的静默时长超过预设时长时，服务器可以采取解释澄清的应答策略，即换个问法再次解释澄清，并向用户终端发送相应的会话信息。若服务器多次识别到用户输入的语音信息中的静默时长超过预设时长时，例如静默次数达到三次，服务器则可以采取挂机操作的应答策略并结束当前会话。通过识别用户输入语音信息的静默状态，并根据用户静默状态匹配相应的应答策略，由此能够灵活有效地根据用户的反应和静默状态进行应答。

举例说明，例如在客服售后服务的业务场景下，服务器可以主动向用户终端发起语音通话进行会话交互。具体的会话内容可以如下：

服务器：“请问您是张三先生吗？”

用户：长时间静默。

服务器：“请问您是张三先生吗？”

用户：长时间静默。

服务器：“您好，我这边是XX银行和您确认房贷事宜的，请问您是张三先生吗？”

用户：“我是。”

服务器：“这边通知您的房贷申请已经通过，请查收。”

用户：长时间静默。

服务器：“那这边就不打扰您了，稍后会以短信形式通知您，再见。”并挂机处理。

例如，在上述举例内容中，识别到用户静默次数达到预设的三次后，服务器则可以采取挂机操作的应答策略，向用户终端发送相应的应答信息后结束当前会话。通过识别用户输入语音信息的静默状态和静默次数匹配相应的应答策略，由此能够灵活有效地根据用户的反应和静默状态进行应答，有效保证了用户满意度，能够有效避免用户主动结束对话。

应该理解的是，虽然图2-5的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-5中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图6所示，提供了一种会话交互处理装置，包括：信息获取模块602、语音识别模块604、应答决策模块606和会话交互模块608，其中：

信息获取模块602，用于获取用户终端输入的语音信息；

语音识别模块604，用于对语音信息进行语音端点检测和语音识别，得到语音信息对应的语音端点信息和会话信息；根据语音端点信息识别静默时长，根据上下文会话信息确定当前语境；

应答决策模块606，用于根据静默时长和当前语境获取相匹配的应答策略信息，将应答策略信息发送至用户终端；

会话交互模块608，用于持续根据用户终端输入的语音信息的静默时长和当前语境匹配相应的应答策略信息进行交互，直到匹配到预设的结束应答策略信息，将结束应答策略信息发送至用户终端。

在一个实施例中，语音识别模块604还用于将语音信息输入至语音识别模型，通过语音识别模型提取语音信息对应的声学特征和频谱特征；根据声学特征和频谱特征识别语音信息的背景音信号和主语音信号；根据背景音信号和主语音信号的声学特征和频谱特征识别语音信息的起始点和终止点；根据语音信息的起始点和终止点确定语音信息的语音端点信息。

在一个实施例中，语音识别模块604还用于根据语音端点信息确定语音信息的一个或多个语音信号片段；根据主语音信号和时序识别语音信息的语音片段和非语音片段；根据语音片段和非语音片段分别确定语音时长和静默时长。

在一个实施例中，语音识别模块604还用于获取当前会话对应的上下文会话信息；根据上下文会话信息对语音信息对应的文本信息进行上下文分析，得到文本信息的文本语义和实体信息；根据文本语义和实体信息确定文本信息对应的用户意图，根据用户意图确定语音信息的业务类型；根据文本语义、用户意图和业务类型确定语音信息对应的当前语境。

在一个实施例中，语音识别模块604还用于根据业务类型获取对应的会话节点信息；根据上下文会话信息和实体信息对当前会话进行对话状态追踪，得到历史会话节点；根据当前语境和历史会话节点确定语音信息对应的当前会话节点。

在一个实施例中，应答决策模块606还用于根据业务类型和当前语境确定当前会话节点的节点权重；根据用户意图、节点权重和静默时长确定语音信息对应的应答策略。

在一个实施例中，应答策略包括静默应答策略，应答决策模块606还用于当语音信息中的静默时长达到预设阈值时，根据静默时长和当前语境识别对应的静默意图；根据节点权重和静默意图确定语音信息的静默应答策略；根据静默应答策略获取相匹配的应答策略信息，并根据静默应答策略对当前会话进行对应的应答处理。

在一个实施例中，应答策略包括业务信息，应答决策模块606还用于当语音信息中的语音时长满足条件阈值时，根据业务类型和用户意图获取当前会话节点对应的业务信息；计算用户意图与业务数据库中多个业务信息的匹配度；获取匹配度达到匹配度阈值的业务信息，将业务信息确定为语音信息对应的应答策略信息。

在一个实施例中，应答决策模块606还用于获取历史会话节点信息，根据历史会话节点信息确定静默次数；根据静默次数、静默时长和当前语境确定当前会话节点的应答策略信息；会话交互模块608还用于将结束应答策略信息发送至用户终端进行交互；当匹配到结束应答策略信息时，将结束应答策略信息发送至用户终端，并结束当前会话。

关于会话交互处理装置的具体限定可以参见上文中对于会话交互处理方法的限定，在此不再赘述。上述会话交互处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音信息、应答策略信息等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现本申请任意一个实施例中提供的会话交互处理方法的步骤。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现本申请任意一个实施例中提供的会话交互处理方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种会话交互处理方法，所述方法包括：

获取用户终端输入的语音信息；

根据所述语音信息的业务类型获取对应的会话节点信息；

根据所述上下文会话信息和所述语音信息对应的文本信息中的实体信息对当前会话进行对话状态追踪，得到历史会话节点；

根据所述当前语境和所述历史会话节点确定所述语音信息对应的当前会话节点；

根据所述业务类型和所述当前语境确定所述当前会话节点的节点权重；

根据用户意图、所述节点权重和所述静默时长确定所述语音信息对应的应答策略，将应答策略信息发送至所述用户终端；持续根据所述用户终端输入的语音信息的静默时长和当前语境匹配相应的应答策略信息进行交互，直到匹配到预设的结束应答策略信息，将所述结束应答策略信息发送至所述用户终端。

2.根据权利要求1所述的方法，其特征在于，所述对所述语音信息进行语音端点检测和语音识别，得到所述语音信息对应的语音端点信息包括：

将所述语音信息输入至语音识别模型，通过所述语音识别模型提取所述语音信息对应的声学特征和频谱特征；

根据所述声学特征和频谱特征识别所述语音信息的背景音信号和主语音信号；

根据所述背景音信号和主语音信号的声学特征和频谱特征识别所述语音信息的起始点和终止点；

根据所述语音信息的起始点和终止点确定所述语音信息的语音端点信息。

3.根据权利要求2所述的方法，其特征在于，所述根据所述语音端点信息识别静默时长包括：

根据所述语音端点信息确定所述语音信息的一个或多个语音信号片段；

根据所述主语音信号和时序识别所述语音信息的语音片段和非语音片段；

根据所述语音片段和所述非语音片段分别确定语音时长和静默时长。

4.根据权利要求1所述的方法，其特征在于，所述根据上下文会话信息确定当前语境包括：

获取当前会话对应的上下文会话信息；

根据所述上下文会话信息对所述语音信息对应的文本信息进行上下文分析，得到所述文本信息的文本语义和实体信息；

根据所述文本语义和实体信息确定文本信息对应的用户意图，根据所述用户意图确定所述语音信息的业务类型；

根据所述文本语义、所述用户意图和所述业务类型确定所述语音信息对应的当前语境。

5.根据权利要求1所述的方法，其特征在于，所述应答策略包括静默应答策略，所述方法还包括：

当所述语音信息中的静默时长达到预设阈值时，根据所述静默时长和所述当前语境识别对应的静默意图；

根据所述节点权重和所述静默意图确定所述语音信息的静默应答策略；

根据所述静默应答策略获取相匹配的应答策略信息，并根据所述静默应答策略对当前会话进行对应的应答处理。

6.根据权利要求1所述的方法，其特征在于，所述应答策略包括业务信息，所述方法还包括：

当所述语音信息中的语音时长满足条件阈值时，根据所述业务类型和所述用户意图获取所述当前会话节点对应的业务信息；

计算所述用户意图与业务数据库中多个业务信息的匹配度；

获取所述匹配度达到匹配度阈值的业务信息，将所述业务信息确定为所述语音信息对应的应答策略信息。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述方法还包括：

获取历史会话节点信息，根据所述历史会话节点信息确定静默次数；

根据所述静默次数、所述静默时长和所述当前语境确定当前会话节点的应答策略信息；

将所述结束应答策略信息发送至所述用户终端进行交互；

当匹配到结束应答策略信息时，将所述结束应答策略信息发送至所述用户终端，并结束当前会话。

8.一种会话交互处理装置，所述装置包括：

信息获取模块，用于获取用户终端输入的语音信息；

语音识别模块，用于对所述语音信息进行语音端点检测和语音识别，得到所述语音信息对应的语音端点信息和会话信息；根据所述语音端点信息识别静默时长，根据上下文会话信息确定当前语境；根据所述语音信息的业务类型获取对应的会话节点信息；根据所述上下文会话信息和所述语音信息对应的文本信息中的实体信息对当前会话进行对话状态追踪，得到历史会话节点；根据所述当前语境和所述历史会话节点确定所述语音信息对应的当前会话节点；

应答决策模块，用于根据所述业务类型和所述当前语境确定所述当前会话节点的节点权重；根据用户意图、所述节点权重和所述静默时长确定所述语音信息对应的应答策略，将应答策略信息发送至所述用户终端；

9.根据权利要求8所述的装置，其特征在于，所述语音识别模块，还用于将语音信息输入至语音识别模型，通过语音识别模型提取语音信息对应的声学特征和频谱特征；根据声学特征和频谱特征识别语音信息的背景音信号和主语音信号；根据背景音信号和主语音信号的声学特征和频谱特征识别语音信息的起始点和终止点；根据语音信息的起始点和终止点确定语音信息的语音端点信息。

10.根据权利要求9所述的装置，其特征在于，所述语音识别模块，还用于根据语音端点信息确定语音信息的一个或多个语音信号片段；根据主语音信号和时序识别语音信息的语音片段和非语音片段；根据语音片段和非语音片段分别确定语音时长和静默时长。

11.根据权利要求8所述的装置，其特征在于，所述语音识别模块，还用于获取当前会话对应的上下文会话信息；根据上下文会话信息对语音信息对应的文本信息进行上下文分析，得到文本信息的文本语义和实体信息；根据文本语义和实体信息确定文本信息对应的用户意图，根据用户意图确定语音信息的业务类型；根据文本语义、用户意图和业务类型确定语音信息对应的当前语境。

12.根据权利要求8所述的装置，其特征在于，所述应答策略包括静默应答策略，应答决策模块，还用于当语音信息中的静默时长达到预设阈值时，根据静默时长和当前语境识别对应的静默意图；根据节点权重和静默意图确定语音信息的静默应答策略；根据静默应答策略获取相匹配的应答策略信息，并根据静默应答策略对当前会话进行对应的应答处理。

13.根据权利要求8所述的装置，其特征在于，所述应答策略包括业务信息，应答决策模块，还用于当语音信息中的语音时长满足条件阈值时，根据业务类型和用户意图获取当前会话节点对应的业务信息；计算用户意图与业务数据库中多个业务信息的匹配度；获取匹配度达到匹配度阈值的业务信息，将业务信息确定为语音信息对应的应答策略信息。

14.根据权利要求8至13任一项所述的装置，其特征在于，所述应答决策模块，还用于获取历史会话节点信息，根据历史会话节点信息确定静默次数；根据静默次数、静默时长和当前语境确定当前会话节点的应答策略信息；会话交互模块，还用于将结束应答策略信息发送至用户终端进行交互；当匹配到结束应答策略信息时，将结束应答策略信息发送至用户终端，并结束当前会话。

15.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。