CN112995419A

CN112995419A - 一种语音对话的处理方法和系统

Info

Publication number: CN112995419A
Application number: CN202110162305.2A
Authority: CN
Inventors: 杨忠敏
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2021-02-05
Filing date: 2021-02-05
Publication date: 2021-06-18
Anticipated expiration: 2041-02-05
Also published as: CN112995419B

Abstract

本说明书实施例提供了一种语音对话的处理方法和系统，包括：获取用户语音，并得到用户语音对应的话语文本；确定话语文本的完整度；判断完整度是否满足预设条件：若满足，则将话语文本作为第一待处理文本送入后续处理流程；否则，等候以便得到第一额外的话语文本，并在等候持续语音等候时长之后，将话语文本作为第一待处理文本送入后续处理流程，或者基于话语文本以及第一额外的话语文本确定第一待处理文本并送入后续处理流程的方法和系统。还包括在播报机器人语音的过程中：检测新的用户语音；当检测到新的用户语音且用户语音状态为用户持续讲话时，获取话术文本中未播报内容中的分词时点，并在分词时点到来时停止播报。

Description

一种语音对话的处理方法和系统

技术领域

本申请涉及计算机技术领域，特别涉及语音对话的处理方法和系统。

背景技术

随着科技的飞速前进，智能语音对话在各种软件、系统、平台中进行了广泛的应用，具体地，智能语音对话可以应用于用户(人或者机器人、能够进行语音对话的其它生物和设备)与对话机器人之间的语音对话场景。例如，可以应用于互联网金融平台对用户进行自动催收、银行线上系统对用户进行自动的身份验证等需要智能外呼的场景。

在智能语音对话中，需要获取用户语音，并对用户语音进行处理得到对应的话术文本进行对话。用户在进行语音对话时，可能会出现不连续表达的情况。另一方面，在播报机器人语音的过程中，还可能会出现用户打断的情况。

为了应对智能语音对话中的前述情况，亟需语音对话的处理方法和系统。

发明内容

本说明书一个方面提供一种语音对话的处理方法，包括：获取用户语音，并得到所述用户语音对应的话语文本；确定所述话语文本的完整度；判断所述完整度是否满足预设条件：其中，通过完整度识别模型处理所述话语文本，以确定所述话语文本的完整度；若满足，则将所述话语文本作为第一待处理文本送入后续处理流程；否则，等候以便得到第一额外的话语文本，并在所述等候持续语音等候时长之后，将所述话语文本作为第一待处理文本送入后续处理流程，或者基于所述话语文本以及所述第一额外的话语文本确定第一待处理文本并送入后续处理流程。

本说明书另一个方面提供一种语音对话的处理系统，包括：第一语音获取模块：用于获取用户语音，并得到所述用户语音对应的话语文本；第一对话处理模块：用于确定所述话语文本的完整度；其中，通过完整度识别模型处理所述话语文本，以确定所述话语文本的完整度；并用于判断所述完整度是否满足预设条件：若满足，则将所述话语文本作为第一待处理文本送入后续处理流程；否则，等候以便得到第一额外的话语文本，并在所述等候持续语音等候时长之后，将所述话语文本作为第一待处理文本送入后续处理流程，或者基于所述话语文本以及所述第一额外的话语文本确定第一待处理文本并送入后续处理流程。

本说明书另一个方面提供另一种语音对话的处理方法，包括：获取用户语音，并得到所述用户语音对应的话语文本；基于所述话语文本确定待处理文本，所述待处理文本对应于当前的意图状态标识；通过对话机器人处理所述待处理文本，以基于所述意图状态标识对应的对话意图状态生成话术文本；其中，不同的意图状态标识对应不同的对话意图状态；更新意图状态标识；将所述话术文本转化为机器人语音，并播报。

本说明书另一个方面提供另一种语音对话的处理系统，包括：第二语音获取模块：用于获取用户语音，并得到所述用户语音对应的话语文本；第二对话处理模块：用于基于所述话语文本确定待处理文本，所述待处理文本对应于当前的意图状态标识；第一对话机器人模块：用于处理所述待处理文本，以基于所述意图状态标识对应的对话意图状态生成话术文本；其中，不同的意图状态标识对应不同的对话意图状态；以及更新意图状态标识；第一语音播报模块：用于将所述话术文本转化为机器人语音，并播报。

本说明书另一个方面提供另一种语音对话的处理方法，包括：获取用户语音，并得到所述用户语音对应的话语文本；基于所述话语文本确定待处理文本；通过对话机器人处理待处理文本，并生成话术文本；将所述话术文本转化为机器人语音，并播报；其中，在播报所述机器人语音的过程中：检测新的用户语音；当检测到新的用户语音且用户语音状态为用户持续讲话时，获取所述话术文本中未播报内容中的分词时点，并在所述分词时点到来时停止播报。

本说明书另一个方面提供另一种语音对话的处理系统，包括：第三语音获取模块，用于获取用户语音，并得到所述用户语音对应的话语文本；第三对话处理模块，用户基于所述话语文本确定待处理文本；第二对话机器人模块，用于处理待处理文本，并生成话术文本；第二语音播报模块，用于将所述话术文本转化为机器人语音，并播报；其中，在播报所述机器人语音的过程中：检测新的用户语音；当检测到新的用户语音且用户语音状态为用户持续讲话时，获取所述话术文本中未播报内容中的分词时点，并在所述分词时点到来时停止播报。

本说明书另一个方面提供一种语音对话的处理装置，包括至少一个存储介质和至少一个处理器，所述至少一个存储介质用于存储计算机指令；所述至少一个处理器用于执行所述计算机指令以实现前述任一种所述语音对话的处理方法。

附图说明

本说明书将以示例性实施例的方式进一步说明，这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的编号表示相同的结构，其中：

图1是根据本说明书一些实施例所示的语音对话的处理系统的应用场景示意图；

图2是根据本说明书一些实施例所示的一种语音对话的处理方法的示例性流程图；

图3是根据本说明书一些实施例所示的话语文本的完整度满足预设条件时语音对话的处理方法的示例性流程图；

图4是根据本说明书一些实施例所示的另一种语音对话的处理方法的示例性流程图；

图5是根据本说明书一些实施例所示的另一种语音对话的处理方法的示例性流程图；

图6是根据本说明书一些实施例所示的一种分词时点的示意图；

图7是根据本说明书一些实施例所示的一种语音对话的处理系统的框图；

图8是根据本说明书一些实施例所示的另一种语音对话的处理系统的框图；

图9是根据本说明书一些实施例所示的另一种语音对话的处理系统的框图。

具体实施方式

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本说明书的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

应当理解，本说明书中所使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换所述词语。

如本说明书和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。

本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

图1是根据本说明书一些实施例所示的语音对话的处理系统的应用场景示意图。

本说明书的一些实施例所示的语音对话的处理系统100可以应用在各种软件、系统、平台中实现智能语音对话，具体地，可以应用于用户(人或者机器人、能够进行语音对话的其它生物和设备)与对话机器人之间的语音对话场景。例如，语音对话的处理系统可以应用于互联网金融平台对用户进行自动催收、银行线上系统对用户进行自动的身份验证等需要智能外呼的场景。

在语音对话场景中，一般会有多轮对话，可以将对话双方在时间上先后出现的一对表述作为一轮对话，如用户提问“如何申请退款？”，对话处理系统(包括智能客服或对话机器人)回应“您可以点击以下链接进入到售后处理界面。”，可以看作一轮对话。在处理语音对话时，处理系统，如系统中的ASR(Automatic Speech Recognition，自动语音识别技术)模块，会采集当前轮的用户语音，将用户语音转换为话语文本，再将话语文本传输到后续流程，如系统中的对话机器人处，对话机器人对话语文本进行处理生成对应于当前轮对话的话术文本，之后，处理系统，如系统中的TTS(从文本到语音，Text To Speech)模块，将话术文本转化为语音并被播报给用户，自此，完成一轮用户与系统的语音对话。

然而在智能外呼的场景中，用户在进行语音对话时，可能会出现不连续表达的情况，即本来是一段完整的表达，但中间停顿了，且间隔时间较长，导致ASR模块将该段完整的表达被分割为了2条话语文本。在对用户语音对应的话语文本进行后续处理时，会将2条话语文本作为不同轮对话的用户的话语本文分别进行处理，进而造成语义不完整，生成不准确的话术文本，也会造成用户还未表达结束，机器人已经获取到了不完整表达的话语文本进行了处理并生成了对应话术文本，开始进行话术文本的播报，出现机器人抢话的情况。为了更好地应对用户不连续表达的情况，以提升智能语音对话的处理能力，本说明书中提出对获取的用户语音对应的话语文本确定其完整度，并通过话语文本的完整度判断获取的用户语音对应的话语文本是否是完整表达的话语，若不是则可以等候持续语音等候时长，并将语音等候时长内获取到的第一额外的话语文本与未完整表达的话语文本进行合并，可以实现在由于用户的不连续表达，造成本来是完整表达的话语被分割为2条话语时，将该2条话语进行合并后进行后续处理，避免语音对话的过程中出现机器人语音抢话的情况，提升了用户的体验，并且在后续对话语文本的处理中也避免了不完整话语的处理混乱，令后续处理更加准确。

在智能外呼的场景中，在播报机器人语音的过程中，还可能会出现用户打断的情况，即在播报机器人语音过程中，产生了用户语音。用户说话时，可以中断机器人语音的播报，以让用户进行表达。然而有时候当机器人语音播报过程中，用户只是发出“嗯”，“哦”等无实际含义的语气词，如果一旦听到用户语音即停止播报，将会影响用户体验。并且，在执行机器人语音播报的中止时，常常是在做出打断决策时，立即执行打断，造成语音播报停止地非常突兀和机械，如机器人语音将播报“希望”，当检测到用户语音立即执行播报中止的话，则可能在播报完“希”时就中止了，这样也会降低用户的体验。为了避免在播报机器人语音过程中，用户说话而进行影响机器人语音播报的效率，以及让打断执行时语音播报停止更加自然和可控，本说明书中提出在播报机器人语音的过程中进行检测新的用户语音，当检测到新的用户语音且用户语音状态为用户持续讲话时，就进行打断的决策，并获取话术文本中未播报内容中的分词时点，在所述分词时点到来时停止播报，即让打断执行时语音播报停止更加自然和可控。

如图1所示，语音对话的处理系统可以包括处理设备110、网络120和用户终端130。

在一些实施例中，处理设备110可以处理从其他设备或系统组成部分中获得的数据和/或信息。处理设备110可以基于这些数据、信息和/或处理结果执行程序指令，以执行一个或多个本说明书中描述的功能。如，处理设备可以接收用户语音并进行处理，输出机器人语音，以完成智能语音对话。在一些实施例中，处理设备110可以包含一个或多个子处理设备(例如，单核处理设备或多核多芯处理设备)。仅作为示例，处理设备110可以包括中央处理器(CPU)、专用集成电路(ASIC)、专用指令处理器(ASIP)、图形处理器(GPU)、物理处理器(PPU)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编辑逻辑电路(PLD)、控制器、微控制器单元、精简指令集电脑(RISC)、微处理器等或以上任意组合。

在一些实施例中，网络120可促进数据和/或信息的交换，数据或信息可以包括处理设备110输入的数据内容、存储的数据内容(例如话语文本、待处理文本、机器人语音)等。在一些实施例中，语音对话处理系统中的处理设备110可通过网络120发送数据和/或信息给用户终端130。例如，处理设备110可以将生成的机器人语音通过网络120发送到用户终端130，以进行语音播报。又例如，处理设备110可以通过网络120接收用户通过用户终端130输入的用户语音。在一些实施例中，网络120可是任意类型的有线或无线网络。例如，网络120可包括缆线网络、有线网络、光纤网络、电信网络、内部网络、网际网络、区域网络(LAN)、广域网络(WAN)、无线区域网络(WLAN)、都会区域网络(MAN)、公共电话交换网络(PSTN)、蓝牙网络、ZigBee网络、近场通讯(NFC)网络等或以上任意组合。在一些实施例中，网络120可包括一个或多个网络进出点。例如，网络120可包含有线或无线网络进出点，如基站和/或网际网络交换点120-1、120-2、…，通过这些进出点，修改区块链数据的系统中的若干个个节点可连接到网络120上以交换数据和/或信息。

用户终端130指用户所使用的一个或多个终端设备或软件。在一些实施例中，使用用户终端130的可以是一个或多个用户，可以包括直接使用服务的用户，也可以包括其他相关用户。在一些实施例中，用户终端130可以是移动设备130-1、平板计算机130-2、膝上型计算机130-3、台式计算机130-4等其他具有输入和/或输出功能的设备中的一种或其任意组合。

在一些实施例中，可以通过用户终端130获取用户语音和/或播报机器人语音，用户终端130还可以通过网络120将用户语音传输给处理设备110。

图2是根据本说明书一些实施例所示的一种语音对话的处理方法的示例性流程图。

如图2所示，该方法200可以包括：

步骤210，获取用户语音，并得到所述用户语音对应的话语文本。

具体的，该步骤210可以由第一语音获取模块710执行。

用户可以是机器人(例如自动应答机器人、将人的输入数据如文本、手势等转换为语音信号播报的机器人等)、人、能够进行语音对话的其它生物和设备等。

用户语音是指用户的语音信号，其包括自然语言对应的语音信号，例如人在一轮对话中说的话。

在一些实施例中，可以通过语音采集设备例如麦克风、声音传感器等获取用户语音，还可以通过从存储用户语音的存储空间中读取用户语音，本实施例对用户语音的获取方式不做限制。

话语文本是指语音信号对应的文本。在一些实施例中，可以通过将获取的语音信号进行语音到文本的转换，得到用户语音对应的话语文本，其中，语音到文本的转换可以采用语音转文本的转换工具，例如DSpeech、ASR(Automated Speech Recognition)转换算法等实现，还可以通过将获取的用户语音与语音数据库中语音进行比对，找到相同的语音，进而得到数据库中语音对应的话语文本作为用户语音的话语文本，这里对语音到文本的转换方法不做限制。

一般来说，在一轮语音对话中，将用户语音进行转换，得到的话语文本看作是一条相对完整、独立的话语文本。可以将一条话语文本看作是对应用户连续表达的一条自然语言文本，也就对应用户连续表达的一条语音信号，其中连续表达是指语音无间断或者间断未超过预设时间，预设时间可以根据经验或者实际需求设置。例如用户连续表达了一句语音“哦，我忘记了，我下班就处理”，该句用户语音对应的自然语言文本为一条话语文本。

在一些实施例中，获取用户语音还包括检测所述用户语音中静音及其持续时长：若静音的持续时长小于第二时长，则将相应静音前后的用户语音合并进行文本转换；否则基于相应静音将所述用户语音截断后分别进行文本转换。其中，第二时长可以根据经验或者实际需求设置，例如可以是50ms、100ms等。

静音是指没有用户语音信号产生，例如用户连续表达了一句话语S1，间断了5s再连续表达了下一句话语S2，间断时间中没有用户语音产生，对应的信号即为静音，静音的持续时长为间断时长5s。

示例性的，检测用户语音中静音及其持续时长可以通过VAD检测，VAD检测是指语音活动检测(Voice Activity Detection,VAD)，又称语音端点检测、语音边界检测。可以从声音信号流里识别出静音以及可以得出静音期(即静音持续时长)。

在一些实施例中，将相应静音前后的用户语音合并是指将静音前后的语音信号进行拼接得到拼接后的语音信号。例如静音前有一段用户语音V1，静音后有一段用户语音V2，则将用户语音V2拼接在用户语音V1的末尾，得到语音信号V1+V2，可以理解的是，静音前后的用户语音合并后，静音阶段对应的信号被去除。

在一些实施例中，基于相应静音将所述用户语音截断是指将静音前的语音信号和/或静音后的语音信号与静音阶段的信号进行截断。例如有一段语音信号包括用户语音V1和V1之后的静音信号m1，基于相应静音将所述用户语音截断则是将用户语音V1与m1进行截断，得到单独的语音信号V1，将静音信号m1后的用户语音作为另一条用户话语。

步骤220，确定所述话语文本的完整度。

具体的，该步骤220可以由第一对话处理模块720执行。

话语文本的完整度用于表征话语是否完整表达，可以包括话语文本的语义完整度、字段完整度等。完整度可以用评分(例如0～1范围中的数值)、类别(例如话语文本为完整或不完整)、排名顺序(例如话语文本完整度为TOP2)等来表示。

在一些实施例中，可以通过文本识别得到话语文本的语义信息、字段信息等(例如文本的句法结构、相关词语的语义等)与完整度相关的信息，基于语义信息、字段信息等信息来确定话语文本的完整度。在一些实施例中，可以通过尾点检测算法确定话语文本的完整度。尾点检测是指对话语文本进行识别和处理，得到话语文本的尾点是否是一个完整句子的尾点的信息。

在一些实施例中，可以通过完整度识别模型来处理话语文本，以确定话语文本的完整度。具体地，可以将话语文本输入完整度识别模型，完整度识别模型输出得到对应的完整度。

完整度识别模型可以包括但不限于多层感知机(Multi-Layer Perception,MLP)、决策树(Decision Tree,DT)、深度神经网络(Deep Neural Network,DNN)、支持向量机(Support Vector Machine,SVM)、K最近邻算法(K-Nearest Neighbor,KNN)等任何可以进行文本特征提取和/或分类的算法或者模型。

在一些实施例中，完整度识别模型可以通过采用训练样本训练初始模型得到。训练样本可以包括带有标识的话语文本样本，其中标识指示该话语文本样本是否完整。可以利用初始模型处理上述话语文本样本，得到预测的完整度，基于预测的完整度与话语文本样本的标识构造损失函数。基于所述损失函数更新模型参数，以减小预测的完整度与标识之间的差异。例如，可以基于梯度下降法等对模型参数进行更新或优化。在一些实施例中，可以对模型进行多轮迭代更新，当训练的模型满足预设条件时，训练结束，将训练后的模型作为完整度识别模型。其中，预设条件可以是损失函数结果收敛或小于预设阈值等。

步骤230，判断所述完整度是否满足预设条件：若满足，则将所述话语文本作为第一待处理文本送入后续处理流程；否则，等候以便得到第一额外的话语文本，并在所述等候持续语音等候时长之后，将所述话语文本作为第一待处理文本送入后续处理流程，或者基于所述话语文本以及所述第一额外的话语文本确定第一待处理文本并送入后续处理流程。

具体的，该步骤230可以由第一对话处理模块720执行。

完整度对应的预设条件可以是话语文本为完整，或话语文本的完整度较高(例如完整度评分大于或等于0.9)。

在一些实施例中，若话语文本的完整度满足预设条件，则可以认为该话语文本是完整表达的一段话语文本，便可以将该话语文本进行后续处理流程，例如识别该话语文本并基于一些策略和/或意图生成对应的话术文本。具体地，可以将话语文本作为第一待处理文本送入后续处理流程。

在一些实施例中，当话语文本的完整度满足预设条件，还可以进一步基于话语文本和用户语音结束后第一时长内的第二额外的话语文本确定第二待处理文本并送入后续处理流程。关于确定第二待处理文本并送入后续处理流程的更多内容可以参见图3及其相关说明，此处不再赘述。

在一些实施例中，若话语文本的完整度不满足预设条件，则可以认为该话语文本是没有完整表达的一段话语文本，可以认为该话语文本对应的用户语音并没有表达完整，即后面可能还会有作为该话语文本的继续表达的用户语音，以补充话语文本使其完整表达。

在一些实施例中，可以在获取了该话语文本对应的用户语音后，继续进行等候，以便继续获得可以作为该话语文本的继续表达的用户语音，并得到继续表达的用户语音对应的话语文本，该继续表达的话语文本可以称为第一额外的话语文本。

在一些实施例中，继续进行的等候会持续一段语音等候时长，该语音等候时长可以是根据经验或实际需求进行设置，例如可以是200ms、500ms等。

在一些实施例中，在等候持续语音等候时长之后，获取到了继续表达的用户语音，即获得了第一额外的话语文本，即可以将话语文本以及第一额外的话语文本合并作为第一待处理文本，并送入后续处理流程。所述合并可以是根据语义将2条话语文本进行整合为一条连续表达的话语文本。在一些实施例中，合并可以是指话语文本的拼接，例如，得到话语文本S1和第一额外的话语文本S2，将S2拼接在S1的末尾，得到第一待处理文本S1+S2。在一些实施例中，话语文本的合并还可以包括对冗余文本例如多余的语气词“啊”/“哈”等的去除，以令合并得到的文本语义更加准确和清楚。

在一些实施例中，在等候持续语音等候时长之后，没有获取到继续表达的用户语音，即没有获得第一额外的话语文本，则可以将话语文本作为第一待处理文本送入后续处理流程。

通过本实施例，在用户不连续表达时，通过话语文本的完整度判断获取的用户语音对应的话语文本是否是完整表达的话语，若不是则可以等候持续语音等候时长，并将语音等候时长内获取到的第一额外的话语文本与未完整表达的话语文本进行合并，可以实现在由于用户的不连续表达，造成本来是完整表达的话语被分割为2条话语时，将该2条话语进行合并后进行后续处理，避免语音对话的过程中出现机器人语音抢话的情况，提升了用户的体验，并且在后续对话语文本的处理中也避免了不完整话语的处理混乱，令后续处理更加准确。

在一些实施例中，所述语音等候时长可以根据话语文本的完整度确定。可以是语音等候时长与话语文本的完整度负相关，即话语文本的完整度越低(例如完整度评分越低、排名越靠后)，对应的语音等候时长越长。例如，可以设置最大等候时长W，话语文本的完整度为c，语音等候时长w可以为w＝W*(1-c)。在一些实施例中，语音等候时长还可以与获取用户语音对应的话语文本的静音检测的持续时长负相关。例如，话语文本的静音检测持续时长为vad，语音等候时长w可以为w＝(W-vad)*(1-c)。

通过本实施例，令语音等候时长的设置可以自适应调整，适用性更强，更加合理，可以在解决不连续表达造成话语文本的不完整问题时，同时保证用户语音的话语文本的后续处理效率。

在一些实施例中，后续处理流程可以包括：通过对话机器人处理待处理文本，并生成话术文本；将所述话术文本转化为机器人语音，并播报。

话术文本是指基于一些策略和/或意图生成的话语文本，可以是针对话语文本的回复，也可以是基于话语文本进行的下一轮提问、答疑等的话术文本。例如，用户语音对应的话语文本为“哦，我忘记了，我下班了就处理”，可以生成作为回复的对应话术文本“好的，我到时候会查收，再见”。

对话机器人是指可以处理话语文本，并可以基于一些策略和/或意图生成对应的话术文本的语言理解终端或模块。

机器人语音是指由设备合成的语音，话术文本转化为机器人语音可以通过文本转语音的转换工具，如MWS Reader、TTS(Text To Speech)转换算法等实现，还可以通过将生成的话术文本与话术文本数据库中文本进行比对，找到相同的话术文本，进而得到数据库中话术文本对应的语音作为对应的机器人语音，在此不做限制。

在一些实施例中，机器人语音的播报可以通过扬声器等各种可以将语音信号传递至用户的方式进行，对此不做限制。

在一些实施例中，对话的策略或意图不同，用户话语的响应时间要求也可以不同。由于话术文本会引发的用户在下一轮对话中讲述的话语，因此可以基于话术文本预判用户在下一轮对话中的用户话语的响应时间要求，例如若话术文本的意图在于询问用户某些信息(如用户的地址、身份代码等)，则可以判断用户针对该话术文本的回应话语的响应速度要求不高，不需要对话处理系统在短时间内生成话术文本回复用户，又例如若话术文本的意图在于进一步询问用户关心的问题的细节，则可以判断用户针对该话术文本的回应话语的响应速度要求较高，需要短时间内快速生成话术文本回复用户。

所以，在一些实施例中，后续处理流程还可以包括：生成用户语音的话语文本对应的话术文本后，可以基于话术文本调整获取用户语音并得到对应的话语文本时的静音检测时长，即第二时长。关于静音检测和第二时长的相关内容可以参见步骤210及其相关描述，此处不再赘述。具体地，可以对生成的话术文本进行处理，以确定其对应的策略和/或意图类别，进一步判断该策略或意图类别对响应速度要求是否低于设定阈值，如是，则可以在该话术文本后的新一轮语音对话中，延长静音检测的第二时长，延长的尺度可以根据经验或实际需求进行设置。反之，则可以在该话术文本后新的一轮语音对话中，控制静音检测的第二时长小于一定的阈值，阈值可以根据经验或实际需求进行设置。在一些实施例中，还可以训练一个端到端的时长预测模型，即模型的输入为对话机器人生成的话术文本，模型的输出为第二时长。

通过本实施例，令第二时长的设置可以自适应调整，适用性更强，更加合理，可以在解决不连续表达造成话语文本的不完整问题时，提升用户语音的处理效率，进一步提高语音对话中的用户体验。

在一些实施例中，在播报机器人语音的过程中，会出现用户说话，即在播报机器人语音过程中，产生了用户语音。用户说话时，可以中断机器人语音的播报，以让用户进行表达。所以，在一些实施例中，在播报机器人语音的过程中，可以检测新的用户语音，当检测到新的用户语音且用户语音状态为用户持续讲话时，获取所述话术文本中未播报内容中的分词时点，并在所述分词时点到来时停止播报。关于在播报机器人语音的过程中检测新的用户语音，进而中断播报的更多内容可以参见图5及其相关描述，此处不再赘述。

在一些语音对话场景，用户在讲完一句话后，停顿一定时间又会补充一些内容，若能将补充后的内容与前一句话合并处理，能够进一步提升语音处理系统生成的话术文本的准确性，提高用户体验。为此，本说明书一些实施例进一步提出了当话语文本的完整度满足预设条件时另一种处理方法，以实现上述技术目的。

图3是根据本说明书一些实施例所示的话语文本的完整度满足预设条件时一种语音对话的处理方法的示例性流程图。

如图3所示，该方法300可以包括：

步骤310，将所述话语文本作为第一待处理文本送入后续处理流程。

具体的，该步骤310可以由第一对话处理模块720执行。

如前所述，当获取的用户语音对应的话语文本的完整度满足预设条件，即可以认为该话语文本是完整表达的一段话语文本，便可以将该话语文本进行后续处理流程，例如识别该话语文本并基于一些策略和/或意图生成对应的话术文本。具体地，可以将话语文本作为第一待处理文本送入后续处理流程。

步骤320，基于所述话语文本和所述用户语音结束后第一时长内的第二额外的话语文本确定第二待处理文本并送入后续处理流程。

具体的，该步骤320可以由第一对话处理模块720执行。

在一些实施例中，在获取了一条用户语音对应的话语文本后，即用户语音结束后，一段时长即第一时长内获取到的语音信号对应的话语文本可以称为第二额外的话语文本。第一时长可以根据经验或需求进行设置，例如1s或1.5s等。

在一些实施例中，第二额外的话语文本可以包括一条或多条话语文本，即在用户语音结束后的第一时长内可以获得一条或者获得多条连续表达的用户语音。

在一些实施例中，基于获取的用户语音对应的话语文本和该用户语音结束后第一时长内的第二额外的话语文本确定第二待处理文本可以是将话语文本和第二额外的话语文本进行合并，得到第二待处理文本。具体地，可以是将话语文本与第二额外的话语文本中的一条话语文本(例如第一条或第二额外的话语文本只有一条话语文本)进行合并，也可以是将话语文本与第二额外的话语文本中的多条话语文本按照时序进行合并。其中，合并可以是根据语义将2条话语文本进行整合为一条连续表达的话语文本。关于话语文本合并的更多内容可以参见步骤230及其相关描述，此处不再赘述。

在一些实施例中，基于获取的用户语音对应的话语文本和该用户语音结束后第一时长内的第二额外的话语文本确定第二待处理文本可以是将话语文本与第二额外的话语文本进行拼接，得到第二待处理文本。例如获得话语文本S1和第二额外的话语文本S2’，将S2’拼接在S1的末尾，得到第二待处理文本S1+S2’。

在话语文本的完整度确定存在错误(如将本来不完整的话语文本错误确定为完整)，或者用户的表达是多意图、存在转折等情况，在获取一条用户语音之后，还会有与该条用户语音是一个完整表达的用户语音，通过本实施例，可以在前述情况下获取得到第二额外的话语文本，并将话语文本与其合并，使得进一步提高解决用户不连续表达造成的完整表达话语被截断问题的效果。

在一些实施例中，还可以将话语文本与第二额外的话语文本进行拼接，得到拼接话语文本，并确定所述拼接话语文本与所述话语文本的语义相似度。可以判断所述语义相似度是否大于相似度阈值：若否，则将所述拼接话语文本作为所述第二待处理文本。其中，相似度阈值可以基于经验或实际需求进行设置，例如相似度阈值可以为0.7或0.8等。

语义相似度用于表征话语文本之间的语义是否相似，或语义相似的程度。语义相似度可以用评分(例如语义相似度为0.7)、类别(2条话语文本为相似或不相似)等来表示。

在一些实施例中，可以通过文本识别得到话语文本的句子语义信息、字段信息等(例如文本的句法结构、相关词语的语义等)与话语文本语义相关的信息，基于句子语义信息、字段信息等相关信息来确定话语文本之间的语义相似度。

在一些实施例中，可以是基于规则确定话语文本之间的语义相似度。例如，第二额外的话语文本命中“嗯”“好的”“对，是这样”，则认为语义相似度很高。通过本实施例，可以过滤掉冗余的第二额外的话语文本。

在一些实施例中，还可以通过语义相似度算法确定话语文本的语义相似度，例如计算话语文本对应的向量之间的向量距离等。

在一些实施例中，可以通过语义相似度识别模型来处理话语文本，以确定话语文本之间的语义相似度。具体地，可以将2个或多个话语文本输入语义相似度识别模型，语义相似度识别模型输出得到对应的语义相似度。

语义相似度识别模型可以包括但不限于多层感知机(Multi-Layer Perception,MLP)、决策树(Decision Tree,DT)、深度神经网络(Deep Neural Network,DNN)、支持向量机(Support Vector Machine,SVM)、K最近邻算法(K-Nearest Neighbor,KNN)等任何可以进行文本特征提取和/或分类的算法或者模型。

在一些实施例中，语义相似度识别模型可以通过采用训练样本训练初始模型得到。其中一条训练样本可以包括第一话语文本样本，第二话语文本样本以及两者之间的相似度标签值(如，相似为1，不相似为0)。利用语义相似度识别模型处理第一话语文本样本与第二话语文本样本，得到预测的相似度。基于预测的相似度与对应训练样本的标签值构造损失函数，基于损失函数调整模型参数，以减小预测的相似度与标签值之间的差异。例如，可以基于梯度下降法等进行模型参数更新或调整。如此进行多轮迭代训练，当训练的模型满足预设条件时，训练结束，得到训练后的语义相似度识别模型。其中，预设条件可以是损失函数结果收敛或小于预设阈值等。

在一些实施例中，若拼接话语文本与话语文本之间的语义相似或语义相似度高，即语义相似度大于相似度阈值，可以认为拼接话语文本与话语文本所表达的意思相似，则第二额外的话语文本不会对拼接话语文本带来更多话语文本之外的不同语义表达的贡献，可以认为是冗余的表达，则可以不将该第二额外的话语文本作为话语文本的完整表达的补充，即可以不将拼接话语文本作为话语文本对应的第二待处理文本进行处理。

在一些实施例中，若拼接话语文本与话语文本之间的语义不相似或语义相似度低，即语义相似度小于或等于相似度阈值，可以认为拼接话语文本与话语文本所表达的意思不相似，则第二额外的话语文本可以对拼接话语文本带来更多话语文本之外的不同语义表达的贡献，有助于在语音对话中更好和更完整地理解用户的表达，则可以将该第二额外的话语文本作为话语文本的完整表达的补充，即可以将该拼接话语文本作为话语文本对应的第二待处理文本进行处理。

通过本实施例，可以基于话语文本与拼接文本的语义相似度有选择性地过滤掉冗余的、对不连续表达的语义完整没有贡献的第二额外的话语文本，提升第二待处理文本对于本轮语音对话的话语文本的贡献，提升后续处理流程的处理效果。应当理解，在本实施例中，后续处理流程会分别对第一待处理文本以及第二待处理文本进行处理。关于后续处理流程的更多内容可以在文中其他地方找到，如图4的相关说明。

图4是根据本说明书一些实施例所示的另一种语音对话的处理方法的示例性流程图。

如图4所示，该方法400可以包括：

步骤410，获取用户语音，并得到所述用户语音对应的话语文本。

具体的，该步骤410可以由第二语音获取模块810执行。

关于获取用户语音，并得到用户语音对应的话语文本的具体内容可以参见步骤210及其相关描述，此处不再赘述。

步骤420，基于所述话语文本确定待处理文本，所述待处理文本对应于当前的意图状态标识。

具体的，该步骤420可以由第二对话处理模块820执行。

待处理文本是指继续进行后续处理流程的话语文本，可以包括第一待处理文本、第二待处理文本。关于基于话语文本确定待处理文本，即第一待处理文本和第二待处理文本的具体内容可以参见步骤220、步骤230、图3及其相关描述，此处不再赘述。

意图状态标识是指用于表征语音对话中对话意图的标识，具体的，可以反映出对话机器人当前是基于哪一种对话意图状态来生成话术文本的。如图4所示，当前的对话意图是询问是否本人，可以赋予意图状态标识f，此时对话机器人生成话术文本T1为“是本人使用吗？”。之后，获取到的用户语音对应的话语文本S1为“不是”，可以将话语文本S1作为待处理文本，具体可以是第一待处理文本，同时赋予意图状态标识f。

在一些实施例中，意图状态标识可以由对话机器人生成。具体地，对话机器人在处理话语文本时，可以识别用户意图，例如使用意图识别模型至少处理话语文本得到用户意图，然后基于用于意图确定相应的策略，并基于策略生成话术文本。可以理解，每一个话术文本对是基于一定的意图状态生成的。因此，可以在生成话术文本后，生成或更新对应的意图状态标识来标识当前的意图状态。在所述话术文本后基于获取的用户语音对应的话语文本确定的第一待处理文本可以被赋予该话术文本对应的意图状态标识。

步骤430，通过对话机器人处理所述待处理文本，以基于所述意图状态标识对应的对话意图状态生成话术文本；以及更新意图状态标识；其中，不同的意图状态标识对应不同的对话意图状态。

具体的，该步骤430可以由第一对话机器人模块830执行。

对话机器人在处理待处理文本时，基于待处理文本的意图状态标识对应的对话意图状态生成话术文本，即是根据待处理文本的意图状态标识，确定该待处理文本对应的对话意图是什么，根据对话意图，对待处理文本进行处理生成对应的话术文本。在一些实施例中，对话机器人可以通过意图识别模型处理待处理文本及其对应的对话意图状态(或者对应的对话意图状态的上下文)得到模型预测的意图类型。再基于模型预测的意图类型确定相应的策略，并基于策略生成话术文本。之后，将模型预测的意图类型作为更新后的对话意图状态，并相应更新意图状态标识。

作为示例，如图4所示，话语文本S1作为第一待处理文本和其意图状态标识f一起传送至对话机器人进行后续处理，对话机器人接收到S1，根据其意图状态标识f确定对应的对话意图为询问是否本人，即会根据“是本人使用吗”的上下文生成对于话语文本S1“不是”的话术文本T2“麻烦您核实一下。”。

在对话机器人处理了待处理文本，生成对应的话术文本时，可以对意图状态标识进行更新(如基于模型预测的意图类型进行更新)，即可以生成新的意图状态标识。例如，如图4所示，对话机器人处理第一待处理文本后生成的话术文本T2“麻烦您核实一下。”可以对应新的意图状态标识g，以对应新对话意图——核实。可以理解的是，生成的话术文本即对应一个新的对话意图，该新的对话意图可以在处理下一轮语音对话时使用。例如，在下一轮对话处理时，可以将更新后的意图状态标识赋予待处理文本。

步骤440，将所述话术文本转化为机器人语音，并播报。

具体的，该步骤440可以由第一语音播报模块840执行。

将话术文本转化为机器人语音并播报的更多具体内容可以参见步骤230及其相关描述，此处不再赘述。

需要继续说明的是，用户在讲完话语文本S1“不是”后，继续补充说出话语文本S2“但是我认识他”。若不采用图3相关的实施例，话语文本S2将作为一个全新的第一待处理文本进行后续处理。按照步骤420将当前意图状态标识g赋予该第一待处理文本。对话机器人接收到S2，根据其意图状态标识g确定对应的对话意图为核实，即会根据“麻烦您核实一下”的上下文生成对于话语文本S2“但是我认识他”生成新的话术文本T3。然而，这可能导致话术文本T3是一个不能很好对应用户话语的回应。

为此在一些实施例中，用户在讲完话语文本S1“不是”后的第一时长内，继续补充说出话语文本S2“但是我认识他”。此时，可以基于图3相关的实施例，将话语文本S1与话语文本S2拼接得到“不是，但我认识他”，作为第二待处理文本。此时，由于第二待处理文本包括了第一待处理文本中的话语文本S1，则应当将话语文本S1所在的第一待处理文本对应的意图状态标识赋予第二待处理文本。例如，如图4所示，第一待处理文本对应的意图状态标识为f，则第二待处理文本对应的意图状态标识也为f。之后，按照步骤430处理第二待处理文本。例如，如图4所示，话语文本S1+S2作为第二待处理文本和其意图状态标识f一起传送至对话机器人进行后续处理，对话机器人接收到S1+S2，根据其意图状态标识f确定对应的对话意图为询问是否本人，即会根据“是本人使用吗”的上下文生成对于话语文本S1+S2“不是，但是我认识他”的话术文本T2’“麻烦您转告他”。在此实施例中，第一处理文本与第二处理文本都会被处理，因此，用户可能会先收听到对话处理系统针对第一待处理文本播报的机器人语音“麻烦您核实一下”，之后会收听到对话处理系统针对第二待处理文本播报的机器人语音“麻烦您转告他”。可以认为，机器人语音“麻烦您转告他”是机器人语音“麻烦您核实一下”的即时修正，用户会针对更准确的机器人语音继续对话。基于步骤430，对话机器人同样会在生成话术文本T2’后更新意图状态标识为g’，以便下轮对话使用。

不难理解，上述实施例通过给待处理文本赋予意图状态标识，可以避免对话机器人处理乱序的问题，确保对话有序、有效的进行。

图5是根据本说明书一些实施例所示的另一种语音对话的处理方法的示例性流程图。

如图5所示，该方法500可以包括：

步骤510，获取用户语音，并得到所述用户语音对应的话语文本。

具体的，该步骤510可以由第三语音获取模块910执行。

步骤520，基于所述话语文本确定待处理文本。

具体的，该步骤520可以由第三对话处理模块920执行。

待处理文本是指继续进行后续处理流程的话语文本，可以包括第一待处理文本、第二待处理文本。关于基于所述话语文本确定待处理文本的具体内容可以参见步骤220、步骤230、图3、步骤420及其相关描述，此处不再赘述。

步骤530，通过对话机器人处理待处理文本，并生成话术文本。

具体的，该步骤530可以由第二对话机器人模块930执行。

关于通过对话机器人处理待处理文本，并生成话术文本的更多具体内容可以参见步骤230、步骤430、步骤440及其相关描述，此处不再赘述。

步骤540，将所述话术文本转化为机器人语音，并播报；其中，在播报所述机器人语音的过程中：检测新的用户语音；当检测到新的用户语音且用户语音状态为用户持续讲话时，获取所述话术文本中未播报内容中的分词时点，并在所述分词时点到来时停止播报。

具体的，该步骤540可以由第二语音播报模块940执行。

将所述话术文本转化为机器人语音，并播报的更多具体内容可以参见步骤230、步骤440及其相关描述，此处不再赘述。

在一些实施例中，在播报机器人语音的过程中，会出现用户插话，即在播报机器人语音过程中，产生了用户语音。用户插话时，可以中断机器人语音的播报，以让用户进行表达。所以，在播报机器人语音的过程中，可以检测新的用户语音，当检测到新的用户语音且用户语音状态为用户持续讲话时，可以控制打断语音播报。在一些实施例中，用户语音状态可以从ASR模块获得，具体的ASR模块可以在检测到用于语音，以及根据用户语音持续时间来生成不同的用户语音状态，用户语音状态可以包括开始讲话、持续讲话、结束讲话等。ASR模块可以以事件形式向处理系统的其他模块或部件发送用户语音状态。本实施例通过确定用户语音状态为持续讲话时，确定打断语音播报，可以避免用户仅仅是下意识讲出的“嗯”、“哦”等简短语音时干扰机器人语音播报。

分词时点是指播报的话术文本的分词点所对应的播报时刻。分词点是指对话术文本进行分词后，得到的各个完整词汇的分割点。例如，图6是根据本说明书一些实施例所示的一种分词时点的示意图，如图6所示，话术文本包括“我以为你懂得每当我看着你”，对话术文本进行分词后，得到各个分割出的完整词汇“我”、“以为”、“你”、“懂得”、“每当”、“我”、“看着”、“你”，分词点即可以包括这些完整词汇的分割点1、2、3、4、5、6、7。每一个分词点对应一个播报时刻，即分词时点，分别为t1、t2、t3、t4、t5、t6、t7。

打断语音播报可以是获取话术文本中未播报内容中的分词时点，并在所述分词时点到来时停止播报。例如，做出了打断语音播报的决策，话术内容的播报在字符“懂”对应的播报时刻，即在播报字符“懂”，此时可以获取话术内容的分词时点，并在继续播报到分词时点(例如字符“懂”对应的播报时刻之后的分词时点t4、t5、t6或t7)时可以执行打断播报的操作。

在一些实施例中，执行打断播报操作的分词时点可以为话术文本中未播报内容中最近的分词时点。继续前述分词时点的例子，可以在字符“懂”对应的播报时刻之后的分词时点中，选择与字符“懂”对应的播报时刻最近的分词时点，即t4，在t4时刻到来时，执行打断播报的操作。

图7是根据本说明书一些实施例所示的一种语音对话的处理系统的框图。

在一些实施例中，语音对话的处理系统可以实现于处理设备110上。

在一些实施例中，如图7所示，语音对话的处理系统可以包括第一语音获取模块710、第一对话处理模块720。

在一些实施例中，第一语音获取模块710可以用于获取用户语音，并得到所述用户语音对应的话语文本。

在一些实施例中，第一对话处理模块720可以用于确定所述话语文本的完整度；并用于判断所述完整度是否满足预设条件：若满足，则将所述话语文本作为第一待处理文本送入后续处理流程；否则，等候以便得到第一额外的话语文本，并在所述等候持续语音等候时长之后，将所述话语文本作为第一待处理文本送入后续处理流程，或者基于所述话语文本以及所述第一额外的话语文本确定第一待处理文本并送入后续处理流程。

图8是根据本说明书一些实施例所示的另一种语音对话的处理系统的框图。

在一些实施例中，如图8所示，语音对话的处理系统可以包括第二语音获取模块810、第二对话处理模块820、第一对话机器人模块830、第一语音播报模块840。

在一些实施例中，第二语音获取模块810可以用于获取用户语音，并得到所述用户语音对应的话语文本。

在一些实施例中，第二对话处理模块820可以用于基于所述话语文本确定待处理文本，所述待处理文本对应于当前的意图状态标识。

在一些实施例中，第一对话机器人模块830可以用于处理所述待处理文本，以基于所述意图状态标识对应的对话意图状态生成话术文本；其中，不同的意图状态标识对应不同的对话意图状态；以及更新意图状态标识。

在一些实施例中，第一语音播报模块840可以用于将所述话术文本转化为机器人语音，并播报。

在一些实施例中，如图9所示，语音对话的处理系统可以包括第三语音获取模块910、第三对话处理模块920、第二对话机器人模块930、第二语音播报模块940。

在一些实施例中，第三语音获取模块910可以用于获取用户语音，并得到所述用户语音对应的话语文本。

在一些实施例中，第三对话处理模块920可以用于基于所述话语文本确定待处理文本。

在一些实施例中，第二对话机器人模块930可以用于处理待处理文本，并生成话术文本。

在一些实施例中，第二语音播报模块940可以用于将所述话术文本转化为机器人语音，并播报；其中，在播报所述机器人语音的过程中：检测新的用户语音；当检测到新的用户语音且用户语音状态为用户持续讲话时，获取所述话术文本中未播报内容中的分词时点，并在所述分词时点到来时停止播报。

应当理解，所示的系统及其模块可以利用各种方式来实现。例如，在一些实施例中，系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中，硬件部分可以利用专用逻辑来实现；软件部分则可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本说明书的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用例如由各种类型的处理器所执行的软件实现，还可以由上述硬件电路和软件的结合(例如，固件)来实现。

需要注意的是，以上对于语音对话的处理系统及其模块的描述，仅为描述方便，并不能把本说明书限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解该系统的原理后，可能在不背离这一原理的情况下，对各个模块进行任意组合，或者构成子系统与其他模块连接。

本说明书实施例还提供一种语音对话的处理装置，包括至少一个存储介质和至少一个处理器，所述至少一个存储介质用于存储计算机指令；所述至少一个处理器用于执行所述计算机指令以实现如下方法：获取用户语音，并得到所述用户语音对应的话语文本；确定所述话语文本的完整度；判断所述完整度是否满足预设条件：若满足，则将所述话语文本作为第一待处理文本送入后续处理流程；否则，等候以便得到第一额外的话语文本，并在所述等候持续语音等候时长之后，将所述话语文本作为第一待处理文本送入后续处理流程，或者基于所述话语文本以及所述第一额外的话语文本确定第一待处理文本并送入后续处理流程。

本说明书实施例还提供另一种语音对话的处理装置，包括至少一个存储介质和至少一个处理器，所述至少一个存储介质用于存储计算机指令；所述至少一个处理器用于执行所述计算机指令以实现如下方法：获取用户语音，并得到所述用户语音对应的话语文本；基于所述话语文本确定待处理文本，所述待处理文本对应于当前的意图状态标识；通过对话机器人处理所述待处理文本，以基于所述意图状态标识对应的对话意图状态生成话术文本；其中，不同的意图状态标识对应不同的对话意图状态；更新意图状态标识；将所述话术文本转化为机器人语音，并播报。

本说明书实施例还提供另一种语音对话的处理装置，包括至少一个存储介质和至少一个处理器，所述至少一个存储介质用于存储计算机指令；所述至少一个处理器用于执行所述计算机指令以实现如下方法：获取用户语音，并得到所述用户语音对应的话语文本；基于所述话语文本确定待处理文本；通过对话机器人处理待处理文本，并生成话术文本；将所述话术文本转化为机器人语音，并播报；其中，在播报所述机器人语音的过程中：检测新的用户语音；当检测到新的用户语音且用户语音状态为用户持续讲话时，获取所述话术文本中未播报内容中的分词时点，并在所述分词时点到来时停止播报。

本说明书实施例可能带来的有益效果包括但不限于：(1)本发明中，通过对获取的用户语音对应的话语文本确定其完整度，并通在话语文本的完整度不满足预设条件时，进行等候持续语音等候时长，获取第一额外的话语文本与未完整表达的话语文本进行合并，可以实现在由于用户的不连续表达，造成本来是完整表达的话语被分割为2条话语时，将该2条话语进行合并后进行后续处理，避免语音对话的过程中出现机器人语音抢话的情况，提升了用户的体验，并且在后续对话语文本的处理中也避免了不完整话语的处理混乱，令后续处理更加准确；(2)在本发明中，通过在播报机器人语音的过程中进行检测新的用户语音，当检测到新的用户语音且用户语音状态为用户持续讲话时，就进行打断的决策，实现打断效率的提升，并获取话术文本中未播报内容中的分词时点，在所述分词时点到来时停止播报，及让打断执行时语音播报停止更加流畅和可控。需要说明的是，不同实施例可能产生的有益效果不同，在不同的实施例里，可能产生的有益效果可以是以上任意一种或几种的组合，也可以是其他任何可能获得的有益效果。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅仅作为示例，而并不构成对本说明书的限定。虽然此处并没有明确说明，本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议，所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。

同时，本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外，本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域技术人员可以理解，本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本说明书的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等，或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、RF、或类似介质，或任何上述介质的组合。

本说明书各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写，包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等，常规程序化编程语言如C语言、Visual Basic、Fortran2003、Perl、COBOL2002、PHP、ABAP，动态编程语言如Python、Ruby和Groovy，或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或处理设备上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网(LAN)或广域网(WAN)，或连接至外部计算机(例如通过因特网)，或在云计算环境中，或作为服务使用如软件即服务(SaaS)。

此外，除非权利要求中明确说明，本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的处理设备或移动设备上安装所描述的系统。

同理，应当注意的是，为了简化本说明书披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本说明书实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

一些实施例中使用了描述成分、属性数量的数字，应当理解的是，此类用于实施例描述的数字，在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明，“大约”、“近似”或“大体上”表明所述数字允许有±20％的变化。相应地，在一些实施例中，说明书和权利要求中使用的数值参数均为近似值，该近似值根据个别实施例所需特点可以发生改变。在一些实施例中，数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。

针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料，如文章、书籍、说明书、出版物、文档等，特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外，对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是，如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方，以本说明书的描述、定义和/或术语的使用为准。

最后，应当理解的是，本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此，作为示例而非限制，本说明书实施例的替代配置可视为与本说明书的教导一致。相应地，本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims

1.一种语音对话的处理方法，包括：

获取用户语音，并得到所述用户语音对应的话语文本；

确定所述话语文本的完整度；其中，通过完整度识别模型处理所述话语文本，以确定所述话语文本的完整度；

判断所述完整度是否满足预设条件：若满足，则将所述话语文本作为第一待处理文本送入后续处理流程；否则，等候以便得到第一额外的话语文本，并在所述等候持续语音等候时长之后，将所述话语文本作为第一待处理文本送入后续处理流程，或者基于所述话语文本以及所述第一额外的话语文本确定第一待处理文本并送入后续处理流程。

2.如权利要求1所述的方法，所述语音等候时长与所述完整度负相关。

3.如权利要求1所述的方法，还包括：

若所述话语文本的完整度满足预设条件，则基于所述话语文本和所述用户语音结束后第一时长内的第二额外的话语文本确定第二待处理文本并送入后续处理流程。

4.如权利要求3所述的方法，所述基于所述话语文本和所述用户语音结束后第一时长内的第二额外的话语文本确定第二待处理文本，包括：

将所述话语文本与所述第二额外的话语文本进行拼接，作为所述第二待处理文本。

5.如权利要求3所述的方法，所述基于所述话语文本和所述用户语音结束后第一时长内的第二额外的话语文本确定第二待处理文本，包括：

将所述话语文本与所述第二额外的话语文本进行拼接，得到拼接话语文本；

确定所述拼接话语文本与所述话语文本的语义相似度；

判断所述语义相似度是否大于相似度阈值：若否，则将所述拼接话语文本作为所述第二待处理文本。

6.如权利要求3所述的方法，所述话语文本所在的第一待处理文本对应有意图状态标识；所述方法还包括将所述话语文本所在的第一待处理文本对应的意图状态标识赋予所述第二待处理文本。

7.如权利要求6所述的方法，所述后续处理流程中的对话机器人基于所述意图状态标识对应的对话意图状态生成话术文本，不同的意图状态标识对应不同的对话意图状态。

8.如权利要求7所述的方法，还包括：当所述对话机器人生成话术文本后更新所述意图状态标识，以便下一轮语音对话使用。

9.如权利要求1所述的方法，所述后续处理流程包括：

通过对话机器人处理待处理文本，并生成话术文本；

将所述话术文本转化为机器人语音，并播报。

10.如权利要求9所述的方法，在播报所述机器人语音的过程中：

检测新的用户语音；

当检测到新的用户语音且用户语音状态为用户持续讲话时，获取所述话术文本中未播报内容中的分词时点，并在所述分词时点到来时停止播报。

11.如权利要求10所述的方法，所述分词时点为所述话术文本中未播报内容中最近的分词时点。

12.如权利要求9所述的方法，所述获取用户语音，并得到所述用户语音对应的话语文本，包括：

检测所述用户语音中静音及其持续时长：若静音的持续时长小于第二时长，则将相应静音前后的用户语音合并进行文本转换；否则基于相应静音将所述用户语音截断后分别进行文本转换；

所述后续处理流程还包括：

基于所述话术文本调整所述第二时长。

13.一种语音对话的处理系统，包括：

第一语音获取模块：用于获取用户语音，并得到所述用户语音对应的话语文本；

第一对话处理模块：用于确定所述话语文本的完整度；其中，通过完整度识别模型处理所述话语文本，以确定所述话语文本的完整度；并用于判断所述完整度是否满足预设条件：若满足，则将所述话语文本作为第一待处理文本送入后续处理流程；否则，等候以便得到第一额外的话语文本，并在所述等候持续语音等候时长之后，将所述话语文本作为第一待处理文本送入后续处理流程，或者基于所述话语文本以及所述第一额外的话语文本确定第一待处理文本并送入后续处理流程。

14.一种语音对话的处理装置，包括至少一个存储介质和至少一个处理器，所述至少一个存储介质用于存储计算机指令；所述至少一个处理器用于执行所述计算机指令以实现如权利要求1～12任一项所述的方法。

15.一种语音对话的处理方法，包括：

获取用户语音，并得到所述用户语音对应的话语文本；

基于所述话语文本确定待处理文本，所述待处理文本对应于当前的意图状态标识；

通过对话机器人处理所述待处理文本，以基于所述意图状态标识对应的对话意图状态生成话术文本；其中，不同的意图状态标识对应不同的对话意图状态；

更新意图状态标识；

将所述话术文本转化为机器人语音，并播报。

16.一种语音对话的处理系统，包括：

第二语音获取模块：用于获取用户语音，并得到所述用户语音对应的话语文本；

第二对话处理模块：用于基于所述话语文本确定待处理文本，所述待处理文本对应于当前的意图状态标识；

第一对话机器人模块：用于处理所述待处理文本，以基于所述意图状态标识对应的对话意图状态生成话术文本；其中，不同的意图状态标识对应不同的对话意图状态；以及更新意图状态标识；

第一语音播报模块：用于将所述话术文本转化为机器人语音，并播报。

17.一种语音对话的处理装置，包括至少一个存储介质和至少一个处理器，所述至少一个存储介质用于存储计算机指令；所述至少一个处理器用于执行所述计算机指令以实现如权利要求15所述的方法。

18.一种语音对话的处理方法，包括：

获取用户语音，并得到所述用户语音对应的话语文本；

基于所述话语文本确定待处理文本；

通过对话机器人处理待处理文本，并生成话术文本；

将所述话术文本转化为机器人语音，并播报；其中，在播报所述机器人语音的过程中：

检测新的用户语音；

19.如权利要求18所述的方法，所述分词时点为所述话术文本中未播报内容中最近的分词时点。

20.一种语音对话的处理系统，包括：

第三语音获取模块，用于获取用户语音，并得到所述用户语音对应的话语文本；

第三对话处理模块，用于基于所述话语文本确定待处理文本；

第二对话机器人模块，用于处理待处理文本，并生成话术文本；

第二语音播报模块，用于将所述话术文本转化为机器人语音，并播报；其中，在播报所述机器人语音的过程中：

检测新的用户语音；

21.一种语音对话的处理装置，包括至少一个存储介质和至少一个处理器，所述至少一个存储介质用于存储计算机指令；所述至少一个处理器用于执行所述计算机指令以实现如权利要求18或19所述的方法。