CN112735418A

CN112735418A - 一种语音交互的处理方法、装置、终端及存储介质

Info

Publication number: CN112735418A
Application number: CN202110078451.7A
Authority: CN
Inventors: 魏重强; 邱东洋; 王智圣; 李正兴; 蒋话
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-01-19
Filing date: 2021-01-19
Publication date: 2021-04-30
Anticipated expiration: 2041-01-19
Also published as: CN112735418B

Abstract

本发明公开了一种语音交互的处理方法、装置、终端及存储介质，该方法包括：获取第一语音交互片段；确定所述第一语音交互片段对应的语音识别文本；通过语义抽取模型对所述语音识别文本进行语义片段的抽取处理，得到第一语义片段；识别所述第一语义片段的意图，得到至少一个意图识别结果；从所述至少一个意图识别结果中确定待执行的目标意图识别结果。本发明避免了过多的噪音即无用输入进入到后续的自然语言理解过程而引起的对自然语言理解识别的不利影响，提高了流式语音交互场景下对于输入语音意图识别和执行的准确率。

Description

一种语音交互的处理方法、装置、终端及存储介质

技术领域

本发明涉及计算机技术领域，特别涉及一种语音交互的处理方法、装置、终端及存储介质。

背景技术

流式对话方式是智能语音交互方式之一，在流式对话过程中，语音交互系统无需唤醒词唤醒即可以像人一样在持续监听的同时持续做出“说”(即语音交互系统完成用户语音输入解析之后做出的反馈)的操作，且持续监听和“说”可以重合，更符合真实的人类交互形式。

在流式对话场景中，用户会连续说话输入语音，同时口语化表达会夹带很多无用的词，使得语音输入噪音大且容易出现过长的输入句子，相关技术中对于这种场景下的语音输入没有进行针对性的处理，导致后续在自然语言理解过程中需要过多的处理无用输入，降低了流式语音交互场景下对于输入语音意图识别和执行的准确率。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种语音交互的处理方法、装置、终端及存储介质。所述技术方案如下：

一方面，提供了一种语音交互的处理方法，所述方法包括：

获取第一语音交互片段；

确定所述第一语音交互片段对应的语音识别文本；

通过语义抽取模型对所述语音识别文本进行语义片段的抽取处理，得到第一语义片段；

识别所述第一语义片段的意图，得到至少一个意图识别结果；

从所述至少一个意图识别结果中确定待执行的目标意图识别结果。

另一方面，提供了一种语音交互的处理装置，所述装置包括：

交互片段获取模块，用于获取第一语音交互片段；

识别文本确定模块，用于确定所述第一语音交互片段对应的语音识别文本；

语义片段抽取模块，用于通过语义抽取模型对所述语音识别文本进行语义片段的抽取处理，得到第一语义片段；

意图识别模块，用于识别所述第一语义片段的意图，得到至少一个意图识别结果；

意图选择模块，用于从所述至少一个意图识别结果中确定待执行的目标意图识别结果。

作为一个可选的实施方式，所述识别文本确定模块包括：

语音识别模块，用于对所述第一语音交互片段进行语音识别，得到第一语音识别文本；

第一确定模块，用于确定目标历史语音交互片段对应的目标历史语音识别文本；

拼接模块，用于拼接所述第一语音识别文本和所述目标历史语音识别文本，得到拼接语音识别文本；

第二确定模块，用于根据所述拼接语音识别文本，确定所述第一语音交互片段对应的语音识别文本。

作为一个可选的实施方式，所述第一确定模块包括：

轮次参数获取模块，用于获取轮次参数；

第三确定模块，用于根据所述轮次参数，确定所述目标历史语音交互片段的第一数量；

第四确定模块，用于将距离当前时刻最近的所述第一数量个历史语音交互片段确定为所述目标历史语音交互片段；

第一获取模块，用于获取所述目标历史语音交互片段对应的目标历史语音识别文本。

作为一个可选的实施方式，所述第二确定模块，具体用于将所述拼接语音识别文本和所述第一语音识别文本作为所述第一语音交互片段对应的语音识别文本。

作为一个可选的实施方式，所述至少一个意图识别结果包括所述拼接语音识别文本对应的第一意图识别结果和所述第一语音识别文本对应的第二意图识别结果；所述意图选择模块包括：

第二获取模块，用于获取目标历史意图识别结果；

第一判断模块，用于判断所述第一意图识别结果是否与所述目标历史意图识别结果相匹配；

第二判断模块，用于在所述第一意图识别结果与所述目标历史意图识别结果相匹配时，判断所述第一意图识别结果是否与所述第二意图识别结果相匹配；

第一选择子模块，用于在所述第一意图识别结果与所述第二意图识别结果相匹配时，将所述第一意图识别结果确定为待执行的目标意图识别结果。

作为一个可选的实施方式，所述意图选择模块还包括：

第二选择子模块，用于在所述第一意图识别结果与所述目标历史意图识别结果不匹配时，将所述第一意图识别结果确定为待执行的目标意图识别结果。

作为一个可选的实施方式，所述语义片段抽取模块包括：

标签序列确定模块，用于将所述语音识别文本输入语义抽取模型，得到所述语义抽取模型输出的标签序列，所述标签序列中的标签与所述语音识别文本中的字符一一对应；

目标标签确定模块，用于确定所述标签序列中的目标标签，所述目标标签包括表征语义片段开始位置的标签、表征语义片段中间位置的标签和表征语义片段结束位置的标签；

抽取模块，用于根据所述目标标签从所述语音识别文本中抽取至少一个语义片段，得到所述第一语义片段。

另一方面，提供了一种终端，包括处理器和存储器，所述存储器中存储有至少一条指令或者至少一段程序，所述至少一条指令或者所述至少一段程序由所述处理器加载并执行以实现上述语音交互的处理方法。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令或者至少一段程序，所述至少一条指令或者所述至少一段程序由处理器加载并执行以实现如上述的语音交互的处理方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的方法。

本发明实施例通过获取第一语音交互片段，确定该第一语音交互片段对应的语音识别文本，并通过语义抽取模型对该语音识别文本进行语义片段的抽取处理得到第一语义片段，进而识别该第一语义片段的意图得到至少一个意图识别结果，并从该至少一个意图识别结果中确定待执行的目标意图识别结果，从而有效的从用户输入语音中抽取有效语义片段，避免了过多的噪音即无用输入进入到后续的自然语言理解过程而引起的对自然语言理解识别的不利影响，大大提高了流式语音交互场景下对于输入语音意图识别和执行的准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的4种常见智能语音交互方式的示意图；

图2是本发明实施例提供的一种实施环境的示意图；

图3是本发明实施例提供的一种语音交互的处理方法的流程示意图；

图4a是本发明实施例提供的一种语义抽取模型的框架图；

图4b是本发明实施例提供的另一种语义抽取模型的框架图；

图5是本发明实施例提供的另一种语音交互的处理方法的流程示意图；

图6a是本发明实施例提供的另一种语音交互的处理方法的流程示意图；

图6b是本发明实施例提供的从至少一个意图识别结果中确定待执行的目标意图识别结果的一种可选示意图；

图7是本发明实施例提供的一种语音交互的处理装置的结构框图；

图8是本发明实施例提供的一种终端的硬件结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

以下对本文中涉及的部分用语进行说明，以便于本领域技术人员理解。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

语音技术(Speech Technology)的关键技术有自动语音识别(Automatic SpeechRecognition，ASR)技术和语音合成(Text To Speech，TTS)技术以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本发明实施例提供的方案涉及人工智能的自然语言处理技术，具体通过如下实施例进行说明。

智能语音交互包括如图1所示的4种常见的交互方式，交互的语音部分分为“唤醒”、“听”和“说”，其中，“唤醒”即为唤醒词，语音交互系统识别到唤醒词后就会开始“听”用户的输入语音，比如目前的9420智能音箱，每当用户说唤醒词“9420”的时候该智能音箱就开始准备和用户进行交互；“听”也即语音交互系统接收用户输入语音并且进行识别处理的过程；“说”即为语音交互系统完成对用户输入语音的解析之后做出的反馈。

单轮交互即用户和语音交互系统的每一轮的“听说”交互都需要进行唤醒；多轮交互即用户只唤醒一次，语音交互系统可以开始多轮“听说”交互，并且每轮“听”和“说”之间是不能同步进行的；持续监听也是一次唤醒后，语音交互系统可以持续进行“听说”交互，这种方式虽然可以持续监听语音输入，并结合当前的输入情况进行“说”，但是用户的语音输入会打断语音交互系统上一轮“说”的内容；全双工交互即流式对话方式，无需唤醒词唤醒，语音交互系统可以像人一样在持续监听的同时持续做出“说”的操作，“听”和“说”可以像人类一样的交互，二者是可以重合的，用户的语音输入不会打断语音交互系统上一轮“说”的内容，更符合真实的人类交互形式。

在流式对话场景中，用户会连续说话输入语音，同时口语化表达会夹带很多无用的词，使得语音输入噪音大且容易出现过长的输入句子，相关技术中没有对这种输入进行针对性的处理，导致后续在自然语言理解过程中需要过多的处理无用输入，升高了处理难度，降低了流式语音交互场景下对于输入语音意图识别和执行的准确率。

基于此，本发明实施例提供了一种语音交互的处理方法，该方法能够有效的从用户输入语音中抽取有效语义片段，避免了过多的噪音即无用输入进入到后续的自然语言理解过程而引起的对自然语言理解识别的不利影响，大大提高了流式语音交互场景下对于输入语音意图识别和执行的准确率。

请参阅图2，其所示为本发明实施例提供的一种实施环境示意图，该实施环境可以包括终端210以及与该终端210连接通信的服务器220。该连接可以但不限于包括有线网络或者无线网络。

其中，终端210可以但不限于包括智能手机、智能音箱、台式电脑、平板电脑、笔记本电脑、数字助理、智能可穿戴设备等等。终端210中可以配置有具有智能语音交互功能的客户端。

服务器220为与终端210提供后台服务的服务器，服务器220可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

作为一个可能的实施方式，终端210和服务器220均可以是区块链系统中的节点设备，能够将获取到以及生成的信息共享给区块链系统中的其他节点设备，实现多个节点设备之间的信息共享。区块链系统中的多个节点设备可以配置有同一条区块链，该区块链由多个区块组成，并且前后相邻的区块具有关联关系，使得任一区块中的数据被篡改时都能通过下一区块检测到，从而能够避免区块链中的数据被篡改，保证区块链中数据的安全性和可靠性。

请参阅图3，其所示为本发明实施例提供的一种语音交互的处理方法的流程示意图，该方法可以应用于图2中的终端。需要说明的是，本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图3所示，所述方法可以包括：

S301，获取第一语音交互片段。

具体的，第一语音交互片段可以但不限于是用户连续输入的一段较长的句子，例如该第一语音交互片段可以是“快快快请你帮我打开电灯然后播放歌曲”。

S303，确定所述第一语音交互片段对应的语音识别文本。

其中，第一语音交互片段对应的语音识别文本可以是通过ASR将第一语音交互片段转换得到的文本，以上述第一语音交互片段为例，其对应的语音识别文本即为“快快快请你帮我打开电灯然后播放歌曲”。

S305，通过语义抽取模型对所述语音识别文本进行语义片段的抽取处理，得到第一语义片段。

其中，语义抽取模型为预先训练好的，其可以对输入长句进行有语义的片段的抽取，比如语音识别文本是“快快快请你帮我打开电灯然后播放歌曲”，通过语义抽取模型可以得到两个有完整语义的语义片段“打开电灯”和“播放音乐”。

语义抽取模型可以是能够实现序列标注功能的模型，例如语义抽取模型可以是LSTM-CRF，BERT-CRF，CRF和HMM(隐马尔科夫模型)等等。

LSTM(Long Short-Term Memory，长短期记忆模型)是一种长短期记忆网络，是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM可以理解为是一种循环神经网络，而双向的LSTM则简称为BiLSTM或Bi-LSTM。

CRF(Conditional Random Field，条件随机场)CRF)是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型，其特点是假设输出随机变量构成马尔可夫随机场。CRF可用于不同的预测问题，例如在标注问题中的应用。

HMM(Hidden Markov Model，隐马尔科夫模型)用来描述一个含有隐含未知参数的马尔科夫过程。

BERT(Bidirectional Encoder Representation from Transformers，基于转换器的双向编码表征)将双向Transformer(转换器)用于语言模型，可以一次性读取整个文本序列，能够基于单词的两侧学习，相当于是一个双向的功能。实验的结果表明，双向训练的语言模型对语境的理解会比单向的语言模型更深刻。

下面以语义抽取模型分别为LSTM-CRF和BERT-CRF为例来介绍对该模型的训练。

如图4a所示为LSTM-CRF的模型框架图，包括输入层、嵌入(embedding)层、Bi-LSTM层、CRFs层和输出层。LSTM-CRF模型的输入为语音识别文本中的字，输出是BIE0标签体系，其中，标签B为Begin表示语义片段的开始位置，标签I为Inside表示语义片段的中间位置，该中间位置可能有多个，标签E为End表示语义片段的结束位置，标签0表示为无语义位置。通过该架构的语义抽取模型可以对一个句子中有意图的语义片段进行BIE0的标注，则最终可以获得有意图的语义片段文本。如图4a中所示，输入语音识别文本“快快快打开灯”，则可以得到输出标签序列为“000BIE”，进而可以得到语义片段为“打开灯”。

在训练上述LSTM-CRF模型的时候，需要先获取训练数据，该训练数据可以包括样本语音识别文本以及该样本语音识别文本对应的参考标签序列，该参考标签序列为按照BIE0体系对相应样本语音识别文本中有意图的语义片段进行标注得到。训练时，将样本语音识别文本通过输入层输入至LSTM-CRF模型，样本语音识别文本中的每个字在embedding层均被映射到一个向量，具体的映射方式可以是随机初始化，也可以是用预训练好的字向量初始化，embedding层输出字向量序列；Bi-LSTM层可以通过字向量序列中每个字的向量分布和字与字之间的关系学习到适合输出层的特征表示，为了避免出现如00EB00这种不合理的标签顺序，该特征表示需要通过CRFs层进一步规范输出标签BIE0之间的合理分布，从而通过输出层输出预测标签序列。

在进行模型参数的更新时，根据该预测标签序列与参考标签序列之间的差异计算损失值，根据该损失值反向调整LSTM-CRF模型的模型参数，直至满足训练结束条件，得到训练好的LSTM-CRF模型。其中，损失值可以为交叉熵损失，训练结束条件可以是迭代次数达到预设迭代次数如100次，也可以是损失值达到预设最小损失值，该预设最小损失值可以是趋于0的数值。

如图4b所示为BERT-CRF的模型框架图，包括输入层、BERT层、CRFs层和输出层。在训练BERT-CRF模型的时候，训练数据包括样本语音识别文本以及该样本语音识别文本对应的参考标签序列，其中，样本语音识别文本中嵌入有标识符，如图4b所示，该标识符包括[CLS]、[S]和[E]，[CLS]为BERT模型规定的分类标识符，[S]和[E]分别为样本语音识别文本的开始标识符和终止标识符。参考标签序列为按照BIE0体系对相应样本语音识别文本中有意图的语义片段进行标注得到。训练时，将嵌入有标识符的样本语音识别文本通过输入层输入至BERT层，BERT层会将每个字进一步编码学习输出为更适合序列标注任务学习的向量，得到字向量序列，该字向量序列通过CRFs层就可以学习到每个字应该被标记为BIE0标签体系中的哪一个，从而通过输出层输出预测标签序列。

在进行模型参数的更新时，根据该预测标签序列与参考标签序列之间的差异计算损失值，根据该损失值反向调整BERT-CRF模型的模型参数，直至满足训练结束条件，得到训练好的BERT-CRF模型。其中，损失值可以为交叉熵损失，训练结束条件可以是迭代次数达到预设迭代次数如100次，也可以是损失值达到预设最小损失值，该预设最小损失值可以是趋于0的数值。

实际应用中，为了构造更丰富的样本，在准备训练数据时还可以对样本语音识别文本随机采样随机文本进行全为标签0的标注。

基于此，前述步骤S305在通过语义抽取模型对所述语音识别文本进行语义片段的抽取处理得到第一语义片段时可以包括以下步骤：

(1)将所述语音识别文本输入语义抽取模型，得到所述语义抽取模型输出的标签序列，所述标签序列中的标签与所述语音识别文本中的字符一一对应。

(2)确定所述标签序列中的目标标签，所述目标标签包括表征语义片段开始位置的标签、表征语义片段中间位置的标签和表征语义片段结束位置的标签。

(3)根据所述目标标签从所述语音识别文本中抽取至少一个语义片段，得到所述第一语义片段

以图4a所示的模型为例，输入的语音识别文本为“快快快打开灯”，输出的标签序列为“000BIE”，该标签序列中的标签与语音识别文本中的字符一一对应。以图4b所示的模型为例，输入的语音识别文本为“[CLS][S]快快快打开灯[E]”，输出的标签序列为“00000BIE0”，该标签序列中的标签与语音识别文本中的字符一一对应。其中，B为表征语义片段开始位置的标签，I为表征语义片段中间位置的标签，E为表征语义片段结束位置的标签。那么，根据标签所表征的含义以及标签与语音识别文本中字符的对应关系可以从语音识别文本中提取出语义片段“打开灯”。

本发明实施例通过上述语义抽取模型对输入语音识别文本中语义片段的抽取，可以得到输入语音对应的一个或者多个语义片段，也即将输入语音中的无用输入或者噪音剔除，从而在后续自然语言理解过程中只针对该一个或多个语义片段进行意图识别，避免了输入语音中的无用输入或噪音对意图识别准确性的影响，提高了意图识别的准确率；另外，当输入语音中有多个语义片段时，还能实现多意图识别。

S307，识别所述第一语义片段的意图，得到至少一个意图识别结果。

自然语言理解过程其本质是文本分类和实体识别的任务的结合，实际应用中，可以采用规则模板进行文本分类并采用字典进行实体识别，也可以采用机器学习算法进行意图识别。

具体的实施中，规则模板可以采用形如正则匹配的方式来做，比如制定一个模板“[w:0-2]打开[electric_app]”，其中，[w:0-2]表示可以匹配任意0到2个字，[electric_app]表示可以匹配电器词典里面表示电器的任意一个词，如电器词典里面有“电灯”，“电冰箱”，当第一语义片段为“打开电灯”或“打开电冰箱”，则该第一语义片段可以匹配上指定的上述规则模板，也即可以确定该第一语义片段的意图。

采用机器学习算法可以通过收集业务下包含意图的句子构成训练预料来训练文本分类器，利用训练好的文本分类器即可达到意图识别的目的。其中文本分类器的分类算法可以是如FastText(快速文本分类器)、LR(logistics regression逻辑回归)分类器、支持向量机(Support Vector Machine,SVM)等，也可以为深度学习算法，例如TextCNN(TextConvolutional Neural Networks，文本的卷积神经网络)、LSTM(Long Short-TermMemory，长短期记忆网络)、BERT等。

S309，从所述至少一个意图识别结果中确定待执行的目标意图识别结果。

示例性的，可以将至少一个意图识别结果均作为待执行的目标意图识别结果。

本发明实施例的上述技术方案有效提升了流式对话场景中意图的识别和执行能力，能够有效的处理一句话中的多意图情况，也可以将用户输入语音拆分成多个独立语义的片段在进行意图识别。

实际应用中，用户在流式语音交互过程中如果停顿即拾音结果检测为静音时就会产生一个语音交互片段，每个语音交互片段通过ASR均可以转换为相应的query即语音识别文本，例如用户的语音输入为：快快快请你帮我打开电灯然后播放歌曲，那么，就会得到如下的query：“快快快”、“请你帮我”、“打开电灯然后播放”、“歌曲”，由于“播放”和“歌曲”分别位于不同的query中，若单独对每个语音交互片段的query进行意图识，容易造成意图识别错误，进而导致执行的错误。

基于此，在对当前语音交互片段进行ASR转换为相应的query之后，可以通过上下文管理将当前query和上文context进行拼接，上文context即为当前query之前的语音交互片段的query，这样可以保证用户的停顿造成的语义片段中断可以通过拼接还原原来的语义。也即作为一个可能的实施方式，如图5提供的另一种语音交互的处理方法的流程示意图，前述步骤S303在确定第一语音交互片段对应的语音识别文本时可以包括以下步骤：

S501，对所述第一语音交互片段进行语音识别，得到第一语音识别文本。

示例性的，第一语音交互片段为语音交互系统检测到静音时产生的一个语音交互片段，第一语音识别文本可以是通过ASR将第一语音交互片段转换为文本得到的query。例如，第一语音识别文本可以是前述的“歌曲”query。

S503，确定目标历史语音交互片段对应的目标历史语音识别文本。

目标历史语音交互片段是在当前产生的一个语音交互片段之前产生的语音交互片段，该目标历史语音交互片段的数量可以根据实际需要进行设定。目标历史语音识别文本可以是通过ASR将目标历史语音交互片段转换为文本得到的query。示例性的，可以通过以下方式来确定目标历史语音交互片段对应的目标历史语音识别文本：

(1)获取轮次参数。具体的，语音交互系统获取到一个语音交互片段可以理解为一个轮次，则轮次参数表征多少个轮次即轮次数量，可以根据实际需要进行设定，例如轮次参数可以为3或者4等。

(2)根据所述轮次参数，确定所述目标历史语音交互片段的第一数量。

例如，轮次参数为3，则目标历史语音交互片段的数量为3个。

(3)将距离当前时刻最近的所述第一数量个历史语音交互片段作为所述目标历史语音交互片段。

例如，可以将第一语音交互片段之前的3个历史语音交互片段作为目标历史语音交互片段。

(4)获取所述目标历史语音交互片段对应的目标历史语音识别文本。

假设用户的语音输入为：快快快请你帮我打开电灯然后播放歌曲，第一语音交互片段为：歌曲，轮次参数为：3，则目标历史语音交互片段依次为：快快快请你帮我打开电灯然后播放，目标历史语音识别文本为：query“快快快”，query“请你帮我”，query“打开电灯然后播放”。

S505，拼接所述第一语音识别文本和所述目标历史语音识别文本，得到拼接语音识别文本。

具体的，可以按照目标历史语音交互片段的轮次顺序依次将目标历史语音识别文本和第一语音识别文本进行拼接，得到拼接语音识别文本。以上述的目标历史语音识别文本是query“快快快”，query“请你帮我”，query“打开电灯然后播放”为例，与query“歌曲”拼接后得到的拼接语音识别文本为“快快快请你帮我打开电灯然后播放歌曲”。

S507，根据所述拼接语音识别文本，确定所述第一语音交互片段对应的语音识别文本。

示例性的，由于拼接语音识别文本还原了被中断的语义，因此可以直接将拼接语音识别文本作为第一语音交互片段对应的语音识别文本，进而通过后续步骤S305至S309进行语义片段的抽取、语义片段的意图识别和目标意图识别结果的确定，不仅避免了停顿造成的语义片段中断对意图识别的影响，而且相对于现有技术中只能根据已有的输入信息特征的完整性来判断用户输入是否停止，本发明实施例能支持用户停顿语句的意图识别，进而有效避免了现有判停策略的局限性，允许用户在语音交互过程中的停顿，提升了语音交互的灵活性。

考虑到拼接语音识别文本可能会对应到多个意图识别结果，作为一个可能的实施方式，为了进一步提高对于输入语音中意图执行的准确性，可以将拼接语音识别文本和所述第一语音识别文本作为所述第一语音交互片段对应的语音识别文本，也即如图6a中所示，语义片段的抽取处理对象包括拼接语音识别文本context+query和第一语音识别文本query。那么，后续自然语言理解得到的至少一个意图识别结果包括拼接语音识别文本对应的第一意图识别结果和第一语音识别文本对应的第二意图识别结果，相应的，如图6b所示，在从所述至少一个意图识别结果中确定待执行的目标意图识别结果时可以包括以下步骤：

S601，获取目标历史意图识别结果。

其中，目标历史意图识别结果是当前意图识别结果的前预设个意图识别结果，例如目标历史意图识别结果可以是前一意图识别结果。

S603，判断所述第一意图识别结果是否与所述目标历史意图识别结果相匹配。

具体的，若第一意图识别结果与目标历史意图识别结果相同，则认为二者相匹配，可以执行步骤S605至步骤S607；反之，若二者不同，则认为二者不匹配，可以执行步骤S609。

S605，判断所述第一意图识别结果是否与所述第二意图识别结果相匹配。

具体的，若第一意图识别结果包括第二意图识别结果，则认为二者相匹配，可以执行步骤S607；反之，若第一意图识别结果不包括第二意图识别结果，则认为二者不匹配，此时只能将第二意图识别结果作为目标意图识别结果。

S607，将所述第一意图识别结果确定为待执行的目标意图识别结果。

S609，将所述第一意图识别结果确定为待执行的目标意图识别结果。

举例而言，用户输入语音是“播放音乐哈哈哈”，则分别得到query“播放音乐”和query“哈哈哈”，以“哈哈哈”为第一语音交互片段，前一意图识别结果为“播放音乐”，拼接语音交互片段为“播放音乐哈哈哈”，根据本发明实施例前述图3所示方法实施例可以得到该拼接语音识别文本的第一意图识别结果为“播放音乐”。由于上述第一意图识别结果与目标历史意图识别结果相同，因此，第一意图识别结果与目标历史意图识别结果相匹配，此时进一步判断第一意图识别结果“播放音乐”是否与针对query“哈哈哈”的第二意图识别结果相匹配，显然，第二意图识别结果为无任何意图，也即第一意图识别结果与该第二意图识别结果不匹配，那么，可以认为该第一意图识别结果不是第一语音交互片段或当前query的意图，而是历史意图，不能将第一意图识别结果作为目标意图识别结果进行执行。在这种情况下，只能将第二意图识别结果作为目标意图识别结果。

进一步举例而言，用户输入语音是“播放音乐哈哈哈”，则分别得到query“播放”和query“音乐哈哈哈”，以“音乐哈哈哈”为第一语音交互片段，前一意图识别结果为“播放音乐”，拼接语音交互片段为“播放音乐哈哈哈”，根据本发明实施例前述图3所示方法实施例可以得到该拼接语音识别文本的第一意图识别结果为“播放音乐”。由于上述第一意图识别结果与目标历史意图识别结果相同，因此，第一意图识别结果与目标历史意图识别结果相匹配，此时进一步判断第一意图识别结果“播放音乐”是否与针对query“音乐哈哈哈”的第二意图识别结果相匹配，由于针对query“音乐哈哈哈”的第二意图识别结果为“音乐”，第一意图识别结果“播放音乐”包括第二意图识别结果，也即可以认为第一意图识别结果与第二意图识别结果相匹配，此时可以将第一意图识别结果“播放音乐”作为目标意图识别结果进行执行。

进一步举例而言，用户输入语音是“打开灯”，则分别得到query“打开”和query“灯”，以“灯”为第一语音交互片段，前一意图识别结果为“播放音乐”，拼接语音交互片段为“打开灯”，根据本发明实施例前述图3所示方法实施例可以得到该拼接语音识别文本的第一意图识别结果为“打开灯”。由于上述第一意图识别结果与前一意图识别结果不同，因此可以认为第一意图识别结果与目标历史意图识别结果不匹配，也即第一意图识别结果在前一次未被执行过，此时可以将第一意图识别结果“打开灯”作为目标意图识别结果进行执行。

本发明实施例通过对至少一个意图识别结果的上述处理，提高了对流式交互中用户停顿语句的意图识别的准确率，进而使得基于意图识别进行召回的业务场景下的召回率有很大提升，从目前的应用数据来看召回率有平均10％的提升。

与上述几种实施例提供的语音交互的处理方法相对应，本发明实施例还提供一种语音交互的处理装置，由于本发明实施例提供的语音交互的处理装置与上述几种实施例提供的语音交互的处理方法相对应，因此前述语音交互的处理方法的实施方式也适用于本实施例提供的语音交互的处理装置，在本实施例中不再详细描述。

请参阅图7，其所示为本发明实施例提供的一种语音交互的处理装置的结构示意图，该装置具有实现上述方法实施例中语音交互的处理方法的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。如图7所示，该装置可以包括：

交互片段获取模块710，用于获取第一语音交互片段；

识别文本确定模块720，用于确定所述第一语音交互片段对应的语音识别文本；

语义片段抽取模块730，用于通过语义抽取模型对所述语音识别文本进行语义片段的抽取处理，得到第一语义片段；

意图识别模块740，用于识别所述第一语义片段的意图，得到至少一个意图识别结果；

意图选择模块750，用于从所述至少一个意图识别结果中确定待执行的目标意图识别结果。

作为一个可选的实施方式，识别文本确定模块720可以包括：

作为一个可选的实施方式，第一确定模块可以包括：

轮次参数获取模块，用于获取轮次参数；

作为一个可选的实施方式，第二确定模块，具体用于，将所述拼接语音识别文本和所述第一语音识别文本作为所述第一语音交互片段对应的语音识别文本。

作为一个可选的实施方式，所述至少一个意图识别结果包括所述拼接语音识别文本对应的第一意图识别结果和所述第一语音识别文本对应的第二意图识别结果；意图选择模块750可以包括：

第二获取模块，用于获取目标历史意图识别结果；

作为一个可选的实施方式，意图选择模块750还可以包括：

作为一个可选的实施方式，语义片段抽取模块730可以包括：

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本发明实施例提供了一种终端，该终端包括处理器和存储器，该存储器中存储有至少一条指令或者至少一段程序，该至少一条指令或者该至少一段程序由该处理器加载并执行以实现如上述方法实施例所提供的语音交互的处理方法。

存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及语音交互的处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据所述设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。

本发明实施例所提供的方法实施例可以在计算机终端、服务器或者类似的运算装置中执行。以运行在终端上为例，图8是本发明实施例提供的运行一种语音交互的处理方法的终端的硬件结构框图，具体来讲：

所述终端可以包括RF(Radio Frequency，射频)电路810、包括有一个或一个以上计算机可读存储介质的存储器820、输入单元830、显示单元840、传感器850、音频电路860、WiFi(wireless fidelity，无线保真)模块870、包括有一个或者一个以上处理核心的处理器880、以及电源890等部件。本领域技术人员可以理解，图8中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路810可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器880处理；另外，将涉及上行的数据发送给基站。通常，RF电路810包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier，低噪声放大器)、双工器等。此外，RF电路810还可以通过无线通信与网络和其他终端通信。所述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobile communication，全球移动通讯系统)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA(CodeDivision Multiple Access，码分多址)、WCDMA(Wideband Code Division MultipleAccess,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(ShortMessaging Service，短消息服务)等。

存储器820可用于存储软件程序以及模块，处理器880通过运行存储在存储器820的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器820可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据所述终端的使用所创建的数据等。此外，存储器820可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器820还可以包括存储器控制器，以提供处理器880和输入单元830对存储器820的访问。

输入单元830可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元830可包括触敏表面831以及其他输入设备832。触敏表面831，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面831上或在触敏表面831附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面831可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器880，并能接收处理器880发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面831。除了触敏表面831，输入单元830还可以包括其他输入设备832。具体地，其他输入设备832可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元840可用于显示由用户输入的信息或提供给用户的信息以及所述终端的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元840可包括显示面板841，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板841。进一步的，触敏表面831可覆盖显示面板841，当触敏表面831检测到在其上或附近的触摸操作后，传送给处理器880以确定触摸事件的类型，随后处理器880根据触摸事件的类型在显示面板841上提供相应的视觉输出。其中，触敏表面831与显示面板841可以两个独立的部件来实现输入和输入功能，但是在某些实施例中，也可以将触敏表面831与显示面板841集成而实现输入和输出功能。

所述终端还可包括至少一种传感器850，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板841的亮度，接近传感器可在所述终端移动到耳边时，关闭显示面板841和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于所述终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路860、扬声器861，传声器862可提供用户与所述终端之间的音频接口。音频电路860可将接收到的音频数据转换后的电信号，传输到扬声器861，由扬声器861转换为声音信号输出；另一方面，传声器862将收集的声音信号转换为电信号，由音频电路860接收后转换为音频数据，再将音频数据输出处理器880处理后，经RF电路810以发送给比如另一终端，或者将音频数据输出至存储器820以便进一步处理。音频电路860还可能包括耳塞插孔，以提供外设耳机与所述终端的通信。

WiFi属于短距离无线传输技术，所述终端通过WiFi模块870可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图8示出了WiFi模块870，但是可以理解的是，其并不属于所述终端的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器880是所述终端的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或执行存储在存储器820内的软件程序和/或模块，以及调用存储在存储器820内的数据，执行所述终端的各种功能和处理数据，从而对终端进行整体监控。可选的，处理器880可包括一个或多个处理核心；优选的，处理器880可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器880中。

所述终端还包括给各个部件供电的电源890(比如电池)，优选的，电源可以通过电源管理系统与处理器880逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源890还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，所述终端还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，终端还包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行。上述一个或者一个以上程序包含用于执行上述方法实施例提供的语音交互的处理的指令。

本发明的实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质可设置于终端之中以保存用于实现一种语音交互的处理方法相关的至少一条指令或者至少一段程序，该至少一条指令或者该至少一段程序由该处理器加载并执行以实现上述方法实施例提供的语音交互的处理方法。

本发明的实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的方法。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音交互的处理方法，其特征在于，所述方法包括：

获取第一语音交互片段；

确定所述第一语音交互片段对应的语音识别文本；

2.根据权利要求1所述的语音交互的处理方法，其特征在于，所述确定所述第一语音交互片段对应的语音识别文本包括：

对所述第一语音交互片段进行语音识别，得到第一语音识别文本；

确定目标历史语音交互片段对应的目标历史语音识别文本；

拼接所述第一语音识别文本和所述目标历史语音识别文本，得到拼接语音识别文本；

根据所述拼接语音识别文本，确定所述第一语音交互片段对应的语音识别文本。

3.根据权利要求2所述的语音交互的处理方法，其特征在于，所述确定目标历史语音交互片段对应的目标历史语音识别文本包括：

获取轮次参数；

根据所述轮次参数，确定所述目标历史语音交互片段的第一数量；

将距离当前时刻最近的所述第一数量个历史语音交互片段确定为所述目标历史语音交互片段；

获取所述目标历史语音交互片段对应的目标历史语音识别文本。

4.根据权利要求2所述的语音交互的处理方法，其特征在于，所述根据所述拼接语音识别文本，确定所述第一语音交互片段对应的语音识别文本包括：

将所述拼接语音识别文本和所述第一语音识别文本作为所述第一语音交互片段对应的语音识别文本。

5.根据权利要求4所述的语音交互的处理方法，其特征在于，所述至少一个意图识别结果包括所述拼接语音识别文本对应的第一意图识别结果和所述第一语音识别文本对应的第二意图识别结果；

所述从所述至少一个意图识别结果中确定待执行的目标意图识别结果包括：

获取目标历史意图识别结果；

判断所述第一意图识别结果是否与所述目标历史意图识别结果相匹配；

若所述第一意图识别结果与所述目标历史意图识别结果相匹配，则判断所述第一意图识别结果是否与所述第二意图识别结果相匹配；

若所述第一意图识别结果与所述第二意图识别结果相匹配，则将所述第一意图识别结果确定为待执行的目标意图识别结果。

6.根据权利要求4所述的语音交互的处理方法，其特征在于，所述方法还包括：

若所述第一意图识别结果与所述目标历史意图识别结果不匹配，则将所述第一意图识别结果确定为待执行的目标意图识别结果。

7.根据权利要求1所述的语音交互的处理方法，其特征在于，所述通过语义抽取模型对所述语音识别文本进行语义片段的抽取处理，得到第一语义片段包括：

将所述语音识别文本输入语义抽取模型，得到所述语义抽取模型输出的标签序列，所述标签序列中的标签与所述语音识别文本中的字符一一对应；

确定所述标签序列中的目标标签，所述目标标签包括表征语义片段开始位置的标签、表征语义片段中间位置的标签和表征语义片段结束位置的标签；

根据所述目标标签从所述语音识别文本中抽取至少一个语义片段，得到所述第一语义片段。

8.一种语音交互的处理装置，其特征在于，所述装置包括：

交互片段获取模块，用于获取第一语音交互片段；

9.一种终端，其特征在于，包括处理器和存储器，所述存储器中存储有至少一条指令或者至少一段程序，所述至少一条指令或者所述至少一段程序由所述处理器加载并执行以实现如权利要求1～7中任一项所述的语音交互的处理方法。

10.一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令或者至少一段程序，所述至少一条指令或者所述至少一段程序由处理器加载并执行以实现如权利要求1～7任一项所述的语音交互的处理方法。