CN113488024A

CN113488024A - 一种基于语义识别的电话打断识别方法和系统

Info

Publication number: CN113488024A
Application number: CN202110606820.5A
Authority: CN
Inventors: 高鹏; 康维鹏; 袁兰; 吴飞; 周伟华; 高峰; 潘晶
Original assignee: Hangzhou Mjoys Big Data Technology Co ltd
Current assignee: Hangzhou Mjoys Big Data Technology Co ltd
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-10-08
Anticipated expiration: 2041-05-31
Also published as: CN113488024B

Abstract

本申请涉及一种基于语义识别的电话打断识别方法，其中，该基于语义识别的电话打断识别方法包括：智能通话机器人与用户建立通话并发送系统语音，通过VAD探测技术采集通话过程中用户的打断语音；通过ASR技术识别打断语音并将打断语音转换为文本信息；基于打断语音和文本信息，通过预设深度模型进行语音特征抽取和文本特征抽取，并根据语音特征和文本特征，结合系统语音进行语义预测；在语义预测的结果指示打断语音是真实语义打断的情况下，停止当前的系统语音并记录系统语音的状态位置。通过本申请，解决了相关技术中智能电话客服存在的打断识别不灵敏以及误打断的问题，提升了对用户打断行为的判定准确性。

Description

一种基于语义识别的电话打断识别方法和系统

技术领域

本申请涉及人工智能技术领域，特别是涉及一种基于语义识别的电话打断识别方法和系统。

背景技术

在智能客服或智能外呼等电话业务场景中，通常由智能AI代替人工客服提供语音服务。随着科技的不断发展，该技术被广泛应用在如物流通知、服务回访等业务场景。

智能客服实际应用在业务场景中，经常出现用户打断当前的系统语音，而询问其他问题的情况。如何在通话过程中识别用户的打断信号，是其中一个关键技术点。当前的智能客服通常存在打断识别不灵敏，以及误打断的问题。

目前针对相关技术中智能电话客服存在的打断识别不灵敏以及误打断的问题，尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种基于语义识别的电话打断识别方法、系统、计算机设备和计算机可读存储介质，以至少解决相关技术中智能电话客服存在的打断识别不灵敏以及误打断的问题。

第一方面，本申请实施例提供了一种基于语义识别的电话打断识别方法，所述方法包括：

智能通话机器人与用户建立通话并发送系统语音，通过VAD探测技术采集通话过程中所述用户的打断语音；

通过ASR技术识别所述打断语音并将所述打断语音转换为文本信息；

基于所述打断语音和所述文本信息，通过预设深度模型进行语音特征抽取和文本特征抽取，并根据所述语音特征和所述文本特征，结合所述系统语音进行语义预测；

在所述语义预测的结果指示所述打断语音是真实语义打断的情况下，停止当前的所述系统语音并记录所述系统语音的状态位置；

通过自然语言理解技术对所述打断语音进行识别解析，生成与所述打断语音对应的响应话术并发送至用户终端。

在其中一些实施例中，所述智能通话机器人与用户建立通话并发送系统语音之前，所述方法还包括：

获取训练数据集，其中，所述训练数据集包括通话场景下的历史音频信息和由所述历史音频信息转换生成的历史文本信息，所述历史音频信息中包括历史系统语音和所述用户的历史打断语音；

按照所述历史音频信息的时序，对所述历史文本信息进行序列化转换，并根据预设规则对所述历史文本信息中的第一打断信息进行标注，以及根据开发人员的第一交互信号对所述历史文本信息中的第二打断信息进行标注；

对标注之后的所述历史音频信息进行音频特征抽取得到音频特征，对标注之后的所述历史文本信息进行文本特征抽取得到文本特征，基于所述训练数据集、所述音频特征和所述文本特征，采用CNN-LSTM模型架构构建并训练所述预设深度模型。

在其中一些实施例中，所述根据预设规则对所述历史文本信息中的第一打断信息进行标注包括：

根据所述预设规则，对于在所述历史文本信息中总字数和不重复字数大于预设参考阈值的文本信息，将所述文本信息作为所述第一打断信息进行标注。

在其中一些实施例中，所述对标注之后的所述历史音频信息进行音频特征抽取得到音频特征包括：

对标注之后的所述历史音频文件进行预设维度的MFCC特征抽取获得第一音频特征，对所述第一音频特征进行预加重处理以增强所述第一音频特征中高频信号的能量；

基于预加重处理之后的所述第一音频特征，按照预设帧长抽取多个第二音频特征，通过加窗处理将所述第二音频特征中的非周期性特征为周期性特征；

通过离散傅里叶变换将多个所述第二音频特征转换为第三音频特征，其中，所述第二音频特征是时域信号，所述第三音频特征是频域信号；

通过梅尔滤波器组和对数表示将所述第三音频特征的频率转换为mel标度之后，进行逆向傅里叶变换之后得到所述第三音频特征的倒谱特征；

对所述倒谱特征中添加与时间变化联系的delta特征并进行倒谱分析获取所述音频特征。

在其中一些实施例中，所述对标注之后的所述历史文本信息进行文本特征抽取得到文本特征包括：

接收开发人员的第二交互信号，根据所述第二交互信号对所述历史文本信息进行分词标注和词性标注；

根据所述分词标注和所述词性标注，通过分词工具对所述历史文本信息进行分词处理和词性识别之后得到初始文本特征；

将所述初始文本特征转换为拼音特征，并获取所述文本特征中每个字对应的声调，将所述拼音特征和所述声调整合为所述文本特征特征。

在其中一些实施例中，所述基于所述音频特征和所述文本特征，采用CNN-LSTM模型架构构建并训练所述预设深度模型包括：

根据CNN-LSTM模型架构，构建所述预设深度模型的基础结构；

基于所述音频特征和所述文本特征对所述预设深度模型进行训练包括：通过CNN模型，对所述训练数据集中的所述音频特征和文本特征进行多核卷积处理得到卷积特征，通过LSTM模型获取所述卷积特征在时间序列上的语义特征，将所述音频特征对应的语义特征和所述文本特征对应的语义特征拼接作为最终语义表征并输出对应的判定结果。

在其中一些实施例中，所述基于VAD探测技术在所述音频信息中获取用户的打断语音包括：

基于所述VAD探测技术，通过音频帧能量平方的方式在所述音频信息中获取用户的初始打断语音；

通过设置最低阈值和最高阈值，过滤所述打初始断语音中的部分静音之后生成所述打断语音。

第二方面，本申请实施例提供了一种基于语义识别的电话打断识别系统，所述系统包括：采集模块、转换模块、预测模块和响应模块；

所述采集模块用于在智能通话机器人与用户建立通话并发送系统语音之后，通过VAD探测技术采集通话过程中所述用户的打断语音；

所述转换模块用于通过ASR技术识别所述打断语音并将所述打断语音转换为文本信息；

所述预测模块用于基于所述打断语音和所述文本信息，通过预设深度模型进行语音特征抽取和文本特征抽取，并根据所述语音特征和所述文本特征，结合所述系统语音进行语义预测；在所述语义预测的结果指示所述打断语音是真实语义打断的情况下，停止当前的所述系统语音并记录所述系统语音的状态位置；

所述响应模块用于通过自然语言理解技术对所述打断语音进行识别解析，生成与所述打断语音对应的响应话术并发送至用户终端。

第三方面，本申请实施例提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的一种基于语义识别的电话打断识别方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面所述的一种基于语义识别的电话打断识别方法。

相比于相关技术，本申请实施例提供的一种基于语义识别的电话打断识别方法，通过VAD探测获取通话过程中用户的打断语音，再将该打断语音转换为文本信息；进一步的，通过预设深度模型对该打断语音和该文本信息进行语音特征抽取和文本特征抽取，基于该语音特征和文本特征，并结合系统语音进行通话过程中对用户打断行为的预测判断；解决了相关技术中智能电话客服存在的打断识别不灵敏以及误打断的问题，提升了对用户打断行为的判定准确性。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种基于语义识别的电话打断识别方法的应用环境示意图；

图2是根据本申请实施例的一种基于语义识别的电话打断识别方法的流程图；

图3是根据本申请实施例的构建并训练预设深度模型的流程图；

图4是根据本申请实施例的预设深度模型的示意图；

图5是根据本申请实施例的基于语义识别的电话打断识别系统的结构框图；

图6是根据本申请实施例的电子设备的内部结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

本申请提供的一种基于语义识别的电话打断识别方法，可以应用在如图1所示的应用环境中，图1是根据本申请实施例的一种基于语义识别的电话打断识别方法的应用环境示意图，如图1所示，终端10与服务器11通过网络进行通信。服务器11通过网络与用户使用的终端10建立通话，并在通话过程中发送系统语音至终端10，其中，该系统语音包括但不限于是物流提示语音、用户满意度调查语音。进一步的，服务器11采集通话过程中的用户打断语音，将该打断语音转换为文本信息。最后，服务器11通过内部的预设深度模型基于该打断语音和文本信息进行语义预测，通过语义预测的结果判定该打断语音是否为真实打断信息。最后，响应其中的真实打断信息并输出响应话术，将该响应话术发送至终端10。需要说明的是，终端10可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、便携式可穿戴设备等通信设备，服务器11可以是独立的服务器或者是多个服务器组成的服务器集群来实现。

本申请提供了一种基于语义识别的电话打断识别方法，图2是根据本申请实施例的一种基于语义识别的电话打断识别方法的流程图，如图2所示，该流程包括如下步骤：

步骤S201，智能通话机器人与用户建立通话并发送系统语音，通过VAD探测技术采集通话过程中用户的打断语音；本实施例中，智能通话机器人为应用在电话业务场景下的人工智能平台，系统语音包括但不限于是物流提示语音、用户满意度调查语音等，例如，在物流即将派送时，该物流提示语音可以是“您的快递已派送，请选择上门递件或是快递点代收”。进一步的，在建立通话之后，通过语音活动检测技术(Voice Activity Detection，简称为VAD)实时采集用户的打断语音，其中，可以通过音频帧能量平方的方法进行探知，可以增强该打断语音的强度和对比度。另外，在采集过程中，可以通过设置最低阈值和最高阈值过滤掉其中一部分静音来避免一些错误打断探知，避免影响整体服务性能；

步骤S202，通过ASR技术识别打断语音并将打断语音转换为文本信息；本实施例中，应用自动语音识别(Automatic Speech Recognition，简称为ASR)将打断语音转换为文本信息，其中，在识别到文字的情况下，则进行后续步骤S203进行的语义预测；在没有识别到文字的情况下，则不进行语音打断，继续进行VAD探测；

步骤S203，基于打断语音和文本信息，通过预设深度模型进行语音特征抽取和文本特征抽取，并根据语音特征、文本特征以及结合系统语音进行语义预测；其中，该语音特征主要侧重于从说话语气层面进行判断，该文本特征则是主要分析其中的说话语义进行判断；另外，该预设深度模型采用CNN-LSTM模型架构，其主要利用音频特征和文本特征判别用户的打断语音是否为真实的打断语音。进一步的，该模型在应用到实际业务场景前，需要经历大量数据的训练，从而实现在一定上下文情况下，判断用户当前的语音是否可能为真实的语义打断；

步骤S204，在语义预测的结果指示打断语音是真实语义打断的情况下，停止当前的系统语音并记录系统语音的状态位置；通过自然语言理解技术对打断语音进行识别解析，生成与打断语音对应的响应话术并发送至用户终端，例如，用户的打断语音为“可以延期派送吗”，经过语音识别后生成的响应话术可以是“好的，请选择派送时间”。由于本申请的发明点在于对用户打断行为的判定，如何生成响应话术对本申请核心发明点并无影响，故在本实施例中不再赘述。

通过上述步骤S201至S204，相比较与相关技术中的打断识别方法，本申请实施例通过VAD探测技术获取打断语音，并将该打断语音转换为文本信息；通过预设深度模型从语音特征和文本特征两个方面进行预测判定，从而预测用户的打断语音是否为真实的打断语音。进一步的，对于真实的打断语音，通过自然语言理解技术对该打断语音进行解析，并生成对应的响应话术发送至用户终端。解决了相关技术中智能电话客服存在的打断识别不灵敏以及误打断的问题，提升了对用户打断行为的判定准确性。

在其中一些实施例中，智能通话机器人与用户建立通话并发送系统语音之前，为了实现对用户打断行为的判定，需要构建预设深度模型并按照一定规则对该模型进行训练，图3是根据本申请实施例的构建并训练预设深度模型的流程图，如图3所示，该流程包括如下步骤：

S301，获取训练数据集，其中，训练数据集包括通话场景下的历史音频信息和由历史音频信息转换生成的历史文本信息，历史音频信息中包括历史系统语音和用户的历史打断语音；需要说明的是，为了便于后续对模型的训练，该历史系统语音和历史打断语音是在模拟真实通话场景下分开录取的，对应的，该历史文本信息也是分开识别的，该历史文本信息中包括由历史系统语音转换的文本信息和由用户的历史打断语音转换的文本信息；

S302，按照历史音频信息的时序，对历史文本信息进行序列化转换，并根据预设规则对历史文本信息中的第一打断信息进行标注，以及根据开发人员的第一交互信号对历史文本信息中的第二打断信息进行标注；在上述步骤S301中已说明，该历史音频信息是在模拟真实对话场景下录取的，那么，在本步骤中，录制结束之后，则按照通话时序将每段音频的时间标注对应的文本信息中，以实现序列化转换。需要说明的是，在用户出现真实打断行为时，则用户的打断语音与系统语音所采用的的序列标注是相同的；

S303，对标注之后的历史音频信息进行音频特征抽取得到音频特征，对标注之后的历史文本信息进行文本特征抽取得到文本特征，基于训练数据集、音频特征和文本特征，采用CNN-LSTM模型架构构建并训练预设深度模型。

通过上述步骤S301至S302，通过前期的训练数据准备、数据标注，以及进一步的语音特征和文本特征的抽取之后，对深度模型进行训练；在经历一定量数据训练，该深度模型被部署在业务场景之后，即可以判断用户当前的说话语音是否可能为真正的打断语音并输出预测结果。通过该深度模型从语音和文本两个方面进行判定，提升了对用户打断行为的判定准确性，也提升了用户的使用体验。

在其中一些实施例中，在训练数据准备阶段，考虑到单纯采用人工标注的速度较慢，采用预设规则自动标注与人工标注结合的方式对训练数据集进行标注。首先，获取训练数据集中时间序列相同的系统语音和用户的打断语音；进一步的，因为用户在通话过程中会存在大量非打断的反馈语音，例如“嗯”、“嗯嗯”、“好的”、“行、行”。对于该类用户语音，通过规则达标的方式进行自动标注，对应的即在历史文本信息中，当某个文本信息的总字数和不重复字数都大于预设参考阈值的情况下，将该文本信息作为第一打断信息进行标注，其中，该预设参考阈值可以是5。另外，对于训练数据集中其他的文本信息，则需要通过人工操作外接设备发送第二交互指令，服务器11根据该第二交互指令进行标注。需要说明的是，人工标注的文本信息在二万通左右即可满足大多数应用场景。本实施例中，通过自动标注和人工标注结合的方式，较大的提升了标注效率。进一步的，标注之后的数据应用在深度模型的训练过程中，能够提升训练效率以及模型的预测准确率。

在其中一些实施例中，对标注之后的历史音频信息进行音频特征抽取得到音频特征包括：

首先，对标注之后的历史音频文件进行预设维度的MFCC特征抽取获得第一音频特征，对第一音频特征进行预加重处理以增强第一音频特征中高频信号的能量。例如，如果时域输入信号是x[n]，预加重之后的的信号为：y[n]＝x[n]-μx[n-1]，其中，μ介于0.9和1.0之间，通常取0.97。经过预加重处理之后，可以增加高频信号的能量，防止高频信号的衰减；

其次，基于预加重处理之后的第一音频特征，按照预设帧长抽取多个第二音频特征，再通过加窗处理将所述第二音频特征中的非周期性特征为周期性特征；需要说明的是，因为该第一音频特征的在时间上不恒定，因此选择通过一个可移动的矩形窗口抽取波形，并假定在该区域内是恒定的；在该过程中，将连续的音频信号切分为多个短的片段，这些片段即本实施例中的第二音频特征；可选的，一般选择N个点作为一个观测单位，其中，N的值可以取512，对应的帧长为25ms。进一步的，为了保证第二音频特征帧与帧之间的平滑过渡，一般会在分帧时在相邻两帧之间存在一段重叠区域，该重叠区域的时间差称为帧移，可选的，该帧移可以是为10ms。最后，因为在抽取第二音频特征时，矩形窗口的边界处会支离破碎的切掉一些信号使得特征不连续，因此需要通过加窗处理将该第二音频特征中的非周期特征转换为周期性特征，通常通过汉明窗在边界处把特征对应的信号值收缩到零，其中，汉明窗的窗函数如下公式1：其中，W(n)表示分祯平滑系数，n表示祯内时序点数，N表示祯内窗口长度。

进一步的，通过离散傅里叶变换将多个第二音频特征转换为多个第三音频特征，其中，第二音频特征是时域信号，第三音频特征是频域信号，变换公式如下公式2：

其中，X(m)表示傅里叶变换后得到的数据，x(n)为采样的模拟信号，n表示祯内时序点数，N表示祯内窗口长度；需要说明的是，在实际应用中，x(n)普遍是实信号即虚部为0，对应的，上述公式2可以展开为：

再进一步的，因为人耳听到的声音的高低与声音频率不成线性关系，而是与声音频率的对数近似成线性正比关系，所以在本实施例中，通过梅尔滤波器组和对数表示将第三音频特征的频率转换为mel标度，即相当于将线性频谱映射到基于听觉感知的Mel非线性频谱中，其中，通过如下公式3进行mel标度的转换：

其中，m表示mel频率M(f)，f表示音频频率。之后，再进行逆向傅里叶变换之后得到第三音频特征的倒谱特征，即相当于将该Mel非线性频谱转换到倒谱上进行分析。需要说明的是，倒谱特征可以用于将信号分解，将两个信号的卷积转换为两个信号的相加。在进行逆向傅里叶变换时，需要把声源和滤波器分开转换公式如下；

最后，对倒谱特征中添加与时间变化联系的delta特征并进行倒谱分析获取音频特征。

在其中一些实施例中，对标注之后的历史文本信息进行文本特征抽取得到文本特征包括：接收开发人员的第二交互信号，根据第二交互信号对历史文本信息进行分词标注和词性标注；根据分词标注和词性标注，通过分词工具对历史文本信息进行分词处理和词性识别之后得到初始文本特征；将初始文本特征转换为拼音特征，并获取文本特征中每个字对应的声调，将拼音特征和声调整合为文本特征。在本实施例中，采用字加词的粒度进行分词，对于词表中的词，使用语言模型根据该词前后的系统语音和用户语音判断是否进行切分，对于其他的词，则保持为字粒度；需要说明的是，词性标注时利用了词表中的词性和实体标注信息，将文本从不同角度拆分。

在其中一些实施例中，基于音频特征和文本特征，采用CNN-LSTM模型架构构建并训练预设深度模型包括：

根据CNN-LSTM模型架构，构建预设深度模型的基础结构；

基于音频特征和文本特征对预设深度模型进行训练，图4是根据本申请实施例的预设深度模型的示意图，如图4所示，该深度模型包括卷积层、池化层、全连接层和输出层；通过CNN模型中的卷积层，对训练数据集中的音频特征和文本特征进行多核卷积处理得到卷积特征，通过LSTM模型获取卷积特征在时间序列上的语义特征，将音频特征对应的语义特征和文本特征对应的语义特征拼接作为最终语义表征。进一步的，该深度模型在输出层输出最终语义表征对应的输出结果(1abel)，该输出结果指示上述文本特征对应的打断语音是都为真实的打断语音。

在其中一些实施例中，在获取用户的打断语音时，基于VAD探测技术在音频信息中获取用户的打断语音包括：基于VAD探测技术，通过音频帧能量平方的方式在音频信息中获取用户的初始打断语音，从而增强声音强度的对比度，其中，计算过程通过如下公式4：

其中，energy_i表示帧能量，frame(i，j)表示每祯点能量，N表示每祯内点数量。进一步的，通过设置最低阈值和最高阈值，过滤初始打断语音中的部分静音之后生成打断语音，从而在前期避免一些错误打断信号，提升后期预测的准确性。

需要说明的是，在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本实施例还提供了一种基于语义识别的电话语音打断识别系统，该系统用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

图5是根据本申请实施例的基于语义识别的电话打断识别系统的结构框图，如图5所示，该系统包括：采集模块51、转换模块52、预测模块53和响应模块54；

采集模块51用于在智能通话机器人与用户建立通话并发送系统语音之后，通过VAD探测技术采集通话过程中用户的打断语音；

转换模块52用于通过ASR技术识别打断语音并将打断语音转换为文本信息；

预测模块53用于基于打断语音和文本信息，通过预设深度模型进行语音特征抽取和文本特征抽取，并根据语音特征和文本特征，结合系统语音进行语义预测；在语义预测的结果指示打断语音是真实语义打断的情况下，停止当前的系统语音并记录系统语音的状态位置；

响应模块54用于通过自然语言理解技术对打断语音进行识别解析，生成与打断语音对应的响应话术并发送至用户终端。

需要说明的是，上述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于语义识别的电话打断识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

在一个实施例中，图6是根据本申请实施例的电子设备的内部结构示意图，如图6所示，提供了一种电子设备，该电子设备可以是服务器，其内部结构图可以如图6所示。该电子设备包括通过内部总线连接的处理器、网络接口、内存储器和非易失性存储器，其中，该非易失性存储器存储有操作系统、计算机程序和数据库。处理器用于提供计算和控制能力，网络接口用于与外部的终端通过网络连接通信，内存储器用于为操作系统和计算机程序的运行提供环境，计算机程序被处理器执行时以实现一种基于语义识别的电话打断识别方法，数据库用于存储数据。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域的技术人员应该明白，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于语义识别的电话打断识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述智能通话机器人与用户建立通话并发送系统语音之前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述根据预设规则对所述历史文本信息中的第一打断信息进行标注包括：

4.根据权利要求2所述的方法，其特征在于，所述对标注之后的所述历史音频信息进行音频特征抽取得到音频特征包括：

5.根据权利要求2所述的方法，其特征在于，所述对标注之后的所述历史文本信息进行文本特征抽取得到文本特征包括：

6.根据权利要求2所述的方法，其特征在于，所述基于所述音频特征和所述文本特征，采用CNN-LSTM模型架构构建并训练所述预设深度模型包括：

根据CNN-LSTM模型架构，构建所述预设深度模型的基础结构；

7.根据权利要求1所述的方法，其特征在于，所述基于VAD探测技术在所述音频信息中获取用户的打断语音包括：

8.一种基于语义识别的电话打断识别系统，其特征在于，所述系统包括：采集模块、转换模块、预测模块和响应模块；

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的一种基于语义识别的电话打断识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至7中任一项所述的一种基于语义识别的电话打断识别方法。