CN114120985A

CN114120985A - 智能语音终端的安抚交互方法、系统、设备及存储介质

Info

Publication number: CN114120985A
Application number: CN202111370015.3A
Authority: CN
Inventors: 吴雪
Original assignee: Shencong Semiconductor Zhuhai Co ltd; Shanghai Shencong Semiconductor Co ltd
Current assignee: Shencong Semiconductor Zhuhai Co ltd; Shanghai Shencong Semiconductor Co ltd
Priority date: 2021-11-18
Filing date: 2021-11-18
Publication date: 2022-03-01

Abstract

本发明公开了智能语音终端的安抚交互方法、系统、设备及存储介质，方法包括：接收所采集的声音信号；对声音信号进行处理语义识别以及情绪判别；通过识别结果访问互联网；确定声音信号所属的情绪等级；实时接收互联网访问状态以及情绪等级；在网络通信不佳访问处于等待状态时，利用预先配置的安抚交互模型根据访问状态和情绪等级，直接输出对应于情绪等级的首次安抚音频，并且间隔对应情绪等级的时间段再依次输出对应于情绪等级的安抚音频。本发明实现的安抚交互方法在无法解决交互对象的问题前，没有让交互对象觉得被忽视，最大限度提高交互对象的交互体验感。

Description

智能语音终端的安抚交互方法、系统、设备及存储介质

技术领域

本发明涉及语音交互技术，尤其涉及一种智能语音终端的安抚交互方法、系统、设备及存储介质。

背景技术

现有语音交互类产品有全在线型、全离线型、半在线半离线型，该类产品采用到一些神经网络情感算法，对交互对象即时的语音进行情感获取、分类、识别以及响应，使人机交互具备亲切性以及准确性。

通常的交互过程为，语音产品捕获交互对象语料中的关键信息，基于构建的识别模型，通过关键信息识别出情感状态，分辨出交互对象的情感变化，并判断交互对象在情感变化后的预期情感，激活相应的数据库，主动向交互对象反馈所需要的新信息。

但是该类语音产品的使用存在一些问题，比如，若情感算法设置在云测，当出现网络不佳的情况，交互对象咨询的问题又不在端侧指令集，数据将无法传输至云端，导致语音产品解决不了交互对象咨询的问题，而端侧也没有其他安抚情绪的回应，让交互对象的体验感极差。即使网络正常时，云端反馈的数据也会出现延迟，导致交互对象无法短时间内得不到回应，让语音产品的技术不够人性化。比如，情感算法设置在端侧，虽然不受网络状态的影响，但是如果咨询的问题不属于端侧指令集，那么依旧反馈不了咨询的问题，依旧让语音产品不够人性化。

发明内容

本申请实施例通过提供一种智能语音终端的安抚交互方法、系统、设备及存储介质，解决了现有技术中智能语音终端在与使用对象交互过程中由于不考虑使用对象的情绪，智能化效果差，体验不佳，实现了在反馈响应结果前给出情绪安抚，提高智能产品的使用体验。

第一方面，本申请提供了一种智能语音终端的安抚交互方法，所述方法包括：

S100，接收所采集的声音信号；

S200，对所述声音信号进行处理语义识别以及情绪判别；其中，利用预先配置的语义识别模型对所述声音信号进行语义识别后，以通过语义识别结果访问互联网；利用预先配置的情绪识别模型对所述语义识别结果及所述声音信号进行情绪判别，根据所述情绪识别模型中预设的多种等级的情绪状态，确定所述声音信号所属的情绪等级；

S300，实时接收互联网访问状态以及情绪等级；在网络通信稳定访问结束时，直接输出访问结果；在网络通信不佳访问处于等待状态时，利用预先配置的安抚交互模型根据访问状态和情绪等级，直接输出对应于情绪等级的首次安抚音频，并且间隔对应情绪等级的时间段再依次输出对应于情绪等级的安抚音频。

进一步地，在所述步骤S200中，还包括在利用所述情绪识别模型对连续的所述声音信号进行情绪判别时，当连续的所述声音信号适配于相同等级的情绪状态以及相同的所述语义识别结果时，确定后次判别的所述声音信号比前次判别的所述声音信号的情绪状态高一等级。

进一步地，所述步骤S300中进一步包括，在所述安抚交互模型中配置有适配于所述情绪等级的多种安抚音频及其输出时间间隔，使得在网络通信不佳时，直接根据所述情绪等级进行对应所述安抚音频的首次输出，并在等待期间，按照其预设的输出时间间隔继续输出。

进一步地，在所述步骤S300之后还包括，在网络通信恢复正常时，若接收的所述情绪状态包括最高情绪等级时，进行人机语音交互，以提供人工通道选择，以解决与所述智能语音终端有关的技术问题。

第二方面，本申请提供了一种智能语音终端的安抚交互系统，采用第一方面任意一项的方法，所述系统包括：

声音接收模块，配置为接收所采集的声音信号；

信号处理模块，配置为对所述声音信号进行处理语义识别以及情绪判别；其中，利用预先配置的语义识别模型对所述声音信号进行语义识别后，以通过语义识别结果访问互联网；利用预先配置的情绪识别模型对所述语义识别结果及所述声音信号进行情绪判别，根据所述情绪识别模型中预设的多种等级的情绪状态，确定所述声音信号所属的情绪等级；

安抚输出模块，配置为实时接收互联网访问状态以及情绪等级；在网络通信稳定访问结束时，直接输出访问结果；在网络通信不佳访问处于等待状态时，利用预先配置的安抚交互模型根据访问状态和情绪等级，直接输出对应于情绪等级的首次安抚音频，并且间隔对应情绪等级的时间段再依次输出对应于情绪等级的安抚音频。

第三方面，本申请提供了一种计算机设备，其特征在于，所述计算机设备包含处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面任一项所述的智能语音终端的安抚交互方法。

第四方面，本申请提供了一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如第一方面任一项所述的智能语音终端的安抚交互方法。

本申请实施例中提供的技术方案，至少具有如下技术效果：

本发明由于采用了情绪识别模型，可以及时获取到声音信号中所携带的情绪状态，在无法解决交互对象的问题前，没有让交互对象觉得被忽视，最大限度提高交互对象的交互体验感。

由于采用了安抚交互模型，可以根本不同情绪级别的情绪状态反馈安抚音频，并且优先输出情绪级别高的情绪状态的安抚音频，能够让交互对象体会到自己没有被忽视，而是正在等待问题被解决。

附图说明

图1为本申请实施例一中的智能语音终端的安抚交互方法的流程图；

图2为本申请实施例二中智能语音终端的安抚交互系统的模块图。

具体实施方式

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

实施例一

本申请实施例提供了一种智能语音终端的安抚交互方法，该方法包括：

步骤S100，接收所采集的声音信号。

步骤S200，对声音信号进行处理语义识别以及情绪判别；其中，利用预先配置的语义识别模型对声音信号进行语义识别后，以通过语义识别结果访问互联网；利用预先配置的情绪识别模型对语义识别结果及声音信号进行情绪判别，根据情绪识别模型中预设的多种等级的情绪状态，确定声音信号所属的情绪等级。

步骤S300，实时接收互联网访问状态以及情绪等级；在网络通信稳定访问结束时，直接输出访问结果；在网络通信不佳访问处于等待状态时，利用预先配置的安抚交互模型根据访问状态和情绪等级，直接输出对应于情绪等级的首次安抚音频，并且间隔对应情绪等级的时间段再依次输出对应于情绪等级的安抚音频。

本实施例步骤S100中，接收所采集的声音信号的接收主体可以是任意智能语音终端，比如市场是可购买的“天猫精灵”、“小度在家”，也可以是日常可进行语义识别的智能手机、平板电脑等，当然也可以是设置语义识别的应用程序，对此本实施例不作限定。由于语义识别技术均加载在智能终端上，因此本实施例中的智能语音终端可以是任意采用语义识别技术的终端设备。

进一步说明，在一种实施例中，在步骤S200中的语义识别模型处理语义识别过程，还包括对声音信号进行预处理。具体包括：获取含有分句标记的声音信号和文字信息；其包括识别声音信号所属的语言种类，根据语言种类对声音信号进行分句处理，获取含有分句标记的声音信号；将含有分句标记的声音信号翻译成文字信息。其中含有分句标记的文字信息可用于访问互联网，以便通过互联网查询对应于识别出的文字信息的相关内容。

针对声音信号的情绪识别，本实施例还识别声音信号所属的语言种类。本实施例中的智能语音终端不局限于国人使用，而不同语言种类说话的表达方式或者韵律格式均不相同。比如，汉语属于表意文字，具有高度的概括性和简洁性，表达效率高；英语属于表音文字，句子需要通过一定的外显形态标记来表现，英语讲究一句话只说一件事，这件事要么是“主谓宾”结构，要么是“主系表”结构，即“什么做什么”或“什么是什么”，汉语则没有这样的讲究。本实施方案中需要了解声音信号中的情绪状态，因此仅了解其含义是无法获取情绪状态的，因此需要预先识别出声音信号的语言种类，而世界上的语言种类繁多，并且很多语言相似，本实施例中的智能语音终端预先配置语言种类识别模型，并且是在服务后台训练完善的语言种类识别模型。本实施例中的语言种类识别模型采用人工智能中的ngrams理念搭建模型架构，根据已有的语料库，建立4-grams的语言模型。针对语言种类的识别，本实施例中不限于所表述的技术，得出声音信号的语言种类即可。

进一步地，根据语言种类对声音信号进行分句处理，获取含有分句标记的声音信号。基于语言种类对声音信号进行分句处理。分句处理也就是将声音信号之间设置停顿标记。在文字表述中，通常采用标点符号表示语义之间的停顿，本实施例中对声音信号进行分句处理，使声音信号之间具有分句标记，各分句标记之间的声音信号具有完整的一个语义，不同语言种类的声音信号之间的停顿格式是不相同的，因此本实施例中需要基于语言种类进行分句处理。

从而将含有分句标记的声音信号翻译成文字信息。本步骤中的“翻译”是表达方式的转换，将声音信号的声波转变成语义文字，而不是一种语言文字转成另一种语言文字。进一步说明，本实施例中的声音信号已根据语言种类进行分段处理，此时仅需要将带有分句标记的声音信号转为文字信息即可。

在一种实施例中，声音转文字的方法包括：预处理：首尾端的静音切除，降低干扰；其中静音切除的操作一般称为VAD；声音分帧，把声音切开成一小段一小段，每小段称为一帧，使用移动窗函数来实现，各帧之间具有交叠。特征提取：利用有线性预测倒谱系数(LPCC)和Mel倒谱系数(MFCC)，把每一帧波形变成一个包含声音信息的多维向量。声学模型(AM)：通过对语音数据进行训练获得，输入是特征向量，输出为音素信息。字典：将字或者词与音素的对应，而中文就是拼音和汉字的对应，英文就是音标与单词的对应。语言模型(LM)：通过对大量文本信息进行训练，得到单个字或者词相互关联的概率。解码：就是通过声学模型，字典，语言模型对提取特征后的音频数据进行文字输出。

在一种实施例中，针对情绪状态的识别，还包括如下：

接收含有分句标记的声音信号和文字信息。本实施例中接收的声音信号和文字信息可以通过两个通道，一个通道直接接收文字信息，另一个通道接收声音信号和文字信息。

本实施例中进行处理文字信息的查询响应以及声音信号中的情绪识别。也就是说，在同一时间序列中，在完成语义识别结果后，既进行文字信息的查询响应，又进行声音信号的情绪识别。由于查询响应的时间受限于网络状态，当网络状态不通畅或者所查询的数据资源有限时，反馈响应比较缓慢，而在进行处理中的情绪识别已获取情绪状态，此时可以根据情绪状态进行响应的安抚，也就是本实施例实现的目的。

对文字信息进行查询相应。对文字信息进行查询响应包括识别文字信息中的特征关键词以及待响应内容。特征关键词可以为智能语音终端反馈的动词，比如播放某一歌手的歌曲，“播放”为特征关键词，“某一歌手的歌曲”为待查询内容，当智能语音终端在本地已存储待查询内容时，可以直接响应，但是当需要从互联网中查找时，可能需要更多时间才能反馈。对于情绪不佳的交互对象来说，等待更加影响情绪，基于此，设置基于情绪的安抚设计是本实施例实现的目的。

利用预先配置的情绪识别模型对含有分句标记的声音信号和文字信息进行情绪判别，确定每句声音信号的情绪状态。

当然，在一些实施例中，情绪识别模型包括对含有语言标记的声音信号进行语言特征值提取，提取出声音信号中包括声调、降调、口音、重音在内的韵律特征。在一些实施例中，情绪识别模型还包括根据语言标记和语言特征值，采用矢量分割型马氏距离判别法或主元分析法或隐马尔可夫模型，计算每个分句中声音信号的情绪状态的概率，并且当情绪状态的概率值超过阈值时，确定情绪状态。在一些实施例中，情绪识别模型还包括利用情绪词库对文字信息进行情绪检索，获取文字信息中所包含的情绪状态，统计每句文字信息中对应情绪状态的次数，以次数最高值确定情绪状态。

进一步说明，针对识别出的情绪状态，本实施例的情绪识别模型中预设多个情绪等级，即为识别出的情绪状态在输出时匹配对应的情绪等级。本实施例中情绪识别模型输出的每句声音信号的情绪状态具有相应的情绪等级。

因此，本实施例的情绪识别模型对声音信号进行情绪判别，该情绪识别模型通过预设多种等级的情绪状态，在识别出情绪状态后，即可获取到情绪等级，从而实现通过情绪识别模型获取每句声音信号的情绪等级。

在一种实施例中，步骤S200中，还包括在利用情绪识别模型对连续的声音信号进行情绪判别时，当连续的声音信号适配于相同等级的情绪状态以及相同的语义识别结果时，确定后次判别的声音信号比次前判别的声音信号的情绪状态高一等级。也就是说，连续两次相同语义的声音信号，第一次的声音信号可能智能语音终端未及时反馈，第二次的声音信号即使情绪判断时，情绪状态未发生改变，但是智能语音终端为了更加人性化，针对后一次的情绪级别进行升级，以使得智能语音终端对交互对象更加重视，从而安抚程度更深。

本实施例中的步骤S300中进一步包括，在安抚交互模型中配置有适配于情绪等级的多种安抚音频及其输出时间间隔，使得在网络通信不佳时，直接根据情绪等级进行对应安抚音频的首次输出，并在等待期间，按照其预设的输出时间间隔继续输出。也就是说，安抚交互模型中针对情绪等级设置输出策略，比如，情绪级别甲等，那个输出的安抚音频为甲等音频，相应的甲等音频的输出间隔时间也为甲等时间段。进一步说明，情绪等级的级别越高，安抚音频的安抚程度越高，输出音频的时间间隔也就越短。当互联网访问状态一直处于等待状态，也就一直没有给出响应结果，在这种状态下，本实施例通过识别出的情绪等级输出相应的安抚音频，从而提高智能语音终端的人性化体验。

进一步说明，本实施例中还可以针对情绪等级设置优先级，输出优先级等级高的情绪状态安抚音频。即根据情绪等级优先级高的情绪状态输出安抚音频。比如，人有六种情绪类型，分别为快乐、悲伤、愤怒、惊讶、恐惧以及厌恶，将各情绪类型进行安抚反馈的优先级分级，用于优先输出高级别的情绪状态所对应的安抚音频。进一步说明，本实施例中各情绪类型还包括多个子级别，各情绪类型的各个子级别组合生成不同情绪级别的情绪状态。本实施例根据不同情绪级别的情绪状态预设安抚音频，使得在时间阈值内根据接收的声音信号所确定最高级别的情绪状态反馈安抚音频，从而缓解等待状态的交互对象的情绪。

此外，为了更好的提高智能语音终端的人性化设置，在步骤S300之后还包括，在网络通信恢复正常时，若接收的情绪状态包括最高情绪等级时，进行人机语音交互以提供人工通道选择，以解决与智能语音终端有关的技术问题。也就是说当涉及到由于智能语音终端的网络故障导致的访问滞后，本实施例直接给出人工安抚通道选择，一方面可以人工交涉安抚，帮助交互对象缓解情绪，从而增加智能语音终端供应商的服务印象，另一方面可以帮助智能语音终端的供应商采集故障访问滞后的相关数据，进而做出相应的技术改善。

综上可以看出，本实施例中在网络条件好时，由于本实施例中预先设置有安抚交互方法，根据声音信号判定出交互对象传递的情绪状态，感受出交互对象是否着急。由于智能语音终端的存储空间有限，因此本实施例中采用的各类运算模型都是训练好的模型，不管网络条件处于什么样的状态，通过安抚交互方法中的各个模型获取到情绪状态并根据安抚机制，及时输出安抚音频，安抚交互对象的情绪，从而使智能语音终端与交互对象(人)的互动更加人性化。比如查询响应处于“正在查询中请稍后”，智能语音终端根据确定情绪级别的情绪状态输出对应的安抚音频，并且按找预设的时间间隔输出安抚音频。

由于是不同情绪状态对应不同的安抚音频，那么情绪状态等级不高，也就是说不是很着急时，那么输出的安抚音频可能属于安抚程度较低的话语，并且安抚话语的间隔时间就可以相对较长。反之，若情绪状态激动比较着急，输出的安抚音频属于安抚程度较高的话语，并且安抚音频输出的时间间隔要相对较短，能让交互对象感受到自己没有被忽视，而是正在等待问题被解决。并且基于对情绪状态的统计，本实施例中还针对查询响应，优先输出数量较多的情绪状态所对应的查询结果。从而使得即使在无法直接解决交互对象的问题，但是没有让交互对象觉得被忽视，最大限度提高交互对象的交互体验感。

实施例二

本申请实施例提供了一种智能语音终端的安抚交互系统，采用实施例一中的智能语音终端的安抚交互方法，该系统包括：

声音接收模块100，配置为接收所采集的声音信号。

信号处理模块200，配置为对声音信号进行处理语义识别以及情绪判别；其中，利用预先配置的语义识别模型对声音信号进行语义识别后，以通过语义识别结果访问互联网；利用预先配置的情绪识别模型对语义识别结果及声音信号进行情绪判别，根据情绪识别模型中预设的多种等级的情绪状态，确定声音信号所属的情绪等级。

安抚输出模块300，配置为实时接收互联网访问状态以及情绪等级；在网络通信稳定访问结束时，直接输出访问结果；在网络通信不佳访问处于等待状态时，利用预先配置的安抚交互模型根据访问状态和情绪等级，直接输出对应于情绪等级的首次安抚音频，并且间隔对应情绪等级的时间段再依次输出对应于情绪等级的安抚音频。

实施例三

本实施例提供了一种计算机设备，其特征在于，计算机设备包含处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如实施例一任一项的智能语音终端的安抚交互方法。

本实施例提供了一种计算机可读存储介质，其特征在于，存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如实施例一任一项的智能语音终端的安抚交互方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种智能语音终端的安抚交互方法，其特征在于，所述方法包括：

S100，接收所采集的声音信号；

S200，对所述声音信号进行语义识别以及情绪判别；其中，利用预先配置的语义识别模型对所述声音信号进行语义识别后，以通过语义识别结果访问互联网；利用预先配置的情绪识别模型对所述语义识别结果及所述声音信号进行情绪判别，根据所述情绪识别模型中预设的多种等级的情绪状态，确定所述声音信号所属的情绪等级；

2.如权利要求1所述的智能语音终端的安抚交互方法，其特征在于，在所述步骤S200中，还包括在利用所述情绪识别模型对连续的所述声音信号进行情绪判别时，当连续的所述声音信号适配于相同等级的情绪状态以及相同的所述语义识别结果时，确定后次判别的所述声音信号比前次判别的所述声音信号的情绪状态高一等级。

3.如权利要求1所述的智能语音终端的安抚交互方法，其特征在于，所述步骤S300中进一步包括，在所述安抚交互模型中配置有适配于所述情绪等级的多种安抚音频及其输出时间间隔，使得在网络通信不佳时，直接根据所述情绪等级进行对应所述安抚音频的首次输出，并在等待期间，按照其预设的输出时间间隔继续输出。

4.如权利要求1所述的智能语音终端的安抚交互方法，其特征在于，在所述步骤S300之后还包括，在网络通信恢复正常时，若接收的所述情绪状态包括最高情绪等级时，进行人机语音交互，以提供人工通道选择，以解决与所述智能语音终端有关的技术问题。

5.一种智能语音终端的安抚交互系统，采用权利要求1-4中任意一项的方法，其特征在于，所述系统包括：

声音接收模块，配置为接收所采集的声音信号；

6.一种计算机设备，其特征在于，所述计算机设备包含处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至4任一项所述的智能语音终端的安抚交互方法。

7.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至4任一项所述的智能语音终端的安抚交互方法。