CN111199732A

CN111199732A - 一种基于情感的语音交互方法、存储介质及终端设备

Info

Publication number: CN111199732A
Application number: CN201811366588.7A
Authority: CN
Inventors: 马小莉
Original assignee: Shenzhen TCL New Technology Co Ltd
Current assignee: Shenzhen TCL New Technology Co Ltd
Priority date: 2018-11-16
Filing date: 2018-11-16
Publication date: 2020-05-26
Anticipated expiration: 2038-11-16
Also published as: EP3882910A4; US11640832B2; US20210304789A1; WO2020098756A1; CN111199732B; EP3882910A1

Abstract

本发明公开了一种基于情感的语音交互方法、存储介质及终端设备，所述方法包括：接收用户输入的语音信息，取所述语音信息的意图类型；当所述意图类型为情感意图时，确定所述语音信息的情感类型；根据所述情感类型生成所述语音信息的应答语音，并播放所述应答语音。本发明通过对语音信息的意图类型进行判断，并当意图类型为情感意图时，根据情感意图生成相应的应答语音，使得所述应答语音可以与用户的情感意图相配合，在实现语音交互的同时达到情感交互，给用户的使用带来方便。

Description

一种基于情感的语音交互方法、存储介质及终端设备

技术领域

本发明涉及智能终端技术领域，特别涉及一种基于情感的语音交互方法、存储介质及终端设备。

背景技术

随着人工智能的日益发展，自然语言处理已经成为一个重要的研究方向，近年来，在不同领域的应用越来越广阔，例如：家居、汽车、教育等领域。由于人工智能在语言领域的发展，除了原有的遥控按键交互、触屏交互，自然语言的交互，也使人机交互也进入了新的篇章。

虽然人工智能的不断迅速发展，自然语言交互的效率和精准度、智能性也在不断前进，但现有的产品的对话依旧固定机械化，缺少情感，只能按照预置的固定策略来回答用户，在情感情绪表达方面，与用户在心理层面的沟通不能产生互动，不能满足用户对人机交互的需求。

发明内容

鉴于现有技术的不足，本发明旨在提供一种基于情感的语音交互方法、存储介质及终端设备。

本发明所采用的技术方案如下：

一种基于情感的语音交互方法，其包括：

接收用户输入的语音信息，获取所述语音信息的意图类型，其中，意图类型包括情感意图和指令意图；

当所述意图类型为情感意图时，确定所述语音信息的情感类型；

根据所述情感类型生成所述语音信息的应答语音，并播放所述应答语音。

所述基于情感的语音交互方法，其中，所述接收用户输入的语音信息，获取所述语音信息的意图类型，其中，意图类型包括情感意图和指令意图具体包括：

接收用户输入的语音信息，对所述语音信息进行词语划分，判断划分得到的词语中是否携带情感关键词；

当携带情感关键词时，判定所述语音信息的意图类型为情感意图；

当未携带情感关键词时，判定所述语音信息的意图类型为指令意图。

所述基于情感的语音交互方法，其中，所述当所述意图类型为情感意图时，确定所述语音信息的情感类型具体包括：

当所述意图类型为情感意图时，对所述语音信息进行情感分析，其中，所述情感分析为词汇情感分析、句意情感分析以及声音节奏情感分析中的一种或多种；

根据所述情感分析确定所述语音信息对应的情感类型。

所述基于情感的语音交互方法，其中，所述根据所述情感类型生成所述语音信息的应答语音，并播放所述应答语音具体为：

根据情感同理原则及情感导向原则确定所述语音信息对应的应答语音，并播放所述应答语音，其中，所述应答语音包括情感回应语句和功能导向语句。

所述基于情感的语音交互方法，其中，所述接收用户输入的语音信息，获取所述语音信息的意图类型之前包括：

当接收到语音唤醒指令时，启动语音倾听模式并主动播放预设语音。

所述基于情感的语音交互方法，其中，所述根据所述情感类型生成所述语音信息的应答语音，并播放所述应答语音之后还包括：

记录情感意图的语音信息的数量，并当所述数量达到预设阈值时启动预设的主动情感模式，以使得终端设备启动主动播放语音。

所述基于情感的语音交互方法，其中，所述方法还包括：

当所述意图类型为指令意图时，判断所述指令意图是否明确；

当所述指令意图不明确时，采用域澄清方式询问用户直至指令意图明确，并执行所述指令意图对应的指令。

所述基于情感的语音交互方法，其中，所述方法还包括：

当执行所述指令意图对应的指令时，根据所述指令生成并播放激励语音。

一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上任一所述的基于情感的语音交互方法中的步骤。

一种终端设备，其包括：处理器以及存储器;

所述存储器上存储有可被所述处理器执行的计算机可读程序；

所述处理器执行所述计算机可读程序时实现如上任一所述的基于情感的语音交互方法中的步骤。

有益效果：与现有技术相比，本发明提供了一种基于情感的语音交互方法、存储介质及终端设备，所述方法包括：接收用户输入的语音信息，取所述语音信息的意图类型；当所述意图类型为情感意图时，确定所述语音信息的情感类型；根据所述情感类型生成所述语音信息的应答语音，并播放所述应答语音。本发明通过对语音信息的意图类型进行判断，并当意图类型为情感意图时，根据情感意图生成相应的应答语音，使得所述应答语音可以与用户的情感意图相配合，在实现语音交互的同时达到情感交互，给用户的使用带来方便。

附图说明

图1为本发明提供的基于情感的语音交互方法的一个实施例的流程图。

图2为本发明提供的基于情感的语音交互方法的一个实施例中步骤S10的流程图。

图3为本发明提供的基于情感的语音交互方法的一个实施例中步骤S20的流程图。

图4为本发明提供的一种终端设备的结构原理图。

具体实施方式

本发明提供一种基于情感的语音交互方法、存储介质及终端设备，为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

下面结合附图，通过对实施例的描述，对发明内容作进一步说明。

本实施例提供了一种基于情感的语音交互方法，如图1所示，所述方法包括：

S10、接收用户输入的语音信息，获取所述语音信息的意图类型，其中，意图类型包括情感意图和指令意图。

S20、当所述意图类型为情感意图时，确定所述语音信息的情感类型。

S30、根据所述情感类型生成所述语音信息的应答语音，并播放所述应答语音。

具体地，所述语音信息可以是终端设备通过拾音器采集到用户实时输入的语音，也可以是外部设备通过网络发送至终端设备的语音等。在实际应用中，为了减少语音交互对终端设备的损耗，图1所示的流程的执行主体可以是云端服务器，也就是说，终端设备接收用户输入的语音信息，并将所述语音信息发送至云端服务器，云端服务器可根据获取到的语音信息生成应答语音，并将应答语音返回给终端设备，再有终端设备将应答语音播放给用户。其中，所述终端设备为具有语音功能的终端设备。

进一步，在所述步骤S10中，所述意图类型用于确定所述语音信息的应答方式，也就是说，不通过意图类型的语音信息对应不同的应答方式，这也可以根据用户的意图快速执行相应的操作，提高语音应答的及时性。其中，所述意图包括情感意图和指令意图，所述情感意图为所述语音信息包含有情感表达，所述指令意图为所述语音信息仅包含指令表达。在本实施例中，所述意图类型的区分可以通过判断所述意图类型是否为情感意图来确定，当所述意图类型不是情感意图时，所述意图类型为指令意图。所述情感意图可以通过确定所述语音信息是否携带情感关键词来确定。相应的，如图2所示，所述接收用户输入的语音信息，获取所述语音信息的意图类型，其中，意图类型包括情感意图和指令意图具体包括：

S11、接收用户输入的语音信息，对所述语音信息进行词语划分，判断划分得到的词语中是否携带情感关键词；

S12、当携带情感关键词时，判定所述语音信息的意图类型为情感意图；

S13、当未携带情感关键词时，判定所述语音信息的意图类型为指令意图。

具体地，所述情感关键词可以是预设存储于关键词数据库内，当将所述语音信息进行词语划分后，可以在关键词数据库查找划分得到的各词语，如果查找到，则判定所述语音信息携带情感关键词。在本实施例中，在对所述语音信息进行划分之前需要识别所述语音信息，已将所述语音信息转换为文本信息，之后在对所述文本信息进行词语划分，并且在词语划分后，可以对划分得到词语进行词性筛选，将副词以及人称代称等删除，以提高情感关键词的查找速度。例如，所述语音信息对应的文件信息为“今天真累呀”，对所述文本信息进行词语划分可以得到“今天”“真累”和“呀”，对词语进行筛选后可以得到“今天”和“真累”，其中，所述“真累”中国的累为情感关键词，从而可以确定所述语音信息的意图类型为情感意图。

进一步，当在关键词数据库内查找划分得到的各词语时，关键词数据库内可以包含多个划分得到的词语。而当查找到多个情感关键词时，可以判断多个情感关键词对应的情感类型是否相同，如果相同在多个情感关键词中选取一个情感关键词作为所述语音信息的情感关键词。当多个情感关键词对应的情感类型不同时，可以将所述语音信息的意图类型确定为指令意图。当然，在实际应用中，当语音信息包含多个不同类型的情感关键词时，可以获取所述语音信息对应的语气和语调，根据所述语气和语调确定所述语音信息对应的情感关键词。

进一步，在所述步骤S20中，所述情感类型指的是用户的情感状态，例如，情感类型为开心、不开心、生气以及伤心等。所述情感类型可以根据所述情感关键词直接确定，也可以根据情感关键词以及语音信息的整体句意来确定。相应的，如图3所示，所述当所述意图类型为情感意图时，确定所述语音信息的情感类型具体包括：

S21、当所述意图类型为情感意图时，对所述语音信息进行情感分析，其中，所述情感分析为词汇情感分析、句意情感分析以及声音节奏情感分析中的一种或多种；

S22、根据所述情感分析确定所述语音信息对应的情感类型。

具体地，所述词汇情感分析可针对语音信息的词汇进行情感分析，其中，汉字的情感有褒义词、贬义词、积极与消极的语气词、骂人词等，不同词汇有着其情感代表。所述句意情感分析针对语音信息的词汇和完整句意，通过自然语言处理分析，来进行情感分析，其中，所述句意情感分析主要是基于词汇情感分析进行的。所述声音节奏情感分析对语音信息的声音进行分析，与历史交互记录以及标准声音情感节奏库等进行对比判断声音节奏，预测情感。这样通过所述情感分析为词汇情感分析、句意情感分析和/或声音节奏情感分析可以确定所述语音信息对应的情感类型。在本实施例中，优选采用声音节奏情感分析确定语音信息的情感类型，即对所述语音信息的情感意图进行划分，例如，情感意图属于伤心类等。其中，所述声音节奏情感分析还可以采用对音素进行分析以确定情感意图对应的情感类型。所述音素可以包括声音的高低、起伏、声调等。也就是说，可以根据语音信息的声音的高低、起伏、声调等确定其对应的情感类型。在实际应用中，可以预设各情感类型对也得声调范围，将语音信息对应的声调与声调范围进行匹配，以确定其所属的情感类型。

此外，在本发明的一个实施例中，可以采用声音的高低或起伏时，也可以采用相同的方式进行；或者将声音的高低、起伏以及声调分别设置范围，之后依次将声音的高低、起伏以及声调与其对应的范围进行对比，确定声音的高低、起伏以及声调对应的情感类型。在确定声音的高低、起伏以及声调对应的情感类型后，选取数量多的情感类型作为所述语音信息的情感类型，当声音的高低、起伏以及声调分别对应不同的情感类型时，可以根据声音的高低、起伏以及声调的优选等级来确定所述语音信息对应的情感类型。其中，所述声音的高低、起伏以及声调的优选等级为预选设定的。当然，当声音的高低、起伏以及声调分别对应不同的情感类型时，也可以随机选取一个情感类型作为所述语音信息对应的情感类型。

进一步，在所述步骤S30中，所述应答语音是根据所述语音信息的情感类型生成的语音信息，并且所述应该语音是基于情感同理原则及情感导向原则生成，其包括情感同理部分和情感导向域两部分。其中，所述情感同理部分用于与用户产生情感共鸣，所述情感导向域部分用于给用户提供缓解情绪的方式。例如，语音信息为“今天真累呀”，基于情感同理原则及情感导向原则生成的应答语音可以为“噢，那要放松休息一下了，听听音乐吧”，其中，“噢，那要放松休息一下了”为情感同理部分，“听听音乐吧”为情感导向域，这也可以提高应答语音与的用户共情，使情绪可以流动。相应的，所述根据所述情感类型生成所述语音信息的应答语音，并播放所述应答语音具体为：根据情感同理原则及情感导向原则确定所述语音信息对应的应答语音，并播放所述应答语音，其中，所述应答语音包括情感回应语句和功能导向语句。当然，在实际应用中，当根据所述情感类型生成所述语音的应答语音时，还可以生成相应的应答语音的情感视觉图像，并调用所述应答语音及与情感视觉图像，通过所述视觉图像演绎所述对应的应答语音。

进一步，为了提高所述应答语句与所述语音信息共鸣，在生成应答语音时，可以获取语音信息的语音特征，采用所述语音特征来播放应答语音，使得所述应该语音在符合语音信息的语境。其中，所述语音特征可以包括音量、音调以及音频等，根据所述音量、音调以及音频确定应答语音的语音特征，在采用所述语音特征来播放所述应答语音。当然，在实际应用中，还可以获取语音信息对应的用户标识，并根据用户标识确定所述用户的说话格式习惯、口音以及口头禅等，可以根据说话格式习惯、情感类型以及口头禅生成应答语音，并根据语音特征以及口音确定播放应答信息的方式，并采用确定的方式播放所述应答信息。

进一步，在本发明的一个实施例中，为了提高情感语音交互的主动性，在根据情感类型生成应答语音后，可以记录情感语音交互的次数，并且当所述次数达到预设阈值时，自动开始预设的主动情感模式。相应的，所述根据所述情感类型生成所述语音信息的应答语音，并播放所述应答语音之后还包括：

具体地，所述主动情感模式为预设设置的，当所述主动情感模式开启时，终端设备在开机或者语音功能唤醒时，主动向用户播放语音。其中，所述预设阈值为预先设置的，例如，5等。也就是说，当用户与终端设备进行情绪情感表达的次数达到5次后，终端设备自动启动主动情感模式进入主动情感处理机，其中，所述主动情感处理机为用户开机后主动向发出语音，以与用户进行情感互动。

进一步，在本发明的一个实施例中，所述方法还包括：

具体地，所述指令意图为用户需要执行什么指令，而用户当前意图不明确时，可以采用域澄清询问的方式进行询问，以让用户进一步澄清意图，当指令意图明确时，根据所述指令意图执行相应的操作。例如用户说“甜蜜蜜”，智能设备采用域澄清的方式生成并播放询问语音“您是要看电影还是听歌”，此时用户说“听歌”，则智能设备明确用户指令意图为播放歌曲甜蜜蜜，那么智能设备执行播放歌曲甜蜜蜜的操作。此外，为了提供语音交互的情感性，在根据指令意图对应的指令执行完操作后，可以生成相应的激励语音。相应的，所述方法还包括：当执行所述指令意图对应的指令时，根据所述指令生成并播放激励语音。例如，当执行完播放歌曲甜蜜蜜的操作后，可以生成并播放“请慢慢欣赏”的语音。

基于上述基于情感的语音交互方法，本发明还提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上所述的基于情感的语音交互方法中的步骤

本发明还提供了一种终端设备，如图4所示，其包括至少一个处理器（processor）20；显示屏21；以及存储器（memory）22，还可以包括通信接口（Communications Interface）23和总线24。其中，处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令，以执行上述实施例中的方法。

此外，上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器22作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器22中的软件程序、指令或模块，从而执行功能应用以及数据处理，即实现上述实施例中的方法。

存储器22可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器。例如，U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。

此外，上述存储介质以及移动终端中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明，在这里就不再一一陈述。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于情感的语音交互方法，其特征在于，其包括：

2.根据权利要求1所述基于情感的语音交互方法，其特征在于，所述接收用户输入的语音信息，获取所述语音信息的意图类型，其中，意图类型包括情感意图和指令意图具体包括：

3.根据权利要求1所述基于情感的语音交互方法，其特征在于，所述当所述意图类型为情感意图时，确定所述语音信息的情感类型具体包括：

根据所述情感分析确定所述语音信息对应的情感类型。

4.根据权利要求1所述基于情感的语音交互方法，其特征在于，所述根据所述情感类型生成所述语音信息的应答语音，并播放所述应答语音具体为：

5.根据权利要求1所述基于情感的语音交互方法，其特征在于，所述接收用户输入的语音信息，获取所述语音信息的意图类型之前包括：

6.根据权利要求1所述基于情感的语音交互方法，其特征在于，所述根据所述情感类型生成所述语音信息的应答语音，并播放所述应答语音之后还包括：

7.根据权利要求1所述基于情感的语音交互方法，其特征在于，所述方法还包括：

8.根据权利要求7所述基于情感的语音交互方法，其特征在于，所述方法还包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1～8任意一项所述的基于情感的语音交互方法中的步骤。

10.一种终端设备，其特征在于，包括：处理器以及存储器;

所述处理器执行所述计算机可读程序时实现如权利要求1-8任意一项所述的基于情感的语音交互方法中的步骤。