CN110896422A

CN110896422A - 一种基于语音的智能响应方法及装置

Info

Publication number: CN110896422A
Application number: CN201811043163.2A
Authority: CN
Inventors: 宋亮; 李凯
Original assignee: Hisense Mobile Communications Technology Co Ltd
Current assignee: Hisense Mobile Communications Technology Co Ltd
Priority date: 2018-09-07
Filing date: 2018-09-07
Publication date: 2020-03-20

Abstract

本发明公开了一种基于语音的智能响应方法及装置，用于提升手机的智能化程度，改善用户情绪，从而极大改善用户对智能手机的体验。该方法包括：采集语音信息，对采集的语音信息进行语音情绪类型识别；根据识别出的语音情绪类型及预先设置的语音情绪类型与指令集响应类型的对应关系，确定与识别出的语音情绪类型对应的指令集响应类型；根据所述预先设置的指令集响应类型与指令类型的对应关系，执行所述确定的指令集响应类型对应的指令。

Description

一种基于语音的智能响应方法及装置

技术领域

本发明涉及语音识别技术，尤其涉及一种基于语音的智能响应方法及装置。

背景技术

随着人工智能技术的兴起，手机已不再是传统的通信工具，它变得更加智能。智能语音技术得到越发普遍的应用，但是当前行业内还没有通过手机采集语音数据，根据对采集到的语音数据进行分析，识别出用户的情绪状态，进而向用户进行手机端的智能推荐，例如通过推荐与用户情绪相对应的音乐、改变手机屏幕背景图片以及改变手机显示亮度的方式来改善用户情绪，能够提高用户对手机的智能化使用需求。对比行业内的手机产品，都没有此类设计。

发明内容

本发明提供一种基于语音的智能响应方法及装置，用于提升手机的智能化程度，改善用户情绪。

第一方面，本发明实施例提供了一种基于语音的智能响应方法，包括：

采集语音信息，对采集的语音信息进行语音情绪类型识别；

根据识别出的语音情绪类型及预先设置的语音情绪类型与指令集响应类型的对应关系，确定与识别出的语音情绪类型对应的指令集响应类型；

根据所述预先设置的指令集响应类型与指令类型的对应关系，执行所述确定的指令集响应类型对应的指令。

第二方面，本发明实施例提供了一种基于语音的智能响应装置，包括：

采集识别单元，用于采集语音信息，并对采集的语音信息进行语音情绪类型识别；

响应单元，用于根据识别出的语音情绪类型及预先设置的语音情绪类型与指令集响应类型的对应关系，确定与识别出的语音情绪类型对应的指令集响应类型；

指令执行单元，用于根据所述预先设置的指令集响应类型与指令类型的对应关系，执行所述确定的指令集响应类型对应的指令。

利用本发明提供的一种基于语音的智能响应方法及装置，具有以下有益技术效果：

根据采集到的语音信息，对用户进行情绪识别，手机做出对应的反馈，例如，当识别出用户愤怒时，可以推荐一些有趣影片，平和用户情绪；

可以用于视频、音乐、图片、小说等网站内容提供商的推荐系统，定制与用户当下情绪最恰当的推荐，提高用户对手机的使用体验感；

可以改善社交网络的使用体验，如果手机用户可以分享情绪，就能够更好的选择与他人交流的方式和时机。

可以用于改善躁郁症患者的医疗设备中，可以随时识别出患者的情绪，提供恰当的推荐内容，改善患者情绪。

附图说明

图1为一种基于语音的智能响应方法流程图；

图2为指令集响应类型命令的执行图；

图3为一种基于语音的智能响应装置结构图。

具体实施方式

为了提升用户对手机的智能化体验程度，改善用户情绪，本发明公开了一种基于语音的智能响应方法及装置。

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例一

本发明实施例提供了一种基于语音的智能响应方法，如图1所示，包括：

步骤101，采集语音信息，对采集的语音信息进行语音情绪类型识别；

步骤102，根据识别出的语音情绪类型及预先设置的语音情绪类型与指令集响应类型的对应关系，确定与识别出的语音情绪类型对应的指令集响应类型；

步骤103，根据预先设置的指令集响应类型与指令类型的对应关系，执行所述确定的指令集响应类型对应的指令。

在实施中，基于现有的语音识别技术，识别出采集的语音信息的特征信息，对所述特征信息进行语音情绪类型识别；

具体的，基于现有的人工智能技术，预先建立与语音情绪类型识别对应的训练模型，将采集到的不同训练数据对训练模型进行训练，确定训练模型能够识别到与不同训练数据对应的情绪类型时，训练完成，利用训练完成的训练模型对语音信息的特征信息进行识别，得到对应的语音情绪类型。上述训练数据可以是包括语音情绪类型及其对应的语音信息的特征信息的样本信息。

实施中，根据不同的语音情绪类型，预先设置对应的指令集响应类型，其中，指令集响应类型包括如下任一或任多个指令响应类型：指令集音乐响应，指令集壁纸响应，指令集亮度响应，一方面，不同的语音情绪类型，可以对应一种或多种指令集响应类型，例如，识别出的语音情绪类型是高兴、害怕，对应的指令集响应类型可以都是指令集音乐类型，也可以分别对应指令集音乐类型和壁纸类型；另一方面，一种语音情绪类型，可以对应不同的指令集响应类型，例如，识别出的语音情绪类型是高兴，则可以对应指令集音乐响应，指令集壁纸响应，指令集亮度响应中的一种或多种。

实施中，每个指令集响应类型对应的指令可以是一个指令，也可以是多个指令，例如，识别出的语音情绪类型是高兴，对应指令集音乐响应中对应的指令，可以是多种指令，如安静指令、唯美指令、感动指令等，执行安静指令则向用户推荐安静的歌曲，执行唯美指令则向用户推荐唯美的歌曲，执行感动指令则向用户推荐感动的歌曲，即上述执行多种指令时，可以同时向用户推荐安静、唯美、感动的歌曲。

上述实施例提供的方法，能够根据用户的不同情绪类型，对应不同的指令集响应类型，根据对应不同的指令集响应类型对应的不同指令，向用户推荐对应当下用户情绪的多种应用，提高用户的使用体验，改善用户的情绪。

作为一种可选的实施方式，对采集的语音信息进行语音情绪类型识别，包括：

对采集的语音信息进行文字识别得到语义识别结果，将上述语义识别结果与文字训练模型进行匹配，得到与上述语义识别结果对应的各个语音情绪类型匹配度值，根据与上述语义识别结果对应的各个语音情绪类型匹配度值确定识别出的语音情绪类型；或者

对采集的语音信息进行声纹识别得到声纹识别结果，将上述声纹识别结果与对应的声纹训练模型匹配，得到与上述声纹识别结果对应的各个语音情绪类型匹配度值，根据与上述声纹识别结果对应的各个语音情绪类型匹配度值确定识别出的语音情绪类型；或者

对采集的语音信息进行文字识别得到语义识别结果，将上述语义识别结果与文字训练模型进行匹配，得到与上述语义识别结果对应的各个语音情绪类型匹配度值，对采集的语音信息进行声纹识别得到声纹识别结果，将上述声纹识别结果与对应的声纹训练模型匹配，得到与上述声纹识别结果对应的各个语音情绪类型匹配度值，根据与上述语义识别结果对应的各个语音情绪类型匹配度值、及与上述声纹识别结果对应的各个语音情绪类型匹配度值确定识别出的语音情绪类型。

上述文字训练模型，基于已有的文本数据库，可以将不同的文本数据通过文字训练模型解码成一个完整的句子，上述语义识别结果与文字训练模型进行匹配，得到一个完整的句子，分析用户所表达的意思，从而得出对应的各个语音情绪类型匹配度值。

上述声纹训练模型，可以将采集到的语音信息的声学特征分类对应到音素或字词这样的单元，根据得到的音素或字词单元，由上述文字训练模型进行解码，得到一个完整的句子，分析用户所表达的意思，从而得出对应的各个语音情绪类型匹配度值。

作为一种优选实施方式，根据与上述语义识别结果对应的各个语音情绪类型匹配度值确定识别出的语音情绪类型，包括：

确定与上述语义识别结果对应的各个语音情绪类型匹配度值中，最大的匹配度值对应的语音情绪类型为识别出的语音情绪类型。

作为一种优选实施方式，根据与上述声纹识别结果对应的各个语音情绪类型匹配度值确定识别出的语音情绪类型，包括：

确定与上述声纹识别结果对应的各个语音情绪类型匹配度中，最大的匹配度值对应的语音情绪类型为识别出的语音情绪类型。

作为一种优选实施方式，根据与上述语义识别结果对应的各个语音情绪类型匹配度值、及与上述声纹识别结果对应的各个语音情绪类型匹配度值确定识别出的语音情绪类型，还包括：

将与上述语义识别结果对应的各个语音情绪类型匹配度值分别乘以第一权重，得到修正后的与上述语义识别结果对应的各个语音情绪类型匹配度值；

将与上述声纹识别结果对应的各个语音情绪类型匹配度值分别乘以第二权重，得到修正后的与上述声纹识别结果对应的各个语音情绪类型匹配度值；

将修正后的与上述语义识别结果对应的各个语音情绪类型匹配度值与修正后的与上述声纹识别结果对应的各个语音情绪类型匹配度值相加求和，得出最大的匹配度值的和对应的语音情绪类型为识别出的语音情绪类型；

其中，上述第一权重大于第二权重，且第一权重和第二权重之和为1。

作为一种优选实施方式，采集语音信息，对采集的语音信息进行语音情绪类型识别，还包括：

采集语音信息，将采集的语音信息发送到服务器，由上述服务器对采集的语音信息进行语音情绪类型识别；

接收上述服务器发送的识别出的语音情绪类别。

实施中，上述指令集响应类型可以是指令集音乐响应，指令集壁纸响应，指令集亮度响应，也可以是其它能在手机上运行的任何指令集响应类型，如视频响应，文字响应、图片响应、网页推送内容响应等。

作为一种优选实施方式，根据不同的语音情绪类型，对音乐数据库对应进行音乐分类，并建立播放每个语音情绪类型对应的分类的音乐的指令，与该语音情绪类型对应的指令集音乐响应的对应关系；

根据不同的语音情绪类型，对壁纸数据库对应进行壁纸分类，并建立显示每个语音情绪类型对应的分类的壁纸的指令，与该语音情绪类型对应的指令集壁纸响应的对应关系；

根据不同的语音情绪类型，对亮度范围进行分类，并建立显示每个语音情绪类型对应的各分类的亮度范围的指令，与该语音情绪类型对应的指令集亮度响应的对应关系。

上述不同的指令集响应类型对应不同的指令，如指令集音乐响应对应不同的音乐指令，能够通过识别用户不同的情绪类型，为用户推荐多种与用户当下情绪相对应的音乐，改善用户的情绪，提高用户对手机的体验感。

下面对上述实施例进行详细说明，如图2所示：

采集语音信息，对采集的语音信息进行语音情绪类型识别。

步骤201：采集语音信息，执行步骤202或者步骤203或者同时执行步骤202和步骤203；。

步骤202：对采集到的语音信息进行文字识别，将识别的结果内容与对应的文字训练模型匹配，得到与语义识别结果对应的各个语音情绪类型匹配度值，执行步骤204；

步骤203：对语音输入内容进行声纹识别，将识别的结果内容与对应的声纹训练模型匹配，得到与声纹识别结果对应的各个语音情绪类型匹配度值，执行步骤205；

步骤204：计算与上述语义识别结果对应的各个语音情绪类型匹配度值；

步骤205：计算与上述声纹识别结果对应的各个语音情绪类型匹配度值；

步骤206：将与上述语义识别结果对应的各个语音情绪类型匹配度值分别乘以第一权重，设第一权重值为90％，得到修正后的与上述语义识别结果对应的各个语音情绪类型匹配度值；

将与上述声纹识别结果对应的各个语音情绪类型匹配度值分别乘以第二权重，设第二权重值为10％，得到修正后的与上述声纹识别结果对应的各个语音情绪类型匹配度值；

将修正后的与上述语义识别结果对应的各个语音情绪类型匹配度值与修正后的与上述声纹识别结果对应的各个语音情绪类型匹配度值相加求和，比较匹配度值的求和值，得出最大的匹配度值的求和值对应的语音情绪类型为识别出的语音情绪类型；

步骤207：根据识别出的语音情绪类型及预先设置的语音情绪类型与指令集响应类型的对应关系，确定与识别出的语音情绪类型对应的指令集响应类型，指令集响应类型包括：指令集音乐响应、指令集壁纸响应和指令集亮度响应，同时执行步骤208、209和210；

步骤208：根据所述预先设置的指令集音乐类型与指令的对应关系，执行确定的指令集音乐响应对应的指令；

基于已建立的音乐类型分类数据库，将语音情绪类型识别结果与数据库中音乐类型匹配，输出匹配的音乐。

具体的，首先将情绪分为高兴、悲伤、害怕、愤怒四类；音乐按照情绪类型分为：抒情、安静、舒缓、清新、治愈、唯美、感动、快乐、温暖、轻快、慵懒、浪漫、寂寞、振奋、思念等类型，我们将情绪识别的结果与音乐类型建立如下对应关系：

高兴(情绪)：安静、唯美、感动、慵懒、浪漫、思念(音乐类型)；

悲伤(情绪)：快乐、温暖、舒缓(音乐类型)；

害怕(情绪)：振奋、治愈(音乐类型)；

愤怒(情绪)：抒情、清新、轻快(音乐类型)。

即若识别到用户情绪类型为悲伤时，对应的指令集音乐响应发出指令，音乐应用自动向用户推荐一种指令类型，如快乐的音乐，或推荐几种指令类型，如快乐、温暖和舒缓的音乐；用户也可以通过智能语音应用发出：“播放一首歌”，音乐应用根据用户情绪类型智能选择一首对应的歌曲进行播放。

其中，上述的音乐数据库可根据新增歌曲类型进行增加，且支持在线更新。

步骤209：根据所述预先设置的指令集壁纸类型与指令的对应关系，执行确定的指令集壁纸响应对应的指令；

基于已建立的壁纸类型分类数据库，将语音情绪类型识别结果与数据库中壁纸类型匹配，输出匹配的壁纸。

具体的，可以将壁纸分类成：安静、快乐、振奋、清新等类型，在用户高兴时，向用户展示安静的图片；在用户悲伤时，向用户展示快乐的图片；在用户害怕时，展示振奋、勇敢的图片；在愤怒时，展示轻快的图片等。

高兴(情绪)：安静、唯美、感动(壁纸类型)；

悲伤(情绪)：快乐、温暖、舒缓(壁纸类型)；

害怕(情绪)：振奋、治愈(壁纸类型)；

愤怒(情绪)：清新、轻快(壁纸类型)。

即若识别到用户情绪类型为高兴时，对应的指令集壁纸响应发出指令，手机将屏幕背景设置为安静的图片。

步骤210：根据所述预先设置的指令集亮度类型与指令的对应关系，执行确定的指令集亮度响应对应的指令；

基于已建立的亮度分类数据库，将语音情绪类型识别结果与数据库中亮度响应类型匹配，显示对应的亮度。

例如，语音情绪类型识别结果和手机屏幕亮度响应类型的对应关系如下：

高兴：亮度50％；

悲伤：亮度70％；

害怕：亮度100％；

愤怒：亮度30％。

实施例二

基于同一发明构思，本发明实施例中提供了一种基于语音的智能响应装置，该装置的具体实施可参见方法实施例部分的描述，重复之处不再赘述。

如图3所示，该装置主要包括：

采集识别单元301，用于采集语音信息，并对采集的语音信息进行语音情绪类型识别；

响应单元302，用于根据识别出的语音情绪类型及预先设置的语音情绪类型与指令集响应类型的对应关系，确定与识别出的语音情绪类型对应的指令集响应类型；

指令执行单元303，用于根据预先设置的指令集响应类型与指令类型的对应关系，执行所述确定的指令集响应类型对应的指令。

作为一种可选的实施方式，上述采集识别单元还用于：

作为一种优选实施方式，采集识别单元，还用于：

采集语音信息，将采集的语音信息发送到服务器，由所述服务器对采集的语音信息进行语音情绪类型识别；接收所述服务器发送的识别出的语音情绪类别。

作为一种优选实施方式，上述响应单元用于将指令集响应类型分类为如下任一或任多个指令集响应类型：

指令集音乐响应；

指令集壁纸响应；

指令集亮度响应。

上述指令执行单元中，还用于：

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于语音的智能响应方法，其特征在于，方法包括：

采集语音信息，对采集的语音信息进行语音情绪类型识别；

根据所述预先设置的指令集响应类型与指令的对应关系，执行所述确定的指令集响应类型对应的指令。

2.根据权利要求1所述的方法，其特征在于，对采集的语音信息进行语音情绪类型识别，包括：

对采集的语音信息进行文字识别得到语义识别结果，将所述语义识别结果与文字训练模型进行匹配，得到与所述语义识别结果对应的各个语音情绪类型匹配度值，根据与所述语义识别结果对应的各个语音情绪类型匹配度值确定识别出的语音情绪类型；或者

对采集的语音信息进行声纹识别得到声纹识别结果，将所述声纹识别结果与对应的声纹训练模型匹配，得到与所述声纹识别结果对应的各个语音情绪类型匹配度值，根据与所述声纹识别结果对应的各个语音情绪类型匹配度值确定识别出的语音情绪类型；或者

对采集的语音信息进行文字识别得到语义识别结果，将所述语义识别结果与文字训练模型进行匹配，得到与所述语义识别结果对应的各个语音情绪类型匹配度值，对采集的语音信息进行声纹识别得到声纹识别结果，将所述声纹识别结果与对应的声纹训练模型匹配，得到与所述声纹识别结果对应的各个语音情绪类型匹配度值，根据与所述语义识别结果对应的各个语音情绪类型匹配度值、及与所述声纹识别结果对应的各个语音情绪类型匹配度值确定识别出的语音情绪类型。

3.根据权利要求2所述的方法，其特征在于，

根据与所述语义识别结果对应的各个语音情绪类型匹配度值确定识别出的语音情绪类型，包括：

确定与所述语义识别结果对应的各个语音情绪类型匹配度值中，最大的匹配度值对应的语音情绪类型为识别出的语音情绪类型；

根据与所述声纹识别结果对应的各个语音情绪类型匹配度值，确定识别出的语音情绪类型，包括：

确定与所述声纹识别结果对应的各个语音情绪类型匹配度值中，最大的匹配度值对应的语音情绪类型为识别出的语音情绪类型；

根据与所述语义识别结果对应的各个语音情绪类型匹配度值、及与所述声纹识别结果对应的各个语音情绪类型匹配度值确定识别出的语音情绪类型，包括：

将与所述语义识别结果对应的各个语音情绪类型匹配度值分别乘以第一权重，得到修正后的与所述语义识别结果对应的各个语音情绪类型匹配度值；

将与所述声纹识别结果对应的各个语音情绪类型匹配度值分别乘以第二权重，得到修正后的与所述声纹识别结果对应的各个语音情绪类型匹配度值；

将修正后的与所述语义识别结果对应的各个语音情绪类型匹配度值与修正后的与所述声纹识别结果对应的各个语音情绪类型匹配度值相加求和，确定最大的匹配度值的和对应的语音情绪类型为识别出的语音情绪类型；

其中，所述第一权重大于第二权重，且第一权重和第二权重之和为1。

4.根据权利要求1～3任一所述的方法，其特征在于，采集语音信息，对采集的语音信息进行语音情绪类型识别，包括：

采集语音信息，将采集的语音信息发送到服务器，由所述服务器对采集的语音信息进行语音情绪类型识别；

接收所述服务器发送的识别出的语音情绪类别。

5.根据权利要求1所述的方法，其特征在于，预先设置的指令集响应类型与指令的对应关系，包括：

根据不同的语音情绪类型，对音乐数据库对应进行音乐分类，并建立播放每个语音情绪类型对应的分类的音乐的指令，与该语音情绪类型对应的指令集音乐响应的对应关系；

6.一种基于语音的智能响应装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述采集识别单元具体用于：

8.根据权利要求7所述的装置，其特征在于，

所述采集识别单元根据与所述语义识别结果对应的各个语音情绪类型匹配度值确定识别出的语音情绪类型，包括：

所述采集识别单元根据与所述声纹识别结果对应的各个语音情绪类型匹配度值确定识别出的语音情绪类型，包括：

确定与所述声纹识别结果对应的各个语音情绪类型匹配度中，最大的匹配度值对应的语音情绪类型为识别出的语音情绪类型；

所述采集识别单元根据与所述语义识别结果对应的各个语音情绪类型匹配度值、及与所述声纹识别结果对应的各个语音情绪类型匹配度值确定识别出的语音情绪类型，包括：

9.根据权利要求6～8任一所述的装置，其特征在于，所述采集识别单元采集语音信息，对采集的语音信息进行语音情绪类型识别，包括：

接收所述服务器发送的识别出的语音情绪类别。

10.根据权利要求6所述的装置，其特征在于，还包括：

预先设置单元，用于预先设置的指令集响应类型与指令的对应关系，预先设置的指令集响应类型与指令的对应关系包括：