CN115101074A

CN115101074A - 基于用户说话情绪的语音识别方法、装置、介质及设备

Info

Publication number: CN115101074A
Application number: CN202211017683.2A
Authority: CN
Inventors: 陶贵宾
Original assignee: Shenzhen Tonglian Financial Network Technology Service Co ltd
Current assignee: Shenzhen Tonglian Financial Network Technology Service Co ltd
Priority date: 2022-08-24
Filing date: 2022-08-24
Publication date: 2022-09-23
Anticipated expiration: 2042-08-24
Also published as: CN115101074B

Abstract

本公开提供一种基于用户说话情绪的语音识别方法、装置、介质及设备，该方法包括：通过获取用户语音，对用户语音进行频响分析生成用户语音对应的频响曲线，对用户语音进行文本识别生成用户语音对应的文本数据，根据多个历史文本数据和用户语音对应的文本数据确定目标场景类型，通过目标场景类型，确定用户语音在目标场景类型下的预设情绪频响曲线，将频响曲线与预设情绪频响曲线进行比较，确定频响曲线的情绪属性，情绪属性为情绪正常的情况下，根据文本数据确定用户意图，在情绪异常的情况下，根据情绪色彩对文本数据进行补充，并通过补充后的文本数据，确定用户意图。从而使设备准确识别用户语音所对应的用户意图，提高语音识别的准确性。

Description

基于用户说话情绪的语音识别方法、装置、介质及设备

技术领域

本发明涉及智能交互技术领域，特别是涉及一种基于用户说话情绪的语音识别方法、装置、介质及设备。

背景技术

人机交互产品越来越多，通过语音识别技术使智能设备能够识别出用户语音对应的含义，并作出相应的响应。但在进行语音识别时现有技术中，只是针对用户语音进行文字识别，通过解析出的文本语义来识别出用户意图，但语音对话场景中，只对语义进行分析获得的用户意图不准确，严重影响后续智能设备与用户之间的交互过程，给用户带来不好的体验。

发明内容

有鉴于此，本公开的目的在于提供一种基于用户说话情绪的语音识别方法、装置、介质及设备，以解决相关技术中语音识别不准确的技术问题。

基于上述发明目的，本公开的第一方面提供一种基于用户说话情绪的语音识别方法，所述方法包括：

在用户授权的情况下，获取通过麦克风矩阵采集的用于进行人机交互的用户语音，并对所述麦克风矩阵中每一麦克风采集的所述用户语音按照对应的采集时间戳进行频响分析生成所述用户语音对应的频响曲线，以及对每一麦克风采集的所述用户语音进行文本识别生成所述用户语音对应的文本数据；

根据预设数量的多个历史用户语音对应的多个历史文本数据和所述用户语音对应的所述文本数据确定所述人机交互的目标场景类型，其中，所述人机交互对应的场景类型至少包括游戏交互场景、引导服务场景和智能配送场景；

通过所述目标场景类型，确定所述用户语音在所述目标场景类型下的预设情绪频响曲线，其中，所述预设情绪频响曲线中包括情绪正常频响曲线段和情绪异常频响曲线段；

将所述频响曲线与所述预设情绪频响曲线进行比较，根据所述频响曲线与所述预设情绪频响曲线中不同频响曲线的相似度，确定所述频响曲线的情绪属性，所述相似度根据频响曲线在同一频率下各个频响曲线对应的振幅差值确定，所述振幅差值越小对应的相似度越高；

在通过所述相似度确定所述频响曲线的情绪属性为情绪正常的情况下，根据所述文本数据进行语义分析，确定所述用户语音对应的用户意图；

在通过所述相似度确定所述频响曲线的情绪属性为情绪异常的情况下，根据所述频响曲线的曲线斜率确定所述用户语音对应的语音情绪，并获取所述文本数据中的语气助词，根据预设情绪助词表确定所述语气助词对应的文本情绪，通过所述文本情绪和所述语音情绪确定所述用户语音对应的情绪色彩，根据所述情绪色彩对所述文本数据进行补充，并通过补充后的文本数据，确定所述用户语音对应的所述用户意图其中，所述预设情绪助词表中包括多个语气助词和多种异常情绪之间的映射关系。

进一步地，所述在用户授权的情况下，获取通过麦克风矩阵采集的用于进行人机交互的用户语音，并对所述麦克风矩阵中每一麦克风采集的所述用户语音按照对应的采集时间戳进行频响分析生成所述用户语音对应的频响曲线，以及对每一麦克风采集的所述用户语音进行文本识别生成所述用户语音对应的文本数据，包括：

在用户授权的情况下，对所述用户的历史语音进行分析，确定所述用户对应的语音停顿间隔，所述语音停顿间隔为所述用户语音中各个语音词语之间的停顿间隔或所述用户语音中各个短句之间的停顿间隔；

根据所述语音停顿间隔确定所述麦克风矩阵中每一麦克风采集所述用户语音时对应的所述采集时间戳，通过所述采集时间戳对通过所述麦克风矩阵采集的用于进行人机交互的所述用户语音进行频响分析，生成所述用户语音对应的频响曲线；

以及根据所述采集时间戳将每一麦克风采集的所述用户语音切分为多个用户子语音，并对所述用户子语音进行文本识别生成多个文本子数据，根据预设语音习惯将所述文本子数据组合成所述文本数据，其中所述预设语音习惯是通过语音识别模型对所述历史语音进行分析确定的。

进一步地，所述根据预设数量的多个历史用户语音对应的多个历史文本数据和所述用户语音对应的所述文本数据确定所述人机交互的目标场景类型，其中，所述人机交互对应的场景类型至少包括游戏交互场景、引导服务场景和智能配送场景，包括：

根据特征提取算法对所述多个历史用户语音中的每一历史用户语音进行识别，获得历史用户语音对应的多个历史文本数据；

对所述多个历史文本数据和所述文本数据进行特征提取，确定所述目标场景类型对应的多个关键词，并根据所述多个关键词生成词向量；

计算所述词向量与多个预设词向量之间的相似度，将最大相似度对应的目标预设词向量对应的场景类型作为所述人机交互对应的场景类型。

进一步地，所述将所述频响曲线与所述预设情绪频响曲线进行比较，根据所述频响曲线与所述预设情绪频响曲线中不同频响曲线的相似度，确定所述频响曲线的情绪属性，所述相似度根据频响曲线在同一频率下各个频响曲线对应的振幅差值确定，所述振幅差值越小对应的相似度越高，包括：

将所述频响曲线和所述预设情绪频响曲线移动至同一坐标原点，并计算曲线的一阶导数值、二阶导数值和曲率值，根据所述一阶导数值、所述二阶导数值和所述曲率值确定曲线对应的灰度直方图，将所述灰度直方图进行归一化处理，基于余弦相似度计算方法确定归一化处理后的灰度直方图之间在同一频率下的振幅差值；

根据所述振幅差值确定所述频响曲线与所述预设情绪频响曲线中不同频响曲线的相似度；在所述相似度大于相似度阈值的情况下，将所述预设情绪频响曲线对应的预设情绪属性作为对应频响曲线频段的情绪子属性，通过生成的多个情绪子属性，按照情绪表达权重进行融合，确定所述频响曲线对应的所述情绪属性。

进一步地，所述将所述频响曲线与所述预设情绪频响曲线进行比较，根据所述频响曲线与所述预设情绪频响曲线中不同频响曲线的相似度，确定所述频响曲线的情绪属性，包括：

对所述频响曲线在水平方向上的长度进行判断，在所述长度超过预设长度阈值的情况下，按照预设比例对所述频响曲线进行截取；

将截取后的频响曲线与所述预设情绪频响曲线进行比较，确定所述频响曲线与所述预设情绪频响曲线中不同频响曲线的相似度，其中所述预设情绪频响曲线包括多个不同类型的频响曲线段，所述类型为情绪属性类型；

根据所述相似度，确定所述频响曲线的情绪属性。

进一步地，所述方法还包括：

响应于接收到的音频数据，对所述音频数据进行识别确定所述音频数据中是否存在所述用户语音；

在确定所述音频数据中存在所述用户语音的情况下，根据语音识别模型对所述音频数据进行分离，获取所述用户语音。

本公开的第二方面提供一种基于情绪的语音识别装置，所述装置包括：

生成模块，用于在用户授权的情况下，获取通过麦克风矩阵采集的用于进行人机交互的用户语音，并对所述麦克风矩阵中每一麦克风采集的所述用户语音按照对应的采集时间戳进行频响分析生成所述用户语音对应的频响曲线，以及对每一麦克风采集的所述用户语音进行文本识别生成所述用户语音对应的文本数据；

第一确定模块，用于根据预设数量的多个历史用户语音对应的多个历史文本数据和所述用户语音对应的所述文本数据确定所述人机交互的目标场景类型，其中，所述人机交互对应的场景类型至少包括游戏交互场景、引导服务场景和智能配送场景；

第二确定模块，用于通过所述目标场景类型，确定所述用户语音在所述目标场景类型下的预设情绪频响曲线，其中，所述预设情绪频响曲线中包括情绪正常频响曲线段和情绪异常频响曲线段；

第三确定模块，用于将所述频响曲线与所述预设情绪频响曲线进行比较，根据所述频响曲线与所述预设情绪频响曲线中不同频响曲线的相似度，确定所述频响曲线的情绪属性，所述相似度根据频响曲线在同一频率下各个频响曲线对应的振幅差值确定，所述振幅差值越小对应的相似度越高；

第四确定模块，用于在通过所述相似度确定所述频响曲线的情绪属性为情绪正常的情况下，根据所述文本数据进行语义分析，确定所述用户语音对应的用户意图；

第五确定模块，用于在通过所述相似度确定所述频响曲线的情绪属性为情绪异常的情况下，根据所述频响曲线的曲线斜率确定所述用户语音对应的语音情绪，并获取所述文本数据中的语气助词，根据预设情绪助词表确定所述语气助词对应的文本情绪，通过所述文本情绪和所述语音情绪确定所述用户语音对应的情绪色彩，根据所述情绪色彩对所述文本数据进行补充，并通过补充后的文本数据，确定所述用户语音对应的所述用户意图其中，所述预设情绪助词表中包括多个语气助词和多种异常情绪之间的映射关系。

进一步地，所述生成模块，还可以用于：

本公开的第三方面提供一种计算机存储介质，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如第一方面中任一项所述基于情绪的语音识别方法的步骤。

本公开的第四方面提供一种电子设备，包括计算机程序，该计算机程序被处理器执行时实现如第一方面中任一项所述基于情绪的语音识别方法的步骤。

本公开至少可以达到以下有益效果：

通过获取用户语音，并对用户语音进行频响分析生成用户语音对应的频响曲线，以及对用户语音进行文本识别生成用户语音对应的文本数据，根据多个历史文本数据和用户语音对应的文本数据确定目标场景类型，通过目标场景类型，确定所述用户语音在所述目标场景类型下的预设情绪频响曲线，将所述频响曲线与所述预设情绪频响曲线进行比较，确定所述频响曲线的情绪属性，情绪属性为情绪正常的情况下，根据文本数据确定用户意图，在情绪异常的情况下，根据情绪色彩对文本数据进行补充，并通过补充后的文本数据，确定用户意图。从而通过对用户语音进行情绪判断，确定用户语音情绪是否异常，并基于不同的情绪情况确定用户意图，使智能设备能够更准确识别出用户语音所对应的用户意图，提高了语音识别的准确性，给用户带来了更好的产品体验。

附图说明

图1为本公开所提供的一实施例中基于情绪的语音识别方法的流程图。

图2为本公开所提供的一实施例中实现图1中步骤S12的流程图。

图3是本公开所提供的一实施例中基于情绪的语音识别装置的结构图。

具体实施方式

为使本公开的上述目的、特征和优点能够更加明显易懂，下面结合附图对本公开的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本公开。但是本公开能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本公开内涵的情况下做类似改进，因此本公开不受下面公开的具体实施例的限制。

在本公开的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本公开和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本公开的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本公开的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本公开中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本公开中的具体含义。

在本公开中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

需要说明的是，当元件被称为“固定于”或“设置于”另一个元件，它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“上”、“下”、“左”、“右”以及类似的表述只是为了说明的目的，并不表示是唯一的实施方式。

图1为本公开所提供的一实施例中基于情绪的语音识别方法的流程图，如图1所示，所述方法包括以下步骤：

在步骤S11中，获取用户语音，对所述用户语音进行频响分析生成所述频响曲线，以及对所述用户语音进行文本识别生成文本数据；

其中，所述用户语音是在用户授权的前提下，通过麦克风矩阵采集的用于进行人机交互的用户语音；所述频响曲线是对所述麦克风矩阵中每一麦克风采集的所述用户语音按照对应的采集时间戳进行频响分析生成所述用户语音对应的频响曲线。

在步骤S12中，根据历史用户语音对应的历史文本数据和所述文本数据确定人机交互的目标场景类型；

其中，所述历史文本数据为存储在智能设备中的，通过上述采集方式采集到的预设时间段内的多个用户语音；所述人机交互对应的场景类型至少包括游戏交互场景、引导服务场景和智能配送场景。

在步骤S13中，通过所述目标场景类型，确定所述用户语音在所述目标场景类型下的预设情绪频响曲线；

其中，所述预设情绪频响曲线中包括情绪正常频响曲线段和情绪异常频响曲线段。

在步骤S14中，将所述频响曲线与所述预设情绪频响曲线进行比较，确定所述频响曲线的情绪属性；

其中，所述情绪属性是通过确认所述频响曲线与所述预设情绪频响曲线中不同频响曲线的相似度；根据相似度确认的所述频响曲线对应的情绪属性。所述相似度根据频响曲线在同一频率下各个频响曲线对应的振幅差值确定，所述振幅差值越小对应的相似度越高。

在步骤S15中，在通过所述相似度确定所述频响曲线的情绪属性为情绪正常的情况下，根据所述文本数据进行语义分析，确定所述用户语音对应的用户意图。

在步骤S16中，在通过所述相似度确定所述频响曲线的情绪属性为情绪异常的情况下，确定所述用户语音对应的语音情绪和文本情绪，根据所述文本情绪和所述语音情绪对所述文本数据进行补充，通过补充后的文本数据确定所述用户意图。

其中，根据所述频响曲线的曲线斜率确定所述用户语音对应的语音情绪，并获取所述文本数据中的语气助词，根据预设情绪助词表确定所述语气助词对应的文本情绪，通过所述文本情绪和所述语音情绪确定所述用户语音对应的情绪色彩，根据所述情绪色彩对所述文本数据进行补充，并通过补充后的文本数据，确定所述用户语音对应的所述用户意图其中，所述预设情绪助词表中包括多个语气助词和多种异常情绪之间的映射关系。

采用上述技术方案，通过获取用户语音，并对用户语音进行频响分析生成用户语音对应的频响曲线，以及对用户语音进行文本识别生成用户语音对应的文本数据，根据多个历史文本数据和用户语音对应的文本数据确定目标场景类型，通过目标场景类型，确定所述用户语音在所述目标场景类型下的预设情绪频响曲线，将所述频响曲线与所述预设情绪频响曲线进行比较，确定所述频响曲线的情绪属性，情绪属性为情绪正常的情况下，根据文本数据确定用户意图，在情绪异常的情况下，根据情绪色彩对文本数据进行补充，并通过补充后的文本数据，确定用户意图。从而通过对用户语音进行情绪判断，确定用户语音情绪是否异常，并基于不同的情绪情况确定用户意图，使智能设备能够更准确识别出用户语音所对应的用户意图，提高了语音识别的准确性，给用户带来了更好的产品体验。

进一步地，在步骤S11中，在用户授权的情况下，对所述用户的历史语音进行分析，确定所述用户对应的语音停顿间隔，所述语音停顿间隔为所述用户语音中各个语音词语之间的停顿间隔或所述用户语音中各个短句之间的停顿间隔；

进一步地，图2为本公开所提供的一实施例中实现图1中步骤S12的流程图，在步骤S12中，所述根据预设数量的多个历史用户语音对应的多个历史文本数据和所述用户语音对应的所述文本数据确定所述人机交互的目标场景类型，其中，所述人机交互对应的场景类型至少包括游戏交互场景、引导服务场景和智能配送场景，包括以下步骤：

在步骤S121中，根据特征提取算法对所述多个历史用户语音中的每一历史用户语音进行识别，获得历史用户语音对应的多个历史文本数据。

在步骤S122中，对所述多个历史文本数据和所述文本数据进行特征提取，确定所述目标场景类型对应的多个关键词，并根据所述多个关键词生成词向量。

在步骤S123中，计算所述词向量与多个预设词向量之间的相似度，将最大相似度对应的目标预设词向量对应的场景类型作为所述人机交互对应的场景类型。

进一步地，上述步骤S14，包括：

将所述频响曲线和所述预设情绪频响曲线移动至同一坐标原点，并计算曲线的一阶导数值、二阶导数值和曲率值，根据所述一阶导数值、所述二阶导数值和所述曲率值确定曲线对应的灰度直方图，将所述灰度直方图进行归一化处理，基于余弦相似度计算方法确定归一化处理后的灰度直方图之间在同一频率下的振幅差值。

进一步地，上述步骤S14，包括：

对所述频响曲线在水平方向上的长度进行判断，在所述长度超过预设长度阈值的情况下，按照预设比例对所述频响曲线进行截取。

将截取后的频响曲线与所述预设情绪频响曲线进行比较，确定所述频响曲线与所述预设情绪频响曲线中不同频响曲线的相似度，其中所述预设情绪频响曲线包括多个不同类型的频响曲线段，所述类型为情绪属性类型。

根据所述相似度，确定所述频响曲线的情绪属性。

进一步地，上述识别方法，还可以包括：

响应于接收到的音频数据，对所述音频数据进行识别确定所述音频数据中是否存在所述用户语音。

图3是本公开所提供的一实施例中基于情绪的语音识别装置的结构图，该识别装置100包括：生成模块110，第一确定模块120，第二确定模块130，第三确定模块140，第四确定模块150和第五确定模块160。

生成模块110，用于在用户授权的情况下，获取通过麦克风矩阵采集的用于进行人机交互的用户语音，并对所述麦克风矩阵中每一麦克风采集的所述用户语音按照对应的采集时间戳进行频响分析生成所述用户语音对应的频响曲线，以及对每一麦克风采集的所述用户语音进行文本识别生成所述用户语音对应的文本数据；

第一确定模块120，用于根据预设数量的多个历史用户语音对应的多个历史文本数据和所述用户语音对应的所述文本数据确定所述人机交互的目标场景类型，其中，所述人机交互对应的场景类型至少包括游戏交互场景、引导服务场景和智能配送场景；

第二确定模块130，用于通过所述目标场景类型，确定所述用户语音在所述目标场景类型下的预设情绪频响曲线，其中，所述预设情绪频响曲线中包括情绪正常频响曲线段和情绪异常频响曲线段；

第三确定模块140，用于将所述频响曲线与所述预设情绪频响曲线进行比较，根据所述频响曲线与所述预设情绪频响曲线中不同频响曲线的相似度，确定所述频响曲线的情绪属性，所述相似度根据频响曲线在同一频率下各个频响曲线对应的振幅差值确定，所述振幅差值越小对应的相似度越高；

第四确定模块150，用于在通过所述相似度确定所述频响曲线的情绪属性为情绪正常的情况下，根据所述文本数据进行语义分析，确定所述用户语音对应的用户意图；

第五确定模块160，用于在通过所述相似度确定所述频响曲线的情绪属性为情绪异常的情况下，根据所述频响曲线的曲线斜率确定所述用户语音对应的语音情绪，并获取所述文本数据中的语气助词，根据预设情绪助词表确定所述语气助词对应的文本情绪，通过所述文本情绪和所述语音情绪确定所述用户语音对应的情绪色彩，根据所述情绪色彩对所述文本数据进行补充，并通过补充后的文本数据，确定所述用户语音对应的所述用户意图其中，所述预设情绪助词表中包括多个语气助词和多种异常情绪之间的映射关系。

上述装置，通过获取用户语音，并对用户语音进行频响分析生成用户语音对应的频响曲线，以及对用户语音进行文本识别生成用户语音对应的文本数据，根据多个历史文本数据和用户语音对应的文本数据确定目标场景类型，通过目标场景类型，确定所述用户语音在所述目标场景类型下的预设情绪频响曲线，将所述频响曲线与所述预设情绪频响曲线进行比较，确定所述频响曲线的情绪属性，情绪属性为情绪正常的情况下，根据文本数据确定用户意图，在情绪异常的情况下，根据情绪色彩对文本数据进行补充，并通过补充后的文本数据，确定用户意图。从而通过对用户语音进行情绪判断，确定用户语音情绪是否异常，并基于不同的情绪情况确定用户意图，使智能设备能够更准确识别出用户语音所对应的用户意图，提高了语音识别的准确性，给用户带来了更好的产品体验。

进一步地，所述生成模块110，还可以用于：

进一步地，所述第一确定模块120，还可以用以：

进一步地，所述第三确定模块140，还可以用于：

根据所述相似度，确定所述频响曲线的情绪属性。

进一步地，所述装置100，还包括获取模块，所述获取模块用于：

本公开还提供一种计算机存储介质，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如前述中任一项所述基于情绪的语音识别方法的步骤。

本公开还提供一种电子设备，包括计算机程序，该计算机程序被处理器执行时实现如前述中任一项所述基于情绪的语音识别方法的步骤。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本公开的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本公开构思的前提下，还可以做出若干变形和改进，这些都属于本公开的保护范围。因此，本公开专利的保护范围应以所附权利要求为准。

Claims

1.一种基于用户说话情绪的语音识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于用户说话情绪的语音识别方法，其特征在于，所述在用户授权的情况下，获取通过麦克风矩阵采集的用于进行人机交互的用户语音，并对所述麦克风矩阵中每一麦克风采集的所述用户语音按照对应的采集时间戳进行频响分析生成所述用户语音对应的频响曲线，以及对每一麦克风采集的所述用户语音进行文本识别生成所述用户语音对应的文本数据，包括：

根据所述语音停顿间隔确定所述麦克风矩阵中每一麦克风采集所述用户语音时对应的所述采集时间戳，通过所述采集时间戳对通过所述麦克风矩阵采集的用于进行人机交互的所述用户语音进行频响分析，生成所述用户语音对应的频响曲线；以及根据所述采集时间戳将每一麦克风采集的所述用户语音切分为多个用户子语音，并对所述用户子语音进行文本识别生成多个文本子数据，根据预设语音习惯将所述文本子数据组合成所述文本数据，其中所述预设语音习惯是通过语音识别模型对所述历史语音进行分析确定的。

3.根据权利要求1所述的基于用户说话情绪的语音识别方法，其特征在于，所述根据预设数量的多个历史用户语音对应的多个历史文本数据和所述用户语音对应的所述文本数据确定所述人机交互的目标场景类型，其中，所述人机交互对应的场景类型至少包括游戏交互场景、引导服务场景和智能配送场景，包括：

4.根据权利要求1所述的基于用户说话情绪的语音识别方法，其特征在于，所述将所述频响曲线与所述预设情绪频响曲线进行比较，根据所述频响曲线与所述预设情绪频响曲线中不同频响曲线的相似度，确定所述频响曲线的情绪属性，所述相似度根据频响曲线在同一频率下各个频响曲线对应的振幅差值确定，所述振幅差值越小对应的相似度越高，包括：

5.根据权利要求1所述的基于用户说话情绪的语音识别方法，其特征在于，所述将所述频响曲线与所述预设情绪频响曲线进行比较，根据所述频响曲线与所述预设情绪频响曲线中不同频响曲线的相似度，确定所述频响曲线的情绪属性，包括：

根据所述相似度，确定所述频响曲线的情绪属性。

6.根据权利要求1所述的基于用户说话情绪的语音识别方法，其特征在于，所述方法还包括：

7.一种基于用户说话情绪的语音识别装置，其特征在于，包括：

8.根据权利要求7所述的基于用户说话情绪的语音识别装置，其特征在于，所述生成模块，还可以用于：

9.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1-6任一项所述基于用户说话情绪的语音识别方法的步骤。

10.一种电子设备，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-6任一项所述基于用户说话情绪的语音识别方法的步骤。