CN117238322A

CN117238322A - 一种基于智能感知的自适应语音调控方法及系统

Info

Publication number: CN117238322A
Application number: CN202311492138.3A
Authority: CN
Inventors: 黄洪平; 邓胜丰; 白启昊
Original assignee: China Etech Technology Co ltd
Current assignee: China Etech Technology Co ltd
Priority date: 2023-11-10
Filing date: 2023-11-10
Publication date: 2023-12-15
Anticipated expiration: 2043-11-10
Also published as: CN117238322B

Abstract

本发明公开了一种基于智能感知的自适应语音调控方法及系统，包括：获取初始音频信息，根据所述初始音频信息进行目标语音感知，得到目标语音感知信息；对初始音频进行背景噪声感知和场景识别，得到噪声感知分析信息；结合所述噪声感知分析信息和所述目标语音感知信息进行语音质量评估，得到语音质量评估信息；通过所述语音质量评估信息进行音频增强分析，根据分析结果进行自适应调控；根据所述噪声感知分析信息和目标语音感知信息进行适配场景模式分析，并进行场景模式推荐。提高语音通话的质量，并有效识别噪音和降低噪音，改善语音通信体验并提高用户满意度。

Description

一种基于智能感知的自适应语音调控方法及系统

技术领域

本发明涉及语音调控技术领域，尤其涉及一种基于智能感知的自适应语音调控方法及系统。

背景技术

随着移动通信技术和语音处理技术的不断发展，人们越来越依赖语音通信来满足各种日常沟通需求。然而，现实生活中的通信环境多种多样，包括静音环境、嘈杂的街头、交通工具内等等。这些不同的环境条件会对语音通信的质量和清晰度产生显著影响。在传统的语音通信系统中，通常使用静态设置或预定义的参数来调整语音处理和增强算法，以适应不同的环境。这种方法存在一定的局限性，因为它无法灵活地适应环境的变化和用户的需求。

因此，如何根据实际使用环境和用户习惯来动态调整语音处理参数，以提供最佳的语音质量和清晰度，实现自适应调控，从而改善不同环境下的语音通信体验，并提供更好的语音通信体验是一个重要问题。

发明内容

本发明克服了现有技术的缺陷，提供了一种基于智能感知的自适应语音调控方法及系统，其重要目的在于改善语音通信体验并提高用户满意度。

为实现上述目的本发明第一方面提供了一种基于智能感知的自适应语音调控方法，包括：

获取初始音频信息，根据所述初始音频信息进行目标语音感知，得到目标语音感知信息；

对初始音频进行背景噪声感知和场景识别，得到噪声感知分析信息；

结合所述噪声感知分析信息和所述目标语音感知信息进行语音质量评估，得到语音质量评估信息；

通过所述语音质量评估信息进行音频增强分析，根据分析结果进行自适应调控；

根据所述噪声感知分析信息和目标语音感知信息进行适配场景模式分析，并进行场景模式推荐。

本方案中，所述获取初始音频信息，根据所述初始音频信息进行目标语音感知，具体为：

获取初始音频信息，对所述初始音频信息进行预加重、分帧和加窗处理；

对初始音频信息进行短时傅里叶变换，得到变换音频信息，基于VAD根据所述变换音频信息进行掩膜生成和帧分类；

计算每个音频帧的瞬时能量和短时能量，并计算短时能量的均值和方差，根据均值和方差设定分类阈值；

将各音频帧的瞬时能量与分类阈值进行判断，根据判断结果划分语音帧和噪声帧，并生成语音掩膜和噪声掩膜，得到第一音频信息；

对所述第一音频信息进行音素分割，对每个音素进行特征提取，提取各音素的MFCC特征并构建音素矩阵，得到音素特征信息；

基于CNN构建目标语音感知模型，将第一音频信息和音素特征信息输入至目标语音感知模型中进行目标语音识别和分离，得到目标语音感知信息。

本方案中，所述对初始音频进行背景噪声感知和场景识别，得到噪声感知分析信息，具体为：

基于大数据检索获取各种场景的噪声特征，通过聚类算法进行类别划分，随机提取各类别噪声场景K帧作为特征基向量，计算各向量的余弦距离，选取余弦距离最短的向量作为类别特征基准，构建噪声场景对比数据集；

获取第一音频信息，根据所述第一音频信息提取噪声帧的能量特征和MFCC特征，并对MFCC特征进行差分处理转换为动态特征，得到噪声特征信息；

将所述噪声特征信息与所述噪声场景对比数据集进行相似度计算，并于预设阈值进行判断，根据判断结果进行场景识别，得到场景识别信息；

对所述第一音频信息进行帧扩展处理，得到帧扩展音频信息，根据场景识别信息结合所述噪声场景对比数据集提取各场景下的背景噪声特征，得到多维噪声特征信息；

基于多头注意力机制结合多维噪声特征信息和帧扩展音频信息进行噪声特征预测，对所述帧扩展音频信息进行特征提取，获取当前场景下的音频特征；

计算当前场景下的音频特征与多维噪声特征信息的相似度，通过相似度进行选择和聚合噪声特征，得到噪声特征预测信息；

结合场景识别信息和噪声特征预测信息构成噪声感知分析信息。

本方案中，所述结合所述噪声感知分析信息和所述目标语音感知信息进行语音质量评估，具体包括:

获取噪声感知分析信息和目标语音感知信息，并进行特征提取，提取目标语音的频谱、时域和能量特征作为第一特征信息，提取背景噪声的频谱特征、噪声类型特征和能量强度特征作为第二特征信息；

基于大数据检索获取不同语音质量的音频特征信息，并通过聚类算法进行类别划分，得到音频质量类别信息；

根据所述音频质量类别信息设定评分标签，基于不同的语音质量设定不同的评估分数，并构建质量评分机制；

构建语音质量评估模型，基于音频质量类别信息和质量评分机制构建训练数据集，通过训练数据集对语音质量评估模型进行深度学习和训练；

将第一特征信息和第二特征信息输入至所述语音质量评估模型中进行语音质量评估，得到语音质量评估信息。

本方案中，所述通过所述语音质量评估信息进行音频增强分析，根据分析结果进行自适应调控，具体为：

获取语音质量评估信息、目标语音感知信息和噪声感知分析信息；

预设语音质量判断阈值，将所述语音质量评估信息与所述语音质量判断阈值进行判断，判断是否需要进行语音增强，得到语音增强判断信息；

构建语音增强模型，将所述目标语音感知信息和噪声感知分析信息输入至语音增强模型中进行增强，得到语音增强信息；

对增强后的语音信息进行语音质量评估，将语音增强信息输入至语音质量评估模型中进行评估，得到增强语音质量评估信息；

根据所述语音质量评估信息和增强语音质量评估信息进行增强效果分析，计算进行语音增强前后的差值，并与预设阈值进行判断，得到增强效果分析信息；

根据所述增强效果分析信息进行语音自适应调控。

本方案中，所述进行适配场景模式分析，并进行场景模式推荐，具体为:

获取噪声感知分析信息和目标语音感知信息，根据所述噪声感知分析信息得到场景识别信息，作为第一场景；

根据所述目标语音感知信息进行使用场景分析，对目标语音感知信息进行特征提取，得到目标语音特征信息；

构建使用场景分析模型，将所述目标语音特征信息输入至所述使用场景分析模型中进行分析，得到使用场景分析信息，作为第二场景；

获取历史使用信息，对所述历史使用信息进行特征提取，提取历史使用场景特征和历史使用模式特征，得到历史使用特征信息；

根据所述历史使用特征信息进行用户偏好分析，统计各场景下各种模式的使用频率并进行排序，并将排序结果与阈值进行判断，得到各场景用户偏好模式信息；

基于主成分分析法结合所述各场景用户偏好模式信息进行主成分分析，分析用户主要使用模式，得到主要使用模式信息；

根据各场景用户偏好模式信息获取各场景特征信息，与第一场景和第二场景进行场景匹配分析，分别计算第一场景和第二场景与各场景特征信息的欧式距离并取平均值，作为场景匹配度；

预设场景匹配判断阈值，将场景匹配度与所述场景匹配判断阈值进行判断，得到场景匹配分析信息；

根据所述场景匹配分析信息和各场景用户偏好模式信息得到候选场景模式信息，将所述主要使用模式信息作为权重，对候选场景模式信息进行加权计算；

根据加权计算结果选取最优场景模式，根据最优场景模式进行场景推荐和自适应模式调控。

本发明第二方面提供了一种基于智能感知的自适应语音调控系统，该系统包括：存储器、处理器，所述存储器中包含基于智能感知的自适应语音调控方法程序，所述基于智能感知的自适应语音调控方法程序被所述处理器执行时实现如下步骤：

附图说明

为了更清楚地说明本发明实施例或示例性中的技术方案，下面将对实施例或示例性描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以按照这些附图示出的获得其他的附图。

图1为本发明一实施例提供的一种基于智能感知的自适应语音调控方法流程图；

图2为本发明一实施例提供的进行自适应语音调控流程图；

图3为本发明一实施例提供的一种基于智能感知的自适应语音调控系统框图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

如图1所示，本发明提供了一种基于智能感知的自适应语音调控方法流程图，包括：

S102，获取初始音频信息，根据所述初始音频信息进行目标语音感知，得到目标语音感知信息；

需要说明的是，首先对初始音频信息进行预处理，然后对初始音频信息进行短时傅里叶变换，并进行掩膜生成和帧分类；基于能量的VAD算法进行帧分类，通过计算每帧的能量进行判断分析，判断是否为噪音帧和语音帧，并分别生成语音掩膜和噪声掩膜；接着，将第一音频信息分割成音素，音素是语音的基本音段单位，对每个音素进行特征提取，通过构建的目标语音感知模型进行目标语音识别和分离，从而提取出有效语音，以提高语音质量和清晰度。

S104，对初始音频进行背景噪声感知和场景识别，得到噪声感知分析信息；

需要说明的是，首先，通过大规模数据集用于检索各种噪声场景的特征，使用聚类算法将这些噪声场景划分为不同的类别，然后，从每个类别中随机提取K帧作为特征基向量，计算各个特征基向量之间的余弦距离，用于度量它们之间的相似性。为每个类别选择余弦距离最短的向量作为该类别的特征基准，用于后续的场景识别和噪声特征预测。接着，对第一音频信息进行处理，提取噪声帧的能量特征和MFCC特征，用于捕捉音频信号的频谱特征，对MFCC特征进行差分处理，以将其转换为动态特征，从而捕捉音频信号的变化信息。计算噪声特征信息与噪声场景对比数据集中的特征基准之间的相似度，并根据预设阈值进行判断，以识别当前音频的场景。再然后，对第一音频信息进行帧扩展处理，以获取扩展音频信息，用于噪声特征预测。使用场景识别信息结合噪声场景对比数据集，提取各场景下的背景噪声特征，分析当前环境中的噪声和噪声场景。基于多头注意力机制，结合多维噪声特征信息和帧扩展音频信息，进行噪声特征的预测，考虑不同噪声场景的特性时，动态选择和权衡不同特征基向量的重要性从而快速预测噪声信息，不必详细的分析当前环境的环境噪声，减少处理量和提高分析效率。最后，结合场景识别信息和噪声特征预测信息，构建噪声感知分析信息，用于后续的音频处理和增强，以改善音频质量和清晰度，根据当前的环境和噪声情况进行适当的调控。

S106，结合所述噪声感知分析信息和所述目标语音感知信息进行语音质量评估，得到语音质量评估信息；

S108，通过所述语音质量评估信息进行音频增强分析，根据分析结果进行自适应调控；

根据所述增强效果分析信息进行语音自适应调控。

需要说明的是，通过语音质量评估信息得到当前语音的质量，判断是否需要进行增强，根据判断结果通过语音增强模型进行语音增强，同时，对增强后的语音进行分析，判断增强后的语音质量与之前的差别，分析是否是正向增强效果，根据分析结果进行选择性输出，保证语音通信质量，提高用户体验感，以实现语音层面的自适应调控。

S110，根据所述噪声感知分析信息和目标语音感知信息进行适配场景模式分析，并进行场景模式推荐；

需要说明的是，通过噪声感知分析信息，得到当前的环境特征，即周围场景类别比如公园、车站或房间等场景，作为第一场景，可以很清晰的知道用户位于的环境。然后，根据目标语音感知信息分析用户的使用场景，即用户正在做的事情，如听歌、通话或者看电影等等，通过提取目标语音感知信息的特征，结合场景识别模型进行识别分析，分析用户的使用场景，作为第二场景，助于理解用户的需求和期望，以确定他们希望获得的音频体验。接着，获取并分析用户的历史使用信息，包括他们在不同场景下的行为、音频设置和偏好模式。基于历史使用信息，进行用户偏好分析，以了解用户对不同场景和音频设置的喜好，确定用户可能期望的音频体验，结合使用主成分分析技术，确定用户的主要使用模式，即他们在不同场景下的首选音频设置、模式或行为。通过使用欧氏距离来比较当前场景、用户需求场景与每个已知场景的匹配程度，以确定哪些场景与当前情境最匹配，从而选择合适的音频模式或设置。然后，将主要使用模式信息作为权重，对候选的场景模式进行计算，确定最适合当前场景和贴合用户习惯的场景模式。最后，根据最优场景模式向用户推荐相关的音频设置或模式，并在用户授予自动调节权限的情况下自动应用适当的场景模式，从而实现使用场景模式的自适应调控，以满足用户需求和提供高质量的音频体验。

进一步的，获取用户历史通信信息，所述用户历史通信信息包括用户历史通话信息和用户历史使用模式信息；构建用户口音评估模型将所述用户历史通信信息导入用户口音评估模型进行用户口音评估，得到用户口音评估信息；根据所述用户历史通信信息分析各场景模式下用户常用语气习惯，对所述用户历史通信信息进行特征提取，提取各场景下的历史通话信息，得到历史通信特征信息；基于统计学算法结合历史通信特征信息进行常用语气分析，统计各场景下各种语气的使用频率并进行排序，得到常用语气排序表；根据所述常用语气排序表进行主成分分析，分析各场景下用户的习惯语气，得到用户习惯语气分析信息；构建差异分析模型，将所述用户习惯语气分析信息和用户历史通信信息输入至差异分析模型中进行分析，分析用户通话语音与普通话语音的差异，得到差异分析信息；根据所述差异分析信息和用户口音评估信息设定个性化通话增强模式，提高通话质量；获取场景识别信息和使用场景分析信息，根据场景识别信息和使用场景分析信息进行个性化通话增强模式适配，通过当前的用户周围场景和使用场景匹配适宜的个性化通话增强模式，得到适配增强模式信息；根据所述适配增强模式信息进行自适应调控，提高语音通话质量，保证用户通话体验。

图2为本发明一实施例提供的进行自适应语音调控流程图；

如图2所示，本发明提供了进行自适应语音调控流程图，包括:

S202，获取初始音频信息，根据所述初始音频信息进行目标语音感知；

S204，对初始音频进行背景噪声感知和场景识别；

S206，结合噪声感知分析信息和所述目标语音感知信息进行语音质量评估；

S208，根据所述语音质量评估信息进行音频增强分析，分析是否需要进行语音增强，根据分析结果进行语音质量自适应调控；

S210，进行场景分析，分析周围场景和使用场景，并进行适配场景模式分析；

S212，根据适配场景分析结果进行场景模式自适应调控。

进一步的，获取设备使用信息，所述设备使用信息包括使用模式信息、音频设置信息和已使用时长信息根据所述设备使用信息进行剩余使用时长分析；构建剩余使用时长预测模型，将所述设备使用信息输入至所述剩余使用时长预测模型中进行预测，得到剩余使用时长预测信息；根据所述剩余使用时长信息进行设备状态分析，将所述剩余使用时长信息与预设阈值进行判断，得到设备状态分析信息；结合所述设备状态分析信息和剩余使用使用时长预测信息进行低电量预测，得到低电量预测信息；根据所述低电量预测信息进行电量提示，并询问是否开启节能模式；获取用户反馈信息，根据所述用户反馈信息进行节能模式分析；构建语义分析模型，将所述用户反馈信息输入至语义分析模型进行分析，得到用户反馈语义分析信息；根据所述用户反馈语义分析信息进行节能模式分析，判断用户期望的节能模式类别，得到期望节能模式类别信息；根据所述期望节能模式类别信息进行设备节能控制，提升设备使用时长；获取用户授权信息，根据所述用户授权信息判断是否进行自适应节能调控授权，若授权，则根据低电量预测信息和剩余使用时长信息进行使用时长提醒，并自动开启节能调控模式；获取设备音量信息，将所述设备音量信息与预设阈值进行判断，判断音量是否过大，得到音量判断信息；若音量过大，则进行音量过大提醒，提醒用户采用适宜的音量进行使用；若用户仍进行大音量使用，则记录过大音量采用时间并与预设阈值进行判断，进行实时监控和阶段性提醒，保证用户的身体健康并提高使用体验。

图3为本发明一实施例提供的一种基于智能感知的自适应语音调控系统框图3，该系统包括：存储器31、处理器32，所述存储器31中包含基于智能感知的自适应语音调控方法程序，所述基于智能感知的自适应语音调控方法程序被所述处理器32执行时实现如下步骤：

需要说明的是，本发明提供了一种基于智能感知的自适应语音调控方法及系统，通过对初始音频进行目标语音感知和背景噪声感知，将目标语音和背景噪声进行分离，接着对背景噪声进行周围场景识别，判断使用者的周围环境类别，并进行噪声特征的预测，考虑不同噪声场景的特性时，动态选择和权衡不同特征基向量的重要性从而快速预测噪声信息；然后，进行语音质量评估，并进行音频增强分析，判断是否需要进行音频增强，并分析增强音频的增强质量，进行选择性调控，实现语音层面的自适应调控。最后，通过分析用户周围场景和使用场景，进行场景模式分析，结合用户使用习惯分析当前环境下的最优场景模式，例如降噪、音量或者人声突出等场景模式，进行自适应场景模式调控，提高使用的智能性从而提供更好的用户体验。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机、服务器、或者网络设备等）执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于智能感知的自适应语音调控方法，其特征在于，包括：

2.根据权利要求1所述的一种基于智能感知的自适应语音调控方法，其特征在于，所述获取初始音频信息，根据所述初始音频信息进行目标语音感知，具体包括：

3.根据权利要求1所述的一种基于智能感知的自适应语音调控方法，其特征在于，所述对初始音频进行背景噪声感知和场景识别，得到噪声感知分析信息，具体包括：

4.根据权利要求1所述的一种基于智能感知的自适应语音调控方法，其特征在于，所述结合所述噪声感知分析信息和所述目标语音感知信息进行语音质量评估，具体包括:

5.根据权利要求1所述的一种基于智能感知的自适应语音调控方法，其特征在于，所述通过所述语音质量评估信息进行音频增强分析，根据分析结果进行自适应调控，具体包括：

根据所述增强效果分析信息进行语音自适应调控。

6.根据权利要求1所述的一种基于智能感知的自适应语音调控方法，其特征在于，所述进行适配场景模式分析，并进行场景模式推荐，具体包括:

7.一种基于智能感知的自适应语音调控系统，其特征在于，该系统包括：存储器、处理器，所述存储器中包含基于智能感知的自适应语音调控方法程序，所述基于智能感知的自适应语音调控方法程序被所述处理器执行时实现如下步骤：

8.根据权利要求7所述的一种基于智能感知的自适应语音调控系统，其特征在于，所述获取初始音频信息，根据所述初始音频信息进行目标语音感知，具体包括：

9.根据权利要求7所述的一种基于智能感知的自适应语音调控系统，其特征在于，所述对初始音频进行背景噪声感知和场景识别，得到噪声感知分析信息，具体包括：

10.根据权利要求7所述的一种基于智能感知的自适应语音调控系统，其特征在于，所述结合所述噪声感知分析信息和所述目标语音感知信息进行语音质量评估，具体包括: