CN116416963B

CN116416963B - 适用于消防头盔中骨传导清晰化处理模型的语音合成方法

Info

Publication number: CN116416963B
Application number: CN202310688951.1A
Authority: CN
Inventors: 白砚飞; 王玺栋; 邹翔; 宋伟聪; 汪燃原; 黄关养; 李任俊
Original assignee: Shenzhen Yatuo Technology Co ltd
Current assignee: Shenzhen Yatuo Technology Co ltd
Priority date: 2023-06-12
Filing date: 2023-06-12
Publication date: 2024-02-06
Anticipated expiration: 2043-06-12
Also published as: CN116416963A

Abstract

本发明提出适用于消防头盔中骨传导清晰化处理模型的语音合成方法，包括以下步骤：S1：将原始的语音信号进行预处理，并合成不同频率的噪音，生成训练信号；S2：构造训练数据，将所述训练信号做傅里叶变换，获得具有频域信息的训练信号，与对应的训练信号构成信号组，S3：构建处理模型，将所述信号组输入至处理模型中，根据处理模型生成的语音信号，与原始的语音信号做对比，计算两者的特征距离；S4：判断特征距离是否大于预设值，若大于，则计算两者之间的损失，将损失上传至处理模型中，并调整处理模型的参数，并重复S2‑S4，将不同频率的含噪语音代入处理模型中进行训练，可以提高处理模型的精确度。

Description

适用于消防头盔中骨传导清晰化处理模型的语音合成方法

技术领域

本发明涉及骨传导技术领域，尤其涉及适用于消防头盔中骨传导清晰化处理模型的语音合成方法。

背景技术

在抢险救援应急救援方面，消防头盔是消防救援人员的基本防护装备，作为整个人体的思考驱动中心，其更是消防人员个体防护的重中之重。国内消防通讯头盔多采用模拟通讯技术，在噪声干扰严重环境中，噪声覆盖消防员说话声，火灾现场情况不能及时反馈到指挥中心，延误了指挥中心及时有效的做出更好的应对突变救灾方案等现场指挥；现有技术中将骨传导技术融合在消防头盔中，实现救援人员在火灾等复杂现场依旧可以和外部指挥系统进行语音通讯；

但是在现有技术中CN105185371A提供一种语音合成装置、语音合成方法、骨传导头盔和助听器，属于通信设备技术领域，其可解决现有的语音装置的语音信号精确度低的问题。本发明的语音合成装置，包括至少一个汇聚节点和多个检测节点，检测节点用于实时检测外界语音信号并传递给汇聚节点，汇聚节点用于对所收集的语音信号进行筛选并将可信检测节点发送的语音信号进行合成处理，这样可以大大降低语音信号的误码率，提高语音信号精确度，其骨传导技术并未考虑到火灾等救援现场的复杂环境，噪音的存在会对骨传导技术合成的语音产生很大的影响，为此，本发明提出适用于消防头盔中骨传导清晰化处理模型的语音合成方法。

发明内容

为了解决上述问题，本发明提出适用于消防头盔中骨传导清晰化处理模型的语音合成方法，以更加确切地解决上述所述的问题。

本发明通过以下技术方案实现的：

本发明提出适用于消防头盔中骨传导清晰化处理模型的语音合成方法，包括以下步骤：

S1：将原始的语音信号进行预处理，并合成不同频率的噪音，生成训练信号；

S2：构造训练数据，将所述训练信号做傅里叶变换，获得具有频域信息的训练信号，与对应的训练信号构成信号组，

S3：构建处理模型，将所述信号组输入至处理模型中，根据处理模型生成的语音信号，与原始的语音信号做对比，计算两者的特征距离；

S4：判断特征距离是否大于预设值，若大于，则计算两者之间的损失，将损失上传至处理模型中，并调整处理模型的参数，并重复S2-S4；

S5：对训练模型进行验证，分别输入含有不同频率的噪音的语音信号输入到处理模型中进行处理，若无法得到准确的语音信号，则调整处理模型的参数并重复S3，直至处理模型的准确性达到预设水平。

进一步的，所述的适用于消防头盔中骨传导清晰化处理模型的语音合成方法，所述步骤S1中，包括：

假设原始的语音信号为纯净语音信号，为了生成含有不同频率噪音的训练信号，需要对合成的噪声能量进行调整：

，/>是纯净语音和噪音的信噪比，是纯净语音能量，/>是噪声能量；

若需要一个信噪比为定值的含噪语音，则可以调整噪声能量大小为原来的倍，是为：/>，则公式变化为：/>。

进一步的，所述的适用于消防头盔中骨传导清晰化处理模型的语音合成方法，包括：

在得到信噪比的公式后，需要合成指定信噪比的含噪语音合成公式为：。

进一步的，所述的适用于消防头盔中骨传导清晰化处理模型的语音合成方法，所述步骤S3中，包括：

将训练信号输入处理模型中；

处理模型对纯噪音和含噪语音分别进行建模；

对训练信号进行加窗分帧；

取一帧的语音数据进行短时傅里叶变换；

将含噪语音中的噪音进行分解；

得到不含噪音的语音信号。

，/>

反应语音信号周期性强弱，代表在n帧的语音能量值，/>是取样周期，根据语音信号的强弱区分纯语音、含噪语音以及纯噪音。

设置语音信号强弱判定的两个阈值分别为，若/>，则判断该语音信号是含噪语音信号，若/>，则判断为纯语音信号，若/>，则判断为纯噪音。

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现任一项所述的适用于消防头盔中骨传导清晰化处理模型的语音合成方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现任一项所述的适用于消防头盔中骨传导清晰化处理模型的语音合成方法的步骤。

本发明的有益效果：

本发明提出的处理模型，用于消防头盔中传导语音信息，实现消防员在火场等复杂环境下与外部指挥系统的通讯；先对这个处理模型进行参数校正，保证处理模型的准确度，第一步，将原始的语音信号进行预处理，并合成不同频率的噪音，生成训练信号，将训练信号构成训练数据，其训练数据中包括有训练信号以及对应经过傅里叶变换的训练信号形成的信号组，在初始的训练信号中是包括时域信息的，经过傅里叶变换的训练信号中可以采用频域信息表达，将同一训练信号的时域信息和频域信息同时输入至处理模型中，经过处理模型的处理，生成的语音信号与原始的语音信号之间计算其特征距离，若特征距离小于预设值，则证明输出了准确的语音信号，若特征距离大于预设值，则证明输出的语音信号错误，计算准确的语音信号与错误的语音信号之间损失，并将损失上传至处理模型中，调整处理模型的参数，使得处理模型可以输出正确的语音信号，经过无数组含噪语音的训练校正后，可以有效提高处理模型的精准度；

本发明提出的对语音信号的判断，语音强弱的大小，并通过设置语音信号强弱判定的两个阈值分别为，若/>，则判断该语音信号是含噪语音信号，若，则判断为纯语音信号，若/>，则判断为纯噪音对语音的种类进行精准判定，可以有效提高对语音信号合成的准确性。

附图说明

图1为本发明的适用于消防头盔中骨传导清晰化处理模型的语音合成方法的流程示意图；

图2为本发明的适用于消防头盔中骨传导清晰化处理模型的语音合成方法的一种计算机设备的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施例的限制；

需要注意的是，术语“第一”、“第二”、“对称”、“阵列”等仅用于区分描述与位置描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“对称”等特征的可以明示或者隐含地包括一个或者更多个该特征；同样，对于未以“两个”、“三只”等文字形式对某些特征进行数量限制时，应注意到该特征同样属于明示或者隐含地包括一个或者更多个特征数量；

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征；同时，所有的轴向描述例如X轴向、Y轴向、Z轴向、X轴向的一端、Y轴向的另一端或Z轴向的另一端等，均基于笛卡尔坐标系。

在本发明中，除非另有明确的规定和限定，“安装”、“连接”、“固定”等术语应做广义理解；例如，可以是固定连接，也可以是可拆卸连接，或一体成型；可以是机械连接，可以是直接相连，可以是焊接，也可以是通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据说明书附图结合具体情况理解上述术语在本发明中的具体含义。

现有技术中，国内消防通讯头盔多采用模拟通讯技术，在噪声干扰严重环境中，噪声覆盖消防员说话声，火灾现场情况不能及时反馈到指挥中心，延误了指挥中心及时有效的做出更好的应对突变救灾方案等现场指挥；为此，请参阅图1-2，本发明提供一种技术方案以解决上述技术问题：适用于消防头盔中骨传导清晰化处理模型的语音合成方法；

在本实施方式中，本发明提出适用于消防头盔中骨传导清晰化处理模型的语音合成方法，包括以下步骤：

在本实施例中，构建一个处理模型，用于消防头盔中传导语音信息，实现消防员在火场等复杂环境下与外部指挥系统的通讯；先对这个处理模型进行参数校正，保证处理模型的准确度，第一步，将原始的语音信号进行预处理，并合成不同频率的噪音，生成训练信号，将训练信号构成训练数据，其训练数据中包括有训练信号以及对应经过傅里叶变换的训练信号形成的信号组，在初始的训练信号中是包括时域信息的，经过傅里叶变换的训练信号中可以采用频域信息表达，将同一训练信号的时域信息和频域信息同时输入至处理模型中，经过处理模型的处理，生成的语音信号与原始的语音信号之间计算其特征距离，若特征距离小于预设值，则证明输出了准确的语音信号，若特征距离大于预设值，则证明输出的语音信号错误，计算准确的语音信号与错误的语音信号之间损失，并将损失上传至处理模型中，调整处理模型的参数，使得处理模型可以输出正确的语音信号，经过无数组含噪语音的训练校正后，可以有效提高处理模型的精准度。

在具体实施例中，采用了时域和频域同时对一个语音信息的合成准确度进行判断，在一个语音信号的传输过程中，语音信号被输入至消防头盔中的处理模型，处理模型对语音信号进行傅里叶变换，得到具有频域信息的语音信号，分别对其进行处理，具备时域信息的语音信号采用时域分析法等方式对其进行处理，提取去语音信号中的多个特征，并输出语音信号至外部指挥系统；具备频域信息的语音信号才用NNSC算法、频域分析等技术对语音信号进行处理，并输出语音信号至外部指挥系统，在正常输出的情况下，具备时域信息和频域信息的语音信号均可以输出准确的语音信号，但是通过频域和时域合成语音信号的方式均不相同，导致其适用性也不同，将不同条件下的含噪语音输入不同的合成方式中，可以得到更加准确的语音信号；同时，同一语音信号经过两种方式进行合成，在输出之前还可以对其进行检测，将时域信息和频域信息相互转换，以查看两者的相差值，可以对两者进行筛选或拟合，便于输出准确的语音信号。

进一步的，所述步骤S1中，包括：

，/>

是纯净语音和噪音的信噪比，是纯净语音能量，/>是噪声能量；

在得到信噪比的公式后，需要合成指定信噪比的含噪语音合成公式为：

。

在本实施例中，根据上述可以合成不同信噪比的含噪语音，将不同频率的含噪语音代入处理模型中进行训练，可以提高处理模型的精确度。

进一步的，所述步骤S3中，包括：

将训练信号输入处理模型中；

处理模型对纯噪音和含噪语音分别进行建模；

对训练信号进行加窗分帧；

取一帧的语音数据进行短时傅里叶变换；

将含噪语音中的噪音进行分解；

得到不含噪音的语音信号。

，

反应语音信号周期性强弱，/>代表在n帧的语音能量值，/>是取样周期，根据语音信号的强弱区分纯语音、含噪语音以及纯噪音。

在具体实施时，由于在火场中的复杂环境，语音信号的类型也大致分为三种情况，纯语音、含噪语音以及纯噪音，在纯语音的条件下，处理模型是无需对语音进行处理的，在纯噪音的条件下，处理模型可以通过建立噪音模型从而屏蔽该噪音语音，情况最多且最复杂的就是含噪语音，含噪语音其噪音的频率、大小等条件均是变动的，在此提出计算其语音强弱的大小，并通过设置语音信号强弱判定的两个阈值分别为，若，则判断该语音信号是含噪语音信号，若/>，则判断为纯语音信号，若/>，则判断为纯噪音对语音的种类进行精准判定，可以有效提高对语音信号合成的准确性，同时也可以便于模型采用频域信息进行处理还是时域信息进行处理。

参照图2，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图2所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于训练信号的合集等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现适用于消防头盔中骨传导清晰化处理模型的语音合成方法。

本领域技术人员可以理解，图2中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现实现适用于消防头盔中骨传导清晰化处理模型的语音合成方法的步骤，具体为：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储与一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM通过多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双速据率SDRAM（SSRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink）DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

需要说明的是，在本申请中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本申请的专利保护范围内。

尽管已经示出和描述了本申请的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本申请的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本申请的范围由所附权利要求及其等同物限定。

Claims

1.适用于消防头盔中骨传导清晰化处理模型的语音合成方法，其特征在于，包括以下步骤：

S5：对训练模型进行验证，分别输入含有不同频率的噪音的语音信号输入到处理模型中进行处理，若无法得到准确的语音信号，则调整处理模型的参数并重复S3，直至处理模型的准确性达到预设水平；

在处理模型中，将所述训练信号输入处理模型中；

处理模型对纯噪音和含噪语音分别进行建模；

对训练信号进行加窗分帧；

取一帧的语音数据进行短时傅里叶变换；将

含噪语音中的噪音进行分解；

得到不含噪音的语音信号；

其中在通过处理模型对语音信号处理之前还包括：

，/>反应语音信号周期性强弱，/>代表在n帧的语音能量值，/>是取样周期，根据语音信号的强弱区分纯语音、含噪语音以及纯噪音；由于在火场中的复杂环境，语音信号的类型也分为三种情况，纯语音、含噪语音以及纯噪音，在纯语音的条件下，处理模型是无需对语音进行处理的，在纯噪音的条件下，处理模型通过建立噪音模型从而屏蔽，情况最多且最复杂的就是含噪语音，设置语音信号强弱判定的两个阈值分别为/>，若/>，则判断该语音信号是含噪语音信号，若/>，则判断为纯语音信号，若/>，则判断为纯噪音。

2.根据权利要求1所述的适用于消防头盔中骨传导清晰化处理模型的语音合成方法，其特征在于，所述步骤S1中，包括：

，/>是纯净语音和噪音的信噪比，/>是纯净语音能量，/>是噪声能量；

若需要一个信噪比为定值的含噪语音，则可以调整噪声能量大小为原来的倍，是为：，则公式变化为：

。

3.根据权利要求2所述的适用于消防头盔中骨传导清晰化处理模型的语音合成方法，其特征在于，包括：

。

4.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至3任一项所述的适用于消防头盔中骨传导清晰化处理模型的语音合成方法的步骤。

5.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至3任一项所述的适用于消防头盔中骨传导清晰化处理模型的语音合成方法的步骤。