CN116416963B - 适用于消防头盔中骨传导清晰化处理模型的语音合成方法 - Google Patents

适用于消防头盔中骨传导清晰化处理模型的语音合成方法 Download PDF

Info

Publication number
CN116416963B
CN116416963B CN202310688951.1A CN202310688951A CN116416963B CN 116416963 B CN116416963 B CN 116416963B CN 202310688951 A CN202310688951 A CN 202310688951A CN 116416963 B CN116416963 B CN 116416963B
Authority
CN
China
Prior art keywords
noise
signal
voice
processing model
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310688951.1A
Other languages
English (en)
Other versions
CN116416963A (zh
Inventor
白砚飞
王玺栋
邹翔
宋伟聪
汪燃原
黄关养
李任俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yatuo Technology Co ltd
Original Assignee
Shenzhen Yatuo Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yatuo Technology Co ltd filed Critical Shenzhen Yatuo Technology Co ltd
Priority to CN202310688951.1A priority Critical patent/CN116416963B/zh
Publication of CN116416963A publication Critical patent/CN116416963A/zh
Application granted granted Critical
Publication of CN116416963B publication Critical patent/CN116416963B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Signal Processing (AREA)
  • Computational Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Helmets And Other Head Coverings (AREA)
  • Algebra (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)

Abstract

本发明提出适用于消防头盔中骨传导清晰化处理模型的语音合成方法,包括以下步骤:S1:将原始的语音信号进行预处理,并合成不同频率的噪音,生成训练信号;S2:构造训练数据,将所述训练信号做傅里叶变换,获得具有频域信息的训练信号,与对应的训练信号构成信号组,S3:构建处理模型,将所述信号组输入至处理模型中,根据处理模型生成的语音信号,与原始的语音信号做对比,计算两者的特征距离;S4:判断特征距离是否大于预设值,若大于,则计算两者之间的损失,将损失上传至处理模型中,并调整处理模型的参数,并重复S2‑S4,将不同频率的含噪语音代入处理模型中进行训练,可以提高处理模型的精确度。

Description

适用于消防头盔中骨传导清晰化处理模型的语音合成方法
技术领域
本发明涉及骨传导技术领域,尤其涉及适用于消防头盔中骨传导清晰化处理模型的语音合成方法。
背景技术
在抢险救援应急救援方面,消防头盔是消防救援人员的基本防护装备,作为整个人体的思考驱动中心,其更是消防人员个体防护的重中之重。国内消防通讯头盔多采用模拟通讯技术,在噪声干扰严重环境中,噪声覆盖消防员说话声,火灾现场情况不能及时反馈到指挥中心,延误了指挥中心及时有效的做出更好的应对突变救灾方案等现场指挥;现有技术中将骨传导技术融合在消防头盔中,实现救援人员在火灾等复杂现场依旧可以和外部指挥系统进行语音通讯;
但是在现有技术中CN105185371A提供一种语音合成装置、语音合成方法、骨传导头盔和助听器,属于通信设备技术领域,其可解决现有的语音装置的语音信号精确度低的问题。本发明的语音合成装置,包括至少一个汇聚节点和多个检测节点,检测节点用于实时检测外界语音信号并传递给汇聚节点,汇聚节点用于对所收集的语音信号进行筛选并将可信检测节点发送的语音信号进行合成处理,这样可以大大降低语音信号的误码率,提高语音信号精确度,其骨传导技术并未考虑到火灾等救援现场的复杂环境,噪音的存在会对骨传导技术合成的语音产生很大的影响,为此,本发明提出适用于消防头盔中骨传导清晰化处理模型的语音合成方法。
发明内容
为了解决上述问题,本发明提出适用于消防头盔中骨传导清晰化处理模型的语音合成方法,以更加确切地解决上述所述的问题。
本发明通过以下技术方案实现的:
本发明提出适用于消防头盔中骨传导清晰化处理模型的语音合成方法,包括以下步骤:
S1:将原始的语音信号进行预处理,并合成不同频率的噪音,生成训练信号;
S2:构造训练数据,将所述训练信号做傅里叶变换,获得具有频域信息的训练信号,与对应的训练信号构成信号组,
S3:构建处理模型,将所述信号组输入至处理模型中,根据处理模型生成的语音信号,与原始的语音信号做对比,计算两者的特征距离;
S4:判断特征距离是否大于预设值,若大于,则计算两者之间的损失,将损失上传至处理模型中,并调整处理模型的参数,并重复S2-S4;
S5:对训练模型进行验证,分别输入含有不同频率的噪音的语音信号输入到处理模型中进行处理,若无法得到准确的语音信号,则调整处理模型的参数并重复S3,直至处理模型的准确性达到预设水平。
进一步的,所述的适用于消防头盔中骨传导清晰化处理模型的语音合成方法,所述步骤S1中,包括:
假设原始的语音信号为纯净语音信号,为了生成含有不同频率噪音的训练信号,需要对合成的噪声能量进行调整:
,/>是纯净语音和噪音的信噪比,是纯净语音能量,/>是噪声能量;
若需要一个信噪比为定值的含噪语音,则可以调整噪声能量大小为原来的倍,是为:/>,则公式变化为:/>
进一步的,所述的适用于消防头盔中骨传导清晰化处理模型的语音合成方法,包括:
在得到信噪比的公式后,需要合成指定信噪比的含噪语音合成公式为:
进一步的,所述的适用于消防头盔中骨传导清晰化处理模型的语音合成方法,所述步骤S3中,包括:
将训练信号输入处理模型中;
处理模型对纯噪音和含噪语音分别进行建模;
对训练信号进行加窗分帧;
取一帧的语音数据进行短时傅里叶变换;
将含噪语音中的噪音进行分解;
得到不含噪音的语音信号。
进一步的,所述的适用于消防头盔中骨传导清晰化处理模型的语音合成方法,包括:
,/>
反应语音信号周期性强弱,代表在n帧的语音能量值,/>是取样周期,根据语音信号的强弱区分纯语音、含噪语音以及纯噪音。
进一步的,所述的适用于消防头盔中骨传导清晰化处理模型的语音合成方法,包括:
设置语音信号强弱判定的两个阈值分别为,若/>,则判断该语音信号是含噪语音信号,若/>,则判断为纯语音信号,若/>,则判断为纯噪音。
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现任一项所述的适用于消防头盔中骨传导清晰化处理模型的语音合成方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现任一项所述的适用于消防头盔中骨传导清晰化处理模型的语音合成方法的步骤。
本发明的有益效果:
本发明提出的处理模型,用于消防头盔中传导语音信息,实现消防员在火场等复杂环境下与外部指挥系统的通讯;先对这个处理模型进行参数校正,保证处理模型的准确度,第一步,将原始的语音信号进行预处理,并合成不同频率的噪音,生成训练信号,将训练信号构成训练数据,其训练数据中包括有训练信号以及对应经过傅里叶变换的训练信号形成的信号组,在初始的训练信号中是包括时域信息的,经过傅里叶变换的训练信号中可以采用频域信息表达,将同一训练信号的时域信息和频域信息同时输入至处理模型中,经过处理模型的处理,生成的语音信号与原始的语音信号之间计算其特征距离,若特征距离小于预设值,则证明输出了准确的语音信号,若特征距离大于预设值,则证明输出的语音信号错误,计算准确的语音信号与错误的语音信号之间损失,并将损失上传至处理模型中,调整处理模型的参数,使得处理模型可以输出正确的语音信号,经过无数组含噪语音的训练校正后,可以有效提高处理模型的精准度;
本发明提出的对语音信号的判断,语音强弱的大小,并通过设置语音信号强弱判定的两个阈值分别为,若/>,则判断该语音信号是含噪语音信号,若,则判断为纯语音信号,若/>,则判断为纯噪音对语音的种类进行精准判定,可以有效提高对语音信号合成的准确性。
附图说明
图1为本发明的适用于消防头盔中骨传导清晰化处理模型的语音合成方法的流程示意图;
图2为本发明的适用于消防头盔中骨传导清晰化处理模型的语音合成方法的一种计算机设备的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施例的限制;
需要注意的是,术语“第一”、“第二”、“对称”、“阵列”等仅用于区分描述与位置描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“对称”等特征的可以明示或者隐含地包括一个或者更多个该特征;同样,对于未以“两个”、“三只”等文字形式对某些特征进行数量限制时,应注意到该特征同样属于明示或者隐含地包括一个或者更多个特征数量;
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征;同时,所有的轴向描述例如X轴向、Y轴向、Z轴向、X轴向的一端、Y轴向的另一端或Z轴向的另一端等,均基于笛卡尔坐标系。
在本发明中,除非另有明确的规定和限定,“安装”、“连接”、“固定”等术语应做广义理解;例如,可以是固定连接,也可以是可拆卸连接,或一体成型;可以是机械连接,可以是直接相连,可以是焊接,也可以是通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据说明书附图结合具体情况理解上述术语在本发明中的具体含义。
现有技术中,国内消防通讯头盔多采用模拟通讯技术,在噪声干扰严重环境中,噪声覆盖消防员说话声,火灾现场情况不能及时反馈到指挥中心,延误了指挥中心及时有效的做出更好的应对突变救灾方案等现场指挥;为此,请参阅图1-2,本发明提供一种技术方案以解决上述技术问题:适用于消防头盔中骨传导清晰化处理模型的语音合成方法;
在本实施方式中,本发明提出适用于消防头盔中骨传导清晰化处理模型的语音合成方法,包括以下步骤:
S1:将原始的语音信号进行预处理,并合成不同频率的噪音,生成训练信号;
S2:构造训练数据,将所述训练信号做傅里叶变换,获得具有频域信息的训练信号,与对应的训练信号构成信号组,
S3:构建处理模型,将所述信号组输入至处理模型中,根据处理模型生成的语音信号,与原始的语音信号做对比,计算两者的特征距离;
S4:判断特征距离是否大于预设值,若大于,则计算两者之间的损失,将损失上传至处理模型中,并调整处理模型的参数,并重复S2-S4;
S5:对训练模型进行验证,分别输入含有不同频率的噪音的语音信号输入到处理模型中进行处理,若无法得到准确的语音信号,则调整处理模型的参数并重复S3,直至处理模型的准确性达到预设水平。
在本实施例中,构建一个处理模型,用于消防头盔中传导语音信息,实现消防员在火场等复杂环境下与外部指挥系统的通讯;先对这个处理模型进行参数校正,保证处理模型的准确度,第一步,将原始的语音信号进行预处理,并合成不同频率的噪音,生成训练信号,将训练信号构成训练数据,其训练数据中包括有训练信号以及对应经过傅里叶变换的训练信号形成的信号组,在初始的训练信号中是包括时域信息的,经过傅里叶变换的训练信号中可以采用频域信息表达,将同一训练信号的时域信息和频域信息同时输入至处理模型中,经过处理模型的处理,生成的语音信号与原始的语音信号之间计算其特征距离,若特征距离小于预设值,则证明输出了准确的语音信号,若特征距离大于预设值,则证明输出的语音信号错误,计算准确的语音信号与错误的语音信号之间损失,并将损失上传至处理模型中,调整处理模型的参数,使得处理模型可以输出正确的语音信号,经过无数组含噪语音的训练校正后,可以有效提高处理模型的精准度。
在具体实施例中,采用了时域和频域同时对一个语音信息的合成准确度进行判断,在一个语音信号的传输过程中,语音信号被输入至消防头盔中的处理模型,处理模型对语音信号进行傅里叶变换,得到具有频域信息的语音信号,分别对其进行处理,具备时域信息的语音信号采用时域分析法等方式对其进行处理,提取去语音信号中的多个特征,并输出语音信号至外部指挥系统;具备频域信息的语音信号才用NNSC算法、频域分析等技术对语音信号进行处理,并输出语音信号至外部指挥系统,在正常输出的情况下,具备时域信息和频域信息的语音信号均可以输出准确的语音信号,但是通过频域和时域合成语音信号的方式均不相同,导致其适用性也不同,将不同条件下的含噪语音输入不同的合成方式中,可以得到更加准确的语音信号;同时,同一语音信号经过两种方式进行合成,在输出之前还可以对其进行检测,将时域信息和频域信息相互转换,以查看两者的相差值,可以对两者进行筛选或拟合,便于输出准确的语音信号。
进一步的,所述步骤S1中,包括:
假设原始的语音信号为纯净语音信号,为了生成含有不同频率噪音的训练信号,需要对合成的噪声能量进行调整:
,/>
是纯净语音和噪音的信噪比,是纯净语音能量,/>是噪声能量;
若需要一个信噪比为定值的含噪语音,则可以调整噪声能量大小为原来的倍,是为:/>,则公式变化为:/>
在得到信噪比的公式后,需要合成指定信噪比的含噪语音合成公式为:
在本实施例中,根据上述可以合成不同信噪比的含噪语音,将不同频率的含噪语音代入处理模型中进行训练,可以提高处理模型的精确度。
进一步的,所述步骤S3中,包括:
将训练信号输入处理模型中;
处理模型对纯噪音和含噪语音分别进行建模;
对训练信号进行加窗分帧;
取一帧的语音数据进行短时傅里叶变换;
将含噪语音中的噪音进行分解;
得到不含噪音的语音信号。
反应语音信号周期性强弱,/>代表在n帧的语音能量值,/>是取样周期,根据语音信号的强弱区分纯语音、含噪语音以及纯噪音。
设置语音信号强弱判定的两个阈值分别为,若/>,则判断该语音信号是含噪语音信号,若/>,则判断为纯语音信号,若/>,则判断为纯噪音。
在具体实施时,由于在火场中的复杂环境,语音信号的类型也大致分为三种情况,纯语音、含噪语音以及纯噪音,在纯语音的条件下,处理模型是无需对语音进行处理的,在纯噪音的条件下,处理模型可以通过建立噪音模型从而屏蔽该噪音语音,情况最多且最复杂的就是含噪语音,含噪语音其噪音的频率、大小等条件均是变动的,在此提出计算其语音强弱的大小,并通过设置语音信号强弱判定的两个阈值分别为,若,则判断该语音信号是含噪语音信号,若/>,则判断为纯语音信号,若/>,则判断为纯噪音对语音的种类进行精准判定,可以有效提高对语音信号合成的准确性,同时也可以便于模型采用频域信息进行处理还是时域信息进行处理。
参照图2,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图2所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于训练信号的合集等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现适用于消防头盔中骨传导清晰化处理模型的语音合成方法。
本领域技术人员可以理解,图2中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现实现适用于消防头盔中骨传导清晰化处理模型的语音合成方法的步骤,具体为:
S1:将原始的语音信号进行预处理,并合成不同频率的噪音,生成训练信号;
S2:构造训练数据,将所述训练信号做傅里叶变换,获得具有频域信息的训练信号,与对应的训练信号构成信号组,
S3:构建处理模型,将所述信号组输入至处理模型中,根据处理模型生成的语音信号,与原始的语音信号做对比,计算两者的特征距离;
S4:判断特征距离是否大于预设值,若大于,则计算两者之间的损失,将损失上传至处理模型中,并调整处理模型的参数,并重复S2-S4;
S5:对训练模型进行验证,分别输入含有不同频率的噪音的语音信号输入到处理模型中进行处理,若无法得到准确的语音信号,则调整处理模型的参数并重复S3,直至处理模型的准确性达到预设水平。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本申请中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本申请的专利保护范围内。
尽管已经示出和描述了本申请的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本申请的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本申请的范围由所附权利要求及其等同物限定。

Claims (5)

1.适用于消防头盔中骨传导清晰化处理模型的语音合成方法,其特征在于,包括以下步骤:
S1:将原始的语音信号进行预处理,并合成不同频率的噪音,生成训练信号;
S2:构造训练数据,将所述训练信号做傅里叶变换,获得具有频域信息的训练信号,与对应的训练信号构成信号组,
S3:构建处理模型,将所述信号组输入至处理模型中,根据处理模型生成的语音信号,与原始的语音信号做对比,计算两者的特征距离;
S4:判断特征距离是否大于预设值,若大于,则计算两者之间的损失,将损失上传至处理模型中,并调整处理模型的参数,并重复S2-S4;
S5:对训练模型进行验证,分别输入含有不同频率的噪音的语音信号输入到处理模型中进行处理,若无法得到准确的语音信号,则调整处理模型的参数并重复S3,直至处理模型的准确性达到预设水平;
在处理模型中,将所述训练信号输入处理模型中;
处理模型对纯噪音和含噪语音分别进行建模;
对训练信号进行加窗分帧;
取一帧的语音数据进行短时傅里叶变换;将
含噪语音中的噪音进行分解;
得到不含噪音的语音信号;
其中在通过处理模型对语音信号处理之前还包括:
,/>反应语音信号周期性强弱,/>代表在n帧的语音能量值,/>是取样周期,根据语音信号的强弱区分纯语音、含噪语音以及纯噪音;由于在火场中的复杂环境,语音信号的类型也分为三种情况,纯语音、含噪语音以及纯噪音,在纯语音的条件下,处理模型是无需对语音进行处理的,在纯噪音的条件下,处理模型通过建立噪音模型从而屏蔽,情况最多且最复杂的就是含噪语音,设置语音信号强弱判定的两个阈值分别为/>,若/>,则判断该语音信号是含噪语音信号,若/>,则判断为纯语音信号,若/>,则判断为纯噪音。
2.根据权利要求1所述的适用于消防头盔中骨传导清晰化处理模型的语音合成方法,其特征在于,所述步骤S1中,包括:
假设原始的语音信号为纯净语音信号,为了生成含有不同频率噪音的训练信号,需要对合成的噪声能量进行调整:
,/>是纯净语音和噪音的信噪比,/>是纯净语音能量,/>是噪声能量;
若需要一个信噪比为定值的含噪语音,则可以调整噪声能量大小为原来的倍,是为:,则公式变化为:
3.根据权利要求2所述的适用于消防头盔中骨传导清晰化处理模型的语音合成方法,其特征在于,包括:
在得到信噪比的公式后,需要合成指定信噪比的含噪语音合成公式为:
4.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至3任一项所述的适用于消防头盔中骨传导清晰化处理模型的语音合成方法的步骤。
5.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至3任一项所述的适用于消防头盔中骨传导清晰化处理模型的语音合成方法的步骤。
CN202310688951.1A 2023-06-12 2023-06-12 适用于消防头盔中骨传导清晰化处理模型的语音合成方法 Active CN116416963B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310688951.1A CN116416963B (zh) 2023-06-12 2023-06-12 适用于消防头盔中骨传导清晰化处理模型的语音合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310688951.1A CN116416963B (zh) 2023-06-12 2023-06-12 适用于消防头盔中骨传导清晰化处理模型的语音合成方法

Publications (2)

Publication Number Publication Date
CN116416963A CN116416963A (zh) 2023-07-11
CN116416963B true CN116416963B (zh) 2024-02-06

Family

ID=87059729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310688951.1A Active CN116416963B (zh) 2023-06-12 2023-06-12 适用于消防头盔中骨传导清晰化处理模型的语音合成方法

Country Status (1)

Country Link
CN (1) CN116416963B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107863099A (zh) * 2017-10-10 2018-03-30 成都启英泰伦科技有限公司 一种新型双麦克风语音检测和增强方法
CN112599145A (zh) * 2020-12-07 2021-04-02 天津大学 基于生成对抗网络的骨传导语音增强方法
CN113436643A (zh) * 2021-06-25 2021-09-24 平安科技(深圳)有限公司 语音增强模型的训练及应用方法、装置、设备及存储介质
CN114141238A (zh) * 2021-11-26 2022-03-04 中国人民解放军陆军工程大学 一种融合Transformer和U-net网络的语音增强方法
CN114495957A (zh) * 2022-01-27 2022-05-13 安徽大学 一种基于Transformer改进的语音增强方法、系统、装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7171357B2 (en) * 2001-03-21 2007-01-30 Avaya Technology Corp. Voice-activity detection using energy ratios and periodicity

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107863099A (zh) * 2017-10-10 2018-03-30 成都启英泰伦科技有限公司 一种新型双麦克风语音检测和增强方法
CN112599145A (zh) * 2020-12-07 2021-04-02 天津大学 基于生成对抗网络的骨传导语音增强方法
CN113436643A (zh) * 2021-06-25 2021-09-24 平安科技(深圳)有限公司 语音增强模型的训练及应用方法、装置、设备及存储介质
CN114141238A (zh) * 2021-11-26 2022-03-04 中国人民解放军陆军工程大学 一种融合Transformer和U-net网络的语音增强方法
CN114495957A (zh) * 2022-01-27 2022-05-13 安徽大学 一种基于Transformer改进的语音增强方法、系统、装置

Also Published As

Publication number Publication date
CN116416963A (zh) 2023-07-11

Similar Documents

Publication Publication Date Title
JP6889698B2 (ja) 音声を増幅する方法及び装置
US20200312315A1 (en) Acoustic environment aware stream selection for multi-stream speech recognition
RU2642353C2 (ru) Устройство и способ для обеспечения информированной оценки вероятности и присутствия многоканальной речи
JP5596039B2 (ja) オーディオ信号における雑音推定の方法および装置
CN102479504B (zh) 声音判断装置及声音判断方法
CN112560822B (zh) 一种基于卷积神经网络的道路声信号分类方法
US20080247274A1 (en) Sensor array post-filter for tracking spatial distributions of signals and noise
Aubreville et al. Deep denoising for hearing aid applications
EP4068284A1 (en) Live broadcast audio processing method and apparatus, and electronic device and storage medium
EP2451194A2 (de) Verfahren und Hörgerät zur Ermittlung von Nässe
DE102013000684B3 (de) Anordnung und Verfahren zur holografischen Bestimmung des Direktschalles akustischer Quellen
US20220270631A1 (en) Audio signal processing method, apparatus and device, and storage medium
CN112802486B (zh) 一种噪声抑制方法、装置及电子设备
EP4297431A1 (en) Howling suppression method and apparatus, hearing aid, and storage medium
CN111599372B (zh) 一种稳定的在线多通道语音去混响方法及系统
US20180188104A1 (en) Signal detection device, signal detection method, and recording medium
WO2016119388A1 (zh) 一种基于语音信号构造聚焦协方差矩阵的方法及装置
CN116416963B (zh) 适用于消防头盔中骨传导清晰化处理模型的语音合成方法
US8635064B2 (en) Information processing apparatus and operation method thereof
JP7184236B2 (ja) 声紋を認識する方法、装置、設備、および記憶媒体
CN112735468A (zh) 一种基于mfcc的汽车座椅电机异常噪声检测方法
JP2000276200A (ja) 声質変換システム
US20200035214A1 (en) Signal processing device
CN111916107A (zh) 一种音频分类模型的训练方法、音频的分类方法及装置
DE102019211404A1 (de) Verfahren zur Bestimmung einer Einfallsrichtung einer Sondersignal-Schallquelle

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant