CN114822567A - 一种基于能量算子的病理嗓音频谱重构方法 - Google Patents
一种基于能量算子的病理嗓音频谱重构方法 Download PDFInfo
- Publication number
- CN114822567A CN114822567A CN202210707979.0A CN202210707979A CN114822567A CN 114822567 A CN114822567 A CN 114822567A CN 202210707979 A CN202210707979 A CN 202210707979A CN 114822567 A CN114822567 A CN 114822567A
- Authority
- CN
- China
- Prior art keywords
- spectrum
- frequency
- pathological
- power spectrum
- pathological voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001228 spectrum Methods 0.000 title claims abstract description 75
- 230000001575 pathological effect Effects 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000004364 calculation method Methods 0.000 claims abstract description 10
- 238000009499 grossing Methods 0.000 claims abstract description 9
- 238000001914 filtration Methods 0.000 claims abstract description 7
- 230000003595 spectral effect Effects 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 5
- 238000011084 recovery Methods 0.000 claims description 5
- 239000000126 substance Substances 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 abstract description 6
- 238000004458 analytical method Methods 0.000 abstract description 4
- 230000001755 vocal effect Effects 0.000 description 8
- 230000005284 excitation Effects 0.000 description 5
- 210000001260 vocal cord Anatomy 0.000 description 4
- 230000008901 benefit Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 208000011293 voice disease Diseases 0.000 description 2
- 238000001514 detection method Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 210000004704 glottis Anatomy 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 231100000915 pathological change Toxicity 0.000 description 1
- 230000036285 pathological change Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
Abstract
本发明提供了一种基于能量算子的病理嗓音频谱重构方法,包括病理嗓音信号基频自适应加窗、计算功率谱、重构功率谱、功率谱的频域平滑处理、计算功率倒频谱、同态滤波以及计算频谱包络。本发明公开的一种基于能量算子的病理嗓音频谱重构方法,改善了病理嗓音频谱分量过于分散的问题,能够有效提取嗓音的主要信息、频谱分量和峰值,获得重构的病理嗓音频谱包络,解决了传统嗓音分析方法对病理嗓音的参数提取总是失效的问题。
Description
技术领域
本发明属于信息技术领域,尤其是涉及一种基于能量算子的病理嗓音频谱重构方法。
背景技术
病理嗓音是指由于声带组织发生病变,声带张力变小,同时声道结构功能性改变导致声带不规则振动、声门出现高次谐波、信号周期性发生改变、幅度及其频率出现波动的嗓音。病理嗓音修复是嗓音障碍研究领域的一个新方向,旨在通过修复病理嗓音信号提高语音可懂度,通过非侵入式的语音信号处理技术修复病理嗓音,可以提高病理嗓音信号的清晰度和可懂度,帮助嗓音疾病患者体验更为便利的语音交互。
发声系统的数学模型分为激励、声道和辐射共三个子模型。嗓音疾病影响的发声器官对应的是激励模型和声道模型。对于激励模型,基频表征嗓音的音调高低,是激励模型中描述声带振动频率重要的特征参数。对于声道模型,共振峰的位置、宽度、幅度等是声道参数中影响元音音色的重要参数。对于整个发声系统而言,频谱包络可以勾勒整段语音的主要信息,同时包含频谱分量、峰值幅度等主要参数。
传统的激励模型提取算法虽然具有计算复杂度低的优点,但是在提取过程中会出现峰值突变,导致二次倍频和分频错误,提取声道参数时,对纯净嗓音信号检测有效,但是在计算复杂的滤除声道卷积信号时容易发生误差,存在传统嗓音分析方法对病理嗓音的参数提取总是失效的问题。
发明内容
有鉴于此,本发明旨在提出一种基于能量算子的病理嗓音频谱重构方法,改善了病理嗓音频谱分量过于分散的问题,能够有效提取嗓音的主要信息、频谱分量和峰值,获得重构的病理嗓音频谱包络,解决了传统嗓音分析方法对病理嗓音的参数提取总是失效的问题。
为达到上述目的,本发明的技术方案是这样实现的:
一种基于能量算子的病理嗓音频谱重构方法,包括:
步骤一: 病理嗓音信号基频自适应加窗:采用长度为mT 0 的汉宁窗w(n),对病理嗓音信号x(n)进行分段加窗,其中T 0 为病理嗓音信号x(n)的基音周期,m为大于零的整数,n为时域变量;
相对于现有技术,本发明所述的一种基于能量算子的病理嗓音频谱重构方法,具有以下优势:
本发明公开了一种基于能量算子的病理嗓音频谱重构方法,改善了病理嗓音频谱分量过于分散的问题,能够有效提取嗓音的主要信息、频谱分量和峰值,获得重构的病理嗓音频谱包络,解决了传统嗓音分析方法对病理嗓音的参数提取总是失效的问题,具有提取效果好,适用性强的特点。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
在附图中:
图1为本发明实施例所述的一种基于能量算子的病理嗓音频谱重构方法流程示意图;
图2为本发明实施例所述的一种基于能量算子的病理嗓音频谱重构方法重构前示意图;
图3为本发明实施例所述的一种基于能量算子的病理嗓音频谱重构方法重构后示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以通过具体情况理解上述术语在本发明中的具体含义。
下面将参考附图并结合实施例来详细说明本发明。
如图1所示,一种基于能量算子的病理嗓音频谱重构方法,包括:
步骤一: 病理嗓音信号基频自适应加窗:采用长度为mT 0 的汉宁窗w(n),对病理嗓音信号x(n)进行分段加窗,其中T 0 为病理嗓音信号x(n)的基音周期,m为大于零的整数,n为时域变量;
在本实施例中,病理嗓音信号x(n)选自MEEI语音库中元音/a/,每个元音采样率为8kHz,m=3,帧移为128。
进一步的,步骤三中:
如图2以及图3所示,功率谱重构后信号能量集中于主要频谱分量,重构效果明显,信号特征明显好于重构前的病理嗓音信号,原本过于分散的频谱能量得以集中,重构后的频谱包络可以直接观察得到共振峰。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于能量算子的病理嗓音频谱重构方法,其特征在于:包括:
步骤一: 病理嗓音信号基频自适应加窗:采用长度为mT 0 的汉宁窗w(n),对病理嗓音信号x(n)进行分段加窗,其中T 0 为病理嗓音信号x(n)的基音周期,m为大于零的整数,n为时域变量;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210707979.0A CN114822567B (zh) | 2022-06-22 | 2022-06-22 | 一种基于能量算子的病理嗓音频谱重构方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210707979.0A CN114822567B (zh) | 2022-06-22 | 2022-06-22 | 一种基于能量算子的病理嗓音频谱重构方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114822567A true CN114822567A (zh) | 2022-07-29 |
CN114822567B CN114822567B (zh) | 2022-09-27 |
Family
ID=82521912
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210707979.0A Active CN114822567B (zh) | 2022-06-22 | 2022-06-22 | 一种基于能量算子的病理嗓音频谱重构方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114822567B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115294970A (zh) * | 2022-10-09 | 2022-11-04 | 苏州大学 | 针对病理嗓音的语音转换方法、装置和存储介质 |
CN117975982A (zh) * | 2024-04-01 | 2024-05-03 | 天津大学 | 一种基于g-lpc的病理嗓音增强方法及装置 |
CN117975982B (zh) * | 2024-04-01 | 2024-06-04 | 天津大学 | 一种基于g-lpc的病理嗓音增强方法及装置 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103474066A (zh) * | 2013-10-11 | 2013-12-25 | 福州大学 | 基于多频带信号重构的生态声音识别方法 |
US20140122063A1 (en) * | 2011-06-27 | 2014-05-01 | Universidad Politecnica De Madrid | Method and system for estimating physiological parameters of phonation |
CN104089699A (zh) * | 2014-06-20 | 2014-10-08 | 国家电网公司 | 一种变电站设备声音重建算法 |
US20180317876A1 (en) * | 2015-10-30 | 2018-11-08 | The Johns Hopkins University | Programmable electronic stethoscope devices, algorithms, systems, and methods |
CN109036472A (zh) * | 2018-07-19 | 2018-12-18 | 天津大学 | 一种改进的病理嗓音基音频率提取方法 |
CN110353685A (zh) * | 2012-03-29 | 2019-10-22 | 昆士兰大学 | 用于处理患者声音的方法与装置 |
CN110534120A (zh) * | 2019-08-31 | 2019-12-03 | 刘秀萍 | 一种移动网络环境下的环绕声误码修复方法 |
CN111640439A (zh) * | 2020-05-15 | 2020-09-08 | 南开大学 | 一种基于深度学习的呼吸音分类方法 |
CN112562650A (zh) * | 2020-10-31 | 2021-03-26 | 苏州大学 | 一种基于声带特征参数的语音识别分类方法 |
CN112820315A (zh) * | 2020-07-13 | 2021-05-18 | 腾讯科技(深圳)有限公司 | 音频信号处理方法、装置、计算机设备及存储介质 |
CN114203196A (zh) * | 2021-11-30 | 2022-03-18 | 山东大学 | 一种基于毫米波信号的音频重建方法 |
-
2022
- 2022-06-22 CN CN202210707979.0A patent/CN114822567B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140122063A1 (en) * | 2011-06-27 | 2014-05-01 | Universidad Politecnica De Madrid | Method and system for estimating physiological parameters of phonation |
CN110353685A (zh) * | 2012-03-29 | 2019-10-22 | 昆士兰大学 | 用于处理患者声音的方法与装置 |
CN103474066A (zh) * | 2013-10-11 | 2013-12-25 | 福州大学 | 基于多频带信号重构的生态声音识别方法 |
CN104089699A (zh) * | 2014-06-20 | 2014-10-08 | 国家电网公司 | 一种变电站设备声音重建算法 |
US20180317876A1 (en) * | 2015-10-30 | 2018-11-08 | The Johns Hopkins University | Programmable electronic stethoscope devices, algorithms, systems, and methods |
CN109036472A (zh) * | 2018-07-19 | 2018-12-18 | 天津大学 | 一种改进的病理嗓音基音频率提取方法 |
CN110534120A (zh) * | 2019-08-31 | 2019-12-03 | 刘秀萍 | 一种移动网络环境下的环绕声误码修复方法 |
CN111640439A (zh) * | 2020-05-15 | 2020-09-08 | 南开大学 | 一种基于深度学习的呼吸音分类方法 |
CN112820315A (zh) * | 2020-07-13 | 2021-05-18 | 腾讯科技(深圳)有限公司 | 音频信号处理方法、装置、计算机设备及存储介质 |
CN112562650A (zh) * | 2020-10-31 | 2021-03-26 | 苏州大学 | 一种基于声带特征参数的语音识别分类方法 |
CN114203196A (zh) * | 2021-11-30 | 2022-03-18 | 山东大学 | 一种基于毫米波信号的音频重建方法 |
Non-Patent Citations (2)
Title |
---|
TAO ZHANG ETC: "PVR-AFM: A Pathological Voice Repair System based on Non-linear Structure", 《JOURNAL OF VOICE》 * |
喻春霞: "基于EEMD的病态嗓音特征提取研究", 《中国优秀博硕士学位论文全文数据库(硕士)》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115294970A (zh) * | 2022-10-09 | 2022-11-04 | 苏州大学 | 针对病理嗓音的语音转换方法、装置和存储介质 |
CN117975982A (zh) * | 2024-04-01 | 2024-05-03 | 天津大学 | 一种基于g-lpc的病理嗓音增强方法及装置 |
CN117975982B (zh) * | 2024-04-01 | 2024-06-04 | 天津大学 | 一种基于g-lpc的病理嗓音增强方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114822567B (zh) | 2022-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6862558B2 (en) | Empirical mode decomposition for analyzing acoustical signals | |
Sharma et al. | Empirical mode decomposition for adaptive AM-FM analysis of speech: A review | |
US20120150544A1 (en) | Method and system for reconstructing speech from an input signal comprising whispers | |
US20210193149A1 (en) | Method, apparatus and device for voiceprint recognition, and medium | |
AU2013274940B2 (en) | Cepstral separation difference | |
CN102201240B (zh) | 基于逆滤波的谐波噪声激励模型声码器 | |
Janke et al. | A spectral mapping method for EMG-based recognition of silent speech | |
CN114822567B (zh) | 一种基于能量算子的病理嗓音频谱重构方法 | |
CN110942784A (zh) | 基于支持向量机的鼾声分类系统 | |
CN115294970B (zh) | 针对病理嗓音的语音转换方法、装置和存储介质 | |
US6701291B2 (en) | Automatic speech recognition with psychoacoustically-based feature extraction, using easily-tunable single-shape filters along logarithmic-frequency axis | |
CN112820319A (zh) | 一种人类鼾声识别方法及其装置 | |
Singh et al. | Preliminary analysis of cough sounds | |
WO2002065157A2 (en) | Empirical mode decomposition for analyzing acoustical signals | |
CN110415824B (zh) | 脑卒中风的患病风险评估装置和设备 | |
CN105845126A (zh) | 一种英语有声影像资料自动加注英语字幕的方法 | |
Zhang et al. | PVR-AFM: a pathological voice repair system based on non-linear structure | |
CN109300486B (zh) | 基于PICGTFs和SSMC增强的腭裂语音咽擦音自动识别方法 | |
Katsir et al. | Evaluation of a speech bandwidth extension algorithm based on vocal tract shape estimation | |
Chennupati et al. | Spectral and temporal manipulations of SFF envelopes for enhancement of speech intelligibility in noise | |
CN109036472B (zh) | 一种改进的病理嗓音基音频率提取方法 | |
CN114913844A (zh) | 一种基音归一化重构的广播语种识别方法 | |
Ramabadran et al. | The ETSI extended distributed speech recognition (DSR) standards: server-side speech reconstruction | |
Zhang et al. | Acoustic characteristics of normal and pathological voices analysis and recognition | |
CN117975982B (zh) | 一种基于g-lpc的病理嗓音增强方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |