CN106683665B - 一种音频的音阶分析方法和系统 - Google Patents
一种音频的音阶分析方法和系统 Download PDFInfo
- Publication number
- CN106683665B CN106683665B CN201611036398.XA CN201611036398A CN106683665B CN 106683665 B CN106683665 B CN 106683665B CN 201611036398 A CN201611036398 A CN 201611036398A CN 106683665 B CN106683665 B CN 106683665B
- Authority
- CN
- China
- Prior art keywords
- frequency
- minimum step
- audio
- formant
- interval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000004458 analytical method Methods 0.000 claims abstract description 20
- 238000001514 detection method Methods 0.000 claims abstract description 8
- 239000000284 extract Substances 0.000 claims abstract description 7
- 238000000605 extraction Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 9
- 210000003746 feather Anatomy 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000002555 auscultation Methods 0.000 abstract description 10
- 238000003745 diagnosis Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000002559 palpation Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Electrophonic Musical Instruments (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种音频的音阶分析方法和系统,属于用于声音检测的医疗设备领域。本发明是一种音频的音阶分析方法,包括:提取音频中单字的音频;将每个所述单字的音频由时域转换为频域;获取所述频域中特征频率;根据所述特征频率所处频率区间:第一频率区间、第二频率区间、第三频率区间、第四频率区间、第五频率区间,判断每个所述单字的音频所属音阶:上宫、上商、上角、上徵、上羽。本发明通过提取音频中单字的音频,对多个单字的音频进行特征值提取,判断单字的音频所属音阶,从而综合判断所述音频的音阶,便于闻诊分析。
Description
技术领域
本发明涉及用于声音检测的医疗设备领域,并且更具体地,涉及一种音频的音阶分析方法和系统。
背景技术
中医包括望诊、闻诊、问诊和切诊。闻诊是从病人发生的各种声音,从其高低、缓急、强弱、清浊测知病性的方法。在现有技术中,闻诊分析是建立在音频所属音阶分析的基础上,以声音的谐波和共振峰属性的特点提取人声音中的特征值,通过人声音的特征值来判断此人属于二十五音的具体音阶。现有的方法和技术是通过对人声音的生理学原理分析、经过大量的数据统计、参照《皇帝内经》以及二十五音的定义等综合分析得出的一个比较精准的分析结果。
在实现本发明的过程中,发现现有技术至少存在以下缺陷:现有技术中闻诊声音特征值选取是通过人的主观判断来选择,同一段音频文件可能因为不同的人而选取不同的声音特征值,得出不同的结果;闻诊的测试声音是选取固定的词,测试具有局限性;收集闻诊测试音频时,所朗读每个字都需要停顿,和人正常说话不符,造成使用不方便。
发明内容
本发明的目的是提供一种音频的音阶分析方法和系统,通过提取音频中单字的音频,对多个单字的音频进行特征值提取,判断单字的音频所属音阶,从而综合判断所述音频的音阶,便于闻诊分析。
根据本发明的一个方面,一种音频的音阶分析方法,包括:
提取音频中单字的音频;
将每个所述单字的音频由时域转换为频域;
获取所述频域中特征频率;
根据所述特征频率所处频率区间:第一频率区间、第二频率区间、第三频率区间、第四频率区间、第五频率区间,判断每个所述单字的音频所属音阶:上宫、上商、上角、上徵、上羽。
可选的,在所述提取音频中单字的音频之前包括:采集测试的音频;对所述测试音频预处理。
可选的,对所述测试音频预处理包括:对所述音频进行端点检测去除空录音和去噪。
可选的,在所述获取所述频域中特征频率包括:
设置频率的最小步长,获取频率为最小步长到两倍最小步长之间的第一共振峰频率f0;
当第一共振峰频率f0位于最小步长到二分之三倍最小步长之间时,在频率为两倍最小步长到三倍最小步长之间获得第二共振峰频率f1;
当第一共振峰频率f0不位于最小步长到二分之三倍最小步长之间时,在频率为三倍最小步长到四倍最小步长之间获得第二共振峰频率f1。
可选的,在所述在频率为两倍最小步长到三倍最小步长之间获得第二共振峰频率f1之后包括:
当第二共振峰频率f1位于两倍最小步长到二分之五倍最小步长之间时,在频率为四倍最小步长到五倍最小步长之间获得第三共振峰频率f2;
当第二共振峰频率f1位于二分之五倍最小步长到三倍最小步长之间时,在频率为五倍最小步长到六倍最小步长之间获得第三共振峰频率f2。
可选的,在在频率为三倍最小步长到四倍最小步长之间获得第二共振峰频率f1之后包括:
当第二共振峰频率f1位于三倍最小步长到二分之七倍最小步长之间时,在频率为六倍最小步长到七倍最小步长之间获得第三共振峰频率f2;
当第二共振峰频率f1位于二分之七倍最小步长到四倍最小步长之间时,在频率为七倍最小步长到八倍最小步长之间获得第三共振峰频率f2。
可选的,所述第一频率区间:261.6~293.7,第二频率区间:293.7~329.6,第三频率区间:329.6~392.0,第四频率区间:392.0~440.0,第五频率区间:440.0~523.2;其中,
当所述第三共振峰频率f2位于所述第一频率区间: 261.6~293.7,所述单字的音频属于上宫;
当所述第三共振峰频率f2位于所述第二频率区间: 293.7~329.6,所述单字的音频属于上商;
当所述第三共振峰频率f2位于所述第三频率区间: 329.6~392.0,所述单字的音频属于上角;
当所述第三共振峰频率f2位于所述第四频率区间: 392.0~440.0,所述单字的音频属于上徵;
当所述第三共振峰频率f2位于所述第五频率区间: 440.0~523.2,所述单字的音频属于上羽。
可选的,在判断每个所述单字的音频属于上宫、上商、上角、上徵或上羽之后包括:
计算所述音频中所述上宫、上商、上角、上徵或上羽出现的权重,选取权重最大的音阶作为所述音频的音阶。
根据本发明的另一个方面,一种音频的音阶分析系统,包括:
单字的音频提取单元,提取音频中单字的音频;
时频转换单元,将每个所述单字的音频由时域转换为频域;
特征频率提取单元,获取所述频域中特征频率;
音阶划分单元,根据所述特征频率所处频率区间:第一频率区间、第二频率区间、第三频率区间、第四频率区间、第五频率区间,判断每个所述单字的音频所属音阶:上宫、上商、上角、上徵、上羽。
可选的,一种音频的音阶分析系统系统还包括:音频采集单元,采集测试的音频。
可选的,一种音频的音阶分析系统系统还包括:预处理单元,对所述音频进行端点检测去空录音和去噪。
可选的,所述特征频率提取单元包括:
第一共振峰频率f0提取单元,设置频率的最小步长,获取频率为最小步长到两倍最小步长之间的第一共振峰频率f0;
第二共振峰频率f1提取单元,当第一共振峰频率f0位于最小步长到二分之三倍最小步长之间时,在频率为两倍最小步长到三倍最小步长之间获得第二共振峰频率f1;当第一共振峰频率f0不位于最小步长到二分之三倍最小步长之间时,在频率为三倍最小步长到四倍最小步长之间获得第二共振峰频率f1;
第三共振峰频率f2提取单元,当第二共振峰频率f1位于两倍最小步长到二分之五倍最小步长之间时,在频率为四倍最小步长到五倍最小步长之间获得第三共振峰频率f2;
当第二共振峰频率f1位于二分之五倍最小步长到三倍最小步长之间时,在频率为五倍最小步长到六倍最小步长之间获得第三共振峰频率 f2;当第二共振峰频率f1位于三倍最小步长到二分之七倍最小步长之间时,在频率为六倍最小步长到七倍最小步长之间获得第三共振峰频率 f2;当第二共振峰频率f1位于二分之七倍最小步长到四倍最小步长之间时,在频率为七倍最小步长到八倍最小步长之间获得第三共振峰频率 f2。
可选的,所述第一频率区间:261.6~293.7,第二频率区间:293.7~329.6,第三频率区间:329.6~392.0,第四频率区间:392.0~440.0,第五频率区间:440.0~523.2;其中,
当所述第三共振峰频率f2位于所述第一频率区间:261.6~293.7,所述单字的音频属于上宫;
当所述第三共振峰频率f2位于所述第二频率区间: 293.7~329.6,所述单字的音频属于上商;
当所述第三共振峰频率f2位于所述第三频率区间: 329.6~392.0,所述单字的音频属于上角;
当所述第三共振峰频率f2位于所述第四频率区间: 392.0~440.0,所述单字的音频属于上徵;
当所述第三共振峰频率f2位于所述第五频率区间: 440.0~523.2,所述单字的音频属于上羽。
可选的,一种音频的音阶分析系统还包括:输出单元,计算所述音频中所述上宫、上商、上角、上徵或上羽出现的权重,选取权重最大的音阶作为所述音频的音阶输出。
通过采用上述技术方案,本发明具有以下有益效果:
本发明通过固定的频率提取方法,排除了人的主观性,使得分析结果更加准确;本发明采集的音频可以是连续的句子、短语,通过本发明技术方案均能分割成单字的音频,因此,降低了对测试者采集音频时要求,更便于使用;本发明通过对多个单字的音频综合分析判断,相当于多次测试判断,提高了分析结果的准确性。
附图说明
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
图1为本发明一实施例方法流程图;
图2为本发明另一实施例特征频率获取方法流程图;
图3为本发明另一实施例系统结构图;
图4为本发明另一实施例特征频率提取单元结构图。
具体实施方式
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
实施例一
如图1所示,本发明实施例一种音频的音阶分析方法,包括步骤:
S1,提取音频中单字的音频;
S2,将每个所述单字的音频由时域转换为频域;
S3,获取所述频域中特征频率;
S4,根据所述特征频率所处频率区间:第一频率区间、第二频率区间、第三频率区间、第四频率区间、第五频率区间,判断每个所述单字的音频所属音阶:上宫、上商、上角、上徵、上羽。
本实施例中,在所述提取音频中单字的音频之前包括:采集测试的音频。音频由测试者录制,测试者通过音频采集器,可以录制字、词或连续的句子。在所述采集测试的音频之后包括:对所述测试音频预处理。其中,对所述测试音频预处理包括:端点检测去除空录音和去噪。在步骤S1中,将由多个单字组成的连续的音频进行分割,分割成单字的音频。
在步骤S2中,优选的可以采用傅立叶变换,将单字的音频由时域转换成频域。在本实施例中,从测试者采集的音频在坐标轴表示为时间和幅度的变化,所提取的单字的音频在坐标轴也表示为时间和幅度的变化,由时域转换成频域后,单字的音频在坐标轴表示为频率和幅度的变化。
在步骤S3中,特征频率包括:第一共振峰频率f0,第二共振峰频率f1,第三共振峰频率f2。其中,当全部信号的频率成分为某一频率的整数倍时,该某一频率称为第一共振峰频率f0。共振峰是指在声音的频谱中能量相对集中的一些区域,共振峰不但是音质的决定因素,而且反映了声道(共振腔)的物理特征。其中,第一共振峰频率f0、第二共振峰频率f1或第三共振峰频率f2是在某一频率区间幅度为峰值时取得。
在步骤S4中,频率划分的五个区间对应了音频的五个音阶。第一频率区间对应于上宫、第二频率区间对应于上商、第三频率区间对应于上角、第四频率区间对应于上徵、第五频率区间对应于上羽。
本发明通过固定的频率提取方法,排除了人的主观性,使得分析结果更加准确;本发明采集的音频可以是连续的句子、短语,通过本发明技术方案均能分割成单字的音频,因此,降低了对测试者采集音频时要求,更便于使用;本发明通过对多个单字的音频综合分析判断,相当于多次测试判断,提高了分析结果的准确性。
实施例二
如图2所示,在实施例一的基础上,本发明实施例中获取所述频域中特征频率包括:
设置频率的最小步长,获取频率为最小步长到两倍最小步长之间的第一共振峰频率f0;
当第一共振峰频率f0位于最小步长到二分之三倍最小步长 (包括端点)之间时,在频率为两倍最小步长到三倍最小步长(包括端点) 之间获得第二共振峰频率f1;
当第一共振峰频率f0不位于最小步长到二分之三倍最小步长(包括端点)之间时,在频率为三倍最小步长到四倍最小步长(包括端点)之间获得第二共振峰频率f1。
其中,在所述在频率为两倍最小步长到三倍最小步长之间(包括端点)获得第二共振峰频率f1之后包括:
当第二共振峰频率f1位于两倍最小步长到二分之五倍最小步长(包括端点)之间时,在频率为四倍最小步长到五倍最小步长(包括端点)之间获得第三共振峰频率f2;
当第二共振峰频率f1位于二分之五倍最小步长到三倍最小步长(包括端点)之间时,在频率为五倍最小步长到六倍最小步长(包括端点)之间获得第三共振峰频率f2。
其中,在频率为三倍最小步长到四倍最小步长(包括端点) 之间获得第二共振峰频率f1之后包括:
当第二共振峰频率f1位于三倍最小步长到二分之七倍最小步长(包括端点)之间时,在频率为六倍最小步长到七倍最小步长(包括端点)之间获得第三共振峰频率f2;
当第二共振峰频率f1位于二分之七倍最小步长到四倍最小步长(包括端点)之间时,在频率为七倍最小步长到八倍最小步长(包括端点)之间获得第三共振峰频率f2。
其中,第一共振峰频率f0、第二共振峰频率f1或第三共振峰频率f2是在某一频率区间幅度为峰值时取得。
本实施例中,人耳能听到的声音频率范围在20HZ~20KHZ,男声的基础频率范围为55HZ~333HZ,女声的基础频率范围在80HZ~ 485HZ,人声最具表现力的频率范围是65.4HZ~1000HZ,所以闻诊分析的3个倍频程为:65.4HZ~130.8HZ,130.8HZ~261.6HZ,261.6HZ~523.2HZ,假设第一共振峰频率f0和人声的基础频率一致,第一共振峰频率f0落在65.4~130.8HZ,第二共振峰频率f 1落在1 30.8~261.6HZ,第三共振峰频率f 2落在261.6~523.2HZ,为简化说明,设定最小步长F=65.4HZ,即三个倍频程为:F~2F,2F~4F, 4F~8F。
其中,HZ为单位赫兹的缩写。上述实施例中,所述第一共振峰频率 f0、第二共振峰频率f1和第三共振峰频率f2,依照本段中声音本身的特质在相应倍频中取得。
本实施例中,第一频率区间:261.6~293.7,第二频率区间:293.7~329.6,第三频率区间:329.6~392.0,第四频率区间:392.0~440.0,第五频率区间:440.0~523.2;其中,当所述第三共振峰频率f2位于所述第一频率区间:261.6~293.7,所述单字的音频属于上宫;当所述第三共振峰频率f2位于所述第二频率区间: 293.7~329.6,所述单字的音频属于上商;当所述第三共振峰频率f2 位于所述第三频率区间:329.6~392.0,所述单字的音频属于上角;当所述第三共振峰频率f2位于所述第四频率区间:392.0~440.0,所述单字的音频属于上徵;当所述第三共振峰频率f2位于所述第五频率区间:440.0~523.2,所述单字的音频属于上羽。本发明频率区间的单位均为赫兹。
作为本发明优选的实施方式,在判断每个所述单字的音频属于上宫、上商、上角、上徵或上羽之后包括:计算所述音频中所述上宫、上商、上角、上徵或上羽出现的权重,选取权重最大的音阶作为所述音频的音阶。其中,一段音频能够提取多个单字的音频,对每个单字的音频所属音阶进行判断,能够得到每个单字的音频的音阶,由于采集或判断过程中会产生误差,可能会出现某些单字的音频不同于其它单字的音频的音阶,因此,对所有出现的音阶进行统计分析,选取权重最大的(所占比例最大的)音阶作为所述音频的音阶,通过该方法能够对降低误差,使得判断结果更加准确。
实施例三
如图3所示,基于上述方法同一发明构思,本发明实施例一种音频的音阶分析系统1,包括:
单字的音频提取单元100,提取音频中单字的音频;
时频转换单元200,将每个所述单字的音频由时域转换为频域;
特征频率提取单元300,获取所述频域中特征频率;
音阶划分单元400,根据所述特征频率所处频率区间:第一频率区间、第二频率区间、第三频率区间、第四频率区间、第五频率区间,判断每个所述单字的音频所属音阶:上宫、上商、上角、上徵、上羽。
作为本发明优选的实施方式,一种音频的音阶分析系统系统1还包括:音频采集单元500,采集测试的音频。较佳的,一种音频的音阶分析系统系统1还包括:预处理单元600,对所述音频进行端点检测去除空录音和去噪。
本实施例中,如图4所示,特征频率提取单元300包括:
第一共振峰频率f0提取单元301,设置频率的最小步长,获取频率为最小步长到两倍最小步长之间的第一共振峰频率f0;
第二共振峰频率f1提取单元302,当第一共振峰频率f0位于最小步长到二分之三倍最小步长(包括端点)之间时,在频率为两倍最小步长到三倍最小步长(包括端点)之间获得第二共振峰频率f1;当第一共振峰频率f0不位于最小步长到二分之三倍最小步长(包括端点)之间时,在频率为三倍最小步长到四倍最小步长(包括端点)之间获得第二共振峰频率f1;
第三共振峰频率f2提取单元303,当第二共振峰频率f1位于两倍最小步长到二分之五倍最小步长(包括端点)之间时,在频率为四倍最小步长到五倍最小步长(包括端点)之间获得第三共振峰频率f2;当第二共振峰频率f1位于二分之五倍最小步长到三倍最小步长(包括端点) 之间时,在频率为五倍最小步长到六倍最小步长(包括端点)之间获得第三共振峰频率f2;当第二共振峰频率f1位于三倍最小步长到二分之七倍最小步长(包括端点)之间时,在频率为六倍最小步长到七倍最小步长 (包括端点)之间获得第三共振峰频率f2;当第二共振峰频率f1位于二分之七倍最小步长到四倍最小步长(包括端点)之间时,在频率为七倍最小步长到八倍最小步长(包括端点)之间获得第三共振峰频率f2。
本实施例中,第一频率区间:261.6~293.7,第二频率区间:293.7~329.6,第三频率区间:329.6~392.0,第四频率区间:392.0~440.0,第五频率区间:440.0~523.2;其中,当所述第三共振峰频率f2位于所述第一频率区间:261.6~293.7,所述单字的音频属于上宫;当所述第三共振峰频率f2位于所述第二频率区间: 293.7~329.6,所述单字的音频属于上商;当所述第三共振峰频率f2 位于所述第三频率区间:329.6~392.0,所述单字的音频属于上角;当所述第三共振峰频率f2位于所述第四频率区间:392.0~440.0,所述单字的音频属于上徵;当所述第三共振峰频率f2位于所述第五频率区间:440.0~523.2,所述单字的音频属于上羽。本发明频率区间的单位均为赫兹。
作为本发明优选的实施方式,一种音频的音阶分析系统还包括:输出单元700,计算所述音频中所述上宫、上商、上角、上徵或上羽出现的权重,选取权重最大的音阶作为所述音频的音阶输出。其中,一段音频能够提取多个单字的音频,对每个单字的音频所属音阶进行判断,能够得到每个单字的音频的音阶,由于采集或判断过程中会产生误差,可能会出现某些单字的音频不同于其它单字的音频的音阶,因此,对所有出现的音阶进行统计分析,选取权重最大的(所占比例最大的)音阶作为所述音频的音阶,通过该方法能够对降低误差,使得判断结果更加准确。
已经通过参考少量实施方式描述了本发明。然而,本领域技术人员所公知的,正如附带的专利权利要求所限定的,除了本发明以上公开的其他的实施例等同地落在本发明的范围内。
通常地,在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释,除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例,除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行,除非明确地说明。
Claims (8)
1.一种音频的音阶分析方法,其特征在于,包括:
提取音频中单字的音频;
将每个所述单字的音频由时域转换为频域;
获取所述频域中特征频率,其中设置频率的最小步长,获取频率为最小步长到两倍最小步长之间的第一共振峰频率;
当第一共振峰频率f0位于最小步长到二分之三倍最小步长之间时,在频率为两倍最小步长到三倍最小步长之间获得第二共振峰频率f1;
当第一共振峰频率f0不位于最小步长到二分之三倍最小步长之间时,在频率为三倍最小步长到四倍最小步长之间获得第二共振峰频率f1;
当第二共振峰频率f1位于两倍最小步长到二分之五倍最小步长之间时,在频率为四倍最小步长到五倍最小步长之间获得第三共振峰频率f2;
当第二共振峰频率f1位于二分之五倍最小步长到三倍最小步长之间时,在频率为五倍最小步长到六倍最小步长之间获得第三共振峰频率f2;
当第二共振峰频率f1位于三倍最小步长到二分之七倍最小步长之间时,在频率为六倍最小步长到七倍最小步长之间获得第三共振峰频率f2;
当第二共振峰频率f1位于二分之七倍最小步长到四倍最小步长之间时,在频率为七倍最小步长到八倍最小步长之间获得第三共振峰频率f2;
根据所述特征频率所处频率区间:第一频率区间、第二频率区间、第三频率区间、第四频率区间、第五频率区间,判断每个所述单字的音频所属音阶:上宫、上商、上角、上徵、上羽,其中,所述第一频率区间:261.6~293.7,第二频率区间:293.7~329.6,第三频率区间:329.6~392.0,第四频率区间:392.0~440.0,第五频率区间:440.0~523.2,且
当所述第三共振峰频率f2位于所述第一频率区间:261.6~293.7,所述单字的音频属于上宫;
当所述第三共振峰频率f2位于所述第二频率区间:293.7~329.6,所述单字的音频属于上商;
当所述第三共振峰频率f2位于所述第三频率区间:329.6~392.0,所述单字的音频属于上角;
当所述第三共振峰频率f2位于所述第四频率区间:392.0~440.0,所述单字的音频属于上徵;
当所述第三共振峰频率f2位于所述第五频率区间:440.0~523.2,所述单字的音频属于上羽。
2.根据权利要求1所述的方法,在所述提取音频中单字的音频之前包括:采集测试的音频;对所述测试音频预处理。
3.根据权利要求2所述的方法,其中,对所述测试音频预处理包括:对所述音频进行端点检测去除空录音和去噪。
4.根据权利要求1所述的方法,其中,在判断每个所述单字的音频属于上宫、上商、上角、上徵或上羽之后包括:
计算所述音频中所述上宫、上商、上角、上徵或上羽出现的权重,选取权重最大的音阶作为所述音频的音阶。
5.一种音频的音阶分析系统,其特征在于,包括:
单字的音频提取单元,提取音频中单字的音频;
时频转换单元,将每个所述单字的音频由时域转换为频域;
特征频率提取单元,获取所述频域中特征频率,其中,所述特征频率提取单元包括:
第一共振峰频率f0提取单元,设置频率的最小步长,获取频率为最小步长到两倍最小步长之间的第一共振峰频率f0;
第二共振峰频率f1提取单元,当第一共振峰频率f0位于最小步长到二分之三倍最小步长之间时,在率为两倍最小步长到三倍最小步长之间获得第二共振峰频率f1;当第一共振峰频率f0不位于最小步长到二分之三倍最小步长之间时,在频率为三倍最小步长到四倍最小步长之间获得第二共振峰频率f1;
第三共振峰频率f2提取单元,当第二共振峰频率f1位于两倍最小步长到二分之五倍最小步长之间时,在频率为四倍最小步长到五倍最小步长之间获得第三共振峰频率f2;当第二共振峰频率f1位于二分之五倍最小步长到三倍最小步长之间时,在频率为五倍最小步长到六倍最小步长之间获得第三共振峰频率f2;当第二共振峰频率f1位于三倍最小步长到二分之七倍最小步长之间时,在频率为六倍最小步长到七倍最小步长之间获得第三共振峰频率f2;当第二共振峰频率f1位于二分之七倍最小步长到四倍最小步长之间时,在频率为七倍最小步长到八倍最小步长之间获得第三共振峰频率f2;
音阶划分单元,根据所述特征频率所处频率区间:第一频率区间、第二频率区间、第三频率区间、第四频率区间、第五频率区间,判断每个所述单字的音频所属音阶:上宫、上商、上角、上徵、上羽,其中,所述第一频率区间:261.6~293.7,第二频率区间:293.7~329.6,第三频率区间:329.6~392.0,第四频率区间:392.0~440.0,第五频率区间:440.0~523.2,且
当所述第三共振峰频率f2位于所述第一频率区间:261.6~293.7,所述单字的音频属于上宫;
当所述第三共振峰频率f2位于所述第二频率区间:293.7~329.6,所述单字的音频属于上商;
当所述第三共振峰频率f2位于所述第三频率区间:329.6~392.0,所述单字的音频属于上角;
当所述第三共振峰频率f2位于所述第四频率区间:392.0~440.0,所述单字的音频属于上徵;
当所述第三共振峰频率f2位于所述第五频率区间:440.0~523.2,所述单字的音频属于上羽。
6.根据权利要求5所述的系统,还包括:音频采集单元,采集测试的音频。
7.根据权利要求5所述的系统,还包括:预处理单元,对所述音频进行端点检测去空录音和去噪。
8.根据权利要求5所述的系统,还包括:输出单元,计算所述音频中所述上宫、上商、上角、上徵或上羽出现的权重,选取权重最大的音阶作为所述音频的音阶输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611036398.XA CN106683665B (zh) | 2016-11-23 | 2016-11-23 | 一种音频的音阶分析方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611036398.XA CN106683665B (zh) | 2016-11-23 | 2016-11-23 | 一种音频的音阶分析方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106683665A CN106683665A (zh) | 2017-05-17 |
CN106683665B true CN106683665B (zh) | 2020-04-17 |
Family
ID=58867604
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611036398.XA Active CN106683665B (zh) | 2016-11-23 | 2016-11-23 | 一种音频的音阶分析方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106683665B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107576387B (zh) * | 2017-08-18 | 2020-05-22 | 浙江大学 | 一种基于声纹多谐波识别的无人机检测方法 |
CN112603266B (zh) * | 2020-12-23 | 2023-02-24 | 新绎健康科技有限公司 | 一种用于获取目标五音特征的方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1230070A (zh) * | 1998-01-30 | 1999-09-29 | 松下电器产业株式会社 | 手持蜂窝电话 |
CN1527280A (zh) * | 2003-03-04 | 2004-09-08 | 无敌科技股份有限公司 | 音乐合成的音阶产生方法 |
CN103377656A (zh) * | 2012-04-16 | 2013-10-30 | 联想(北京)有限公司 | 一种音频文件的五音分析方法、播放器及电子设备 |
CN103440862A (zh) * | 2013-08-16 | 2013-12-11 | 北京奇艺世纪科技有限公司 | 一种语音与音乐合成的方法、装置以及设备 |
CN103794221A (zh) * | 2012-10-26 | 2014-05-14 | 索尼公司 | 信号处理装置和方法以及程序 |
CN105513612A (zh) * | 2015-12-02 | 2016-04-20 | 广东小天才科技有限公司 | 语言词汇的音频处理方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10240725A (ja) * | 1997-02-21 | 1998-09-11 | Akira Sugiyama | データ処理方法 |
-
2016
- 2016-11-23 CN CN201611036398.XA patent/CN106683665B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1230070A (zh) * | 1998-01-30 | 1999-09-29 | 松下电器产业株式会社 | 手持蜂窝电话 |
CN1527280A (zh) * | 2003-03-04 | 2004-09-08 | 无敌科技股份有限公司 | 音乐合成的音阶产生方法 |
CN103377656A (zh) * | 2012-04-16 | 2013-10-30 | 联想(北京)有限公司 | 一种音频文件的五音分析方法、播放器及电子设备 |
CN103794221A (zh) * | 2012-10-26 | 2014-05-14 | 索尼公司 | 信号处理装置和方法以及程序 |
CN103440862A (zh) * | 2013-08-16 | 2013-12-11 | 北京奇艺世纪科技有限公司 | 一种语音与音乐合成的方法、装置以及设备 |
CN105513612A (zh) * | 2015-12-02 | 2016-04-20 | 广东小天才科技有限公司 | 语言词汇的音频处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN106683665A (zh) | 2017-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jin et al. | Adventitious sounds identification and extraction using temporal–spectral dominance-based features | |
CN112971802B (zh) | 基于深度学习模型的心音信号检测方法及系统 | |
Hartelius et al. | Long-term phonatory instability in individuals with multiple sclerosis | |
CN106546892A (zh) | 基于深度学习的局部放电超声音频识别方法及系统 | |
CN102973277B (zh) | 一种频率跟随响应信号测试系统 | |
Schmidt et al. | Coronary artery disease and low frequency heart sound signatures | |
TWI572327B (zh) | 利用音頻訊號判斷流體管路窄化的檢測裝置、電腦程式產品及電腦可讀取媒體 | |
CN110299141A (zh) | 一种声纹识别中录音回放攻击检测的声学特征提取方法 | |
CN106683665B (zh) | 一种音频的音阶分析方法和系统 | |
Kok et al. | A novel method for automatic identification of respiratory disease from acoustic recordings | |
Lee et al. | Aging effect on Korean female voice: Acoustic and perceptual examinations of breathiness | |
CN112820319A (zh) | 一种人类鼾声识别方法及其装置 | |
CN110415824B (zh) | 脑卒中风的患病风险评估装置和设备 | |
González-Rodríguez et al. | Robust denoising of phonocardiogram signals using time-frequency analysis and U-Nets | |
Touahria et al. | Discrete Wavelet based Features for PCG Signal Classification using Hidden Markov Models. | |
Rizal et al. | Lung sounds classification using spectrogram's first order statistics features | |
Qiu et al. | Automatic wheeze detection based on auditory modelling | |
CN107910019B (zh) | 一种人体声音信号处理及分析方法 | |
Buder et al. | Quantitative and graphic acoustic analysis of phonatory modulations | |
CN105931651B (zh) | 助听设备中的语音信号处理方法、装置及助听设备 | |
Wu et al. | Influence of sampling rate on voice analysis for assessment of Parkinson's disease | |
CN111543947B (zh) | 中医声诊方法及系统 | |
EP1810618A1 (en) | System and method of processing acoustic signals for the energy characterisation of the respiratory condition | |
TWI226600B (en) | Nasal detection method and device thereof | |
Torabinenezhad et al. | Acoustic parameters in Persian-speaking patients with dysphonia |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |