CN106683665A

CN106683665A - 一种音频的音阶分析方法和系统

Info

Publication number: CN106683665A
Application number: CN201611036398.XA
Authority: CN
Inventors: 冯洪海; 宋臣; 汤青; 刘晓诚
Original assignee: Xinyi Health Technology Co Ltd
Current assignee: Xinyi Health Technology Co Ltd
Priority date: 2016-11-23
Filing date: 2016-11-23
Publication date: 2017-05-17
Anticipated expiration: 2036-11-23
Also published as: CN106683665B

Abstract

本发明公开了一种音频的音阶分析方法和系统，属于用于声音检测的医疗设备领域。本发明是一种音频的音阶分析方法，包括：提取音频中单字的音频；将每个所述单字的音频由时域转换为频域；获取所述频域中特征频率；根据所述特征频率所处频率区间：第一频率区间、第二频率区间、第三频率区间、第四频率区间、第五频率区间，判断每个所述单字的音频所属音阶：上宫、上商、上角、上徵、上羽。本发明通过提取音频中单字的音频，对多个单字的音频进行特征值提取，判断单字的音频所属音阶，从而综合判断所述音频的音阶，便于闻诊分析。

Description

一种音频的音阶分析方法和系统

技术领域

本发明涉及用于声音检测的医疗设备领域，并且更具体地，涉及一种音频的音阶分析方法和系统。

背景技术

中医包括望诊、闻诊、问诊和切诊。闻诊是从病人发生的各种声音，从其高低、缓急、强弱、清浊测知病性的方法。在现有技术中，闻诊分析是建立在音频所属音阶分析的基础上，以声音的谐波和共振峰属性的特点提取人声音中的特征值，通过人声音的特征值来判断此人属于二十五音的具体音阶。现有的方法和技术是通过对人声音的生理学原理分析、经过大量的数据统计、参照《皇帝内经》以及二十五音的定义等综合分析得出的一个比较精准的分析结果。

在实现本发明的过程中，发明人发现现有技术至少存在以下缺陷：现有技术中闻诊声音特征值选取是通过人的主观判断来选择，同一段音频文件可能因为不同的人而选取不同的声音特征值，得出不同的结果；闻诊的测试声音是选取固定的词，测试具有局限性；收集闻诊测试音频时，所朗读每个字都需要停顿，和人正常说话不符，造成使用不方便。

发明内容

本发明的目的是提供一种音频的音阶分析方法和系统，通过提取音频中单字的音频，对多个单字的音频进行特征值提取，判断单字的音频所属音阶，从而综合判断所述音频的音阶，便于闻诊分析。

根据本发明的一个方面，一种音频的音阶分析方法，包括：

提取音频中单字的音频；

将每个所述单字的音频由时域转换为频域；

获取所述频域中特征频率；

根据所述特征频率所处频率区间：第一频率区间、第二频率区间、第三频率区间、第四频率区间、第五频率区间，判断每个所述单字的音频所属音阶：上宫、上商、上角、上徵、上羽。

可选的，在所述提取音频中单字的音频之前包括：采集测试的音频；对所述测试音频预处理。

可选的，对所述测试音频预处理包括：对所述音频进行端点检测去除空录音和去噪。

可选的，在所述获取所述频域中特征频率包括：

设置频率的最小步长，获取频率为最小步长到两倍最小步长之间的第一共振峰频率f0；

当第一共振峰频率f0位于最小步长到二分之三倍最小步长之间时，在频率为两倍最小步长到三倍最小步长之间获得第二共振峰频率f1；

当第一共振峰频率f0不位于最小步长到二分之三倍最小步长之间时，在频率为三倍最小步长到四倍最小步长之间获得第二共振峰频率f1。

可选的，在所述在频率为两倍最小步长到三倍最小步长之间获得第二共振峰频率f1之后包括：

当第二共振峰频率f1位于两倍最小步长到二分之五倍最小步长之间时，在频率为四倍最小步长到五倍最小步长之间获得第三共振峰频率f2；

当第二共振峰频率f1位于二分之五倍最小步长到三倍最小步长之间时，在频率为五倍最小步长到六倍最小步长之间获得第三共振峰频率f2。

可选的，在在频率为三倍最小步长到四倍最小步长之间获得第二共振峰频率f1之后包括：

当第二共振峰频率f1位于三倍最小步长到二分之七倍最小步长之间时，在频率为六倍最小步长到七倍最小步长之间获得第三共振峰频率f2；

当第二共振峰频率f1位于二分之七倍最小步长到四倍最小步长之间时，在频率为七倍最小步长到八倍最小步长之间获得第三共振峰频率f2。

可选的，所述第一频率区间：261.6～293.7，第二频率区间：293.7～329.6，第三频率区间：329.6～392.0，第四频率区间：392.0～440.0，第五频率区间：440.0～523.2；其中，

当所述第三共振峰频率f2位于所述第一频率区间：261.6～293.7，所述单字的音频属于上宫；

当所述第三共振峰频率f2位于所述第二频率区间：293.7～329.6，所述单字的音频属于上商；

当所述第三共振峰频率f2位于所述第三频率区间：329.6～392.0，所述单字的音频属于上角；

当所述第三共振峰频率f2位于所述第四频率区间：392.0～440.0，所述单字的音频属于上徵；

当所述第三共振峰频率f2位于所述第五频率区间：440.0～523.2，所述单字的音频属于上羽。

可选的，在判断每个所述单字的音频属于上宫、上商、上角、上徵或上羽之后包括：

计算所述音频中所述上宫、上商、上角、上徵或上羽出现的权重，选取权重最大的音阶作为所述音频的音阶。

根据本发明的另一个方面，一种音频的音阶分析系统，包括：

单字的音频提取单元，提取音频中单字的音频；

时频转换单元，将每个所述单字的音频由时域转换为频域；

特征频率提取单元，获取所述频域中特征频率；

音阶划分单元，根据所述特征频率所处频率区间：第一频率区间、第二频率区间、第三频率区间、第四频率区间、第五频率区间，判断每个所述单字的音频所属音阶：上宫、上商、上角、上徵、上羽。

可选的，一种音频的音阶分析系统系统还包括：音频采集单元，采集测试的音频。

可选的，一种音频的音阶分析系统系统还包括：预处理单元，对所述音频进行端点检测去空录音和去噪。

可选的，所述特征频率提取单元包括：

第一共振峰频率f0提取单元，设置频率的最小步长，获取频率为最小步长到两倍最小步长之间的第一共振峰频率f0；

第二共振峰频率f1提取单元，当第一共振峰频率f0位于最小步长到二分之三倍最小步长之间时，在频率为两倍最小步长到三倍最小步长之间获得第二共振峰频率f1；当第一共振峰频率f0不位于最小步长到二分之三倍最小步长之间时，在频率为三倍最小步长到四倍最小步长之间获得第二共振峰频率f1；

第三共振峰频率f2提取单元，当第二共振峰频率f1位于两倍最小步长到二分之五倍最小步长之间时，在频率为四倍最小步长到五倍最小步长之间获得第三共振峰频率f2；当第二共振峰频率f1位于二分之五倍最小步长到三倍最小步长之间时，在频率为五倍最小步长到六倍最小步长之间获得第三共振峰频率f2；当第二共振峰频率f1位于三倍最小步长到二分之七倍最小步长之间时，在频率为六倍最小步长到七倍最小步长之间获得第三共振峰频率f2；当第二共振峰频率f1位于二分之七倍最小步长到四倍最小步长之间时，在频率为七倍最小步长到八倍最小步长之间获得第三共振峰频率f2。

可选的，一种音频的音阶分析系统还包括：输出单元，计算所述音频中所述上宫、上商、上角、上徵或上羽出现的权重，选取权重最大的音阶作为所述音频的音阶输出。

通过采用上述技术方案，本发明具有以下有益效果：

本发明通过固定的频率提取方法，排除了人的主观性，使得分析结果更加准确；本发明采集的音频可以是连续的句子、短语，通过本发明技术方案均能分割成单字的音频，因此，降低了对测试者采集音频时要求，更便于使用；本发明通过对多个单字的音频综合分析判断，相当于多次测试判断，提高了分析结果的准确性。

附图说明

通过参考下面的附图，可以更为完整地理解本发明的示例性实施方式：

图1为本发明一实施例方法流程图；

图2为本发明另一实施例特征频率获取方法流程图；

图3为本发明另一实施例系统结构图；

图4为本发明另一实施例特征频率提取单元结构图。

具体实施方式

现在参考附图介绍本发明的示例性实施方式，然而，本发明可以用许多不同的形式来实施，并且不局限于此处描述的实施例，提供这些实施例是为了详尽地且完全地公开本发明，并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中，相同的单元/元件使用相同的附图标记。

除非另有说明，此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外，可以理解的是，以通常使用的词典限定的术语，应当被理解为与其相关领域的语境具有一致的含义，而不应该被理解为理想化的或过于正式的意义。

实施例一

如图1所示，本发明实施例一种音频的音阶分析方法，包括步骤：

S1，提取音频中单字的音频；

S2，将每个所述单字的音频由时域转换为频域；

S3，获取所述频域中特征频率；

S4，根据所述特征频率所处频率区间：第一频率区间、第二频率区间、第三频率区间、第四频率区间、第五频率区间，判断每个所述单字的音频所属音阶：上宫、上商、上角、上徵、上羽。

本实施例中，在所述提取音频中单字的音频之前包括：采集测试的音频。音频由测试者录制，测试者通过音频采集器，可以录制字、词或连续的句子。在所述采集测试的音频之后包括：对所述测试音频预处理。其中，对所述测试音频预处理包括：端点检测去除空录音和去噪。。在步骤S1中，将由多个单字组成的连续的音频进行分割，分割成单字的音频。

在步骤S2中，优选的可以采用傅立叶变换，将单字的音频由时域转换成频域。在本实施例中，从测试者采集的音频在坐标轴表示为时间和幅度的变化，所提取的单字的音频在坐标轴也表示为时间和幅度的变化，由时域转换成频域后，单字的音频在坐标轴表示为频率和幅度的变化。

在步骤S3中，特征频率包括：第一共振峰频率f0，第二共振峰频率f1，第三共振峰频率f2。其中，当全部信号的频率成分为某一频率的整数倍时,该某一频率称为第一共振峰频率f0。共振峰是指在声音的频谱中能量相对集中的一些区域，共振峰不但是音质的决定因素，而且反映了声道(共振腔)的物理特征。其中，第一共振峰频率f0、第二共振峰频率f1或第三共振峰频率f2是在某一频率区间幅度为峰值时取得。

在步骤S4中，频率划分的五个区间对应了音频的五个音阶。第一频率区间对应于上宫、第二频率区间对应于上商、第三频率区间对应于上角、第四频率区间对应于上徵、第五频率区间对应于上羽。

实施例二

如图2所示，在实施例一的基础上，本发明实施例中获取所述频域中特征频率包括：

当第一共振峰频率f0位于最小步长到二分之三倍最小步长(包括端点)之间时，在频率为两倍最小步长到三倍最小步长(包括端点)之间获得第二共振峰频率f1；

当第一共振峰频率f0不位于最小步长到二分之三倍最小步长(包括端点)之间时，在频率为三倍最小步长到四倍最小步长(包括端点)之间获得第二共振峰频率f1。

其中，在所述在频率为两倍最小步长到三倍最小步长之间(包括端点)获得第二共振峰频率f1之后包括：

当第二共振峰频率f1位于两倍最小步长到二分之五倍最小步长(包括端点)之间时，在频率为四倍最小步长到五倍最小步长(包括端点)之间获得第三共振峰频率f2；

当第二共振峰频率f1位于二分之五倍最小步长到三倍最小步长(包括端点)之间时，在频率为五倍最小步长到六倍最小步长(包括端点)之间获得第三共振峰频率f2。

其中，在频率为三倍最小步长到四倍最小步长(包括端点)之间获得第二共振峰频率f1之后包括：

当第二共振峰频率f1位于三倍最小步长到二分之七倍最小步长(包括端点)之间时，在频率为六倍最小步长到七倍最小步长(包括端点)之间获得第三共振峰频率f2；

当第二共振峰频率f1位于二分之七倍最小步长到四倍最小步长(包括端点)之间时，在频率为七倍最小步长到八倍最小步长(包括端点)之间获得第三共振峰频率f2。

其中，第一共振峰频率f0、第二共振峰频率f1或第三共振峰频率f2是在某一频率区间幅度为峰值时取得。

本实施例中，人耳能听到的声音频率范围在20HZ～20KHZ，男声的基础频率范围为55HZ～333HZ，女声的基础频率范围在80HZ～485HZ，人声最具表现力的频率范围是65.4HZ～1000HZ,所以闻诊分析的3个倍频程为：65.4HZ～130.8HZ，130.8HZ～261.6HZ，261.6HZ～523.2HZ，假设第一共振峰频率f0和人声的基础频率一致，第一共振峰频率f0落在65.4～130.8HZ，第二共振峰频率f1落在130.8～261.6HZ，第三共振峰频率f2落在261.6～523.2HZ，为简化说明，设定最小步长F＝65.4HZ,即三个倍频程为：F～2F，2F～4F，4F～8F。其中，HZ为单位赫兹的缩写。上述实施例中，所述第一共振峰频率f0、第二共振峰频率f1和第三共振峰频率f2，依照本段中声音本身的特质在相应倍频中取得。

本实施例中，第一频率区间：261.6～293.7，第二频率区间：293.7～329.6，第三频率区间：329.6～392.0，第四频率区间：392.0～440.0，第五频率区间：440.0～523.2；其中，当所述第三共振峰频率f2位于所述第一频率区间：261.6～293.7，所述单字的音频属于上宫；当所述第三共振峰频率f2位于所述第二频率区间：293.7～329.6，所述单字的音频属于上商；当所述第三共振峰频率f2位于所述第三频率区间：329.6～392.0，所述单字的音频属于上角；当所述第三共振峰频率f2位于所述第四频率区间：392.0～440.0，所述单字的音频属于上徵；当所述第三共振峰频率f2位于所述第五频率区间：440.0～523.2，所述单字的音频属于上羽。本发明频率区间的单位均为赫兹。

作为本发明优选的实施方式，在判断每个所述单字的音频属于上宫、上商、上角、上徵或上羽之后包括：计算所述音频中所述上宫、上商、上角、上徵或上羽出现的权重，选取权重最大的音阶作为所述音频的音阶。其中，一段音频能够提取多个单字的音频，对每个单字的音频所属音阶进行判断，能够得到每个单字的音频的音阶，由于采集或判断过程中会产生误差，可能会出现某些单字的音频不同于其它单字的音频的音阶，因此，对所有出现的音阶进行统计分析，选取权重最大的(所占比例最大的)音阶作为所述音频的音阶，通过该方法能够对降低误差，使得判断结果更加准确。

实施例三

如图3所示，基于上述方法同一发明构思，本发明实施例一种音频的音阶分析系统1，包括：

单字的音频提取单元100，提取音频中单字的音频；

时频转换单元200，将每个所述单字的音频由时域转换为频域；

特征频率提取单元300，获取所述频域中特征频率；

音阶划分单元400，根据所述特征频率所处频率区间：第一频率区间、第二频率区间、第三频率区间、第四频率区间、第五频率区间，判断每个所述单字的音频所属音阶：上宫、上商、上角、上徵、上羽。

作为本发明优选的实施方式，一种音频的音阶分析系统系统1还包括：音频采集单元500，采集测试的音频。较佳的，一种音频的音阶分析系统系统1还包括：预处理单元600，对所述音频进行端点检测去除空录音和去噪。

本实施例中，如图4所示，特征频率提取单元300包括：

第一共振峰频率f0提取单元301，设置频率的最小步长，获取频率为最小步长到两倍最小步长之间的第一共振峰频率f0；

第二共振峰频率f1提取单元302，当第一共振峰频率f0位于最小步长到二分之三倍最小步长(包括端点)之间时，在频率为两倍最小步长到三倍最小步长(包括端点)之间获得第二共振峰频率f1；当第一共振峰频率f0不位于最小步长到二分之三倍最小步长(包括端点)之间时，在频率为三倍最小步长到四倍最小步长(包括端点)之间获得第二共振峰频率f1；

第三共振峰频率f2提取单元303，当第二共振峰频率f1位于两倍最小步长到二分之五倍最小步长(包括端点)之间时，在频率为四倍最小步长到五倍最小步长(包括端点)之间获得第三共振峰频率f2；当第二共振峰频率f1位于二分之五倍最小步长到三倍最小步长(包括端点)之间时，在频率为五倍最小步长到六倍最小步长(包括端点)之间获得第三共振峰频率f2；当第二共振峰频率f1位于三倍最小步长到二分之七倍最小步长(包括端点)之间时，在频率为六倍最小步长到七倍最小步长(包括端点)之间获得第三共振峰频率f2；当第二共振峰频率f1位于二分之七倍最小步长到四倍最小步长(包括端点)之间时，在频率为七倍最小步长到八倍最小步长(包括端点)之间获得第三共振峰频率f2。

作为本发明优选的实施方式，一种音频的音阶分析系统还包括：输出单元700，计算所述音频中所述上宫、上商、上角、上徵或上羽出现的权重，选取权重最大的音阶作为所述音频的音阶输出。其中，一段音频能够提取多个单字的音频，对每个单字的音频所属音阶进行判断，能够得到每个单字的音频的音阶，由于采集或判断过程中会产生误差，可能会出现某些单字的音频不同于其它单字的音频的音阶，因此，对所有出现的音阶进行统计分析，选取权重最大的(所占比例最大的)音阶作为所述音频的音阶，通过该方法能够对降低误差，使得判断结果更加准确。

已经通过参考少量实施方式描述了本发明。然而，本领域技术人员所公知的，正如附带的专利权利要求所限定的，除了本发明以上公开的其他的实施例等同地落在本发明的范围内。

通常地，在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释，除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例，除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行，除非明确地说明。

Claims

1.一种音频的音阶分析方法，其特征在于，包括：

提取音频中单字的音频；

将每个所述单字的音频由时域转换为频域；

获取所述频域中特征频率；

2.根据权利要求1所述的方法，在所述提取音频中单字的音频之前包括：采集测试的音频；对所述测试音频预处理。

3.根据权利要求2所述的方法，其中，对所述测试音频预处理包括：对所述音频进行端点检测去除空录音和去噪。

4.根据权利要求1所述的方法，所述获取所述频域中特征频率包括：

设置频率的最小步长，获取频率为最小步长到两倍最小步长之间的第一共振峰频率；

5.根据权利要求4所述的方法，所述在频率为两倍最小步长到三倍最小步长之间获得第二共振峰频率f1之后包括：

6.根据权利要求4所述的方法，在频率为三倍最小步长到四倍最小步长之间获得第二共振峰频率f1之后包括：

7.根据权利要求5或6所述的方法，其中，所述第一频率区间：261.6～293.7，第二频率区间：293.7～329.6，第三频率区间：329.6～392.0，第四频率区间：392.0～440.0，第五频率区间：440.0～523.2；其中，

8.根据权利要求1所述的方法，其中，在判断每个所述单字的音频属于上宫、上商、上角、上徵或上羽之后包括：

9.一种音频的音阶分析系统，其特征在于，包括：

单字的音频提取单元，提取音频中单字的音频；

时频转换单元，将每个所述单字的音频由时域转换为频域；

特征频率提取单元，获取所述频域中特征频率；

10.根据权利要求9所述的系统，还包括：音频采集单元，采集测试的音频。

11.根据权利要求10所述的系统，还包括：预处理单元，对所述音频进行端点检测去空录音和去噪。

12.根据权利要求9所述的系统，其中，所述特征频率提取单元包括：

13.根据权利要求12所述的系统，其中，所述第一频率区间：261.6～293.7，第二频率区间：293.7～329.6，第三频率区间：329.6～392.0，第四频率区间：392.0～440.0，第五频率区间：440.0～523.2；其中，

14.根据权利要求9所述的系统，还包括：输出单元，计算所述音频中所述上宫、上商、上角、上徵或上羽出现的权重，选取权重最大的音阶作为所述音频的音阶输出。