CN112603266A

CN112603266A - 一种用于获取目标五音特征的方法及系统

Info

Publication number: CN112603266A
Application number: CN202011537392.7A
Authority: CN
Inventors: 魏春雨; 宋臣; 汤青; 王东卫; 冯洪海
Original assignee: Ennova Health Technology Co ltd
Current assignee: Ennova Health Technology Co ltd
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2021-04-06
Anticipated expiration: 2040-12-23
Also published as: CN112603266B

Abstract

本发明公开了一种用于获取目标五音特征的方法及系统，属于数据分析及处理技术领域。本发明方法，包括：对汉字的五音音阶进行标注，生成汉字的五音音阶标注表；对目标的一段音频信号的对话进行断句，并提取出音频信号中的每一句话；进行说话人分割，确定每一句话对应的说话人；对应的音频信号进行识别，并生成对应的音频信号的一段汉字；对所述一段汉字进行单字分割，获取单字数据；获取五音音阶特征及五音属性特征；根据五音音阶特征及五音属性特征，确认目标的五音特征。本发明中在算法效果和耗时方面，都获得了良好的表现，五音分类结果符合统计规律，且多次测试的结果一致性非常高。

Description

一种用于获取目标五音特征的方法及系统

技术领域

本发明涉及数据分析及处理技术领域，并且更具体地，涉及一种用于获取目标五音特征的方法及系统。

背景技术

中医是我们中华民族的瑰宝，是经过数千年很多代人不断完善的智慧结晶。随着时代的发展和社会的进步，以及中医治未病理念的深入人心，中医和现代科技相结合，产生了一系列的现代化成果。除了中药的现代化提取与制作，中医的诊断方法也在向着自动化、数字化的方向发展。正如《古今医统》所说：“望闻问切四字，诚为医之纲领。”即望闻问切组成了中医诊断的四诊。《灵枢·本脏篇》：“视其外应，以知其内脏，则知所病矣。”

闻诊是中医诊断学名词，中医望闻问切四诊方法之一。运用听觉和嗅觉的手段，通过对病人发出的声音和体内排泄物发出的各种气味的诊察来推断疾病的诊法。在临床上，闻诊同望诊、问诊、切诊相结合，才能全面系统地了解病情，对疾病作出正确判断。

由于人体内发出的各种声音和气味均是在脏腑生理和病理活动中产生的，因此声音和气味的变化能反映脏腑的生理和病理变化，在临床上可推断正气盛衰和判断疾病种类。闻诊包括听声音和嗅气味两方面。听声音是指诊察病人的声音、语言、呼吸、咳嗽、呕吐、呃逆、嗳气、太息、喷嚏、肠鸣等各种声响，主要是根据声音的大小、高低、清浊，区别寒热虚实。通常，声高气粗重浊多属实证，反之则属虚证。语言错乱多属心之病变，呼吸、咳嗽、喷嚏多与肺病有关，呕吐、呃逆、嗳气多是胃失和降，胃气上逆的表现。太息多与肝郁有关。嗅气味可分病体和病室两方面。病体的气味主要是由于邪毒使人体脏腑、气血、津液产生败气，以致从体窍和排出物发出，据此，可辨脏腑气血的寒热虚实及邪气所在。通常，凡酸腐臭秽者，多属实热证；无臭或略有腥气者，多属虚寒证。病室气味，则是由病体及其排泄物气味散发的，如瘟疫病人室内有霉腐臭气；失血证病人室内有血腥气味；尿臊味多见于水肿病晚期患者。

中医运用自己的听觉和嗅觉，对病人发出的声音和体内及排泄物发出的气味进行诊察，以推断疾病的方法。为四诊之一。人体内发出的各种声音和气味均是在脏腑生理和病理活动中产生的，如五声(呼、笑、歌、哭、呻)和五音(角、徵、宫、商、羽)及五臭(臊臭、焦臭、香臭、腥臭、腐臭)都与五脏相应，是五脏功能变化的反映。因而声音和气味的变化可反映出内在病变，据以推断正邪盛衰和疾病种类。

中医五音理论是世界医学史上最早的声学医学，五脏是产生五音的生理基础，可反映五脏精气盛衰，还可以可用于诊病疗疾，调节五脏功能。高也陶以“五脏相音”来命名传统医学的听声辨病理论和技术体系：根据中医五行理论，五音-五脏-五志相应，故通过声音变化来诊断脏腑功能状况，进一步拟定音乐处方，通过声音治疗来调节情志、调整和恢复脏腑功能。在现有技术中，闻诊分析是建立在音频所属音阶分析的基础上，以声音的谐波和共振峰属性的特点提取人声音中的特征值，通过人声音的特征值来判断此人属于二十五音的具体音阶。现有的方法和技术是通过对人声音的生理学原理分析、经过大量的数据统计、参照《皇帝内经》以及二十五音的定义等综合分析得出的一个比较精准的分析结果。

但是，传统中医闻诊方法停留在依靠医生的主观听觉对人体声音信号进行判断的阶段，由于医生感官的个体差异，以及个体心理、环境的影响，在对人体声音信号的分析判断会产生差异。出于健康判断目的考虑而对人体声音信号进行分析、判断的标准化、客观化成为亟待解决的问题。现有技术中闻诊声音特征值选取是通过人的主观判断来选择，同一段音频文件可能因为不同的人而选取不同的声音特征值，得出不同的结果；闻诊的测试声音是选取固定的词，测试具有局限性；收集闻诊测试音频时，所朗读每个字都需要停顿，和人正常说话不符，造成使用不方便。

发明内容

针对上述问题，本发明提出了一种用于获取目标五音特征的方法，包括：

对汉字的五音音阶进行标注，生成汉字的五音音阶标注表；

对目标的一段音频信号的对话进行断句，并提取出音频信号中的每一句话；

针对提取出的音频信号中的每一句话，进行说话人分割，确定每一句话对应的说话人；

针对提取出的音频信号中的每一句话，对应的音频信号进行识别，并生成对应的音频信号的一段汉字；

对所述一段汉字进行单字分割，获取单字数据；

针对单字数据，根据五音音阶标注表及单字数据对应的说话人，进行五音音阶识别及五音属性识别，获取五音音阶特征及五音属性特征；

根据五音音阶特征及五音属性特征，确认目标的五音特征。

可选的，说话人分割，具体包括：

针对提取出的音频信号中的每一句话，提取每一句话的音频信号的参数，根据参数确定音频信号的特征，根据音频信号的特征，对每一句话进行说话人分割；

所述参数包括：线性预测倒谱系数、梅尔倒谱系数、共振峰参数和基频参数；

所述音频信号的特征包括：参数的最大值、最小值、平均值、一阶差分、二阶差分、峭度和斜率。

可选的，断句、提取出音频信号中的每一句话及单字分割，使用端点检测技术。

可选的，五音音阶识别，包括：

确定五音音阶的频率范围；

使用快速傅里叶变换单字数据对应的音频信号的频谱；

提取频谱中的高于50的波峰，确定待处理波峰；

确定待处理波峰中满足倍频关系的基本频率f的值，并确定基本频率f的值的五音音阶的频率范围，获取单字数据的五音音阶特征。

本发明还提出了一种用于获取目标五音特征的系统，包括：

标注模块，对汉字的五音音阶进行标注，生成汉字的五音音阶标注表；

断句模块，对目标的一段音频信号的对话进行断句，并提取出音频信号中的每一句话；

说话人分割模块，针对提取出的音频信号中的每一句话，进行说话人分割，确定每一句话对应的说话人；

识别模块，针对提取出的音频信号中的每一句话，对应的音频信号进行识别，并生成对应的音频信号的一段汉字；

单字提取模块，对所述一段汉字进行单字分割，获取单字数据；

识别特征模块，针对单字数据，根据五音音阶标注表及单字数据对应的说话人，进行五音音阶识别及五音属性识别，获取五音音阶特征及五音属性特征；

根据五音音阶特征及五音属性特征，确认目标的五音特征。

可选的，说话人分割，具体包括：

可选的，五音音阶识别，包括：

确定五音音阶的频率范围；

使用快速傅里叶变换单字数据对应的音频信号的频谱；

提取频谱中的高于50的波峰，确定待处理波峰；

本发明中在算法效果和耗时方面，都获得了良好的表现，五音分类结果符合统计规律，且多次测试的结果一致性非常高。

附图说明

图1为本发明一种用于获取目标五音特征的方法的流程图；

图2为本发明一种用于获取目标五音特征的方法的音频信号的频谱图；

图3为本发明一种用于获取目标五音特征的方法的音频信号经傅里叶变换后的频谱图；

图4为本发明一种用于获取目标五音特征的方法的音频信号的滤波图；

图5为本发明一种用于获取目标五音特征的系统的结构图。

具体实施方式

现在参考附图介绍本发明的示例性实施方式，然而，本发明可以用许多不同的形式来实施，并且不局限于此处描述的实施例，提供这些实施例是为了详尽地且完全地公开本发明，并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中，相同的单元/元件使用相同的附图标记。

除非另有说明，此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外，可以理解的是，以通常使用的词典限定的术语，应当被理解为与其相关领域的语境具有一致的含义，而不应该被理解为理想化的或过于正式的意义。

本发明提出了一种用于获取目标五音特征的方法，如图1所示，包括：

对汉字的五音音阶进行标注，生成汉字的五音音阶标注表；

对所述一段汉字进行单字分割，获取单字数据；

根据五音音阶特征及五音属性特征，确认目标的五音特征。

其中，说话人分割，具体包括：

参数包括：线性预测倒谱系数、梅尔倒谱系数、共振峰参数和基频参数；

音频信号的特征包括：参数的最大值、最小值、平均值、一阶差分、二阶差分、峭度和斜率。

断句、提取出音频信号中的每一句话及单字分割，使用端点检测技术。

五音音阶识别，包括：

确定五音音阶的频率范围；

使用快速傅里叶变换单字数据对应的音频信号的频谱；

提取频谱中的高于50的波峰，确定待处理波峰；

下面结合实施例对本发明进行进一步说明；

首先，对汉字的五音音阶进行标注，生成汉字的五音音阶标注表；

音频断句：利用端点检测技术提取一段对话音频信号中的每一句话。

具体包括：语音增强的主要任务就是消除环境噪声对语音的影响，目前通用的方法是采用维纳滤波，在噪声较大的情况下效果好于其它滤波器；

端点检测是指在语音信号中将语音和非语音信号时段区分开来，准确地确定出语音信号的起始点，经过端点检测后，后续处理就可以只对语音信号进行，这对提高模型的精确度和识别正确率有重要作用，端点检测提取出的语音段信号一般就是一句话。

具体实现是，需要先计算音频中每帧的过零率和短时能量，并设定阈值，并利用语音段中上述指标小于阈值的连续帧数作为分隔句子的指标，即相当于使用句子中的停顿时间分隔出每一句话，当采样率8000hz时，帧长160ms，过零率阈值40，短时能量阈值200，帧数10，即认为每句话之间停顿1.6s，当然可以根据情况调整。

说话人分割：首先，提取音频信号的特征，包括但不限于线性预测倒谱系数(LPCC)、梅尔倒谱系数(MFCC)、共振峰(FORMANT)、基频(PITCH)等特征参数，甚至这些参数的统计特征，比如最大值、最小值、平均值、一阶差分、二阶差分、峭度、斜率等等，然后，根据上述特征，使用聚类的方法(K-means)把上述句子分给不同的说话人，为了保证聚类效果，需要设置说话人个数。

语音识别：使用语音识别技术把上述的每一句话对应的音频信号，识别成一段汉字。

具体可以使用隐马尔科夫模型(HMM)或者人工神经网络(ANN)甚至深度学习网络RNN或LSTM等技术，来识别出语音信号中的文字，当然也可以使用比较成熟的平台，如百度的实时语音分析，完成语音的文字识别。

单字分割：为了找到各个汉字的起止位置，需要把一段语音信号分割出所有汉字，还是采用端点检测技术，此处的参数设置有所区别，因为句子中的每个字之间停顿较短，所以帧数设置为2，也可以根据实际情况再调整。这样就可以分割出一个句子中的每个单独的汉字。

五音音阶识别：声学中的倍频定律，各音频率范围的值以及其2的几何级数的倍数，都属于相同的音阶，先给出五音的频率范围，如下：

按照倍频关系，计算出一句话中每一个汉字的五音归属情况，具体计算步骤如下：

使用快速傅里叶变换计算一个汉字音频信号如图2所示的频谱，计算结果如图3所示；

提取频谱中的所有高于50的波峰，可以使用scipy.signal.find_peaks_cwt()函数来完成，find_peaks_cwt在存在噪声数据的情况下确实很有用,因为它使用continuouswavelet transform，即先使用连续小波变换去噪，再求极值点，就可以获得波峰，结果如图4所示，每个波峰上都显示了对应的数值，表示当前波峰的横坐标，也就是频率。

为了保证上述环节求得的是正确的波峰，可以使用波峰两侧一定范围内(±5)的幅值都小于此波峰，过滤掉波谷或者伪波峰，可以过滤掉下图中的81、241、378、670等。

寻找满足倍频关系的基本频率f，261.63≤f≤523.25，需要f/2和2f都处于上面环节寻找到的波峰附近，定义f/2和2f附近的波峰分别为f_1/2和f₂，即需要满足abs(f/2-f_1/2)＜f/20和abs(2f–f₂)＜f/20，如果存在多个基本频率满足上述条件，需要寻找误差最小的那个基本频率，定义误差为d＝abs(f/2-f_1/2)+abs(2f–f₂)＜f/20，即寻找d最小的那个基本频率f，如果找不到f_1/2，则寻找f₄，使用f₂和f₄确定最小误差，如果找不到f₂，则寻找f_1/4，使用f_1/4和f_1/2确定最小误差，本实施例中，基本频率f＝308，则本汉字发音音阶为商。

统计五音属性：当采集到的音频信息中包含五音汉字的所有种类时，按照汉字真实五音音阶的分布情况，计算所有参与对话人的五音音阶。

把某个说话人整段话，即对应的所有句子中的所有单字(总字数为N_总)，按照“汉字五音标注”中标注的五音音阶，进行统计，五音字字数分别为N_宫，N_商，N_角，N_徵，N_羽；为了保证五种类型的音阶字的权重相等，给出每种类型五音字的权重，如下：

N_宫＝3，N_商＝16，N_角＝3，N_徵＝3，N_羽＝7

对于宫音字“乌、霜、火”，对应的权重是

其他的五音字的权重类似给出。

按照“五音音阶识别”给出所有单字当前说话人的音频信号所属的五音音阶，即使用“五音音阶识别”给出所有字的识别结果。

宫音字识别成五音音阶的个数为

商音字识别成五音音阶的个数为

角音字识别成五音音阶的个数为

徵音字识别成五音音阶的个数为

羽音字识别成五音音阶的个数为

按照上述权重以及五音音阶识别结果，计算某个说话人整段话的五音音阶，如下：

因为p_羽最大，所以最后结果为“羽”。

本发明还提出了一种用于获取目标五音特征的系统200，如图5所示，包括：

标注模块201，对汉字的五音音阶进行标注，生成汉字的五音音阶标注表；

断句模块202，对目标的一段音频信号的对话进行断句，并提取出音频信号中的每一句话；

说话人分割模块203，针对提取出的音频信号中的每一句话，进行说话人分割，确定每一句话对应的说话人；

识别模块204，针对提取出的音频信号中的每一句话，对应的音频信号进行识别，并生成对应的音频信号的一段汉字；

单字提取模块205，对所述一段汉字进行单字分割，获取单字数据；

识别特征模块206，针对单字数据，根据五音音阶标注表及单字数据对应的说话人，进行五音音阶识别及五音属性识别，获取五音音阶特征及五音属性特征；

根据五音音阶特征及五音属性特征，确认目标的五音特征。

其中，说话人分割，具体包括：

五音音阶识别，包括：

确定五音音阶的频率范围；

使用快速傅里叶变换单字数据对应的音频信号的频谱；

提取频谱中的高于50的波峰，确定待处理波峰；

确定待处理波峰中满足倍频关系的基本频率f的值，并确定基本频率f的值五音音阶的频率范围，获取单字数据的五音音阶特征。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现，例如，面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种用于获取目标五音特征的方法，所述方法包括：

对汉字的五音音阶进行标注，生成汉字的五音音阶标注表；

对所述一段汉字进行单字分割，获取单字数据；

根据五音音阶特征及五音属性特征，确认目标的五音特征。

2.根据权利要求1所述的方法，所述说话人分割，具体包括：

3.根据权利要求1所述的方法，所述断句、提取出音频信号中的每一句话及单字分割，使用端点检测技术。

4.根据权利要求1所述的方法，所述五音音阶识别，包括：

确定五音音阶的频率范围；

使用快速傅里叶变换单字数据对应的音频信号的频谱；

提取频谱中的高于50的波峰，确定待处理波峰；

5.一种用于获取目标五音特征的系统，所述系统包括：

根据五音音阶特征及五音属性特征，确认目标的五音特征。

6.根据权利要求5所述的系统，所述说话人分割，具体包括：

7.根据权利要求5所述的系统，所述断句、提取出音频信号中的每一句话及单字分割，使用端点检测技术。

8.根据权利要求5所述的系统，所述五音音阶识别，包括：

确定五音音阶的频率范围；

使用快速傅里叶变换单字数据对应的音频信号的频谱；

提取频谱中的高于50的波峰，确定待处理波峰；