CN109599102A

CN109599102A - 识别经络状态的方法及装置

Info

Publication number: CN109599102A
Application number: CN201811244411.XA
Authority: CN
Inventors: 慈中华
Original assignee: Individual
Current assignee: Individual
Priority date: 2018-10-24
Filing date: 2018-10-24
Publication date: 2019-04-09
Also published as: US20200135228A1; US11410674B2

Abstract

本申请还涉及一种利用语音识别技术来识别人体的经络状态的方法及装置，该方法包括：接收用户的输入语音；对所述输入语音进行预处理；提取经过预处理的所述输入语音的稳定特征；基于特征识别模型对所述稳定特征进行初级分类，以确定一种基础分类音，其中所述基础分类音包括：宫、商、角、徵、羽；基于特征识别模型对所述稳定特征进行次级分类，以确定所述一种基础分类音中的一种次级分类音；根据所述一种次级分类音识别经络状态。凭借本发明的识别人体的经络状态的方法，通过对个体声音进行分类，从而准确地识别出人体经络状态，解决了传统的声音分类完全依靠人为经验来识别的问题。

Description

识别经络状态的方法及装置

技术领域

本申请涉及音频处理领域，具体的，涉及识别经络状态的方法及装置。

背景技术

众所周知，人体五脏(脾、肺、肝、心、肾)分别与古典音乐中的五音(宫、商、角、徵、羽)相对应，“五音”中的每一个音又细化为五个音，形成25种音阶，即对应25种脏腑经络状态。“五脏相音”作为判断经络状态的依据，可以提示应当进行何种经络调理和饮食调理，最终对获取的参数进行生理上的调理和评估的目的。

然而传统的声音分类完全依靠专家经验，其难度很大，并且对受试者个体要求很高。随着语音信号处理技术以及模式识别技术的发展，如何语音识别技术对人体的经络状态进行归类是本领域亟待解决的问题。

公开于本申请背景技术部分的信息仅仅旨在加深对本申请的一般背景技术的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。

发明内容

本申请的主要目的在于提供一种利用语音识别技术来识别人体的经络状态的方法及装置。

为了解决上述问题，本申请涉及一种识别经络状态的方法，该方法包括：接收用户的输入语音；对所述输入语音进行预处理；提取经过预处理的所述输入语音的稳定特征；基于特征识别模型对所述稳定特征进行初级分类，以确定一种基础分类音，其中所述基础分类音包括：宫、商、角、徵、羽；基于特征识别模型对所述稳定特征进行次级分类，以确定所述一种基础分类音中的一种次级分类音；根据所述一种次级分类音识别经络状态。

进一步的，所述接收用户的输入语音，可以包括：依次显示第一至第五提示语并且开始接收用户的第一至第五输入语音；当接收到用户的第一至第五输入语音之后，将接收到的第一至第五输入语音识别为第一至第五用户语；将所述第一至第五用户语分别与第一至第五提示语进行对比；将与提示语匹配的用户语整合为一个语音文件，以作为所述输入语音。

更进一步的，所述第一至第五提示语可以分别为：“哆”、“来”、“咪”、“嗦”、“啦”。

进一步的，对所述输入语音进行预处理，包括：对所述输入语音进行降噪处理，并且对降噪处理的输入语音进行语音信号预加重。

更进一步的，所述降噪处理包括去除输入语音中的背景噪音和电流噪音；所述语音信号预加重包括提高高频语音信号。

进一步的，所述提取经过预处理的所述输入语音的稳定特征，可以包括：将所述输入语音的序列通过傅立叶变换转化成频率域特征，以获得信号的功率谱；利用离散余弦变换去除信号的维度之间的相关性，得到样本的24维特征；利用流形学习方法将所述24维特征降为12维特征，以获取所述稳定特征。

进一步的，所述特征识别模型的建立包括：建立所述基础分类音的有向混合高斯图模型；利用贝叶斯图学习算法训练所述有向混合高斯图模型。

本申请还涉及一种识别经络状态的装置，其包括：接收模块，用于接收用户的输入语音；预处理模块，用于对所述输入语音进行预处理；提取模块，用于提取经过预处理的所述输入语音的稳定特征；初级分类模块，用于基于特征识别模型对所述稳定特征进行初级分类，以确定一种基础分类音，其中所述基础分类音包括：宫、商、角、徵、羽；次级分类模块，用于基于特征识别模型对所述稳定特征进行次级分类，以确定所述一种基础分类音中的一种次级分类音；确定模块，用于根据所述一种次级分类音识别经络状态。

此外，本申请一种移动设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时能够实现上面所描述的识别经络状态的方法中的步骤。

进一步的，所述移动设备可以包括：平板电脑、笔记本、可移动式台式机和/或手机。

本申请的有益效果是：凭借本发明的识别人体的经络状态的方法，通过对个体声音进行分类，从而准确地识别出人体经络状态，解决了传统的声音分类完全依靠人为经验来识别的问题。本发明的识别人体的经络状态的利用语音信号处理技术以及模式识别技术，使用现代技术对语音信号进行分类，进而判断个体体质可以降低个体声音分类对专业人员的依赖性，并且起到了积极的作用。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请的实施例的语音获取方法的流程图；

图2为本申请的实施例的提取稳定特征的流程图；

图3为本申请的实施例的第一软件界面的示意图；

图4为本申请的实施例的第二软件界面的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

此外，术语“安装”、“设置”、“设有”、“连接”、“配置为”应做广义理解。例如，可以是固定连接，可拆卸连接，或整体式构造；可以是机械连接，或电连接；可以是直接相连，或者是通过中间媒介间接相连，又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。其中，图1为本申请的实施例的语音获取方法的流程图，图2为本申请的实施例的提取稳定特征的流程图，图3为本申请的实施例的第一软件界面的示意图；图4为本申请的实施例的第二软件界面的示意图。

如图1所示，根据本申请的第一实施例的语音获取方法，该方法可以包括步骤S1至步骤S6：

在步骤S1，本申请首先接收用户的输入语音，具体的，具体的，本申请在程序界面的中间显示所述第一提示语，例如，显示“哆”，并且在程序界面的下方开始接收用户的语音，例如，可以开启语音输入按钮并且访问该程序所绑定或匹配的硬件驱动，例如麦克风。

进一步的，为了提高用户的语音识别率和准确率，可以在该第一提示语的下方显示与该第一提示语对应的拼音，例如显示拼音“duo”，如图3所示。

之后，在接收到用户的第一输入语音之后，本申请将接收到的第一输入语音与所述第一提示语进行对比，以判断该第一输入语音与是否与所述第一提示语匹配。具体的，可以将第一输入语音转换为波形数据并且将该波形数据与第一提示语所对应的波形数据进行对比，从而判断所述第一输入语音是否与第一提示语匹配。

如果所述第一输入语音与第一提示语不匹配，本申请则继续执行接收第一输入语音的步骤，既显示第一提示语并且开始接收用户的第一输入语音。

如果所述第一输入语音与第一提示语匹配，本申请开始接收用户的第二输入语音。具体的，本申请在程序界面的中间显示所述第二提示语，例如，显示“来”，并且在程序界面的下方开始接收用户的语音，例如，可以开启语音输入按钮并且访问该程序所绑定或匹配的硬件驱动，例如麦克风。

进一步的，为了提高用户的语音识别率和准确率，可以在该第二提示语的下方显示与该第二提示语对应的拼音，例如显示拼音“lai”。

以此类推，本申请可以依次接收用户的第一至第五输入语音，所述输入语音包括但不限于：“哆”，“来”，“咪”、“嗦”、“啦”。并分别将第一至第五输入语音与第一至第五提示语进行对比，并且将与各个提示语匹配的用户输入语整合为一个语音文件，例如整合成WAV格式的文件，并且将该文件上传至远程服务器，以进行进一步的处理。

之后，在步骤S2，本申请预处理所述输入语音并且消除背景音，由于受到说话人语速等的影响，原始语音信号中包含不存在人声的部分，这些部分不应该对分类结果造成影响，因此本申请需要将噪音从信号中删除。作为一个实施例，本申请采用录音设备获得到的原始语音信号往往受到背景噪音以及设备电流噪声等的影响，对声音信号进行降噪处理。

此外，由于鉴频器输出噪声的功率谱密度随频率的平方而增加(低频噪声小，高频噪声大)，造成信号的低频信噪比很大，而高频信噪比明显不足，从而导致高频传输衰弱，使高频传输困难，因此，本申请还对降噪处理的输入语音进行语音信号预加重，预加重的目的是提升高频部分，使信号变得平坦，以便于进行频谱分析或声道参数分析。

所述对语音进行预处理所采取的技术手段是现有过程，采用通用的降噪方法，因此本申请不再做详细描述。

之后，在步骤S3，在所述经过预处理的输入语音中提取稳定特征。

如图2所示，具体的稳定特征的提取步骤可以包括步骤S31至步骤S33，

在步骤S31中，首先抽样得到初步特征，将所述输入语音的序列通过傅立叶变换转化成频率域特征，以获得信号的功率谱，例如，可以在时间空间语音序列中通过傅立叶变换转化成频率域特征，变换成为信号的功率谱，形成的样本示例为[0.1734，0.0673 0.01630.0021 0.0103 0.0088 0.0085 0.00530.0018……0.0113 0.0083 0.0053 0.00850.0088 0.0103 0.0021]。

通过提取与声音具体内容(如读哪些具体的字)无关的一些特征，寻找与人体个体相关(和具体发音无关)的特征，例如声道的形状，它反映在声音的谱特征上，通过对声音进行抽样，在抽样的基础上进行快速傅里叶变换抽取声音的功率谱作为系统特征。

在步骤S32中，利用离散余弦变换去除信号维度之间的相关性，得到样本的24维特征，具体的，可以去除信号维度之间的相关性，得到样本的24维特征描述，形成的24维样本示例为：[7.1433 3.0949-3.3847-0.2416-2.6995 1.674312.5590 0.2138-1.2205-1.78690.1487-0.5694 2.7566-0.8829 3.8074 1.96492.3419-2.8923-1.7200-2.6096-0.3144-0.1092-0.0778 0.0293]。在本申请中，所述24维特征中的“维”指的是不同频率的区间，通过对不同频率区间(有重叠部分，如100-1000，800-1500，1400-2000，)的声音特征进行测试发现，使用24维特征处理后得出的辨识结果与实际人体体质辨识结果吻合度较高，因此本申请优选地采用24维特征。

通过对声音进行抽样，在抽样的基础上进行余弦变换抽取语音能量谱，能够将抽取的语音能量谱作为系统特征。

最后在步骤S33，利用流形学习方法将所述24维特征降为12维，以获取所述稳定特征。也就是说，通过流形(非线性)数据降维的手段进行处理，利用特征抽取手段将24维原始特征降为12维。形成的12维样本示例为：[11.787810.7590-0.6703-5.9906-1.4346-0.518312.3516-0.1463-0.3148-3.4235-0.6919-0.9450]。

通过降维得到稳定特征，特征降维就是用来减少特征维度，去除过拟合现象的方法，提高模型精度。

接下来，再次参见图1，在提取了经过预处理的所述输入语音的稳定特征之后，本申请继续执行步骤S4，本申请基于特征识别模型对所述稳定特征进行初级分类，以确定一种基础分类音，其中所述基础分类音包括：宫、商、角、徵、羽。

具体的，本申请对于每个语音样本(即人的声音)，通过上述步骤S3得出的多个特征(大概1000个)，对每个特征利用训练好的混合高斯模型(每个五音文件训练一个混合高斯模型)分别计算后验概率，对每个特征(这1000个特征)选取后验概率最大的那个基础分类音，最后统计属于哪个基础分类音的特征数目最多，则将此稳定特征分类为基础分类音，最终得出初级分类结果。所述特征识别模型的建立包括：建立所述基础分类音的有向混合高斯图模型并且利用贝叶斯图学习算法训练所述有向混合高斯图模型，通过采集上千种声音样本，通过对声音样本分析，建立的一套声音样本特征对应经络状态体系的模型。

此外，本申请的将语音信号分类为宫、商、角、徵、羽中的二十五种分类，其中包含5个大类：宫、商、角、徵、羽，每个大类又包含5个小类，每一种小类对应不用的经络状态。如以下表1所示：

表1

由于直接对语音信号进行二十五种分类存在的问题是由于类间距很小，很容易产生同一人语音在多个类之间振动，造成分类结果不稳定。因此，本申请采用先对5个大类进行分类然后再对大类进行分小类的初级分类的策略，采用二次分类，即次级分类的策略，在一定程度上降低了分类的效率，但提升了每次分类类别之间的距离，进而提升了分类的准确性与稳定性。

具体的，可以执行步骤S5，基于特征识别模型对所述稳定特征进行次级分类，以确定所述一种基础分类音中的一种次级分类音。

最后，在步骤S6，根据所述一种次级分类音识别经络状态，具体的，本申请可以根据上述表1对所确认的二十五音进行经络识别，例如“上商”对应的经络为手太阴肺，并且可以对该经络状态进行进一步的解析，此外，还可以显示出该经络状态所容易出现的症状，以使用户进行提前预防，所实现的程序界面如4所示。

此外，本申请还涉及一种识别经络状态的装置，该装置包括：接收模块，用于接收用户的输入语音；预处理模块，用于对所述输入语音进行预处理；提取模块，用于提取经过预处理的所述输入语音的稳定特征；初级分类模块，用于基于特征识别模型对所述稳定特征进行初级分类，以确定一种基础分类音，其中所述基础分类音包括：宫、商、角、徵、羽；次级分类模块，用于基于特征识别模型对所述稳定特征进行次级分类，以确定所述一种基础分类音中的一种次级分类音；确定模块，用于根据所述一种次级分类音识别经络状态。，

另外，本申请还涉及一种手持移动终端，该移动终端包括但不限于：平板电脑、笔记本、可移动式台式机、手机，该移动终端包括有存储器、处理器及存储在存储器上并可在处理器上运行的程序，其中，所述处理器执行所述程序时实现上面所描述的识别经络状态的方法中的任意一个步骤。

本申请所涉及的计算机程序可以存储于计算机可读存储介质中，所述计算机可读存储介质可以包括：能够携带计算机程序代码的任何实体装置、虚拟装置、优盘、移动硬盘、磁碟、光盘、计算机存储器、只读计算机存储器(Read-Only Memory，ROM)、随机存取计算机存储器(Random Access Memory，RAM)、电载波信号、电信信号以及其他软件分发介质等。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均包含在本申请的保护范围之内。

Claims

1.一种识别经络状态的方法，其特征在于，包括：

接收用户的输入语音；

对所述输入语音进行预处理；

提取经过预处理的所述输入语音的稳定特征；

基于特征识别模型对所述稳定特征进行初级分类，以确定一种基础分类音，其中所述基础分类音包括：宫、商、角、徵、羽；

基于特征识别模型对所述稳定特征进行次级分类，以确定所述一种基础分类音中的一种次级分类音；

根据所述一种次级分类音识别经络状态。

2.根据权利要求1所述的识别经络状态的方法，其特征在于，所述接收用户的输入语音，包括：

依次显示第一至第五提示语并且开始接收用户的第一至第五输入语音；

当接收到用户的第一至第五输入语音之后，将接收到的第一至第五输入语音识别为第一至第五用户语；

将所述第一至第五用户语分别与第一至第五提示语进行对比；

将与提示语匹配的用户语整合为一个语音文件，以作为所述输入语音。

3.根据权利要求2所述的识别经络状态的方法，其特征在于，所述第一至第五提示语分别为：“哆”、“来”、“咪”、“嗦”、“啦”。

4.根据权利要求1所述的识别经络状态的方法，其特征在于，对所述输入语音进行预处理，包括：对所述输入语音进行降噪处理，并且对降噪处理的输入语音进行语音信号预加重。

5.根据权利要求4所述的识别经络状态的方法，其特征在于，所述降噪处理包括去除输入语音中的背景噪音和电流噪音；所述语音信号预加重包括提高高频语音信号。

6.根据权利要求1所述的识别经络状态的方法，其特征在于，所述提取经过预处理的所述输入语音的稳定特征，包括：

将所述输入语音的序列通过傅立叶变换转化成频率域特征，以获得信号的功率谱；

利用离散余弦变换去除信号的维度之间的相关性，得到样本的24维特征；

利用流形学习方法将所述24维特征降为12维特征，以获取所述稳定特征。

7.根据权利要求1所述的识别经络状态的方法，其特征在于，所述特征识别模型的建立包括：

建立所述基础分类音的有向混合高斯图模型；

利用贝叶斯图学习算法训练所述有向混合高斯图模型。

8.一种识别经络状态的装置，其特征在于，包括：

接收模块，用于接收用户的输入语音；

预处理模块，用于对所述输入语音进行预处理；

提取模块，用于提取经过预处理的所述输入语音的稳定特征；

初级分类模块，用于基于特征识别模型对所述稳定特征进行初级分类，以确定一种基础分类音，其中所述基础分类音包括：宫、商、角、徵、羽；

次级分类模块，用于基于特征识别模型对所述稳定特征进行次级分类，以确定所述一种基础分类音中的一种次级分类音；

确定模块，用于根据所述一种次级分类音识别经络状态。

9.一种移动设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时能够实现权利要求1至7任意一项所述识别经络状态的方法中的步骤。

10.根据权利要求9所述的移动设备，其特征在于，所述移动设备包括：平板电脑、笔记本、可移动式台式机和/或手机。