CN110097873A

CN110097873A - 一种通过声音确认口形的方法、装置、设备及存储介质

Info

Publication number: CN110097873A
Application number: CN201910397392.2A
Authority: CN
Inventors: 王亚峰; 毛倩; 张子洋
Original assignee: Suzhou Walker Lake Intelligent Systems Co Ltd
Current assignee: Suzhou Walker Lake Intelligent Systems Co Ltd
Priority date: 2019-05-14
Filing date: 2019-05-14
Publication date: 2019-08-06
Anticipated expiration: 2039-05-14
Also published as: CN110097873B

Abstract

本发明公开了一种通过声音确认口形的方法、装置、设备及存储介质，所述方法包括从被测口腔发出的声音中，提取出所述被测口腔的声音特征数据；将所述被测口腔的声音特征数据输入第一口形的概率模型，获取所述被测口腔的声音特征数据符合所述第一口形的概率值P1；将所述被测口腔的声音特征数据输入第二口形的概率模型，获取所述被测口腔的声音特征数据符合所述第二口形的概率值P2；根据所述P1和P2的数值对比，确定所述被测口腔的口形。本发明的通过声音确认口形的方法、装置、设备及存储介质，能够确定幼儿在检测时的口形。

Description

一种通过声音确认口形的方法、装置、设备及存储介质

技术领域

本发明涉及声音识别技术，具体涉及一种通过声音确认口形的方法、装置、设备及存储介质。

背景技术

为了提高检测效率及检测准确度，很多幼儿园在幼儿的入园晨检环节均采用自动化晨检设备。但是，自动化晨检设备在对幼儿进行口腔疾病检测时，幼儿嘴部是否张大对自动化晨检设备的检测结果影响很大。

发明内容

有鉴于此，本发明实施例期望提供一种通过声音确认口形的方法、装置、设备及存储介质，能够确定幼儿在检测时的口形。

为达到上述目的，本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种通过声音确认口形的方法，所述方法包括：

从被测口腔发出的声音中，提取出所述被测口腔的声音特征数据；

将所述被测口腔的声音特征数据输入第一口形的概率模型，获取所述被测口腔符合所述第一口形的概率值P1；将所述被测口腔的声音特征数据输入第二口形的概率模型，获取所述被测口腔符合所述第二口形的概率值P2；

根据所述P1和P2的数值对比，确定所述被测口腔的口形。

上述方案中，所述从被测口腔发出的声音中，提取所述被测口腔的声音特征数据，包括：

对所述声音进行噪音过滤处理；

将噪音过滤处理后的所述声音提取出梅尔频率倒谱系数MFCC表示的所述被测口腔的声音特征数据。

上述方案中，在所述将所述被测口腔的声音特征数据输入第一口形的概率模型，获取所述被测口腔符合所述第一口形的概率值P1之前，所述方法还包括：

将预设数量的所述第一口形的样本口腔发出的声音，输入未知模型参数的概率模型中训练，确定所述第一口形的概率模型；

在所述将所述被测口腔的声音特征数据输入第二口形的概率模型，获取所述被测口腔符合所述第二口形的概率值P2之前，所述方法还包括：

将预设数量的所述第二口形的样本口腔发出的声音，输入未知模型参数的概率模型中训练，确定所述第二口形的概率模型。

上述方案中，所述将预设数量的所述第一口形的样本口腔发出的声音，输入未知模型参数的概率模型中训练，包括：

收集预设数量的从所述第一口形的样本口腔发出的声音，并从各个声音中分别提取出MFCC表示的所述第一口形的声音特征数据；将各个所述第一口形的声音特征数据输入未知模型参数的概率模型中训练，确定所述第一口形的概率模型的模型参数；

所述将预设数量的所述第二口形的样本口腔发出的声音，输入未知模型参数的概率模型中训练，包括：

收集预设数量的从所述第二口形的样本口腔发出的声音，并从各个声音中分别提取出MFCC表示的所述第二口形的声音特征数据；将各个所述第二口形的声音特征数据输入未知模型参数的概率模型中训练，确定所述第二口形的概率模型的模型参数。

本发明实施例还提供了一种通过声音确认口形的装置，所述装置包括提取模块、第一获取模块、第二获取模块和第一确定模块；其中，

所述提取模块，用于从被测口腔发出的声音中，提取出所述被测口腔的声音特征数据；

所述第一获取模块，用于将所述被测口腔的声音特征数据输入第一口形的概率模型，获取所述被测口腔的声音特征数据符合所述第一口形的概率值P1；

所述第二获取模块，用于将所述被测口腔的声音特征数据输入第二口形的概率模型，获取所述被测口腔的声音特征数据符合所述第二口形的概率值P2；

所述第一确定模块，用于根据所述P1和P2的数值对比，确定所述被测口腔的口形。

上述方案中，所述提取模块，具体用于：

对所述声音进行噪音过滤处理；

上述方案中，所述装置还包括第二确定模块和第三确定模块，所述第二确定模块用于：

在所述将所述被测口腔的声音特征数据输入第一口形的概率模型，获取所述被测口腔符合所述第一口形的概率值P1之前，将预设数量的所述第一口形的样本口腔发出的声音，输入未知模型参数的概率模型中训练，确定所述第一口形的概率模型；

所述第三确定模块用于：

在所述将所述被测口腔的声音特征数据输入第二口形的概率模型，获取所述被测口腔符合所述第二口形的概率值P2之前，将预设数量的所述第二口形的样本口腔发出的声音，输入未知模型参数的概率模型中训练，确定所述第二口形的概率模型。

上述方案中，所述第二确定模块还用于：

所述第三确定模块还用于：

本发明实施例还提供了一种设备，所述设备包括：存储器、通信总线和处理器，其中：

所述存储器，用于存储通过声音确认口形的方法程序；

所述通信总线，用于实现所述存储器和所述处理器之间的连接通信；

所述处理器，用于执行存储器中存储的通过声音确认口形的方法程序，以实现上面所述的任意一种通过声音确认口形方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有可执行程序，所述可执行程序被处理器执行时实现上面所述的任意一种通过声音确认口形方法的步骤。

本发明实施例的通过声音确认口形的方法、装置、设备及存储介质，包括从被测口腔发出的声音中，提取出所述被测口腔的声音特征数据；将所述被测口腔的声音特征数据输入第一口形的概率模型，获取所述被测口腔的声音特征数据符合所述第一口形的概率值P1；将所述被测口腔的声音特征数据输入第二口形的概率模型，获取所述被测口腔的声音特征数据符合所述第二口形的概率值P2；根据所述P1和P2的数值对比，确定所述被测口腔的口形；可见，本发明实施例的通过声音确认口形的方法、装置、设备及存储介质，通过将被测口腔发出的声音分别输入两种不同口形的概率模型中，并通过比较两者的概率值确定被测口腔的口形。

本发明实施例的其他有益效果将在具体实施方式中结合具体技术方案进一步说明。

附图说明

图1为本发明实施例一通过声音确认口形的方法的流程示意图；

图2为本发明实施例一通过声音确认口形的方法中提取MFCC表示的所述被测口腔的声音特征数据的流程示意图；

图3为本发明实施例一通过声音确认口形的方法中计算高斯混合模型中模型参数的流程示意图；

图4为本发明实施例二通过声音确认口形的装置的结构示意图；

图5为本发明实施例三幼儿园晨检设备的结构示意图。

具体实施方式

本发明实施例提供了一种通过声音确认口形的方法，所述方法包括：从被测口腔发出的声音中提取出所述被测口腔的声音特征数据；将所述被测口腔的声音特征数据输入第一口形的概率模型，获取所述被测口腔的声音特征数据符合所述第一口形的概率值P1；将所述被测口腔的声音特征数据输入第二口形的概率模型，获取所述被测口腔的声音特征数据符合所述第二口形的概率值P2；根据所述P1和P2的数值对比，确定所述被测口腔的口形。

本发明的通过声音确认口形的方法、装置、设备及存储介质，通过将被测口腔发出的声音分别输入两种不同口形的概率模型中，并通过比较两者的概率值确定被测口腔的口形。

以下结合附图及具体实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例一

图1为本发明实施例一通过声音确认口形的方法的流程示意图，所述方法可以由自动化晨检设备实现；如图1所示，所述方法包括：

步骤101：从被测口腔发出的声音中，提取出所述被测口腔的声音特征数据；

这里，被检测口腔即需要在自动化晨检设备上检测的用户，一般是幼儿园学生的口腔，为了更方便的确认口形，会要求被检测者发出声音，类似患者去医院检测口腔，医生会让患者发出“啊”的声音。通过声音确认口形的优点在于：

1)在确认口形的处理过程中，除了通过图像处理确认，也通过声音辅助判断，使确认口形的准确率更高；

2)在小型设备上，朝向被检测者的检测面板空间有限，无法布置很多的检测部件，这样可以用声音录取部件替代一部分摄像部件；

3)在光线不够的场合，通过声音确认口形，可能准确度更高。

这里的自动化晨检设备，会有摄像部件扫描所述用户的口腔，同时也有录音部件录下用户口腔发出的声音，在自动化晨检设备的后台一般设置高性能的计算机设备，对摄像部件摄取的和录音部件录取的内容进行处理，当然，自动化晨检设备可能还有其它检测或提示的部件，由于和本专利无关，不作展开。

在一种实施方式中，所述从被测口腔发出的声音中，提取所述被测口腔的声音特征数据，可以包括：

对所述声音进行噪音过滤处理；

将噪音过滤处理后的所述声音提取出梅尔频率倒谱系数(MFCC，Mel FrequencyCepstral Coefficents)表示的所述被测口腔的声音特征数据。

MFCC是基于人耳听觉特性的，梅尔频率倒谱频带划分是在梅尔刻度(mel scale)刻度上等距划分的，频率的尺度值与实际频率的对数分布关系更符合人耳的听觉特性，所以可以使得语音信号有着更好的表示。且MFCC表示的所述被测口腔的声音特征数据是一种动态特征向量数据，更容易通过计算机处理。

具体地，将噪音过滤处理后的所述声音提取出MFCC表示的所述被测口腔的声音特征数据，包括如图2所示的步骤，包括：

步骤1011：预加重、分帧和加窗；

步骤1012：快速傅氏变换(FFT，Fast Fourier Transform)；

步骤1013：梅尔滤波；

步骤1014：取对数；

步骤1015：离散余弦变换(DCT，Discrete cosine transform)；

步骤1016：获得动态MFCC(Delta MFCC)。

步骤102：将所述被测口腔的声音特征数据输入第一口形的概率模型，获取所述被测口腔的声音特征数据符合所述第一口形的概率值P1；将所述被测口腔的声音特征数据输入第二口形的概率模型，获取所述被测口腔的声音特征数据符合所述第二口形的概率值P2；

这里，所述第一口形是嘴张大的口形，即发出“啊”声音的口形，所述第二口形是嘴张的不够大的口形，即可能是发出“额”声音的口形；

所述第一口形的概率模型，是对所述被测口腔的声音特征数据属于第一口形的概率的判断，所述第二口形的概率模型，是对所述被测口腔的声音特征数据属于第二口形的概率的判断；因为对检测口腔来说，需要嘴张的足够大，因此，为简化处理，本实施例中，将口形分为第一口形和第二口形两种，嘴张的不足够大的都属于第二口形，但是每个人的口形及发出的声音不太一样，因此只能计算出属于第一口形或第二口形的概率值P1或P2，再通过概率值的大小确定是什么口形。

在一种实施方式中，在所述将所述被测口腔的声音特征数据输入第一口形的概率模型，获取所述被测口腔的声音特征数据符合所述第一口形的概率值P1之前，所述方法还可以包括：

所述第一口形的概率模型是将预设数量的所述第一口形的样本口腔发出的声音，输入未知模型参数的概率模型中训练得到，所述第一口形的样本口腔发出的声音，即已知口形的样本，预设数量即样本数量，一般样本数量需要比较多，这样建立的概率模型才更准，理论上数量越多越好，但是为了节省训练时间，一般收集1000个样本以上即可满足使用要求，1000个样本中，可以是500个口形正确的，500个口形不正确的。

在一种实施方式中，在所述将所述被测口腔的声音特征数据输入第二口形的概率模型，获取所述被测口腔的声音特征数据符合所述第二口形的概率值P2之前，所述方法还可以包括：

同所述第一口形的概率模型，所述第二口形的概率模型也是通过很多样本训练的。

具体地，所述概率模型为高斯混合模型(GMM，Gaussian Mixed Model)，所述GMM可以用下列表达式(1)表示：

其中，P(y│θ)为概率值，α_k是系数，α_k≥0，且有：

φ(y|θ_k)是高斯分布密度函数，参数θ_k为：

φ(y|θ_k)可以用下列表达式(4)表示：

φ(y|θ_k)被称为第K个分模型，其中，μ_k表示该分模型的均值参数，σ_k ²表示该分模型的方差参数。一般地，可以设置5个或6个分模型，即K等于5或6。

用已知口形的样本训练未知模型参数的GMM，可以通过期望最大化算法(EM，Expectation Maximization Algorithm)，即将已知口形的样本作为观测数据，y_j(i＝1，2，3……N)，y_j为样本的MFCC特征，训练步骤如图3所示，包括：

步骤1021：对各个GMM的分模型的分别取参数的初始值开始迭代；取参数的初始值开始迭代，均值参数μ_k随机选取样本中的一组数据作为初始值，协方差参数统一使用单位矩阵作为初始值，系数参数α_k为随机0到1作为初始值。

步骤1022：E步，依据当前模型参数，计算分模型k对观测数据y_j的响应度，计算可以通过下列的表达式(5)：

步骤1023：M步，计算新一轮迭代的模型参数，计算可以通过下列的表达式(6)、(7)、(8)进行：

表示当前模型计算出的模型参数，如果模型参数未收敛，则继续执行步骤1022和步骤1023，直至模型参数收敛。由于本实施例中的数据差异不大，在实际实施中，经过15000次迭代就开始收敛了，当然在不同的样本中，迭代次数可能会差别很大。

通过以上步骤，可以分别计算出所述第一口形的概率模型和所述第二口形的概率模型的模型参数，即建立所述第一口形的概率模型和所述第二口形的概率模型。

步骤103：根据所述P1和P2的数值对比，确定所述被测口腔的口形。

由于本实施例的概率模型只设计有两种口形，因此确定所述被测口腔的口形，不是给出一个具体的口形定义，而是确定是属于第一口形或第二口形中的哪一种，即做选择题。

相比根据一个口形的概率模型中的概率值确定是否属于该口形，通过同一种声音在两个口形概率模型中的概率值对比，确定属于哪一种口形，准确度更高。

实施例二

图4为本发明实施例二通过声音确认口形的装置的结构示意图，如图4所示，所述装置200包括提取模块201、第一获取模块202、第二获取模块203和第一确定模块204；其中，

所述提取模块201，用于从被测口腔发出的声音中，提取出所述被测口腔的声音特征数据；

所述第一获取模块202，用于将所述被测口腔的声音特征数据输入第一口形的概率模型，获取所述被测口腔的声音特征数据符合所述第一口形的概率值P1；

所述第二获取模块203，用于将所述被测口腔的声音特征数据输入第二口形的概率模型，获取所述被测口腔的声音特征数据符合所述第二口形的概率值P2；

所述第一确定模块204，用于根据所述P1和P2的数值对比，确定所述被测口腔的口形。

在一种实施方式中，所述提取模块201，具体用于：

对所述声音进行噪音过滤处理；

在一种实施方式中，所述装置200还包括第二确定模块205和第三确定模块206，所述第二确定模块205用于：

所述第三确定模块206用于：

在一种实施方式中，所述第二确定模块205还用于：

在一种实施方式中，所述第三确定模块206还用于：

本发明实施例中的装置200可以为设置在自动化晨检设备中的装置，也可以为与自动化晨检设备连接且通信的独立装置。

在一些实施例中，本发明实施例的装置200可以用于执行上述实施例中所描述的通过声音确认口形的方法，当然也可以包括用于执行上述实施例所描述的通过声音确认口形的方法中的任意流程和/或步骤的模块，为了简洁，不再赘述。

以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本发明装置实施例中未披露的技术细节，请参照本发明方法实施例的描述而理解。

本发明实施例所包括的各模块，可以通过自动化晨检设备中的处理器来实现；当然也可通过自动化晨检设备中的逻辑电路实现；在实施的过程中，处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)或现场可编程门阵列(FPGA)等。

实施例三

如图5所示，本发明实施例还提供了一种自动化晨检设备，所述设备300包括：存储器301、通信总线302和处理器303，其中：

所述存储器301，用于存储通过声音确认口形的方法程序；

所述通信总线302，用于实现所述存储器和所述处理器之间的连接通信；

所述处理器303，用于执行存储器中存储的通过声音确认口形的方法程序，以实现如实施例一所述的方法的步骤。

具体地，所述处理器可以是基于精简指令集计算机(RISC，Reduced InstructionSet Computer)架构的多核处理器；所述存储器可以是高容量的磁性存储器。

具体地，所述设备300还包括：外部通信接口304、检测部件305、显示屏306和声音录制部件307，其中：

所述外部通信接口304，可以用于与外部的终端通信，外部的终端包括服务器或客户端，所述外部通信接口304可以包括有线接口和无线接口；

所述检测部件305，可以是用于检测口腔症状的摄像部件，当然还可以包括检测其它身体部位症状的其它部件；

所述显示屏306，用于显示检测检测结果或查阅历史资料等；

所述声音录制部件307，用于将被测用户口腔发出的声音录制下来，并发送给所述处理器进行处理。

以上自动化晨检设备实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本实施例的自动化晨检设备中未披露的技术细节，请参照本发明中方法实施例的描述而理解。

实施例四

本发明实施例还提供了一种计算机可读存储介质，其上存储有可执行程序，所述可执行程序被处理器执行时实现如实施例一所述通过声音确认口形的方法的步骤。

所述计算机可读存储介质可以是高容量的磁性存储器。

以上计算机可读存储介质实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本实施例的计算机可读存储介质中未披露的技术细节，请参照本发明中方法实施例的描述而理解。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

需要说明的是，在本发明实施例记载中，除非另有说明和限定，术语“连接”应做广义理解，例如，可以是电连接，也可以是两个元件内部的连通，可以是直接相连，也可以通过中间媒介间接相连，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

需要说明的是，本发明实施例中如有涉及的术语“第一\第二\第三”，仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序。

应理解，说明书通篇中提到的“一实施例”或“一些实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一实施例中”或“在一些实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个模块或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或模块的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的模块可以是、或也可以不是物理上分开的，作为模块显示的部件可以是、或也可以不是物理模块；既可以位于一个地方，也可以分布到多个网络模块上；可以根据实际的需要选择其中的部分或全部模块来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能模块可以全部集成在一个处理模块中，也可以是各功能模块分别单独作为一个模块，也可以两个或两个以上功能模块集成在一个模块中；上述集成的模块既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。这样，本发明实施例不限制于任何特定的硬件和软件结合。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种通过声音确认口形的方法，其特征在于，所述方法包括：

根据所述P1和P2的数值对比，确定所述被测口腔的口形。

2.根据权利要求1所述的方法，其特征在于，所述从被测口腔发出的声音中，提取所述被测口腔的声音特征数据，包括：

对所述声音进行噪音过滤处理；

3.根据权利要求2所述的方法，其特征在于，在所述将所述被测口腔的声音特征数据输入第一口形的概率模型，获取所述被测口腔符合所述第一口形的概率值P1之前，所述方法还包括：

4.根据权利要求2或3所述的方法，其特征在于，所述将预设数量的所述第一口形的样本口腔发出的声音，输入未知模型参数的概率模型中训练，包括：

5.一种通过声音确认口形的装置，其特征在于，所述装置包括提取模块、第一获取模块、第二获取模块和第一确定模块；其中，

6.根据权利要求5所述的装置，其特征在于，所述提取模块，具体用于：

对所述声音进行噪音过滤处理；

7.根据权利要求6所述的装置，其特征在于，所述装置还包括所述第二确定模块和所述第三确定模块，所述第二确定模块用于：

所述第三确定模块用于：

8.根据权利要求7所述的装置，其特征在于，所述第二确定模块还用于：

所述第三确定模块还用于：

9.一种设备，其特征在于，所述设备包括：存储器、通信总线和处理器，其中：

所述存储器，用于存储通过声音确认口形的方法程序；

所述处理器，用于执行存储器中存储的通过声音确认口形的方法程序，以实现如权利要求1至4任一项所述的方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有可执行程序，所述可执行程序被处理器执行时实现如权利要求1至4任一项所述的方法的步骤。