CN110097873A - 一种通过声音确认口形的方法、装置、设备及存储介质 - Google Patents
一种通过声音确认口形的方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN110097873A CN110097873A CN201910397392.2A CN201910397392A CN110097873A CN 110097873 A CN110097873 A CN 110097873A CN 201910397392 A CN201910397392 A CN 201910397392A CN 110097873 A CN110097873 A CN 110097873A
- Authority
- CN
- China
- Prior art keywords
- mouth shape
- oral cavity
- sound
- characteristic data
- sound characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 210000000214 mouth Anatomy 0.000 claims abstract description 358
- 238000012549 training Methods 0.000 claims description 31
- 238000004891 communication Methods 0.000 claims description 15
- 238000001914 filtration Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 description 11
- 238000001514 detection method Methods 0.000 description 9
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 210000005069 ears Anatomy 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 208000025157 Oral disease Diseases 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000001061 forehead Anatomy 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 208000030194 mouth disease Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Probability & Statistics with Applications (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明公开了一种通过声音确认口形的方法、装置、设备及存储介质,所述方法包括从被测口腔发出的声音中,提取出所述被测口腔的声音特征数据;将所述被测口腔的声音特征数据输入第一口形的概率模型,获取所述被测口腔的声音特征数据符合所述第一口形的概率值P1;将所述被测口腔的声音特征数据输入第二口形的概率模型,获取所述被测口腔的声音特征数据符合所述第二口形的概率值P2;根据所述P1和P2的数值对比,确定所述被测口腔的口形。本发明的通过声音确认口形的方法、装置、设备及存储介质,能够确定幼儿在检测时的口形。
Description
技术领域
本发明涉及声音识别技术,具体涉及一种通过声音确认口形的方法、装置、设备及存储介质。
背景技术
为了提高检测效率及检测准确度,很多幼儿园在幼儿的入园晨检环节均采用自动化晨检设备。但是,自动化晨检设备在对幼儿进行口腔疾病检测时,幼儿嘴部是否张大对自动化晨检设备的检测结果影响很大。
发明内容
有鉴于此,本发明实施例期望提供一种通过声音确认口形的方法、装置、设备及存储介质,能够确定幼儿在检测时的口形。
为达到上述目的,本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种通过声音确认口形的方法,所述方法包括:
从被测口腔发出的声音中,提取出所述被测口腔的声音特征数据;
将所述被测口腔的声音特征数据输入第一口形的概率模型,获取所述被测口腔符合所述第一口形的概率值P1;将所述被测口腔的声音特征数据输入第二口形的概率模型,获取所述被测口腔符合所述第二口形的概率值P2;
根据所述P1和P2的数值对比,确定所述被测口腔的口形。
上述方案中,所述从被测口腔发出的声音中,提取所述被测口腔的声音特征数据,包括:
对所述声音进行噪音过滤处理;
将噪音过滤处理后的所述声音提取出梅尔频率倒谱系数MFCC表示的所述被测口腔的声音特征数据。
上述方案中,在所述将所述被测口腔的声音特征数据输入第一口形的概率模型,获取所述被测口腔符合所述第一口形的概率值P1之前,所述方法还包括:
将预设数量的所述第一口形的样本口腔发出的声音,输入未知模型参数的概率模型中训练,确定所述第一口形的概率模型;
在所述将所述被测口腔的声音特征数据输入第二口形的概率模型,获取所述被测口腔符合所述第二口形的概率值P2之前,所述方法还包括:
将预设数量的所述第二口形的样本口腔发出的声音,输入未知模型参数的概率模型中训练,确定所述第二口形的概率模型。
上述方案中,所述将预设数量的所述第一口形的样本口腔发出的声音,输入未知模型参数的概率模型中训练,包括:
收集预设数量的从所述第一口形的样本口腔发出的声音,并从各个声音中分别提取出MFCC表示的所述第一口形的声音特征数据;将各个所述第一口形的声音特征数据输入未知模型参数的概率模型中训练,确定所述第一口形的概率模型的模型参数;
所述将预设数量的所述第二口形的样本口腔发出的声音,输入未知模型参数的概率模型中训练,包括:
收集预设数量的从所述第二口形的样本口腔发出的声音,并从各个声音中分别提取出MFCC表示的所述第二口形的声音特征数据;将各个所述第二口形的声音特征数据输入未知模型参数的概率模型中训练,确定所述第二口形的概率模型的模型参数。
本发明实施例还提供了一种通过声音确认口形的装置,所述装置包括提取模块、第一获取模块、第二获取模块和第一确定模块;其中,
所述提取模块,用于从被测口腔发出的声音中,提取出所述被测口腔的声音特征数据;
所述第一获取模块,用于将所述被测口腔的声音特征数据输入第一口形的概率模型,获取所述被测口腔的声音特征数据符合所述第一口形的概率值P1;
所述第二获取模块,用于将所述被测口腔的声音特征数据输入第二口形的概率模型,获取所述被测口腔的声音特征数据符合所述第二口形的概率值P2;
所述第一确定模块,用于根据所述P1和P2的数值对比,确定所述被测口腔的口形。
上述方案中,所述提取模块,具体用于:
对所述声音进行噪音过滤处理;
将噪音过滤处理后的所述声音提取出梅尔频率倒谱系数MFCC表示的所述被测口腔的声音特征数据。
上述方案中,所述装置还包括第二确定模块和第三确定模块,所述第二确定模块用于:
在所述将所述被测口腔的声音特征数据输入第一口形的概率模型,获取所述被测口腔符合所述第一口形的概率值P1之前,将预设数量的所述第一口形的样本口腔发出的声音,输入未知模型参数的概率模型中训练,确定所述第一口形的概率模型;
所述第三确定模块用于:
在所述将所述被测口腔的声音特征数据输入第二口形的概率模型,获取所述被测口腔符合所述第二口形的概率值P2之前,将预设数量的所述第二口形的样本口腔发出的声音,输入未知模型参数的概率模型中训练,确定所述第二口形的概率模型。
上述方案中,所述第二确定模块还用于:
收集预设数量的从所述第一口形的样本口腔发出的声音,并从各个声音中分别提取出MFCC表示的所述第一口形的声音特征数据;将各个所述第一口形的声音特征数据输入未知模型参数的概率模型中训练,确定所述第一口形的概率模型的模型参数;
所述第三确定模块还用于:
收集预设数量的从所述第二口形的样本口腔发出的声音,并从各个声音中分别提取出MFCC表示的所述第二口形的声音特征数据;将各个所述第二口形的声音特征数据输入未知模型参数的概率模型中训练,确定所述第二口形的概率模型的模型参数。
本发明实施例还提供了一种设备,所述设备包括:存储器、通信总线和处理器,其中:
所述存储器,用于存储通过声音确认口形的方法程序;
所述通信总线,用于实现所述存储器和所述处理器之间的连接通信;
所述处理器,用于执行存储器中存储的通过声音确认口形的方法程序,以实现上面所述的任意一种通过声音确认口形方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有可执行程序,所述可执行程序被处理器执行时实现上面所述的任意一种通过声音确认口形方法的步骤。
本发明实施例的通过声音确认口形的方法、装置、设备及存储介质,包括从被测口腔发出的声音中,提取出所述被测口腔的声音特征数据;将所述被测口腔的声音特征数据输入第一口形的概率模型,获取所述被测口腔的声音特征数据符合所述第一口形的概率值P1;将所述被测口腔的声音特征数据输入第二口形的概率模型,获取所述被测口腔的声音特征数据符合所述第二口形的概率值P2;根据所述P1和P2的数值对比,确定所述被测口腔的口形;可见,本发明实施例的通过声音确认口形的方法、装置、设备及存储介质,通过将被测口腔发出的声音分别输入两种不同口形的概率模型中,并通过比较两者的概率值确定被测口腔的口形。
本发明实施例的其他有益效果将在具体实施方式中结合具体技术方案进一步说明。
附图说明
图1为本发明实施例一通过声音确认口形的方法的流程示意图;
图2为本发明实施例一通过声音确认口形的方法中提取MFCC表示的所述被测口腔的声音特征数据的流程示意图;
图3为本发明实施例一通过声音确认口形的方法中计算高斯混合模型中模型参数的流程示意图;
图4为本发明实施例二通过声音确认口形的装置的结构示意图;
图5为本发明实施例三幼儿园晨检设备的结构示意图。
具体实施方式
本发明实施例提供了一种通过声音确认口形的方法,所述方法包括:从被测口腔发出的声音中提取出所述被测口腔的声音特征数据;将所述被测口腔的声音特征数据输入第一口形的概率模型,获取所述被测口腔的声音特征数据符合所述第一口形的概率值P1;将所述被测口腔的声音特征数据输入第二口形的概率模型,获取所述被测口腔的声音特征数据符合所述第二口形的概率值P2;根据所述P1和P2的数值对比,确定所述被测口腔的口形。
本发明的通过声音确认口形的方法、装置、设备及存储介质,通过将被测口腔发出的声音分别输入两种不同口形的概率模型中,并通过比较两者的概率值确定被测口腔的口形。
以下结合附图及具体实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例一
图1为本发明实施例一通过声音确认口形的方法的流程示意图,所述方法可以由自动化晨检设备实现;如图1所示,所述方法包括:
步骤101:从被测口腔发出的声音中,提取出所述被测口腔的声音特征数据;
这里,被检测口腔即需要在自动化晨检设备上检测的用户,一般是幼儿园学生的口腔,为了更方便的确认口形,会要求被检测者发出声音,类似患者去医院检测口腔,医生会让患者发出“啊”的声音。通过声音确认口形的优点在于:
1)在确认口形的处理过程中,除了通过图像处理确认,也通过声音辅助判断,使确认口形的准确率更高;
2)在小型设备上,朝向被检测者的检测面板空间有限,无法布置很多的检测部件,这样可以用声音录取部件替代一部分摄像部件;
3)在光线不够的场合,通过声音确认口形,可能准确度更高。
这里的自动化晨检设备,会有摄像部件扫描所述用户的口腔,同时也有录音部件录下用户口腔发出的声音,在自动化晨检设备的后台一般设置高性能的计算机设备,对摄像部件摄取的和录音部件录取的内容进行处理,当然,自动化晨检设备可能还有其它检测或提示的部件,由于和本专利无关,不作展开。
在一种实施方式中,所述从被测口腔发出的声音中,提取所述被测口腔的声音特征数据,可以包括:
对所述声音进行噪音过滤处理;
将噪音过滤处理后的所述声音提取出梅尔频率倒谱系数(MFCC,Mel FrequencyCepstral Coefficents)表示的所述被测口腔的声音特征数据。
MFCC是基于人耳听觉特性的,梅尔频率倒谱频带划分是在梅尔刻度(mel scale)刻度上等距划分的,频率的尺度值与实际频率的对数分布关系更符合人耳的听觉特性,所以可以使得语音信号有着更好的表示。且MFCC表示的所述被测口腔的声音特征数据是一种动态特征向量数据,更容易通过计算机处理。
具体地,将噪音过滤处理后的所述声音提取出MFCC表示的所述被测口腔的声音特征数据,包括如图2所示的步骤,包括:
步骤1011:预加重、分帧和加窗;
步骤1012:快速傅氏变换(FFT,Fast Fourier Transform);
步骤1013:梅尔滤波;
步骤1014:取对数;
步骤1015:离散余弦变换(DCT,Discrete cosine transform);
步骤1016:获得动态MFCC(Delta MFCC)。
步骤102:将所述被测口腔的声音特征数据输入第一口形的概率模型,获取所述被测口腔的声音特征数据符合所述第一口形的概率值P1;将所述被测口腔的声音特征数据输入第二口形的概率模型,获取所述被测口腔的声音特征数据符合所述第二口形的概率值P2;
这里,所述第一口形是嘴张大的口形,即发出“啊”声音的口形,所述第二口形是嘴张的不够大的口形,即可能是发出“额”声音的口形;
所述第一口形的概率模型,是对所述被测口腔的声音特征数据属于第一口形的概率的判断,所述第二口形的概率模型,是对所述被测口腔的声音特征数据属于第二口形的概率的判断;因为对检测口腔来说,需要嘴张的足够大,因此,为简化处理,本实施例中,将口形分为第一口形和第二口形两种,嘴张的不足够大的都属于第二口形,但是每个人的口形及发出的声音不太一样,因此只能计算出属于第一口形或第二口形的概率值P1或P2,再通过概率值的大小确定是什么口形。
在一种实施方式中,在所述将所述被测口腔的声音特征数据输入第一口形的概率模型,获取所述被测口腔的声音特征数据符合所述第一口形的概率值P1之前,所述方法还可以包括:
将预设数量的所述第一口形的样本口腔发出的声音,输入未知模型参数的概率模型中训练,确定所述第一口形的概率模型;
所述第一口形的概率模型是将预设数量的所述第一口形的样本口腔发出的声音,输入未知模型参数的概率模型中训练得到,所述第一口形的样本口腔发出的声音,即已知口形的样本,预设数量即样本数量,一般样本数量需要比较多,这样建立的概率模型才更准,理论上数量越多越好,但是为了节省训练时间,一般收集1000个样本以上即可满足使用要求,1000个样本中,可以是500个口形正确的,500个口形不正确的。
在一种实施方式中,在所述将所述被测口腔的声音特征数据输入第二口形的概率模型,获取所述被测口腔的声音特征数据符合所述第二口形的概率值P2之前,所述方法还可以包括:
将预设数量的所述第二口形的样本口腔发出的声音,输入未知模型参数的概率模型中训练,确定所述第二口形的概率模型。
同所述第一口形的概率模型,所述第二口形的概率模型也是通过很多样本训练的。
具体地,所述概率模型为高斯混合模型(GMM,Gaussian Mixed Model),所述GMM可以用下列表达式(1)表示:
其中,P(y│θ)为概率值,αk是系数,αk≥0,且有:
φ(y|θk)是高斯分布密度函数,参数θk为:
φ(y|θk)可以用下列表达式(4)表示:
φ(y|θk)被称为第K个分模型,其中,μk表示该分模型的均值参数,σk 2表示该分模型的方差参数。一般地,可以设置5个或6个分模型,即K等于5或6。
用已知口形的样本训练未知模型参数的GMM,可以通过期望最大化算法(EM,Expectation Maximization Algorithm),即将已知口形的样本作为观测数据,yj(i=1,2,3……N),yj为样本的MFCC特征,训练步骤如图3所示,包括:
步骤1021:对各个GMM的分模型的分别取参数的初始值开始迭代;取参数的初始值开始迭代,均值参数μk随机选取样本中的一组数据作为初始值,协方差参数统一使用单位矩阵作为初始值,系数参数αk为随机0到1作为初始值。
步骤1022:E步,依据当前模型参数,计算分模型k对观测数据yj的响应度,计算可以通过下列的表达式(5):
步骤1023:M步,计算新一轮迭代的模型参数,计算可以通过下列的表达式(6)、(7)、(8)进行:
表示当前模型计算出的模型参数,如果模型参数未收敛,则继续执行步骤1022和步骤1023,直至模型参数收敛。由于本实施例中的数据差异不大,在实际实施中,经过15000次迭代就开始收敛了,当然在不同的样本中,迭代次数可能会差别很大。
通过以上步骤,可以分别计算出所述第一口形的概率模型和所述第二口形的概率模型的模型参数,即建立所述第一口形的概率模型和所述第二口形的概率模型。
步骤103:根据所述P1和P2的数值对比,确定所述被测口腔的口形。
由于本实施例的概率模型只设计有两种口形,因此确定所述被测口腔的口形,不是给出一个具体的口形定义,而是确定是属于第一口形或第二口形中的哪一种,即做选择题。
相比根据一个口形的概率模型中的概率值确定是否属于该口形,通过同一种声音在两个口形概率模型中的概率值对比,确定属于哪一种口形,准确度更高。
实施例二
图4为本发明实施例二通过声音确认口形的装置的结构示意图,如图4所示,所述装置200包括提取模块201、第一获取模块202、第二获取模块203和第一确定模块204;其中,
所述提取模块201,用于从被测口腔发出的声音中,提取出所述被测口腔的声音特征数据;
所述第一获取模块202,用于将所述被测口腔的声音特征数据输入第一口形的概率模型,获取所述被测口腔的声音特征数据符合所述第一口形的概率值P1;
所述第二获取模块203,用于将所述被测口腔的声音特征数据输入第二口形的概率模型,获取所述被测口腔的声音特征数据符合所述第二口形的概率值P2;
所述第一确定模块204,用于根据所述P1和P2的数值对比,确定所述被测口腔的口形。
在一种实施方式中,所述提取模块201,具体用于:
对所述声音进行噪音过滤处理;
将噪音过滤处理后的所述声音提取出梅尔频率倒谱系数MFCC表示的所述被测口腔的声音特征数据。
在一种实施方式中,所述装置200还包括第二确定模块205和第三确定模块206,所述第二确定模块205用于:
在所述将所述被测口腔的声音特征数据输入第一口形的概率模型,获取所述被测口腔符合所述第一口形的概率值P1之前,将预设数量的所述第一口形的样本口腔发出的声音,输入未知模型参数的概率模型中训练,确定所述第一口形的概率模型;
所述第三确定模块206用于:
在所述将所述被测口腔的声音特征数据输入第二口形的概率模型,获取所述被测口腔符合所述第二口形的概率值P2之前,将预设数量的所述第二口形的样本口腔发出的声音,输入未知模型参数的概率模型中训练,确定所述第二口形的概率模型。
在一种实施方式中,所述第二确定模块205还用于:
收集预设数量的从所述第一口形的样本口腔发出的声音,并从各个声音中分别提取出MFCC表示的所述第一口形的声音特征数据;将各个所述第一口形的声音特征数据输入未知模型参数的概率模型中训练,确定所述第一口形的概率模型的模型参数;
在一种实施方式中,所述第三确定模块206还用于:
收集预设数量的从所述第二口形的样本口腔发出的声音,并从各个声音中分别提取出MFCC表示的所述第二口形的声音特征数据;将各个所述第二口形的声音特征数据输入未知模型参数的概率模型中训练,确定所述第二口形的概率模型的模型参数。
本发明实施例中的装置200可以为设置在自动化晨检设备中的装置,也可以为与自动化晨检设备连接且通信的独立装置。
在一些实施例中,本发明实施例的装置200可以用于执行上述实施例中所描述的通过声音确认口形的方法,当然也可以包括用于执行上述实施例所描述的通过声音确认口形的方法中的任意流程和/或步骤的模块,为了简洁,不再赘述。
以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本发明装置实施例中未披露的技术细节,请参照本发明方法实施例的描述而理解。
本发明实施例所包括的各模块,可以通过自动化晨检设备中的处理器来实现;当然也可通过自动化晨检设备中的逻辑电路实现;在实施的过程中,处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)或现场可编程门阵列(FPGA)等。
实施例三
如图5所示,本发明实施例还提供了一种自动化晨检设备,所述设备300包括:存储器301、通信总线302和处理器303,其中:
所述存储器301,用于存储通过声音确认口形的方法程序;
所述通信总线302,用于实现所述存储器和所述处理器之间的连接通信;
所述处理器303,用于执行存储器中存储的通过声音确认口形的方法程序,以实现如实施例一所述的方法的步骤。
具体地,所述处理器可以是基于精简指令集计算机(RISC,Reduced InstructionSet Computer)架构的多核处理器;所述存储器可以是高容量的磁性存储器。
具体地,所述设备300还包括:外部通信接口304、检测部件305、显示屏306和声音录制部件307,其中:
所述外部通信接口304,可以用于与外部的终端通信,外部的终端包括服务器或客户端,所述外部通信接口304可以包括有线接口和无线接口;
所述检测部件305,可以是用于检测口腔症状的摄像部件,当然还可以包括检测其它身体部位症状的其它部件;
所述显示屏306,用于显示检测检测结果或查阅历史资料等;
所述声音录制部件307,用于将被测用户口腔发出的声音录制下来,并发送给所述处理器进行处理。
以上自动化晨检设备实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本实施例的自动化晨检设备中未披露的技术细节,请参照本发明中方法实施例的描述而理解。
实施例四
本发明实施例还提供了一种计算机可读存储介质,其上存储有可执行程序,所述可执行程序被处理器执行时实现如实施例一所述通过声音确认口形的方法的步骤。
所述计算机可读存储介质可以是高容量的磁性存储器。
以上计算机可读存储介质实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本实施例的计算机可读存储介质中未披露的技术细节,请参照本发明中方法实施例的描述而理解。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
需要说明的是,在本发明实施例记载中,除非另有说明和限定,术语“连接”应做广义理解,例如,可以是电连接,也可以是两个元件内部的连通,可以是直接相连,也可以通过中间媒介间接相连,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
需要说明的是,本发明实施例中如有涉及的术语“第一\第二\第三”,仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序。
应理解,说明书通篇中提到的“一实施例”或“一些实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一实施例中”或“在一些实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本发明的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个模块或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或模块的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的模块可以是、或也可以不是物理上分开的,作为模块显示的部件可以是、或也可以不是物理模块;既可以位于一个地方,也可以分布到多个网络模块上;可以根据实际的需要选择其中的部分或全部模块来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能模块可以全部集成在一个处理模块中,也可以是各功能模块分别单独作为一个模块,也可以两个或两个以上功能模块集成在一个模块中;上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。这样,本发明实施例不限制于任何特定的硬件和软件结合。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种通过声音确认口形的方法,其特征在于,所述方法包括:
从被测口腔发出的声音中,提取出所述被测口腔的声音特征数据;
将所述被测口腔的声音特征数据输入第一口形的概率模型,获取所述被测口腔符合所述第一口形的概率值P1;将所述被测口腔的声音特征数据输入第二口形的概率模型,获取所述被测口腔符合所述第二口形的概率值P2;
根据所述P1和P2的数值对比,确定所述被测口腔的口形。
2.根据权利要求1所述的方法,其特征在于,所述从被测口腔发出的声音中,提取所述被测口腔的声音特征数据,包括:
对所述声音进行噪音过滤处理;
将噪音过滤处理后的所述声音提取出梅尔频率倒谱系数MFCC表示的所述被测口腔的声音特征数据。
3.根据权利要求2所述的方法,其特征在于,在所述将所述被测口腔的声音特征数据输入第一口形的概率模型,获取所述被测口腔符合所述第一口形的概率值P1之前,所述方法还包括:
将预设数量的所述第一口形的样本口腔发出的声音,输入未知模型参数的概率模型中训练,确定所述第一口形的概率模型;
在所述将所述被测口腔的声音特征数据输入第二口形的概率模型,获取所述被测口腔符合所述第二口形的概率值P2之前,所述方法还包括:
将预设数量的所述第二口形的样本口腔发出的声音,输入未知模型参数的概率模型中训练,确定所述第二口形的概率模型。
4.根据权利要求2或3所述的方法,其特征在于,所述将预设数量的所述第一口形的样本口腔发出的声音,输入未知模型参数的概率模型中训练,包括:
收集预设数量的从所述第一口形的样本口腔发出的声音,并从各个声音中分别提取出MFCC表示的所述第一口形的声音特征数据;将各个所述第一口形的声音特征数据输入未知模型参数的概率模型中训练,确定所述第一口形的概率模型的模型参数;
所述将预设数量的所述第二口形的样本口腔发出的声音,输入未知模型参数的概率模型中训练,包括:
收集预设数量的从所述第二口形的样本口腔发出的声音,并从各个声音中分别提取出MFCC表示的所述第二口形的声音特征数据;将各个所述第二口形的声音特征数据输入未知模型参数的概率模型中训练,确定所述第二口形的概率模型的模型参数。
5.一种通过声音确认口形的装置,其特征在于,所述装置包括提取模块、第一获取模块、第二获取模块和第一确定模块;其中,
所述提取模块,用于从被测口腔发出的声音中,提取出所述被测口腔的声音特征数据;
所述第一获取模块,用于将所述被测口腔的声音特征数据输入第一口形的概率模型,获取所述被测口腔的声音特征数据符合所述第一口形的概率值P1;
所述第二获取模块,用于将所述被测口腔的声音特征数据输入第二口形的概率模型,获取所述被测口腔的声音特征数据符合所述第二口形的概率值P2;
所述第一确定模块,用于根据所述P1和P2的数值对比,确定所述被测口腔的口形。
6.根据权利要求5所述的装置,其特征在于,所述提取模块,具体用于:
对所述声音进行噪音过滤处理;
将噪音过滤处理后的所述声音提取出梅尔频率倒谱系数MFCC表示的所述被测口腔的声音特征数据。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括所述第二确定模块和所述第三确定模块,所述第二确定模块用于:
在所述将所述被测口腔的声音特征数据输入第一口形的概率模型,获取所述被测口腔符合所述第一口形的概率值P1之前,将预设数量的所述第一口形的样本口腔发出的声音,输入未知模型参数的概率模型中训练,确定所述第一口形的概率模型;
所述第三确定模块用于:
在所述将所述被测口腔的声音特征数据输入第二口形的概率模型,获取所述被测口腔符合所述第二口形的概率值P2之前,将预设数量的所述第二口形的样本口腔发出的声音,输入未知模型参数的概率模型中训练,确定所述第二口形的概率模型。
8.根据权利要求7所述的装置,其特征在于,所述第二确定模块还用于:
收集预设数量的从所述第一口形的样本口腔发出的声音,并从各个声音中分别提取出MFCC表示的所述第一口形的声音特征数据;将各个所述第一口形的声音特征数据输入未知模型参数的概率模型中训练,确定所述第一口形的概率模型的模型参数;
所述第三确定模块还用于:
收集预设数量的从所述第二口形的样本口腔发出的声音,并从各个声音中分别提取出MFCC表示的所述第二口形的声音特征数据;将各个所述第二口形的声音特征数据输入未知模型参数的概率模型中训练,确定所述第二口形的概率模型的模型参数。
9.一种设备,其特征在于,所述设备包括:存储器、通信总线和处理器,其中:
所述存储器,用于存储通过声音确认口形的方法程序;
所述通信总线,用于实现所述存储器和所述处理器之间的连接通信;
所述处理器,用于执行存储器中存储的通过声音确认口形的方法程序,以实现如权利要求1至4任一项所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有可执行程序,所述可执行程序被处理器执行时实现如权利要求1至4任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910397392.2A CN110097873B (zh) | 2019-05-14 | 2019-05-14 | 一种通过声音确认口形的方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910397392.2A CN110097873B (zh) | 2019-05-14 | 2019-05-14 | 一种通过声音确认口形的方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110097873A true CN110097873A (zh) | 2019-08-06 |
CN110097873B CN110097873B (zh) | 2021-08-17 |
Family
ID=67447982
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910397392.2A Active CN110097873B (zh) | 2019-05-14 | 2019-05-14 | 一种通过声音确认口形的方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110097873B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105657044A (zh) * | 2016-02-18 | 2016-06-08 | 苏州沃柯雷克智能系统有限公司 | 一种晨检设备 |
CN106297792A (zh) * | 2016-09-14 | 2017-01-04 | 厦门幻世网络科技有限公司 | 一种语音口型动画的识别方法及装置 |
CN108229552A (zh) * | 2017-12-29 | 2018-06-29 | 咪咕文化科技有限公司 | 一种模型处理方法、装置及存储介质 |
KR20190046371A (ko) * | 2017-10-26 | 2019-05-07 | 에스케이텔레콤 주식회사 | 얼굴 표정 생성 장치 및 방법 |
-
2019
- 2019-05-14 CN CN201910397392.2A patent/CN110097873B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105657044A (zh) * | 2016-02-18 | 2016-06-08 | 苏州沃柯雷克智能系统有限公司 | 一种晨检设备 |
CN106297792A (zh) * | 2016-09-14 | 2017-01-04 | 厦门幻世网络科技有限公司 | 一种语音口型动画的识别方法及装置 |
KR20190046371A (ko) * | 2017-10-26 | 2019-05-07 | 에스케이텔레콤 주식회사 | 얼굴 표정 생성 장치 및 방법 |
CN108229552A (zh) * | 2017-12-29 | 2018-06-29 | 咪咕文化科技有限公司 | 一种模型处理方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110097873B (zh) | 2021-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11655622B2 (en) | Smart toilet and electric appliance system | |
CN106683680B (zh) | 说话人识别方法及装置、计算机设备及计算机可读介质 | |
CN109584884B (zh) | 一种语音身份特征提取器、分类器训练方法及相关设备 | |
CN109273085B (zh) | 病理呼吸音库的建立方法、呼吸疾病的检测系统及处理呼吸音的方法 | |
JP2021526242A (ja) | 保険の録音による品質検査方法、装置、機器及びコンピュータ記憶媒体 | |
US10157619B2 (en) | Method and device for searching according to speech based on artificial intelligence | |
CN108369813A (zh) | 特定声音识别方法、设备和存储介质 | |
CN112971802B (zh) | 基于深度学习模型的心音信号检测方法及系统 | |
WO2019023879A1 (zh) | 咳嗽声音识别方法、设备和存储介质 | |
WO2022127042A1 (zh) | 基于语音识别的考试作弊识别方法、装置及计算机设备 | |
CN113223536B (zh) | 声纹识别方法、装置及终端设备 | |
CN111261195A (zh) | 音频测试方法、装置、存储介质及电子设备 | |
Xia et al. | Exploring machine learning for audio-based respiratory condition screening: A concise review of databases, methods, and open issues | |
CN113243918B (zh) | 基于多模态隐匿信息测试的风险检测方法及装置 | |
CN111951828B (zh) | 发音测评方法、装置、系统、介质和计算设备 | |
CN110897634A (zh) | 一种基于生成对抗网络的心电信号生成方法 | |
CN109754822A (zh) | 建立阿兹海默症检测模型的方法和装置 | |
CN112382302A (zh) | 婴儿哭声识别方法及终端设备 | |
CN117423338A (zh) | 一种数字人交互对话方法和系统 | |
CN110097873B (zh) | 一种通过声音确认口形的方法、装置、设备及存储介质 | |
Engin et al. | Extraction of low-dimensional features for single-channel common lung sound classification | |
JP6854554B1 (ja) | 情報処理装置、情報処理方法、情報処理システム、及び情報処理プログラム | |
CN113409771A (zh) | 一种伪造音频的检测方法及其检测系统和存储介质 | |
CN113724731A (zh) | 利用音频判别模型进行音频判别的方法和装置 | |
WO2024131025A1 (zh) | 数据处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |