CN110033772A - 基于ppg信号的非声学语音信息检测装置 - Google Patents
基于ppg信号的非声学语音信息检测装置 Download PDFInfo
- Publication number
- CN110033772A CN110033772A CN201910349272.5A CN201910349272A CN110033772A CN 110033772 A CN110033772 A CN 110033772A CN 201910349272 A CN201910349272 A CN 201910349272A CN 110033772 A CN110033772 A CN 110033772A
- Authority
- CN
- China
- Prior art keywords
- signal
- ppg
- detection device
- ppg signal
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 77
- 230000033001 locomotion Effects 0.000 claims abstract description 31
- 230000000694 effects Effects 0.000 claims abstract description 28
- 239000000523 sample Substances 0.000 claims description 96
- 238000000605 extraction Methods 0.000 claims description 40
- 230000003750 conditioning effect Effects 0.000 claims description 20
- 238000006243 chemical reaction Methods 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 16
- 230000003321 amplification Effects 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 4
- 230000002123 temporal effect Effects 0.000 claims description 3
- 230000003993 interaction Effects 0.000 abstract description 5
- 230000002452 interceptive effect Effects 0.000 abstract description 4
- 238000013186 photoplethysmography Methods 0.000 abstract description 3
- 230000005622 photoelectricity Effects 0.000 abstract description 2
- 238000000034 method Methods 0.000 description 25
- 230000008569 process Effects 0.000 description 20
- 238000005070 sampling Methods 0.000 description 20
- 238000012545 processing Methods 0.000 description 17
- 230000006870 function Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 5
- 230000001815 facial effect Effects 0.000 description 4
- 241000746998 Tragus Species 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000002567 electromyography Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000013441 quality evaluation Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 210000003128 head Anatomy 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 210000000214 mouth Anatomy 0.000 description 2
- 229910052760 oxygen Inorganic materials 0.000 description 2
- 239000001301 oxygen Substances 0.000 description 2
- 230000001020 rhythmical effect Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 108010054147 Hemoglobins Proteins 0.000 description 1
- 102000001554 Hemoglobins Human genes 0.000 description 1
- 108010064719 Oxyhemoglobins Proteins 0.000 description 1
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 206010052428 Wound Diseases 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 210000001367 artery Anatomy 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 210000004204 blood vessel Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000036387 respiratory rate Effects 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 210000003462 vein Anatomy 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明提供一种基于PPG(光电容积脉搏描记,Photoplethysmography)信号的非声学语音信息检测装置。所述检测装置包括PPG信号采集模块和信息检测模块,所述PPG信号采集模块用于采集PPG信号,所述信息检测模块与所述PPG信号采集模块相连接,用于截取含有与语音活动相关的运动伪迹信号段,并从所述信号段中检测出非声学语音信息。采用本发明的基于PPG信号的非声学语音信息检测装置,使用者只需要做出说话的动作而无需发出声音即可与机器进行交互或者进行语音信息的传达。因而,本发明可以有效辅助语言障碍者通过语言活动进行人机交互,或者帮助使用者通过语言活动发布信息和控制指令保密,用户体验舒适度、语音交互私密性和强噪声环境下的信息检测准确度大大提高。
Description
技术领域
本发明涉及人机交互和非声学语音识别领域,特别是涉及一种基于PPG信号的非声学语音信息检测装置。
背景技术
语音最主要的两部分信息包括语义信息和语音个性化信息。现有的抗噪语音传输及识别装置主要有三大类:喉部送话器、唇动识别和面部肌电信号(EMG,electromyography)装置。喉部送话器是将检测装置放在人体的喉部,通过检测声带振动来还原语音;唇动识别则是一种通过采集个体面部图像的唇部动作识别及跟踪的语音识别方法,类似于人们在交流时无意识地读取对方唇语来辅助语音理解;而基于个体面部肌电信号的语音检测技术则是将采样电极放置在体表,通过跟踪口部及下颌周围肌电图来判断说话人的语音内容。这几种装置各有其优点,适用于不同的人群和情境,但也各自存在不足。比如,喉部送话器等非空气传导探测技术需要紧贴人体皮肤,往往使人体活动受到限制且舒适度较低;唇动识别则由于唇型的变化易受环境光照、脸部运动和摄像头距离的影响,因而在复杂环境下所拟合出的唇形轮廓曲线并不准确,进而导致识别准确度下降;而面部肌电信号检测同样容易导致检测者的不适。故研究一种新的非声学语音信息检测装置,以尽量避免外来环境的干扰,提高客户体验度和检测的准确度实属必要。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种基于PPG(光电容积脉搏描记,Photoplethysmography)信号的非声学语音信息检测装置,用于解决现有的抗噪语音传输及识别装置存在的客户体验度差,容易受环境干扰,检测精度不高等问题。
为实现上述目的及其他相关目的,本发明提供一种基于PPG信号的非声学语音信息检测装置,包括PPG信号采集模块和信息检测模块,所述PPG信号采集模块用于采集PPG信号,所述信息检测模块与所述PPG信号采集模块相连接,用于从采集到的所述PPG信号中截取含有与语音活动相关的运动伪迹信号段,并从所述信号段中检测出非声学语音信息。
可选地,所述PPG信号采集模块包括PPG探头、信号调理单元和模数转换单元,所述信号调理单元与所述PPG探头相连接,用于对所述PPG探头采集到的PPG信号进行放大修正,所述模数转换单元与所述信号调理单元相连接,用于对经所述信号调理单元放大修正好的信号进行模数转换。
更可选地,所述PPG探头包括绿光、红光、黄光及红外光PPG探头中的一个或多个。
可选地,所述PPG信号采集模块与所述信息检测模块为无线连接。
可选地,所述信息检测模块适于采用基于希尔伯特黄变换的时频分析方法从采集到的所述PPG信号中截取含有与语音活动相关的运动伪迹信号段。
可选地,所述信息检测模块包括特征提取单元,用于对所述信号段进行特征提取以得到特征向量;以及非声学语音识别单元(即分类器),与所述特征提取单元相连接,用于识别出所述信号段中的非声学语音信息。
更可选地,所述特征包括时域特征、频域特征和时频变换特性中的一种或多种。
可选地,所述信息检测模块还包括预处理单元,所述预处理单元与所述PPG信号采集模块相连接,用于对采集的所述PPG信号进行预处理以提高所述PPG信号的信噪比,并将预处理后的PPG信号传送至所述特征提取单元。
可选地,所述预处理单元包括高斯滤波器。
可选地,所述预处理单元还适于采用滑动自相关算法以确定所述PPG信号采集模块采集的PPG信号是否正确。
可选地,所述检测装置还包括分类器训练模块,所述分类器训练模块包括PPG样本信号段获取单元、样本特征提取单元及训练单元;所述PPG样本信号段获取单元用于采集PPG样本信号,并从采集到的所述PPG样本信号中截取含有与语音活动相关的运动伪迹样本信号段;所述样本特征提取单元与所述PPG样本信号段获取单元相连接,用于从所述样本信号段中提取样本特征以建立对应语音的PPG运动伪迹信号的特征样本集;所述训练单元与所述特征样本集相连接,用于对经所述样本特征提取单元建立的对应语音信息的PPG运动伪迹信号的特征样本集进行有监督的学习以建立分类器。
如上所述,本发明的基于PPG信号的非声学语音信息检测装置,通过采集PPG信号并从PPG信号中提取出非声学语音信息,使用者只需要做出说话的动作而无需发出声音即可与机器进行交互或者进行语音信息的传达。因而,本发明可以有效辅助语言障碍者通过语言活动进行人机交互,或者帮助使用者通过语言活动发布信息和控制指令保密,用户体验舒适度、语音交互私密性和强噪声环境下的信息检测准确度大大提高。同时,本发明可用于缺乏传输介质,高噪声或内容需要保密的语音传输、语音控制的场景,如航天、军事、公安、消防、救灾等领域,以及车站、商场、酒吧等嘈杂的公共场所,本发明可有效克服各种环境下的噪声干扰,提高信息传达的准确性。
附图说明
图1显示为本发明的基于PPG信号的非声学语音信息检测装置的结构示意图。
图2显示为本发明的检测装置的另一结构例示图。
图3显示为本发明的检测装置的采样点示意图。
图4显示为本发明的检测装置的采样过程示意图。
图5显示为本发明的检测装置采集到的信号样本示意图。
元件标号说明
1 PPG信号采集模块
11 PPG探头
12 信号调理单元
13 模数转换单元
2 信息检测模块
4 电脑
101 第一采样区域
102 第二采样区域
103 第三采样区域
201 对耳屏
202 耳屏
203 耳甲腔
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
请参阅附图1至5。需要说明的是,本实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
光电容积脉搏波(Photoplethysmography,简称PPG)携带有人体生理特征信号,如心率、呼吸率、血氧饱和度等,它易受运动的干扰,因此,当PPG采样装置在头面部或耳内进行检测时,会因为人的语言活动而引入干扰。本申请的发明人在长期的实验过程中发现这种干扰跟语言内容有很大关联。进一步地,发明人通过长期实验,研究出了一种全新的基于PPG信号的非声学语音信息检测装置,通过采集PPG信号并从中提取出非声学语音信息,可以极大提高客户体验舒适度以及信息检测的准确度。
具体地,本发明的基于PPG信号的非声学语音信息检测装置包括PPG信号采集模块1和信息检测模块2,所述PPG信号采集模块1用于采集PPG信号,所述信息检测模块2与所述PPG信号采集模块1相连接,用于从采集到的所述PPG信号中截取含有与语音活动相关的运动伪迹信号段,并从所述信号段中检测出非声学语音信息。本发明通过采集PPG信号并从PPG信号中提取非声学语音信息,使用者只需要做出说话的动作而无需发出声音即可与机器进行交互或者进行语音信息的传达。因而,本发明可以有效辅助语言障碍者通过语言活动进行人机交互,或者帮助使用者通过语言活动发布信息和控制指令保密,用户体验舒适度、语音交互私密性和强噪声环境下的信息检测准确度大大提高。
作为示例,所述PPG信号采集模块1包括PPG探头11、信号调理单元12和模数转换单元13,所述信号调理单元12与所述PPG探头11相连接,用于对所述PPG探头11采集到的PPG信号进行修正,所述模数转换单元13与所述信号调理单元12相连接,用于对经所述信号调理单元12放大修正好的信号进行模数转换。
作为示例,所述PPG探头优选但不限于绿光、红光、黄光及红外光PPG探头中的一种或多种,且优选绿光探头,因为绿光相对更容易穿过皮肤组织,更容易被氧合血红蛋白和脱氧血红蛋白吸收,故有利于提高采集信号的信噪比。所述PPG探头11包括一个或多个,在所述PPG探头为多个时,多个所述PPG探头11的类型可以彼此相同或不同,具体可以根据不同的需要设置,比如可以设置为两个,采样时可以放入人体的左耳和右耳同时进行采样,有利于提高采样准确度。
作为示例,所述信号调理单元12与所述PPG探头11相连接,用于对采集到的PPG信号进行修正,包括但不限于滤波、补偿和放大,以提高PPG信号的信噪比,所述模数转换单元13与所述信号调理单元12相连接,用于对经所述信号调理单元12放大修正好的信号进行模数转换。在其他示例中,也可以对采集到的PPG信号先经所述模数转换单元13进行模数转换再传送至所述信号调理单元12进行滤波、补偿和放大,且可以先进行放大再进行滤波补偿,或者仅进行其中的部分修正处理,比如仅进行放大等。当然,所述PPG信号采集模块1的具体设置还可以有其他选择,比如可以仅设置PPG探头11而将其他的功能单元设置到其他的模块中,对此将在后续内容中继续说明。
作为示例,所述PPG信号采集模块1与所述信息检测模块2优选无线连接方式,比如蓝牙、ZigBee及WIFI中的一种或多种,便于所述PPG信号采集模块1根据采样需要灵活调整采样位置而不会被有线连接所牵绊,使得本申请的检测装置适用范围更加广泛。当然,在其他示例,也可以采用有线连接,或者同时采用有线连接和无线连接,本实施例中不做严格限制。
在采样获得的PPG信号足够理想的话,从获取的PPG信号(如前所述,PPG信号是一种脉搏信号)中可以直接检测出其包含的非声学语音信息,比如将获取的PPG信号与样本,例如与PPG信号样本数据库中的PPG信号样本进行匹配即可检测出PPG信号中含有的非声学语音信息。但考虑到实际获取的PPG信号中可能包含了很多噪声信号甚至包含大量完全无效的噪声片段,因而为减少后期的信号处理工作量、提高检测效率和准确度,作为示例,本实施例中,所述信息检测模块2采用基于希尔伯特黄变换的时频分析方法先从采集到的所述PPG信号中截取含有与语音活动相关的运动伪迹信号段,再从所述信号段中检测出非声学语音信息。作为示例,所述信息检测模块2具体还包括特征提取单元及非声学语音识别单元;所述特征提取单元用于对所述信号段进行特征提取以得到特征向量,所述非声学语音识别单元与所述特征提取单元相连接,用于识别出所述信号段中的非声学语音信息,即使用分类器对所述特征向量进行分类识别以检测出该特征向量对应的所述信号段中的非声学语音信息。
作为示例,所述信息检测模块还包括预处理单元,所述预处理单元与所述PPG信号采集模块相连接,用于对采集到的所述PPG信号进行预处理以对其进行噪声过滤,提高所述PPG信号的信噪比,并将预处理后的PPG信号传送至所述特征提取单元。
作为示例,所述预处理单元包括但不限于高斯滤波器,经高斯滤波器过滤器后可以进一步提高PPG信号的信噪比。
作为示例,所述预处理单元的功能还包括对采集获得的PPG信号进行信号质量评价,比如采用滑动自相关算法以确定所述PPG信号采集模块1采集的PPG信号是否正确,由此确定PPG探头11的佩戴是否正常。比如通过确认当前采集的PPG信号是否远远偏离之前采集的信号平均值以确定当前的采样是否正常。因为脉搏波本身是很有节律的信号,使用滑动自相关算法来判断是否存在有节律的脉搏信号,以此来判断PPG探头11佩戴是否就绪,即采集的PPG信号是否正确,以此判断PPG信号采集过程中的PPG探头11是否佩戴异常,即判断采集到的PPG信号能否作为有效的检测信号。如果佩戴正常,则采集到的PPG信号是有效的,将会进一步对采集到的PPG信号进行后续检测,比如进行端点检测,从中找出PPG信号中与语言活动相关的运动伪迹信号段;而如果经判断PPG探头11的佩戴异常,则采集的PPG信号都将作为无效信号而被剔除,自然没有必要进行端点检测。当然,在其他示例中,此过程也可以基于诸如傅里叶变换完成,本实施例中不做严格限制。当然,所述预处理单元的全部功能也可以融合至前述的所述PPG信号采集模块1中,换而言之前述的PPG信号采集模块1也可以包含对采集到的PPG信号进行诸如信号质量评价和端点检测等操作,或者所述预处理单元和所述PPG信号采集模块1可以均包含对信号进行端点检测和质量评价等功能,以根据需要启动其中一个模块或者对信号进行多次噪声过滤,本实施例中不做严格限制。
作为示例,所述特征提取单元对所述信号段进行特征提取包括对所述PPG信号的时域特征、频域特征及时频特性中的一个或多个进行提取,比如对幅度、频谱、最大奇异值、方差、均值及对称性等特征中的一个或多个进行提取。且根据所述信息检测模块2的具体功能结构的不同,该特征值还可以有更多的选择,比如如果采用傅里叶变换对所述信号段进行处理,则该特征值可以包括傅里叶频谱、小波系数、短时傅里叶变换时变频谱、经验模态分解本征模函数等特征中的一个或多个。由于具体的特征提取过程与建立特征向量的过程与一般的数字信号处理过程无异,对此过程不做详细展开。而且需要说明的是,如果采集的信号足够理想,也可以对采集的PPG信号直接进行特征提取而无需经过截取含有与语音活动相关的运动伪迹信号段的过程。
作为示例,所述信息检测模块2适于采用基于希尔伯特黄变换的时频分析方法找出频率、幅度变异的起始点和终止点,对采集获得的PPG信号进行端点检测以从采集到的所述PPG信号中截取含有与语音活动相关的运动伪迹信号段,通过对采集的PPG信号进行解析以得到采集的PPG信号的瞬时振幅和瞬时相位,以此确定PPG信号的起始点和终点两个端点,由此可以去除两个端点之外的噪声信号,减少无效信号量,提高信息检测的准确度。当然,截取信号段还可以有其他方法,具体不限。需要说明的是,进行特征提取、预处理及信号质量评价,以及进行端点检测这几个步骤之间并没有严格的先后顺序,比如可以先对采集的PPG信号进行预处理,然后进行信号质量评价以判断采集的PPG信号是否有效,如果经信号质量评价判断采集的PPG信号有效则进行端点检测以从采集到的所述PPG信号中截取含有与语音活动相关的运动伪迹信号段,最后再进行特征提取,也可以对采集获得的PPG信号先进行端点检测以从采集到的所述PPG信号中截取含有与语音活动相关的运动伪迹信号段,之后再进行特征提取等,或者只进行这些步骤的部分步骤,比如只进行信号质量评价和特征提取,或者只进行预处理和特征提取步骤等,本实施例中不做严格限制,但较优的信号处理过程为按照预处理-信号质量评价-端点检测-特征提取这样的顺序依次进行,这样可以先大幅度过滤噪声,逐步减小信号处理量,提高信号处理的效率和准确度。当然是否执行这些步骤首先取决于所述信息检测模块2是否配置了相应的功能单元,或者说根据不同的需要所述信息检测模块2可以包括一个或多个功能单元以实现上述步骤中的一个或多个,比如包括信号质量评价单元、端点检测单元及特征提取单元等功能单元中的一个或多个,这些单元可以彼此连接而对其连接的先后关系并无严格要求,但优选按预处理-信号质量评价-端点检测-特征提取这样的顺序进行连接以使采集的PPG信号被依次执行相应的操作。当然在其他示例中这些功能单元也可以分别单独连接至所述PPG信号采集单元,且在实际的信号处理过程中根据不同的需要可以启动多个功能单元中的一个或多个,本实施例中不做严格限制。
需要特别说明的是,上述对所述非声学语音信息检测装置的描述是从功能角度将所述非声学语音信息检测装置进行了分解,但实际的结构中,所述信息检测模块2和所述分类器可以集成在同一处,比如集成在一计算机内,更具体地,所述特征提取单元、所述模型训练单元,以及所述预处理单元可以集成在同一个数字信号处理(Digital SignalProcessing,简称为DSP)芯片中,而所述PPG信号采集模块1可以设置为独立的结构以便于根据采样点的不同位置进行灵活采样,只要确保所述PPG信号采集模块1采集的PPG信号可以传送到所述预处理单元和所述信息检测模块2即可。当然,在其他示例中,所述预处理单元也可以是一个独立的模块,比如可以是一个包含高斯滤波器功能的数字信号处理芯片,或者其中的任意一个或多个功能单元,比如所述特征提取单元可以为一个独立的数字处理芯片,或者所述端点检测单元和所述特征提取单元集成在同一个数字处理芯片,本实施例中不做严格限制。
作为示例,所述检测装置还包括分类器训练模块,所述分类器训练模块包括PPG样本信号段获取单元,用于采集PPG样本信号,并从采集到的所述PPG样本信号中截取含有与语音活动相关的运动伪迹样本信号段;样本特征提取单元,与所述PPG样本信号段获取单元相连接,用于从所述样本信号段中提取样本特征以建立对应语音的PPG运动伪迹信号的特征样本集(该过程可以通过提取样本特征以建立特征向量由此形成特征样本);以及训练单元,与所述特征样本集相连接,用于对所述特征样本集进行有监督的学习以建立分类器。在其他示例中,所述分类器训练模块还可以包括前述的信号质量评价单元和端点检测单元中的至少一个,且所述分类器训练模块同样还可以包含如前所述的预处理单元,各个功能单元的作用以及连接关系与前述对所述信息检测模块2的描述可以完全相同,相同功能的单元及模块可以采用相同或不同的装置,比如所述PPG样本信号段获取单元可以和前述的PPG信号采集模块1使用相同或不同的PPG探头11,所述样本特征提取单元可以和前述的信息检测模块2中的特征提取单元使用相同或不同的数字处理芯片,具体不限。更详细的描述还请参考前述内容,出于简洁的目的不赘述。为使所述PPG信号样本数量在可能的条件下尽可能多,所述分类器的建立过程包含多次采用所述PPG样本信号段获取单元得到多个样本信号段,以及采用所述特征提取单元对得到的多个所述样本信号段进行特征提取以得到多个信号特征组成特征序列,也即特征样本的过程。此外,检测过程中的采样及信号处理过程优选与所述信号样本的建立过程尽量保持一致,或者说检测过程中采集的PPG信号与信号样本最好相匹配,比如如果所述信号样本是通过特征提取建立的,那检测过程中也优选对获取的PPG信号进行特征提取;如果所述信号样本是通过信号质量评价建立的,那检测过程中也优选对获取的PPG信号进行信号质量评价,这样可以提高检测的准确度。
所述分类器训练模块还可以包括分类学习单元及识别模型建立单元,所述分类学习单元用于使用随机森林树方法对获得的所述信号样本进行分类学习;所述识别模型建立单元用于经过交叉验证进行所述信号样本的特征选择以建立识别模型。所述分类学习单元和所述识别模型建立单元可以分别通过不同的数字信号处理芯片完成,也可以通过同一个集成了上述多个功能的同一数字处理芯片完成,具体不限。
图2示意了本发明的检测装置的一具体结构例示图。如图2所示,所述检测装置的PPG信号采集模块1包括多个PPG探头11,多个PPG探头11(多个PPG探头11之间可以相连接,也可以不连接)与一信号调理单元12(模数转换单元13可以和所述信号调理单元12集成在一起或者说所述信号调理单元12可以同时具有模数转换功能)集成在同一处且多个所述PPG探头11与所述信号调理单元12相连接(包括有线和/或无线连接),所述PPG信号采集模块1与所述信息检测模块2分开设置且两者之间无线连接,而所述分类器位于一电脑4内,且所述信息检测模块2与所述电脑4无线连接。
作为示例,所述分类器中的信号样本数为多个,比如大于1000个。同一个信号样本可以包含一路或多路PPG信号、一个或多个波段的PPG信号,而多路或多个波段的包含同样的非声学语音信息的PPG信号也可以通过打上标签以区分为对应不同语音信息的PPG运动伪迹信号特征样本。
理论上信号样本的数量越多,越有利于提高后续的语音信息检测准确度。但实际的样本数量则通常需要根据成本和需要而定,比如设置为大于1000个。作为示例,所述标签可以包括采样点、采集对象的性别、年龄、籍贯、体质等信息或由多种信息组成的复合标签。将建立好的模型移入一处理载体内,比如与所述特征提取单元和所述训练单元位于同一计算机内,后续就可以进行在线分类识别以检测出信号/信号段中的语音信息。
在采用所述检测装置时,首先将所述PPG信号采集模块1,比如将PPG探头11放置于采样点。如图3所示,所述采样点可以包括第一采样区域101的耳内、第二采样区域102的耳周、面颊、鼻周、嘴部、下巴,以及第三采样区域103的下颌、耳后及颈部中的一个或多个。从提高信息检测准确性的角度来看,信号采样点越多越好,但实际的采样点的设置数量需考虑个体差异、采集成本等原因,而且最重要的是要与分类器中的信号样本类型相匹配。此外,采样点的设置还需从PPG探头11设置的方便以及PPG信号采集的灵敏度等角度考虑。综合来看,人体的耳内是较佳的PPG信号采样点,既有空间适于放置PPG探头11,又可以提高人体舒适度,且耳朵上的血管比较密集,有利于采集到高信噪比的PPG信号。所述PPG探头11的具体外观设置需与采样点相匹配,即所述PPG探头11的外观设置需易于固定贴置于采样点的表面,或者所述采样点的具体设定可以根据所述PPG探头11的外观而定。当然,需要说明的是,上述采样点的具体区域划分根据不同人的习惯不同可能会略有差异,重要的是根据不同个体的差异确定采样位置,以确保PPG信号采集的灵敏性。
如图4所示,在一具体实施例中,可以在耳内放置PPG探头11采集PPG信号,具体的采集点选择在与耳屏相邻的对耳屏201内侧的耳屏202位置,当然也可以在耳甲腔203处,PPG探头11采用silicon labs的红外接近传感器si1141,红外发射源为ROHM公司的SFH4640红外LED。图5为使用该PPG探头11采集到的“创伤”和“创办”两词语的口腔活动时的耳内PPG信号样本,采样率为62.5Hz。可以看到,采集到的这两个词语对应在耳内的PPG信号在振幅和频率上呈现出差异,因而通过提取PPG信号中的振幅和频率等特征并进行识别即可检测出其包含的不同的语音信息。比如使用Nordic公司的NRF52832处理器进行PPG信号采集并传输到电脑端进行离线训练,然后使用Intel公司的Edison计算模块实时对含有语言活动相关运动伪迹噪声的PPG信号进行分类识别,比如对采样的PPG信号段的特征向量与分类器中的信号样本的特征向量进行比对以从所述信号段中检测出非声学语音信息。当然,在其他示例中也可以对采样的PPG信号段的波形与分类器中的的信号样本的波形进行拟合比较,由此检测出其含有的语音信息。此外还可以将PPG信号的特征向量进行数字化编码以得到一串数字字符,即分类器中的信号样本和实际采样得到的PPG信号都最终作为数字字符呈现并进行比对以检测出PPG信号段中携带的非声学语音信息。当然,上述检测过程以及该过程中使用的各种装置仅是示意性的,实际上的检测过程,比如采样点的设置、采样探头的选取和信号处理等过程可以根据需要和实际条件进行调整,具体不做限制。
综上所述,本发明提供一种基于PPG信号的非声学语音信息检测装置。所述检测装置包括PPG信号采集模块和信息检测模块,所述PPG信号采集模块用于采集PPG信号,所述信息检测模块与所述PPG信号采集模块相连接,用于从采集到的所述PPG信号中截取含有与语音活动相关的运动伪迹信号段,并从所述信号段中检测出非声学语音信息。采用本发明的基于PPG信号的非声学语音信息检测装置,使用者只需要做出说话的动作而无需发出声音即可与机器进行交互,或者进行语音信息的传达。因而,本发明可以有效辅助语言障碍者通过语言活动进行人机交互,或者帮助使用者通过语言活动发布信息和控制指令保密,用户体验舒适度、语音交互私密性和强噪声环境下的信息检测准确度大大提高。同时,本发明可用于缺乏传输介质,高噪声或内容需要保密的语音传输、语音控制的场景,如航天、军事、公安、消防、救灾等领域,以及车站、商场、酒吧等嘈杂的公共场所。本发明可有效克服各种环境下的噪声干扰,提高信息传达的准确性。此外,采用本发明的检测装置还可以减少数据宽带占用。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (11)
1.一种基于PPG信号的非声学语音信息检测装置,其特征在于,包括:
PPG信号采集模块,用于采集PPG信号;
信息检测模块,与所述PPG信号采集模块相连接,用于从采集到的所述PPG信号中截取含有与语音活动相关的运动伪迹信号段,并从所述信号段中检测出非声学语音信息。
2.根据权利要求1所述的检测装置,其特征在于:所述PPG信号采集模块包括PPG探头、信号调理单元和模数转换单元,所述信号调理单元与所述PPG探头相连接,用于对所述PPG探头采集到的PPG信号进行放大修正,所述模数转换单元与所述信号调理单元相连接,用于对经所述信号调理单元放大修正好的信号进行模数转换。
3.根据权利要求2所述的检测装置,其特征在于:所述PPG探头包括绿光、红光、黄光及红外光PPG探头中的一个或多个。
4.根据权利要求1所述的检测装置,其特征在于:所述PPG信号采集模块与所述信息检测模块无线连接。
5.根据权利要求1所述的检测装置,其特征在于:所述信息检测模块适于采用基于希尔伯特黄变换的时频分析方法从采集到的所述PPG信号中截取含有与语音活动相关的运动伪迹信号段。
6.根据权利要求1所述的检测装置,其特征在于,所述信息检测模块包括:
特征提取单元,用于对所述信号段进行特征提取以得到特征向量;
非声学语音识别单元,与所述特征提取单元相连接,用于识别出所述信号段中的非声学语音信息。
7.根据权利要求6所述的检测装置,其特征在于:所述特征包括时域特征、频域特征和时频变换特性中的一种或多种。
8.根据权利要求6所述的检测装置,其特征在于:所述信息检测模块还包括预处理单元,所述预处理单元与所述PPG信号采集模块相连接,用于对采集的所述PPG信号进行预处理以提高所述PPG信号的信噪比,并将预处理后的PPG信号传送至所述特征提取单元。
9.根据权利要求8所述的检测装置,其特征在于:所述预处理单元包括高斯滤波器。
10.根据权利要求8所述的检测装置,其特征在于:所述预处理单元还适于采用滑动自相关算法以确定所述PPG信号采集模块采集的PPG信号是否正确。
11.根据权利要求1至10任一项所述的检测装置,其特征在于,所述检测装置还包括分类器训练模块,所述分类器训练模块包括:
PPG样本信号段获取单元,用于采集PPG样本信号,并从采集到的所述PPG样本信号中截取含有与语音活动相关的运动伪迹样本信号段;
样本特征提取单元,与所述PPG样本信号段获取单元相连接,用于从所述样本信号段中提取样本特征以建立对应语音的PPG运动伪迹信号的特征样本集;
训练单元,与所述特征样本集相连接,用于对所述特征样本集进行有监督的学习以建立分类器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910349272.5A CN110033772B (zh) | 2019-04-28 | 2019-04-28 | 基于ppg信号的非声学语音信息检测装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910349272.5A CN110033772B (zh) | 2019-04-28 | 2019-04-28 | 基于ppg信号的非声学语音信息检测装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110033772A true CN110033772A (zh) | 2019-07-19 |
CN110033772B CN110033772B (zh) | 2021-04-20 |
Family
ID=67240511
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910349272.5A Active CN110033772B (zh) | 2019-04-28 | 2019-04-28 | 基于ppg信号的非声学语音信息检测装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110033772B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021239079A1 (zh) * | 2020-05-28 | 2021-12-02 | 华为技术有限公司 | 数据测量方法及相关装置 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN201299554Y (zh) * | 2008-07-30 | 2009-09-02 | 深圳先进技术研究院 | 一种运动和生理信息检测设备 |
US20090326871A1 (en) * | 2008-06-30 | 2009-12-31 | Nellcor Puritan Bennett Ireland | Systems and methods for artifact detection in signals |
CN102169690A (zh) * | 2011-04-08 | 2011-08-31 | 哈尔滨理工大学 | 基于表面肌电信号的语音信号识别系统和识别方法 |
CN102202569A (zh) * | 2008-10-29 | 2011-09-28 | 丰田自动车株式会社 | 移动体控制装置和移动体控制方法 |
CN105556529A (zh) * | 2013-09-09 | 2016-05-04 | 三星电子株式会社 | 使用生物信号执行用户认证的可穿戴装置及其认证方法 |
CN106618542A (zh) * | 2015-10-28 | 2017-05-10 | 中国科学院上海高等研究院 | 一种去噪心率信号检测装置及方法 |
CN106897592A (zh) * | 2015-12-21 | 2017-06-27 | 三星电子株式会社 | 用户认证方法、用户认证设备以及书写工具 |
CN107024975A (zh) * | 2015-09-15 | 2017-08-08 | 北京智谷睿拓技术服务有限公司 | 交互方法和设备 |
CN107610717A (zh) * | 2016-07-11 | 2018-01-19 | 香港中文大学 | 基于语音后验概率的多对一语音转换方法 |
CN108323201A (zh) * | 2016-11-16 | 2018-07-24 | 华为技术有限公司 | 一种身份认证的方法及装置 |
US20180261307A1 (en) * | 2017-02-10 | 2018-09-13 | Spxtrm Health Inc. | Secure monitoring of private encounters |
US20180317782A1 (en) * | 2017-04-25 | 2018-11-08 | Tata Consultancy Services Limited | Systems and methods for adaptive sensors calibration |
CN109318236A (zh) * | 2017-08-01 | 2019-02-12 | 安康市汉滨区易智网络科技有限公司 | 老人伴护智能系统 |
-
2019
- 2019-04-28 CN CN201910349272.5A patent/CN110033772B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090326871A1 (en) * | 2008-06-30 | 2009-12-31 | Nellcor Puritan Bennett Ireland | Systems and methods for artifact detection in signals |
CN201299554Y (zh) * | 2008-07-30 | 2009-09-02 | 深圳先进技术研究院 | 一种运动和生理信息检测设备 |
CN102202569A (zh) * | 2008-10-29 | 2011-09-28 | 丰田自动车株式会社 | 移动体控制装置和移动体控制方法 |
CN102169690A (zh) * | 2011-04-08 | 2011-08-31 | 哈尔滨理工大学 | 基于表面肌电信号的语音信号识别系统和识别方法 |
CN105556529A (zh) * | 2013-09-09 | 2016-05-04 | 三星电子株式会社 | 使用生物信号执行用户认证的可穿戴装置及其认证方法 |
CN107024975A (zh) * | 2015-09-15 | 2017-08-08 | 北京智谷睿拓技术服务有限公司 | 交互方法和设备 |
CN106618542A (zh) * | 2015-10-28 | 2017-05-10 | 中国科学院上海高等研究院 | 一种去噪心率信号检测装置及方法 |
CN106897592A (zh) * | 2015-12-21 | 2017-06-27 | 三星电子株式会社 | 用户认证方法、用户认证设备以及书写工具 |
CN107610717A (zh) * | 2016-07-11 | 2018-01-19 | 香港中文大学 | 基于语音后验概率的多对一语音转换方法 |
CN108323201A (zh) * | 2016-11-16 | 2018-07-24 | 华为技术有限公司 | 一种身份认证的方法及装置 |
US20180261307A1 (en) * | 2017-02-10 | 2018-09-13 | Spxtrm Health Inc. | Secure monitoring of private encounters |
US20180317782A1 (en) * | 2017-04-25 | 2018-11-08 | Tata Consultancy Services Limited | Systems and methods for adaptive sensors calibration |
CN109318236A (zh) * | 2017-08-01 | 2019-02-12 | 安康市汉滨区易智网络科技有限公司 | 老人伴护智能系统 |
Non-Patent Citations (2)
Title |
---|
YUN-KYUNG LEE: "Noise reduction of PPG signals using a particle filter for robust emotion recognition", 《 2011 IEEE INTERNATIONAL CONFERENCE ON CONSUMER ELECTRONICS -BERLIN (ICCE-BERLIN)》 * |
李超: "多模态生理信号情感识别研究", 《中国优秀博士学位论文全文数据库医药卫生科技辑》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021239079A1 (zh) * | 2020-05-28 | 2021-12-02 | 华为技术有限公司 | 数据测量方法及相关装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110033772B (zh) | 2021-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220287630A1 (en) | Systems and methods for determining sleep patterns and circadian rhythms | |
Lamonaca et al. | Health parameters monitoring by smartphone for quality of life improvement | |
KR101238780B1 (ko) | 준비전위기반 뇌-컴퓨터 인터페이스 장치 및 방법 | |
US10878818B2 (en) | Methods and apparatus for silent speech interface | |
Patil et al. | The physiological microphone (PMIC): A competitive alternative for speaker assessment in stress detection and speaker verification | |
CN110059575A (zh) | 一种基于表面肌电唇语识别的辅助沟通系统 | |
US20130184552A1 (en) | Bi-hemispheric brain wave system and method of performing bi-hemispherical brain wave measurements | |
CN109875515B (zh) | 一种基于阵列式表面肌电的发音功能评估系统 | |
US20140128753A1 (en) | Piezoelectric heart rate sensing for wearable devices or mobile devices | |
US20230346285A1 (en) | Localized collection of biological signals, cursor control in speech assistance interface based on biological electrical signals and arousal detection based on biological electrical signals | |
CN110367934B (zh) | 一种基于非语音身体声音的健康监测方法及监测系统 | |
CN102770063A (zh) | 用于移动监视的生理信号质量分类方法及系统 | |
US10966662B2 (en) | Motion-dependent averaging for physiological metric estimating systems and methods | |
CN205493847U (zh) | 语音分析系统 | |
US20220218941A1 (en) | A Wearable System for Behind-The-Ear Sensing and Stimulation | |
CN110033772A (zh) | 基于ppg信号的非声学语音信息检测装置 | |
CN107510451B (zh) | 一种基于脑干听觉诱发电位的音高感知能力客观评估方法 | |
KR20160001081A (ko) | 뇌파를 기반으로 하는 군집 감성 분석 장치, 방법 및 이를 수행하기 위한 기록 매체 | |
CN110060684B (zh) | 非声学语音信息检测方法、服务装置及可读存储介质 | |
KR200314492Y1 (ko) | 뉴로피드백 기반 무선 조종 장치를 이용한 집중력 증대장치 | |
CN209515202U (zh) | 一种急救信息传递系统 | |
CN113907756A (zh) | 一种基于多种模态的生理数据的可穿戴系统 | |
WO2021148921A1 (en) | A medical system and method using a pair of gloves equipped with physiological sensors | |
Yamasinghe et al. | IMask: An IoT-based intelligent mask to identify and track COVID-19 suspects | |
Pflugradt et al. | Improved signal quality indication for photoplethysmographic signals incorporating motion artifact detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |