CN112750464A - 基于多传感器的人体发声状态检测方法、系统及存储介质 - Google Patents

基于多传感器的人体发声状态检测方法、系统及存储介质 Download PDF

Info

Publication number
CN112750464A
CN112750464A CN202011567270.2A CN202011567270A CN112750464A CN 112750464 A CN112750464 A CN 112750464A CN 202011567270 A CN202011567270 A CN 202011567270A CN 112750464 A CN112750464 A CN 112750464A
Authority
CN
China
Prior art keywords
human body
model
module
acquired
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011567270.2A
Other languages
English (en)
Other versions
CN112750464B (zh
Inventor
李海进
宋少鹏
赵清明
孙浩海
张清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sugr Electronics Corp
Original Assignee
Sugr Electronics Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sugr Electronics Corp filed Critical Sugr Electronics Corp
Priority to CN202011567270.2A priority Critical patent/CN112750464B/zh
Publication of CN112750464A publication Critical patent/CN112750464A/zh
Application granted granted Critical
Publication of CN112750464B publication Critical patent/CN112750464B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01DMEASURING NOT SPECIALLY ADAPTED FOR A SPECIFIC VARIABLE; ARRANGEMENTS FOR MEASURING TWO OR MORE VARIABLES NOT COVERED IN A SINGLE OTHER SUBCLASS; TARIFF METERING APPARATUS; MEASURING OR TESTING NOT OTHERWISE PROVIDED FOR
    • G01D21/00Measuring or testing not otherwise provided for
    • G01D21/02Measuring two or more variables by means not covered by a single other subclass
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Abstract

本发明公开了基于多传感器的人体发声状态检测方法、系统及存储介质,压力传感和光学传感根据预设阈值上报中断给主控芯片,主控芯片判断设备工作状态,计算骨振动传感采集的声带振动转换成的音频和麦克风采集的音频数据间互相关系数;若该系数高于人体发声相关度阈值,且压力传感检测该段时间的平均压力变化模型、光学传感检测该段时间人体局部起伏波动数据模型与预置数据模型近似,则将两音频数据通过HSD人体发声检测算法判断当前是否检测到人体发声状态,依据模型做人机交互意图判断和通话降噪应用。该方案解决大背景噪音环境下准确检测人体发声状态的问题,精确检测人体发声状态的起始结束时间点,提升大噪声环境人机交互体验和通话质量。

Description

基于多传感器的人体发声状态检测方法、系统及存储介质
技术领域
本发明涉及人体发声状态检测技术领域,尤其涉及一种基于多传感器的人体发声状态的检测方法、系统及存储介质。
背景技术
目前,在进行语音活动检测时,一般采用的是基于信噪比和能量的语音活动检测算法。该方案主要是从麦克风,编解码器,模拟滤波器等硬件电路获取到声音信号,并将其转换为数字信号来进行处理。语音活动检测算法的原理是将一段音频中开始的部分假设为没有声音的静音状态,并计算此时的平均信号能量作为基准值,若之后一段时间的语音信号能量大小的均方根值大于此基准值,则视为有人声在说话,若无则视为无人声在讲话。这种语音活动检测算法普遍存在于多家语音技术公司在各类耳机或对讲装置的应用中。
然而,这种技术有两个明显的缺陷和不足:大背景噪声和发声状态剪切不准确。具体体现在:
一、当背景噪声较大时无法准确的检测静音状态,因此在复杂的噪音环境中无法很好地发挥作用;
二、前后沿剪切的副作用问题。所谓前后沿剪切就是还原语音时,由于从实际讲话开始到检测到语音之间有一定的判断门限和时延,有时语音波形的开始和结束部分会作为静音被丢掉,还原的语音会出现变化,会产生冗余处理的问题。
发明内容
本发明提供一种基于多传感器的人体发声状态的检测方法、系统及存储介质,以解决大背景噪音环境下准确检测人体发声状态的问题,同时更精确地检测人体发声状态的起始结束时间点,以提升大噪声环境人机交互体验和大噪声环境通话质量。
为实现上述目的,本发明提供一种基于多传感器的人体发声状态的检测方法,包括以下步骤:
将光学传感和压力传感根据预设的阈值上报中断给主控芯片模块,主控芯片通过数据接口读取光学传感和压力传感所感测的数据并判断设备的工作状态;
将光学传感采集到的人体局部起伏波动状态和压力传感的压力时间连续信号的数据保存至数据存储模块;
将骨振动传感器采集声带的振动信息转换成音频信号并保存至数据存储模块,将麦克风采集模块采集到的音频数据保存至数据存储模块;
通过压力传感和光学传感的状态判断,主控芯片模块从所述数据存储模块的环形缓冲区中获取所述麦克风采集模块采集的音频数据以及骨振动传感器采集并转化的音频数据,计算两个音频数据之间的互相关系数并比较人体发声相关度阈值;
若所述互相关系数高于所述人体发声相关度阈值,且所述压力传感检测该段时间的平均压力变化模型与预置数据模型近似,光学传感检测该段时间人体局部起伏波动数据模型与预置数据模型近似,则所述主控芯片模块将所述麦克风采集模块采集到的音频数据和骨振动传感器采集并转化的音频信号通过HSD人体发声检测算法进行处理,判断当前是否检测到人体发声状态。
其中,所述将麦克风采集模块采集到的音频数据保存至数据存储模块的步骤包括:
将所述麦克风采集模块采集到的音频数据通过ADC模数转换模块转换成数字信号后保存至数据存储模块的环形缓冲区。
其中,所述若所述互相关系数高于所述人体发声相关度阈值,且所述压力传感检测该段时间的压力变化模型与预置数据模型近似,光学传感检测该段时间人体局部起伏波动数据模型与预置数据模型近似,则所述主控芯片将所述麦克风采集模块采集到的音频数据和骨振动传感器采集并转化的音频数据通过HSD人体发声检测算法进行处理,判断当前是否检测到人体发声状态的步骤包括:
若所述互相关系数高于所述人体发声相关度阈值,且所述压力传感检测该段时间的压力变化模型与预置数据模型近似,光学传感检测该段时间人体局部起伏波动数据模型与预置数据模型近似,则所述主控芯片模块将所述麦克风采集模块采集到的音频数据和骨振动传感器采集并转化的音频数据通过 HSD人体发声检测算法进行数字滤波器分频,并求出麦克风采集模块采集的音频数据和骨振动传感器采集并转化的声音频率范围内的六个子频段的对数信号能量;
计算所述骨振动传感器采集并转化的声音频率范围内的六个子频段的对数信号能量与麦克风采集模块所采集的声音频率的对数信号能量均值和方差;
基于所述对数信号能量均值和方差,并结合高斯混合模型计算麦克风采集模块所采集的声音信号和骨振动传感所采集转化的声音信号的二元高斯似然比;
判断所述二元高斯似然比是否高于人体发声判断门限阈值;
若所述二元高斯似然比高于人体发声判断门限阈值,则判断当前检测到人体发声状态。
其中,所述方法还包括:
根据处理结果更新所述高斯混合模型的均值与方差相关模型参数,作为下一次计算时的参考。
其中,所述高斯混合模型包括:人体发声均值模型,骨振动传感器采集并转化的音频均值模型,人体发声方差模型和骨振动传感器采集并转化的音频方差模型。
此外,本发明还提出一种基于多传感器的人体发声状态的检测系统,包括:主控芯片模块,均与所述主控芯片模块连接的麦克风采集模块、压力传感器、光学传感器、骨振动传感器及数据存储模块,其中:
所述麦克风采集模块,用于采集人的音频数据,并将采集的音频数据保存至数据存储模块的环形缓冲区;
所述压力传感器,用于采集穿戴设备贴近人体部位的压力时间信号,并将采集到的压力时间信号保存至所述数据存储模块;
所述光学传感器模块,用于采集来自穿戴设备贴近人体局部随时间起伏波动信号,并将采集到的来自人体局部随时间起伏波动信号保存至所述数据存储模块;
所述骨振动传感器,用于采集人体声带振动数据并转化为音频数据,并将采集到的音频数据保存至数据存储模块的组环形缓冲区;
所述主控芯片模块,用于接受压力传感和光学传感的中断信号并判断设备状态,从所述数据存储模块的环形缓冲区中获取所述麦克风采集模块采集的音频数据以及骨振动传感器采集并转化的音频数据,计算两个音频数据之间的互相关系数并比较人体发声相关度阈值;若所述互相关系数高于所述人体发声相关度阈值,且所述压力传感器检测该段时间的压力变化模型与预置数据模型近似,光学传感器检测该段时间人体局部起伏波动数据模型与预置数据模型近似,则所述主控芯片模块将所述麦克风采集模块采集到的音频数据通过HSD人体发声检测算法进行处理,并判断当前是否检测到人体发声状态。
其中,所述检测系统还包括:ADC模数转换模块,所述ADC模数转换模块连接于所述麦克风采集模块和数据存储模块之间,所述ADC模数转换模块,用于将所述麦克风采集模块采集到的音频数据转换成数字信号后保存至数据存储模块的环形缓冲区。
其中,所述主控芯片模块,还用于在所述互相关系数高于所述人体发声相关度阈值,且所述压力传感器检测该段时间的压力变化模型与预置数据模型近似,光学传感器检测该段时间人体局部起伏波动数据模型与预置数据模型近似时,将所述麦克风采集模块采集到的音频数据和骨振动传感采集并转化的音频通过HSD人体发声检测算法使用数字滤波器分频,并求出声音频率范围内的六个子频段的对数信号能量;计算两段声音频率范围内的六个子频段的对数信号能量均值和方差;基于所述对数信号能量均值和方差,并结合高斯混合模型计算两段信号的二元高斯似然比;判断所述二元高斯似然比是否高于人体发声判断门限阈值;若所述二元高斯似然比高于人体发声判断门限阈值,则判断当前检测到人体发声状态。
其中,所述主控芯片模块,还用于根据处理结果更新所述高斯混合模型的均值与方差相关模型参数,作为下一次计算时的参考。
此外,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有基于多传感器的人体发声状态的检测程序,所述基于多传感器的人体发声状态的检测程序被处理器运行时实现如上所述的方法的步骤。
相比现有技术,本发明提出的一种基于多传感器的人体发声状态的检测方法、系统及存储介质,将光学传感和压力传感根据预设的阈值上报中断给主控芯片模块,主控芯片通过数据接口读取光学传感和压力传感所感测的数据并判断设备的工作状态;将光学传感采集到的人体局部起伏波动状态和压力传感的压力时间连续信号的数据保存至数据存储模块;将骨振动传感器采集声带的振动信息转换成音频信号并保存至数据存储模块,将麦克风采集模块采集到的音频数据保存至数据存储模块;通过压力传感和光学传感的状态判断,主控芯片模块从所述数据存储模块的环形缓冲区中获取所述麦克风采集模块采集的音频数据以及骨振动传感器采集并转化的音频数据,计算两个音频数据之间的互相关系数并比较人体发声相关度阈值;若所述互相关系数高于所述人体发声相关度阈值,且所述压力传感检测该段时间的平均压力变化模型与预置数据模型近似,光学传感检测该段时间人体局部起伏波动数据模型与预置数据模型近似,则所述主控芯片模块将所述麦克风采集模块采集到的音频数据和骨振动传感器采集并转化的音频信号通过HSD人体发声检测算法进行处理,判断当前是否检测到人体发声状态。该方案采用的多传感器检测人体说话状态的技术可以很好地弥补传统语音活动检测算法在背景噪声较大环境中地缺陷,通过骨振动传感器和光学传感器、压力传感器等外部传感器的辅助检测,搭配HSD(HumanSoundDetection)人体发声检测算法在复杂环境下仍然保证人体发声检测结果的准确性和可靠性。由此,通过多传感器的协同检测,能够准确地判断出人体是否处于发声状态以及发声状态的开始与结束时间,解决了大背景噪音环境下准确检测人体发声状态的问题,同时更精确地检测人体发声状态的起始结束时间点,提升了大噪声环境人机交互体验和大噪声环境通话质量。
附图说明
图1是本发明基于多传感器的人体发声状态的检测方法实施例的流程示意图;
图2是本发明实施例的系统框架示意图;
图3是本发明实施例的光学传感器检测示意图;
图4是本发明实施例涉及的HSD人体发声检测算法原理示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明考虑到:在背景噪声较大环境中,准确地识别到人体语音活动状态是十分困难,由于背景噪音的能量较高,现有的语音活动检测算法初始计算的基准值也会较高,而对于人体发出的能量相对于背景噪声较弱的声音的检测就会变得更加不敏感。
而本申请针对这一现象采用的多传感器检测人体说话状态的技术可以很好地弥补传统语音活动检测算法在背景噪声较大环境中地缺陷,通过骨振动传感器和光学传感器、压力传感器等外部传感器的辅助检测,搭配HSD(Human Sound Detection)人体发声检测算法在复杂环境下仍然保证人体发声检测结果的准确性和可靠性。
具体地,请参照图1,图1是本发明提出的基于多传感器的人体发声状态的检测方法实施例的流程示意图。
如图1所示,本发明实施例提出一种基于多传感器的人体发声状态的检测方法,包括以下步骤:
S1,将光学传感和压力传感根据预设的阈值上报中断给主控芯片模块,主控芯片通过数据接口读取光学传感和压力传感所感测的数据并判断设备的工作状态;
本实施例方法基于图2所示的系统架构实现,如图2所示,该系统架构包括:麦克风采集模块、光学传感器、骨振动传感器、音频编解码模块或ADC 模数转换模块、数据存储模块、主控芯片模块等部分。
其中,可以将所述麦克风采集模块采集到的音频数据通过ADC模数转换模块转换成数字信号后保存至数据存储模块的环形缓冲区。
S2,将光学传感采集到的人体局部起伏波动状态和压力传感的压力时间连续信号的数据保存至数据存储模块;
S3,将骨振动传感器采集声带的振动信息转换成音频信号并保存至数据存储模块,将麦克风采集模块采集到的音频数据保存至数据存储模块;
S4,通过压力传感和光学传感的状态判断,主控芯片模块从所述数据存储模块的环形缓冲区中获取所述麦克风采集模块采集的音频数据以及骨振动传感器采集并转化的音频数据,计算两个音频数据之间的互相关系数并比较人体发声相关度阈值;
S5,若所述互相关系数高于所述人体发声相关度阈值,且所述压力传感检测该段时间的平均压力变化模型与预置数据模型近似,光学传感检测该段时间人体局部起伏波动数据模型与预置数据模型近似,则所述主控芯片模块将所述麦克风采集模块采集到的音频数据和骨振动传感器采集并转化的音频信号通过HSD人体发声检测算法进行处理,判断当前是否检测到人体发声状态。
具体地,若所述互相关系数高于所述人体发声相关度阈值,且所述压力传感检测该段时间的压力变化模型与预置数据模型近似,光学传感检测该段时间人体局部起伏波动数据模型与预置数据模型近似,则所述主控芯片模块将所述麦克风采集模块采集到的音频数据和骨振动传感器采集并转化的音频数据通过HSD人体发声检测算法进行数字滤波器分频,并求出麦克风采集模块采集的音频数据和骨振动传感器采集并转化的声音频率范围内的六个子频段的对数信号能量;
计算所述骨振动传感器采集并转化的声音频率范围内的六个子频段的对数信号能量与麦克风采集模块所采集的声音频率的对数信号能量均值和方差;
基于所述对数信号能量均值和方差,并结合高斯混合模型计算麦克风采集模块所采集的声音信号和骨振动传感所采集转化的声音信号的二元高斯似然比;
判断所述二元高斯似然比是否高于人体发声判断门限阈值;
若所述二元高斯似然比高于人体发声判断门限阈值,则判断当前检测到人体发声状态。
进一步地,所述方法还包括:
根据处理结果更新所述高斯混合模型的均值与方差相关模型参数,作为下一次计算时的参考。
其中,所述高斯混合模型包括:人体发声均值模型,骨振动传感器采集并转化的音频均值模型,人体发声方差模型和骨振动传感器采集并转化的音频方差模型。
以下对本发明技术方案进行详细阐述:
如图2所示,该系统架构包括:麦克风采集模块、光学传感器模块、骨振动传感器模块、音频编解码模块或ADC模数转换模块、数据存储模块、主控芯片模块等部分。
其中,麦克风采集模块位于耳机的尾端部分,该模块会将采集到的音频数据经过音频编解码模块或ADC模数转换模块将采集到的音频信号传递至数据存储模块。
光学传感器模块检测示例如图3所示,光学传感器模块是由两部分组成,第一部分,红外发射LED,红外发射LED发出特定波长的红外光,发射功率集中在狭窄的波段内,第二部分,在与发射器的峰值强度匹配的波长处具有峰值灵敏度的光电二极管(光传感器)。通过光电二极管接收到的特定波长红外能量,判断穿戴产品被测部位的距离波动起伏数据。并将检测到的数据实时存储,供主控运算判断设备状态。
压力传感器将采集到的压力时间信号传递给数据存储模块。
骨振动传感器模块会将采集到的声带的振动信息同样经过音频编解码模块或ADC模数转换模块转换成音频信号传至数据存储模块。
将光学传感和压力传感根据预设的阈值上报中断给主控芯片模块,主控芯片模块通过数据接口读取光学传感和压力传感所感测的数据并判断设备的工作状态。
将光学传感采集到的人体局部起伏波动状态和压力传感的压力时间连续信号的数据保存至数据存储模块。
数据存储模块会将骨振动传感器模块和麦克风采集模块采集到的音频数据存入两组环形缓冲区,并实时刷新缓冲区中的缓存的音频数据。
通过压力传感和光学传感的状态判断,主控芯片模块会将数据存储模块缓存的两段音频数据的内容取出并对其进行检测。
主控芯片模块会将麦克风采集模块采集到的毎t时间音频数据与骨振动传感器采集到并转化的毎t时间数据计算其互相关系数以检验其相关性,若麦克风采集模块采集并存储至数据存储模块中的音频数据包含了来自人体发声产生的声音,而骨振动传感器也包含了来自人体发声的声音,那么这两段音频数据的互相关系数会很高;反之,如果虽然麦克风采集模块采集到的音频数据虽然能量很高,但是麦克风采集模块采集到的音频数据与骨振动传感器采集到的音频数据之间的互相关系数很低(若该系数低于人体发声相关度阈值Z),那么可以认为麦克风采集模块采集到的音频数据很大程度上与人体发声产生的音频数据无关,即人体没有发出声音。因此,当麦克风采集模块采集到的音频数据与骨振动传感器采集到的音频数据之间计算得到的互相关系数高于人体发声相关度阈值Z,可以认为麦克风采集模块可能采集到了人体发出的声音数据,但仍然需要进一步通过光学传感器检测到的该段时间人体局部起伏波动数据及压力传感器该段时间的平均压力变化数据与HSD人体发声检测算法的综合校验。
若在上一步中计算的两段数据互相关系数高于人体发声相关度阈值Z,且所述压力传感检测该段时间的平均压力变化模型与预置数据模型近似,光学传感检测该段时间人体局部起伏波动数据模型与预置数据模型近似,则所述主控芯片模块将所述麦克风采集模块采集到的音频数据和骨振动传感器采集并转化的音频信号通过HSD人体发声检测算法进行处理,判断当前是否检测到人体发声状态。
本发明实施例涉及的HSD人体发声检测算法原理如图4所示。HSD人体发声检测算法主要分为多个部分:信号分频,计算子带能量,人体发声状态检验,更新模型。其中:
信号分频:因为人体正常说话时产生声音频率范围一般集中在100Hz~ 4KHz,根据奈奎斯特采样定理可知,采样频率应该是声音频率最大值的两倍时,对其频域上的分析不会出现混叠干扰的情况。因此,首先将输入音频的毎帧数据进行降采样处理,得到8KHz的音频数据。对于毎帧输入数据,首先做快速傅里叶变换得到该帧的频域信号,通过数字滤波器的滤波处理,使用不同参数设置的数字滤波器,即可分别可以得到该帧的六组频率分布分别为 3~4KHz,2~3KHz,1~2KHz,500~1KHz,250~500Hz,125~250Hz的频域音频数据,将该帧产生的六组数据传入到HSD人体发声检测算法的第3部分进行处理。
计算子频带能量:对于在HSD人体发声检测算法的第二步中计算得到的六个子频带,将其中该帧对应六个子频带内的所有频点分别求log10对数的均方根值,分别得到六组子频带能量,这六组子频带能量即为输入HSD人体发声检测算法第4步的六组子带特征。
人体发声状态判决:通过高斯混合模型分别音频信号是人体发声和噪音的概率,使用假设检验的方法确定信号的类型。根据毎帧上述六个频段的频点信号能量的方差和均值,求出人体发声信号的高斯概率分布函数;毎秒在前30帧中取5个最小值点,并毎隔一段时间持续更新确保其为最小值点,求其信号能量的均值和方差,假设其为噪声信号,并求出噪声信号的高斯概率分布函数。求出人体发声信号和噪声信号的对数(log10)信号比,并求二元高斯对数似然比。若似然比高于人体发声判断门限阈值,则认为这是一次有效人体发声;否则认为其为噪音信号。
更新参数:更新高斯混合模型的均值与方差等模型参数,作为下一次计算时的基准值。其中包括人体发声均值模型,骨振动传感器采集并转化的音频均值模型,人体发声方差模型和噪音骨振动传感器采集并转化的音频方差模型。
相比现有技术,本发明提出的一种基于多传感器的人体发声状态的检测方法,将光学传感和压力传感根据预设的阈值上报中断给主控芯片模块,主控芯片通过数据接口读取光学传感和压力传感所感测的数据并判断设备的工作状态;将光学传感采集到的人体局部起伏波动状态和压力传感的压力时间连续信号的数据保存至数据存储模块;将骨振动传感器采集声带的振动信息转换成音频信号并保存至数据存储模块,将麦克风采集模块采集到的音频数据保存至数据存储模块;通过压力传感和光学传感的状态判断,主控芯片模块从所述数据存储模块的环形缓冲区中获取所述模拟麦克风采集模块采集的音频数据以及骨振动传感器采集并转化的音频数据,计算两个音频数据之间的互相关系数并比较人体发声相关度阈值;若所述互相关系数高于所述人体发声相关度阈值,且所述压力传感检测该段时间的平均压力变化模型与预置数据模型近似,光学传感检测该段时间人体局部起伏波动数据模型与预置数据模型近似,则所述主控芯片模块将所述麦克风采集模块采集到的音频数据和骨振动传感器采集并转化的音频信号通过HSD人体发声检测算法进行处理,判断当前是否检测到人体发声状态。该方案采用的多传感器检测人体说话状态的技术可以很好地弥补传统语音活动检测算法在背景噪声较大环境中的缺陷,通过骨振动传感器和光学传感器、压力传感器等外部传感器的辅助检测,搭配HSD(Human SoundDetection)人体发声检测算法在复杂环境下仍然保证人体发声检测结果的准确性和可靠性。由此,通过多传感器的协同检测,能够准确地判断出人体是否处于发声状态以及发声状态的开始与结束时间,解决了大背景噪音环境下准确检测人体发声状态的问题,同时更精确地检测人体发声状态的起始结束时间点,提升了大噪声环境人机交互体验和大噪声环境通话质量。
此外,如图2所示,本发明还提出一种基于多传感器的人体发声状态的检测系统,包括:主控芯片模块,均与所述主控芯片模块连接的麦克风采集模块、压力传感器、光学传感器、骨振动传感器及数据存储模块,其中:
所述麦克风采集模块,用于采集人的音频数据,并将采集的音频数据保存至数据存储模块的环形缓冲区;
所述压力传感器,用于采集穿戴设备贴近人体部位的压力时间信号,并将采集到的压力时间信号保存至所述数据存储模块;
所述光学传感器模块,用于采集来自穿戴设备贴近人体局部随时间起伏波动信号,并将采集到的来自人体局部随时间起伏波动信号保存至所述数据存储模块;
所述骨振动传感器,用于采集人体声带振动数据并转化为音频数据,并将采集到的音频数据保存至数据存储模块的组环形缓冲区;
所述主控芯片模块,用于接受压力传感和光学传感的中断信号并判断设备状态,从所述数据存储模块的环形缓冲区中获取所述麦克风采集模块采集的音频数据以及骨振动传感器采集并转化的音频数据,计算两个音频数据之间的互相关系数并比较人体发声相关度阈值;若所述互相关系数高于所述人体发声相关度阈值,且所述压力传感器检测该段时间的压力变化模型与预置数据模型近似,光学传感器检测该段时间人体局部起伏波动数据模型与预置数据模型近似,则所述主控芯片模块将所述麦克风采集模块采集到的音频数据通过HSD人体发声检测算法进行处理,并判断当前是否检测到人体发声状态。
进一步地,所述检测系统还包括:ADC模数转换模块,所述ADC模数转换模块连接于所述麦克风采集模块和数据存储模块之间,所述ADC模数转换模块,用于将所述麦克风采集模块采集到的音频数据转换成数字信号后保存至数据存储模块的环形缓冲区。
其中,所述主控芯片模块,还用于在所述互相关系数高于所述人体发声相关度阈值,且所述压力传感器检测该段时间的压力变化模型与预置数据模型近似,光学传感器检测该段时间人体局部起伏波动数据模型与预置数据模型近似时,将所述麦克风采集模块采集到的音频数据和骨振动传感采集并转化的音频通过HSD人体发声检测算法使用数字滤波器分频,并求出音频率范围内的六个子频段的对数信号能量;计算人发出两段声音频率范围内的六个子频段的对数信号能量均值和方差;基于所述对数信号能量均值和方差,并结合高斯混合模型计算两段的二元高斯似然比;判断所述二元高斯似然比是否高于人体发声判断门限阈值;若所述二元高斯似然比高于人体发声判断门限阈值,则判断当前检测到人体发声状态。
所述主控芯片模块,还用于根据处理结果更新所述高斯混合模型的均值与方差相关模型参数,作为下一次计算时的参考。
本实施例实现人体发声状态的检测的原理,请参照上述各实施例,在此不再赘述。
此外,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有基于多传感器的人体发声状态的检测程序,所述基于多传感器的人体发声状态的检测程序被处理器运行时实现如上所述的方法的步骤。
本实施例实现人体发声状态的检测的原理,请参照上述各实施例,在此不再赘述。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于多传感器的人体发声状态的检测方法,其特征在于,包括以下步骤:
将光学传感和压力传感根据预设的阈值上报中断给主控芯片模块,主控芯片通过数据接口读取光学传感和压力传感所感测的数据并判断设备的工作状态;
将光学传感采集到的人体局部起伏波动状态和压力传感的压力时间连续信号的数据保存至数据存储模块;
将骨振动传感器采集声带的振动信息转换成音频信号并保存至数据存储模块,将麦克风采集模块采集到的音频数据保存至数据存储模块;
通过压力传感和光学传感的状态判断,主控芯片模块从所述数据存储模块的环形缓冲区中获取所述麦克风采集模块采集的音频数据以及骨振动传感器采集并转化的音频数据,计算两个音频数据之间的互相关系数并比较人体发声相关度阈值;
若所述互相关系数高于所述人体发声相关度阈值,且所述压力传感检测该段时间的平均压力变化模型与预置数据模型近似,光学传感检测该段时间人体局部起伏波动数据模型与预置数据模型近似,则所述主控芯片模块将所述麦克风采集模块采集到的音频数据和骨振动传感器采集并转化的音频信号通过HSD人体发声检测算法进行处理,判断当前是否检测到人体发声状态。
2.根据权利要求1所述的方法,其特征在于,所述将麦克风采集模块采集到的音频数据保存至数据存储模块的步骤包括:
将所述麦克风采集模块采集到的音频数据通过ADC模数转换模块转换成数字信号后保存至数据存储模块的环形缓冲区。
3.根据权利要求1所述的方法,其特征在于,所述若所述互相关系数高于所述人体发声相关度阈值,且所述压力传感检测该段时间的压力变化模型与预置数据模型近似,光学传感检测该段时间人体局部起伏波动数据模型与预置数据模型近似,则所述主控芯片将所述麦克风采集模块采集到的音频数据和骨振动传感器采集并转化的音频数据通过HSD人体发声检测算法进行处理,判断当前是否检测到人体发声状态的步骤包括:
若所述互相关系数高于所述人体发声相关度阈值,且所述压力传感检测该段时间的压力变化模型与预置数据模型近似,光学传感检测该段时间人体局部起伏波动数据模型与预置数据模型近似,则所述主控芯片模块将所述麦克风采集模块采集到的音频数据和骨振动传感器采集并转化的音频数据通过HSD人体发声检测算法进行数字滤波器分频,并求出麦克风采集模块采集的音频数据和骨振动传感器采集并转化的声音频率范围内的六个子频段的对数信号能量;
计算所述骨振动传感器采集并转化的声音频率范围内的六个子频段的对数信号能量与麦克风采集模块所采集的声音频率的对数信号能量均值和方差;
基于所述对数信号能量均值和方差,并结合高斯混合模型计算麦克风采集模块所采集的声音信号和骨振动传感所采集转化的声音信号的二元高斯似然比;
判断所述二元高斯似然比是否高于人体发声判断门限阈值;
若所述二元高斯似然比高于人体发声判断门限阈值,则判断当前检测到人体发声状态。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
根据处理结果更新所述高斯混合模型的均值与方差相关模型参数,作为下一次计算时的参考。
5.根据权利要求4所述的方法,其特征在于,所述高斯混合模型包括:人体发声均值模型,骨振动传感器采集并转化的音频均值模型,人体发声方差模型和骨振动传感器采集并转化的音频方差模型。
6.一种基于多传感器的人体发声状态的检测系统,其特征在于,包括:主控芯片模块,均与所述主控芯片模块连接的麦克风采集模块、压力传感器、光学传感器、骨振动传感器及数据存储模块,其中:
所述麦克风采集模块,用于采集人的音频数据,并将采集的音频数据保存至数据存储模块的环形缓冲区;
所述压力传感器,用于采集穿戴设备贴近人体部位的压力时间信号,并将采集到的压力时间信号保存至所述数据存储模块;
所述光学传感器模块,用于采集来自穿戴设备贴近人体局部随时间起伏波动信号,并将采集到的来自人体局部随时间起伏波动信号保存至所述数据存储模块;
所述骨振动传感器,用于采集人体声带振动数据并转化为音频数据,并将采集到的音频数据保存至数据存储模块的组环形缓冲区;
所述主控芯片模块,用于接受压力传感和光学传感的中断信号并判断设备状态,从所述数据存储模块的环形缓冲区中获取所述麦克风采集模块采集的音频数据以及骨振动传感器采集并转化的音频数据,计算两个音频数据之间的互相关系数并比较人体发声相关度阈值;若所述互相关系数高于所述人体发声相关度阈值,且所述压力传感器检测该段时间的压力变化模型与预置数据模型近似,光学传感器检测该段时间人体局部起伏波动数据模型与预置数据模型近似,则所述主控芯片模块将所述麦克风采集模块采集到的音频数据通过HSD人体发声检测算法进行处理,并判断当前是否检测到人体发声状态。
7.根据权利要求6所述的检测系统,其特征在于,所述检测系统还包括:ADC模数转换模块,所述ADC模数转换模块连接于所述麦克风采集模块和数据存储模块之间,所述ADC模数转换模块,用于将所述麦克风采集模块采集到的音频数据转换成数字信号后保存至数据存储模块的环形缓冲区。
8.根据权利要求6所述的检测系统,其特征在于,
所述主控芯片模块,还用于在所述互相关系数高于所述人体发声相关度阈值,且所述压力传感器检测该段时间的压力变化模型与预置数据模型近似,光学传感器检测该段时间人体局部起伏波动数据模型与预置数据模型近似时,将所述麦克风采集模块采集到的音频数据和骨振动传感采集并转化的音频通过HSD人体发声检测算法使用数字滤波器分频,并求出声音频率范围内的六个子频段的对数信号能量;计算两段声音频率范围内的六个子频段的对数信号能量均值和方差;基于所述对数信号能量均值和方差,并结合高斯混合模型计算两段信号的二元高斯似然比;判断所述二元高斯似然比是否高于人体发声判断门限阈值;若所述二元高斯似然比高于人体发声判断门限阈值,则判断当前检测到人体发声状态。
9.根据权利要求7所述的检测系统,其特征在于,
所述主控芯片模块,还用于根据处理结果更新所述高斯混合模型的均值与方差相关模型参数,作为下一次计算时的参考。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有基于多传感器的人体发声状态的检测程序,所述基于多传感器的人体发声状态的检测程序被处理器运行时实现如权利要求1-5中任一项所述的方法的步骤。
CN202011567270.2A 2020-12-25 2020-12-25 基于多传感器的人体发声状态检测方法、系统及存储介质 Active CN112750464B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011567270.2A CN112750464B (zh) 2020-12-25 2020-12-25 基于多传感器的人体发声状态检测方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011567270.2A CN112750464B (zh) 2020-12-25 2020-12-25 基于多传感器的人体发声状态检测方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN112750464A true CN112750464A (zh) 2021-05-04
CN112750464B CN112750464B (zh) 2023-05-23

Family

ID=75646073

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011567270.2A Active CN112750464B (zh) 2020-12-25 2020-12-25 基于多传感器的人体发声状态检测方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN112750464B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106601227A (zh) * 2016-11-18 2017-04-26 北京金锐德路科技有限公司 音频采集方法和装置
CN108551604A (zh) * 2018-04-26 2018-09-18 海尔优家智能科技(北京)有限公司 一种降噪方法、降噪装置及降噪耳机
CN109920451A (zh) * 2019-03-18 2019-06-21 恒玄科技(上海)有限公司 语音活动检测方法、噪声抑制方法和噪声抑制系统
CN110265012A (zh) * 2019-06-19 2019-09-20 泉州师范学院 基于开源硬件可交互智能语音家居控制装置及控制方法
CN112017696A (zh) * 2020-09-10 2020-12-01 歌尔科技有限公司 耳机的语音活动检测方法、耳机及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106601227A (zh) * 2016-11-18 2017-04-26 北京金锐德路科技有限公司 音频采集方法和装置
CN108551604A (zh) * 2018-04-26 2018-09-18 海尔优家智能科技(北京)有限公司 一种降噪方法、降噪装置及降噪耳机
CN109920451A (zh) * 2019-03-18 2019-06-21 恒玄科技(上海)有限公司 语音活动检测方法、噪声抑制方法和噪声抑制系统
CN110265012A (zh) * 2019-06-19 2019-09-20 泉州师范学院 基于开源硬件可交互智能语音家居控制装置及控制方法
CN112017696A (zh) * 2020-09-10 2020-12-01 歌尔科技有限公司 耳机的语音活动检测方法、耳机及存储介质

Also Published As

Publication number Publication date
CN112750464B (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
US10504539B2 (en) Voice activity detection systems and methods
US11830479B2 (en) Voice recognition method and apparatus, and air conditioner
CN102890557B (zh) 用于响应于麦克风输出的触摸手势检测的方法和系统
Li et al. A microphone array system for automatic fall detection
WO2018145584A1 (zh) 一种语音端点检测方法及语音识别方法
US8775173B2 (en) Erroneous detection determination device, erroneous detection determination method, and storage medium storing erroneous detection determination program
CN109346075A (zh) 通过人体振动识别用户语音以控制电子设备的方法和系统
KR100745977B1 (ko) 음성 구간 검출 장치 및 방법
US20190014429A1 (en) Blocked microphone detection
US20220319538A1 (en) Voice interactive wakeup electronic device and method based on microphone signal, and medium
CN109378013A (zh) 一种语音降噪方法
CN105096946A (zh) 基于语音激活检测的唤醒装置及方法
JP4682700B2 (ja) 音声認識装置
CN113239872B (zh) 事件识别方法、装置、设备及存储介质
CN109994129B (zh) 语音处理系统、方法和设备
CN209032422U (zh) 一种心音信号检测设备
KR20080075299A (ko) 뇌파를 이용한 단어 인식 시스템 및 단어 인식 방법
CN112750464A (zh) 基于多传感器的人体发声状态检测方法、系统及存储介质
CN112033656A (zh) 一种基于宽带谱处理的机械系统故障检测方法
CN111257890A (zh) 一种跌倒行为识别方法及装置
Craciun et al. Correlation coefficient-based voice activity detector algorithm
Sudhakar et al. Automatic speech segmentation to improve speech synthesis performance
Bratoszewski et al. Comparison of acoustic and visual voice activity detection for noisy speech recognition
KR100273395B1 (ko) 음성인식시스템의음성구간검출방법
CN111477213A (zh) 一种基于机器学习的声事件检测系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant