CN105989836B - 一种语音采集方法、装置及终端设备 - Google Patents
一种语音采集方法、装置及终端设备 Download PDFInfo
- Publication number
- CN105989836B CN105989836B CN201510098124.2A CN201510098124A CN105989836B CN 105989836 B CN105989836 B CN 105989836B CN 201510098124 A CN201510098124 A CN 201510098124A CN 105989836 B CN105989836 B CN 105989836B
- Authority
- CN
- China
- Prior art keywords
- voice
- user
- voice data
- features
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Abstract
本发明实施例提供一种语音采集方法、装置及终端设备,其中方法包括:采集用户语音数据;对所述用户语音数据进行预处理,剔除干扰语音,得到目标语音数据;提取所述目标语音数据的语音特征,以根据所述语音特征进行语音识别。本发明提升了所采集的语音数据的准确性,为后续语音识别的结果具有较高的准确性提供了基础。
Description
技术领域
本发明涉及语音识别技术领域,具体涉及一种语音采集方法、装置及终端设备。
背景技术
语音采集是语音识别的前置阶段,通过对用户发音进行语音数据采集,提取所采集的语音数据的语音特征,根据所提取的语音特征进行语音识别,可实现用户发音内容的确定,识别用户身份等目的;由于语音采集是语音识别的基础,因此提升语音采集的准确性显得尤为重要。
目前的语音采集方式为,使用设置于终端设备(如智能手机、平板电脑等用户设备)上的语音采集装置(如麦克风等)对用户发音进行采集,得到语音数据,而后对所采集的语音数据进行特征提取。本发明的发明人在研究过中发现,目前的语音采集方式存在如下问题:
由于用户发音场景、发音方式的复杂性,电子设备上的语音采集装置所采集的语音数据可能存在大量的干扰数据;如用户发音时,可能存在其他人体发音或者一些环境杂音,这将使得语音采集装置所采集的语音数据除用户语音外,还具有其他人体语音或者环境杂音;又如,由于用户发音方式的不同,一些用户在发音时会有一定时间的停顿,这将使得语音采集装置所采集的语音数据存在一段时间的空白语音。若是对这些存在大量干扰数据的语音数据进行语音特征提取,这将导致所提取的语音特征与用户本身发出的语音的语音特征存在较大差异,使得根据语音特征进行语音识别的结果的准确性较低。
可以看出,现有的语音采集方式在进行用户语音采集时,并没有考虑用户发音场景、发音方式的干扰因素,语音采集的准确性较低;因此如何提升语音采集的准确性,为后续语音识别的结果具有较高准确性提供基础,成为本领域技术人员需要考虑的问题。
发明内容
有鉴于此,本发明实施例提供一种语音采集方法、装置及终端设备,以解决现有语音采集方式在进行用户语音采集时,并没有考虑用户发音场景、发音方式的干扰因素,语音采集的准确性较低的问题。
为实现上述目的,本发明实施例提供如下技术方案:
一种语音采集方法,应用于终端设备,所述方法包括:
采集用户语音数据;
对所述用户语音数据进行预处理,剔除干扰语音,得到目标语音数据;
提取所述目标语音数据的语音特征,以根据所述语音特征进行语音识别。
本发明实施例还提供一种语音采集装置,应用于终端设备,所述装置包括:
采集模块,用于采集用户语音数据;
预处理模块,用于对所述用户语音数据进行预处理,剔除干扰语音,得到目标语音数据;
特征提取模块,用于提取所述目标语音数据的语音特征,以根据所述语音特征进行语音识别。
本发明实施例还提供一种终端设备,包括上述所述的语音采集装置。
基于上述技术方案,本发明实施例提供的语音采集方法中,终端设备在采集用户语音数据后,并不是直接对所采集的用户语音数据进行语音特征提取,而是先对所采集的用户语音数据进行预处理,剔除干扰语音,得到目标语音数据后;再提取所述目标语音数据的语音特征,以根据所述语音特征进行语音识别。本发明实施例提供的语音采集方法,可对所采集的用户语音数据进行预处理,剔除干扰语音,从而减小所采集的用户语音数据中的干扰数据,提升所采集的语音数据的准确性,从而为后续语音识别的结果具有较高的准确性提供了基础。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的语音采集方法的流程图;
图2为本发明实施例提供的对用户语音数据进行预处理的方法流程图;
图3为本发明实施例提供的从待识别人体语音数据中过滤其他人体的语音的方法流程图;
图4为本发明实施例提供的提取所述目标语音数据的语音特征的方法流程图;
图5为本发明实施例提供的提取所述目标语音数据的语音特征的另一方法流程图;
图6为本发明实施例提供的语音采集方法的另一流程图;
图7为本发明实施例提供的特征比对方法流程图;
图8为本发明实施例提供的语音采集方法的一个应用例示意图;
图9为本发明实施例提供的语音采集装置的结构框图;
图10为本发明实施例提供的预处理模块的结构框图;
图11为本发明实施例提供的第二过滤单元的结构框图;
图12为本发明实施例提供的第二过滤单元的另一结构框图;
图13为本发明实施例提供的特征提取模块的结构框图;
图14为本发明实施例提供的特征提取模块的另一结构框图;
图15为本发明实施例提供的语音采集装置的另一结构框图;
图16为本发明实施例提供的比对模块的结构框图;
图17为本发明实施例提供的终端设备的硬件结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的语音采集方法,可对采集的用户语音数据进行预处理,剔除干扰语音,减少语音数据中的干扰数据,得到准确性较高的目标语音数据;再对目标语音数据进行语音特征提取,则可提升根据语音特征进行语音识别后的结果的准确性;本发明实施例提供的语音采集方法,可实现准确性较高的语音数据采集,并为后续提升语音识别结果的准确性提供基础。
图1为本发明实施例提供的语音采集方法的流程图,该方法可应用于终端设备,终端设备可以如智能手机、平板电脑、笔记本电脑等用户设备;参照图1,该方法可以包括:
步骤S100、采集用户语音数据;
所采集的用户语音数据为原始语音数据;可选的,可通过终端设备内置或外置的语音采集装置(如麦克风)实现用户语音数据的采集。
步骤S110、对所述用户语音数据进行预处理,剔除干扰语音,得到目标语音数据;
为避免采集过程中,用户发音场景中其他语音、用户发音方式对用户语音的干扰,本发明实施例可对所采集的用户语音数据进行预处理(如过滤环境音,删除空白语音,剔除他人语音等),剔除所采集的用户语音数据中的干扰语音,得到干扰数据较小的目标语音数据;
步骤S120、提取所述目标语音数据的语音特征,以根据所述语音特征进行语音识别。
语音特征表征的是用户所发出语音的特点,可选用音调的标准差,音调最大值与最低值之差,音调的扰动特征,语音频谱的质心频,语音能量高于500Hz的比率,语音速度,语音的倒谱表示特征,语音基于Teager能量算子的非线性变换结果中的至少一种作为语音特征;显然,根据实际的语音识别场景,本发明实施例可设定语音特征的类型,从而采用适应的语音特征提取手段,对目标语音数据进行语音特征提取。
所提取的语音特征为进行语音识别的依据,可根据所提取的语音特征进行语音内容识别,用户身份识别,用户状态识别等;对于根据语音特征进行语音识别的具体应用,可视实际情况而定,本发明实施例不作限制。
本发明实施例提供的语音采集方法中,终端设备在采集用户语音数据后,并不是直接对所采集的用户语音数据进行语音特征提取,而是先对所采集的用户语音数据进行预处理,剔除干扰语音,得到目标语音数据后;再提取所述目标语音数据的语音特征,以根据所述语音特征进行语音识别。本发明实施例提供的语音采集方法,可对所采集的用户语音数据进行预处理,剔除干扰语音,从而减小所采集的用户语音数据中的干扰数据,提升所采集的语音数据的准确性,从而为后续语音识别的结果具有较高的准确性提供了基础。
可选的,预处理的过程主要是对环境音滤除、用户无效语音的删除(采集过程中可能会存在用户长时间的中断说话,导致长时间空白语音的情况),非用户的他人语音的滤除(对应用户处于与他人交谈的情况下进行语音采集)等。值得注意的是,预处理过程所需要涉及的处理手段,主要视实际的语音采集场景而定,若在用户阅读情况下进行语音采集,则显然非用户的他人语音的滤除部分可不采用。
对应的,对用户语音数据进行预处理,剔除干扰语音的过程中,可以为过滤用户发音场景的环境噪音,删除用户发音过程中的空白语音,过滤其他人体的语音等,得到仅有用户发出语音的目标语音数据。
下面以用户处于与他人交谈的情况下进行语音采集的场景为例,对用户语音数据的预处理过程进行说明;对应的,图2示出了本发明实施例提供的对用户语音数据进行预处理的方法流程图,参照图2,该方法可以包括:
步骤S200、提取所述用户语音数据中的人体语音,对所提取的人体语音进行过滤环境噪音和/或删除空白语音的处理,得到待识别人体语音数据;
可选的,对所述用户语音数据进行过滤环境噪音,还是进行删除空白语音的处理,还是两种手段均进行,可视用户设定情况而定;若用户的发音不存在较长时间的停顿,则用户可设定仅作过滤环境噪音处理;若用户处于较为安静的环境中发音,则用户可设定仅作删除空白语音的处理;显然,终端设备也可对所采集的用户语音数据,均进行过滤环境噪音和删除空白语音的处理。
可选的,所删除的空白语音,具体可指时间长度大于预定时间阈值的空白语音;预定时间阈值可以选择人体在说话情况下,正常的说话停顿时间,若原始语音数据中存在大于该预定时间阈值的空白语音,则确定该空白语音在人体非正常说话停顿时间内所采集,可进行删除;
所得到的待识别人体语音数据中包括用户语音与他人语音。
步骤S210、从所述待识别人体语音数据中过滤其他人体的语音,得到所述目标语音数据。
在语音采集过程中,可认为用户是距终端设备的距离比较近的声音源,而其他人体则相对距终端设备的距离比较远;本发明实施例可通过基于距离的语音识别法,将距离较近的人体语音确定为用户语音,距离较远的人体语音确定为其他人体语音。具体的,本发明实施例在从所述待识别人体语音数据中过滤其他人体的语音的过程中,可识别所述待识别人体语音数据中各人体的发音距离,将发音距离处于设定距离范围的人体语音数据,确定目标语音数据;对应的,发音距离不处于设定距离范围的人体语音数据,则可确定为非目标语音数据。
进一步,为保证从所述待识别人体语音数据中过滤其他人体的语音的准确性,本发明实施例还可结合距离的语音识别法与语音特征匹配方法,将距离较近的,且与设定的用户语音特征匹配的人体语音确定为目标语音数据。
图3示出了本发明实施例提供的从待识别人体语音数据中过滤其他人体的语音的方法流程图,参照图3,该方法可以包括:
步骤S300、识别所述待识别人体语音数据中各人体的发音距离;
步骤S310、确定发音距离处于设定距离范围的人体语音数据;
步骤S320、将所述发音距离处于设定距离范围的人体语音数据的语音特征,与设定的用户语音特征进行匹配;
步骤S330、判断匹配是否成功,若是,执行步骤S340,若否,执行步骤S350;
可选的,匹配过程可参照语音控制技术,可设定用户发音模型,通过设定用户发音模型与发音距离处于设定距离范围的人体语音数据的语音特征的匹配实现。
步骤S340、确定匹配成功的人体语音数据为所述目标语音数据;
步骤S350、确定所采集的用户语音数据中不存在所述目标语音数据。
可以看出,本发明实施例在采集用户语音数据后,可将所采集的用户语音数据中,发音距离处于设定距离范围内,且与设定的用户语音特征匹配成功的人体语音数据,确定为所述目标语音数据。
可选的,在提取目标语音数据的语音特征的过程中,本发明实施例可将目标语音数据在一段长时间的各类型语音特征的均值,作为所提取的语音特征,得到单维度的语音特征样本;或者将目标语音数据按照时间区间进行分段,取每段语音数据的各类型语音特征的均值,从而将各段语音数据的各类型语音特征的均值,组成一个特征数组,得到具有时间相关性的连续语音特征样本。
对应的,图4示出了本发明实施例提供的提取所述目标语音数据的语音特征的方法流程图,参照图4,该方法可以包括:
步骤S400、提取所述目标语音数据的原始语音特征;
将所述目标语音数据作为一个整体,对该整体作语音特征提取,得到各类型的语音特征,得到原始语音特征。
步骤S410、对所述原始语音特征中的同类型语音特征作取均值处理,得到所述目标语音数据的语音特征。
由于原始语音特征中各类型的语音特征均对应有一段采集时间,本发明实施例可将该采集时间中各类型的语音特征的均值,作为所述目标语音数据的语音特征;具体的,可对所述原始语音特征中的同类型语音特征作取均值处理,得到所述目标语音数据的语音特征。
图5示出了本发明实施例提供的提取所述目标语音数据的语音特征的另一方法流程图,参照图5,该方法可以包括:
步骤S500、将所述目标语音数据,按照设定时间区间分割为多段语音数据;
可选的,时间区间的长度可根据实际应用情况进行选取。
步骤S510、对各段语音数据提取语音特征,对各段语音数据提取的原始语音特征中的同类型语音特征作取均值处理,得到各段语音数据中的同类型语音特征的均值语音特征;
对各段语音数据提取语音特征,各段语音数据将得到对应的多个类型的语音特征;以各段语音数据为处理基础,本发明实施例可将各段语音数据提取的语音特征中的同类型语音特征作取均值处理,得到各段语音数据的各类型语音特征的均值。
步骤S520、将各段语音数据中的同类型语音特征的均值语音特征按照时间先后顺序,组成语音特征数组,得到所述目标语音数据的语音特征。
不同段的语音数据具有相同类型的语音特征,对于不同段的语音数据的同类型语音特征,本发明实施例可将各段语音数据中的同类型语音特征的均值语音特征按照时间先后顺序,组成语音特征数组,从而得到具有时间相关性的连续语音特征样本。
以目标语音数据分段为3段,语音特征类型为A、B和C三类为例,则第一段语音数据由于语音特征A对应有一定时间采集度,本发明实施例可将第一段语音数据的语音特征A作均值处理,得到语音特征A的均值语音特征;语音特征B和C的处理类似。这样就可得到第一段语音数据的语音特征A的均值语音特征,语音特征B的均值语音特征,语音特征C的均值语音特征;第二段语音数据的语音特征A的均值语音特征,语音特征B的均值语音特征,语音特征C的均值语音特征;第三段语音数据的语音特征A的均值语音特征,语音特征B的均值语音特征,语音特征C的均值语音特征;将第一段、第二段和第三段语音数据的同类型语音特征A的均值语音特征按照时间先后顺序组合,同类型语音特征B和C的处理类似;得到一个按照时间先后顺序组合的语音特征A的均值语音特征、按照时间先后顺序组合的语音特征B的均值语音特征、和按照时间先后顺序组合的语音特征C的均值语音特征构成的语音特征数组。
本发明实施例的语音采集方法的应用可以为进行语音内容的识别,用户身份的识别等;本发明实施例提供的语音采集方法的另一个应用为,进行用户心理压力的检测。
本发明的发明人研究发现,目前心理压力的检测方法主要有化学方法,皮肤导电性检测法,心电图检测法等;这些方法均需要特定的检测仪器,存在成本较高,操作较为麻烦的问题。本发明的发明人,基于人体感受到压力时,人体所发出语音的语音特征将会发生变化的性质,可将人体在正常无压力状态下所发出语音的语音特征,与当前采集的人体所发出语音的语音特征进行比对,若比对结果差异较大(如超过允许差异范围),则可确定当前采集的人体所发出的语音,为在人体处于压力状态下所发出的,实现人体是否处于压力状态的检测。
基于心理压力检测的应用场景,本发明实施例提供的语音特征类型可以包括:音调的标准差,和/或,音调最大值与最低值之差,和/或,音调的扰动特征,和/或,语音频谱的质心频,和/或,语音能量高于500Hz的比率,和/或,语音速度,和/或,语音的倒谱表示特征,和/或,语音基于Teager能量算子的非线性变换结果等;实际应用中本发明实施例可选取其中的至少一种类型的语音特征,或者加入其它更多的语音特征。
对应的,图6示出了本发明实施例提供的语音采集方法的另一流程图,参照图6,该方法可以包括:
步骤S600、采集用户语音数据;
步骤S610、对所述用户语音数据进行预处理,剔除干扰语音,得到目标语音数据;
步骤S620、提取所述目标语音数据的语音特征;
步骤S630、将所述语音特征与设定的用户无压力状态下的语音模型中的语音特征进行比对;
步骤S640、若比对结果符合预定条件,则确定用户当前处于无压力状态;
步骤S650、若比对结果不符合预定条件,则确定用户当前处于压力状态。
可选的,本发明实施例可采集用户在无压力状态下的语音数据,从而提取该无压力状态下的语音数据的语音特征,根据所提取的无压力状态下的语音数据的语音特征,并基于语音模型构建算法,构建用户无压力状态下的语音模型;
可选的,所构建的用户无压力状态下的语音模型,可以为高斯模型;高斯模型就是用高斯概率密度函数(正态分布曲线)精确地量化事物,将一个事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型,其本质是一种多维概率密度函数;本发明实施例可以用户无压力状态下的语音数据的语音特征为基础,结合高斯混合模型,进而采用相应的语音模型构建算法,得到用户无压力状态下的语音模型;该用户无压力状态下的语音模型表示的是,用户在无压力状态下所发出的语音的标准语音特征情况,可作为用户当前语音是否处于压力状态下的检测基准,显然实际应用中,可允许用户当前语音与该用户无压力状态下的语音模型存在一定的误差。
可选的,本发明实施例可通过指导用户在轻松的环境下阅读文章,或者与亲人朋友的谈话来实现用户在无压力状态下的语音数据的采集;显然,也可通过其他方式,实现用户在无压力状态下的语音数据的采集,只要保证采集语音时用户处于无压力状态即可;
可选的,在用户无压力状态下的语音数据的采集过程中,为减少对所采集的用户语音的干扰,本发明实施例也可采用图1所示方法对用户无压力状态下的语音数据进行采集,得到干扰数据较小的用户无压力状态下的语音数据;
进一步,为保证目标语音数据的语音特征与设定的用户无压力状态下的语音模型中的语音特征的比对的顺利进行,步骤S620所提取的目标语音数据的语音特征的类型,可与用户无压力状态下的语音模型中的语音特征的类型相一致。
本发明实施例可对所采集的用户语音数据进行预处理,剔除干扰语音,得到目标语音数据,将目标语音数据的语音特征,与设定的用户无压力状态下的语音模型中的语音特征进行比对;若比对结果的差异较大,则可确定用户当前处于压力状态;若比对结果的差异较小,则可确定用户当前处于无压力状态。
可选的,本发明实施例中,符合预定条件主要是指目标语音数据的语音特征,与设定的用户无压力状态下的语音模型中的语音特征的比对结果的差异较小;不符合预定条件主要是指目标语音数据的语音特征,与设定的用户无压力状态下的语音模型中的语音特征的比对结果的差异较大。具体的,本发明实施例可设置用户无压力状态下的语音模型中的语音特征的允许差异范围,若目标语音数据的语音特征,与设定的用户无压力状态下的语音模型中的语音特征的比对差值处于该允许差异范围内,则确定比对结果符合预定条件,若比对差值不处于该允许差异范围内,则确定比对结果不符合预定条件。
本发明实施例提供的语音采集方法,可应用于终端设备,终端设备预先设定用户无压力状态下的语音模型;在进行用户心理压力检测时,可采集用户语音数据,对用户语音数据进行预处理,剔除干扰语音,得到目标语音数据,提取所述目标语音数据中的语音特征,并将所述语音特征与设定的用户无压力状态下的语音模型中的语音特征进行比对,进而在比对结果符合预定条件时,确定用户当前不处于压力状态;在比对结果不符合预定条件时,确定用户当前处于压力状态。本发明实施例基于在人体感受到压力时,人体所发出语音的语音特征将会发生变化的现象,通过终端设备对当前采集的用户语音数据的语音特征,与用户无压力状态下的语音模型中的语音特征的比对结果的差异性,实现用户当前是否处于压力状态的检测;采用本发明,用户仅需在终端设备上装载相应的实现本发明实施例提供的语音采集方法的应用,从而通过该应用即可实现用户当前是否处于压力状态下的检测,无需其他附加设备的使用,成本较低,且操作便捷。
在目标语音数据的语音特征,与设定的用户无压力状态下的语音模型中的语音特征的比对过程中;本发明实施例可将目标语音数据的语音特征,与所述人体无压力状态下的语音模型中的语音特征的同类型语音特征作比对,得到两者同类型语音特征的差值,从而综合各同类型语音特征的差值,将综合结果与设定用户无压力状态下的语音模型中的语音特征的允许差异范围进行匹配,若该综合结果在该允许差异范围内,则确定用户当前不处于压力状态,若该综合结果不在该允许差异范围内,则确定用户当前处于压力状态;
具体的,允许差异范围可由于设定的压力临界值表示,该综合结果不大于压力临界值,则确定用户当前不处于压力状态,该综合结果大于设定的压力临界值,则确定用户当前处于压力状态。
图7示出了本发明实施例提供的特征比对方法流程图,参照图7,该方法可以包括:
步骤S700、将所述目标语音数据的语音特征,与所述人体无压力状态下的语音模型中的语音特征,进行同类型语音特征比对,得到各同类型语音特征的比对值;
步骤S710、将所述各同类型语音特征的比对值进行归一化处理,得到归一化数值;
归一化数值表示的是各同类型语音特征的差值的综合结果,为目标语音数据的语音特征,与人体无压力状态下的语音模型中的语音特征的比对结果。
步骤S720、判断所述归一化数值是否大于设定的压力临界值,若是,执行步骤S730,若否,执行步骤S740;
步骤S730、确定比对结果不符合预定条件,用户当前处于压力状态;
所述归一化数值大于设定的压力临界值,表明比对结果不处于设定用户无压力状态下的语音模型中的语音特征的允许差异范围内,确定比对结果不符合预定条件;压力临界值为允许差异范围的一种可选表现形式。
步骤S740、确定比对结果符合预定条件,用户当前不处于压力状态。
所述归一化数值不大于设定的压力临界值,表明比对结果处于设定用户无压力状态下的语音模型中的语音特征的允许差异范围内,确定比对结果符合预定条件。
图8为采用本发明实施例提供的语音采集方法,进行心理压力检测的一个应用例示意图,手机内装载有心理压力检测应用(可实现本发明实施例提供的语音采集方法),且手机内设置有用户无压力状态下的语音模型;在用户说话时,手机麦克风可采集用户的语音数据,手机对采集的语音数据进行预处理,剔除干扰语音,得到目标语音数据,将目标语音数据中的语音特征与用户无压力状态下的语音模型中的语音特征进行比对,从而在比对结果不符合预定条件时,确定用户当前处于压力状态,在比对结果符合预定条件时,确定用户当前不处于压力状态。
进一步,手机可处于实时检测状态或定时检测状态,可在用户说话时,根据说话特征与用户无压力状态下的语音模型中的语音特征的比对,判断用户当前是否处于压力状态;进一步,在手机实时检测或定时检测过程中,可对检测到的用户是否处于压力状态的结果及检测时刻进行记录,统计出一段时间内用户的心理压力变化趋势,从而使得用户明确知道某段时间(如每天)的心理压力变化情况,实现用户是否处于心理压力状态的实时监控。
值得注意的是,上文虽然具体描述了采用本发明实施例提供的语音采集方法进行心理压力检测的方案,但本发明实施例提供的语音采集方法的应用不仅限于此,还可进行诸如语音内容识别,用户身份识别等应用。
本发明实施例提供的语音数据采集方法,提升了语音采集的准确性,并为后续语音识别的结果具有较高准确性提供了基础。
下面对本发明实施例提供的语音采集装置进行介绍,下文描述的语音采集装置可与上文描述的语音采集方法相互对应参照。
图9为本发明实施例提供的语音采集装置的结构框图,该语音采集装置可应用于终端设备,终端设备可以如智能手机、平板电脑、笔记本电脑等用户设备;参照图9,该语音采集装置可以包括:
采集模块100,用于采集用户语音数据;
预处理模块200,用于对所述用户语音数据进行预处理,剔除干扰语音,得到目标语音数据;
特征提取模块300,用于提取所述目标语音数据的语音特征,以根据所述语音特征进行语音识别。
可选的,图10示出了本发明实施例提供的预处理模块200的结构框图,参照图10,该预处理模块200可以包括:
第一过滤单元210,用于提取所述用户语音数据中的人体语音,对所提取的人体语音进行过滤环境噪音和/或删除空白语音的处理,得到待识别人体语音数据;
第二过滤单元211,用于从所述待识别人体语音数据中过滤其他人体的语音,得到所述目标语音数据。
可选的,图11示出了本发明实施例提供的第二过滤单元211的一种可选结构,参照图11,第二过滤单元211可以包括:
第一距离识别子单元2111,用于识别所述待识别人体语音数据中各人体的发音距离;
第一结果确定子单元2112,用于将发音距离处于设定距离范围内的人体语音数据,确定所述目标语音数据。
可选的,图12示出了本发明实施例提供的第二过滤单元211的另一种可选结构,参照图12,第二过滤单元211可以包括:
第二距离识别子单元2121,用于识别所述待识别人体语音数据中各人体的发音距离;
第二结果确定子单元2122,用于确定发音距离处于设定距离范围内的人体语音数据;
第一匹配子单元2123,用于将所述发音距离处于设定距离范围内的人体语音数据的语音特征,与设定的用户语音特征进行匹配;
匹配结果确定子单元2124,用于若匹配成功,则确定所述发音距离处于设定距离范围内,且与设定的用户语音特征匹配成功的人体语音数据,为所述目标语音数据。
可选的,图13示出了本发明实施例提供的特征提取模块300的一种可选结构,参照图13,特征提取模块300可以包括:
提取执行单元310,用于提取所述目标语音数据的原始语音特征;
第一均值处理单元311,用于对所述原始语音特征中的同类型语音特征作取均值处理,得到所述目标语音数据的语音特征。
可选的,图14示出了本发明实施例提供的特征提取模块300的另一种可选结构,参照图14,特征提取模块300可以包括:
分割单元320,用于将所述目标语音数据,按照设定时间区间分割为多段语音数据;
第二均值处理单元321,用于对各段语音数据提取原始语音特征,对各段语音数据提取的原始语音特征中的同类型语音特征作取均值处理,得到各段语音数据中的同类型语音特征的均值语音特征;
组成单元322,用于将各段语音数据中的同类型语音特征的均值语音特征按照时间先后顺序,组成语音特征数组,得到所述目标语音数据的语音特征。
可选的,语音特征包括:音调的标准差,和/或,音调最大值与最低值之差,和/或,音调的扰动特征,和/或,语音频谱的质心频,和/或,语音能量高于500Hz的比率,和/或,语音速度,和/或,语音的倒谱表示特征,和/或,语音基于Teager能量算子的非线性变换结果。
本发明实施例的一个应用为进行用户心理压力检测,对应的,图15示出了本发明实施例提供的语音采集装置的另一结构框图,结合图9和图15所示,该语音采集装置还可以包括:
比对模块400,用于将所述语音特征与设定的用户无压力状态下的语音模型中的语音特征进行比对;
第一比对结果确定模块500,用于若比对结果符合预定条件,则确定用户当前处于无压力状态;
第二比对结果确定模块600,用于若比对结果不符合预定条件,则确定用户当前处于压力状态。
可选的,图16示出了本发明实施例提供的比对模块400的一种可选结构,参照图16,比对模块400可以包括:
差值确定单元410,用于将所述语音特征与所述语音模型中的语音特征,进行同类型语音特征比对,得到同类型语音特征的差值;
综合单元420,用于综合各同类型语音特征的差值,得到所述比对结果;
第一确定单元430,用于若所述比对结果处于所述语音模型中的语音特征的允许差异范围内,则确定比对结果符合预定条件;
第二确定单元440,用于若所述比对结果不处于所述语音模型中的语音特征的允许差异范围内,则确定比对结果不符合预定条件。
可选的,差值确定单元410具体可用于,将所述语音特征与所述语音模型中的语音特征,进行同类型语音特征比对,得到各同类型语音特征的比对值;
综合单元420具体可用于,将所述各同类型语音特征的比对值进行归一化处理,得到归一化数值;
第一确定单元430具体可用于,所述归一化数值不大于设定的压力临界值,则确定比对结果符合预定条件;
第二确定单元440具体可用于,所述归一化数值大于设定的压力临界值,则确定比对结果符合预定条件。
本发明实施例还提供一种终端设备,该终端设备可如智能手机、平板电脑、笔记本电脑等用户设备;该终端设备可以包括上述所述的语音采集装置。
本发明实施例提供的终端设备可对所采集的用户语音数据进行预处理,剔除干扰语音,从而减小所采集的用户语音数据中的干扰数据,提升了语音采集的准确性,并为后续语音识别的结果具有较高准确性提供了基础。进一步,本发明实施例提供的终端设备可实现用户当前是否处于压力状态下的检测,无需其他附加设备的使用,成本较低,且操作便捷。
图17为本发明实施例提供的终端设备的硬件结构框图,参照图17,终端设备可以包括:处理器1,通信接口2,存储器3和通信总线4;
其中处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
可选的,通信接口2可以为通信模块的接口,如GSM模块的接口;
处理器1,用于执行程序;
存储器3,用于存放程序;
程序可以包括程序代码,所述程序代码包括计算机操作指令。
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
其中,程序可具体用于:
采集用户语音数据;
对所述用户语音数据进行预处理,剔除干扰语音,得到目标语音数据;
提取所述目标语音数据的语音特征,以根据所述语音特征进行语音识别。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种基于语音采集的人体压力状态检测方法,其特征在于,应用于终端设备,所述方法包括:
通过终端设备内置或外置的语音采集装置采集用户原始语音数据;
对所述用户原始语音数据进行以下预处理,以剔除干扰语音,得到仅有用户发出语音的目标语音数据;其中,所述预处理包括:
提取所述用户原始语音数据中的人体语音,对所提取的人体语音进行过滤环境噪音和/或删除时间长度大于预定时间阈值的空白语音的处理,得到包括用户语音与他人语音的待识别人体语音数据;
识别所述待识别人体语音数据中各人体的发音距离;
确定所述发音距离处于设定距离范围的人体语音数据;
将所述发音距离处于设定距离范围的人体语音数据的语音特征,与设定的用户语音特征进行匹配,并将匹配成功的人体语音数据确定为所述仅有用户发出语音的目标语音数据;
将所述仅有用户发出语音的目标语音数据,按照设定时间区间分割为多段语音数据;
对各段语音数据提取原始语音特征,得到各段语音数据对应的多个类型的语音特征,对各段语音数据提取的原始语音特征中的同类型语音特征作取均值处理,得到各段语音数据中的同类型语音特征的均值语音特征;其中,语音特征至少包括:语音频谱的质心频,语音能量高于预设值的比率、语音的倒谱表示特征,语音基于Teager能量算子的非线性变换结果中的至少一种;所述同一段语音数据具有多个类型的语音特征,不同段的语音数据具有相同类型的语音特征;
将所述各段语音数据中的同类型语音特征的均值语音特征按照时间先后顺序,组成语音特征数组,得到所述目标语音数据的具有时间相关性的连续语音特征样本;
将所述目标语音数据的具有时间相关性的连续语音特征样本与设定的用户无压力状态下的语音模型中的语音特征进行比对,以确定用户当前是否处于无压力状态。
2.根据权利要求1所述的语音采集方法,其特征在于,还包括:
若比对结果符合预定条件,则确定用户当前处于无压力状态;
若比对结果不符合预定条件,则确定用户当前处于压力状态。
3.根据权利要求2所述的语音采集方法,其特征在于,所述将所述目标语音数据的具有时间相关性的连续语音特征样本与设定的用户无压力状态下的语音模型中的语音特征进行比对,包括:
将所述目标语音数据的具有时间相关性的连续语音特征样本与所述语音模型中的语音特征,进行同类型语音特征比对,得到同类型语音特征的差值;
综合各同类型语音特征的差值,得到比对结果;
若所述比对结果处于所述语音模型中的语音特征的允许差异范围内,则确定比对结果符合预定条件;
若所述比对结果不处于所述语音模型中的语音特征的允许差异范围内,则确定比对结果不符合预定条件。
4.根据权利要求1所述的方法,其特征在于,所述语音模型为高斯混合模型。
5.根据权利要求1所述的方法,其特征在于,所述通过终端设备内置或外置的语音采集装置采集用户原始语音数据,包括:
通过终端设备内置或外置的语音采集装置实时采集用户原始语音数据,或者,
通过终端设备内置或外置的语音采集装置定时采集用户原始语音数据。
6.根据权利要求1所述的方法,其特征在于,还包括:
对检测到的用户是否处于无压力状态的结果及检测时刻进行记录;
统计一段时间内用户的压力状态变化趋势。
7.一种基于语音采集的人体压力状态检测装置,其特征在于,应用于终端设备,所述装置包括:
采集模块,用于通过终端设备内置或外置的语音采集装置采集用户原始语音数据;
预处理模块,用于对所述用户原始语音数据进行以下预处理,以剔除干扰语音,得到仅有用户发出语音的目标语音数据;其中,所述预处理包括:提取所述用户原始语音数据中的人体语音,对所提取的人体语音进行过滤环境噪音和/或删除时间长度大于预定时间阈值的空白语音的处理,得到包括用户语音与他人语音的待识别人体语音数据;识别所述待识别人体语音数据中各人体的发音距离;确定所述发音距离处于设定距离范围的人体语音数据;将所述发音距离处于设定距离范围的人体语音数据的语音特征,与设定的用户语音特征进行匹配,并将匹配成功的人体语音数据确定为所述仅有用户发出语音的目标语音数据;
特征提取模块,用于将所述仅有用户发出语音的目标语音数据,按照设定时间区间分割为多段语音数据;对各段语音数据提取原始语音特征,得到各段语音数据对应的多个类型的语音特征,对各段语音数据提取的原始语音特征中的同类型语音特征作取均值处理,得到各段语音数据中的同类型语音特征的均值语音特征;其中,语音特征至少包括:语音频谱的质心频,语音能量高于预设值的比率、语音的倒谱表示特征,语音基于Teager能量算子的非线性变换结果中的至少一种;所述同一段语音数据具有多个类型的语音特征,不同段的语音数据具有相同类型的语音特征;将所述各段语音数据中的同类型语音特征的均值语音特征按照时间先后顺序,组成语音特征数组,得到所述目标语音数据的具有时间相关性的连续语音特征样本;
比对模块,用于将所述目标语音数据的具有时间相关性的连续语音特征样本与设定的用户无压力状态下的语音模型中的语音特征进行比对,以确定用户当前是否处于无压力状态。
8.根据权利要求7所述的语音采集装置,其特征在于,还包括:
第一比对结果确定模块,用于若比对结果符合预定条件,则确定用户当前处于无压力状态;
第二比对结果确定模块,用于若比对结果不符合预定条件,则确定用户当前处于压力状态。
9.一种终端设备,其特征在于,包括权利要求7-8任一项所述的语音采集装置。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1-6任一项所述的基于语音采集的人体压力状态检测方法的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510098124.2A CN105989836B (zh) | 2015-03-06 | 2015-03-06 | 一种语音采集方法、装置及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510098124.2A CN105989836B (zh) | 2015-03-06 | 2015-03-06 | 一种语音采集方法、装置及终端设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105989836A CN105989836A (zh) | 2016-10-05 |
CN105989836B true CN105989836B (zh) | 2020-12-01 |
Family
ID=57039721
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510098124.2A Active CN105989836B (zh) | 2015-03-06 | 2015-03-06 | 一种语音采集方法、装置及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105989836B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106504510B (zh) * | 2016-11-11 | 2021-07-06 | 青岛海尔智能家电科技有限公司 | 一种远程红外控制方法及装置 |
CN106790942B (zh) * | 2016-12-28 | 2019-08-09 | 努比亚技术有限公司 | 语音信息智能保存方法及装置 |
CN107230478A (zh) * | 2017-05-03 | 2017-10-03 | 上海斐讯数据通信技术有限公司 | 一种语音信息处理方法及系统 |
CN107945815B (zh) * | 2017-11-27 | 2021-09-07 | 歌尔科技有限公司 | 语音信号降噪方法及设备 |
CN108648758B (zh) * | 2018-03-12 | 2020-09-01 | 北京云知声信息技术有限公司 | 医疗场景中分离无效语音的方法及系统 |
CN108630208B (zh) * | 2018-05-14 | 2020-10-27 | 平安科技(深圳)有限公司 | 服务器、基于声纹的身份验证方法及存储介质 |
CN108962237B (zh) * | 2018-05-24 | 2020-12-04 | 腾讯科技(深圳)有限公司 | 混合语音识别方法、装置及计算机可读存储介质 |
CN109087633A (zh) * | 2018-08-23 | 2018-12-25 | 北京猎户星空科技有限公司 | 语音测评方法、装置及电子设备 |
CN109658776A (zh) * | 2018-12-17 | 2019-04-19 | 广东小天才科技有限公司 | 一种背诵流畅度的检测方法及电子设备 |
CN109859745A (zh) * | 2019-03-27 | 2019-06-07 | 北京爱数智慧科技有限公司 | 一种音频处理方法、设备及计算机可读介质 |
CN111883159A (zh) * | 2020-08-05 | 2020-11-03 | 龙马智芯(珠海横琴)科技有限公司 | 语音的处理方法及装置 |
CN112331225B (zh) * | 2020-10-26 | 2023-09-26 | 东南大学 | 一种高噪声环境下辅助听力的方法及装置 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040002859A1 (en) * | 2002-06-26 | 2004-01-01 | Chi-Min Liu | Method and architecture of digital conding for transmitting and packing audio signals |
CN100514446C (zh) * | 2004-09-16 | 2009-07-15 | 北京中科信利技术有限公司 | 一种基于语音识别及语音分析的发音评估方法 |
US7966182B2 (en) * | 2006-06-20 | 2011-06-21 | Lunis Orcutt | Voiced programming system and method |
US8204747B2 (en) * | 2006-06-23 | 2012-06-19 | Panasonic Corporation | Emotion recognition apparatus |
CN101506874B (zh) * | 2006-09-13 | 2011-12-07 | 日本电信电话株式会社 | 情感检测方法、情感检测装置 |
JP5198046B2 (ja) * | 2007-12-07 | 2013-05-15 | 株式会社東芝 | 音声処理装置及びそのプログラム |
US8195460B2 (en) * | 2008-06-17 | 2012-06-05 | Voicesense Ltd. | Speaker characterization through speech analysis |
CN102074232B (zh) * | 2009-11-25 | 2013-06-05 | 财团法人资讯工业策进会 | 结合影音的行为辨识系统及其辨识方法 |
JP5085700B2 (ja) * | 2010-08-30 | 2012-11-28 | 株式会社東芝 | 音声合成装置、音声合成方法およびプログラム |
CN102074231A (zh) * | 2010-12-30 | 2011-05-25 | 万音达有限公司 | 语音识别方法和语音识别系统 |
CN102637433B (zh) * | 2011-02-09 | 2015-11-25 | 富士通株式会社 | 识别语音信号中所承载的情感状态的方法和系统 |
JP5803125B2 (ja) * | 2011-02-10 | 2015-11-04 | 富士通株式会社 | 音声による抑圧状態検出装置およびプログラム |
CN102436807A (zh) * | 2011-09-14 | 2012-05-02 | 苏州思必驰信息科技有限公司 | 自动生成重读音节语音的方法和系统 |
CN102881284B (zh) * | 2012-09-03 | 2014-07-09 | 江苏大学 | 非特定人语音情感识别方法及系统 |
CN103093752A (zh) * | 2013-01-16 | 2013-05-08 | 华南理工大学 | 一种基于手机语音的情感分析方法及其系统 |
CN103531207B (zh) * | 2013-10-15 | 2016-07-27 | 中国科学院自动化研究所 | 一种融合长跨度情感历史的语音情感识别方法 |
CN103634472B (zh) * | 2013-12-06 | 2016-11-23 | 惠州Tcl移动通信有限公司 | 根据通话语音判断用户心情及性格的方法、系统及手机 |
CN104008754B (zh) * | 2014-05-21 | 2017-01-18 | 华南理工大学 | 一种基于半监督特征选择的语音情感识别方法 |
CN104200805B (zh) * | 2014-08-30 | 2018-01-19 | 长城汽车股份有限公司 | 汽车驾驶员语音助手 |
-
2015
- 2015-03-06 CN CN201510098124.2A patent/CN105989836B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN105989836A (zh) | 2016-10-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105989836B (zh) | 一种语音采集方法、装置及终端设备 | |
CN108305615B (zh) | 一种对象识别方法及其设备、存储介质、终端 | |
CN107799126B (zh) | 基于有监督机器学习的语音端点检测方法及装置 | |
CN110556126B (zh) | 语音识别方法、装置以及计算机设备 | |
WO2021042537A1 (zh) | 语音识别认证方法及系统 | |
US9792898B2 (en) | Concurrent segmentation of multiple similar vocalizations | |
CN110767239A (zh) | 一种基于深度学习的声纹识别方法、装置及设备 | |
CN107945793A (zh) | 一种语音激活检测方法及装置 | |
CN110570870A (zh) | 一种文本无关的声纹识别方法、装置及设备 | |
CN109997186B (zh) | 一种用于分类声环境的设备和方法 | |
CN109065026B (zh) | 一种录音控制方法及装置 | |
CN110689885A (zh) | 机器合成语音识别方法、装置、存储介质及电子设备 | |
CN113409771A (zh) | 一种伪造音频的检测方法及其检测系统和存储介质 | |
EP3816996B1 (en) | Information processing device, control method, and program | |
JP2015055835A (ja) | 話者認識装置、話者認識方法及び話者認識プログラム | |
JP4447857B2 (ja) | 音声検出装置 | |
CN107993666B (zh) | 语音识别方法、装置、计算机设备及可读存储介质 | |
CN112509597A (zh) | 录音数据识别方法和装置、录音设备 | |
CN111108553A (zh) | 一种声音采集对象声纹检测方法、装置和设备 | |
CN113178196B (zh) | 音频数据提取方法、装置、计算机设备和存储介质 | |
Kyriakides et al. | Isolated word endpoint detection using time-frequency variance kernels | |
CN110895929B (zh) | 语音识别方法及装置 | |
CN116127366B (zh) | 一种基于tws耳机的情绪识别方法、系统及介质 | |
CN111508503B (zh) | 一种识别同一说话人的方法和装置 | |
CN112634942B (zh) | 一种手机录音原始性的鉴定方法、存储介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |