CN107533415A - 声纹检测的方法和装置 - Google Patents

声纹检测的方法和装置 Download PDF

Info

Publication number
CN107533415A
CN107533415A CN201580079562.2A CN201580079562A CN107533415A CN 107533415 A CN107533415 A CN 107533415A CN 201580079562 A CN201580079562 A CN 201580079562A CN 107533415 A CN107533415 A CN 107533415A
Authority
CN
China
Prior art keywords
feature
audio signal
expiratory airflow
vocal print
threshold value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201580079562.2A
Other languages
English (en)
Other versions
CN107533415B (zh
Inventor
范姝男
郜文美
魏卓
秦超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN107533415A publication Critical patent/CN107533415A/zh
Application granted granted Critical
Publication of CN107533415B publication Critical patent/CN107533415B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Telephone Function (AREA)
  • Toys (AREA)

Abstract

一种声纹检测的方法和装置,该方法包括:当音频信号部分的声纹特征与预设声纹特征的匹配度超过预设的阈值,且判断信号部分的呼气气流特征与音频特征部分的呼气气流特征的匹配度超过预设的阈值时,判断声纹检测结果为检测成功(S206)。该声纹检测的方法和装置,提高了声纹解锁的安全性。

Description

声纹检测的方法和装置 技术领域
本发明涉及电子技术领域,尤其涉及一种声纹检测的方法和装置。
背景技术
随着移动终端和智能交互的发展,终端设备成为人们日常生活中必不可少的一部分。为了保护用户在终端设备中存储的隐私信息,大部分终端设备都提供有密码保护解锁功能,当终端设备处于锁定状态时,用户只有输入正确的密码才可以解锁终端设备。目前,终端解锁的方法很多,由于语音解锁相较于其他解锁方法具有较高的安全性,已成为一种应用广泛的解锁方法。终端设备或应用软件提供语音解锁的功能,通过语音解锁来验证用户,进一步解锁终端设备,或提供服务等。
目前,语音解锁主要通过声纹解锁来验证用户,解锁时通过将用户输入的声音信号与预设的声音信号进行比较,若确定用户输入的声纹与预设声纹匹配,即确定是一个人,则进行解锁。
然而,采用目前的声纹解锁方法,不能防止录音攻击,即对用户说出的声纹识别的文本进行录音,将录音的声纹识别的文本播放出来进行声纹解锁,也可以成功解锁,使得声纹解锁存在安全隐患,安全性不高。
发明内容
本发明提供一种声纹检测的方法和装置,提高了声纹解锁的安全性。
第一方面,本发明提供的声纹检测的方法,包括:终端检测是否有声音信号,若终端检测有声音信号,则终端接收声音信号,终端提取声音信号的音频信号部分和判断信号部分,将音频信号部分的声纹特征与预设声纹特征进行比对,将判断信号部分的呼气气流特征与音频信号部分的呼气气流特征进行比对,当音频信号部分的声纹特征与预设声纹特征的匹配度超过预设的阈值,且判断信号部分的呼气气流特征与音频特征部分的呼气气流特征的匹配度超过预设的阈值时,判断声纹检测结果为检测成功。使得终端识别声音 信号时,将声音信号分为音频信号部分和判断信号部分,实现对声音信号的双重识别,同时,有效避免了用户边播放录音边对口型吹气的情况,提高了声纹解锁的安全性。
在一种可能的实现方式中,接收判断信号部分中大于预设气流阈值的呼气气流特征;将呼气气流特征进行量化;将量化后的呼气气流特征与音频信号部分对应的文本所对应的呼气气流特征进行比对;若量化后的呼气气流特征与音频信号部分的呼气气流特征匹配度超过预设的阈值,则判断信号部分的呼气气流特征与所述音频特征部分的呼气气流特征的匹配度超过预设的阈值。通过将量化后的呼气气流特征与音频信号部分的呼气气流特征进行比对,实现判断量化后的呼气气流特征与音频信号部分的呼气气流特征匹配度是否超过预设的阈值,进而提高吹气信号识别的准确性。
在一种可能的实现方式中,将呼气气流特征与预设气流门限值比对,若呼气气流特征大于预设气流门限值,则将呼气流特征量化为1;否则,将呼气流量特征量化为0;若以下两种情况中的至少一种:呼气气流特征量化为1,且音频信号部分对应的文本为送气音;呼气气流特征量化为0,且音频信号部分对应的文本为不送气音,则量化后的呼气气流特征与音频信号部分的呼气气流特征匹配度超过预设的阈值。通过将呼气气流特征与预设气流门限值比对,实现将呼气气流特征进行量化。
在一种可能的实现方式中,判断判断信号部分的指向方向特征与音频信号部分的指向方向特征是否在预设范围内;当音频信号部分的声纹特征与预设声纹特征的匹配度超过预设的阈值,且判断信号部分的呼气气流特征与音频特征部分的呼气气流特征的匹配度超过预设的阈值,以及判断信号部分的指向方向特征与音频信号部分的指向方向特征在预设范围内时,判断声纹检测结果为检测成功。通过判断声音信号中的音频信号与吹气信号是否来自同一指向性方向,有效避免了播放录音和对口型吹气的方向可能不一致的情况,提高了声纹解锁的安全性。
在一种可能的实现方式中,分别将判断信号部分的指向方向的角度和音频信号部分的指向方向的角度与预设指向角度阈值比对;若判断信号部分的指向方向的角度和音频信号部分的指向方向的角度均小于预设指向角度阈值,则判断信号部分的指向方向特征与音频信号部分的指向方向特征在预设 范围内。通过分别将判断信号部分的指向方向的角度和音频信号部分的指向方向的角度与预设指向角度阈值比对,从而实现判断判断信号部分的指向方向特征与音频信号部分的指向方向特征是否在预设范围内。
在一种可能的实现方式中,将判断信号部分的感知温度特征与预设温度阈值比对;当音频信号部分的声纹特征与预设声纹特征的匹配度超过预设的阈值,且判断信号部分的呼气气流特征与音频特征部分的呼气气流特征的匹配度超过预设的阈值,判断信号部分的指向方向特征与音频信号部分的指向方向特征在预设范围内,以及判断信号部分的感知温度特征大于等于预设温度阈值时,判断声纹检测结果为检测成功。通过确定判断信号部分的感知温度特征是否大于等于预设温度阈值,进而判断终端接收的声音信号来自用户,而不是录音的电子设备,从而避免了录音攻击,提高了声纹解锁的安全性。
在一种可能的实现方式中,在终端提取声音信号的音频信号部分和判断信号部分之前,还包括:终端将声音信号分离为音频信号部分和判断信号部分;具体的,终端将声音信号采用第一预设频率的滤波器进行滤波,得到音频信号部分;终端将声音信号采用第二预设频率的滤波器进行滤波,得到判断信号部分;其中,第一预设频率的滤波器为高通滤波器,第二预设频率的滤波器为低通滤波器。通过将声音信号通过预设频率的滤波器,实现对声音信号分离为音频信号部分和判断信号部分。
在一种可能的实现方式中,音频信号部分的声纹特征包括:声纹波形和信号频率中的至少一个;通过以下两种情况中的至少一种:将音频信号部分的声纹波形与预设声纹样本特征波形进行比对;将音频信号部分的信号频率与预设声纹样本特征频率进行比对;若音频信号部分的声纹波形与预设声纹样本特征波形的匹配度超过预设的阈值;和/或,音频信号部分的信号频率与预设声纹样本特征频率的匹配度超过预设的阈值,则音频信号部分的声纹特征与预设声纹特征的匹配度超过预设的阈值。通过将音频信号部分的声纹波形与预设声纹样本特征波形进行比对;和/或,将音频信号部分的信号频率与预设声纹样本特征频率进行比对,实现将音频信号部分的声纹特征与预设声纹特征进行比对。
在一种可能的实现方式中,还包括:终端采集用户所发出的声音信号,对声音信号进行特征分析获取预设声纹特征并存储。通过终端事先采集用户 所发出的声音信号,并对该声音信号分析作为预设声纹特征并存储,确保预设声纹特征的准确性,从而提高音频信号部分的声纹特征与预设声纹特征的匹配的准确性,进而提高声纹解锁的安全性。
在一种可能的实现方式中,还包括:终端获取声音信号对应的用户输出声音时呼出的气流特征。实现判断信号部分的呼气气流特征的获取,确保将判断信号部分的呼气气流特征与音频信号部分的呼气气流特征进行比对。
在一种可能的实现方式中,还包括:终端获取声音信号对应的用户输出声音的方向。实现判断信号部分的指向方向特征的获取,确保判断信号部分的指向方向特征与音频信号部分的指向方向特征在预设范围内。
在一种可能的实现方式中,还包括:终端获取声音信号对应的用户输出声音时的温度。实现判断信号部分的感知温度特征的获取,确保判断信号部分的感知温度特征与预设温度阈值比对。
第二方面,本发明提供的终端,包括:检测模块,用于检测是否有声音信号;接收模块,用于接收声音信号;提取模块,用于提取声音信号的音频信号部分和判断信号部分;第一匹配模块,用于将音频信号部分的声纹特征与预设声纹特征进行比对;将判断信号部分的呼气气流特征与音频信号部分的呼气气流特征进行比对;其中,呼气气流特征为声音信号对应的用户输出声音时呼出的气流的特征;判断模块,用于当音频信号部分的声纹特征与预设声纹特征的匹配度超过预设的阈值,且判断信号部分的呼气气流特征与音频特征部分的呼气气流特征的匹配度超过预设的阈值时,判断声纹检测结果为检测成功。使得终端识别声音信号时,将声音信号分为音频信号部分和判断信号部分,实现对声音信号的双重识别,同时,有效避免了用户边播放录音边对口型吹气的情况,提高了声纹解锁的安全性。
第三方面,本发明提供的终端,包括:麦克风和处理器;麦克风,用于检测是否有声音信号;若检测有声音信号,则接收声音信号;处理器,用于提取声音信号的音频信号部分和判断信号部分;将音频信号部分的声纹特征与预设声纹特征进行比对;将判断信号部分的呼气气流特征与音频信号部分的呼气气流特征进行比对;其中,呼气气流特征为声音信号对应的用户输出声音时呼出的气流的特征;当音频信号部分的声纹特征与预设声纹特征的匹配度超过预设的阈值,且判断信号部分的呼气气流特征与音频特征部分的呼气 气流特征的匹配度超过预设的阈值时,判断声纹检测结果为检测成功。使得终端识别声音信号时,将声音信号分为音频信号部分和判断信号部分,实现对声音信号的双重识别,同时,有效避免了用户边播放录音边对口型吹气的情况,提高了声纹解锁的安全性。
第四方面,本发明提供的非易失性计算机可读存储介质,非易失性计算机可读存储介质存储计算机指令,计算机指令用于使控制缓存刷盘的装置执行上述方法中的操作。
本发明提供的声纹检测的方法和装置,通过终端检测是否有声音信号,若终端检测有声音信号,则终端接收声音信号,终端提取声音信号的音频信号部分和判断信号部分,将音频信号部分的声纹特征与预设声纹特征进行比对,将判断信号部分的呼气气流特征与音频信号部分的呼气气流特征进行比对,当音频信号部分的声纹特征与预设声纹特征的匹配度超过预设的阈值,且判断信号部分的呼气气流特征与音频特征部分的呼气气流特征的匹配度超过预设的阈值时,判断声纹检测结果为检测成功。使得终端识别声音信号时,将声音信号分为音频信号部分和判断信号部分,实现对声音信号的双重识别,同时,有效避免了用户边播放录音边对口型吹气的情况,提高了声纹解锁的安全性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1A为本发明实施例提供的声纹解锁的场景示意图;
图1B为本发明实施例提供的声纹密码设置的场景示意图;
图2为本发明实施例一提供的声纹检测的方法流程图;
图3A为本发明实施例一提供的吹气信号的量化示意图;
图3B为本发明实施例二提供的吹气信号的量化示意图;
图4为本发明实施例一提供的声纹检测的过程示意图;
图5为本发明实施例二提供的声纹检测的方法流程图;
图6为本发明实施例一提供的声音信号的指向方向的角度的示意图;
图7为本发明实施例三提供的声纹检测的方法流程图;
图8为本发明实施例四提供的声纹检测的方法流程图;
图9为本发明实施例一提供的终端结构示意图;
图10为本发明实施例二提供的终端结构示意图;
图11为本发明实施例三提供的终端结构示意图;
图12为本发明实施例四提供的终端结构示意图;
图13为本发明实施例一提供的声纹检测的方装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1A为本发明实施例提供的声纹解锁的场景示意图。如图1A所示,终端设备或应用软件提供了声纹解锁的功能,用户通过说出相应的声纹密码,终端通过声纹解锁来验证用户,进一步解锁设备,或提供服务。声纹识别一般包括两种:1、声纹识别时识别的文本内容是预先设定的:每次解锁时,重复相同的用户预先设定好的文本识别(例如,芝麻开门);或为了提升安全,声纹识别时,电子设备随机生成一些文字或数字密码,用户读出提示的随机密码,来保证声纹识别的安全;2、声纹识别时识别的文本内容是随机设定的:设置时用户随机说一些话,电子设备提取用户的特征参数后,识别用户,当需要声纹识别时,用户说话即可辨认出为机主。图1B为本发明实施例提供的声纹密码设置的场景示意图,如图1B所示,用户可以对声纹密码进行设置,可以预先定义一个声纹密码,例如微信通过定义一个声纹密码,用户说出声纹密码“芝麻开门”后,终端通过麦克风来成功录入用户的声纹密码,用户通过该声纹密码来登录帐号,终端通过验证用户输入的声纹密码来确定是否让用户登录账号。
图2为本发明实施例一提供的声纹检测的方法流程图。如图2所示,本发明实施例提供的方法,包括:
S201:终端检测是否有声音信号。
需要说明的是,本发明实施例所涉及的终端具备接收语音的功能,终端可以包括但不仅限于手机、平板电脑等移动通信设备。
具体的,用户在需要解锁验证时,会向终端发出声音信号(语音信号),比如,用户发出的声音信号可以是用户说出预先设定好的声纹密码“芝麻开门”,或是用户呼叫语音助手的名字,例如“小冰”,“hello google”等,也可以是用户读出终端随机生成的文字或数字密码,可以是用户随机说一段话。终端在未解锁状态时,检测是否有用户发出的语音信号,若终端在未解锁状态时检测有用户发出的声音信号,即检测有声纹识别信号时,对用户发出的声音信号进行识别。
可选的,本发明实施例中终端并不是一直处于活体声纹识别模式,只是当终端检测有声纹识别信号时,进入活体声纹识别模式后,对用户发出的声音信号进行识别。终端处于未解锁(待机)状态,当需要声纹识别时,进入活体声纹识别模式,例如终端进入待锁屏模式、应用软件待声纹解锁、识别用户嘴部接近麦克风、或识别用户对着麦克风说话等场景或任一场景的组合时,则进入活体声纹识别模式。其中嘴部接近麦克风可通过例如接近传感器、超声波传感器、红外传感器等传感器来判断并进入活体声纹识别模式。活体声纹识别模式需要终端开启相应的模块,以便对接收到的声纹识别信号进行相应的分析处理,具体包括例如录音模块,声纹识别模块,温度计模块,光传感器模块,指向性监听模块、超声波传感器、红外传感器中任意模块或模块组合来进入活体声纹识别模式。可选的,本发明实施例的终端也可以一直处于活体声纹识别模式,只要检测到有声纹识别信号时,就可以对用户发出的声音信号进行识别。本发明实施主要以终端检测有声音信号时,进入活体声纹识别模式为例进行阐述,但并不仅限于此。
需要说明的是,声纹是用电声学仪器显示的携带声音信号(语音信号)的声波频谱,由于不同的人的发声的习惯不同,使得不同的人的发声气流不同,造成发声的音质、音色等存在差别,每一个的声纹都不相同。声纹识别是生物识别的一种,用以确认某段语音是否是指定的某个人所说的。声纹识别信号为终端在未解锁状态时检测到的声音信号(语音信号),声纹识别信号中包含用户声纹的语音信号,终端可以根据声纹识别信号识别出声音信号 中用户的声纹是否是指定用户的声纹,以确认检测到的声音信号是否是指定的用户所说的。
S202:若终端检测有声音信号,则终端接收声音信号。
具体的,当检测有声音信号时,终端可以通过麦克风接收声音信号。可选的,终端接收声音信号后并将接收的声音信号存储。其中为了避免错漏检测到声纹识别信号的声音信号,终端可能一直处于监听状态,并缓存接收到的声音信号,以便当终端进入活体声纹识别模式时有完整的声纹识别信号以供分析处理。
S203:终端提取声音信号的音频信号部分和判断信号部分。
具体的,声音信号中可以包括用户说话声音的音频信号和用户说话时的感知温度,也可以包括用户说话声音的音频信号和声音信号的方向,也可以包括用户说话声音的音频信号和用户说话时呼气的信号,终端可以将声音信号分为音频信号部分和判断信号部分,其中,音频信号部分可以包括声音信号中的音频信号的声纹特征,判断信号部分可以包括用户说话时的感知温度、声音信号的方向和用户说话时呼气的信号中至少一个,举例来说,终端可以通过温度传感器获取声音信号中用户说话时的感知温度;终端也可以通过麦克风阵列获取声音信号的指向性方向;终端也可以通过预设频率的滤波器(低通滤波器)获取用户说话时呼气的信号。
S204:将音频信号部分的声纹特征与预设声纹特征进行比对。
具体的,终端将音频信号部分的声纹特征与预设声纹特征进行比对,判断音频信号部分的声纹特征与预设声纹特征是否匹配。
本发明实施例中,在终端进入待机状态之前,用户可在终端中对活体声纹识别进行设置,包括接收用户预设的语音信号,例如给出“芝麻开门”四个字,用户读出该预设的文本,终端记录下用户语音信号,该语音信号包括该用户读出该预设文本的音频信号,该音频信号具备声纹识别特征,将该音频信号的声纹识别特征作为预设声纹特征。
可选的,声纹特征可以包括:音频信号的声纹波形和音频信号的信号频率中的至少一个。将音频信号部分的声纹特征与预设声纹特征进行比对可以通过以下两种情况中的至少一种:
一种情况:将音频信号部分的声纹波形与预设声纹样本特征波形进行比 对。
另一种情况:将音频信号部分的信号频率与预设声纹样本特征频率进行比对。
S205:将判断信号部分的呼气气流特征与音频信号部分的呼气气流特征进行比对。
其中,呼气气流特征为声音信号对应的用户输出声音时呼出的气流的特征。
在本发明实施例中,终端通过检测麦克风接收到的声音信号,使用录音机等来捕获麦克输入。人们正常发音时,包括气流强弱及声带是否振动,发声时,呼出的气流必须冲开声门,由于伯努利效应,声门复归,声门下气压足够大时,又冲开声门,反复开闭形成周期性的颤动,因此发音时会有气流呼出,这里称为吹气信号,即吹气信号为用户输出的声音对应的呼出的气流特征。举例来说,例如用户在说“开”字时,由于开字是送气音,用户在发出“开”字的声音时,需要呼出气流冲开生门才能发出这个音,这是需要带出一些气流,麦克风接收到该有效的气流为吹气信号。由于声音信号中音频的频率大概在300-3000赫兹(Hz)之间,向麦克吹气音主要为低频信号,因此通过低通滤波可以将不是吹气的高频成分滤出,来得到吹气信号,从而实现音频信号和吹气信号的分离。
具体的,当终端检测有声音信号后,提取的判断信号部分包括吹气信号时,终端将音频信号转化为对应的文本,判断出文字的每个字或词的呼气气流特征为送气音或不送气音,将判断信号部分的呼气气流特征与音频信号部分的呼气气流特征比对,以判断用户的吹气信号是否与音频信号匹配。例如用户在预设的声纹识别样本时,针对某个字发音时是送气音,但是声纹识别验证时该字发音时为不送气音,则判定用户的吹气信号与音频信号不匹配。
需要说明的是,终端可以根据不同用户的语音习惯,可以根据用户的语音习惯从用户日常接打电话中和语音助手中的至少一个学习每个用户的音频信号的呼气气流特征,例如有的用户说某个特定单词或字时吹气较大,而同一个单词或字其他用户吹气较小,来提升用户的呼气气流特征的准确度。
S206:当音频信号部分的声纹特征与预设声纹特征的匹配度超过预设的阈值,且判断信号部分的呼气气流特征与音频特征部分的呼气气流特征的匹 配度超过预设的阈值时,判断声纹检测结果为检测成功。
具体的,终端将音频信号部分的声纹特征与预设声纹特征进行比对,判断音频信号部分的声纹特征与预设声纹特征匹配,且终端将判断信号部分的呼气气流特征与音频信号部分的呼气气流特征进行比对,判断信号部分的呼气气流特征与音频特征部分的呼气气流特征的匹配,声纹检测结果为检测成功,此时,终端解锁,用户可以在终端上完成相应的操作,比如解锁手机、登录微信等。
举例来说,终端可以先判断音频信号部分的声纹特征与预设声纹特征的匹配度是否超过预设的阈值,若音频信号部分的声纹特征与预设声纹特征的匹配度没有超过预设的阈值,则音频信号部分的声纹特征与预设声纹特征不匹配,终端确定声纹检测失败,终端可以直接退出声纹检测模式;若音频信号部分的声纹特征与预设声纹特征的匹配度超过预设的阈值,则进一步确定判断信号部分的呼气气流特征与音频特征部分的呼气气流特征的匹配度是否超过预设的阈值,若判断信号部分的呼气气流特征与音频特征部分的呼气气流特征的匹配度超过预设的阈值,则音频信号部分的声纹特征与预设声纹特征匹配,且判断信号部分的呼气气流特征与音频特征部分的呼气气流特征匹配,终端确定声纹检测成功,终端解锁;若判断信号部分的呼气气流特征与音频特征部分的呼气气流特征的匹配度没有超过预设的阈值,则判断信号部分的呼气气流特征与音频特征部分的呼气气流特征不匹配,终端确定声纹检测失败,终端退出声纹检测模式。
需要说明的是,预设的阈值可以根据实际情况而定,比如,若终端中声纹特征匹配精度高,可以将预设的阈值设为95%,若终端中声纹特征匹配精度低,可以将预设的阈值设为90%。
本发明实施例提供的声纹检测的方法,通过终端检测是否有声音信号,若终端检测有声音信号,则终端接收声音信号,终端提取声音信号的音频信号部分和判断信号部分,将音频信号部分的声纹特征与预设声纹特征进行比对,将判断信号部分的呼气气流特征与音频信号部分的呼气气流特征进行比对,当音频信号部分的声纹特征与预设声纹特征的匹配度超过预设的阈值,且判断信号部分的呼气气流特征与音频特征部分的呼气气流特征的匹配度超过预设的阈值时,判断声纹检测结果为检测成功,使得终端识别声音信号时, 将声音信号分为音频信号部分和判断信号部分,实现对声音信号的双重识别,同时,有效避免了用户边播放录音边对口型吹气的情况,提高了声纹解锁的安全性。
进一步地,在图2所示实施例中,声纹检测的方法还包括:
接收判断信号部分中大于预设气流阈值的呼气气流特征。
将呼气气流特征进行量化。
将量化后的呼气气流特征与音频信号部分的呼气气流特征进行比对。
判断信号部分的呼气气流特征与音频特征部分的呼气气流特征的匹配度超过预设的阈值,包括:
量化后的呼气气流特征与音频信号部分的呼气气流特征匹配度超过预设的阈值。
在本发明实施例中,终端在提取声音信号的音频信号部分和判断信号部分后,判断吹气信号的呼气气流的大小是否大于预设气流阈值,并接收判断信号部分中大于预设气流阈值的呼气气流,并根据呼气气流的大小进行量化。其中,本发明实施例中的预设气流阈值可以取0.10升/秒(L/s)。
进一步地,在图2所示实施例中,将呼气气流特征进行量化,包括:
将呼气气流特征与预设气流门限值比对,若呼气气流特征大于预设气流门限值,则将呼气流特征量化为1;否则,将呼气流量特征量化为0。
量化后的呼气气流特征与音频信号部分的呼气气流特征匹配度超过预设的阈值,包括:以下两种情况中的至少一种。
一种情况:呼气气流特征量化为1,且音频信号部分对应的文本为送气音。
另一种情况:呼气气流特征量化为0,且音频信号部分对应的文本为不送气音。
在本发明实施例中,对于吹气信号的量化,可将吹气分为几个级别,例如10个级别,当接收到的吹气信号的气大于等于第5个级别时,则判定符合了预设的门限,则判定吹气信号为1.当接收到的吹气信号的气小于第5个级别时,则判定没有达到预设的门限,则判定吹气信号为0。通过对吹气信号的量化,可提高吹气信号识别的准确性。图3A为本发明实施例一提供的吹气信号的量化示意图,如图3A所示,当吹气信号的气为达到3个级别时, 则判断吹气信号为0。图3B为本发明实施例二提供的吹气信号的量化示意图,如图3B所示,当吹气信号的气为达到8个级别时,则判断吹气信号为1。
图4为本发明实施例一提供的声纹检测的过程示意图,如图4所示,例如用户发出声纹识别信号“芝麻开门”,终端的麦克风接收到后,分离模块将分离该声纹识别信号为音频信号和吹气信号,进一步将音频信号送到声纹识别模块完成声纹识别,通过声纹识别后,音频转文字模块将音频转化为对应的文本,判断出文字的每个字或词对应的吹气信号为送气音或不送气音。吹气模块对接收到的吹气信号进行量化,对于大于等于门限的吹气信号定义为1,小于门限的定义为0,输出吹气信号的二进制信号,判断模块对音频转文字模块输出的字或词与吹气信号识别模块输出的二进制信号进行比较,例如用户说的“芝麻开门”的吹气信号为“0”“0”“1”“0”。例如用户说“top”的吹气信号为“1”“1”,用户说“sport”吹气信号为“0”“1”。
图5为本发明实施例二提供的声纹检测的方法流程图。本发明实施例提供的方法的另一种具体实现方式,如图5所示,本发明实施例提供的方法,包括:
S501:终端检测是否有声音信号。
S502:若终端检测有声音信号,则终端接收声音信号。
S503:终端提取声音信号的音频信号部分和判断信号部分。
S504:将音频信号部分的声纹特征与预设声纹特征进行比对。
需要说明的是,S501、S502、S503、S504分别与S201、S202、S203、S204的实现方式相同,详见S201、S202、S203、S204的描述,此处不再赘述。
S505:判断判断信号部分的指向方向特征与音频信号部分的指向方向特征是否在预设范围内。
具体的,判断信号部分可以包括指向方向特征,其中,指向方向特征为声音信号对应的用户输出声音的方向。在实际应用中,终端接收到的声音信号会存在音频信号与吹气信号来自不同方向的问题,即其他用户针对音频信号使用了录音,同时采用另一语音信号发出吹气信号,导致音频信号与吹气信号并不是来自同一语音信号,音频信号与吹气信号向性方向不一致,例如给出“芝麻开门”这几个字的吹气,但是不发音,使得播放录音的方向和吹 气的方向不一致,终端通过判断判断信号部分的指向方向特征与音频信号部分的指向方向特征是否在预设范围内,以确定音频信号与吹气信号是否来自同一指向性方向,从而可以避免录音攻击。
举例来说,终端检测到用户A的语音信号可以解锁终端,即用户A的语音信号可以解锁终端。如果用户B拿着用户A的语音录音的同时,对口型吹气,但不发音,此时播放录音和对口型吹气的方向可能不一致,但是采用普通的声纹解锁验证用户时,用户B也可能成功解锁终端,从而存在安全隐患,安全性不高。本发明实施例中通过判断这两个指向性方向是否在麦克风阵列的预设范围内,若这两个指向性方向在麦克风阵列的预设范围内,则说明声音信号来自同一指向性方向,不存在录音攻击;若这两个指向性方向不在麦克风阵列的预设范围内,则说明声音信号来自不同指向性方向,存在录音攻击。
可选的,判断判断信号部分的指向方向特征与音频信号部分的指向方向特征是否在预设范围内,包括:分别将判断信号部分的指向方向的角度和音频信号部分的指向方向的角度与预设指向角度阈值比对。
可选的,判断信号部分的指向方向特征与音频信号部分的指向方向特征在预设范围内,包括:判断信号部分的指向方向的角度和音频信号部分的指向方向的角度均小于预设指向角度阈值。
在本发明实施例中,可以使用麦克风指向性接收技术防止录音攻击,终端对声音信号进行识别时,可以包含一种麦克风定向接收信号的模式,即麦克风进入指向性监听模式,只接收符合预设角度范围内的音频和吹气信号,通过限定麦克风接收音频信号和吹气信号的范围,可避免录音攻击。
麦克风的指向性接收根据音源定位技术,可通过麦克风阵列来实现,一般可以捕捉不同方向传来的声音,通过算法运算使麦克风指向某一特定的方向,形成“波束”指向收音,放大该方向捕捉的音频信号,通过该方法可以实现麦克风的指向性接收语音信号。声波抵达阵列中每个麦克风之间的微小时差相互作用,麦克风阵列可得到比单个麦克风更好地指向性。具体实现包括,麦克风阵列可将收音波束指向一定角度的范围,例如通过广义互相关方法,平滑相干变换,相位变换或最大似然进行加权,再根据时延和麦克风阵列的集合位置调整收音方向,通过调整算法中的参数,进一步调整麦克风指 向性接收方向为θ角的圆锥形,进一步判断接收到的声源S的音频信号和吹气信号均来自小于θ角方向圆锥内的方向为θ1角方向内的有效信息号。
举例来说,图6为本发明实施例一提供的声音信号的指向方向的角度的示意图。如图6所示,一个手机具有两个麦克风A和B,A和B之间的距离固定,为已知的d,声音的传播速度固定为C,根据声音到达麦克风A和B的时间差为τ,可计算出声源(声音信号信号)与麦克风B之间的夹角θ1,根据该夹角θ1判断是否在有效声源方向θ角圆锥形之内。从而可以判断出声源的音频信号和吹气信号为指向性麦克风接收的有效信号。也可以通过公式计算得到声源方向,其中τ为声音到达两个麦克风的延迟量,d为两个麦克风之间的距离,θ1是语音信号的指向性方向角度,C是声音的速度。
进一步地,可设定声源与麦克风的距离门限,例如通过光传感器,红外传感器,超声波传感器等判断声源与麦克风距离,通过设定距离门限,可以确保录音攻击和吹气信号的方向是否一致,因为若声源与麦克风距离较近时,会使得录音攻击和吹气信号来自同一方向。
S506:当音频信号部分的声纹特征与预设声纹特征的匹配度超过预设的阈值,且判断信号部分的指向方向特征与音频信号部分的指向方向特征在预设范围内时,判断声纹检测结果为检测成功。
具体的,当音频信号部分的声纹特征与预设声纹特征的匹配度超过预设的阈值,且声纹识别信号中的音频信号与吹气信号是否来自同一指向性方向时,判断声纹检测结果为检测成功。
本发明实施例提供的声纹检测的方法,通过终端检测是否有声音信号,若终端检测有声音信号,则终端接收声音信号,终端提取声音信号的音频信号部分和判断信号部分,将音频信号部分的声纹特征与预设声纹特征进行比对,判断信号部分的指向方向特征与音频信号部分的指向方向特征是否在预设范围内,当音频信号部分的声纹特征与预设声纹特征的匹配度超过预设的阈值,且所判断信号部分的指向方向特征与音频信号部分的指向方向特征在预设范围内时,判断声纹检测结果为检测成功,使得终端识别声音信号时,将声音信号分为音频信号部分和判断信号部分,实现对声音信号的双重识别,同时,有效避免了播放录音和对口型吹气的方向可能不一致的情况,提高了声纹解锁的安全性。
图7为本发明实施例三提供的声纹检测的方法流程图。本发明实施例提供的方法的又一种具体实现方式,如图7所示,本发明实施例提供的方法,包括:
S701:终端检测是否有声音信号。
S702:若终端检测有声音信号,则终端接收声音信号。
S703:终端提取声音信号的音频信号部分和判断信号部分。
S704:将音频信号部分的声纹特征与预设声纹特征进行比对。
需要说明的是,S701、S702、S703、S704分别与S201、S202、S203、S204的实现方式相同,详见S201、S202、S203、S204的描述,此处不再赘述。
S705:将判断信号部分的感知温度特征与预设温度阈值比对。
具体的,判断信号部分可以包括感知温度特征,其中,感知温度特征为声音信号对应的用户输出声音时的温度。将判断信号部分的感知温度特征与预设温度阈值比对,确定判断信号部分的感知温度特征是否大于等于预设温度阈值。比如,终端可以通过红外传感器感知临近麦克风的温度来判断语音信号是来自人体,比如用户,而不是录音的电子设备。其中,预设温度阈值可以根据人体的温度范围而定,一般将预设温度阈值设为人体的正常范围内的最低温度,比如36摄氏度。
S706:当音频信号部分的声纹特征与预设声纹特征的匹配度超过预设的阈值,且判断信号部分的感知温度特征大于等于预设温度阈值时,判断声纹检测结果为检测成功。
具体的,当音频信号部分的声纹特征与预设声纹特征的匹配度超过预设的阈值,且判断信号部分的感知温度特征大于等于预设温度阈值时,则可判断终端接收的语音信号来自用户,而不是录音的电子设备,从而避免了录音攻击,提高了声纹解锁的安全性。
本发明实施例提供的声纹检测的方法,通过终端检测是否有声音信号,若终端检测有声音信号,则终端接收声音信号,终端提取声音信号的音频信号部分和判断信号部分,将音频信号部分的声纹特征与预设声纹特征进行比对,将判断信号部分的感知温度特征与预设温度阈值比对,当音频信号部分的声纹特征与预设声纹特征的匹配度超过预设的阈值,且判断信号部分的感 知温度特征大于等于预设温度阈值时,判断声纹检测结果为检测成功,当音频信号部分的声纹特征与预设声纹特征的匹配时,通过确定判断信号部分的感知温度特征是否大于等于预设温度阈值,进而判断终端接收的语音信号来自用户,而不是录音的电子设备,从而避免了录音攻击,提高了声纹解锁的安全性。
图8为本发明实施例四提供的声纹检测的方法流程图。本发明实施例提供的方法为图2所示实施例一提供方法的再一种具体实现方式,如图8所示,本发明实施例提供的方法,包括:
S801:当检测到声纹识别信号时,终端进入活体声纹识别模式。
在当检测到声纹识别信号时,终端进入活体声纹识别模式之前,还包括:
终端检测是否有声纹识别信号;其中,声纹识别信号为终端在未解锁状态时检测到的声音信号。
终端检测是否有声纹识别信号,包括:在未解锁状态时,终端检测是否有声音信号;若终端检测到有声音信号,则声音信号为声纹识别信号。
S802:终端接收声纹识别信号并进行存储。
S803:终端提取声纹识别信号的音频信号部分和判断信号部分。
S804:终端判断音频信号部分的声纹特征与预设声纹特征的匹配度是否超过预设的阈值。若音频信号部分的声纹特征与预设声纹特征的匹配度超过预设的阈值,则执行S805;否则,执行S808。
可选的,在本发明实施中,终端可以通过将音频信号部分的声纹特征与预设声纹特征进行比对,以判断音频信号部分的声纹特征与预设声纹特征的匹配度是否超过预设的阈值。
S805:终端判断音频信号部分的音频信号与判断信号部分的吹气信号是否来自同一指向性方向。若音频信号部分的音频信号与判断信号部分的吹气信号来自同一指向性方向,则执行S806;否则,执行S808。
可选的,在本发明实施中,终端可以通过判断判断信号部分的指向方向特征与音频信号部分的指向方向特征是否在预设范围内,以判断音频信号部分的音频信号与判断信号部分的吹气信号是否来自同一指向性方向。
S806:终端判断音频信号部分对应的文本与判断信号部分中的呼气气流是否匹配。若音频信号部分对应的文本与判断信号部分中的呼气气流匹配, 则执行S807;否则,执行S808。
可选的,在本发明实施中,终端可以通过将判断信号部分的呼气气流特征与音频信号部分的呼气气流特征进行比对,以判断音频信号部分对应的文本与判断信号部分中的呼气气流是否匹配。
S807:活体声纹检测成功。
S808:活体声纹检测失败。
需要说明的是,可选的,在本发明实施中,在判断音频信号部分的声纹特征与预设声纹特征的匹配度超过预设的阈值之后,判断音频信号部分的音频信号与判断信号部分的吹气信号是否来自同一指向性方向之前,还包括:判断判断信号部分的感知温度特征是否大于等于预设温度阈值;若音频信号部分的声纹特征与预设声纹特征的匹配度超过预设的阈值,且判断信号部分的呼气气流特征与音频特征部分的呼气气流特征的匹配度超过预设的阈值,判断信号部分的指向方向特征与音频信号部分的指向方向特征在预设范围内,以及判断信号部分的感知温度特征大于等于预设温度阈值时,活体声纹检测成功。
本发明实施例提供的声纹检测的方法,通过当检测到声纹识别信号时,终端进入活体声纹识别模式,终端接收声纹识别信号并进行存储,终端提取声纹识别信号的音频信号部分和判断信号部分,当音频信号部分的声纹特征与预设声纹特征的匹配度超过预设的阈值,且判断信号部分的判断特征满足预设的判断条件时,判断声纹检测结果为检测成功,使得终端识别声纹识别信号时,将声纹识别信号分为音频信号部分和判断信号部分,实现对声纹识别信号的双重识别,提高了声纹解锁的安全性。同时,通过当音频信号部分的声纹特征与预设声纹特征的匹配,且声纹识别信号中的音频信号与吹气信号来自同一指向性方向,以及声纹识别信号中的音频信号对应的文本与吹气信号的呼气气流匹配时,判断声纹检测结果为检测成功,有效避免了播放录音和对口型吹气的方向可能不一致的情况,提高了声纹解锁的安全性。
进一步地,在上述实施例中,在终端提取声纹识别信号的音频信号部分和判断信号部分之前,还包括:
终端将声纹识别信号分离为音频信号部分和判断信号部分;
终端将声纹识别信号分离为音频信号部分和判断信号部分,包括:
终端将声纹识别信号采用第一预设频率的滤波器进行滤波,得到音频信号部分;
终端将声纹识别信号采用第二预设频率的滤波器进行滤波,得到判断信号部分;
其中,第一预设频率的滤波器为高通滤波器,第二预设频率的滤波器为低通滤波器。
图9为本发明实施例一提供的终端结构示意图。如图9所示,本发明实施例提供的终端,包括:检测模块901、接收模块902、提取模块903、第一匹配模块904和判断模块905。
检测模块901,用于检测是否有声音信号。
接收模块902,用于接收声音信号。
提取模块903,用于提取声音信号的音频信号部分和判断信号部分。
第一匹配模块904,用于将音频信号部分的声纹特征与预设声纹特征进行比对;将判断信号部分的呼气气流特征与音频信号部分的呼气气流特征进行比对。
其中,呼气气流特征为声音信号对应的用户输出声音时呼出的气流的特征。
判断模块905,用于当音频信号部分的声纹特征与预设声纹特征的匹配度超过预设的阈值,且判断信号部分的呼气气流特征与音频特征部分的呼气气流特征的匹配度超过预设的阈值时,判断声纹检测结果为检测成功。
本发明实施例的终端用于执行图2所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
进一步地,在图9所示实施例中,接收模块902,还用于接收判断信号部分中大于预设气流阈值的呼气气流特征。
终端还包括:量化模块。
量化模块,用于将呼气气流特征进行量化。
第一匹配模块904,还用于将量化后的呼气气流特征与音频信号部分的呼气气流特征进行比对。
判断模块905判断的判断信号部分的呼气气流特征与音频特征部分的呼气气流特征的匹配度超过预设的阈值,包括:量化后的呼气气流特征与音频 信号部分的呼气气流特征匹配度超过预设的阈值。
进一步地,在图2所示实例中,第一匹配模块904具体用于:将呼气气流特征与预设气流门限值比对,若呼气气流特征大于预设气流门限值,则将呼气流特征量化为1;否则,将呼气流量特征量化为0。
判断模块905判断的量化后的呼气气流特征与音频信号部分的呼气气流特征匹配度超过预设的阈值,包括:以下两种情况中的至少一种:
一种情况:呼气气流特征量化为1,且音频信号部分对应的文本为送气音。
另一种情况:呼气气流特征量化为0,且音频信号部分对应的文本为不送气音。
图10为本发明实施例二提供的终端结构示意图。如图10所示,本发明实施例提供的终端,在上述实施例的基础上,还包括:第二匹配模块906。
第二匹配模块906,用于判断判断信号部分的指向方向特征与音频信号部分的指向方向特征是否在预设范围内。
判断模905,还用于当音频信号部分的声纹特征与预设声纹特征的匹配度超过预设的阈值,且判断信号部分的呼气气流特征与音频特征部分的呼气气流特征的匹配度超过预设的阈值,以及判断信号部分的指向方向特征与音频信号部分的指向方向特征在预设范围内时,判断声纹检测结果为检测成功。
本发明实施例的终端用于执行图5所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
进一步地,在图10所示实施例中,第二匹配模块906具体用于:分别将判断信号部分的指向方向的角度和音频信号部分的指向方向的角度与预设指向角度阈值比对。
判断模块905判断的判断信号部分的指向方向特征与音频信号部分的指向方向特征在预设范围内,包括:判断信号部分的指向方向的角度和音频信号部分的指向方向的角度均小于预设指向角度阈值。
图11为本发明实施例三提供的终端结构示意图。如图11所示,本发明实施例提供的终端,在上述实施例的基础上,还包括:第三匹配模块907。
第三匹配模块907,用于将判断信号部分的感知温度特征与预设温度阈值比对。
判断模块905,还用于当音频信号部分的声纹特征与预设声纹特征的匹配度超过预设的阈值,且判断信号部分的呼气气流特征与音频特征部分的呼气气流特征的匹配度超过预设的阈值,判断信号部分的指向方向特征与音频信号部分的指向方向特征在预设范围内,以及判断信号部分的感知温度特征大于等于预设温度阈值时,判断声纹检测结果为检测成功。
本发明实施例的终端用于执行图7所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
进一步地,在图11所示实施例中,终端还包括:分离模块。
分离模块,用于在提取模块提取声音信号的音频信号部分和判断信号部分之前,将声音信号分离为音频信号部分和判断信号部分。
分离模块具体用于:将声音信号采用第一预设频率的滤波器进行滤波,得到音频信号部分;将声音信号采用第二预设频率的滤波器进行滤波,得到判断信号部分。
其中,第一预设频率的滤波器为高通滤波器,第二预设频率的滤波器为低通滤波器。
图12为本发明实施例四提供的终端结构示意图。如图12所示,本发明实施例提供的终端,包括:麦克风1201、存储器1202和处理器1203。
需要说明的是,麦克风1201可以与终端的检测模块901对应,用于检测是否有声音信号;若检测有声音信号,则接收声音信号。麦克风1503还可以用于接收判断信号部分中大于预设气流阈值的呼气气流特征。存储器1202用于存储执行指令,处理器1203可以是一个中央处理器(Central Processing Unit,CPU),或者是特定集成电路(Application Specific Integrated Circuit,ASIC),或者完成实施本发明实施例的一个或多个集成电路。当终端运行时,处理器1203与存储器1202之间通信,处理器1203调用执行指令,用于执行以下操作:
提取声音信号的音频信号部分和判断信号部分;将音频信号部分的声纹特征与预设声纹特征进行比对;将判断信号部分的呼气气流特征与音频信号部分的呼气气流特征进行比对;其中,呼气气流特征为声音信号对应的用户输出声音时呼出的气流的特征;当音频信号部分的声纹特征与预设声纹特征的匹配度超过预设的阈值,且判断信号部分的呼气气流特征与音频特征部分 的呼气气流特征的匹配度超过预设的阈值时,判断声纹检测结果为检测成功。
可选的,终端还可以包括:录音机1204。
需要说明的是,录音机1204可以用于采集用户所发出的声音信号,对声音信号进行特征分析获取预设声纹特征并存储。
处理器1203还用于执行以下操作:
将呼气气流特征进行量化;将量化后的呼气气流特征与音频信号部分的呼气气流特征进行比对;
处理器1203判断的判断信号部分的呼气气流特征与音频特征部分的呼气气流特征的匹配度超过预设的阈值,包括:量化后的呼气气流特征与音频信号部分的呼气气流特征匹配度超过预设的阈值
处理器1203还用于执行以下操作:
将呼气气流特征与预设气流门限值比对,若呼气气流特征大于预设气流门限值,则将呼气流特征量化为1;否则,将呼气流量特征量化为0;
处理器1203判断的量化后的呼气气流特征与音频信号部分的呼气气流特征匹配度超过预设的阈值,包括:以下两种情况中的至少一种:
一种情况:呼气气流特征量化为1,且音频信号部分对应的文本为送气音;
另一种情况:呼气气流特征量化为0,且音频信号部分对应的文本为不送气音。
处理器1203还用于执行以下操作:
判断判断信号部分的指向方向特征与音频信号部分的指向方向特征是否在预设范围内;当音频信号部分的声纹特征与预设声纹特征的匹配度超过预设的阈值,且判断信号部分的呼气气流特征与音频特征部分的呼气气流特征的匹配度超过预设的阈值,以及判断信号部分的指向方向特征与音频信号部分的指向方向特征在预设范围内时,判断声纹检测结果为检测成功。
处理器1203还用于执行以下操作:
分别将判断信号部分的指向方向的角度和音频信号部分的指向方向的角度与预设指向角度阈值比对;
处理器1203判断的判断信号部分的指向方向特征与音频信号部分的指向方向特征在预设范围内,包括:判断信号部分的指向方向的角度和音频信 号部分的指向方向的角度均小于预设指向角度阈值。
处理器1203还用于执行以下操作:
将判断信号部分的感知温度特征与预设温度阈值比对;当音频信号部分的声纹特征与预设声纹特征的匹配度超过预设的阈值,且判断信号部分的呼气气流特征与音频特征部分的呼气气流特征的匹配度超过预设的阈值,判断信号部分的指向方向特征与音频信号部分的指向方向特征在预设范围内,以及判断信号部分的感知温度特征大于等于预设温度阈值时,判断声纹检测结果为检测成功。
处理器1203还用于执行以下操作:
将音频信号部分的声纹波形与预设声纹样本特征波形进行比对;
和/或,
将音频信号部分的信号频率与预设声纹样本特征频率进行比对。
处理器1203还用于执行以下操作:
将声音信号分离为音频信号部分和判断信号部分。
具体的,将声音信号采用第一预设频率的滤波器进行滤波,得到音频信号部分;将声音信号采用第二预设频率的滤波器进行滤波,得到判断信号部分;其中,第一预设频率的滤波器为高通滤波器,第二预设频率的滤波器为低通滤波器。
图13为本发明实施例一提供的声纹检测的装置结构示意图。本发明实例例提供的装置可以实作成单独一台装置,也可以整合于各种不同的语音助手装置中,诸如机顶盒、移动电话、平板电脑(Tablet Personal Computer)、膝上型电脑(Laptop Computer)、多媒体播放器、数字摄影机、个人数字助理(personal digital assistant,简称PDA)、导航装置、移动上网装置(Mobile Internet Device,简称MID)或可穿戴式设备(Wearable Device)等。如图13所示,本发明实施例提供的装置,可以包括以下一个或多个单元:输入单元、存储单元、处理器单元、通信单元、外设接口、输出单元和电源。
本发明实例中,麦克风可以作为输入单元,输入单元可以输入音频信号,检测终端是否有声纹识别信号。存储器可以作为存储单元,存储单元可以存储执行指令,比如可以是操作程序和应用程序等执行指令,也可以是具体的吹气信号识别模块、吹气信号和音频信号分离模块和吹气信号判断模块等执 行指令。处理器可以作为处理器单元,处理器单元可以是一个中央处理器(Central Processing Unit,CPU),或者是特定集成电路(Application Specific Integrated Circuit,ASIC),或者完成实施本发明实施例的一个或多个集成电路。当终端运行时,处理器单元与存储器单元之间通信,处理器单元调用执行指令,用于执行上述方法实施例中的操作。通信单元可以用于终端与其他设备之间的有限或无线方式的通信。外设接口可以用于终端与外围接口模块之间提供接口,其中,外围接口模块可以是键盘、按钮等。输出单元可以用于输出音频信号。电源可以用于为终端的各个单元提供电力。
本发明实施例还提供了一种非易失性计算机可读存储介质,例如包括指令的存储单元,上述指令可由声纹检测的装置的处理器执行以完成上述方法。例如,该非易失性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非易失性计算机可读存储介质,该非易失性计算机可读存储介质存储计算机指令,该计算机指令用于使控制缓存刷盘的装置执行上述方法实施例中的操作。当该存储介质中的指令由终端的处理器执行时,使得终端能够执行上述方法实施例中的操作。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (22)

  1. 一种声纹检测的方法,其特征在于,包括:
    终端检测是否有声音信号;
    若所述终端检测有所述声音信号,则所述终端接收所述声音信号;
    所述终端提取所述声音信号的音频信号部分和判断信号部分;
    将所述音频信号部分的声纹特征与预设声纹特征进行比对;
    将所述判断信号部分的呼气气流特征与所述音频信号部分的呼气气流特征进行比对;
    其中,所述呼气气流特征为所述声音信号对应的用户输出声音时呼出的气流的特征;
    当所述音频信号部分的声纹特征与预设声纹特征的匹配度超过预设的阈值,且所述判断信号部分的呼气气流特征与所述音频特征部分的呼气气流特征的匹配度超过预设的阈值时,判断所述声纹检测结果为检测成功。
  2. 根据权利要求1所述的方法,其特征在于,所述方法还包括:
    接收所述判断信号部分中大于预设气流阈值的所述呼气气流特征;
    将所述呼气气流特征进行量化;
    将量化后的呼气气流特征与所述音频信号部分的呼气气流特征进行比对;
    所述判断信号部分的呼气气流特征与所述音频特征部分的呼气气流特征的匹配度超过预设的阈值,包括:
    所述量化后的呼气气流特征与所述音频信号部分的呼气气流特征匹配度超过预设的阈值。
  3. 根据权利要求2所述的方法,其特征在于,所述将所述呼气气流特征进行量化,包括:
    将所述呼气气流特征与预设气流门限值比对,若所述呼气气流特征大于所述预设气流门限值,则将所述呼气流特征量化为1;否则,将所述呼气流量特征量化为0;
    所述量化后的呼气气流特征与所述音频信号部分的呼气气流特征匹配度超过预设的阈值,包括:以下两种情况中的至少一种:
    一种情况:所述呼气气流特征量化为1,且所述音频信号部分对应的文 本为送气音;
    另一种情况:所述呼气气流特征量化为0,且所述音频信号部分对应的文本为不送气音。
  4. 根据权利要求1-3任一项所述的方法,其特征在于,所述方法还包括:
    判断所述判断信号部分的指向方向特征与所述音频信号部分的指向方向特征是否在预设范围内;
    所述当所述音频信号部分的声纹特征与预设声纹特征的匹配度超过预设的阈值,且所述判断信号部分的呼气气流特征与所述音频特征部分的呼气气流特征的匹配度超过预设的阈值时,判断所述声纹检测结果为检测成功,包括:
    当所述音频信号部分的声纹特征与预设声纹特征的匹配度超过预设的阈值,且所述判断信号部分的呼气气流特征与所述音频特征部分的呼气气流特征的匹配度超过预设的阈值,以及所述判断信号部分的指向方向特征与所述音频信号部分的指向方向特征在预设范围内时,判断所述声纹检测结果为检测成功。
  5. 根据权利要求4所述的方法,其特征在于,判断所述判断信号部分的指向方向特征与所述音频信号部分的指向方向特征是否在预设范围内,包括:
    分别将所述判断信号部分的指向方向的角度和所述音频信号部分的指向方向的角度与预设指向角度阈值比对;
    所述判断信号部分的指向方向特征与所述音频信号部分的指向方向特征在预设范围内,包括:所述判断信号部分的指向方向的角度和所述音频信号部分的指向方向的角度均小于所述预设指向角度阈值。
  6. 根据权利要求5所述的方法,其特征在于,所述方法还包括:
    将所述判断信号部分的感知温度特征与预设温度阈值比对;
    所述当所述音频信号部分的声纹特征与预设声纹特征的匹配度超过预设的阈值,且所述判断信号部分的呼气气流特征与所述音频特征部分的呼气气流特征的匹配度超过预设的阈值时,判断所述声纹检测结果为检测成功,包括:
    当所述音频信号部分的声纹特征与预设声纹特征的匹配度超过预设的阈值,且所述判断信号部分的呼气气流特征与所述音频特征部分的呼气气流特 征的匹配度超过预设的阈值,所述判断信号部分的指向方向特征与所述音频信号部分的指向方向特征在预设范围内,以及所述判断信号部分的感知温度特征大于等于预设温度阈值时,判断所述声纹检测结果为检测成功。
  7. 根据权利要求1-6任一项所述的方法,其特征在于,在所述终端提取所述声音信号的音频信号部分和判断信号部分之前,所述方法还包括:
    所述终端将所述声音信号分离为所述音频信号部分和所述判断信号部分;
    所述终端将所述声音识别信号分离为所述音频信号部分和所述判断信号部分,包括:
    所述终端将所述声音识别信号采用第一预设频率的滤波器进行滤波,得到所述音频信号部分;
    所述终端将所述声音识别信号采用第二预设频率的滤波器进行滤波,得到所述判断信号部分;
    其中,所述第一预设频率的滤波器为高通滤波器,所述第二预设频率的滤波器为低通滤波器。
  8. 一种终端,其特征在于,包括:
    检测模块,用于检测是否有声音信号;
    接收模块,用于接收所述声音信号;
    提取模块,用于提取所述声音信号的音频信号部分和判断信号部分;
    第一匹配模块,用于将所述音频信号部分的声纹特征与预设声纹特征进行比对;将所述判断信号部分的呼气气流特征与所述音频信号部分的呼气气流特征进行比对;
    其中,所述呼气气流特征为所述声音信号对应的用户输出声音时呼出的气流的特征;
    判断模块,用于当所述音频信号部分的声纹特征与预设声纹特征的匹配度超过预设的阈值,且所述判断信号部分的呼气气流特征与所述音频特征部分的呼气气流特征的匹配度超过预设的阈值时,判断所述声纹检测结果为检测成功。
  9. 根据权利要求8所述的终端,其特征在于,
    所述接收模块,还用于接收所述判断信号部分中大于预设气流阈值的呼 气气流特征;
    所述终端还包括:量化模块;
    所述量化模块,用于将所述呼气气流特征进行量化;
    所述第一匹配模块,还用于将量化后的呼气气流特征与所述音频信号部分的呼气气流特征进行比对;
    所述判断模块判断的所述判断信号部分的呼气气流特征与所述音频特征部分的呼气气流特征的匹配度超过预设的阈值,包括:所述量化后的呼气气流特征与所述音频信号部分的呼气气流特征匹配度超过预设的阈值。
  10. 根据权利要求9所述的终端,其特征在于,所述第一匹配模块具体用于:
    将所述呼气气流特征与预设气流门限值比对,若所述呼气气流特征大于所述预设气流门限值,则将所述呼气流特征量化为1;否则,将所述呼气流量特征量化为0;
    所述判断模块判断的所述量化后的呼气气流特征与所述音频信号部分的呼气气流特征匹配度超过预设的阈值,包括:以下两种情况中的至少一种:
    一种情况:所述呼气气流特征量化为1,且所述音频信号部分对应的文本为送气音;
    另一种情况:所述呼气气流特征量化为0,且所述音频信号部分对应的文本为不送气音。
  11. 根据权利要求8-10任一项所述的终端,其特征在于,所述终端还包括:第二匹配模块;
    所述第二匹配模块,用于判断所述判断信号部分的指向方向特征与所述音频信号部分的指向方向特征是否在预设范围内;
    所述判断模块,还用于当所述音频信号部分的声纹特征与预设声纹特征的匹配度超过预设的阈值,且所述判断信号部分的呼气气流特征与所述音频特征部分的呼气气流特征的匹配度超过预设的阈值,以及所述判断信号部分的指向方向特征与所述音频信号部分的指向方向特征在预设范围内时,判断所述声纹检测结果为检测成功。
  12. 根据权利要求11所述的终端,其特征在于,所述第二匹配模块具体用于:
    分别将所述判断信号部分的指向方向的角度和所述音频信号部分的指向方向的角度与预设指向角度阈值比对;
    所述判断模块判断的所述判断信号部分的指向方向特征与所述音频信号部分的指向方向特征在预设范围内,包括:所述判断信号部分的指向方向的角度和所述音频信号部分的指向方向的角度均小于所述预设指向角度阈值。
  13. 根据权利要求12所述的终端,其特征在于,所述终端还包括:第三匹配模块;
    第三匹配模块,用于将所述判断信号部分的感知温度特征与预设温度阈值比对;
    所述判断模块,还用于当所述音频信号部分的声纹特征与预设声纹特征的匹配度超过预设的阈值,且所述判断信号部分的呼气气流特征与所述音频特征部分的呼气气流特征的匹配度超过预设的阈值,所述判断信号部分的指向方向特征与所述音频信号部分的指向方向特征在预设范围内,以及所述判断信号部分的感知温度特征大于等于预设温度阈值时,判断所述声纹检测结果为检测成功。
  14. 根据权利要求8-13任一项所述的终端,其特征在于,所述终端还包括:分离模块;
    所述分离模块,用于在所述提取模块提取所述声音信号的音频信号部分和判断信号部分之前,将所述声音信号分离为所述音频信号部分和所述判断信号部分;
    所述分离模块具体用于:
    将所述声音信号采用第一预设频率的滤波器进行滤波,得到所述音频信号部分;将所述声音信号采用第二预设频率的滤波器进行滤波,得到所述判断信号部分;
    其中,所述第一预设频率的滤波器为高通滤波器,所述第二预设频率的滤波器为低通滤波器。
  15. 一种终端,其特征在于,包括:麦克风和处理器;
    所述麦克风,用于检测是否有声音信号;若检测有所述声音信号,则接收所述声音信号;
    所述处理器,用于提取所述声音信号的音频信号部分和判断信号部分; 将所述音频信号部分的声纹特征与预设声纹特征进行比对;将所述判断信号部分的呼气气流特征与所述音频信号部分的呼气气流特征进行比对;其中,所述呼气气流特征为所述声音信号对应的用户输出声音时呼出的气流的特征;当所述音频信号部分的声纹特征与预设声纹特征的匹配度超过预设的阈值,且所述判断信号部分的呼气气流特征与所述音频特征部分的呼气气流特征的匹配度超过预设的阈值时,判断所述声纹检测结果为检测成功。
  16. 根据权利要求15所述的终端,其特征在于,
    所述麦克风,还用于接收所述判断信号部分中大于预设气流阈值的所述呼气气流特征;
    所述处理器,还用于将所述呼气气流特征进行量化;将量化后的呼气气流特征与所述音频信号部分的呼气气流特征进行比对;
    所述处理器判断的所述判断信号部分的呼气气流特征与所述音频特征部分的呼气气流特征的匹配度超过预设的阈值,包括:
    所述量化后的呼气气流特征与所述音频信号部分的呼气气流特征匹配度超过预设的阈值。
  17. 根据权利要求16所述的终端,其特征在于,所述处理器具体用于:
    将所述呼气气流特征与预设气流门限值比对,若所述呼气气流特征大于所述预设气流门限值,则将所述呼气流特征量化为1;否则,将所述呼气流量特征量化为0;
    所述处理器判断的所述量化后的呼气气流特征与所述音频信号部分的呼气气流特征匹配度超过预设的阈值,包括:以下两种情况中的至少一种:
    一种情况:所述呼气气流特征量化为1,且所述音频信号部分对应的文本为送气音;
    另一种情况:所述呼气气流特征量化为0,且所述音频信号部分对应的文本为不送气音。
  18. 根据权利要求15-17任一项所述的终端,其特征在于,
    所述处理器,还用于判断所述判断信号部分的指向方向特征与所述音频信号部分的指向方向特征是否在预设范围内;当所述音频信号部分的声纹特征与预设声纹特征的匹配度超过预设的阈值,且所述判断信号部分的呼气气流特征与所述音频特征部分的呼气气流特征的匹配度超过预设的阈值,以及 所述判断信号部分的指向方向特征与所述音频信号部分的指向方向特征在预设范围内时,判断所述声纹检测结果为检测成功。
  19. 根据权利要求18所述的终端,其特征在于,所述处理器具体用于:
    分别将所述判断信号部分的指向方向的角度和所述音频信号部分的指向方向的角度与预设指向角度阈值比对;
    所述处理器判断的所述判断信号部分的指向方向特征与所述音频信号部分的指向方向特征在预设范围内,包括:所述判断信号部分的指向方向的角度和所述音频信号部分的指向方向的角度均小于所述预设指向角度阈值。
  20. 根据权利要求19所述的终端,其特征在于,
    所述处理器,还用于将所述判断信号部分的感知温度特征与预设温度阈值比对;当所述音频信号部分的声纹特征与预设声纹特征的匹配度超过预设的阈值,且所述判断信号部分的呼气气流特征与所述音频特征部分的呼气气流特征的匹配度超过预设的阈值,所述判断信号部分的指向方向特征与所述音频信号部分的指向方向特征在预设范围内,以及所述判断信号部分的感知温度特征大于等于预设温度阈值时,判断所述声纹检测结果为检测成功。
  21. 根据权利要求15-20任一项所述的终端,其特征在于,
    所述处理器,还用于将所述声音信号分离为所述音频信号部分和所述判断信号部分;
    所述处理器具体用于:
    将所述声音识别信号采用第一预设频率的滤波器进行滤波,得到所述音频信号部分;将所述声音识别信号采用第二预设频率的滤波器进行滤波,得到所述判断信号部分;
    其中,所述第一预设频率的滤波器为高通滤波器,所述第二预设频率的滤波器为低通滤波器。
  22. 一种非易失性计算机可读存储介质,其特征在于,所述非易失性计算机可读存储介质存储计算机指令,所述计算机指令用于使控制缓存刷盘的装置执行权利要求1-7任一所述的方法。
CN201580079562.2A 2015-12-31 2015-12-31 声纹检测的方法和装置 Active CN107533415B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2015/100286 WO2017113370A1 (zh) 2015-12-31 2015-12-31 声纹检测的方法和装置

Publications (2)

Publication Number Publication Date
CN107533415A true CN107533415A (zh) 2018-01-02
CN107533415B CN107533415B (zh) 2020-09-11

Family

ID=59224366

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580079562.2A Active CN107533415B (zh) 2015-12-31 2015-12-31 声纹检测的方法和装置

Country Status (2)

Country Link
CN (1) CN107533415B (zh)
WO (1) WO2017113370A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115346340A (zh) * 2022-07-21 2022-11-15 浙江极氪智能科技有限公司 改善驾驶疲劳的装置及方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10853463B2 (en) 2018-01-17 2020-12-01 Futurewei Technologies, Inc. Echoprint user authentication
CN113744431B (zh) * 2020-05-14 2024-04-09 大富科技(安徽)股份有限公司 一种共享单车车锁控制装置、方法、设备及介质
CN113707182A (zh) * 2021-09-17 2021-11-26 北京声智科技有限公司 声纹识别方法、装置、电子设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060036441A1 (en) * 2004-08-13 2006-02-16 Canon Kabushiki Kaisha Data-managing apparatus and method
CN101441869A (zh) * 2007-11-21 2009-05-27 联想(北京)有限公司 语音识别终端用户身份的方法及终端
CN101897627A (zh) * 2010-06-30 2010-12-01 广州医学院第一附属医院 一种小鼠咳嗽模型的建立和检测方法
CN102523347A (zh) * 2011-12-16 2012-06-27 广东步步高电子工业有限公司 一种应用于电子产品中的吹气操控方法和装置
CN102737634A (zh) * 2012-05-29 2012-10-17 百度在线网络技术(北京)有限公司 一种基于语音的认证方法及装置
CN102866844A (zh) * 2012-08-13 2013-01-09 上海华勤通讯技术有限公司 移动终端及其解锁方法
CN202841290U (zh) * 2012-06-04 2013-03-27 百度在线网络技术(北京)有限公司 移动终端的解锁装置及具有该解锁装置的移动终端
CN103886861A (zh) * 2012-12-20 2014-06-25 联想(北京)有限公司 一种控制电子设备的方法及电子设备
CN104021790A (zh) * 2013-02-28 2014-09-03 联想(北京)有限公司 声控解锁方法以及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3041743B2 (ja) * 1992-09-18 2000-05-15 松下電器産業株式会社 呼気流センサ

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060036441A1 (en) * 2004-08-13 2006-02-16 Canon Kabushiki Kaisha Data-managing apparatus and method
CN101441869A (zh) * 2007-11-21 2009-05-27 联想(北京)有限公司 语音识别终端用户身份的方法及终端
CN101897627A (zh) * 2010-06-30 2010-12-01 广州医学院第一附属医院 一种小鼠咳嗽模型的建立和检测方法
CN102523347A (zh) * 2011-12-16 2012-06-27 广东步步高电子工业有限公司 一种应用于电子产品中的吹气操控方法和装置
CN102737634A (zh) * 2012-05-29 2012-10-17 百度在线网络技术(北京)有限公司 一种基于语音的认证方法及装置
CN202841290U (zh) * 2012-06-04 2013-03-27 百度在线网络技术(北京)有限公司 移动终端的解锁装置及具有该解锁装置的移动终端
CN102866844A (zh) * 2012-08-13 2013-01-09 上海华勤通讯技术有限公司 移动终端及其解锁方法
CN103886861A (zh) * 2012-12-20 2014-06-25 联想(北京)有限公司 一种控制电子设备的方法及电子设备
CN104021790A (zh) * 2013-02-28 2014-09-03 联想(北京)有限公司 声控解锁方法以及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115346340A (zh) * 2022-07-21 2022-11-15 浙江极氪智能科技有限公司 改善驾驶疲劳的装置及方法
CN115346340B (zh) * 2022-07-21 2023-11-17 浙江极氪智能科技有限公司 改善驾驶疲劳的装置及方法

Also Published As

Publication number Publication date
CN107533415B (zh) 2020-09-11
WO2017113370A1 (zh) 2017-07-06

Similar Documents

Publication Publication Date Title
US11694695B2 (en) Speaker identification
US11735189B2 (en) Speaker identification
CN111699528B (zh) 电子装置及执行电子装置的功能的方法
US11475899B2 (en) Speaker identification
US9652915B2 (en) System and method having biometric identification intrusion and access control
CN112997186A (zh) “存活性”检测系统
CN111656440A (zh) 说话人辨识
WO2021135685A1 (zh) 身份认证的方法以及装置
Sahidullah et al. Robust voice liveness detection and speaker verification using throat microphones
US11605372B2 (en) Time-based frequency tuning of analog-to-information feature extraction
CN107533415A (zh) 声纹检测的方法和装置
US20190147890A1 (en) Audio peripheral device
US11626104B2 (en) User speech profile management
CN110428806A (zh) 基于麦克风信号的语音交互唤醒电子设备、方法和介质
CN110111776A (zh) 基于麦克风信号的语音交互唤醒电子设备、方法和介质
KR20230153385A (ko) 동적 분류기에 기초한 디바이스 동작
US11783809B2 (en) User voice activity detection using dynamic classifier
Cao et al. I Can Hear You Without a Microphone: Live Speech Eavesdropping From Earphone Motion Sensors
CN114911449A (zh) 音量控制方法、装置、存储介质和电子设备
Chang et al. Vogue: Secure user voice authentication on wearable devices using gyroscope
Yue et al. LiveEar: An Efficient and Easy-to-use Liveness Detection System for Voice Assistants
US20220270592A1 (en) Always-on wake on multi-dimensional pattern detection (wompd) from a sensor fusion circuitry
Cao et al. Live Speech Recognition via Earphone Motion Sensors
CN115346534A (zh) 声纹识别模型训练方法、声纹识别方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant