CN112116742A - 融合用户多源发声特征的身份认证方法、存储介质及设备 - Google Patents

融合用户多源发声特征的身份认证方法、存储介质及设备 Download PDF

Info

Publication number
CN112116742A
CN112116742A CN202010790392.1A CN202010790392A CN112116742A CN 112116742 A CN112116742 A CN 112116742A CN 202010790392 A CN202010790392 A CN 202010790392A CN 112116742 A CN112116742 A CN 112116742A
Authority
CN
China
Prior art keywords
user
voice
radio frequency
epc
identity authentication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010790392.1A
Other languages
English (en)
Other versions
CN112116742B (zh
Inventor
赵衰
李镇江
丁菡
惠维
王鸽
赵季中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202010790392.1A priority Critical patent/CN112116742B/zh
Publication of CN112116742A publication Critical patent/CN112116742A/zh
Application granted granted Critical
Publication of CN112116742B publication Critical patent/CN112116742B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C9/00Individual registration on entry or exit
    • G07C9/20Individual registration on entry or exit involving the use of a pass
    • G07C9/22Individual registration on entry or exit involving the use of a pass in combination with an identity check of the pass holder
    • G07C9/25Individual registration on entry or exit involving the use of a pass in combination with an identity check of the pass holder using biometric data, e.g. fingerprints, iris scans or voice recognition
    • G07C9/257Individual registration on entry or exit involving the use of a pass in combination with an identity check of the pass holder using biometric data, e.g. fingerprints, iris scans or voice recognition electronically
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06KGRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K7/00Methods or arrangements for sensing record carriers, e.g. for reading patterns
    • G06K7/10Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation
    • G06K7/10009Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation sensing by radiation using wavelengths larger than 0.1 mm, e.g. radio-waves or microwaves
    • G06K7/10019Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation sensing by radiation using wavelengths larger than 0.1 mm, e.g. radio-waves or microwaves resolving collision on the communication channels between simultaneously or concurrently interrogated record carriers.
    • G06K7/10029Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation sensing by radiation using wavelengths larger than 0.1 mm, e.g. radio-waves or microwaves resolving collision on the communication channels between simultaneously or concurrently interrogated record carriers. the collision being resolved in the time domain, e.g. using binary tree search or RFID responses allocated to a random time slot
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Toxicology (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Electromagnetism (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种融合用户多源发声特征的身份认证方法、存储介质及设备,构建感知末端;设计收发保护机制,在RFID读写器与感知末端的标签通信过程中,在信号发射时加入动态随机噪音,在接收信号时消除噪音并恢复标签EPC,判断感知信号真伪;识别用户语音命令,若包含关键词,根据能否正确恢复感知末端标签EPC确定进入下一步或拒接请求并结束;对语音信号进行降噪和有声部分检测,转换为时‑频谱图后提取射频信号相位信息并预处理;将处理过的语音和射频感知数据通过两个分支同时输入神经网络,进行用户身份认证。本发明基于语音和射频技术的实现既能够保证系统安全可信,具有较强的应用价值、社会意义和发展潜力。

Description

融合用户多源发声特征的身份认证方法、存储介质及设备
技术领域
本发明属于无线射频识别(RFID)和语音认证技术领域,具体涉及一种融合用户多源发声特征的身份认证方法、存储介质及设备。
背景技术
现实生活中,大多数门禁系统利用射频识别卡片对用户进行身份认证。然而,射频识别作为一种非用户绑定式的认证手段,卡片本身和射频信号面临着丢失、盗窃、篡改和复制(重放)等安全风险。近年来,指纹、人脸和语音认证技术不断发展成熟,并依靠较好的便捷性和安全性,被更多访问控制系统所采纳。
但是,面对某些特殊应用场景特别是传染性公共卫生事件,指纹认证会直接引发传染风险;人脸认证会因用户穿戴口罩遮挡面部而影响认证精度,还存在隐私泄漏问题;语音认证虽然可以避免上述类似问题,但用户发声时语音命令很容易被攻击者录制并发起重放攻击,并且实施语音重放攻击代价较低,不需要高度专业化的设备和技术要求。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种融合用户多源发声特征的身份认证方法、存储介质及设备,能够保证高风险语音命令和认证口令的安全性(由合法用户现场亲自发出),为多种访问控制应用场景和应对突发性公共卫生事件提供一种可信、可靠、可用的用户身份认证手段。
本发明采用以下技术方案:
一种融合用户多源发声特征的身份认证方法,包括以下步骤:
S1、确定感知末端的尺寸,选择RFID标签数量和型号,构建感知末端;
S2、设计收发保护机制,在RFID读写器与感知末端的标签通信过程中,在信号发射时加入动态随机噪音,在接收信号时消除噪音并恢复标签EPC,判断感知信号真伪;
S3、识别用户语音命令,若包含关键词,根据步骤S2能否正确恢复感知末端标签EPC确定进入步骤S4或拒接请求并结束;
S4、对语音信号进行降噪和有声部分检测,转换为时-频谱图后提取射频信号相位信息,并进行滤波、目标区域检测、等比例伸缩和归一化操作;
S5、将步骤S4处理过的语音和射频感知数据通过两个分支同时输入神经网络,进行用户身份认证。
具体的,步骤S1中,利用RFID射频信号物理层信息,在用户发出语音命令或认证口令过程中感知用户嘴部运动;在每个标签每次被成功读取时获得一次信号物理层信息,即感知信息。
具体的,步骤S2中,根据RFID通信协议,读写器采取轮询的方式与标签进行通信,即每个通信周期内所有标签被询问一次且最多一次,每个标签被询问一次的通信过程包含Query、RN16、ACK和EPC,Query和ACK为读写器发出的命令,RN16和EPC是标签的回复信号,在读写器发出ACK命令后,生成动态随机噪音形式的连续载波,标签将自身EPC调制到载波上并反向散射给读写器,实现动态随机噪音的加载,在读写器每个轮询周期的第一个问询时隙,通过编程设置为空的问询时隙,不允许标签回复EPC信号,仅用于收发随机噪音,估计短时信道状态H用于同一个轮询周期内所有标签回复EPC段的噪音消除。
进一步的,收发保护机制具体为:在发射端加载动态随机噪音保护通信内容,在接收端消除噪音恢复通信内容,动态随机噪音仅收发双发已知且不断发生变化。
具体的,步骤S3中,用户或系统预先设置高风险关键词,当用户发起语音命令或认证口令时,先利用现有语音识别技术识别语音内容,若语音内容中不包含预设的高风险关键词,不询问收发保护机制,不进行用户认证,直接执行命令相应的操作;当语音内容中包含预设的高风险关键词时,启动询问收发保护机制,在用户发声的过程中感知信息是否为重放信号;若感知信息被认定为重放信号,则拒绝当前语音命令请求;若感知信息真实有效,则将感知信息和语音命令对应的音频信号进行后续处理和认证。
具体的,步骤S4中,通过设置相对能量P与过零率ZCR的阈值,对语音数据进行有声部分检测,定位用户发声的始末位置,通过时钟同步截取射频感知数据的目标区域;分别对语音和射频感知数据做时-频谱转换和等比例伸缩,时-频谱转包括含25%~50%叠加的分帧、加窗和傅立叶变换,射频感知数据的等比例伸缩,基于相邻采样点相对差值,和原始序列长度与目标序列长度比例系数实现;转换后的RGB三通道时-频谱图通过调整像素比例固定尺寸,射频感知数据伸缩至预设的固定长度。
具体的,步骤S5中,设计基于CNN的双分支残差神经网络,引入与多源信息融合相关的损失函数和对应的权重,实现对用户身份的认证,具体为:
采用多通道的2维CNN残差神经网络进行语音数据的特征提取,提取特征定义为θvoi;采用多通道1维CNN残差神经网络进行射频感知数据特征提取,提取特征定义为θsen;两个分支末端均包含一个全连接层,并采用预测结果和真实值的交叉熵作为损失函数,即Lvoi和Lsen,反向传播更新各自特征提取网络参数;然后对语音特征θvoi和射频感知特征θsen进行特征空间对齐,采用二范数计算两者距离作为损失函数Ljot更新两个分支特征提取网络的参数;特征融合之前对两个分支所对应的交叉熵损失函数附加权重。
本发明的另一技术方案是,一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据所述的方法中的任一方法。
本发明的另一技术方案是,一种计算设备,包括:
一个或多个处理器、存储器及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行,所述一个或多个程序包括用于执行所述的方法中的任一方法的指令。
与现有技术相比,本发明至少具有以下有益效果:
本发明一种融合用户多源发声特征的身份认证方法,综合考虑多源信息对同一目标(用户)的特征表达差异性、多源特征之间的相互联系和均衡关系,以及感知源信息本身的防重放问题,而非分步(层)认证、多源信息孤立运用、多源特征直接合并,以及忽视为了抵御语音重放攻击而引入的感知源信息本身的真伪问题。充分融合射频识别与语音认证技术的优势特点,实现了一种多源特征融合认证方法;不需要与用户发生直接接触,能够抵御非法访问、语音重放和多源重放等已知攻击手段,并且在特殊应用场景特别是面对传染性公共卫生事件时,依然具备较高的用户身份认证可信性、可靠性、可用性。
进一步的,RFID是一种普及度高、投资代价低的低能耗通信技术,用其构建感知末端具有更强的实用性和可行性;RFID标签尺寸形状多样,组成的标签阵列大小灵活,可以近似于感知目标(用户嘴部),从而提高感知精度。
进一步的,收发保护机制可以保证感知信号自身的安全,当攻击者利用之前监听和录制的信号发起重放攻击时,可以有效检测信号真伪。
进一步的,本发明提出的射频收发保护机制中,对信道状态估计利用信道短时稳定性,并通过计算信道状态序列而非平均单值进行接收信号的恢复。
进一步的,仅对系统预设或用户自定义关键词进行后续处理和认证,既可以保证语音系统的日常使用流畅度,也可以减少不必要的存储和运算,大幅降低系统开销。
进一步的,同步处理射频和音频接收信号,可以利用音频信号起始位置检测较简单的现实,更高效地实现射频信号目标区域的检测;不同时长的射频和音频信号经过处理均为固定尺寸,可以直接输入神经网络进行训练和预测。
进一步的,采用多源特征的融合,体现在多源信息的获取、处理、转化、体征提取、体征对齐、特征融合和预测判断的全过程。
综上所述,本发明通过对多源信息的综合分析与处理,实现了一种特征融合式的身份认证方法。基于语音和射频技术的实现既能够保证系统安全可信,也适用于传染性公共卫生事件,具有较强的应用价值、社会意义和发展潜力。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明的方法流程图;
图2为RFID读写器询问标签一次的通信过程;
图3为动态随机噪音加载与消除的实际效果图;
图4为神经网络结构示意图;
图5为RFID信号感知能力验证图;
图6为实验原型认证精度图;
图7为实验原型对不同攻击的错误接受率图;
图8为实验原型在不同距离下的认证精度图;
图9为实验原型在不同语速下的认证精度图。
具体实施方式
本发明提供了一种融合用户多源发声特征的身份认证方法、存储介质及设备,综合考虑常见认证技术的优劣和特点,利用射频识别(RFID)信号物理层信息感知用户发声时的嘴部运动特征(第一源,感知信息源),利用麦克风接收用户所发出的语音命令(第二源,语音信息源),通过设计双分支神经网络,同时从用户发声多源信息中提取身份特征并实现融合认证;通过在射频收发端设计动态随机噪音加载和恢复机制,消除射频感知信号被攻击者与语音信号一起重放的安全风险。既具有在传染性公共卫生事件中的可用性,也能够有效抵御非法访问、语音重放、多源重放等恶意攻击,保证高风险语音命令和认证口令的安全性,具有较强的应用价值、社会意义和发展潜力。
请参阅图1,本发明一种融合用户多源发声特征的身份认证方法,包括以下步骤:
S1、构建感知末端;
利用RFID射频信号物理层信息,在用户发出语音命令或认证口令的过程中感知用户嘴部运动;
感知末端能够有效抵御单纯的语音重放攻击,因为重放设备(扬声器)无法对射频信号产生影响或产生与用户一致的影响。为利用射频信号充分捕捉用户嘴部运动特征,感知末端大小需要与常见应用场景中用户嘴部张开状态下的平均尺寸相似。通过调查,成年人嘴部张开状态下的平均尺寸为直径50mm的圆形,相似或略大于该尺寸的感知末端可以增强射频信号对用户嘴部运动感知的充分性。
在确定感知末端大小后,增加标签数量,提高感知信息源的感知精准度和数据维度。然而,多标签之间会发生通信冲突,导致通信速率下降,进而降低感知粒度。
具体的,通过测量多种RFID标签与读写器的通信速率,发现真实场景下,常见RFID设备对单个标签的读取速率为300~400次/每秒。当多个标签与同一读写器进行通信时,每个标签被读取的速率最多不超过
Figure BDA0002623564920000071
其中,n代表标签个数。但是,标签之间的冲突会产生多个无效的通信时隙,进而使得固定时间内标签被读取的总次数下降(约降低30%)。本发明在每个标签每次被成功读取时获得一次信号物理层信息即感知信息,因此需要综合考虑决定标签具体尺寸和数量。
S2、设计收发保护
通过感知末端检测用户真实性(活体性),因为重放设备无法对感知信息产生影响或产生与用户相似的影响。但是,感知末端所采用的射频信号本身存在被重放的可能性,即攻击者可以在某合法用户发起认证时秘密窃听并录制语音与射频两种信号,并择时发起多源重放攻击。为解决这一问题,本发明对感知末端设计一套收发保护机制。该机制的基本原理为:在发射端加载动态随机噪音保护通信内容,在接收端消除噪音恢复通信内容,由于动态随机噪音仅收发双发已知且不断发生变化,攻击者无法使用之前录制的信号欺骗系统。
根据RFID通信协议,读写器采取轮询的方式与标签进行通信,即每个通信周期内所有标签会被询问一次且最多一次。每个标签被询问一次的通信过程包含“Query”“RN16”“ACK”和“EPC”4个组成部分,如图2所示,“Query”和“ACK”为读写器发出的命令,“RN16”和“EPC”是标签的回复信号。本发明在读写器发出“ACK”命令之后,生成动态随机噪音形式的连续载波,标签会将自身“EPC”调制到该载波上并反向散射(回复)给读写器,如此可实现动态随机噪音的加载。
当读写器收到标签的“EPC”回复信号时,理论上,由于读写器存储有发射时生成的随机噪音,因此可以通过比较收发信号直接消除噪音恢复“EPC”。然而,该方法在实际操作中无法得到可正确解码的“EPC”。原因在于,生成的随机噪音为理想信号,经过无线信道传播后会发生明显的变化,该变化已经无法满足噪音消除的要求。因此,本发明进一步提出了一种短时信道状态估计方法,能够有效解决噪音消除的问题。
具体的,本发明在读写器每个轮询周期的开始,通过编程增加一个空的问询时隙,不允许标签回复“EPC”信号,仅用于收发随机噪音,即图2中“EPC”段仅包含随机噪音,通过下式估计短时信道状态H:
Figure BDA0002623564920000081
其中,Nt、Nr分别代表读写器发射信号时生成的随机噪音,和接收到的经过信道影响后的随机噪音,i代表采样序列。由于每个轮询周期时间较短,该短时信道状态可用于同一个轮询周期内所有标签回复“EPC”段的噪音消除。
噪音消除的具体方式用以下式子建模:
Figure BDA0002623564920000082
其中,EPCi
Figure BDA0002623564920000083
分别代表通过式(2)消除噪音所恢复的标签“EPC”,和读写器实际接收到标签回复的带有随机噪音的“EPC”,j代表同一个轮询周期内的某个标签回复序列,最大不超过总标签数量。图3展示了上述噪音加载和消除方法的实际效果,为了方便理解,仅展示“EPC”段且噪音只加载“EPC”段的一半区域。
本发明设计的收发保护机制始终保持开启状态,攻击者无法获得不加载噪音且被用户嘴部影响的射频信号(感知信息)。因此,攻击者无法利用多天线技术发起更进一步的重放攻击。
S3、语音识别
设置对收发保护机制的询问原则。
具体的,用户或系统可以预先设置高风险关键词,如认证口令、支付密码、以及可能暴露用户隐的语音命令,当用户发起语音命令或认证口令时,先利用现有语音识别技术识别语音内容,若该语音内容中不包含预设高风险关键词,则不询问收发保护机制,也不进行用户认证,直接执行该命令相应的操作,保持非访问控制类语音识别系统日常使用的流畅性。当语音内容中包含预设高风险关键词时,启动询问收发保护机制,在用户发声的过程中感知信息是否为重放信号,即接收信号中的动态随机噪音能否被正确消除并成功恢复标签EPC。若感知信息被认定为重放信号,则拒绝当前语音命令请求。若感知信息真实有效,则将感知信息和语音命令对应的音频信号进行后续处理和认证。
S4、数据处理
在处理射频感知数据和语音数据时考虑了二源数据的相互关系,以及下一步需要固定尺寸的输入数据和实际数据因用户语速动态变化之间的矛盾。对于射频感知信号,用户发声时的嘴部运动前后可能出现其他非目标动作,如摆头、吞咽、抿嘴等。此类动作对射频信号的影响大于或等幅于目标动作,必须准确截取受用户嘴部运动所影响的射频信号目标区域,才能提高身份认证的有效性和准确率。因此,在语音数据和射频感知数据分别经过传统音频降噪和小波降噪处理后,需要对语音数据进行有声部分检测,准确定位用户发声的始末位置,并通过时钟同步截取射频感知数据的目标区域。
声部分检测先对语音数据进行分帧处理,每帧长度一般设置为5~40ms,并计算每帧的相对能量值P:
Pi=10×lgVi (3)
其中,V代表一帧的幅度方差,i是帧序列。
同时,计算每帧的过零率ZCR:
Figure BDA0002623564920000101
其中,x为语音帧,N代表每帧的总采样点数,sgn(·)是符号函数:
Figure BDA0002623564920000102
通过设置相对能量P与过零率ZCR的阈值,完成对语音数据的有声部分检测并获取用户发声的始末位置,从而同步完成对射频感知数据的目标区域截取。
用户的身份认证由神经网络完成,因此需要输入数据为某一固定尺寸或长度。然而,用户在重复同一语音命令时,很难保证完全一致的语速。因此,经上述过程处理过后的语音和射频感知数据均无法直接输入神经网络,需要分别做时-频谱转换和等比例伸缩。语音数据的时-频谱转换过程主要包括含25%~50%叠加的分帧、加窗(一般使用汉明窗)、傅立叶变换。转换后的RGB三通道时-频谱图可以通过调整像素比例固定尺寸。射频感知数据的等比例伸缩,主要基于相邻采样点相对差值,和原始序列长度与目标序列长度比例系数实现。伸缩后的干射频感知数据为目标序列长度。
S5、身份认证
请参阅图4,本发明通过设计基于CNN的双分支残差神经网络,并引入与多源信息融合相关的损失函数和对应的权重,实现对用户身份的认证。神经网络的运行主要包括特征提取、特征对齐、特征融合和预测判断4个部分。
语音数据的特征提取,由于输入为RGB三通道的二维图像,采用多通道的2维CNN,所提取特征定义为θvoi;射频感知数据的特征提取,由于数据本身具有时序性且从多个标签获得,采用多通道1维CNN,所提取特征定义为θsen。两个分支均采用残差结构的主要目的是减小过拟合问题。两个分支末端均包含一个全连接层,并采用预测结果和真实值的交叉熵作为损失函数,即Lvoi和Lsen,反向传播更新各自特征提取网络参数。
对语音特征θvoi和射频感知特征θsen进行特征空间对齐,主要考虑在于:两个分支的输入数据,即语音和射频感知信息,均源于用户发出语音命令所产生,两者包含同一用户的身份信息,所以之间存在相互关系和相似性。因此,本发明采用二范数计算两者距离作为损失函数Ljot进一步更新两个分支特征提取网络的参数:
Figure BDA0002623564920000111
特征融合之前还需要对两个分支所对应的交叉熵损失函数附加权重。因为从语音数据中所包含的用户身份特征非常丰富且区分性强,而射频感知数据中用户身份特征的区分性较弱。如果直接将多源特征进行简单拼接,会导致网络最终的判断由语音数据主导。进而当攻击者重放用户语音录音并同时无声地做出嘴部运动,系统也会按照语音特征作出错误判断。
在上述部分的保证下,本发明采用两个全连接层并综合运用上诉所有损失函数作出预测判断,得到了较好的安全性能。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
以门禁场景为例,合法用户本人现场说出认证口令可通过认证,从而进入门禁场所。非法用户通过复述某合法用户认证口令发起仿冒攻击、通过录制并播放某合法用户认证口令的录音发起语音重放攻击、通过音频和射频设备同时发起双重放攻击均会被系统拒绝请求,并发出警告。以智慧家庭场景为例,合法用户语音命令若不包含预设高风险关键词,则直接执行语音命令所表达的操作;若包含高风险关键词,则进行身份认证,身份不合法或某一(两)分支数据(语音、射频感知)为重放信号,则拒接执行该命令请求。
请参阅图5,为验证本发明提出的方法在现实系统里的性能表现,本发明利用商用麦克风录制用户发出的语音命令,用苹果Siri识别语音命令内容,用USRP-N210实现RFID读写器,用2个Impinj H47标签构建感知末端。音频信号采样率为44.1kHz,射频信号中心频率922.375MHz,Laird S9028天线增益为8dBi。
本发明邀请12个在校学生为志愿者,在4个不同的房间和第4个房间的3个不同位置(R1为会议室,R2为教室,R3为办公室,R41、R42、R43为实验室3个不同位置),即合计6个不同的环境下实施相同实验。实验结果如图6所示,本发明能够在6个不同环境中保证95.8%的平均用户身份认证精度。
请参阅图7,在保证高认证精度的同时,本发明能够以0.48%、1.88%、0%的错误接收率抵御非法用户冒充攻击、语音命令重放攻击、语音和射频信号双重放攻击。进一步,为验证本发明提出的方法在现实应用中的健壮性,本发明还测试了用户与接受设备之间的距离以及用户讲话语速对认证精度的影响。
请参阅图8,为系统认证精度随着信号接收设备与用户之间距离变化的实验结果,可以看出在用户距离系统20厘米以内,系统能够达到90%以上的认证精度。
请参阅图9,展示了用户以本人习惯的正常语速、1.5倍和0.5倍语速发出语音命令时系统的认证精度,仅慢语速有较大影响,但仍然保持90%以上的认证精度。
综上所述,本发明一种融合用户多源发声特征的身份认证方法、存储介质及设备,充分融合射频识别与语音认证技术的优势特点,实现了一种多源特征融合认证方法。该方法不需要与用户发生直接接触,能够抵御非法访问、语音重放和多源重放等已知攻击手段,并且在特殊应用场景特别是面对传染性公共卫生事件时,依然具备较高的用户身份认证可信性、可靠性、可用性。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。

Claims (9)

1.一种融合用户多源发声特征的身份认证方法,其特征在于,包括以下步骤:
S1、确定感知末端的尺寸,选择RFID标签数量和型号,构建感知末端;
S2、设计收发保护机制,在RFID读写器与感知末端的标签通信过程中,在信号发射时加入动态随机噪音,在接收信号时消除噪音并恢复标签EPC,判断感知信号真伪;
S3、识别用户语音命令,若包含关键词,根据步骤S2能否正确恢复感知末端标签EPC确定进入步骤S4或拒接请求并结束;
S4、对语音信号进行降噪和有声部分检测,转换为时-频谱图后提取射频信号相位信息,并进行滤波、目标区域检测、等比例伸缩和归一化操作;
S5、将步骤S4处理过的语音和射频感知数据通过两个分支同时输入神经网络,进行用户身份认证。
2.根据权利要求1所述的融合用户多源发声特征的身份认证方法,其特征在于,步骤S1中,利用RFID射频信号物理层信息,在用户发出语音命令或认证口令过程中感知用户嘴部运动;在每个标签每次被成功读取时获得一次信号物理层信息,即感知信息。
3.根据权利要求1所述的融合用户多源发声特征的身份认证方法,其特征在于,步骤S2中,根据RFID通信协议,读写器采取轮询的方式与标签进行通信,即每个通信周期内所有标签被询问一次且最多一次,每个标签被询问一次的通信过程包含Query、RN16、ACK和EPC,Query和ACK为读写器发出的命令,RN16和EPC是标签的回复信号,在读写器发出ACK命令后,生成动态随机噪音形式的连续载波,标签将自身EPC调制到载波上并反向散射给读写器,实现动态随机噪音的加载,在读写器每个轮询周期的第一个问询时隙,通过编程设置为空的问询时隙,不允许标签回复EPC信号,仅用于收发随机噪音,估计短时信道状态H用于同一个轮询周期内所有标签回复EPC段的噪音消除。
4.根据权利要求3所述的融合用户多源发声特征的身份认证方法,其特征在于,收发保护机制具体为:在发射端加载动态随机噪音保护通信内容,在接收端消除噪音恢复通信内容,动态随机噪音仅收发双发已知且不断发生变化。
5.根据权利要求1所述的融合用户多源发声特征的身份认证方法,其特征在于,步骤S3中,用户或系统预先设置高风险关键词,当用户发起语音命令或认证口令时,先利用现有语音识别技术识别语音内容,若语音内容中不包含预设的高风险关键词,不询问收发保护机制,不进行用户认证,直接执行命令相应的操作;当语音内容中包含预设的高风险关键词时,启动询问收发保护机制,在用户发声的过程中感知信息是否为重放信号;若感知信息被认定为重放信号,则拒绝当前语音命令请求;若感知信息真实有效,则将感知信息和语音命令对应的音频信号进行后续处理和认证。
6.根据权利要求1所述的融合用户多源发声特征的身份认证方法,其特征在于,步骤S4中,通过设置相对能量P与过零率ZCR的阈值,对语音数据进行有声部分检测,定位用户发声的始末位置,通过时钟同步截取射频感知数据的目标区域;分别对语音和射频感知数据做时-频谱转换和等比例伸缩,时-频谱转包括含25%~50%叠加的分帧、加窗和傅立叶变换,射频感知数据的等比例伸缩,基于相邻采样点相对差值,和原始序列长度与目标序列长度比例系数实现;转换后的RGB三通道时-频谱图通过调整像素比例固定尺寸,射频感知数据伸缩至预设的固定长度。
7.根据权利要求1所述的融合用户多源发声特征的身份认证方法,其特征在于,步骤S5中,设计基于CNN的双分支残差神经网络,引入与多源信息融合相关的损失函数和对应的权重,实现对用户身份的认证,具体为:
采用多通道的2维CNN残差神经网络进行语音数据的特征提取,提取特征定义为θvoi;采用多通道1维CNN残差神经网络进行射频感知数据特征提取,提取特征定义为θsen;两个分支末端均包含一个全连接层,并采用预测结果和真实值的交叉熵作为损失函数,即Lvoi和Lsen,反向传播更新各自特征提取网络参数;然后对语音特征θvoi和射频感知特征θsen进行特征空间对齐,采用二范数计算两者距离作为损失函数Ljot更新两个分支特征提取网络的参数;特征融合之前对两个分支所对应的交叉熵损失函数附加权重。
8.一种存储一个或多个程序的计算机可读存储介质,其特征在于,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据权利要求1至7所述的方法中的任一方法。
9.一种计算设备,其特征在于,包括:
一个或多个处理器、存储器及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1至7所述的方法中的任一方法的指令。
CN202010790392.1A 2020-08-07 2020-08-07 融合用户多源发声特征的身份认证方法、存储介质及设备 Active CN112116742B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010790392.1A CN112116742B (zh) 2020-08-07 2020-08-07 融合用户多源发声特征的身份认证方法、存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010790392.1A CN112116742B (zh) 2020-08-07 2020-08-07 融合用户多源发声特征的身份认证方法、存储介质及设备

Publications (2)

Publication Number Publication Date
CN112116742A true CN112116742A (zh) 2020-12-22
CN112116742B CN112116742B (zh) 2021-07-13

Family

ID=73803683

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010790392.1A Active CN112116742B (zh) 2020-08-07 2020-08-07 融合用户多源发声特征的身份认证方法、存储介质及设备

Country Status (1)

Country Link
CN (1) CN112116742B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836194A (zh) * 2021-01-29 2021-05-25 西安交通大学 一种基于人手内部生物特征的身份认证方法及系统
CN114006799A (zh) * 2021-10-29 2022-02-01 西安交通大学 一种面向无源rfid的扩频与宽带感知增强方法及系统
CN114664310A (zh) * 2022-03-01 2022-06-24 浙江大学 一种基于注意力增强滤波的无声攻击分类提升方法
WO2023159340A1 (zh) * 2022-02-22 2023-08-31 深圳大学 基于深度学习的标签识别、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105702263A (zh) * 2016-01-06 2016-06-22 清华大学 语音重放检测方法和装置
US20180146370A1 (en) * 2016-11-22 2018-05-24 Ashok Krishnaswamy Method and apparatus for secured authentication using voice biometrics and watermarking
CN108364656A (zh) * 2018-03-08 2018-08-03 北京得意音通技术有限责任公司 一种用于语音重放检测的特征提取方法及装置
CN109448759A (zh) * 2018-12-28 2019-03-08 武汉大学 一种基于气爆音的抗语音认证欺骗攻击检测方法
CN109711350A (zh) * 2018-12-28 2019-05-03 武汉大学 一种基于唇部运动和语音融合的身份认证方法
CN110087237A (zh) * 2019-04-30 2019-08-02 苏州大学 基于数据扰动的隐私保护方法、装置及相关组件
CN111259679A (zh) * 2020-01-16 2020-06-09 西安交通大学 一种基于射频信号特征的非绑定式物品识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105702263A (zh) * 2016-01-06 2016-06-22 清华大学 语音重放检测方法和装置
US20180146370A1 (en) * 2016-11-22 2018-05-24 Ashok Krishnaswamy Method and apparatus for secured authentication using voice biometrics and watermarking
CN108364656A (zh) * 2018-03-08 2018-08-03 北京得意音通技术有限责任公司 一种用于语音重放检测的特征提取方法及装置
CN109448759A (zh) * 2018-12-28 2019-03-08 武汉大学 一种基于气爆音的抗语音认证欺骗攻击检测方法
CN109711350A (zh) * 2018-12-28 2019-05-03 武汉大学 一种基于唇部运动和语音融合的身份认证方法
CN110087237A (zh) * 2019-04-30 2019-08-02 苏州大学 基于数据扰动的隐私保护方法、装置及相关组件
CN111259679A (zh) * 2020-01-16 2020-06-09 西安交通大学 一种基于射频信号特征的非绑定式物品识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CUI ZHAO; ZHENJIANG LI;ETC: "RF-Mehndi: A Fingertip Profiled RF Identifier", 《IEEE INFOCOM 2019 - IEEE CONFERENCE ON COMPUTER COMMUNICATIONS》 *
张笑宇 沈超等: "智能语音系统安全分析", 《数据与计算发展前沿》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836194A (zh) * 2021-01-29 2021-05-25 西安交通大学 一种基于人手内部生物特征的身份认证方法及系统
CN112836194B (zh) * 2021-01-29 2023-03-21 西安交通大学 一种基于人手内部生物特征的身份认证方法及系统
CN114006799A (zh) * 2021-10-29 2022-02-01 西安交通大学 一种面向无源rfid的扩频与宽带感知增强方法及系统
WO2023159340A1 (zh) * 2022-02-22 2023-08-31 深圳大学 基于深度学习的标签识别、装置、电子设备及存储介质
CN114664310A (zh) * 2022-03-01 2022-06-24 浙江大学 一种基于注意力增强滤波的无声攻击分类提升方法

Also Published As

Publication number Publication date
CN112116742B (zh) 2021-07-13

Similar Documents

Publication Publication Date Title
CN112116742B (zh) 融合用户多源发声特征的身份认证方法、存储介质及设备
Lu et al. Lip reading-based user authentication through acoustic sensing on smartphones
Lu et al. Lippass: Lip reading-based user authentication on smartphones leveraging acoustic signals
Wu et al. LVID: A multimodal biometrics authentication system on smartphones
Wang et al. Voicepop: A pop noise based anti-spoofing system for voice authentication on smartphones
Zhang et al. Voicelive: A phoneme localization based liveness detection for voice authentication on smartphones
Chen et al. ResNet and Model Fusion for Automatic Spoofing Detection.
US20200097643A1 (en) rtCaptcha: A Real-Time Captcha Based Liveness Detection System
CN105702263B (zh) 语音重放检测方法和装置
Liu et al. An MFCC‐based text‐independent speaker identification system for access control
US6735695B1 (en) Methods and apparatus for restricting access of a user using random partial biometrics
US20180146370A1 (en) Method and apparatus for secured authentication using voice biometrics and watermarking
CN111091176A (zh) 数据识别设备及方法和训练设备及方法
CN106251874A (zh) 一种语音门禁和安静环境监控方法及系统
CN204667465U (zh) 电子支付真人活体身份验证系统
Monteiro et al. Development of voice spoofing detection systems for 2019 edition of automatic speaker verification and countermeasures challenge
Boutellaa et al. Audiovisual synchrony assessment for replay attack detection in talking face biometrics
Zhao et al. Anti-spoofing voice commands: A generic wireless assisted design
Dawood et al. A robust voice spoofing detection system using novel CLS-LBP features and LSTM
Jiang et al. Securing liveness detection for voice authentication via pop noises
Ranjan et al. Statnet: Spectral and temporal features based multi-task network for audio spoofing detection
CN111161759B (zh) 音频质量评价方法、装置、电子设备及计算机存储介质
Revathi et al. Person authentication using speech as a biometric against play back attacks
Saleema et al. Voice biometrics: the promising future of authentication in the internet of things
Zhang et al. A phoneme localization based liveness detection for text-independent speaker verification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant