CN110896352A - 身份识别方法、装置和系统 - Google Patents

身份识别方法、装置和系统 Download PDF

Info

Publication number
CN110896352A
CN110896352A CN201811063822.9A CN201811063822A CN110896352A CN 110896352 A CN110896352 A CN 110896352A CN 201811063822 A CN201811063822 A CN 201811063822A CN 110896352 A CN110896352 A CN 110896352A
Authority
CN
China
Prior art keywords
voiceprint
timestamp
stored
similarity
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811063822.9A
Other languages
English (en)
Other versions
CN110896352B (zh
Inventor
赵情恩
索宏彬
刘刚
卓著
雷赟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811063822.9A priority Critical patent/CN110896352B/zh
Publication of CN110896352A publication Critical patent/CN110896352A/zh
Application granted granted Critical
Publication of CN110896352B publication Critical patent/CN110896352B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/32Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
    • H04L9/3226Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using a predetermined code, e.g. password, passphrase or PIN
    • H04L9/3231Biological data, e.g. fingerprint, voice or retina
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/32Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
    • H04L9/3297Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials involving time stamps, e.g. generation of time stamps
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams

Abstract

本申请公开了一种身份识别方法、装置和系统。其中,该方法包括:获取目标对象的声纹特征和第一时间戳,其中,第一时间戳用于表征获取到声纹特征时的时间;从声纹库中获取与声纹特征匹配成功的预存声纹特征和第二时间戳,其中,第二时间戳用于表征获取到预存声纹特征时的时间;基于第一时间戳和第二时间戳,确定相似度阈值;基于相似度阈值,以及声纹特征和预存声纹特征的相似度,得到目标对象的识别结果。本申请解决了现有技术中身份识别方法的识别准确率低的技术问题。

Description

身份识别方法、装置和系统
技术领域
本申请涉及声纹识别领域,具体而言,涉及一种身份识别方法、装置和系统。
背景技术
智能音箱是家庭成员通过语音进行上网的工具,例如点播歌曲、上网购物,或是了解天气预报,它也可以对智能家居设备进行控制,比如打开窗帘、设置冰箱温度、提前让热水器升温等。为了提高智能音箱的安全性,避免非家庭成员对智能音箱进行非法控制,家庭成员需要在智能音箱中进行注册,并且每次控制之前进行身份认证。
但是,需求背景:由于用户注册的音频包含的环境信息,以及说话人自身的信息,在随着时间不断推移的情况下,会发生细微或较大的变化,包括环境噪音(比如人声说话,电视,室外交通噪音)水平,周围有无其他声源,比如电视机,其他说话人,另外音箱的摆放位置,说话人自身的变化(情绪,生理的改变)等等,都会影响系统的准确判断。
另外,在其它的各种IoT(Internet of Things)物联网设备中,也存在有上述的问题。
针对现有技术中身份识别方法的识别准确率低的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种身份识别方法、装置和系统,以至少解决现有技术中身份识别方法的识别准确率低的技术问题。
根据本申请实施例的另一方面,提供了一种身份识别方法,包括:获取目标对象的声纹特征和第一时间戳,其中,第一时间戳用于表征获取到声纹特征时的时间;从声纹库中获取与声纹特征匹配成功的预存声纹特征和第二时间戳,其中,第二时间戳用于表征获取到预存声纹特征时的时间;基于第一时间戳和第二时间戳,确定相似度阈值;基于相似度阈值,以及声纹特征和预存声纹特征的相似度,得到目标对象的识别结果。
根据本申请实施例的另一方面,还提供了一种身份识别方法,包括:获取目标对象的语音信号和第一时间戳,其中,第一时间戳用于表征获取到语音信号时的时间;从声纹库中获取与语音信号匹配成功的预存语音信号和第二时间戳,其中,第二时间戳用于表征获取到预存语音信号时的时间;基于第一时间戳和第二时间戳,确定相似度阈值;基于相似度阈值,以及语音信号和预存语音信号的相似度,得到目标对象的识别结果。
根据本申请实施例的一个方面,还提供了一种身份识别方法,包括:获取目标对象的声音信息,其中,声音信息包括:声纹特征和获取声音信息时的第一时间戳;从声纹库中获取与声音信息匹配的预存声音,其中,声纹库包括:目标对象在历史时间内采集的多个预存声音;基于第一时间戳和采集到预存声音时的第二时间戳,确定相似度阈值;基于相似度阈值,以及声纹特征和预存声音的预存声纹特征的相似度,得到目标对象的识别结果。
根据本申请实施例的另一方面,还提供了一种身份识别装置,包括:第一获取模块,用于获取目标对象的声纹特征和第一时间戳,其中,第一时间戳用于表征获取到声纹特征时的时间;第二获取模块,用于从声纹库中获取与声纹特征匹配成功的预存声纹特征和第二时间戳,其中,第二时间戳用于表征获取到预存声纹特征时的时间;确定模块,用于基于第一时间戳和第二时间戳,确定相似度阈值;识别模块,用于基于相似度阈值,以及声纹特征和预存声纹特征的相似度,得到目标对象的识别结果。
根据本申请实施例的另一方面,还提供了一种身份识别装置,包括:第一获取模块,用于获取目标对象的语音信号和第一时间戳,其中,第一时间戳用于表征获取到语音信号时的时间;第二获取模块,用于从声纹库中获取与语音信号匹配成功的预存语音信号和第二时间戳,其中,第二时间戳用于表征获取到预存语音信号时的时间;确定模块,用于基于第一时间戳和第二时间戳,确定相似度阈值;识别模块,用于基于相似度阈值,以及语音信号和预存语音信号的相似度,得到目标对象的识别结果。
根据本申请实施例的另一方面,还提供了一种身份识别装置,包括:第一获取模块,用于获取目标对象的声音信息,其中,声音信息包括:声纹特征和获取声音信息时的第一时间戳;第二获取模块,用于从声纹库中获取与声音信息匹配的预存声音,其中,声纹库包括:目标对象在历史时间内采集的多个预存声音;确定模块,用于基于第一时间戳和采集到预存声音时的第二时间戳,确定相似度阈值;识别模块,用于基于相似度阈值,以及声纹特征和预存声音的预存声纹特征的相似度,得到目标对象的识别结果。
根据本申请实施例的另一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行如下步骤:获取目标对象的声纹特征和第一时间戳,其中,第一时间戳用于表征获取到声纹特征时的时间;从声纹库中获取与声纹特征匹配成功的预存声纹特征和第二时间戳,其中,第二时间戳用于表征获取到预存声纹特征时的时间;基于第一时间戳和第二时间戳,确定相似度阈值;基于相似度阈值,以及声纹特征和预存声纹特征的相似度,得到目标对象的识别结果。
根据本申请实施例的另一方面,还提供了一种身份识别设备,包括:处理器,处理器用于运行程序,其中,在程序运行时执行以下步骤:获取目标对象的声纹特征和第一时间戳,其中,第一时间戳用于表征获取到声纹特征时的时间;从声纹库中获取与声纹特征匹配成功的预存声纹特征和第二时间戳,其中,第二时间戳用于表征获取到预存声纹特征时的时间;基于第一时间戳和第二时间戳,确定相似度阈值;基于相似度阈值,以及声纹特征和预存声纹特征的相似度,得到目标对象的识别结果。
根据本申请实施例的另一方面,还提供了一种身份识别系统,包括:处理器;以及存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:获取目标对象的声纹特征和第一时间戳,其中,第一时间戳用于表征获取到声纹特征时的时间;从声纹库中获取与声纹特征匹配成功的预存声纹特征和第二时间戳,其中,第二时间戳用于表征获取到预存声纹特征时的时间;基于第一时间戳和第二时间戳,确定相似度阈值;基于相似度阈值,以及声纹特征和预存声纹特征的相似度,得到目标对象的识别结果。
在本申请实施例中,可以获取目标对象的声纹特征和第一时间戳,并从声纹库中获取与声纹特征匹配成功的预存声纹特征和第二时间戳,进一步基于第一时间戳和第二时间戳,确定相似度阈值,从而基于相似度阈值,以及声纹特征和预存声纹特征的相似度,得到目标对象的识别结果,实现身份识别的目的。容易注意到的,可以在获取声纹特征的同时,获取第一时间戳,并基于第一时间戳和声纹库中存储的预存声音的第二时间戳,确定相似度阈值,与现有技术相比,相似度阈值是一个随时间变化的动态阈值,使得用户在较长的时间范围内体验是一致的,达到了降低体验感的不一致性,提高身份识别准确率,提升用户的体验感的技术效果。由此,本申请实施例解决了现有技术中身份识别方法的识别准确率低的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种用于实现身份识别方法的计算机终端(或移动设备)的硬件结构框图;
图2是根据本申请实施例1的一种身份识别方法的流程图;
图3是根据本申请实施例的一种可选的身份识别方法的流程图;
图4是根据本申请实施例2的一种身份识别方法的流程图;
图5是根据本申请实施例3的一种身份识别方法的流程图;
图6是根据本申请实施例4的一种身份识别装置的示意图;
图7是根据本申请实施例5的一种身份识别装置的示意图;
图8是根据本申请实施例6的一种身份识别装置的示意图;以及
图9是根据本申请实施例的一种计算机终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
声纹识别(voiceprint identification):也叫说话人识别(speakeridentification),该技术是从说话人发出的语音信号中提取语音特征,并据此对说话人进行身份验证的生物识别技术。每个人都具有独一无二的声纹,这是由我们的发声器官在成长过程中逐渐形成的特征。无论别人对我们的说话模仿的多么相似,声纹其实都是具有显著区别的。
声纹库:由所有的智能音箱的使用者,在与音箱的交互过程中,不断的记录交互的语音,从而形成一个巨大的数据库,用来标明使用者的身份。
动态阈值:对用户无感知,根据用户使用的时间不同,而选用不同的阈值,确保用户的召回率与准确率都保持在一个较高的水平,即用户体验随着时间变化不大。
实施例1
根据本申请实施例,提供了一种身份识别方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例1所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现身份识别方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本申请实施例中的()方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的漏洞检测方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
此处需要说明的是,在一些可选实施例中,上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。
在上述运行环境下,本申请提供了如图2所示的身份识别方法。图2是根据本申请实施例1的一种身份识别方法的流程图。如图2所示,该方法可以包括如下步骤:
步骤S22,获取目标对象的声纹特征和第一时间戳,其中,第一时间戳用于表征获取到声纹特征时的时间。
具体地,在家庭内使用智能音箱的过程中,当一个用户(即上述的目标对象)需要控制智能音箱时,用户可以通过唤醒词来唤醒智能音箱,智能音箱可以获取到该用户发出的包含唤醒词的语音信号,进一步进行身份认证,具体地,通过对该语音信号进行特征提取,可以得到声纹特征。
进一步地,为了避免随着时间的推移带来用户声音的变化导致系统判决存在误差,智能音箱可以在获取语音信号的同时,获取采集到该语音信号的时间,生成该声纹特征的时间戳(即上述的第一时间戳)。
步骤S24,从声纹库中获取与声纹特征匹配成功的预存声纹特征和第二时间戳,其中,第二时间戳用于表征获取到预存声纹特征时的时间。
具体地,为了能够实现对用户的身份认证,智能音箱可以预先采集该家庭内每个家庭成员的语音信号,构建声纹库,例如,可以利用每个家庭成员在一段时间的多条语音信号,利用每个家庭成员的多条语音构建声纹库。
进一步地,同样为了避免随着时间的推移带来用户声音的变化导致系统判决存在误差,智能音箱可以在获取每个家庭成员的每条语音信号的同时,获取采集到每条语音信号的时间,生成预存声纹特征的第二时间戳。
步骤S26,基于第一时间戳和第二时间戳,确定相似度阈值。
具体地,随着时间的变化,用户的声音会发生微小的变化,与原先注册的声音的相似性在特定范围内逐渐减小,在不更新注册语音的情况下,可以根据验证时的第一时间戳和注册时的第二时间戳的时差信息,选择相应的相似度阈值,也即,本申请实施例中的相似度阈值时一个动态阈值,是一把随时间不断变化的尺子,衡量的基准随时间变化。
步骤S28,基于相似度阈值,以及声纹特征和预存声纹特征的相似度,得到目标对象的识别结果。
具体地,通过将声纹特征和预存声纹特征的相似度与确定的动态阈值进行比较,根据比较结果可以确定该用户的识别结果,如果相似度超过该动态阈值,则可以确定该用户是家庭成员,可以根据该用户的语音进行控制;如果相似度未超过该动态阈值,则可以确定该用户不是家庭成员,该用户进行非法用户,无需对该用户的语音进行响应。
例如,如图3所示,对于智能音箱,整个身份识别流程可以包括声纹注册和声纹识别两部分。声纹注册可以包括获取语音数据,利用家庭成员的多条语音进行特征提取,提取出声纹特征,以及每条特征产生的时间戳共同构成声纹库。在智能音箱正常使用过程中,可以获取说话人的语音数据,进行特征提取,得到声纹特征,并记录该语音数据的时间戳,在声纹库中进行查找匹配,计算出最匹配的说话人的得分(也即相似度),根据该说话人的注册时间戳与识别的时间戳选择阈值,进而判断是否识别出该说话人,得到最终的识别结果。由上可知,通过声纹库进行识别的过程属于动态判决过程,可以根据时间的变化进行动态调整,在用户无感知的情况下,进行判决,使用户在较长的时间范围内体验是一致的。
需要说明的是,本申请实施例提供的方案不仅仅可以应用于智能音箱,还可以应用于智能电视等IoT智能设备,本申请对此不作具体限定,以智能音箱为例进行详细说明。
本申请上述实施例1所提供的方法,可以获取目标对象的声纹特征和第一时间戳,并从声纹库中获取与声纹特征匹配成功的预存声纹特征和第二时间戳,进一步基于第一时间戳和第二时间戳,确定相似度阈值,从而基于相似度阈值,以及声纹特征和预存声纹特征的相似度,得到目标对象的识别结果,实现身份识别的目的。
容易注意到的,可以在获取声纹特征的同时,获取第一时间戳,并基于第一时间戳和声纹库中存储的预存声纹特征的第二时间戳,确定相似度阈值,与现有技术相比,相似度阈值是一个随时间变化的动态阈值,使得用户在较长的时间范围内体验是一致的,达到了降低体验感的不一致性,提高身份识别准确率,提升用户的体验感的技术效果。
由此,本申请提供的上述实施例1的方案解决了现有技术中身份识别方法的识别准确率低的技术问题。
本申请上述实施例中,步骤S26,基于第一时间戳和第二时间戳,确定相似度阈值,包括:
步骤S262,获取第一时间戳和第二时间戳的差值,得到时间差。
步骤S264,获取时间差对应的预设阈值,得到相似度阈值。
具体地,为了能够确定随时间变化的动态阈值,可以通过计算当前识别时的第一时间戳和用户注册时的第二时间戳的时间差,进一步根据时间差,确定相应的动态阈值,从而通过该动态阈值进行身份识别。
本申请上述实施例中,步骤S264,获取时间差对应的预设阈值,得到相似度阈值,包括:
步骤S2642,获取预设分布关系,其中,预设分布关系用于表征不同时间差与不同预设阈值之间的对应关系。
步骤S2644,基于时间差,从预设分布关系中获取预设阈值。
具体地,为了能够准确地确定不同时间差与预设阈值之间的关系,可以预先通过大数据统计,获取不同时间差和对应的预设阈值,构建一个时间差和预设阈值之前的分布关系图(即上述的预设分布关系),可以通过分布关系图上的分布曲线,确定不同时间差对应的预设阈值的具体取值。从而,在计算得到第一时间戳和第二时间戳的时间差之后,可以通过查询预设分布关系,获取到该时间差对应的预设阈值。
本申请上述实施例中,该方法还包括:
步骤S210,获取多组声纹特征数据,其中,每组声纹特征数据包括:两个声纹特征,以及每个声纹特征的时间戳,两个声纹特征为同一个对象的声纹特征。
步骤S212,获取每组声纹特征数据的时间差和预设阈值。
步骤S214,基于多组声纹特征数据的时间差和预设阈值的对应关系,得到预设分布关系。
具体地,可以通过大量实验,获取不同用户在不同时间段采集到的声纹特征,组成多组声纹特征数据,进一步通过计算得到每组声纹特征数据的时间差和相应的预设阈值,也即,两个声纹特征之间的相似度,从而可以对大量的时间差和预设阈值的对应关系进行统计,生成分布关系图,从而可以通过分布关系图上的分布曲线,确定不同时间差对应的预设阈值的具体取值。
本申请上述实施例中,步骤S212,获取每组声纹特征数据的时间差和预设阈值,包括:
步骤S2122,获取每组声纹特征数据中两个声纹特征的时间戳的差值,得到每组声纹特征数据的时间差。
具体地,可以通过计算每组声纹特征数据中提取到两个声纹特征的时间戳之差,得到每组声纹特征数据的时间差。
步骤S2124,获取每组声纹特征数据中两个声纹特征的相似度,得到每组声纹特征数据的预设阈值。
具体地,由于同一组声纹特征数据中的两个声纹特征属于同一个用户,因此,可以直接计算每组声纹特征数据中两个声纹特征的相似度,作为身份识别过程中的相似度阈值,也即得到每组声纹特征数据的预设阈值。
本申请上述实施例中,步骤S28,基于相似度阈值,以及声纹特征和预存声纹特征的相似度,得到目标对象的识别结果,包括:
步骤S282,判断声纹特征和预存声纹特征的相似度是否大于等于相似度阈值。
步骤S284,如果是,则确定目标对象的识别结果为识别成功。
步骤S286,如果否,则确定目标对象的识别结果为识别失败。
具体地,在身份识别过程中,为了准确判断声纹特征和从声纹库中获取到的预存声纹特征是否属于同一个用户,可以判断声纹特征和预存声纹特征的相似度是否大于动态阈值,如果相似度大于或等于动态阈值,则可以确定当前进行身份识别的用户在智能音箱上进行过注册,也即,是该家庭中的家庭成员,从而身份识别成功,用户可以继续通过语音控制智能音箱;如果相似度小于动态阈值,则可以确定当前进行身份识别的用户未在智能音箱上进行过注册,也即,不是该家庭中的家庭成员,从而身份识别失败,用户无法通过语音控制智能音箱。
本申请上述实施例中,该方法还包括:
步骤S216,获取目标对象在历史时间内采集到的多条语音信号,以及采集到多条语音信号时的时间戳。
步骤S218,对多条语音信号进行声纹特征提取,得到多个声纹特征。
步骤S220,基于多个声纹特征和每个声纹特征对应的时间戳,构建声纹库。
具体地,为了能够对用户进行身份识别,需要预先构建声纹库,智能音箱可以获取到每个家庭成员在一段连续时间内的多条语音信号,同时记录每条语音信号的采集时间,作为每条语音信号的时间戳。然后对每条语音信号进行声纹特征提取,从而得到多条语音信号对应的多个声纹特征,并将每条语音信号的时间戳,作为对应的声纹特征的时间戳。进一步基于多个声纹特征和相应的时间戳,可以构建声纹库。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
实施例2
根据本申请实施例,还提供了一种身份识别方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图4是根据本申请实施例2的一种身份识别方法的流程图。如图4所示,该方法可以包括如下步骤:
步骤S42,获取目标对象的语音信号和第一时间戳,其中,第一时间戳用于表征获取到语音信号时的时间。
具体地,在家庭内使用智能音箱的过程中,当一个用户(即上述的目标对象)需要控制智能音箱时,用户可以通过唤醒词来唤醒智能音箱,智能音箱可以获取到该用户发出的包含唤醒词的语音信号,进一步进行身份认证。
进一步地,为了避免随着时间的推移带来用户声音的变化导致系统判决存在误差,智能音箱可以在获取语音信号的同时,获取采集到该语音信号的时间,生成该语音信号的时间戳(即上述的第一时间戳)。
步骤S44,从声纹库中获取与语音信号匹配成功的预存语音信号和第二时间戳,其中,第二时间戳用于表征获取到预存语音信号时的时间。
具体地,为了能够实现对用户的身份认证,智能音箱可以预先采集该家庭内每个家庭成员的语音信号,构建声纹库,例如,可以利用每个家庭成员在一段时间的多条语音信号,利用每个家庭成员的多条语音构建声纹库。
进一步地,同样为了避免随着时间的推移带来用户声音的变化导致系统判决存在误差,智能音箱可以在获取每个家庭成员的每条语音信号的同时,获取采集到每条语音信号的时间,生成预存语音信号的第二时间戳。
步骤S46,基于第一时间戳和第二时间戳,确定相似度阈值。
具体地,随着时间的变化,用户的声音会发生微小的变化,与原先注册的声音的相似性在特定范围内逐渐减小,在不更新注册语音的情况下,可以根据验证时的第一时间戳和注册时的第二时间戳的时差信息,选择相应的相似度阈值,也即,本申请实施例中的相似度阈值时一个动态阈值,是一把随时间不断变化的尺子,衡量的基准随时间变化。
步骤S48,基于相似度阈值,以及语音信号和预存语音信号的相似度,得到目标对象的识别结果。
具体地,通过将语音信号和预存语音信号的相似度与确定的动态阈值进行比较,根据比较结果可以确定该用户的识别结果,如果相似度超过该动态阈值,则可以确定该用户是家庭成员,可以根据该用户的语音进行控制;如果相似度未超过该动态阈值,则可以确定该用户不是家庭成员,该用户进行非法用户,无需对该用户的语音进行响应。
本申请上述实施例2所提供的方法,可以获取目标对象的语音信号和第一时间戳,并从声纹库中获取与语音信号匹配成功的预存语音信号和第二时间戳,进一步基于第一时间戳和第二时间戳,确定相似度阈值,从而基于相似度阈值,以及语音信号和预存语音信号的相似度,得到目标对象的识别结果,实现身份识别的目的。
容易注意到的,可以在获取语音信号的同时,获取第一时间戳,并基于第一时间戳和声纹库中存储的预存语音信号的第二时间戳,确定相似度阈值,与现有技术相比,相似度阈值是一个随时间变化的动态阈值,使得用户在较长的时间范围内体验是一致的,达到了降低体验感的不一致性,提高身份识别准确率,提升用户的体验感的技术效果。
由此,本申请提供的上述实施例2的方案解决了现有技术中身份识别方法的识别准确率低的技术问题。
本申请上述实施例中,步骤S44,从声纹库中获取与语音信号匹配成功的预存语音信号和第二时间戳,包括:
步骤S442,提取语音信号的声纹特征。
步骤S444,基于声纹特征,从声纹库中获取与声纹特征匹配成功的预存声纹特征,得到预存语音信号。
步骤S446,获取预存声纹特征的时间戳,得到第二时间戳。
具体地,为了能够从声纹库中获取到匹配成功的预存语音信号,可以在获取到该家庭内每个家庭成员在一段时间内的多条语音信号之后,对多条语音信号进行特征提取,并基于提取出的多个预存声纹特征构建声纹库,而且声纹库中还存储有生成每个预存声纹特征的时间戳。在获取到当前用户发出的语音信号之后,首先进行特征提取,提取出语音信号的声纹特征,进一步从声纹库中获取到匹配成功的预存声纹特征,从而可以确定获取到的预存声纹特征对应的语音信号为该预存语音信号,并且可以确定该预存声纹特征的时间戳为第二时间戳。
本申请上述实施例中,步骤S48,基于相似度阈值,以及语音信号和预存语音信号的相似度,得到目标对象的识别结果,包括:
步骤S482,获取声纹特征和预存声纹特征的相似度。
步骤S484,判断声纹特征和预存声纹特征的相似度是否大于相似度阈值。
步骤S486,如果是,则确定目标对象的识别结果为识别成功。
步骤S488,如果否,则确定目标对象的识别结果为识别失败。
具体地,语音信号之间的相似度可以通过提取出的声纹特征之间的相似度进行描述,因此,可以计算声纹特征和从声纹库中获取到的预存声纹特征的相似度,进一步判断声纹特征和预存声纹特征的相似度是否大于动态阈值,如果相似度大于或等于动态阈值,则可以确定当前进行身份识别的用户在智能音箱上进行过注册,也即,是该家庭中的家庭成员,从而身份识别成功,用户可以继续通过语音控制智能音箱;如果相似度小于动态阈值,则可以确定当前进行身份识别的用户未在智能音箱上进行过注册,也即,不是该家庭中的家庭成员,从而身份识别失败,用户无法通过语音控制智能音箱。
需要说明的是,本实施例中预设阈值的确定方法以及声纹库的构建方法与实施例1中的优选实施例相同,在此不做赘述。
实施例3
根据本申请实施例,还提供了一种身份识别方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图5是根据本申请实施例3的一种身份识别方法的流程图。如图5所示,该方法可以包括如下步骤:
步骤S52,获取目标对象的声音信息,其中,声音信息包括:声纹特征和获取声音信息时的第一时间戳。
具体地,在家庭内使用智能音箱的过程中,当一个用户(即上述的目标对象)需要控制智能音箱时,用户可以通过唤醒词来唤醒智能音箱,智能音箱可以获取到该用户发出的包含唤醒词的语音信号,进一步进行身份认证,具体地,通过对该语音信号进行特征提取,可以得到声纹特征。
进一步地,为了避免随着时间的推移带来用户声音的变化导致系统判决存在误差,智能音箱可以在获取语音信号的同时,获取采集到该语音信号的时间,生成该声纹特征的时间戳(即上述的第一时间戳)。
步骤S54,从声纹库中获取与声音信息匹配的预存声音,其中,声纹库包括:目标对象在历史时间内采集的多个预存声音。
具体地,为了能够实现对用户的身份认证,智能音箱可以预先采集该家庭内每个家庭成员的语音信号,构建声纹库,例如,可以利用每个家庭成员在一段时间的多条语音信号,利用每个家庭成员的多条语音构建声纹库。
进一步地,同样为了避免随着时间的推移带来用户声音的变化导致系统判决存在误差,智能音箱可以在获取每个家庭成员的每条语音信号的同时,获取采集到每条语音信号的时间,生成预存声音的第二时间戳。
步骤S56,基于第一时间戳和采集到预存声音时的第二时间戳,确定相似度阈值。
具体地,随着时间的变化,用户的声音会发生微小的变化,与原先注册的声音的相似性在特定范围内逐渐减小,在不更新注册语音的情况下,可以根据验证时的第一时间戳和注册时的第二时间戳的时差信息,选择相应的相似度阈值,也即,本申请实施例中的相似度阈值时一个动态阈值,是一把随时间不断变化的尺子,衡量的基准随时间变化。
步骤S58,基于相似度阈值,以及声纹特征和预存声音的预存声纹特征的相似度,得到目标对象的识别结果。
具体地,通过将声纹特征和预存声纹特征的相似度与确定的动态阈值进行比较,根据比较结果可以确定该用户的识别结果,如果相似度超过该动态阈值,则可以确定该用户是家庭成员,可以根据该用户的语音进行控制;如果相似度未超过该动态阈值,则可以确定该用户不是家庭成员,该用户进行非法用户,无需对该用户的语音进行响应。
本申请上述实施例3所提供的方法,可以获取目标对象的声音信息,并从声纹库中获取与声音信息匹配的预存声音,进一步基于第一时间戳和采集到预存声音时的第二时间戳,确定相似度阈值,从而基于相似度阈值,以及声纹特征和预存声音的预存声纹特征的相似度,得到目标对象的识别结果,实现身份识别的目的。
容易注意到的,可以在获取声纹特征的同时,获取第一时间戳,并基于第一时间戳和声纹库中存储的预存声音的第二时间戳,确定相似度阈值,与现有技术相比,相似度阈值是一个随时间变化的动态阈值,使得用户在较长的时间范围内体验是一致的,达到了降低体验感的不一致性,提高身份识别准确率,提升用户的体验感的技术效果。
由此,本申请提供的上述实施例3的方案解决了现有技术中身份识别方法的识别准确率低的技术问题。
需要说明的是,本实施例中预设阈值的确定方法以及声纹库的构建方法与实施例1中的优选实施例相同,在此不做赘述。
实施例4
根据本申请实施例,还提供了一种用于实施上述身份识别方法的身份识别装置,如图6所示,该装置600包括:第一获取模块602、第二获取模块604、确定模块606和识别模块608。
其中,第一获取模块602用于获取目标对象的声纹特征和第一时间戳,其中,第一时间戳用于表征获取到声纹特征时的时间;第二获取模块604用于从声纹库中获取与声纹特征匹配成功的预存声纹特征和第二时间戳,其中,第二时间戳用于表征获取到预存声纹特征时的时间;确定模块606用于基于第一时间戳和第二时间戳,确定相似度阈值;识别模块608用于基于相似度阈值,以及声纹特征和预存声纹特征的相似度,得到目标对象的识别结果。
此处需要说明的是,上述第一获取模块602、第二获取模块604、确定模块606和识别模块608对应于实施例1中的步骤S22至步骤S28,四个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
本申请上述实施例4所提供的方法,可以获取目标对象的声纹特征和第一时间戳,并从声纹库中获取与声纹特征匹配成功的预存声纹特征和第二时间戳,进一步基于第一时间戳和第二时间戳,确定相似度阈值,从而基于相似度阈值,以及声纹特征和预存声纹特征的相似度,得到目标对象的识别结果,实现身份识别的目的。
容易注意到的,可以在获取声纹特征的同时,获取第一时间戳,并基于第一时间戳和声纹库中存储的预存声纹特征的第二时间戳,确定相似度阈值,与现有技术相比,相似度阈值是一个随时间变化的动态阈值,使得用户在较长的时间范围内体验是一致的,达到了降低体验感的不一致性,提高身份识别准确率,提升用户的体验感的技术效果。
由此,本申请提供的上述实施例4的方案解决了现有技术中身份识别方法的识别准确率低的技术问题。
本申请上述实施例中,确定模块包括:第一获取子模块和第二获取子模块。
其中,第一获取子模块用于获取第一时间戳和第二时间戳的差值,得到时间差;第二获取子模块用于获取时间差对应的预设阈值,得到相似度阈值。
本申请上述实施例中,第二获取子模块包括:第一获取单元和第二获取单元。
其中,第一获取单元用于获取预设分布关系,其中,预设分布关系用于表征不同时间差与不同预设阈值之间的对应关系;第二获取单元用于基于时间差,从预设分布关系中获取预设阈值。
本申请上述实施例中,该装置还包括:第三获取模块、第四获取模块和处理模块。
其中,第三获取模块用于获取多组声纹特征数据,其中,每组声纹特征数据包括:两个声纹特征,以及每个声纹特征的时间戳,两个声纹特征为同一个对象的声纹特征;第四获取模块用于获取每组声纹特征数据的时间差和预设阈值;处理模块用于基于多组声纹特征数据的时间差和预设阈值的对应关系,得到预设分布关系。
本申请上述实施例中,第四获取模块包括:第三获取子模块和第四获取子模块。
其中,第三获取子模块用于获取每组声纹特征数据中两个声纹特征的时间戳的差值,得到每组声纹特征数据的时间差;获取每组声纹特征数据中两个声纹特征的相似度,得到每组声纹特征数据的预设阈值。
本申请上述实施例中,识别模块包括:判断子模块、第一确定子模块和第二确定子模块。
其中,判断子模块用于判断声纹特征和预存声纹特征的相似度是否大于等于相似度阈值;第一确定子模块用于如果是,则确定目标对象的识别结果为识别成功;第二确定子模块用于如果否,则确定目标对象的识别结果为识别失败。
本申请上述实施例中,该装置还包括:第五获取模块、提取模块和构建模块。
其中,第五获取模块用于获取目标对象在历史时间内采集到的多条语音信号,以及采集到多条语音信号时的时间戳;提取模块用于对多条语音信号进行声纹特征提取,得到多个声纹特征;构建模块用于基于多个声纹特征和每个声纹特征对应的时间戳,构建声纹库。
实施例5
根据本申请实施例,还提供了一种用于实施上述身份识别方法的身份识别装置,如图7所示,该装置700包括:第一获取模块702、第二获取模块704、确定模块706和识别模块708。
其中,第一获取模块702用于获取目标对象的语音信号和第一时间戳,其中,第一时间戳用于表征获取到语音信号时的时间;第二获取模块704用于从声纹库中获取与语音信号匹配成功的预存语音信号和第二时间戳,其中,第二时间戳用于表征获取到预存语音信号时的时间;确定模块706用于基于第一时间戳和第二时间戳,确定相似度阈值;识别模块708用于基于相似度阈值,以及语音信号和预存语音信号的相似度,得到目标对象的识别结果。
此处需要说明的是,上述第一获取模块702、第二获取模块704、确定模块706和识别模块708对应于实施例2中的步骤S42至步骤S48,四个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例2所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
本申请上述实施例5所提供的方法,可以获取目标对象的语音信号和第一时间戳,并从声纹库中获取与语音信号匹配成功的预存语音信号和第二时间戳,进一步基于第一时间戳和第二时间戳,确定相似度阈值,从而基于相似度阈值,以及语音信号和预存语音信号的相似度,得到目标对象的识别结果,实现身份识别的目的。
容易注意到的,可以在获取语音信号的同时,获取第一时间戳,并基于第一时间戳和声纹库中存储的预存语音信号的第二时间戳,确定相似度阈值,与现有技术相比,相似度阈值是一个随时间变化的动态阈值,使得用户在较长的时间范围内体验是一致的,达到了降低体验感的不一致性,提高身份识别准确率,提升用户的体验感的技术效果。
由此,本申请提供的上述实施例5的方案解决了现有技术中身份识别方法的识别准确率低的技术问题。
本申请上述实施例中,第二获取模块包括:提取子模块、第一获取子模块和第二获取子模块。
其中,提取子模块用于提取语音信号的声纹特征;第一获取子模块用于基于声纹特征,从声纹库中获取与声纹特征匹配成功的预存声纹特征,得到预存语音信号;第二获取子模块用于获取预存声纹特征的时间戳,得到第二时间戳。
本申请上述实施例中,识别模块包括:第三获取子模块、判断子模块、第一确定子模块和第二确定子模块。
其中,第三获取子模块用于获取声纹特征和预存声纹特征的相似度;判断子模块用于判断声纹特征和预存声纹特征的相似度是否大于相似度阈值;第一确定子模块用于如果是,则确定目标对象的识别结果为识别成功;第二确定子模块用于如果否,则确定目标对象的识别结果为识别失败。
实施例6
根据本申请实施例,还提供了一种用于实施上述身份识别方法的身份识别装置,如图8所示,该装置800包括:第一获取模块802、第二获取模块804、确定模块806和识别模块808。
其中,第一获取模块802用于获取目标对象的声音信息,其中,声音信息包括:声纹特征和获取声音信息时的第一时间戳;第二获取模块804用于从声纹库中获取与声音信息匹配的预存声音,其中,声纹库包括:目标对象在历史时间内采集的多个预存声音;确定模块806用于基于第一时间戳和采集到预存声音时的第二时间戳,确定相似度阈值;识别模块808用于基于相似度阈值,以及声纹特征和预存声音的预存声纹特征的相似度,得到目标对象的识别结果。
此处需要说明的是,上述第一获取模块802、第二获取模块804、确定模块806和识别模块808对应于实施例1中的步骤S52至步骤S58,四个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例3所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
本申请上述实施例6所提供的方法,可以获取目标对象的声音信息,并从声纹库中获取与声音信息匹配的预存声音,进一步基于第一时间戳和采集到预存声音时的第二时间戳,确定相似度阈值,从而基于相似度阈值,以及声纹特征和预存声音的预存声纹特征的相似度,得到目标对象的识别结果,实现身份识别的目的。
容易注意到的,可以在获取声纹特征的同时,获取第一时间戳,并基于第一时间戳和声纹库中存储的预存声音的第二时间戳,确定相似度阈值,与现有技术相比,相似度阈值是一个随时间变化的动态阈值,使得用户在较长的时间范围内体验是一致的,达到了降低体验感的不一致性,提高身份识别准确率,提升用户的体验感的技术效果。
由此,本申请提供的上述实施例6的方案解决了现有技术中身份识别方法的识别准确率低的技术问题。
实施例7
根据本申请实施例,还提供了一种身份识别系统,包括:
处理器。以及
存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:获取目标对象的声纹特征和第一时间戳,其中,第一时间戳用于表征获取到声纹特征时的时间;从声纹库中获取与声纹特征匹配成功的预存声纹特征和第二时间戳,其中,第二时间戳用于表征获取到预存声纹特征时的时间;基于第一时间戳和第二时间戳,确定相似度阈值;基于相似度阈值,以及声纹特征和预存声纹特征的相似度,得到目标对象的识别结果。
本申请上述实施例7所提供的方法,可以获取目标对象的声纹特征和第一时间戳,并从声纹库中获取与声纹特征匹配成功的预存声纹特征和第二时间戳,进一步基于第一时间戳和第二时间戳,确定相似度阈值,从而基于相似度阈值,以及声纹特征和预存声纹特征的相似度,得到目标对象的识别结果,实现身份识别的目的。
容易注意到的,可以在获取声纹特征的同时,获取第一时间戳,并基于第一时间戳和声纹库中存储的预存声音的第二时间戳,确定相似度阈值,与现有技术相比,相似度阈值是一个随时间变化的动态阈值,使得用户在较长的时间范围内体验是一致的,达到了降低体验感的不一致性,提高身份识别准确率,提升用户的体验感的技术效果。
由此,本申请提供的上述实施例7的方案解决了现有技术中身份识别方法的识别准确率低的技术问题。
实施例8
根据本申请实施例,还提供了一种音箱,包括:本申请上述实施例提供的身份识别装置。
具体地,上述的音箱可以是IoT智能音箱。
需要说明的是,本实施例的可选或优选实施方式可以参见实施例1中的相关描述,在此不在赘述。
实施例9
根据本申请实施例,还提供了一种电视,包括:本申请上述实施例提供的身份识别装置。
具体地,上述的电视可以是IoT智能电视。
需要说明的是,本实施例的可选或优选实施方式可以参见实施例1中的相关描述,在此不在赘述。
实施例10
本申请的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机终端可以执行身份识别方法中以下步骤的程序代码:获取目标对象的声纹特征和第一时间戳,其中,第一时间戳用于表征获取到声纹特征时的时间;从声纹库中获取与声纹特征匹配成功的预存声纹特征和第二时间戳,其中,第二时间戳用于表征获取到预存声纹特征时的时间;基于第一时间戳和第二时间戳,确定相似度阈值;基于相似度阈值,以及声纹特征和预存声纹特征的相似度,得到目标对象的识别结果。
可选地,图9是根据本申请实施例的一种计算机终端的结构框图。如图9所示,该计算机终端A可以包括:一个或多个(图中仅示出一个)处理器902以及存储器904。
其中,存储器可用于存储软件程序以及模块,如本申请实施例中的身份识别方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的身份识别方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取目标对象的声纹特征和第一时间戳,其中,第一时间戳用于表征获取到声纹特征时的时间;从声纹库中获取与声纹特征匹配成功的预存声纹特征和第二时间戳,其中,第二时间戳用于表征获取到预存声纹特征时的时间;基于第一时间戳和第二时间戳,确定相似度阈值;基于相似度阈值,以及声纹特征和预存声纹特征的相似度,得到目标对象的识别结果。
可选的,上述处理器还可以执行如下步骤的程序代码:获取第一时间戳和第二时间戳的差值,得到时间差;获取时间差对应的预设阈值,得到相似度阈值。
可选的,上述处理器还可以执行如下步骤的程序代码:获取预设分布关系,其中,预设分布关系用于表征不同时间差与不同预设阈值之间的对应关系;基于时间差,从预设分布关系中获取预设阈值。
可选的,上述处理器还可以执行如下步骤的程序代码:获取多组声纹特征数据,其中,每组声纹特征数据包括:两个声纹特征,以及每个声纹特征的时间戳,两个声纹特征为同一个对象的声纹特征;获取每组声纹特征数据的时间差和预设阈值;基于多组声纹特征数据的时间差和预设阈值的对应关系,得到预设分布关系。
可选的,上述处理器还可以执行如下步骤的程序代码:获取每组声纹特征数据中两个声纹特征的时间戳的差值,得到每组声纹特征数据的时间差;获取每组声纹特征数据中两个声纹特征的相似度,得到每组声纹特征数据的预设阈值。
可选的,上述处理器还可以执行如下步骤的程序代码:判断声纹特征和预存声纹特征的相似度是否大于等于相似度阈值;如果是,则确定目标对象的识别结果为识别成功;如果否,则确定目标对象的识别结果为识别失败。
可选的,上述处理器还可以执行如下步骤的程序代码:获取目标对象在历史时间内采集到的多条语音信号,以及采集到多条语音信号时的时间戳;对多条语音信号进行声纹特征提取,得到多个声纹特征;基于多个声纹特征和每个声纹特征对应的时间戳,构建声纹库。
采用本申请实施例,可以获取目标对象的声音信息,并从声纹库中获取与声音信息匹配的预存声音,进一步基于第一时间戳和采集到预存声音时的第二时间戳,确定相似度阈值,从而基于相似度阈值,以及声纹特征和预存声音的预存声纹特征的相似度,得到目标对象的识别结果,实现身份识别的目的。容易注意到的,可以在获取声纹特征的同时,获取第一时间戳,并基于第一时间戳和声纹库中存储的预存声音的第二时间戳,确定相似度阈值,与现有技术相比,相似度阈值是一个随时间变化的动态阈值,使得用户在较长的时间范围内体验是一致的,达到了降低体验感的不一致性,提高身份识别准确率,提升用户的体验感的技术效果。由此,本申请实施例解决了现有技术中身份识别方法的识别准确率低的技术问题。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取目标对象的语音信号和第一时间戳,其中,第一时间戳用于表征获取到语音信号时的时间;从声纹库中获取与语音信号匹配成功的预存语音信号和第二时间戳,其中,第二时间戳用于表征获取到预存语音信号时的时间;基于第一时间戳和第二时间戳,确定相似度阈值;基于相似度阈值,以及语音信号和预存语音信号的相似度,得到目标对象的识别结果。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取目标对象的声音信息,其中,声音信息包括:声纹特征和获取声音信息时的第一时间戳;从声纹库中获取与声音信息匹配的预存声音,其中,声纹库包括:目标对象在历史时间内采集的多个预存声音;基于第一时间戳和采集到预存声音时的第二时间戳,确定相似度阈值;基于相似度阈值,以及声纹特征和预存声音的预存声纹特征的相似度,得到目标对象的识别结果。
本领域普通技术人员可以理解,图9所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图9其并不对上述电子装置的结构造成限定。例如,计算机终端A还可包括比图9中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图9所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例11
本申请的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例一所提供的身份识别方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取目标对象的声纹特征和第一时间戳,其中,第一时间戳用于表征获取到声纹特征时的时间;从声纹库中获取与声纹特征匹配成功的预存声纹特征和第二时间戳,其中,第二时间戳用于表征获取到预存声纹特征时的时间;基于第一时间戳和第二时间戳,确定相似度阈值;基于相似度阈值,以及声纹特征和预存声纹特征的相似度,得到目标对象的识别结果。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取目标对象的语音信号和第一时间戳,其中,第一时间戳用于表征获取到语音信号时的时间;从声纹库中获取与语音信号匹配成功的预存语音信号和第二时间戳,其中,第二时间戳用于表征获取到预存语音信号时的时间;基于第一时间戳和第二时间戳,确定相似度阈值;基于相似度阈值,以及语音信号和预存语音信号的相似度,得到目标对象的识别结果。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取目标对象的声音信息,其中,声音信息包括:声纹特征和获取声音信息时的第一时间戳;从声纹库中获取与声音信息匹配的预存声音,其中,声纹库包括:目标对象在历史时间内采集的多个预存声音;基于第一时间戳和采集到预存声音时的第二时间戳,确定相似度阈值;基于相似度阈值,以及声纹特征和预存声音的预存声纹特征的相似度,得到目标对象的识别结果。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (14)

1.一种身份识别方法,包括:
获取目标对象的声纹特征和第一时间戳,其中,所述第一时间戳用于表征获取到所述声纹特征时的时间;
从声纹库中获取与所述声纹特征匹配成功的预存声纹特征和第二时间戳,其中,所述第二时间戳用于表征获取到所述预存声纹特征时的时间;
基于所述第一时间戳和所述第二时间戳,确定相似度阈值;
基于所述相似度阈值,以及所述声纹特征和所述预存声纹特征的相似度,得到所述目标对象的识别结果。
2.根据权利要求1所述的方法,其中,基于所述第一时间戳和所述第二时间戳,确定相似度阈值,包括:
获取所述第一时间戳和所述第二时间戳的差值,得到时间差;
获取所述时间差对应的预设阈值,得到所述相似度阈值。
3.根据权利要求2所述的方法,其中,获取所述时间差对应的预设阈值,得到所述相似度阈值,包括:
获取预设分布关系,其中,所述预设分布关系用于表征不同时间差与不同预设阈值之间的对应关系;
基于所述时间差,从所述预设分布关系中获取所述预设阈值。
4.根据权利要求3所述的方法,其中,所述方法还包括:
获取多组声纹特征数据,其中,每组声纹特征数据包括:两个声纹特征,以及每个声纹特征的时间戳,所述两个声纹特征为同一个对象的声纹特征;
获取每组声纹特征数据的时间差和预设阈值;
基于所述多组声纹特征数据的时间差和预设阈值的对应关系,得到所述预设分布关系。
5.根据权利要求4所述的方法,其中,获取每组声纹特征数据的时间差和预设阈值,包括:
获取所述每组声纹特征数据中两个声纹特征的时间戳的差值,得到所述每组声纹特征数据的时间差;
获取所述每组声纹特征数据中两个声纹特征的相似度,得到所述每组声纹特征数据的预设阈值。
6.根据权利要求1所述的方法,其中,基于所述相似度阈值,以及所述声纹特征和所述预存声纹特征的相似度,得到所述目标对象的识别结果,包括:
判断所述声纹特征和所述预存声纹特征的相似度是否大于等于所述相似度阈值;
如果是,则确定所述目标对象的识别结果为识别成功;
如果否,则确定所述目标对象的识别结果为识别失败。
7.根据权利要求1所述的方法,其中,所述方法还包括:
获取所述目标对象在历史时间内采集到的多条语音信号,以及采集到所述多条语音信号时的时间戳;
对所述多条语音信号进行声纹特征提取,得到多个声纹特征;
基于所述多个声纹特征和每个声纹特征对应的时间戳,构建所述声纹库。
8.一种身份识别方法,包括:
获取目标对象的语音信号和第一时间戳,其中,所述第一时间戳用于表征获取到所述语音信号时的时间;
从声纹库中获取与所述语音信号匹配成功的预存语音信号和第二时间戳,其中,所述第二时间戳用于表征获取到所述预存语音信号时的时间;
基于所述第一时间戳和所述第二时间戳,确定相似度阈值;
基于所述相似度阈值,以及所述语音信号和所述预存语音信号的相似度,得到所述目标对象的识别结果。
9.根据权利要求8所述的方法,其中,从声纹库中获取与所述语音信号匹配成功的预存语音信号和第二时间戳,包括:
提取所述语音信号的声纹特征;
基于所述声纹特征,从所述声纹库中获取与所述声纹特征匹配成功的预存声纹特征,得到所述预存语音信号;
获取所述预存声纹特征的时间戳,得到所述第二时间戳。
10.根据权利要求9所述的方法,其中,基于所述相似度阈值,以及所述语音信号和所述预存语音信号的相似度,得到所述目标对象的识别结果,包括:
获取所述声纹特征和所述预存声纹特征的相似度;
判断所述声纹特征和所述预存声纹特征的相似度是否大于所述相似度阈值;
如果是,则确定所述目标对象的识别结果为识别成功;
如果否,则确定所述目标对象的识别结果为识别失败。
11.一种身份识别方法,包括:
获取目标对象的声音信息,其中,所述声音信息包括:声纹特征和获取所述声音信息时的第一时间戳;
从声纹库中获取与所述声音信息匹配的预存声音,其中,所述声纹库包括:所述目标对象在历史时间内采集的多个预存声音;
基于所述第一时间戳和采集到所述预存声音时的第二时间戳,确定相似度阈值;
基于所述相似度阈值,以及所述声纹特征和所述预存声音的预存声纹特征的相似度,得到所述目标对象的识别结果。
12.一种身份识别装置,包括:
第一获取模块,用于获取目标对象的声纹特征和第一时间戳,其中,所述第一时间戳用于表征获取到所述声纹特征时的时间;
第二获取模块,用于从声纹库中获取与所述声纹特征匹配成功的预存声纹特征和第二时间戳,其中,所述第二时间戳用于表征获取到所述预存声纹特征时的时间;
确定模块,用于基于所述第一时间戳和所述第二时间戳,确定相似度阈值;
识别模块,用于基于所述相似度阈值,以及所述声纹特征和所述预存声纹特征的相似度,得到所述目标对象的识别结果。
13.一种音箱,包括如权利要求12所述的身份识别装置。
14.一种电视,包括如权利要求12所述的身份识别装置。
CN201811063822.9A 2018-09-12 2018-09-12 身份识别方法、装置和系统 Active CN110896352B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811063822.9A CN110896352B (zh) 2018-09-12 2018-09-12 身份识别方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811063822.9A CN110896352B (zh) 2018-09-12 2018-09-12 身份识别方法、装置和系统

Publications (2)

Publication Number Publication Date
CN110896352A true CN110896352A (zh) 2020-03-20
CN110896352B CN110896352B (zh) 2022-07-08

Family

ID=69784881

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811063822.9A Active CN110896352B (zh) 2018-09-12 2018-09-12 身份识别方法、装置和系统

Country Status (1)

Country Link
CN (1) CN110896352B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011301A (zh) * 2021-03-10 2021-06-22 北京百度网讯科技有限公司 一种活体识别方法、装置及电子设备
WO2021196477A1 (zh) * 2020-04-01 2021-10-07 深圳壹账通智能科技有限公司 基于声纹特征与关联图谱数据的风险用户识别方法、装置
WO2022236827A1 (zh) * 2021-05-14 2022-11-17 华为技术有限公司 一种声纹管理方法及装置
CN116319071A (zh) * 2023-05-11 2023-06-23 深圳奥联信息安全技术有限公司 一种声纹密码认证方法及系统

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6510415B1 (en) * 1999-04-15 2003-01-21 Sentry Com Ltd. Voice authentication method and system utilizing same
CN101872436A (zh) * 2009-04-22 2010-10-27 上海幻维数码创意科技有限公司 多人同步指纹验证的方法
US20120224706A1 (en) * 2011-03-04 2012-09-06 Qualcomm Incorporated System and method for recognizing environmental sound
CN103428250A (zh) * 2012-05-23 2013-12-04 联想(北京)有限公司 匹配设备的方法、服务器和终端设备
CN106022032A (zh) * 2015-03-30 2016-10-12 欧姆龙株式会社 个人识别装置、识别阈值设定方法、以及程序
US20160365095A1 (en) * 2015-06-14 2016-12-15 Nice-Systems Ltd. System and method for voice print generation
CN106951763A (zh) * 2017-03-29 2017-07-14 王森林 数据信息匹配方法和装置
CN106961418A (zh) * 2017-02-08 2017-07-18 北京捷通华声科技股份有限公司 身份认证方法和身份认证系统
CN108040032A (zh) * 2017-11-02 2018-05-15 阿里巴巴集团控股有限公司 一种声纹认证方法、账号注册方法及装置
CN108257604A (zh) * 2017-12-08 2018-07-06 平安普惠企业管理有限公司 语音识别方法、终端设备及计算机可读存储介质
US10063542B1 (en) * 2018-03-16 2018-08-28 Fmr Llc Systems and methods for simultaneous voice and sound multifactor authentication
US10074089B1 (en) * 2012-03-01 2018-09-11 Citigroup Technology, Inc. Smart authentication and identification via voiceprints

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6510415B1 (en) * 1999-04-15 2003-01-21 Sentry Com Ltd. Voice authentication method and system utilizing same
CN101872436A (zh) * 2009-04-22 2010-10-27 上海幻维数码创意科技有限公司 多人同步指纹验证的方法
US20120224706A1 (en) * 2011-03-04 2012-09-06 Qualcomm Incorporated System and method for recognizing environmental sound
US10074089B1 (en) * 2012-03-01 2018-09-11 Citigroup Technology, Inc. Smart authentication and identification via voiceprints
CN103428250A (zh) * 2012-05-23 2013-12-04 联想(北京)有限公司 匹配设备的方法、服务器和终端设备
CN106022032A (zh) * 2015-03-30 2016-10-12 欧姆龙株式会社 个人识别装置、识别阈值设定方法、以及程序
US20160365095A1 (en) * 2015-06-14 2016-12-15 Nice-Systems Ltd. System and method for voice print generation
CN106961418A (zh) * 2017-02-08 2017-07-18 北京捷通华声科技股份有限公司 身份认证方法和身份认证系统
CN106951763A (zh) * 2017-03-29 2017-07-14 王森林 数据信息匹配方法和装置
CN108040032A (zh) * 2017-11-02 2018-05-15 阿里巴巴集团控股有限公司 一种声纹认证方法、账号注册方法及装置
CN108257604A (zh) * 2017-12-08 2018-07-06 平安普惠企业管理有限公司 语音识别方法、终端设备及计算机可读存储介质
US10063542B1 (en) * 2018-03-16 2018-08-28 Fmr Llc Systems and methods for simultaneous voice and sound multifactor authentication

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
QINGHAN XIAO: ""Security issues in biometric authentication"", 《PROCEEDINGS FROM THE SIXTH ANNUAL IEEE SMC INFORMATION ASSURANCE WORKSHOP》 *
龙威等: "生物特征身份认证系统的安全性和用户隐私性研究", 《保密科学技术》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021196477A1 (zh) * 2020-04-01 2021-10-07 深圳壹账通智能科技有限公司 基于声纹特征与关联图谱数据的风险用户识别方法、装置
CN113011301A (zh) * 2021-03-10 2021-06-22 北京百度网讯科技有限公司 一种活体识别方法、装置及电子设备
WO2022236827A1 (zh) * 2021-05-14 2022-11-17 华为技术有限公司 一种声纹管理方法及装置
CN116319071A (zh) * 2023-05-11 2023-06-23 深圳奥联信息安全技术有限公司 一种声纹密码认证方法及系统
CN116319071B (zh) * 2023-05-11 2023-08-25 深圳奥联信息安全技术有限公司 一种声纹密码认证方法及系统

Also Published As

Publication number Publication date
CN110896352B (zh) 2022-07-08

Similar Documents

Publication Publication Date Title
CN110896352B (zh) 身份识别方法、装置和系统
US11568876B2 (en) Method and device for user registration, and electronic device
KR102601279B1 (ko) 로컬 저장된 생체인식 인증 데이터의 원격 사용
WO2019137066A1 (zh) 电器控制方法及装置
CN109951289B (zh) 一种识别方法、装置、设备及可读存储介质
CN108959634B (zh) 视频推荐方法、装置、设备及存储介质
CN109428719A (zh) 一种身份验证方法、装置及设备
CN109462482B (zh) 声纹识别方法、装置、电子设备及计算机可读存储介质
CN107182042B (zh) 短信通道质量评估方法、装置、介质和系统
KR20190012066A (ko) 화자 인증 방법 및 음성인식 시스템
CN103943111A (zh) 一种身份识别的方法及装置
CN109064733A (zh) 自适应红外信号解码方法、计算机装置及其控制装置
US10936705B2 (en) Authentication method, electronic device, and computer-readable program medium
CN104168117A (zh) 一种语音数字签名方法
CN111552865A (zh) 用户兴趣画像方法及相关设备
CN112634897A (zh) 设备唤醒方法、装置和存储介质及电子装置
CN111951808B (zh) 语音交互方法、装置、终端设备及介质
CN112735381B (zh) 一种模型更新方法及装置
CN110930155B (zh) 风险管控方法、装置、计算机装置及存储介质
CN107371160A (zh) 一种用于对用户设备进行无线连接预授权的方法与设备
CN112820302A (zh) 声纹识别方法、装置、电子设备和可读存储介质
CN111128234A (zh) 一种拼接语音的识别检测方法和装置以及设备
CN110532742A (zh) 身份认证方法、装置、密钥设备及存储介质
CN111476575A (zh) 一种基于音频指纹的支付方法和装置以及设备
CN105868620B (zh) 一种信息处理方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40026130

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant