CN108766446A - 声纹识别方法、装置、存储介质及音箱 - Google Patents
声纹识别方法、装置、存储介质及音箱 Download PDFInfo
- Publication number
- CN108766446A CN108766446A CN201810349855.3A CN201810349855A CN108766446A CN 108766446 A CN108766446 A CN 108766446A CN 201810349855 A CN201810349855 A CN 201810349855A CN 108766446 A CN108766446 A CN 108766446A
- Authority
- CN
- China
- Prior art keywords
- sound
- groove
- word
- voice messaging
- vocal print
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Abstract
本发明公开一种声纹识别方法、装置、存储介质及音箱,该方法包括获取用户的语音信息;检测所述语音信息是否包括唤醒词,若所述语音信息包括唤醒词,则进入唤醒状态,同时获取所述语音信息的声纹特征信息;将所述声纹特征信息与预存声纹模型信息进行匹配,若匹配成功,则接收控制指令并根据所述控制指令进行操作。通过声纹识别技术以及唤醒词技术的结合,提高了识别的安全性。
Description
技术领域
本发明涉及语音领域,更具体的说,涉及一种声纹识别方法、装置、存储介质及音箱。
背景技术
伴随着全球化、网络化、信息化、数字化时代的到来,我们对高可靠性的身份验证技术与高精准个性化定制需求也日益增长,同时智能化、易操作的产品相继问世。传统的以密码为特征的身份认证技术暴露出巨大的弊端,很难满足高安全性和长效安全性的要求。
发明内容
本发明所要解决的技术问题是提供一种声纹识别方法、装置、存储介质及音箱,能提高安全性。
本发明的目的是通过以下技术方案来实现的:
第一方面,本发明实施例提供一种声纹识别方法,包括:
获取用户的语音信息;
检测所述语音信息是否包括唤醒词,若所述语音信息包括唤醒词,则
进入唤醒状态,同时获取所述语音信息的声纹特征信息;
将所述声纹特征信息与预存声纹模型信息进行匹配,若匹配成功,则
接收控制指令并根据所述控制指令进行操作。
第二方面,本发明实施例提供一种声纹识别装置,包括:
语音信息获取模块,用于获取用户的语音信息;
检测模块,用于检测所述语音信息是否包括唤醒词,若所述语音信息
包括唤醒词,则进入唤醒状态,同时获取所述语音信息的声纹特征信息;
匹配模块,用于将所述声纹特征信息与预存声纹模型信息进行匹配,
若匹配成功,则接收控制指令并根据所述控制指令进行操作。
第三方面,本发明实施例提供一种存储介质,其上存储有计算机程序,当所述计算机程序在音箱上运行时,使得所述音箱执行上述的声纹识别方法。
第四方面,本发明实施例提供一种音箱,包括处理器和存储器,所述存储器有计算机程序,所述处理器通过调用所述计算机程序,用于执行上述的声纹识别方法。
本发明实施例提供的声纹识别方法、装置、存储介质及音箱,通过获取用户的语音信息;检测所述语音信息是否包括唤醒词,若所述语音信息包括唤醒词,则进入唤醒状态,同时获取所述语音信息的声纹特征信息;
将所述声纹特征信息与预存声纹模型信息进行匹配,若匹配成功,则接收控制指令并根据所述控制指令进行操作。通过声纹识别技术以及唤醒词技术的结合,提高了识别的安全性。
附图说明
需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1 为本发明实施例提供的声纹识别方法的第一种流程示意图。
图2 为本发明实施例提供的声纹识别方法的第二种流程示意图。
图3 为本发明实施例提供的声纹识别方法的第三种流程示意图。
图4 为本发明实施例提供的声纹识别方法的第四种流程示意图。
图5为本发明实施例提供的声纹识别方法的第五种流程示意图。
图6 为本发明实施例提供的声纹识别方法的第六种流程示意图。
图7 为本发明实施例提供的声纹识别方法的第七种流程示意图。
图8 为本发明实施例提供的声纹识别方法的第八种流程示意图。
图9 为本发明实施例提供的语音进行预处理特征提取过程的示意图。
图10为本发明实施例提供的声纹模型生成流程图。
图11 为本发明实施例提供的声纹识别装置的第一种结构示意图。
图12 为本发明实施例提供的声纹识别装置的第二种结构示意图。
具体实施方式
请参照图式,其中相同的组件符号代表相同的组件,本发明的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本发明具体实施例,其不应被视为限制本发明未在此详述的其它具体实施例。
在以下的说明中,本发明的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明,除非另有述明。因此,这些步骤及操作将有数次提到由计算机执行,本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处,其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置,其具有由该数据格式所定义的特定特性。但是,本发明原理以上述文字来说明,其并不代表为一种限制,本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。
本文所使用的术语“单元”可看做为在该运算系统上执行的软件对象。
本文所述的不同组件、单元、引擎及服务可看做为在该运算系统上的实施对象。而本文所述的装置及方法可以以软件的方式进行实施,当然也可在硬件上进行实施,均在本发明保护范围之内。
本发明中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块,而是某些实施例还包括没有列出的步骤或模块,或某些实施例还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明实施例提供一种声纹识别方法,该声纹识别方法的执行主体可以是本发明实施例提供的声纹识别装置,或者集成了该声纹识别装置的音箱,其中该声纹识别装置可以采用硬件或者软件的方式实现。
本发明实施例将从声纹识别装置的角度进行描述,该声纹识别装置具体可以集成在音箱中。该声纹识别包括:获取用户的语音信息;检测所述语音信息是否包括唤醒词,若所述语音信息包括唤醒词,则进入唤醒状态,同时获取所述语音信息的声纹特征信息;将所述声纹特征信息与预存声纹模型信息进行匹配,若匹配成功,则接收控制指令并根据所述控制指令进行操作。其中该声纹识别装置也可以集成在智能手机或平板电脑等设备上。
语音是人的自然属性之一,由于说话人发声器官的生理差异以及后天形成的行为差异,每个人的语音都带有强烈的个人色彩,这使得通过分析语音信号来识别说话人成为可能。用语音来鉴别说话人的身份有着许多独特的优点,如语音是人的固有特征,不会丢失或遗忘;语音信号的采集方便,系统设备的成本低;另外利用电话网还可以实现远程客户服务等等。
近年来,利用语音特征进行身份鉴别的说话人识别在生物认证技术领域中越来越受到研究者的关注。
在全球化、信息化、数字化和网络化的今天,人们对智能化产品应用越来越重视。在众多生物识别技术中,除了早已使用多年的指纹识别、虹膜识别,近期兴起的人脸识别技术被用于公司打卡、软件系统登录、家庭或公共场所的安防等多个场景,而语音识别技术的用途更是广泛,机器人、智能家居产品、无人车等等。比如苹果的iPhoneX 手机搭载Face ID(又称面容ID 技术)面部识别技术,可以用人脸直接解锁屏幕。这无疑是当今世界的一项重大技术革新,其为继指纹识别、虹膜识别以及声音识别等生物识别技术之后,以其独特的方便、经济及准确性而越来越受到世人的瞩目。
随着相关算法的精进,以上生物识别技术的准确率已经可以与人类相媲美。而在这些识别技术愈加成熟之时,越来越多的人将目光放在另外一种生物识别技术上——声纹识别。按照技术的准确性排列,应该是声纹大于人脸。因而声纹在辨识的专业性上大大超过了人脸,所以在商用上也是有一定的价值的。
声纹识别,也称作说话人识别,是一种通过声音判别说话人身份的技术。人在讲话时使用的发声器官舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异,因而声纹具有唯一性。
在应用上,声纹识别更大的应用前景在于安防领域,比如刑侦破案、门禁、银行交易等等。此外,在智能家居等领域,为了安全,也为了更好的智能体验,比如在人声鼎沸的情境中准确识别哪句话是主人下达的命令等,声纹识别技术也就渐渐受到了重视。
相对于其他生物识别技术,在安全性上,声纹识别的唯一性名列前茅的,纵然模仿声音类似,但也是能够分辨出来的。除了更高的安全指数,与其他生物识别技术相比,声纹识别还有着其他的优势:
1、蕴含声纹特征的语音获取方便、自然;
2、获取语音的成本低廉,使用简单,像麦克风、通讯设备等皆可;
3、适合远程身份确认;
4、声纹辨认和确认的算法复杂度低;
5、配合一些其他措施,如通过语音识别进行内容鉴别等,可以提高准确率。
请参阅图1,图1 为本发明实施例提供的声纹识别方法的第一种流程示意图。本发明实施例提供的声纹识别方法,具体流程可以如下:110,获取用户的语音信息。
先通过音频设备获取用户的语音信息,具体的可以通过音频设备如麦克风实时获取用户的语音信息。
120,检测所述语音信息是否包括唤醒词,若所述语音信息包括唤醒词,则进入唤醒状态,同时获取所述语音信息的声纹特征信息。
获取用户的语音信息后,检测该语音信息是否包括唤醒词。唤醒词可以用户自己预先设定好,如“长江一号启动”等。例如,初始状态,设备为待机状态,检测到语音信息中包括唤醒词,则进入唤醒状态,不再是待机状态,而是正常工作状态。此外,还同时获取该语音信息的声纹特征信息。
130,将所述声纹特征信息与预存声纹模型信息进行匹配,若匹配成功,则接收控制指令并根据所述控制指令进行操作。
将该声纹特征信息与预先存储的预存声纹模型信息进行匹配,若匹配成功,则说明该用户为有权限的用户,后续接收到该用户的操作指令后,根据该操作指令进行操作。
若匹配不成功,则系统自动为新用户建立声纹模型,并插入预存的模型库,替换掉其中一个比较老的模型,从而完成新用户自动化识别注册。
系统能识别用户身份,对用户个性化操作记忆,实现产品的人性化。
请参阅图2,图2 为本发明实施例提供的声纹识别方法的第二种流程示意图。本发明实施例提供的声纹识别方法中,所述将所述声纹特征信息与预存声纹模型信息进行匹配的步骤,具体流程可以如下:
131,根据所述语音信息中唤醒词对应的起始点和终点,得到唤醒词语音。
132,获取所述唤醒词语音的声纹特征信息,并与预存声纹模型信息数据库中的多个预存声纹模型信息匹配,得到多个匹配值;
133,从所述多个匹配值中选出匹配值最高的作为目标匹配值;
134,若所述目标匹配值大于预设阈值,则判断为匹配成功。
135,若所述目标匹配值不大于预设阈值,则将所述唤醒词语音对应的声纹特征信息存入数据库作为新的预存声纹模型信息。
本实施例为非注册式的声纹识别方法,是以声纹识别技术为主,涵盖了唤醒词技术和语音识别技术等多项技术的综合。实现了说话人超短时领域的声纹识别;其次该声纹识别方法为非注册的,自动辨识老用户身份,自动发现新用户并生成新模型,使用极其方便,快捷。本实施例提供的方法关键在于新用户发现的识别率,不同信道下辨识能力的鲁棒性。技术不断发展的今天,积极提升算法的识别性能,提高系统的辨识能力,发现更好的新算法,增强不同信道下的稳定性,提升该方法的使用价值。
请参阅图3,图3 为本发明实施例提供的声纹识别方法的第三种流程示意图。本发明实施例提供的声纹识别方法中包括了语音身份认证自动注册方法。该语音身份认证自动注册方法主要是针对新用户首次使用的情况,
具体包括如下步骤:
210,获取用户的语音信息。
220,检测所述语音信息是否包括唤醒词,若所述语音信息包括唤醒词,则进入唤醒状态,同时将唤醒语音终点和长度输入到声纹识别模块。
230,进入声纹识别模块后,会将唤醒语音的声纹特征对声纹库中已经存在的模型进行打分,此时声纹库中声纹模型个数和每个声纹模型的参数初始化阶段设置。
240,获取声纹得分后,将此分数与内设的阈值进行比较,当小于阈值的时,则判定为声纹库外未注册的语音,此处的内设阈值也是初始化的时候设定的。
250,对库外的唤醒语音,系统会对此语音建立新的声纹模型,同时替换掉声纹库中一个模型,以保持库中模型数量不变,替换的规则为声纹库中使用次数最少的模型。
至此,身份认证阶段已经完成,即为声纹库中添加新用户的声纹模型的流程。
请参阅图4,图4 为本发明实施例提供的声纹识别方法的第四种流程示意图。本发明实施例提供的声纹识别方法中包括了身份识别记忆方法,该身份识别记忆方法针对已注册的用户再次唤醒智能音箱时使用。具体包括如下步骤:
310,获取用户的语音信息;
320,检测所述语音信息是否包括唤醒词,若所述语音信息包括唤醒词,则进入唤醒状态,同时获取唤醒语音终点和长度信息输入到智能声纹识别模块。
330,然后系统会将唤醒语音的声纹特征对声纹库中已经存在的模型进行打分并获得最高得分及其对应的声纹模型。
340,获取声纹得分后,将最高得分与内设的阈值进行比较,当大于内设阈值的时,先判定唤醒语音为库内目标声纹模型的语音,最高得分对应的声纹模型即为目标说话人模型,从而获取说话人的身份信息。
350,用户对唤醒后的音箱,做个性化操作和使用时,系统会将这些个性化的信息同说话人的身份信息绑定和记忆,从而实现第二个阶段的身份识别记忆功能。
本发明成功的引入了声纹识别技术对用户身份进行识别,并将身份信息同个性化信息完成绑定,又将声纹识别技术与唤醒词技术结合,实现无需主动声纹注册,即可完成高精准的用户身份识别方案。
请参阅图5,图5 为本发明实施例提供的声纹识别方法的第五种流程示意图。本发明实施例提供的声纹识别方法,具体包括如下步骤:
用户在唤醒智能音箱后,系统会根据唤醒词的用户声纹特性自动判定用户信息,自动进入不同两个过程,分别为语音身份认证自动注册过程和身份识别记忆过程。其中语音身份认证自动注册过程包括:用户辨识为集合外,自动生成该用户的新模型。身份识别记忆包括:用户辨识为集合内,自动返回其个性化信息。
若新用户首次唤醒智能音箱,对声纹库中的所有模型打分,获得所有得分最大值,且最大值仍然会低于内设集合内外判定阈值,系统即进入语音身份认证自动注册,用户被辨识为集合外,自动生成该用户的新模型;
若老用户再次唤醒智能音箱的,同样对声纹库中的所有模型打分,获得所有得分最大值,且最大值仍然会高于内设集合内外判定阈值,系统即进入语音身份识别记忆过程,用户被辨识为集合内,自动返回该用户的个性化信息;
在用户完成语音身份识别记忆过程,表明系统已完成身份认证,当音箱再次接受声纹重置命令,系统执行重置流程,将声纹库以及所有的个性化信息清空。
请参阅图6,图6 为本发明实施例提供的声纹识别方法的第六种流程示意图。本发明实施例提供的声纹识别方法中包括语音身份认证自动注册过程,具体包括如下步骤:
421,用户唤醒智能音响后,系统内置唤醒技术会将唤醒词的语音的起始端点,传递给声纹识别模块。
422,获得唤醒语音后,对唤醒语音进行预处理。
预处理包括:静音检测和去除,以及提取 13 维的梅尔倒谱系数极其一阶差分总共26 维信息作为后端处理的特征参数。
423,获得特征参数,通过通用背景模型(UBM)通过最大后验概率的自适应生成表征用户身份特性的高斯混合模型(GMM)。
424,获取模型参数后,将新的声纹模型导入模型库,替换掉未使用时间最长的模型,维持声纹库中的模型数目不变。
425,语音身份认证自动注册过程完成。
请参阅图7,图7 为本发明实施例提供的声纹识别方法的第七种流程示意图。本发明实施例提供的声纹识别方法中包括身份识别记忆过程,具体包括如下步骤:
431,用户唤醒智能音响后,系统内置唤醒技术会将唤醒词的语音的起始端点,传递给声纹识别模块。
432,获得唤醒语音后,对唤醒语音进行预处理。
预处理包括:静音检测和去除,以及提取13 维的梅尔倒谱系数极其一阶差分总共26维信息作为后端处理的特征参数。
433,语音多帧特征参数通过UBM 和模型库中所有的GMM 似然函数打分,分别利用每个GMM 得分减去UBM 的得分作为各自模型的最终得分。
434,取模型库中最终得分最大值,输出所对应的模型标号和信息。
435,至此身份识别记忆过程完成。
请参阅图8,图 8 为本发明实施例提供的声纹识别方法的第八种流程示意图。本发明实施例提供的声纹识别方法中系统重置流程为,系统先识别为声纹库集合内说话人用户,然后再等待接受系统重置命令。用户说出系统重置命令词,系统语音识别模块识别关键词文本信息,成功辨识重置命令。接受完命令后,系统开启重置功能,清空声纹库信息,恢复出厂设置。系统重置完成。
请参阅图9,图9 为本发明实施例提供的语音进行预处理特征提取过程的示意图。本发明实施例提供语音进行预处理特征提取过程中,梅尔倒谱系统数提取过程可分为预加重、端点检测、分帧、加窗、快速傅里叶变换(FFT)、梅尔频率滤波和离散余弦变换(DCT)等主要的步骤。
预加重:预加重的目的是将更为有用的高频部分的频谱进行提升,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于进行频谱分析或声道参数分析。
端点检测:对输入语音信号进行判断,从背景噪声中准确找出语音段的起始点和终止点。
分帧:由于语音信号的准平稳特性,只在短时段上才可看做是一个平稳过程,若用对平稳过程的分析方法来分析,必须将信号划分为一个一个的短时段,每一短时段称为一帧,每一帧的长度大概为10 一30ms。分帧采用连续分段的方法,但为了使帧与帧之间平滑过渡,一般采用交叠分段的方法,即每一帧的帧尾与下一帧的帧头是重叠的。
加窗:为了减小语音帧的截断效应,降低帧两端的坡度,使语音帧的两端不引起急剧变化而平滑过渡到零,就要让语音帧乘以一个窗函数。目前常用的窗函数为汉明窗(即升余弦窗):
其中N为一帧的采样点数。
快速傅里叶变换(FFT):由于离散傅立叶变换(DFT)的运算量较大,可以采用高效的快速傅立叶变换(FFT)来把语音帧由时域变换到频域。
梅尔频率滤波(Mel 频率滤波):把上步变换得到的离散频谱用序列三角滤波器进行滤波处理,得到一组系数m1,m2…….。该滤波器组的个数p由信号的截止频率决定,所有滤波器总体上覆盖从OHz到奈奎斯特频率,即采样率的二分之一。
和离散余弦变换(DCT):把上一步获得的mel 频谱变换到时域,其结果就是MFCC系数。因为Mel 频谱系数都是实数,可以使用DCT 把它们变换到时域。MFCC 倒谱系数的计算公式如下:
,
其中p为滤波器组个数,N 为一帧的采样点数。
其中,代表用户身份特性的声纹模型,通过将事先存储的高斯混合背景模型(UBM)通过最大后验概率(MAP)的自适应方法获得,被称为高斯混合模型(GMM),具体流程如图9,其中所涉及算法如下所示:
高斯混合模型公式如下:
其中,为维语音特征矢量;为高斯混合模型分量,它是维
高斯分布函数;为对应分量的加权系数;为高斯混合模型中分量的个数。对于和,它们满足以下式子
其中为均值向量,为协方差矩阵。
整个高斯混合模型(GMM)由各混合分量的均值矢量、协方差矩阵以及混合权重来描述,用来表示该模型,有:
UBM 其实就是一个大型的GMM 模型,用来训练表示与说话人无关的特征分布。它的训练数据是某一信道下的所有人的语音数据,而不是想目标模型只是反映某一个人的特征分布。
从训练后的UBM 模型参数通过最大后验概率估计(MAP)的方法自适应来更新其参数进而导出目标说话人的GMM 模型。
这种自适应算法分为两步:第一步,与EM 算法的E-Step 一样,对UBM的每个混合成分计算目标说话人训练语音的充分统计的估计;第二部与EM算法不同,这些新的充分估计与老的充分估计用一个语料相关的混合系数结合起来。具体计算方法:
第一步:
给定GMM 模型和目标说话人的训练矢量,首先算出训练矢量在UBM 混合成员中的概率分布。即对第个混合成员:
然后利用来计算新的混合加权值、均值矢量和均方矢量,结果分别如下:
这里与EM算法中的E-Step一样。
最后,这些由训练数据产生的新的充分统计量用来更新UBM 的第i 个混合成员的充分统计量(新的权重、均值和方差):
其中是自适应系数,用来控制新的和老的估计量之间的平衡,分别控制权重,均值,方差。
自适应系数定义为
是一个固定参数的因子。通常在GMM—UBM系统中采用一用了一种简单的自适应方法:
其中r 通常取10~20,本系统选择14。
最后将GMM 模型的均值方差权重等信息存入声纹库。声纹库中最新生成或者使用的放到声纹库队列前面,按照使用时间依次排序。每次有新的模型生成,自动替换掉队列尾部的模型,并将新生成的模型放到队头,其他模型依次后移,保持了队列的时间顺序,同时维持模型库中的声纹模型个数的保持不变。同理,在身份识别记忆过程中,虽然不生成新的模型,但声纹库中模型会被辨识选中,此时,将该模型放到声纹库队列的队头,其它的模型依次后台,维持模型库的使用时间队列顺序。
在身份识别记忆过程中,对唤醒词语音进行预处理、静音检测和去除、提取26维梅尔倒谱特征系数MFCC 作为特征参数,然后将语音特征参数依次对声纹库中每个GMM 和高斯混合背景模型UBM 进行打分,每个GMM 和UBM组成一对,利用计算对数似然比的方法获得本使用者的分数。其中对数似然比打分采用如下打分公式:
其中代表声纹库中用户高斯混合模型,表示高斯混合背景模型。
然后选取声纹库中所有模型的最大得分,若得分大于阈值,最大的得分所对应的模型为此次唤醒词的目标说话人。
由上可知,本发明实施例提供的声纹识别方法,包括:获取用户的语音信息;检测所述语音信息是否包括唤醒词,若所述语音信息包括唤醒词,则进入唤醒状态,同时获取所述语音信息的声纹特征信息;将所述声纹特征信息与预存声纹模型信息进行匹配,若匹配成功,则接收控制指令并根据所述控制指令进行操作。可以提高声纹识别的安全性。
请参阅图11,图11 为本发明实施例提供的声纹识别装置的第一种结构示意图。其中该声纹识别装置500 包括语音信息获取模块510、检测模块520 和匹配模块530。
语音信息获取模块510,用于获取用户的语音信息。
先通过音频设备获取用户的语音信息,具体的可以通过音频设备如麦克风实时获取用户的语音信息。
检测模块520,用于检测所述语音信息是否包括唤醒词,若所述语音信息包括唤醒词,则进入唤醒状态,同时获取所述语音信息的声纹特征信息。
获取用户的语音信息后,检测该语音信息是否包括唤醒词。唤醒词可以用户自己预先设定好,如“长江一号启动”等。例如,初始状态,设备为待机状态,检测到语音信息中包括唤醒词,则进入唤醒状态,不再是待机状态,而是正常工作状态。此外,还同时获取该语音信息的声纹特征信息。
匹配模块530,用于将所述声纹特征信息与预存声纹模型信息进行匹配,若匹配成功,则接收控制指令并根据所述控制指令进行操作操作。
将该声纹特征信息与预先存储的预存声纹模型信息进行匹配,若匹配成功,则说明该用户为有权限的用户,后续接收到该用户的操作指令后,根据该操作指令进行操作。
请参阅图12,图 12 为本发明实施例提供的声纹识别装置的第二种结构示意图。其中该匹配模块530 包括唤醒词获取子模块531、匹配值获取子模块532、目标匹配值获取子模块533 和判断子模块534。
唤醒词获取子模块531,用于根据所述语音信息中唤醒词对应的起始点和终点,得到唤醒词语音;
匹配值获取子模块532,用于获取所述唤醒词语音的声纹特征信息,
并与预存声纹模型信息数据库中的多个预存声纹模型信息匹配,得到多个匹配值;
目标匹配值获取子模块533,用于从所述多个匹配值中选出匹配值最高的作为目标匹配值;
判断子模块534,用于若所述目标匹配值大于预设阈值,则判断为匹配成功。
本实施例为非注册式的声纹识别装置,是以声纹识别技术为主,涵盖了唤醒词技术和语音识别技术等多项技术的综合。实现了说话人超短时领域的声纹识别;其次该声纹识别方法为非注册的,自动辨识老用户身份,自动发现新用户并生成新模型,使用极其方便,快捷。本实施例提供的装置关键在于新用户发现的识别率,不同信道下辨识能力的鲁棒性。技术不断发展的今天,积极提升算法的识别性能,提高系统的辨识能力,发现更好的新算法,增强不同信道下的稳定性,提升该方法的使用价值。
在一些实施例中,该装置还包括打分模块、比较模块和替换模块。
打分模块,用于进入声纹识别模块后,会将唤醒语音的声纹特征对声纹库中已经存在的模型进行打分,此时声纹库中声纹模型个数和每个声纹模型的参数初始化阶段设置。
比较模块,用于获取声纹得分后,将此分数与内设的阈值进行比较,当小于阈值的时,则判定为声纹库外未注册的语音,此处的内设阈值也是初始化的时候设定的。
替换模块,对库外的唤醒语音,系统会对此语音建立新的声纹模型,同时替换掉声纹库中一个模型,以保持库中模型数量不变,替换的规则为声纹库中使用次数最少的模型。
至此,身份认证阶段已经完成,即为声纹库中添加新用户的声纹模型的流程。
在一些实施例中,该装置还包括打分模块、比较模块和绑定记忆模块。
打分模块,用于然后系统会将唤醒语音的声纹特征对声纹库中已经存在的模型进行打分并获得最高得分及其对应的声纹模型。
比较模块,用于获取声纹得分后,将最高得分与内设的阈值进行比较,当大于内设阈值的时,先判定唤醒语音为库内目标声纹模型的语音,最高得分对应的声纹模型即为目标说话人模型,从而获取说话人的身份信息。
绑定记忆模块,用于用户对唤醒后的音箱,做个性化操作和使用时,系统会将这些个性化的信息同说话人的身份信息绑定和记忆,从而实现第二个阶段的身份识别记忆功能。
本发明成功的引入了声纹识别技术对用户身份进行识别,并将身份信息同个性化信息完成绑定,又将声纹识别技术与唤醒词技术结合,实现无需主动声纹注册,即可完成高精准的用户身份识别方案。
具体实施时,以上各个模块可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个模块的具体实施可参见前面的方法实施例,在此不再赘述。
本发明实施例中,声纹识别装置与上文实施例中的声纹识别方法属于同一构思,在声纹识别装置上可以运行声纹识别方法实施例中提供的任一方法,其具体实现过程详见声纹识别方法的实施例,此处不再赘述。
本发明实施例还提供一种音箱。音箱包括处理器以及存储器。其中,处理器与存储器电性连接。
处理器是音箱的控制中心,利用各种接口和线路连接整个音箱的各个部分,通过运行或加载存储在存储器内的计算机程序,以及调用存储在存储器内的数据,执行音箱的各种功能并处理数据,从而对音箱进行整体监控。
存储器可用于存储软件程序以及单元,处理器通过运行存储在存储器的计算机程序以及单元,从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的计算机程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据音箱的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。
在本发明实施例中,音箱中的处理器会按照如下的步骤,将一个或一个以上的计算机程序的进程对应的指令加载到存储器中,并由处理器运行存储在存储器中的计算机程序,从而实现各种功能,如下:
获取用户的语音信息;
检测所述语音信息是否包括唤醒词,若所述语音信息包括唤醒词,则
进入唤醒状态,同时获取所述语音信息的声纹特征信息;
将所述声纹特征信息与预存声纹模型信息进行匹配,若匹配成功,则
接收控制指令并根据所述控制指令进行操作。
本发明实施例还提供一种存储介质,存储介质存储有计算机程序,当计算机程序在计算机上运行时,使得计算机执行上述任一实施例中的应用程序管控方法,比如:获取用户的语音信息;检测所述语音信息是否包括唤醒词,若所述语音信息包括唤醒词,则进入唤醒状态,同时获取所述语音信息的声纹特征信息;将所述声纹特征信息与预存声纹模型信息进行匹配,若匹配成功,则接收控制指令并根据所述控制指令进行操作。
在本发明实施例中,存储介质可以是磁碟、光盘、只读存储器(Read Only Memory,ROM)、或者随机存取记忆体(Random Access Memory,RAM)等。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
需要说明的是,对本发明实施例的声纹识别方法而言,本领域普通测试人员可以理解实现本发明实施例声纹识别方法的全部或部分流程,是可以通过计算机程序来控制相关的硬件来完成,计算机程序可存储于一计算机可读取存储介质中,如存储在音箱的存储器中,并被该音箱内的至少一个处理器执行,在执行过程中可包括如音频播放方法的实施例的流程。其中,的存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (11)
1.一种声纹识别方法,其特征在于,包括:
获取用户的语音信息;
检测所述语音信息是否包括唤醒词,若所述语音信息包括唤醒词,则
进入唤醒状态,同时获取所述语音信息的声纹特征信息;
将所述声纹特征信息与预存声纹模型信息进行匹配,若匹配成功,则
接收控制指令并根据所述控制指令进行操作。
2.如权利要求1 所述的声纹识别方法,其特征在于,所述将所述声
纹特征信息与预存声纹模型信息进行匹配的步骤,具体包括:
根据所述语音信息中唤醒词对应的起始点和终点,得到唤醒词语音;
获取所述唤醒词语音的声纹特征信息,并与预存声纹模型信息数据库
中的多个预存声纹模型信息匹配,得到多个匹配值;
从所述多个匹配值中选出匹配值最高的作为目标匹配值;
若所述目标匹配值大于预设阈值,则判断为匹配成功。
3.如权利要求2 所述的声纹识别方法,其特征在于,还包括:
若所述目标匹配值不大于预设阈值,则将所述唤醒词语音对应的声纹
特征信息存入数据库作为新的预存声纹模型信息。
4.如权利要求3 所述的声纹识别方法,其特征在于,所述将所述唤
醒词语音对应的声纹特征信息存入数据库作为新的预存声纹模型信息的步
骤,包括:
对所述唤醒词语音进行预处理,提取梅尔倒谱系数及其一阶差分作为
后端处理的特征参数;
通用背景模型根据所述特征参数通过最大后验概率的自适应生成高
斯混合模型;
将高斯混合模型导入预存声纹模型信息数据库作为新的预存声纹模
型信息。
5.如权利要求2 所述的声纹识别方法,其特征在于,所述获取所述
唤醒词语音的声纹特征信息,并与预存声纹模型信息数据库中的多个预存
声纹模型信息匹配,得到多个匹配值的步骤,包括;
对所述唤醒词语音进行预处理,提取梅尔倒谱系数及其一阶差分作为
后端处理的特征参数;
将所述特征参数输入多对通用背景模型和高斯混合模型分别得到多
对第一匹配值和第二匹配值;
将每对中的第二匹配值减去第一匹配值,得到多个第三匹配值。
6.如权利要求4 或5 所述的声纹识别方法,其特征在于,对所述唤
醒词语音进行预处理,提取梅尔倒谱系数及其一阶差分作为后端处理的特
征参数的步骤,包括:
对所述唤醒词语音预加重、端点检测、分帧、加窗、快速傅里叶变换、
梅尔频率滤波和离散余弦变换,进而提取13维的梅尔倒谱系数及其一阶差
分总共26 维信息作为后端处理的特征参数。
7.如权利要求1 所述的声纹识别方法,其特征在于,所述接收控制
指令并根据所述控制指令进行操作的步骤,包括:
接收用户的语音信息,并从所述语音信息中提取关键字;
若所述关键字与预存声纹重置控制指令匹配,则将预存声纹模型信息
删除。
8.一种声纹识别装置,其特征在于,包括:
语音信息获取模块,用于获取用户的语音信息;
检测模块,用于检测所述语音信息是否包括唤醒词,若所述语音信息
包括唤醒词,则进入唤醒状态,同时获取所述语音信息的声纹特征信息;
匹配模块,用于将所述声纹特征信息与预存声纹模型信息进行匹配,
若匹配成功,则接收控制指令并根据所述控制指令进行操作。
9.如权利要求1 所述的声纹识别装置,其特征在于,所述匹配模块
包括:
唤醒词获取子模块,用于根据所述语音信息中唤醒词对应的起始点和
终点,得到唤醒词语音;
匹配值获取子模块,用于获取所述唤醒词语音的声纹特征信息,并与
预存声纹模型信息数据库中的多个预存声纹模型信息匹配,得到多个匹配
值;
目标匹配值获取子模块,用于从所述多个匹配值中选出匹配值最高的
作为目标匹配值;
判断子模块,用于若所述目标匹配值大于预设阈值,则判断为匹配成
功。
10.一种存储介质,其上存储有计算机程序,其特征在于,当所述计
算机程序在音箱上运行时,使得所述音箱执行如权利要求1 至7 任一项所
述的声纹识别方法。
11.一种音箱,包括处理器和存储器,所述存储器有计算机程序,其
特征在于,所述处理器通过调用所述计算机程序,用于执行如权利要求1
至7任一项所述的声纹识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810349855.3A CN108766446A (zh) | 2018-04-18 | 2018-04-18 | 声纹识别方法、装置、存储介质及音箱 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810349855.3A CN108766446A (zh) | 2018-04-18 | 2018-04-18 | 声纹识别方法、装置、存储介质及音箱 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108766446A true CN108766446A (zh) | 2018-11-06 |
Family
ID=64011519
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810349855.3A Pending CN108766446A (zh) | 2018-04-18 | 2018-04-18 | 声纹识别方法、装置、存储介质及音箱 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108766446A (zh) |
Cited By (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109410951A (zh) * | 2018-11-21 | 2019-03-01 | 广州番禺巨大汽车音响设备有限公司 | 基于Alexa语音控制的音响控制方法、系统及音响设备 |
CN109448731A (zh) * | 2018-11-20 | 2019-03-08 | 北京网众共创科技有限公司 | 声纹信息的比对方法及装置、储存介质、电子装置 |
CN109448725A (zh) * | 2019-01-11 | 2019-03-08 | 百度在线网络技术(北京)有限公司 | 一种语音交互设备唤醒方法、装置、设备及存储介质 |
CN109697980A (zh) * | 2018-12-26 | 2019-04-30 | 与德科技有限公司 | 一种唤醒词的响应方法、装置、存储介质及智能音箱 |
CN109712623A (zh) * | 2018-12-29 | 2019-05-03 | Tcl通力电子(惠州)有限公司 | 语音控制方法、装置及计算机可读存储介质 |
CN109863722A (zh) * | 2019-01-15 | 2019-06-07 | 深圳市汇顶科技股份有限公司 | 无线控制方法、装置及系统 |
CN110060693A (zh) * | 2019-04-16 | 2019-07-26 | Oppo广东移动通信有限公司 | 模型训练方法、装置、电子设备及存储介质 |
CN110188171A (zh) * | 2019-05-30 | 2019-08-30 | 上海联影医疗科技有限公司 | 一种语音搜索方法、装置、电子设备及存储介质 |
CN110209429A (zh) * | 2019-06-10 | 2019-09-06 | 百度在线网络技术(北京)有限公司 | 信息提取方法、装置及存储介质 |
CN110415699A (zh) * | 2019-08-30 | 2019-11-05 | 北京声智科技有限公司 | 一种语音唤醒的判断方法、装置及电子设备 |
CN110459227A (zh) * | 2019-08-29 | 2019-11-15 | 四川长虹电器股份有限公司 | 基于智能电视的声纹注册方法 |
CN110491389A (zh) * | 2019-08-19 | 2019-11-22 | 效生软件科技(上海)有限公司 | 一种话务系统的声纹识别方法 |
CN111128198A (zh) * | 2019-12-25 | 2020-05-08 | 厦门快商通科技股份有限公司 | 一种声纹识别方法、装置、存储介质、服务器及系统 |
CN111128195A (zh) * | 2019-11-29 | 2020-05-08 | 合肥讯飞读写科技有限公司 | 智能演示器的声纹控制方法、智能演示器和设备 |
CN111124512A (zh) * | 2019-12-10 | 2020-05-08 | 珠海格力电器股份有限公司 | 智能设备的唤醒方法、装置、设备和介质 |
CN111179940A (zh) * | 2018-11-12 | 2020-05-19 | 阿里巴巴集团控股有限公司 | 一种语音识别方法、装置及计算设备 |
CN111199593A (zh) * | 2020-01-09 | 2020-05-26 | 广州智体科技有限公司 | 出租车考勤调度管理方法 |
CN111210829A (zh) * | 2020-02-19 | 2020-05-29 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、系统、设备和计算机可读存储介质 |
CN111276141A (zh) * | 2020-01-19 | 2020-06-12 | 珠海格力电器股份有限公司 | 语音交互方法、装置、存储介质、处理器和电子设备 |
CN111326146A (zh) * | 2020-02-25 | 2020-06-23 | 北京声智科技有限公司 | 语音唤醒模板的获取方法、装置、电子设备及计算机可读存储介质 |
CN111354357A (zh) * | 2018-12-24 | 2020-06-30 | 中移(杭州)信息技术有限公司 | 一种音频资源播放的方法、装置、电子设备及存储介质 |
CN111462756A (zh) * | 2019-01-18 | 2020-07-28 | 北京猎户星空科技有限公司 | 声纹识别方法、装置、电子设备及存储介质 |
CN111524526A (zh) * | 2020-05-14 | 2020-08-11 | 中国工商银行股份有限公司 | 声纹识别方法及装置 |
CN111599365A (zh) * | 2020-04-08 | 2020-08-28 | 云知声智能科技股份有限公司 | 一种用于声纹识别系统中的自适应阈值生成系统和方法 |
CN111640434A (zh) * | 2020-06-05 | 2020-09-08 | 三星电子(中国)研发中心 | 用于控制语音设备的方法和装置 |
CN111768769A (zh) * | 2019-03-15 | 2020-10-13 | 阿里巴巴集团控股有限公司 | 语音交互方法、装置、设备及存储介质 |
CN111833869A (zh) * | 2020-07-01 | 2020-10-27 | 中关村科学城城市大脑股份有限公司 | 一种应用于城市大脑的语音交互方法及系统 |
CN111986663A (zh) * | 2019-05-22 | 2020-11-24 | 深圳市掌网科技股份有限公司 | 膜切机及其语音控制装置、方法 |
WO2021047248A1 (zh) * | 2019-09-10 | 2021-03-18 | 深圳创维-Rgb电子有限公司 | 基于多控制终端的iot设备控制方法、控制终端及存储介质 |
CN112840396A (zh) * | 2018-11-20 | 2021-05-25 | 三星电子株式会社 | 用于处理用户话语的电子装置及其控制方法 |
CN112951234A (zh) * | 2021-03-31 | 2021-06-11 | 国网江苏省电力有限公司营销服务中心 | 一种基于语音交互的负荷辨识智能控制方法、系统和装置 |
CN112992133A (zh) * | 2019-12-02 | 2021-06-18 | 杭州智芯科微电子科技有限公司 | 声音信号控制方法、系统、可读存储介质和设备 |
CN113488059A (zh) * | 2021-08-13 | 2021-10-08 | 广州市迪声音响有限公司 | 一种声纹识别方法及系统 |
CN113870448A (zh) * | 2021-09-28 | 2021-12-31 | 深圳市卡联科技股份有限公司 | 一种智能车载终端的安全快速响应通讯方法和系统 |
CN113940523A (zh) * | 2021-10-09 | 2022-01-18 | 珠海格力电器股份有限公司 | 智能床垫的自调整方法、装置、智能床垫及存储介质 |
CN114422154A (zh) * | 2022-03-30 | 2022-04-29 | 深圳市永达电子信息股份有限公司 | 一种基于语音识别的数字证书管理方法及装置 |
CN114630171A (zh) * | 2020-12-11 | 2022-06-14 | 海信视像科技股份有限公司 | 显示设备以及配置切换方法 |
CN115312068A (zh) * | 2022-07-14 | 2022-11-08 | 荣耀终端有限公司 | 语音控制方法、设备及存储介质 |
CN116030817A (zh) * | 2022-07-18 | 2023-04-28 | 荣耀终端有限公司 | 语音唤醒方法、设备及存储介质 |
CN116504246A (zh) * | 2023-06-26 | 2023-07-28 | 深圳市矽昊智能科技有限公司 | 基于蓝牙设备的语音遥控方法、设备、存储介质及装置 |
WO2024077588A1 (en) * | 2022-10-14 | 2024-04-18 | Qualcomm Incorporated | Voice-based user authentication |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140172423A1 (en) * | 2012-12-14 | 2014-06-19 | Lenovo (Beijing) Co., Ltd. | Speech recognition method, device and electronic apparatus |
CN104517066A (zh) * | 2014-12-16 | 2015-04-15 | 上海师范大学 | 一种文件夹加密方法 |
CN105575395A (zh) * | 2014-10-14 | 2016-05-11 | 中兴通讯股份有限公司 | 语音唤醒方法及装置、终端及其处理方法 |
CN106502649A (zh) * | 2016-09-27 | 2017-03-15 | 北京光年无限科技有限公司 | 一种机器人服务唤醒方法及装置 |
CN107886957A (zh) * | 2017-11-17 | 2018-04-06 | 广州势必可赢网络科技有限公司 | 一种结合声纹识别的语音唤醒方法及装置 |
-
2018
- 2018-04-18 CN CN201810349855.3A patent/CN108766446A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140172423A1 (en) * | 2012-12-14 | 2014-06-19 | Lenovo (Beijing) Co., Ltd. | Speech recognition method, device and electronic apparatus |
CN105575395A (zh) * | 2014-10-14 | 2016-05-11 | 中兴通讯股份有限公司 | 语音唤醒方法及装置、终端及其处理方法 |
CN104517066A (zh) * | 2014-12-16 | 2015-04-15 | 上海师范大学 | 一种文件夹加密方法 |
CN106502649A (zh) * | 2016-09-27 | 2017-03-15 | 北京光年无限科技有限公司 | 一种机器人服务唤醒方法及装置 |
CN107886957A (zh) * | 2017-11-17 | 2018-04-06 | 广州势必可赢网络科技有限公司 | 一种结合声纹识别的语音唤醒方法及装置 |
Non-Patent Citations (1)
Title |
---|
周雷: "《基于声纹识别的说话人身份确认方法的研究》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111179940A (zh) * | 2018-11-12 | 2020-05-19 | 阿里巴巴集团控股有限公司 | 一种语音识别方法、装置及计算设备 |
CN109448731A (zh) * | 2018-11-20 | 2019-03-08 | 北京网众共创科技有限公司 | 声纹信息的比对方法及装置、储存介质、电子装置 |
CN112840396A (zh) * | 2018-11-20 | 2021-05-25 | 三星电子株式会社 | 用于处理用户话语的电子装置及其控制方法 |
CN109410951A (zh) * | 2018-11-21 | 2019-03-01 | 广州番禺巨大汽车音响设备有限公司 | 基于Alexa语音控制的音响控制方法、系统及音响设备 |
CN111354357A (zh) * | 2018-12-24 | 2020-06-30 | 中移(杭州)信息技术有限公司 | 一种音频资源播放的方法、装置、电子设备及存储介质 |
CN109697980A (zh) * | 2018-12-26 | 2019-04-30 | 与德科技有限公司 | 一种唤醒词的响应方法、装置、存储介质及智能音箱 |
CN109712623A (zh) * | 2018-12-29 | 2019-05-03 | Tcl通力电子(惠州)有限公司 | 语音控制方法、装置及计算机可读存储介质 |
CN109448725A (zh) * | 2019-01-11 | 2019-03-08 | 百度在线网络技术(北京)有限公司 | 一种语音交互设备唤醒方法、装置、设备及存储介质 |
CN109863722A (zh) * | 2019-01-15 | 2019-06-07 | 深圳市汇顶科技股份有限公司 | 无线控制方法、装置及系统 |
WO2020147011A1 (zh) * | 2019-01-15 | 2020-07-23 | 深圳市汇顶科技股份有限公司 | 无线控制方法、装置及系统 |
CN111462756A (zh) * | 2019-01-18 | 2020-07-28 | 北京猎户星空科技有限公司 | 声纹识别方法、装置、电子设备及存储介质 |
CN111768769A (zh) * | 2019-03-15 | 2020-10-13 | 阿里巴巴集团控股有限公司 | 语音交互方法、装置、设备及存储介质 |
CN110060693A (zh) * | 2019-04-16 | 2019-07-26 | Oppo广东移动通信有限公司 | 模型训练方法、装置、电子设备及存储介质 |
CN111986663A (zh) * | 2019-05-22 | 2020-11-24 | 深圳市掌网科技股份有限公司 | 膜切机及其语音控制装置、方法 |
CN110188171A (zh) * | 2019-05-30 | 2019-08-30 | 上海联影医疗科技有限公司 | 一种语音搜索方法、装置、电子设备及存储介质 |
CN110209429A (zh) * | 2019-06-10 | 2019-09-06 | 百度在线网络技术(北京)有限公司 | 信息提取方法、装置及存储介质 |
CN110491389A (zh) * | 2019-08-19 | 2019-11-22 | 效生软件科技(上海)有限公司 | 一种话务系统的声纹识别方法 |
CN110491389B (zh) * | 2019-08-19 | 2021-12-14 | 效生软件科技(上海)有限公司 | 一种话务系统的声纹识别方法 |
CN110459227A (zh) * | 2019-08-29 | 2019-11-15 | 四川长虹电器股份有限公司 | 基于智能电视的声纹注册方法 |
CN110415699A (zh) * | 2019-08-30 | 2019-11-05 | 北京声智科技有限公司 | 一种语音唤醒的判断方法、装置及电子设备 |
WO2021047248A1 (zh) * | 2019-09-10 | 2021-03-18 | 深圳创维-Rgb电子有限公司 | 基于多控制终端的iot设备控制方法、控制终端及存储介质 |
CN111128195A (zh) * | 2019-11-29 | 2020-05-08 | 合肥讯飞读写科技有限公司 | 智能演示器的声纹控制方法、智能演示器和设备 |
CN112992133A (zh) * | 2019-12-02 | 2021-06-18 | 杭州智芯科微电子科技有限公司 | 声音信号控制方法、系统、可读存储介质和设备 |
CN111124512A (zh) * | 2019-12-10 | 2020-05-08 | 珠海格力电器股份有限公司 | 智能设备的唤醒方法、装置、设备和介质 |
CN111128198A (zh) * | 2019-12-25 | 2020-05-08 | 厦门快商通科技股份有限公司 | 一种声纹识别方法、装置、存储介质、服务器及系统 |
CN111199593A (zh) * | 2020-01-09 | 2020-05-26 | 广州智体科技有限公司 | 出租车考勤调度管理方法 |
CN111276141A (zh) * | 2020-01-19 | 2020-06-12 | 珠海格力电器股份有限公司 | 语音交互方法、装置、存储介质、处理器和电子设备 |
CN111210829A (zh) * | 2020-02-19 | 2020-05-29 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、系统、设备和计算机可读存储介质 |
CN111326146A (zh) * | 2020-02-25 | 2020-06-23 | 北京声智科技有限公司 | 语音唤醒模板的获取方法、装置、电子设备及计算机可读存储介质 |
CN111599365A (zh) * | 2020-04-08 | 2020-08-28 | 云知声智能科技股份有限公司 | 一种用于声纹识别系统中的自适应阈值生成系统和方法 |
CN111599365B (zh) * | 2020-04-08 | 2023-05-05 | 云知声智能科技股份有限公司 | 一种用于声纹识别系统中的自适应阈值生成系统和方法 |
CN111524526A (zh) * | 2020-05-14 | 2020-08-11 | 中国工商银行股份有限公司 | 声纹识别方法及装置 |
CN111524526B (zh) * | 2020-05-14 | 2023-11-17 | 中国工商银行股份有限公司 | 声纹识别方法及装置 |
CN111640434A (zh) * | 2020-06-05 | 2020-09-08 | 三星电子(中国)研发中心 | 用于控制语音设备的方法和装置 |
CN111833869A (zh) * | 2020-07-01 | 2020-10-27 | 中关村科学城城市大脑股份有限公司 | 一种应用于城市大脑的语音交互方法及系统 |
CN111833869B (zh) * | 2020-07-01 | 2022-02-11 | 中关村科学城城市大脑股份有限公司 | 一种应用于城市大脑的语音交互方法及系统 |
CN114630171A (zh) * | 2020-12-11 | 2022-06-14 | 海信视像科技股份有限公司 | 显示设备以及配置切换方法 |
CN112951234A (zh) * | 2021-03-31 | 2021-06-11 | 国网江苏省电力有限公司营销服务中心 | 一种基于语音交互的负荷辨识智能控制方法、系统和装置 |
CN113488059A (zh) * | 2021-08-13 | 2021-10-08 | 广州市迪声音响有限公司 | 一种声纹识别方法及系统 |
CN113870448A (zh) * | 2021-09-28 | 2021-12-31 | 深圳市卡联科技股份有限公司 | 一种智能车载终端的安全快速响应通讯方法和系统 |
CN113940523A (zh) * | 2021-10-09 | 2022-01-18 | 珠海格力电器股份有限公司 | 智能床垫的自调整方法、装置、智能床垫及存储介质 |
CN114422154A (zh) * | 2022-03-30 | 2022-04-29 | 深圳市永达电子信息股份有限公司 | 一种基于语音识别的数字证书管理方法及装置 |
CN115312068A (zh) * | 2022-07-14 | 2022-11-08 | 荣耀终端有限公司 | 语音控制方法、设备及存储介质 |
CN116030817A (zh) * | 2022-07-18 | 2023-04-28 | 荣耀终端有限公司 | 语音唤醒方法、设备及存储介质 |
CN116030817B (zh) * | 2022-07-18 | 2023-09-19 | 荣耀终端有限公司 | 语音唤醒方法、设备及存储介质 |
WO2024077588A1 (en) * | 2022-10-14 | 2024-04-18 | Qualcomm Incorporated | Voice-based user authentication |
CN116504246A (zh) * | 2023-06-26 | 2023-07-28 | 深圳市矽昊智能科技有限公司 | 基于蓝牙设备的语音遥控方法、设备、存储介质及装置 |
CN116504246B (zh) * | 2023-06-26 | 2023-11-24 | 深圳市矽昊智能科技有限公司 | 基于蓝牙设备的语音遥控方法、设备、存储介质及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108766446A (zh) | 声纹识别方法、装置、存储介质及音箱 | |
CN104835498B (zh) | 基于多类型组合特征参数的声纹识别方法 | |
CN103971680B (zh) | 一种语音识别的方法、装置 | |
CA2549092C (en) | System and method for providing improved claimant authentication | |
Liu et al. | An MFCC‐based text‐independent speaker identification system for access control | |
CN110265040A (zh) | 声纹模型的训练方法、装置、存储介质及电子设备 | |
CN109979438A (zh) | 语音唤醒方法及电子设备 | |
CN108281137A (zh) | 一种全音素框架下的通用语音唤醒识别方法及系统 | |
CN102324232A (zh) | 基于高斯混合模型的声纹识别方法及系统 | |
CN109599117A (zh) | 一种音频数据识别方法及人声语音防重放识别系统 | |
CN107591155A (zh) | 语音识别方法及装置、终端及计算机可读存储介质 | |
CN107274916A (zh) | 基于声纹信息对音频/视频文件进行操作的方法及装置 | |
WO2020253128A1 (zh) | 基于语音识别的通信服务方法、装置、计算机设备及存储介质 | |
CN101772015A (zh) | 移动终端语音密码开机的方法 | |
CN110222841A (zh) | 基于间距损失函数的神经网络训练方法和装置 | |
CN106991312B (zh) | 基于声纹识别的互联网反欺诈认证方法 | |
CN109960743A (zh) | 会议内容区分方法、装置、计算机设备及存储介质 | |
CN110473552A (zh) | 语音识别认证方法及系统 | |
CN111508524B (zh) | 语音来源设备的识别方法和系统 | |
CN108847221A (zh) | 语音识别方法、装置、存储介质及电子设备 | |
Ntalampiras | A novel holistic modeling approach for generalized sound recognition | |
CN105913842A (zh) | 一种语音自定义唤醒手机的方法 | |
CN109473102A (zh) | 一种机器人秘书智能会议记录方法及系统 | |
CN110136726A (zh) | 一种语音性别的估计方法、装置、系统及存储介质 | |
CN109584881A (zh) | 基于语音处理的号码识别方法、装置及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20181106 |