CN110459242A - 变声检测方法、终端及计算机可读存储介质 - Google Patents
变声检测方法、终端及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110459242A CN110459242A CN201910777108.4A CN201910777108A CN110459242A CN 110459242 A CN110459242 A CN 110459242A CN 201910777108 A CN201910777108 A CN 201910777108A CN 110459242 A CN110459242 A CN 110459242A
- Authority
- CN
- China
- Prior art keywords
- voice
- default
- vocal print
- measured
- print feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Abstract
本发明公开了一种变声检测方法、终端及计算机可读存储介质,该方法包括:通过在接收到检测请求时,获取待检测对象信息,并检测待检测对象是否符合对应的预设条件,若符合,则获取对应的待测语音数据,检测该待测语音数据是否符合预设变声检测语音条件,若符合,则通过预设变声检测模型,获取对应的待测声纹特征信息及语音伪造判决结果,并检测该预设声纹特征数据库是否为最新已更新状态,若是,则获取该待测声纹特征信息对应的预设声纹特征信息,并计算该待测声纹特征信息与该预设声纹特征信息之间的匹配度,确定该待测语音数据是否为人工伪造语音数据。从而解决了人工伪造语音检测准确度不高的技术问题,提高了待测语音数据检测准确度。
Description
技术领域
本发明属于信息处理领域,尤其涉及一种变声检测方法、终端及计算机可读存储介质。
背景技术
随着现代语音信号处理技术的发展,基于声纹识别的身份认证方法受到越来越多用户的青睐,但是,在海量数据干扰的情况下,除了不可避免存在的两个相似自然人声的情况,还会出现人工伪造的人工伪造语音,这对声纹识别技术的准确性会产生较严重的影响。
目前,对于人工伪造的人工伪造语音的识别,通常通过比较未经人工伪造和经过人工伪造语音的频谱差异,但是,由于人工伪造技术不断更新,且人工伪造对象声音的复杂性,在比较未经人工伪造和经过人工伪造语音的频谱差异的过程中,存在识别标准单一且不灵活,导致人工伪造语音检测准确度不高的技术问题。
所以,目前迫切需要一种高效、精准的变声检测方案,以满足获取更高语音检测准确度的需求。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种变声检测方法、终端及计算机可读存储介质,旨在解决人工伪造语音检测准确度不高的技术问题。
为实现上述目的,本发明提出变声检测方法,所述变声检测方法包括以下步骤:
在接收到变声检测的检测请求时,获取所述检测请求对应的待检测对象信息,并检测所述待检测对象是否符合待检测目标对象的预设条件;
若符合所述待检测目标对象的预设条件,则获取对应的待测语音数据,并检测所述待测语音数据是否符合预设变声检测语音条件;
若符合所述预设变声检测语音条件,则通过预设变声检测模型,获取对应的待测声纹特征信息,以及对应的语音伪造判决结果;
基于所述待测声纹特征信息及预设声纹特征数据库,检测所述预设声纹特征数据库是否为最新已更新状态;
若所述预设声纹特征数据库为最新已更新状态,则确定所述待测声纹特征信息在所述最新已更新状态的预设声纹特征数据库中对应的预设声纹特征信息,并计算所述待测声纹特征信息与所述对应的预设声纹特征信息之间的匹配度;
基于所述声纹匹配度及所述语音伪造判决结果,确定所述待测语音数据是否为人工伪造的人工伪造语音数据。
可选地,所述在接收到变声检测的检测请求时,获取所述检测请求对应的待检测对象信息,并检测所述待检测对象是否符合待检测目标对象的预设条件的步骤包括:
在接收到变声检测的检测请求时,显示包含文字编辑框的界面;
基于所述界面,获取用户输入的待检测目标对象的身份信息;
基于所述身份信息,判断所述待检测目标对象是否属于预设特殊对象;
若属于所述预设特殊对象,则检测所述预设特殊对象对应的预设语音数据库的更新周期是否超过预设更新周期;
若未超过所述预设更新周期,则确定未超过所述预设更新周期对应的待检测目标对象符合所述待检测目标对象的预设条件。
可选地,所述终端包括所述录音设备,所述若符合所述待检测目标对象的预设条件,则获取对应的待测语音数据,并检测所述待测语音数据是否符合预设变声检测语音条件的步骤包括:
若符合所述待检测目标对象的预设条件,则启动所述录音设备;
获取用户基于所述录音设备输入的待测语音数据,并确定所述待测语音数据的语种信息,基于所述待测语音数据的语种信息在所述预设语音数据库中检测是否存在对应的预设语种语音数据库;
若存在对应的预设语种语音数据库,则基于所述录音设备输入的待测语音数据,检测所述录音设备输入的待测语音数据的语音清晰度是否达到预设语音清晰度阈值,所述录音设备输入的待测语音数据的语音长度是否达到预设语音长度阈值,所述录音设备输入的待测语音数据的语音音量是否达到预设语音音量阈值。
可选地,所述预设变声检测模型为以标注有语音生成对象的类别标签及语音是否伪造标签的训练语音数据进行训练得到,所述预设变声检测模型包括两个输出通道,第一输出通道输出语音生成对象的类别标签,第二输出通道输出语音是否伪造结果,所述预设变声检测模型的最后一个隐藏层作为两个输出通道的公共隐藏层,所述若符合所述预设变声检测语音条件,则通过预设变声检测模型,获取对应的待测声纹特征信息,以及对应的语音伪造判决结果的步骤包括:
若符合所述预设变声检测语音条件,则将所述待测语音数据输入预设变声检测模型;
获取所述预设变声检测模型的公共隐藏层输出的特征向量,并根据所述特征向量确定与所述待测语音数据匹配的待测声纹特征信息;
获取所述预设变声检测模型的第二输出通道输出的语音是否伪造结果,并根据所述待测语音数据是否伪造结果确定语音伪造判决结果。
可选地,所述基于所述待测声纹特征信息及预设声纹特征数据库,检测所述预设声纹特征数据库是否为最新已更新状态的步骤包括:
基于所述待测声纹特征信息的获取时间及预设声纹特征数据库的最近一次更新时间,计算得到所述待测声纹特征信息的获取时间与所述预设声纹特征数据库的最近一次更新时间的时间差,并判断所述时间差是否大于预设时间差阈值;
若大于或等于所述预设时间差阈值,则确定所述预设声纹特征数据库不是最新已更新状态;
若小于所述预设时间差阈值,则确定所述预设声纹特征数据库为最新已更新状态。
可选地,所述若所述预设声纹特征数据库为最新已更新状态,则确定所述待测声纹特征信息在所述最新已更新状态的预设声纹特征数据库中对应的预设声纹特征信息,并计算所述待测声纹特征信息与所述对应的预设声纹特征信息之间的匹配度的步骤包括:
若确定所述预设声纹特征数据库为最新已更新状态,则确定所述待测声纹特征信息在所述最新已更新状态的预设声纹特征数据库中对应的预设声纹特征信息;
基于预设声纹特征信息及最小哈希算法,计算所述待测声纹特征信息与所述最新已更新状态的预设声纹特征数据库中预设声纹特征信息之间的匹配度。
可选地,所述基于所述待测声纹特征信息及预设声纹特征数据库,检测所述预设声纹特征数据库是否为最新已更新状态的步骤之后,还包括:
若确定所述预设声纹特征数据库不是最新已更新状态,则获取所述终端中的录音设备被开启的历史记录;
根据所述历史记录,从所述预设用户处获取语音信息;
从所述语音信息中提取目标声纹特征;
根据所述目标声纹特征,对所述终端中保存的所述预设机主的声纹特征进行更新。
可选地,所述语音伪造判决结果为语音伪造判决得分,语音伪造判决得分越低表示语音数据为人工伪造的可能性越大;所述声纹匹配度为声纹匹配度得分,所述基于所述声纹匹配度及所述语音伪造判决结果,确定所述待测语音数据是否为人工伪造的人工伪造语音数据的步骤包括:
对所述语音伪造判决得分和所述声纹匹配度得分进行加权融合,结果作为所述待测语音数据的伪造匹配度得分;
根据所述伪造匹配度得分以及预设伪造匹配度阈值的大小关系,确定所述待测语音数据是否为人工伪造的变声语音数据。
此外,为实现上述目的,本发明还提供一种终端,所述终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的变声检测程序,所述变声检测程序被所述处理器执行时实现如上文所述的变声检测方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有变声检测程序,所述变声检测程序被处理器执行时实现如上文所述的变声检测方法的步骤。
本发明技术方案中,通过在接收到变声检测的检测请求时,获取该检测请求对应的待检测对象信息,并检测该待检测对象是否符合待检测目标对象的预设条件,若符合该待检测目标对象的预设条件,则获取对应的待测语音数据,并检测该待测语音数据是否符合预设变声检测语音条件,若符合该预设变声检测语音条件,则通过预设变声检测模型,获取对应的待测声纹特征信息,以及对应的语音伪造判决结果,基于该待测声纹特征信息及预设声纹特征数据库,检测该预设声纹特征数据库是否为最新已更新状态,若该预设声纹特征数据库为最新已更新状态,则确定该待测声纹特征信息在该最新已更新状态的预设声纹特征数据库中对应的预设声纹特征信息,并计算该待测声纹特征信息与该对应的预设声纹特征信息之间的匹配度,基于该声纹匹配度及该语音伪造判决结果,确定该待测语音数据是否为人工伪造的人工伪造语音数据。本发明解决了人工伪造语音检测准确度不高的技术问题,实现了对人工伪造语音检测的检测标准的灵活性的提高,从而提高了变声检测的检测准确率,降低了变声检测数据的误差,进而提高了变声检测的准确率。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的终端的结构示意图;
图2为本发明变声检测方法第一实施例的流程示意图。
本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的解决方案主要是:通过在接收到变声检测的检测请求时,获取该检测请求对应的待检测对象信息,并检测该待检测对象是否符合待检测目标对象的预设条件,若符合该待检测目标对象的预设条件,则获取对应的待测语音数据,并检测该待测语音数据是否符合预设变声检测语音条件,若符合该预设变声检测语音条件,则通过预设变声检测模型,获取对应的待测声纹特征信息,以及对应的语音伪造判决结果,基于该待测声纹特征信息及预设声纹特征数据库,检测该预设声纹特征数据库是否为最新已更新状态,若该预设声纹特征数据库为最新已更新状态,则确定该待测声纹特征信息在该最新已更新状态的预设声纹特征数据库中对应的预设声纹特征信息,并计算该待测声纹特征信息与该对应的预设声纹特征信息之间的匹配度,基于该声纹匹配度及该语音伪造判决结果,确定该待测语音数据是否为人工伪造的人工伪造语音数据,解决了人工伪造语音检测准确度不高的技术问题,实现了对人工伪造语音检测的检测标准的灵活性的提高,从而提高了变声检测的检测准确率,降低了变声检测数据的误差,进而提高了变声检测的准确率。
本发明实施例提出一种终端。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的终端的结构示意图。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
如图1所示,该终端可以包括:处理器1001、通信总线1002、用户接口1003、网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端结构的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及变声检测程序。
本发明中,终端通过处理器1001调用存储器1005中存储的变声检测程序,并执行以下操作:
在接收到变声检测的检测请求时,获取所述检测请求对应的待检测对象信息,并检测所述待检测对象是否符合待检测目标对象的预设条件;
若符合所述待检测目标对象的预设条件,则获取对应的待测语音数据,并检测所述待测语音数据是否符合预设变声检测语音条件;
若符合所述预设变声检测语音条件,则通过预设变声检测模型,获取对应的待测声纹特征信息,以及对应的语音伪造判决结果;
基于所述待测声纹特征信息及预设声纹特征数据库,检测所述预设声纹特征数据库是否为最新已更新状态;
若所述预设声纹特征数据库为最新已更新状态,则确定所述待测声纹特征信息在所述最新已更新状态的预设声纹特征数据库中对应的预设声纹特征信息,并计算所述待测声纹特征信息与所述对应的预设声纹特征信息之间的匹配度;
基于所述声纹匹配度及所述语音伪造判决结果,确定所述待测语音数据是否为人工伪造的人工伪造语音数据。
进一步地,处理器1001可以调用存储器1005中存储的变声检测程序,还执行以下操作:
在接收到变声检测的检测请求时,显示包含文字编辑框的界面;
基于所述界面,获取用户输入的待检测目标对象的身份信息;
基于所述身份信息,判断所述待检测目标对象是否属于预设特殊对象;
若属于所述预设特殊对象,则检测所述预设特殊对象对应的预设语音数据库的更新周期是否超过预设更新周期;
若未超过所述预设更新周期,则确定未超过所述预设更新周期对应的待检测目标对象符合所述待检测目标对象的预设条件。
进一步地,处理器1001可以调用存储器1005中存储的变声检测程序,还执行以下操作:
若符合所述待检测目标对象的预设条件,则启动所述录音设备;
获取用户基于所述录音设备输入的待测语音数据,并确定所述待测语音数据的语种信息,基于所述待测语音数据的语种信息在所述预设语音数据库中检测是否存在对应的预设语种语音数据库;
若存在对应的预设语种语音数据库,则基于所述录音设备输入的待测语音数据,检测所述录音设备输入的待测语音数据的语音清晰度是否达到预设语音清晰度阈值,所述录音设备输入的待测语音数据的语音长度是否达到预设语音长度阈值,所述录音设备输入的待测语音数据的语音音量是否达到预设语音音量阈值。
进一步地,处理器1001可以调用存储器1005中存储的变声检测程序,还执行以下操作:
若符合所述预设变声检测语音条件,则将所述待测语音数据输入预设变声检测模型;
获取所述预设变声检测模型的公共隐藏层输出的特征向量,并根据所述特征向量确定与所述待测语音数据匹配的待测声纹特征信息;
获取所述预设变声检测模型的第二输出通道输出的语音是否伪造结果,并根据所述待测语音数据是否伪造结果确定语音伪造判决结果。
进一步地,处理器1001可以调用存储器1005中存储的变声检测程序,还执行以下操作:
基于所述待测声纹特征信息的获取时间及预设声纹特征数据库的最近一次更新时间,计算得到所述待测声纹特征信息的获取时间与所述预设声纹特征数据库的最近一次更新时间的时间差,并判断所述时间差是否大于预设时间差阈值;
若大于或等于所述预设时间差阈值,则确定所述预设声纹特征数据库不是最新已更新状态;
若小于所述预设时间差阈值,则确定所述预设声纹特征数据库为最新已更新状态。
进一步地,处理器1001可以调用存储器1005中存储的变声检测程序,还执行以下操作:
若确定所述预设声纹特征数据库为最新已更新状态,则确定所述待测声纹特征信息在所述最新已更新状态的预设声纹特征数据库中对应的预设声纹特征信息;
基于预设声纹特征信息及最小哈希算法,计算所述待测声纹特征信息与所述最新已更新状态的预设声纹特征数据库中预设声纹特征信息之间的匹配度。
进一步地,处理器1001可以调用存储器1005中存储的变声检测程序,还执行以下操作:
若确定所述预设声纹特征数据库不是最新已更新状态,则获取所述终端中的录音设备被开启的历史记录;
根据所述历史记录,从所述预设用户处获取语音信息;
从所述语音信息中提取目标声纹特征;
根据所述目标声纹特征,对所述终端中保存的所述预设机主的声纹特征进行更新。
进一步地,处理器1001可以调用存储器1005中存储的变声检测程序,还执行以下操作:
对所述语音伪造判决得分和所述声纹匹配度得分进行加权融合,结果作为所述待测语音数据的伪造匹配度得分;
根据所述伪造匹配度得分以及预设伪造匹配度阈值的大小关系,确定所述待测语音数据是否为人工伪造的变声语音数据。
本实施例通过上述方案,通过在接收到变声检测的检测请求时,获取该检测请求对应的待检测对象信息,并检测该待检测对象是否符合待检测目标对象的预设条件,若符合该待检测目标对象的预设条件,则获取对应的待测语音数据,并检测该待测语音数据是否符合预设变声检测语音条件,若符合该预设变声检测语音条件,则通过预设变声检测模型,获取对应的待测声纹特征信息,以及对应的语音伪造判决结果,基于该待测声纹特征信息及预设声纹特征数据库,检测该预设声纹特征数据库是否为最新已更新状态,若该预设声纹特征数据库为最新已更新状态,则确定该待测声纹特征信息在该最新已更新状态的预设声纹特征数据库中对应的预设声纹特征信息,并计算该待测声纹特征信息与该对应的预设声纹特征信息之间的匹配度,基于该声纹匹配度及该语音伪造判决结果,确定该待测语音数据是否为人工伪造的人工伪造语音数据,解决了人工伪造语音检测准确度不高的技术问题,实现了对人工伪造语音检测的检测标准的灵活性的提高,从而提高了变声检测的检测准确率,降低了变声检测数据的误差,进而提高了变声检测的准确率。
基于上述硬件结构,提出本发明变声检测方法实施例。
参照图2,图2为本发明变声检测方法第一实施例的流程示意图。
在第一实施例中,所述变声检测方法包括以下步骤:
步骤S10,在接收到变声检测的检测请求时,获取所述检测请求对应的待检测对象信息,并检测所述待检测对象是否符合待检测目标对象的预设条件,若是,则执行步骤S20;
步骤S20,获取符合所述待检测目标对象的预设条件对应的待测语音数据,并检测所述待测语音数据是否符合预设变声检测语音条件,若是,则执行步骤S30;
步骤S30,通过预设变声检测模型,获取对应的待测声纹特征信息,以及对应的语音伪造判决结果;
本实施例中变声检测方法应用于终端,该终端可以包括电视、电脑等固定终端,也包括手机、平板电脑、掌上电脑等移动终端。为说明方便,本实施例中的终端以移动终端手机进行说明。随着现代语音信号处理技术的发展,基于声纹识别的身份认证方法受到越来越多用户的青睐,但是,在海量数据干扰的情况下,除了不可避免存在的两个相似自然人声的情况,还会出现人工伪造的人工伪造语音,这对声纹识别技术的准确性会产生较严重的影响。目前,对于人工伪造的人工伪造语音的识别,通常通过比较未经人工伪造和经过人工伪造语音的频谱差异,但是,由于人工伪造技术不断更新,且人工伪造对象声音的复杂性,例如,一个人声音的声纹特征是多层面的,包括:与人类的发音机制的解剖学结构有关的声学特征(如频谱、倒频谱、共振峰、基音、反射系数等等)、鼻音、带深呼吸音、沙哑音、笑声等;受社会经济状况、受教育水平、出生地等影响的语义、修辞、发音、言语习惯等;个人特点或受父母影响的韵律、节奏、速度、语调、音量等特征。从利用数学方法可以建模的角度出发,使用的特征包括:声学特征(倒频谱);词法特征(说话人相关的词n-gram,音素n-gram);韵律特征(利用n-gram描述的基音和能量“姿势”),其中,n-gram的简称为CLM,(ChineseLanguageModel,汉语语言模型);语种、方言和口音信息;通道信息(使用何种通道);等等。目前,在比较未经人工伪造和经过人工伪造语音的频谱差异的过程中,存在识别标准单一且不灵活,导致人工伪造语音检测准确度不高的技术问题。因此,迫切需要一种高效、精准的变声检测方案,以满足获取更高语音检测准确度的需求。本实施例中提出一种变声检测方法。
本实施例中,在接收到变声检测的检测请求时,获取该检测请求对应的待检测对象信息,并检测该待检测对象是否符合待检测目标对象的预设条件,应用于终端,该终端安装有预设声纹特征数据库,预设声纹特征数据库包括但不限于预存的待检测目标对象的信息和预设声纹特征信息,通过若符合该待检测目标对象的预设条件,则获取符合该待检测目标对象的预设条件对应的待测语音数据,并检测该待测语音数据是否符合预设变声检测语音条件,其中,需要说明的是,预设变声检测语音条件需要提前在终端中进行设置。其中,待检测目标对象的信息包括但不限于待检测目标对象的名字、性别、年龄、照片、身份证信息等。需要说明的是,每一个待检测目标对象对应一个预设声纹特征信息,且每一个待检测目标对象与对应的预设声纹特征信息,预先关联保存在该预设声纹特征数据库中,该预设声纹特征数据库存储在该终端中。
进一步地,需要说明的是,待检测目标对象通常是指能够发出语音的对象,如说话人等。待检测目标对象与其语音数据之间存在着匹配关系,基于该匹配关系能够识别出与语音数据相匹配的待检测目标对象,进而实现对待检测目标对象的身份识别,以进一步地实现检测该待检测目标对象是否符合待检测目标对象的预设条件,需要说明的是,待检测目标对象的预设条件需要提前在终端中进行设置。
进一步地,在一种实施方式中,检测待检测目标对象是否符合待检测目标对象的预设条件,具体地,基于检测请求对应的待检测目标对象信息,在终端中查询是否存在对应匹配的已预测的待检测目标对象,若存在,则确定该待检测对象符合待检测目标对象的预设条件,则确定待检测对象为待检测目标对象,若不存在,则确定该待检测对象不符合待检测目标对象的预设条件。
本实施例中,通过待检测目标对象的预设条件的设置,筛选掉不符合待检测目标对象条件的用户,提出的在接收到变声检测的检测请求,为后续变声检测提高检测对象的质量,为后续变声检测,提高了检测效率和准确率。
进一步地,在一种实施方式中,获取符合该待检测目标对象的预设条件对应的待测语音数据,并检测该待测语音数据在终端中是否存在对应匹配的待测语音数据库,若存在,则确定待测语音数据符合预设变声检测语音条件,若不存在,则确定待测语音数据不符合预设变声检测语音条件。
本实施例,通过检测待测语音数据是否符合预设变声检测语音条件的设置,是为了筛选掉不符合待测语音数据质量的待测语音数据,从而提高了变声检测的待测语音数据的质量,为后续变声检测,提高了检测效率和准确率。
进一步地,待测语音数据若符合该预设变声检测语音条件,则通过预设变声检测模型,获取符合该预设变声检测语音条件的待测语音数据对应的待测声纹特征信息,以及对应的语音伪造判决结果,其中,预设变声检测模型为已标注有语音生成对象的类别标签及语音是否伪造标签的训练语音数据进行训练得到,同时兼顾了语音生成对象的类别判断以及语音是否伪造的判断,综合来检测待测语音数据,能够有效提高变声检测结果准确性。
在一种实施方式中,需要说明的是,检测结果包括与待测语音数据匹配的待测声纹特征信息,以及语音伪造判决结果,待测声纹特征信息从语音生成对象的类别角度反映了待测语音数据的真实性,语音伪造判决结果从语音是否伪造的角度反映了待测语音数据的真实性。
进一步地,需要说明的是,基于所述待测声纹特征信息及预设声纹特征数据库,检测所述预设声纹特征数据库是否为最新已更新状态
步骤S40,基于所述待测声纹特征信息及预设声纹特征数据库,检测所述预设声纹特征数据库是否为最新已更新状态,若是,则执行步骤S50;
步骤S50,确定所述待测声纹特征信息在所述最新已更新状态的预设声纹特征数据库中对应的预设声纹特征信息,并计算所述待测声纹特征信息与所述对应的预设声纹特征信息之间的匹配度。
本实施例中,基于该待测声纹特征信息及预设声纹特征数据库,检测该预设声纹特征数据库是否为最新已更新状态,以保证预设声纹特征数据库中的预设声纹特征得到及时更新,进而为后续计算该待测声纹特征信息与对应的预设声纹特征信息之间的匹配度,提供更加精准的原始数据,从而提高匹配度,进而实现能够有效提高变声检测结果的准确性。
进一步地,在一种实施方式中,通过基于该声纹匹配度及该语音伪造判决结果,确定该检测请求对应的该待测语音数据是否为人工伪造的人工伪造语音数据。
进一步地,在一种实施方式中,语音伪造判决结果可用于判定待测语音数据是否伪造,或者,可用于判定待测语音数据为伪造或未伪造的可能性。结合该语音伪造判决结果以及该声纹匹配度,共同确定该待测语音数据是否为人工伪造的变声语音数据,能够得到更加准确的检测结果,从而提高了待测语音数据的检测效率以及检测结果的精准度。
步骤S60,基于所述声纹匹配度及所述语音伪造判决结果,确定所述待测语音数据是否为人工伪造的人工伪造语音数据。
本实施例中,基于该声纹匹配度及该语音伪造判决结果,确定该检测请求对应的该待测语音数据是否为人工伪造的人工伪造语音数据,其中,需要说明的是,语音伪造判决结果可用于证明待测语音数据是否伪造,或者证明待测语音数据为伪造或未伪造的可能性,通过该语音伪造判决结果以及该声纹匹配度,共同确定该待测语音数据是否为人工伪造的变声语音数据,能够提高待测语音数据的变声检测准确度。
进一步地,在一种实施方式中,基于该声纹匹配度,检测该声纹匹配度是否达到预设声纹匹配度阈值,若达到预设声纹匹配度阈值,则确定检测请求对应的待测语音数据不是人工伪造的人工伪造语音数据,若未达到预设声纹匹配度阈值,则确定检测请求对应的待测语音数据是人工伪造的人工伪造语音数据,其中,预设声纹匹配度阈值需要提前在终端中进行设置。
进一步地,在一种实施方式中,需要说明的是,预设声纹匹配度阈值可以依据待检查语言数据的语言种类等情况进行适应性调整。
本实施例中,通过在接收到变声检测的检测请求时,获取该检测请求对应的待检测对象信息,并检测该待检测对象是否符合待检测目标对象的预设条件,若符合该待检测目标对象的预设条件,则获取对应的待测语音数据,并检测该待测语音数据是否符合预设变声检测语音条件,若符合该预设变声检测语音条件,则通过预设变声检测模型,获取对应的待测声纹特征信息,以及对应的语音伪造判决结果,基于该待测声纹特征信息及预设声纹特征数据库,检测该预设声纹特征数据库是否为最新已更新状态,若该预设声纹特征数据库为最新已更新状态,则确定该待测声纹特征信息在该最新已更新状态的预设声纹特征数据库中对应的预设声纹特征信息,并计算该待测声纹特征信息与该对应的预设声纹特征信息之间的匹配度,基于该声纹匹配度及该语音伪造判决结果,确定该待测语音数据是否为人工伪造的人工伪造语音数据,实现了对待测语音数据是否为人工伪造的人工伪造语音数据的判断,提高了待测语音数据检测准确度。
进一步地,基于第一实施例,提出本发明变声检测方法第二实施例,所述步骤S10包括:
步骤S101,在接收到变声检测的检测请求时,显示包含文字编辑框的界面;
步骤S102,基于所述界面,获取用户输入的待检测目标对象的身份信息;
步骤S103,基于所述身份信息,判断所述待检测目标对象是否属于预设特殊对象,若是,则执行步骤S104;
步骤S104,检测所述预设特殊对象对应的预设语音数据库的更新周期是否超过预设更新周期,若否,则执行步骤S105;
步骤S105,则确定未超过所述预设更新周期对应的待检测目标对象符合所述待检测目标对象的预设条件。
本实施例中,在接收到变声检测的检测请求时,显示包含文字编辑框的界面,基于该界面,获取用户输入的待检测目标对象的身份信息,基于该身份信息,判断该待检测目标对象是否属于预设特殊对象,若属于该预设特殊对象,则检测该预设特殊对象对应的预设语音数据库的更新周期是否超过预设更新周期,若未超过该预设更新周期,则确定未超过该预设更新周期对应的待检测目标对象符合该待检测目标对象的预设条件,其中,需要说明的是,预设更新周期,需要提前在该终端中进行设置。
进一步地,在一种实施方式中,在接收到变声检测的检测请求时,显示包含文字编辑框的界面,基于该界面,获取用户输入的待检测目标对象的身份信息,其中,待检测目标对象的身份信息包括但不限于待检测目标对象的名字、性别、年龄、国籍、籍贯和身份证号等信息。
进一步地,在一种实施方式中,在接收到变声检测的检测请求时,显示包含文字编辑框的界面,基于该界面,获取用户输入的待检测目标对象的身份信息,基于该身份信息,判断该待检测目标对象是否属于预设特殊对象,若属于该预设特殊对象,则检测该预设特殊对象对应的预设语音数据库的更新周期是否超过预设更新周期,若不属于该预设特殊对象,则确定不需要检测该预设特殊对象对应的预设语音数据库的更新周期是否超过预设更新周期,其中,该预设特殊对象包括但不限于处于变声期的特殊人群或者嗓子处于特殊时期的人群。
进一步地,在一种实施方式中,需要说明的是,一般来说,婴儿从l岁左右开始学会说话,之后随着年龄的增长人的声音会发生变化,并出现一个由童音向成人声音过渡的阶段,即“变声期”,每个个体“变声期”出现的时间不同,大多在12至17岁之间,持续时间为六个月至一年。声带在“变声期”会有很大变化,因此本发明所述的特殊人群包括但不限于处于变声期前后的男孩或女孩。
进一步地,在一种实施方式中,需要说明的是,该预设特殊对象包括但不限于嗓子处于特殊时期的人群。其中,嗓子处于特殊时期,是指处于特殊身体状况时期的人群,例如,感冒时期嗓子嘶哑等。
进一步地,在一种实施方式中,基于该身份信息,判断该待检测目标对象是否属于预设特殊对象,具体地,基于用户通过该界面的文字编辑框输入的身份信息,在终端中查询是否存在对应匹配的预设身份信息,若存在对应匹配的预设身份信息,则检测对应匹配的预设身份信息对应的目标对象是否存在预设特殊对象的预设标签,若存在该预设特殊对象的预设标签,则确定待检测目标对象属于预设特殊对象,若不存在该预设特殊对象的预设标签,则确定待检测目标对象不属于预设特殊对象,需要说明的是,预设特殊对象的预设标签,是在终端中对预设特殊对象与非预设特殊对象区分的标记,关联保存在终端中。
进一步地,在一种实施方式中,若属于预设特殊对象,则检测该预设特殊对象对应的预设语音数据库的更新周期是否超过预设更新周期,若未超过该预设更新周期,则确定未超过该预设更新周期对应的待检测目标对象符合该待检测目标对象的预设条件,其中,预设更新周期可以依据不同用户的具体情况而具体确定,需要说明的是,预设更新周期需要在终端中进行提前设置。
本实施例中,通过在接收到变声检测的检测请求时,显示包含文字编辑框的界面,基于该界面,获取用户输入的待检测目标对象的身份信息,基于该身份信息,判断该待检测目标对象是否属于预设特殊对象,若属于该预设特殊对象,则检测该预设特殊对象对应的预设语音数据库的更新周期是否超过预设更新周期,若未超过所述预设更新周期,则确定未超过该预设更新周期对应的待检测目标对象符合该待检测目标对象的预设条件,从而实现对待检测对象的筛选,为后续对待检测对象的待测语音数据的检测,提供了更高质量的检测原始数据,从而提高了变声检测的精确度。
进一步地,基于第一实施例,提出本发明变声检测方法第三实施例,所述步骤S20包括:
步骤S201,若符合所述待检测目标对象的预设条件,则启动所述录音设备;
步骤S202,获取用户基于所述录音设备输入的待测语音数据,并确定所述待测语音数据的语种信息,基于所述待测语音数据的语种信息在所述预设语音数据库中检测是否存在对应的预设语种语音数据库;
步骤S203,若存在对应的预设语种语音数据库,则基于所述录音设备输入的待测语音数据,检测所述录音设备输入的待测语音数据的语音清晰度是否达到预设语音清晰度阈值,所述录音设备输入的待测语音数据的语音长度是否达到预设语音长度阈值,所述录音设备输入的待测语音数据的语音音量是否达到预设语音音量阈值。
本实施例中,通过若符合该待检测目标对象的预设条件,则启动该录音设备,获取用户基于该录音设备输入的待测语音数据,并确定该待测语音数据的语种信息,基于该待测语音数据的语种信息在该预设语音数据库中检测是否存在对应的预设语种语音数据库,若存在对应的预设语种语音数据库,则基于该录音设备输入的待测语音数据,检测该录音设备输入的待测语音数据的语音清晰度是否达到预设语音清晰度阈值,该录音设备输入的待测语音数据的语音长度是否达到预设语音长度阈值,该录音设备输入的待测语音数据的语音音量是否达到预设语音音量阈值,其中,需要说明的是,预设语音清晰度阈值、预设语音长度阈值、预设语音音量阈值等需要提前在终端中进行设置。
进一步地,在一种实施方式中,若该录音设备输入的待检测语音对象达到预设语音清晰度阈值,该录音设备输入的语音长度达到预设语音长度阈值,该录音设备输入的语音音量达到预设语音音量阈值,则确定该待检测语音对象符合预设变声检测条件,若该录音设备输入的待检测语音对象是否达到预设语音清晰度阈值,该录音设备输入的语音长度是否达到预设语音长度阈值,该录音设备输入的语音音量是否达到预设语音音量阈值中,存在任一一项未达到对应的预设阈值,则确定该待检测语音对象不符合预设变声检测条件。
进一步地,在一种实施方式中,待检测对象符合该待检测目标对象的预设条件,则启动该录音设备,获取用户基于该录音设备输入的待测语音数据,其中,该录音设备包括但不限于录音话筒等。
进一步地,在一种实施方式中,在检测到用户基于该终端界面触发的语言输入键时,启动对应的录音设备,在预设语音输入时长阈值内获取用户基于该录音设备输入的待测语音数据,其中,需要说明的是,对待测语音数据的获取可以设置预设语音输入时长阈值,在预设语音输入时长阈值内,若未检测到用户基于该录音设备输入的待测语音数据时,输出未检测到用户输入的待检测语音数据的提示信息,以提醒用户是否重新输入或者其他操作。
进一步地,在一种实施方式中,在检测到获取待测语音数据的请求时,基于该请求,通过云数据传输方式,从预设云盘中获取对应的待测语音数据。
进一步地,在一种实施方式中,在接收到预设语音清晰度阈值、预设语音长度阈值、预设语音音量阈值的设置指令时,获取预设语音清晰度阈值、预设语音长度阈值、预设语音音量阈值的信息,并将预设语音清晰度阈值、预设语音长度阈值、预设语音音量阈值关联保存至终端中,需要说明的是,预设语音清晰度阈值、预设语音长度阈值、预设语音音量阈值的具体内容要求,可以依据不同用户不同场景进行调整设置,本发明中预设语音清晰度阈值、预设语音长度阈值、预设语音音量阈值的具体内容不受本实施例的限制。
本实施例中,通过若符合该待检测目标对象的预设条件,则启动该录音设备,获取用户基于该录音设备输入的待测语音数据,并确定该待测语音数据的语种信息,基于该待测语音数据的语种信息在该预设语音数据库中检测是否存在对应的预设语种语音数据库,若存在对应的预设语种语音数据库,则基于该录音设备输入的待测语音数据,检测该录音设备输入的待测语音数据的语音清晰度是否达到预设语音清晰度阈值,该录音设备输入的待测语音数据的语音长度是否达到预设语音长度阈值,该录音设备输入的待测语音数据的语音音量是否达到预设语音音量阈值,从而实现对待测语音数据的获取,并对待测语音数据进行筛选,为后续对待测语音数据的变声检测提供了质量更优的原始语音数据,从而提高了变声检测的准确度。
进一步地,基于第一实施例,提出本发明变声检测方法第四实施例,所述步骤S30包括:
步骤S301,若符合所述预设变声检测语音条件,则将所述待测语音数据输入预设变声检测模型;
步骤S302,获取所述预设变声检测模型的公共隐藏层输出的特征向量,并根据所述特征向量确定与所述待测语音数据匹配的待测声纹特征信息;
步骤S303,获取所述预设变声检测模型的第二输出通道输出的语音是否伪造结果,并根据所述待测语音数据是否伪造结果确定语音伪造判决结果。
本实施例中,通过若待测语音数据符合该预设变声检测语音条件,则将该待测语音数据输入预设变声检测模型,获取该预设变声检测模型的公共隐藏层输出的特征向量,并根据该特征向量确定与该待测语音数据匹配的待测声纹特征信息,获取该预设变声检测模型的第二输出通道输出的语音是否伪造结果,并根据该待测语音数据是否伪造结果确定语音伪造判决结果,其中,需要说明的是,预设变声检测模型,需要提前在终端中进行设置。
进一步地,在一种实施方式中,需要说明的是,变声检测模型为以标注有语音生成对象的类别标签及语音是否伪造标签的训练语音数据进行训练得到。利用该变声检测模型对待测语音数据进行检测,则需要将待测语音数据输入到变声检测模型中。变声检测模型通常包括输入层、隐藏层及输出层,将所述待测语音数据输入预设变声检测模型,具体可以是将该待测语音数据输入预设变声检测模型的输入层。
进一步地,在一种实施方式中,该预设变声检测模型可以包括两个输出通道,第一输出通道输出语音生成对象的类别标签,第二输出通道输出语音是否伪造结果,该变声检测模型的最后一个隐藏层作为两个输出通道的公共隐藏层。变声检测模型可以通过多任务训练方式进行训练,也即其两个输出通道分别为两个训练任务,通过两个任务共同训练,得到同时满足两个任务要求的变声检测模型,在将该待测语音数据输入预设变声检测模型后,变声检测模型的公共隐藏层会输出相应的特征向量,根据该特征向量能够确定出与该待测语音数据匹配的待测声纹特征信息。
进一步地,在一种实施方式中,在变声检测模型的公共隐藏层输出相应的特征向量的同时,还会在第二输出通道输出与待测语音数据匹配的语音是否伪造结果,根据与待测语音数据匹配的语音是否伪造结果,能够确定出与待测语音数据匹配的语音伪造判决结果。
进一步地,在一种实施方式中,待测语音数据输入预设变声检测模型,具体地,通过对待测语音数据进行切分处理,得到若干个待测语音片段,将每一该待测语音片段输入预设变声检测模型,获取该变声检测模型的公共隐藏层输出的每一该待测语音片段匹配的特征向量,根据各待测语音片段匹配的特征向量,确定该待测语音数据匹配的待测声纹特征信息。例如,将所述待测语音数据切分为M个待测语音片段,M>1,变声检测模型为卷积神经网络模型,则将待测语音数据进行傅里叶变换,得到变换后的傅里叶特征,对该变换后的傅里叶特征进行分窗,得到若干语谱图片段,作为待测语音片段,例如,变换后的傅里叶特征的维度记为d,按照窗长l对变换后的傅里叶特征进行分窗,得到M个待测语音片段,每个待测语音片段的尺寸为l×d。
进一步地,在一种实施方式中,若变声检测模型为深度神经网络模型或长短期记忆模型时,对该待测语音数据进行傅里叶变换,得到变换后的傅里叶特征,对该变换后的傅里叶特征进行分帧,得到若干语音片段帧,作为待测语音片段。
进一步地,在一种实施方式中,在将每一该待测语音片段输入预设变声检测模型后,变声检测模型的公共隐藏层会输出分别与每一该待测语音片段相匹配的特征向量hi,i∈[1,M]。
进一步地,在一种实施方式中,由于该待测语音数据由各该待测语音片段组成,将各待测语音片段匹配的特征向量hi,必然与该待测语音数据相匹配,进而,根据根据各所述待测语音片段匹配的特征向量,能够确定该待测语音数据匹配的待测声纹特征信息(c-vector)。
进一步地,在一种实施方式中,利用以下公式计算该待测语音数据匹配的待测声纹特征信息(c-vector):
其中,i为待测语音片段的标号,N为待测语音数据中待测语音片段的个数,hi为第i个待测语音片段匹配的特征向量,c为待测语音数据匹配的待测声纹特征信息(c-vector),需要说明的是,变声检测模型的公共隐藏层在输出各该待测语音匹配的特征向量hi的同时,还会在第二输出通道输出与各该待测语音片段对应的语音是否伪造结果。
本实施例中,通过若待测语音数据符合该预设变声检测语音条件,则将该待测语音数据输入预设变声检测模型,获取该预设变声检测模型的公共隐藏层输出的特征向量,并根据该特征向量确定与该待测语音数据匹配的待测声纹特征信息,获取该预设变声检测模型的第二输出通道输出的语音是否伪造结果,并根据该待测语音数据是否伪造结果确定语音伪造判决结果,实现了对待测语音数据的定量检测,不仅提高了检测效率,而且进一步提高了检测结果的精准度。
进一步地,基于第一实施例,提出本发明变声检测方法第五实施例,所述步骤S40包括:
步骤S401,基于所述待测声纹特征信息的获取时间及预设声纹特征数据库的最近一次更新时间,计算得到所述待测声纹特征信息的获取时间与所述预设声纹特征数据库的最近一次更新时间的时间差,并判断所述时间差是否大于预设时间差阈值;
步骤S402,若大于或等于所述预设时间差阈值,则确定所述预设声纹特征数据库不是最新已更新状态;
步骤S403,若小于所述预设时间差阈值,则确定所述预设声纹特征数据库为最新已更新状态。
本实施例中,通过基于该待测声纹特征信息的获取时间及预设声纹特征数据库的最近一次更新时间,计算得到该待测声纹特征信息的获取时间与该预设声纹特征数据库的最近一次更新时间的时间差,并判断该时间差是否大于预设时间差阈值,若大于或等于该预设时间差阈值,则确定该预设声纹特征数据库不是最新已更新状态,若小于该预设时间差阈值,则确定该预设声纹特征数据库为最新已更新状态,其中,需要说明的是,预设时间差阈值需要提前在终端中进行设置。
进一步地,在一种实施方式中,基于该待测声纹特征信息的获取时间及预设声纹特征数据库的最近一次更新时间,计算得到该待测声纹特征信息的获取时间与该预设声纹特征数据库的最近一次更新时间的时间差,并判断该时间差是否大于预设时间差阈值,其中,预设时间差阈值,可以根据不同用户个人的身体情况及环境因素等进行具体设置,也可以根据检测准确率记录进行具体调整,本发明对预设时间差阈值的设置不受本实施例的限制。
进一步地,在一种实施方式中,例如,用户通过终端完成一定的操作时,终端需要从用户发出的语音中提取声纹特征,并将该声纹特征与本终端中保存的机主的声纹特征进行匹配,只有在二者匹配时,终端才会执行相应的操作。若终端获取到的当前用户的声纹特征与在终端中保存的匹配对应声纹特征的存入时间过长,加大当前用户的声纹特征在终端中保存的匹配对应声纹特征之间匹配不稳定性,降低变声检测的准确度,因此,在获取到的当前用户的声纹特征与在终端中保存的匹配对应声纹特征进行匹配前,对在终端中保存的匹配对应声纹特征的更新状况进行检测,可以及时更新在终端中保存的匹配对应声纹特征,从而提高声纹特征匹配的准确度。
进一步地,在一种实施方式中,若待测声纹特征信息的获取时间与该预设声纹特征数据库的最近一次更新时间的时间差大于或等于该预设时间差阈值,则确定该预设声纹特征数据库不是最新已更新状态,则需要对终端中保存的声纹特征进行更新,在一种实施方式中,在终端界面显示该预设声纹特征数据库不是最新已更新状态的提示信息,以提醒用户是否进行更新,若用户需要更新,则启动录音设备输入对应最新的声纹特征。
进一步地,基于第一实施例,提出本发明变声检测方法第六实施例,所述步骤S40之后,还包括:
步骤S70,若确定所述预设声纹特征数据库不是最新已更新状态,则获取所述终端中的录音设备被开启的历史记录;
步骤S80,根据所述历史记录,从所述预设用户处获取语音信息;
步骤S90,从所述语音信息中提取目标声纹特征;
步骤S100,根据所述目标声纹特征,对所述终端中保存的所述预设用户的声纹特征进行更新。
本实施例中,若确定该预设声纹特征数据库不是最新已更新状态,则获取所述终端中的录音设备被开启的历史记录,根据该历史记录,从该预设用户处获取语音信息,从该语音信息中提取目标声纹特征,根据该目标声纹特征,对该终端中保存的该预设机主的声纹特征进行更新,其中,录音设备被开启的历史记录与预设用户在录音设备中进行关联保存,其中,预设用户为终端的已保存有声纹特征的待检测对象的预设用户。
进一步地,在一种实施方式中,在检测到需要对终端中保存的声纹特征进行更新时,终端可以根据录音设备被开启的历史记录来获取预存用户的语音信息,从该语音信息的历史记录中提取目标声纹特征,并根据该目标声纹特征对终端中预存用户用户的声纹特征进行更新,从而提高终端在对声纹特征进行更新时的灵活性。
进一步地,在一种实施方式中,例如,当待检测用户咽喉发炎时,待检测用户的声纹特征会发生变化。
本实施例中,通过对终端中保存的声纹特征进行更新,可以提高终端在利用声纹特征进行声纹识别时的准确度,避免因终端中保存的声纹特征过于老旧而引起用户操作不便。
进一步地,基于第一实施例,提出本发明变声检测方法第七实施例,所述步骤S50包括:
步骤S501,若确定所述预设声纹特征数据库为最新已更新状态,则确定所述待测声纹特征信息在所述最新已更新状态的预设声纹特征数据库中对应的预设声纹特征信息;
步骤S502,基于预设声纹特征信息及最小哈希算法,计算所述待测声纹特征信息与所述最新已更新状态的预设声纹特征数据库中预设声纹特征信息之间的匹配度。
本实施例中,若确定该预设声纹特征数据库为最新已更新状态,则确定该待测声纹特征信息在该最新已更新状态的预设声纹特征数据库中对应的预设声纹特征信息,基于预设声纹特征信息及最小哈希算法,计算该待测声纹特征信息与该最新已更新状态的预设声纹特征数据库中预设声纹特征信息之间的匹配度,其中,需要说明的是,最小哈希算法需要预先在终端中进行设置。
进一步地,在一种实施方式中,通过声纹模型训练后得到的声纹特征信息集合T=[T1,T2……TN],集合中每项元素为一个声纹特征信息,例如,T1为倒频谱,T2为共振峰等,存储的一个声纹特征信息集合Si=[Si1,Si2,……SiM],其中,i表示存储的不同的声纹特征信息的标识,当存储的声纹特征信息包括多个时,记为S1、S2、……、Si,需要分别计算T与S1之间的匹配度、T与S2之间的匹配度、……、T与Si之间的匹配度。通常,集合中包括的元素个数是相同的,得到的声纹特征信息的参数是相同的。
进一步地,计算两个集合之间的匹配度,通常需要遍历这两个集合中的所有元素,统计这两个集合中相同元素的个数,来表示集合的匹配度。通常使用的计算匹配度的方式包括欧式距离、余弦匹配度等方式,但是,当两个集合中的元素数量非常大时,同时又有很多集合需要分别判断两两之间的匹配度时,采用欧式距离、余弦匹配度计算匹配度将十分耗时,计算效率低,本实施例中,采用最小哈希算法计算该声纹特征信息与预警声纹特征信息之间的匹配度,T=[T1,T2……TN]与Si=[Si1,Si2,……SiM]匹配度计算的公式为:
其中,J(T,Si)∈[0,1],i表示存储的预警声纹特征信息的个数,J(T,Si)匹配度系数值越大,两个集合之间的匹配度越高,采用最小哈希算法计算声纹特征信息与预警声纹特征信息之间的匹配度,可以提高计算匹配度的效率。
本实施例中,通过若确定该预设声纹特征数据库为最新已更新状态,则确定该待测声纹特征信息在该最新已更新状态的预设声纹特征数据库中对应的预设声纹特征信息,基于预设声纹特征信息及最小哈希算法,计算该待测声纹特征信息与该最新已更新状态的预设声纹特征数据库中预设声纹特征信息之间的匹配度,从而实现了对该待测声纹特征信息与预设声纹特征信息之间的匹配度的确定。
进一步地,基于第一实施例,提出本发明变声检测方法第八实施例,所述步骤S60包括:
步骤S601,对所述语音伪造判决得分和所述声纹匹配度得分进行加权融合,结果作为所述待测语音数据的伪造匹配度得分;
步骤S602,根据所述伪造匹配度得分以及预设伪造匹配度阈值的大小关系,确定所述待测语音数据是否为人工伪造的变声语音数据。
本实施例中,对该语音伪造判决得分和该声纹匹配度得分进行加权融合,结果作为该待测语音数据的伪造匹配度得分,根据该伪造匹配度得分以及预设伪造匹配度阈值的大小关系,确定该待测语音数据是否为人工伪造的变声语音数据,其中,预设伪造匹配度阈值需要提前在终端中进行设置。
进一步地,在一种实施方式中,对该语音伪造判决得分和该声纹匹配度得分进行加权融合,结果作为该待测语音数据的伪造匹配度得分,根据该伪造匹配度得分以及预设伪造匹配度阈值的大小关系,确定该待测语音数据是否为人工伪造的变声语音数据,其中,加权融合的方式可以是加权相加,或者是加权相乘等,具体地,以加权相加为例,利用以下公式计算该待测语音数据的伪造相似度得分:
S=k·S1+(1-k)·S2
其中,S1为语音伪造判决得分,S2为声纹相似度得分,S为伪造相似度得分,k为权系数,k∈[0,1]。
可选的,当k=0时,S=S2,即,将声纹相似度得分作为该待测语音数据的伪造相似度得分;当k=1时,S=S1,即,将语音伪造判决得分作为该待测语音数据的伪造相似度得分,根据该伪造相似度得分以及预设伪造相似度阈值的大小关系,确定该待测语音数据是否为人工伪造的变声语音数据。其中,伪造相似度阈值可以通过经验设定,如选取若干已知是否为人工伪造的语音数据组成一个集合,对集合中各语音数据通过上述流程得到对应的伪造相似度得分,进而由人工依据经验来根据各语音数据的伪造相似度得分,以及其人工伪造与否结果,来设置伪造相似度阈值。
进一步地,在一种实施方式中,当该伪造相似度得分大于预设伪造相似度阈值时,确定该待测语音数据不是人工伪造的变声语音数据,可通过目标对象的身份认证,当该伪造相似度得分不大于预设伪造相似度阈值时,确定该待测语音数据为人工伪造的变声语音数据,不能通过目标对象的身份认证。
进一步地,在一种实施方式中,预设伪造匹配度阈值可以依据不同场景和用户进行调节设置。
本实施例中,对该语音伪造判决得分和该声纹匹配度得分进行加权融合,结果作为该待测语音数据的伪造匹配度得分,根据该伪造匹配度得分以及预设伪造匹配度阈值的大小关系,确定该待测语音数据是否为人工伪造的变声语音数据,从而进一步通过准确的数据结果实现了对待测语音数据的定量检测,提高了检测结果的精准度。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有变声检测程序,所述变声检测程序可被一个或者一个以上的处理器执行以用于:
在接收到变声检测的检测请求时,获取所述检测请求对应的待检测对象信息,并检测所述待检测对象是否符合待检测目标对象的预设条件;
若符合所述待检测目标对象的预设条件,则获取对应的待测语音数据,并检测所述待测语音数据是否符合预设变声检测语音条件;
若符合所述预设变声检测语音条件,则通过预设变声检测模型,获取对应的待测声纹特征信息,以及对应的语音伪造判决结果;
基于所述待测声纹特征信息及预设声纹特征数据库,检测所述预设声纹特征数据库是否为最新已更新状态;
若所述预设声纹特征数据库为最新已更新状态,则确定所述待测声纹特征信息在所述最新已更新状态的预设声纹特征数据库中对应的预设声纹特征信息,并计算所述待测声纹特征信息与所述对应的预设声纹特征信息之间的匹配度;
基于所述声纹匹配度及所述语音伪造判决结果,确定所述待测语音数据是否为人工伪造的人工伪造语音数据。
进一步地,所述变声检测程序被处理器执行时还实现如下操作:
在接收到变声检测的检测请求时,显示包含文字编辑框的界面;
基于所述界面,获取用户输入的待检测目标对象的身份信息;
基于所述身份信息,判断所述待检测目标对象是否属于预设特殊对象;
若属于所述预设特殊对象,则检测所述预设特殊对象对应的预设语音数据库的更新周期是否超过预设更新周期;
若未超过所述预设更新周期,则确定未超过所述预设更新周期对应的待检测目标对象符合所述待检测目标对象的预设条件。
进一步地,所述变声检测程序被处理器执行时还实现如下操作:
若符合所述待检测目标对象的预设条件,则启动所述录音设备;
获取用户基于所述录音设备输入的待测语音数据,并确定所述待测语音数据的语种信息,基于所述待测语音数据的语种信息在所述预设语音数据库中检测是否存在对应的预设语种语音数据库;
若存在对应的预设语种语音数据库,则基于所述录音设备输入的待测语音数据,检测所述录音设备输入的待测语音数据的语音清晰度是否达到预设语音清晰度阈值,所述录音设备输入的待测语音数据的语音长度是否达到预设语音长度阈值,所述录音设备输入的待测语音数据的语音音量是否达到预设语音音量阈值。
进一步地,所述变声检测程序被处理器执行时还实现如下操作:
若符合所述预设变声检测语音条件,则将所述待测语音数据输入预设变声检测模型;
获取所述预设变声检测模型的公共隐藏层输出的特征向量,并根据所述特征向量确定与所述待测语音数据匹配的待测声纹特征信息;
获取所述预设变声检测模型的第二输出通道输出的语音是否伪造结果,并根据所述待测语音数据是否伪造结果确定语音伪造判决结果。
进一步地,所述变声检测程序被处理器执行时还实现如下操作:
基于所述待测声纹特征信息的获取时间及预设声纹特征数据库的最近一次更新时间,计算得到所述待测声纹特征信息的获取时间与所述预设声纹特征数据库的最近一次更新时间的时间差,并判断所述时间差是否大于预设时间差阈值;
若大于或等于所述预设时间差阈值,则确定所述预设声纹特征数据库不是最新已更新状态;
若小于所述预设时间差阈值,则确定所述预设声纹特征数据库为最新已更新状态。
进一步地,所述变声检测程序被处理器执行时还实现如下操作:
若确定所述预设声纹特征数据库为最新已更新状态,则确定所述待测声纹特征信息在所述最新已更新状态的预设声纹特征数据库中对应的预设声纹特征信息;
基于预设声纹特征信息及最小哈希算法,计算所述待测声纹特征信息与所述最新已更新状态的预设声纹特征数据库中预设声纹特征信息之间的匹配度。
进一步地,所述变声检测程序被处理器执行时还实现如下操作:
若确定所述预设声纹特征数据库不是最新已更新状态,则获取所述终端中的录音设备被开启的历史记录;
根据所述历史记录,从所述预设用户处获取语音信息;
从所述语音信息中提取目标声纹特征;
根据所述目标声纹特征,对所述终端中保存的所述预设机主的声纹特征进行更新。
进一步地,所述变声检测程序被处理器执行时还实现如下操作:
对所述语音伪造判决得分和所述声纹匹配度得分进行加权融合,结果作为所述待测语音数据的伪造匹配度得分;
根据所述伪造匹配度得分以及预设伪造匹配度阈值的大小关系,确定所述待测语音数据是否为人工伪造的变声语音数据。
本发明计算机可读存储介质具体实施方式与上述变声检测方法各实施例基本相同,在此不再赘述。
本实施例通过上述方案,通过在接收到变声检测的检测请求时,获取该检测请求对应的待检测对象信息,并检测该待检测对象是否符合待检测目标对象的预设条件,若符合该待检测目标对象的预设条件,则获取对应的待测语音数据,并检测该待测语音数据是否符合预设变声检测语音条件,若符合该预设变声检测语音条件,则通过预设变声检测模型,获取对应的待测声纹特征信息,以及对应的语音伪造判决结果,基于该待测声纹特征信息及预设声纹特征数据库,检测该预设声纹特征数据库是否为最新已更新状态,若该预设声纹特征数据库为最新已更新状态,则确定该待测声纹特征信息在该最新已更新状态的预设声纹特征数据库中对应的预设声纹特征信息,并计算该待测声纹特征信息与该对应的预设声纹特征信息之间的匹配度,基于该声纹匹配度及该语音伪造判决结果,确定该待测语音数据是否为人工伪造的人工伪造语音数据,解决了人工伪造语音检测准确度不高的技术问题,实现了对人工伪造语音检测的检测标准的灵活性的提高,从而提高了变声检测的检测准确率,降低了变声检测数据的误差,进而提高了变声检测的准确率。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种变声检测方法,其特征在于,应用于终端,所述变声检测方法包括以下步骤:
在接收到变声检测的检测请求时,获取所述检测请求对应的待检测对象信息,并检测所述待检测对象是否符合待检测目标对象的预设条件;
若符合所述待检测目标对象的预设条件,则获取对应的待测语音数据,并检测所述待测语音数据是否符合预设变声检测语音条件;
若符合所述预设变声检测语音条件,则通过预设变声检测模型,获取对应的待测声纹特征信息,以及对应的语音伪造判决结果;
基于所述待测声纹特征信息及预设声纹特征数据库,检测所述预设声纹特征数据库是否为最新已更新状态;
若所述预设声纹特征数据库为最新已更新状态,则确定所述待测声纹特征信息在所述最新已更新状态的预设声纹特征数据库中对应的预设声纹特征信息,并计算所述待测声纹特征信息与所述对应的预设声纹特征信息之间的匹配度;
基于所述声纹匹配度及所述语音伪造判决结果,确定所述待测语音数据是否为人工伪造的人工伪造语音数据。
2.如权利要求1所述的变声检测方法,其特征在于,所述在接收到变声检测的检测请求时,获取所述检测请求对应的待检测对象信息,并检测所述待检测对象是否符合待检测目标对象的预设条件的步骤包括:
在接收到变声检测的检测请求时,显示包含文字编辑框的界面;
基于所述界面,获取用户输入的待检测目标对象的身份信息;
基于所述身份信息,判断所述待检测目标对象是否属于预设特殊对象;
若属于所述预设特殊对象,则检测所述预设特殊对象对应的预设语音数据库的更新周期是否超过预设更新周期;
若未超过所述预设更新周期,则确定未超过所述预设更新周期对应的待检测目标对象符合所述待检测目标对象的预设条件。
3.如权利要求1所述的变声检测方法,其特征在于,所述终端包括所述录音设备,所述若符合所述待检测目标对象的预设条件,则获取对应的待测语音数据,并检测所述待测语音数据是否符合预设变声检测语音条件的步骤包括:
若符合所述待检测目标对象的预设条件,则启动所述录音设备;
获取用户基于所述录音设备输入的待测语音数据,并确定所述待测语音数据的语种信息,基于所述待测语音数据的语种信息在所述预设语音数据库中检测是否存在对应的预设语种语音数据库;
若存在对应的预设语种语音数据库,则基于所述录音设备输入的待测语音数据,检测所述录音设备输入的待测语音数据的语音清晰度是否达到预设语音清晰度阈值,所述录音设备输入的待测语音数据的语音长度是否达到预设语音长度阈值,所述录音设备输入的待测语音数据的语音音量是否达到预设语音音量阈值。
4.如权利要求1所述的变声检测方法,其特征在于,所述预设变声检测模型为以标注有语音生成对象的类别标签及语音是否伪造标签的训练语音数据进行训练得到,所述预设变声检测模型包括两个输出通道,第一输出通道输出语音生成对象的类别标签,第二输出通道输出语音是否伪造结果,所述预设变声检测模型的最后一个隐藏层作为两个输出通道的公共隐藏层,所述若符合所述预设变声检测语音条件,则通过预设变声检测模型,获取对应的待测声纹特征信息,以及对应的语音伪造判决结果的步骤包括:
若符合所述预设变声检测语音条件,则将所述待测语音数据输入预设变声检测模型;
获取所述预设变声检测模型的公共隐藏层输出的特征向量,并根据所述特征向量确定与所述待测语音数据匹配的待测声纹特征信息;
获取所述预设变声检测模型的第二输出通道输出的语音是否伪造结果,并根据所述待测语音数据是否伪造结果确定语音伪造判决结果。
5.如权利要求1所述的变声检测方法,其特征在于,所述基于所述待测声纹特征信息及预设声纹特征数据库,检测所述预设声纹特征数据库是否为最新已更新状态的步骤包括:
基于所述待测声纹特征信息的获取时间及预设声纹特征数据库的最近一次更新时间,计算得到所述待测声纹特征信息的获取时间与所述预设声纹特征数据库的最近一次更新时间的时间差,并判断所述时间差是否大于预设时间差阈值;
若大于或等于所述预设时间差阈值,则确定所述预设声纹特征数据库不是最新已更新状态;
若小于所述预设时间差阈值,则确定所述预设声纹特征数据库为最新已更新状态。
6.如权利要求1所述的变声检测方法,其特征在于,所述若所述预设声纹特征数据库为最新已更新状态,则确定所述待测声纹特征信息在所述最新已更新状态的预设声纹特征数据库中对应的预设声纹特征信息,并计算所述待测声纹特征信息与所述对应的预设声纹特征信息之间的匹配度的步骤包括:
若确定所述预设声纹特征数据库为最新已更新状态,则确定所述待测声纹特征信息在所述最新已更新状态的预设声纹特征数据库中对应的预设声纹特征信息;
基于预设声纹特征信息及最小哈希算法,计算所述待测声纹特征信息与所述最新已更新状态的预设声纹特征数据库中预设声纹特征信息之间的匹配度。
7.如权利要求1所述的变声检测方法,其特征在于,所述基于所述待测声纹特征信息及预设声纹特征数据库,检测所述预设声纹特征数据库是否为最新已更新状态的步骤之后,还包括:
若确定所述预设声纹特征数据库不是最新已更新状态,则获取所述终端中的录音设备被开启的历史记录;
根据所述历史记录,从所述预设用户处获取语音信息;
从所述语音信息中提取目标声纹特征;
根据所述目标声纹特征,对所述终端中保存的所述预设机主的声纹特征进行更新。
8.如权利要求1-7中任一所述的变声检测方法,其特征在于,所述语音伪造判决结果为语音伪造判决得分,语音伪造判决得分越低表示语音数据为人工伪造的可能性越大;所述声纹匹配度为声纹匹配度得分,所述基于所述声纹匹配度及所述语音伪造判决结果,确定所述待测语音数据是否为人工伪造的人工伪造语音数据的步骤包括:
对所述语音伪造判决得分和所述声纹匹配度得分进行加权融合,结果作为所述待测语音数据的伪造匹配度得分;
根据所述伪造匹配度得分以及预设伪造匹配度阈值的大小关系,确定所述待测语音数据是否为人工伪造的变声语音数据。
9.一种终端,其特征在于,所述终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的变声检测程序,所述变声检测程序被所述处理器执行时实现如权利要求1-8中任一项所述的变声检测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有变声检测程序,所述变声检测程序被处理器执行时实现如权利要求1-8中任一项所述的变声检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910777108.4A CN110459242A (zh) | 2019-08-21 | 2019-08-21 | 变声检测方法、终端及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910777108.4A CN110459242A (zh) | 2019-08-21 | 2019-08-21 | 变声检测方法、终端及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110459242A true CN110459242A (zh) | 2019-11-15 |
Family
ID=68488491
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910777108.4A Pending CN110459242A (zh) | 2019-08-21 | 2019-08-21 | 变声检测方法、终端及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110459242A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111248861A (zh) * | 2020-01-16 | 2020-06-09 | 广州国音智能科技有限公司 | 一种提高声纹采集精度的方法、装置和设备 |
CN111739547A (zh) * | 2020-07-24 | 2020-10-02 | 深圳市声扬科技有限公司 | 语音匹配方法、装置、计算机设备和存储介质 |
CN112330897A (zh) * | 2020-08-19 | 2021-02-05 | 深圳Tcl新技术有限公司 | 用户语音对应性别改变方法、装置、智能门铃及存储介质 |
CN112509586A (zh) * | 2020-12-17 | 2021-03-16 | 中国工商银行股份有限公司 | 电话信道声纹识别方法及装置 |
CN113611314A (zh) * | 2021-08-03 | 2021-11-05 | 成都理工大学 | 一种说话人识别方法及系统 |
CN114113837A (zh) * | 2021-11-15 | 2022-03-01 | 国网辽宁省电力有限公司朝阳供电公司 | 一种基于声学特征的变压器带电检测方法及系统 |
CN114937455A (zh) * | 2022-07-21 | 2022-08-23 | 中国科学院自动化研究所 | 语音检测方法及装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103067460A (zh) * | 2012-12-14 | 2013-04-24 | 厦门天聪智能软件有限公司 | 面向司法社区矫正的生物识别远程身份验证方法 |
CN106558317A (zh) * | 2015-09-24 | 2017-04-05 | 佳能株式会社 | 声音处理装置和声音处理方法 |
CN108198574A (zh) * | 2017-12-29 | 2018-06-22 | 科大讯飞股份有限公司 | 变声检测方法及装置 |
CN108615537A (zh) * | 2018-05-02 | 2018-10-02 | 广州国音科技有限公司 | 一种多信道录音方法、装置及系统 |
CN108847243A (zh) * | 2018-06-19 | 2018-11-20 | Oppo广东移动通信有限公司 | 声纹特征更新方法、装置、存储介质及电子设备 |
-
2019
- 2019-08-21 CN CN201910777108.4A patent/CN110459242A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103067460A (zh) * | 2012-12-14 | 2013-04-24 | 厦门天聪智能软件有限公司 | 面向司法社区矫正的生物识别远程身份验证方法 |
CN106558317A (zh) * | 2015-09-24 | 2017-04-05 | 佳能株式会社 | 声音处理装置和声音处理方法 |
CN108198574A (zh) * | 2017-12-29 | 2018-06-22 | 科大讯飞股份有限公司 | 变声检测方法及装置 |
CN108615537A (zh) * | 2018-05-02 | 2018-10-02 | 广州国音科技有限公司 | 一种多信道录音方法、装置及系统 |
CN108847243A (zh) * | 2018-06-19 | 2018-11-20 | Oppo广东移动通信有限公司 | 声纹特征更新方法、装置、存储介质及电子设备 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111248861A (zh) * | 2020-01-16 | 2020-06-09 | 广州国音智能科技有限公司 | 一种提高声纹采集精度的方法、装置和设备 |
CN111739547A (zh) * | 2020-07-24 | 2020-10-02 | 深圳市声扬科技有限公司 | 语音匹配方法、装置、计算机设备和存储介质 |
CN112330897A (zh) * | 2020-08-19 | 2021-02-05 | 深圳Tcl新技术有限公司 | 用户语音对应性别改变方法、装置、智能门铃及存储介质 |
CN112330897B (zh) * | 2020-08-19 | 2023-07-25 | 深圳Tcl新技术有限公司 | 用户语音对应性别改变方法、装置、智能门铃及存储介质 |
CN112509586A (zh) * | 2020-12-17 | 2021-03-16 | 中国工商银行股份有限公司 | 电话信道声纹识别方法及装置 |
CN113611314A (zh) * | 2021-08-03 | 2021-11-05 | 成都理工大学 | 一种说话人识别方法及系统 |
CN114113837A (zh) * | 2021-11-15 | 2022-03-01 | 国网辽宁省电力有限公司朝阳供电公司 | 一种基于声学特征的变压器带电检测方法及系统 |
CN114113837B (zh) * | 2021-11-15 | 2024-04-30 | 国网辽宁省电力有限公司朝阳供电公司 | 一种基于声学特征的变压器带电检测方法及系统 |
CN114937455A (zh) * | 2022-07-21 | 2022-08-23 | 中国科学院自动化研究所 | 语音检测方法及装置、设备及存储介质 |
CN114937455B (zh) * | 2022-07-21 | 2022-10-11 | 中国科学院自动化研究所 | 语音检测方法及装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110459242A (zh) | 变声检测方法、终端及计算机可读存储介质 | |
US11069335B2 (en) | Speech synthesis using one or more recurrent neural networks | |
US10176811B2 (en) | Neural network-based voiceprint information extraction method and apparatus | |
JP6902010B2 (ja) | 音声評価方法、装置、機器及び読み取り可能な記憶媒体 | |
US9818431B2 (en) | Multi-speaker speech separation | |
CN111326136B (zh) | 语音处理方法、装置、电子设备及存储介质 | |
US20160342389A1 (en) | User interface customization based on speaker characterics | |
CN109151218A (zh) | 通话语音质检方法、装置、计算机设备及存储介质 | |
WO2020043123A1 (zh) | 命名实体识别方法、命名实体识别装置、设备及介质 | |
US9589560B1 (en) | Estimating false rejection rate in a detection system | |
CN110534099A (zh) | 语音唤醒处理方法、装置、存储介质及电子设备 | |
CN110265040A (zh) | 声纹模型的训练方法、装置、存储介质及电子设备 | |
US20030078777A1 (en) | Speech recognition system for mobile Internet/Intranet communication | |
CN111653274B (zh) | 唤醒词识别的方法、装置及存储介质 | |
CN111161713A (zh) | 一种语音性别识别方法、装置及计算设备 | |
CN109448732A (zh) | 一种数字串语音处理方法及装置 | |
CN109947971A (zh) | 图像检索方法、装置、电子设备及存储介质 | |
US20220108680A1 (en) | Text-to-speech using duration prediction | |
CN108538292A (zh) | 一种语音识别方法、装置、设备及可读存储介质 | |
WO2020073839A1 (zh) | 语音唤醒方法、装置、系统及电子设备 | |
CN111833842A (zh) | 合成音模板发现方法、装置以及设备 | |
JP2002082694A (ja) | 先行知識に基づく話者確認および話者識別 | |
CN109064720B (zh) | 位置提示方法、装置、存储介质及电子设备 | |
CN110189750A (zh) | 词语检测系统、词语检测方法以及记录介质 | |
Cao et al. | An English pronunciation error detection system based on improved random forest |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191115 |
|
RJ01 | Rejection of invention patent application after publication |