CN112863523B - 语音防伪方法、装置、终端设备及存储介质 - Google Patents
语音防伪方法、装置、终端设备及存储介质 Download PDFInfo
- Publication number
- CN112863523B CN112863523B CN201911183043.7A CN201911183043A CN112863523B CN 112863523 B CN112863523 B CN 112863523B CN 201911183043 A CN201911183043 A CN 201911183043A CN 112863523 B CN112863523 B CN 112863523B
- Authority
- CN
- China
- Prior art keywords
- voice
- preset
- recognition model
- illegal
- templates
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 77
- 238000004364 calculation method Methods 0.000 claims abstract description 54
- 239000011159 matrix material Substances 0.000 claims description 36
- 238000001228 spectrum Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 abstract description 8
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 15
- 230000008569 process Effects 0.000 description 13
- 238000012795 verification Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 8
- 238000013145 classification model Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Security & Cryptography (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请适用于语音处理技术领域,提供了基于人工智能(Artificial Intelligence,AI)的语音防伪方法、装置、终端设备及存储介质,方法包括:对存储的语音模板进行相似度计算;其中,每一个语音模板是根据预设的语音识别模型每次识别出的非法语音数据生成的;若相似度计算结果满足预设条件,则调整预设的语音识别模型的识别参数或者将当前的语音识别模型切换为其他的语音识别模型。本申请可以降低将合法语音误判为非法语音的概率,提高语音识别的准确度,提升用户体验。
Description
技术领域
本申请属于语音处理技术领域,尤其涉及基于人工智能(ArtificialIntelligence,AI)的语音防伪方法、装置、终端设备及存储介质。
背景技术
近年来,由于移动技术的蓬勃发展,语音识别已经广泛应用在移动终端的语音系统,包括移动银行语音认证、智能手机语音登录、和电子商务语音支付。目前的语音识别系统存在很多伪装攻击,主要是录音重放、语音合成、语音转换和语音模仿,而其中最简单的攻击就是重放攻击。重放攻击是指攻击者使用录音设备偷偷录制用户用于语音识别的语音信号,并通过播放设备播放录制的语音,从而通过声纹识别的验证。高保真录音设备的普及使得用户语音极易被攻击者偷录成功。
现有的语音防伪方法在声纹防伪识别方面取得了一定成就,加强了重放攻击的拦截功能,但是同时忽略了真实语音一定概率上被误判的情况,即用户的合法语音有时被识别为非法语音,无法通过语音验证,大大影响用户的体验。
发明内容
本申请实施例提供了语音防伪方法、装置、终端设备及存储介质,可以解决现有的语音防伪中出现将合法语音识别为非法语音的问题。
第一方面,本申请实施例提供了一种语音防伪方法,包括:
对存储的语音模板进行相似度计算;其中,每一个语音模板是根据预设的语音识别模型每次识别出的非法语音数据生成的;
若相似度计算结果满足预设条件,则调整所述预设的语音识别模型的识别参数或者将当前的语音识别模型切换为其他的语音识别模型。
本申请实施例提供的语音防伪方法,将预设的语音识别模型识别出的非法语音数据生成语音模板并存储,对语音模板进行相似度计算,若相似度计算满足预设条件,调整预设的语音识别模型的识别参数或者将当前的语音识别模型切换为其他的语音识别模型。从而避免由于当前的语音识别模型识别不准确造成的语音识别错误的问题,降低将合法语音误判为非法语音的概率,提高语音识别的准确度,提升用户体验。
在第一方面的一种可能的实现方式中,所述对存储的语音模板进行相似度计算包括:
当所述语音识别模型连续两次识别出非法语音数据时,对存储的两个语音模板进行相似度计算,其中,所述两个语音模板是根据所述连续两次识别出的非法语音数据生成的,每个语音模板对应一个非法语音数据;
相应的,若相似度计算结果满足预设条件,则调整所述语音识别模型的识别参数或者将当前的语音识别模型切换为其他的语音识别模型包括:
若两个语音模板的相似度小于第一阈值,则调整所述语音识别模型的识别参数或者将当前的语音识别模型切换为其他的语音识别模型。
本申请实施例提供的语音防伪方法,在连续两次将语音数据识别为非法语音数据时,对存储的两个语音模板进行相似度计算,若两个语音模板的相似度小于第一阈值,则调整所述语音识别模型的识别参数或者将当前的语音识别模型切换为其他的语音识别模型。由于连续两次将语音数据识别为非法语音数据,说明有可能存在将合法语音识别为非法语音的情况,此时调整识别参数或切换语音识别模型,得到更准确的语音识别模型,从而在下一次语音识别时,降低将合法语音识别为非法语音数据的概率。
在第一方面的一种可能的实现方式中,所述对存储的语音模板进行相似度计算包括:
当达到预设周期时,统计存储的语音模板的数量;
当所述预设周期内的语音模板的数量大于第二阈值和/或所述预设周期内的语音模板的数量在所有输入语音数据的数量中的百分比大于第三阈值时,对存储的语音模板进行两两相似度计算;
相应的,若相似度计算结果满足预设条件,则调整所述语音识别模型的识别参数或者将当前的语音识别模型切换为其他的语音识别模型包括:
若根据每两个语音模板之间的相似度计算出的相似语音模板的数量小于第五阈值和/或所述相似语音模板的数量在所有相似度计算的次数中的百分比小于第四阈值,则调整所述语音识别模型的识别参数或者将当前的语音识别模型切换为其他的语音识别模型。
本申请实施例提供的语音防伪方法,当达到预设周期时,统计存储的语音模板的数量。当所述预设周期内的语音模板的数量达到一定数量时,说明将语音数据识别为非法语音数据的频率较高,对语音模板进行相似度计算。若相似语音模板的数量小于一定数量时,说明语音模板之间的相似度不高,输入的语音数据可能为合法语音数据。调整所述语音识别模型的识别参数或者将当前的语音识别模型切换为其他的语音识别模型,防止一段时间内多次将合法语音数据识别为非法语音数据。
在第一方面的一种可能的实现方式中,所述对存储的语音模板进行相似度计算之前,所述方法还包括:
获取语音数据;
采用所述预设的语音识别模型对所述语音数据进行识别;
若识别结果为非法语音数据,则生成与所述非法语音数据对应的语音模板,并存储所述语音模板。
由于语音模板是对语音数据进行特征提取后得到的,计算语音模板之间的相似度,语音模板之间的相似度可以准确反映出语音数据是否是重放语音。
在第一方面的一种可能的实现方式中,所述生成与所述非法语音数据对应的语音模板,包括:
将所述非法语音数据对应的语音信号转换为语音频谱;
生成与所述语音频谱对应的二维矩阵,所述二维矩阵中的元素表示预设帧的语音在预设频带的能量;
根据所述二维矩阵生成所述语音模板。相对于通过语音频谱计算语音数据之间的相似度,通过二维矩阵计算语音数据之间的相似度可以提高计算速度。
在第一方面的一种可能的实现方式中,所述根据所述二维矩阵生成所述语音模板,包括:
对所述二维矩阵进行归一化处理;
将归一化处理后的二维矩阵中大于能量阈值的元素设置为第一预设值,将所述归一化处理后的二维矩阵中小于或者等于所述能量阈值的元素设置为第二预设值,将设置后的二维矩阵作为所述语音模板。
在第一方面的一种可能的实现方式中,所述对存储的语音模板进行相似度计算,包括:
计算每两个语音模板中所述第一预设值的匹配数量;
根据所述第一预设值的匹配数量确定每两个语音模板之间的相似度。
示例性地,将两个语音模板中对应的元素一一比较,计算第一预设值的匹配数量,匹配数量越多,相似度越高。
在第一方面的一种可能的实现方式中,调整所述预设的语音识别模型的识别参数或者将当前的语音识别模型切换为其他的语音识别模型之后,所述方法还包括:
采用识别参数调整后的语音识别模型或者切换后的新的语音识别模型对所述语音数据进行重新识别。
可以理解,由于不同的语音识别模型对不同个体的识别准确度不同,当语音数据被识别为非法语音时,通过调整参数或切换模型的方法对语音数据进行重新识别,从而可以采用合适的语音识别模型或者合适的参数对语音数据进行识别,降低将合法语音误判为非法语音的概率。
在第一方面的一种可能的实现方式中,所述调整所述预设的语音识别模型的识别参数,包括:
按照预设规则降低所述预设的语音识别模型的置信度阈值。通过降低置信度阈值的方式,防止由于置信度阈值设置过高造成的语音识别错误。
在第一方面的一种可能的实现方式中,所述方法还包括:
若相似度计算结果不满足预设条件,输出非法语音提示,等待用户再次输入语音数据。
第二方面,本申请实施例提供了一种语音防伪装置,包括:
计算模块,用于对存储的语音模板进行相似度计算;其中,每一个语音模板是根据预设的语音识别模型每次识别出的非法语音数据生成的;
调整模块,用于若相似度计算结果满足预设条件,则调整所述预设的语音识别模型的识别参数或者将当前的语音识别模型切换为其他的语音识别模型。
在第二方面的一种可能的实现方式中,所述计算模块具体用于:
当所述语音识别模型连续两次识别出非法语音数据时,对存储的两个语音模板进行相似度计算,其中,所述两个语音模板是根据所述连续两次识别出的非法语音数据生成的,每个语音模板对应一个非法语音数据;
相应的,所述调整模块具体用于:
若两个语音模板的相似度小于第一阈值,则调整所述语音识别模型的识别参数或者将当前的语音识别模型切换为其他的语音识别模型。
在第二方面的一种可能的实现方式中,所述计算模块具体用于:
当达到预设周期时,统计存储的语音模板的数量;
当所述预设周期内的语音模板的数量大于第二阈值和/或所述预设周期内的语音模板的数量在所有输入语音数据的数量中的百分比大于第三阈值时,对存储的语音模板进行两两相似度计算;
相应的,所述调整模块具体用于:
若根据每两个语音模板之间的相似度计算出的相似语音模板的数量小于第五阈值和/或所述相似语音模板的数量在所有相似度计算的次数中的百分比小于第四阈值,则调整所述语音识别模型的识别参数或者将当前的语音识别模型切换为其他的语音识别模型。
在第二方面的一种可能的实现方式中,所述语音防伪装置还包括:
获取模块,用于获取语音数据;
识别模块,用于采用所述预设的语音识别模型对所述语音数据进行识别;
模板生成模块,用于若识别结果为非法语音数据,则生成与所述非法语音数据对应的语音模板,并存储所述语音模板。
在第二方面的一种可能的实现方式中,所述模板生成模块具体用于:
将所述非法语音数据对应的语音信号转换为语音频谱;
生成与所述语音频谱对应的二维矩阵,所述二维矩阵中的元素表示预设帧的语音在预设频带的能量;
根据所述二维矩阵生成所述语音模板。
在第二方面的一种可能的实现方式中,所述模板生成模块还用于:
对所述二维矩阵进行归一化处理;
将归一化处理后的二维矩阵中大于能量阈值的元素设置为第一预设值,将所述归一化处理后的二维矩阵中小于或者等于所述能量阈值的元素设置为第二预设值,将设置后的二维矩阵作为所述语音模板。
在第二方面的一种可能的实现方式中,所述计算模块还用于:
计算每两个语音模板中所述第一预设值的匹配数量;
根据所述第一预设值的匹配数量确定每两个语音模板之间的相似度。
在第二方面的一种可能的实现方式中,所述调整模块还用于:
采用识别参数调整后的语音识别模型或者切换后的新的语音识别模型对所述语音数据进行重新识别。
在第二方面的一种可能的实现方式中,所述调整模块还用于:
按照预设规则降低所述预设的语音识别模型的置信度阈值。
在第二方面的一种可能的实现方式中,所述语音防伪装置还包括:
若相似度计算结果不满足预设条件,输出非法语音提示。
第三方面,本申请实施例提供了一种终端设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面中任一项所述的语音防伪方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一项所述的语音防伪方法。
第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面中任一项所述的语音防伪方法。
可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1是本申请实施例提供的终端设备的结构示意图;
图2是本申请实施例一实施例提供的应用场景示意图;
图3为本申请实施例一实施例提供的应用场景示意图;
图4为本申请实施例一实施例提供的应用场景示意图;
图5为本申请实施例另一实施例提供的应用场景示意图;
图6为本申请实施例另一实施例提供的应用场景示意图;
图7为本申请实施例另一实施例提供的应用场景示意图;
图8为本申请实施例又一实施例提供的应用场景示意图;
图9为本申请第一实施例提供的语音防伪方法的流程示意图;
图10为本申请第二实施例提供的语音防伪方法的流程示意图;
图11为本申请第三实施例提供的语音防伪方法的流程示意图;
图12为本申请第四实施例提供的语音防伪方法的流程示意图;
图13为本申请第五实施例提供的语音防伪方法的流程示意图;
图14是本申请实施例提供的语音防伪装置的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
本申请实施例提供的语音防伪方法应用于终端设备。该终端设备可以是任意具有语音交互功能的设备。包括但不限于具有语音交互功能的智能手机、智能音箱、智能家电、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality,AR)/虚拟现实(virtualreality,VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personal digital assistant,PDA)等,本申请实施例对终端设备的具体类型不作任何限制。
图1示出了终端设备的结构示意图。参考图1,终端设备包括:处理器110、存储器120、输入单元130、显示单元140、传感器150、音频电路160、无线保真(wireless fidelity,WiFi)模块170、以及电源180等部件。本领域技术人员可以理解,图1中示出的终端设备结构并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图1对终端设备的各个构成部件进行具体的介绍:
处理器110可以是中央处理单元(Central Processing Unit,CPU),该处理器110还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器120可用于存储软件程序以及模块,处理器110通过运行存储在存储器120的软件程序以及模块,从而执行终端设备的各种功能应用以及数据处理。存储器120可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端设备的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元130可用于接收输入的数字或字符信息,以及产生与终端设备的用户设置以及功能控制有关的键信号输入。具体地,输入单元130可包括触控面板131以及其他输入设备132。触控面板131,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板131上或在触控面板131附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板131可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器110,并能接收处理器110发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板131。除了触控面板131,输入单元130还可以包括其他输入设备132。具体地,其他输入设备132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元140可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元140可包括显示面板141,可选的,可以采用液晶显示器(Liquid CrystalDisplay,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板141。进一步的,触控面板131可覆盖显示面板141,当触控面板131检测到在其上或附近的触摸操作后,传送给处理器110以确定触摸事件的类型,随后处理器110根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图1中,触控面板131与显示面板141是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板131与显示面板141集成而实现手机的输入和输出功能。
终端设备还可包括至少一种传感器150,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板141的亮度,接近传感器可在手机移动到耳边时,关闭显示面板141和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别终端设备的姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路160、扬声器161,传声器162可提供用户与终端设备之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号,传输到扬声器161,由扬声器161转换为声音信号输出;另一方面,传声器162将收集的声音信号转换为电信号,由音频电路160接收后转换为音频数据,再将音频数据输出处理器110处理后,将音频数据输出至存储器120以便进一步处理。
WiFi属于短距离无线传输技术,终端设备通过WiFi模块170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图1示出了WiFi模块170,但是可以理解的是,其并不属于终端设备的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
终端设备还包括给各个部件供电的电源180(比如电池),优选的,电源可以通过电源管理系统与处理器110逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,终端设备还可以包括摄像头。可选地,摄像头在终端设备的上的位置可以为前置的,也可以为后置的,本申请实施例对此不作限定。
另外,尽管未示出,终端设备还可以包括蓝牙模块等,在此不再赘述。
目前,具有语音交互功能的终端设备获取用户发出的语音,对用户发出的语音进行处理,判断用户发出的语音是否是合法语音,即是否为真实语音。若用户发出的语音是合法语音,则根据用户输入的语音执行对应的操作,若用户发出的语音是非法语音,发出非法语音的提示。
举例来说,在一种应用场景中,参见图2-4,终端设备为智能手机,如图2所示,用户向智能手机发出语音“微信付款”,智能手机的传声器采集用户发出的语音,处理器对用户发出的语音进行处理,判断用户发出的语音是否是合法语音。如图3所示,若用户发出的语音为合法语音,则执行对应的操作,例如打开微信付款界面,在显示面板显示对应的付款二维码。如图4所示,若用户发出的语音为非法语音,则通过扬声器发出“非法语音”的语音提示,从而实现用户与智能手机的人机对话。
在又一种应用场景中,参见图5-7,终端设备为智能音箱,如图5所示,用户向智能音箱发出语音“打电话给小明”,智能音箱的传声器采集用户发出的语音,处理器对用户发出的语音进行处理,判断用户发出的语音是否是合法语音。如图6所示,若用户发出的语音是合法语音,则智能音箱执行对应的操作,例如通过WiFi模块或蓝牙模块指示与智能音箱配对的手机拨打对应的号码。如图7所示,若用户发出的语音为非法语音,则通过扬声器发出非法语音”的语音提示,从而实现用户与智能音箱的人机对话。
需要说明的是,终端设备也可以是服务器,例如在又一应用场景中,如图8所示,用户向智能手机发出语音,智能手机将语音传输至服务器,服务器对用户发出的语音进行处理,判断用户发出的语音是否是合法语音。若用户发出的语音是合法语音,则服务器指示智能手机执行对应的操作。若用户发出的语音是非法语音,则服务器指示智能手机发出“非法语音”的语音提示,从而实现用户与服务器的人机对话。
上述方案中,可以对录音重放、语音合成、语音转换和语音模仿等非法语音进行有效的语音防伪,但是也会造成对真实语音误判的情况,例如,用户的真实语音被经常性地或者连续性地被识别为非法语音,影响用户体验。
基于上述技术问题,本申请实施例提供的语音防伪方法,终端设备在判断用户发出语音为非法语音时,对存储的语音模板进行相似度计算,若相似度计算结果满足预设条件,则调整预设的语音识别模型的识别参数或者将当前的语音识别模型切换为其他的语音识别模型,对被识别为非法语音的用户语音进行重新识别,以降低将合法语音识别为非法语音的概率。
下面基于图1所示的终端设备对本申请实施例提供的语音防伪方法进行详细描述。
在一些应用场景下,终端设备会出现将用户的合法语音连续识别为非法语音的情况。例如,图4所示的智能手机连续多次将用户的合法语音识别为非法语音。下面以该场景为例对本申请实施例提供的语音防伪方法进行描述。
如图9所示,本申请第一实施例提供的语音防伪方法包括:
S101:获取语音数据。
在一种可能的实现方式中,终端设备先获取用户输入的鉴权信息,例如,通过摄像头获取人脸信息,或者通过输入单元获取指纹信息、数字密码、图案密码等,判断用户输入的鉴权信息与终端设备上存储的解锁信息是否匹配,若匹配,则鉴权成功。若鉴权成功,终端设备开启语音识别应用,例如语音助手或者语音对话软件。如图2所示,若用户发出语音,传声器采集用户发出的语音。
需要说明的是,语音数据也可以直接作为鉴权信息,终端设备获取语音数据后,首先判断用户输入的语音数据的特征信息与终端设备上存储的语音数据的特征信息是否匹配,若匹配,则鉴权成功,若鉴权成功,进一步根据语音数据执行对应的操作。
S102:采用预设的语音识别模型对语音数据进行识别,判断识别结果是否为合法语音。
其中,预设的语音识别模型是根据采集的用户语音和重放语音,采用机器学习或深度学习算法,对分类模型进行训练得到的。其中,重放语音可以是录音、合成语音、模仿语音中的一种或几种。具体地,终端设备获取同一批人的真实语音和对应的重放语音作为训练样本,将真实语音标记为合法语音,将重放语音标记为非法语音。将训练样本输入构建好的分类模型进行训练,根据分类模型的输出结果与对应的训练样本的标记优化分类模型的参数;当分类模型的输出结果与对应的训练样本的标记的差异在预设范围内时,得到分类模型的最优参数,根据最优参数生成预设的语音识别模型。对应地,本实施例中,终端设备获取语音数据后,输入预设的语音识别模型,输出语音数据为合法语音的概率,根据语音数据为合法语音的概率确定出语音数据是否为合法语音。
本申请实施例中,首先设定预设的语音识别模型的置信度阈值,以作为判定语音数据为合法语音和非法语音的依据。例如,采集一批人的真实语音和对应的重放语音作为测试样本,将真实语音标记为合法语音,将重放语音标记为非法语音。将测试样本输入预设的语音识别模型,将预设的语音识别模型的输出概率与对应的标记进行比较,对比较结果进行统计,根据统计结果生成置信度阈值。例如,若输出概率大于0.5的测试样本中,大部分测试样本对应的标记为合法语音;输出概率小于或等于0.5的测试样本中,大部分测试样本对应的标记为非法语音,则设定置信度阈值为0.5。对应地,将语音数据输入预设的语音识别模型,若预设的语音识别模型输出的概率大于或者等于置信度阈值,则对应的语音数据为合法语音,若预设的语音识别模型输出的概率小于置信度阈值,则对应的语音数据为非法语音。
S103:若识别结果为合法语音,验证通过。
具体地,若根据预设的语音识别模型识别出语音数据为合法语音,处理器根据预设的语音解析模型解析出语音数据对应的文本信息,根据文本信息对应的指令,执行对应的操作。例如,如图3所示,若解析出语音数据为微信付款,则显示微信付款界面。
S104:若识别结果为非法语音,生成与所述语音数据对应的语音模板,并存储语音模板。
其中,语音模板是对用户输入的语音数据进行特征提取后的数据,可以反映输入的语音数据的主要特征信息。在一种可能的实现方式中,音频电路将传声器采集的语音数据转化为语音信号,并发送至处理器,处理器将语音信号变换为频谱。将语音数据划分为若干个语音帧,每两个语音帧之间均不重叠,每个语音帧包括若干个频段,在频谱中提取每个频段的幅度值,即能量。用二维数组E(n,m)表示第n个语音帧在频段m的幅度值,从而可以生成与频谱对应的二维矩阵。对二维矩阵的幅度值做归一化,将归一化后的值与幅度阈值做比较,若某一归一化后的幅度值大于幅度阈值,则将该幅度值置第一预设值,例如置为1,若某一归一化后的幅度值小于或者等于幅度阈值,则将该幅度值置为第二预设值,例如置为0,当对所有的幅度值分别进行处理(置为1或置为0)后,生成与语音数据对应的谱位图,即语音模板。
在另一种可能的实现方式中,生成与频谱对应的二维矩阵后,若当前帧相邻两个频段的幅值差值大于前一帧对应的相邻两个频段的幅值差值,则将当前帧的当前频段的幅值置为第一预设值,例如置为1,否则,置为第二预设值,例如置为0,当对所有的幅度值分别进行处理(置为1或置为0)后,生成与语音数据对应的谱位图,即语音模板。
S105:判断连续将语音数据识别为非法语音的次数是否达到预设非法识别次数。
在一种可能的实现方式中,设定计数器的初始值为0,若输出结果为非法语音,将计数器加1,若输出结果为合法语音,将计数器重新置为0。处理器生成与语音数据对应的语音模板后,判断计数器的值是否达到预设非法识别次数。
S106:若未达到预设非法识别次数,输出非法语音提示,执行S101。
继续上述可能的实现方式,如图4所示,若计数器未达到预设非法识别次数,输出非法语音提示,等待用户再次输入语音数据。
S107:若达到预设非法识别次数,对存储的语音模板进行相似度计算,判断相似度是否小于第一阈值。
继续上述可能的实现方式,若计数器达到预设非法识别次数,将计数器重新置为0,计算存储的语音模板之间的相似度,语音模板之间的相似度即为输入的语音数据之间的相似度。
在一种可能的实现方式中,预设非法识别次数为2,当识别结果为非法语音时,若计数器的值为2,说明语音识别模型连续两次识别出非法语音,计算两个语音模板之间的相似度。
在另一种可能的实现方式中,预设非法识别次数大于2,当识别结果为非法语音时,若计数器的值达到预设非法识别次数,计算每两个语音模板之间的相似度。
在一种可能的实现方式中,通过对两个谱位图的对应元素进行相乘的方法计算两个语音模板之间的相似性。由语音模板的生成过程可知,谱位图为矩阵,矩阵中的每个元素为0或者1,1代表峰值点,对两个谱位图的对应元素进行相乘后,对乘积求和,得到相似度,即谱位图中峰值点匹配的数量。峰值点匹配的数量越多,则说明谱位图距离越近,相似度越高。
若语音模板的数量为两个,当相似度大于或者等于第一阈值时,表明这两个语音模板相似,当相似度小于第一阈值时,表明这两个语音模板不相似。若语音模板的数量大于两个,两两计算语音模板的相似度,若所有的相似度均小于第一阈值,表明多个语音模板之间不相似,否则语音模板之间相似。
S108:若相似度大于或者等于第一阈值,输出非法语音提示,执行S101。
具体地,若相似度大于或者等于第一阈值,即语音模板之间相似,说明输入的语音数据为重复语音,仍然输出非法语音,等待用户重新输入语音数据。
S109:若相似度小于第一阈值,调整所述预设的语音识别模型的识别参数,重新进行语音识别。
在一种可能的实现方式中,若相似度小于第一阈值,即语音模板不相似,输入语音有可能为真实语音,因此,调整预设的语音识别模型的识别参数。需要重新进行语音识别,以进一步确定语音数据是否是非法语音数据。
其中,调整预设的语音识别模型的识别参数可以是调整预设的语音识别模型中的特征提取参数,例如,语音识别模型中的神经网络模型的参数,也可以是调整预设的语音识别模型的置信度阈值。
可选的,若相似度小于第一阈值,按照设定的步长或百分比降低置信度阈值,例如,若置信度阈值的初始值为0.5,按照0.01的步长或者10%的幅度降低置信度阈值至0.49或0.45,将降低后的置信度阈值作为判定语音数据为合法语音或为非法语音的依据。将最近一次接收到的语音数据输入预设的语音识别模型,重新进行语音识别。若输出的概率大于或者等于降低后的置信度阈值,则判定输入的语音数据为合法语音,根据语音数据执行对应的操作。若输出的概率小于降低后的置信度阈值,则判定输入语音为非法语音。可选的,在输出概率小于降低后的置信度阈值后,按照设定步长再次降低置信度阈值,重新进行语音识别,若置信度阈值降低至设定的最小值时,输出的概率仍小于置信度阈值的最小值,则判定输入语音为非法语音,输出非法语音的提示;若在置信度阈值降低至最小值之前,输出的概率大于或者等于降低后的置信度阈值,则判定输入语音为真实语音,根据语音数据执行对应的操作。
上述实施例中,将获取的语音数据输入预设的语音识别模型,以判断该语音数据是否为合法语音,若为合法语音,则验证通过,若为非法语音,生成与语音数据对应的语音模板,同时判断连续将语音数据识别为非法语音的次数是否达到预设非法识别次数,若达到预设非法识别次数,计算语音模板之间的相似度。由于重放语音之间的相似度较高,用户每次输入的真实语音的相似度较低,若相似度小于第一阈值,说明输入的语音数据可能为真实语音,可能当前的置信度阈值较高,则降低预设的语音识别模型中的置信度阈值,重新进行语音识别,以防止将真实语音误识别为非法语音,提高用户体验。
如图10所示,本申请第二实施例提供的语音防伪方法,其与第一实施例的区别在于,若相似度小于第一阈值,则执行下面的步骤。
S209:将当前的语音识别模型切换为其他的语音识别模型,重新进行语音识别。
具体地,存储器中存储多个语音识别模型,这些语音识别模型均为神经网络模型,由不同的训练样本和不同结构的分类模型训练得到,对不同用户的语音数据进行语音识别的准确度不同。
本申请实施例中,若相似度小于第一阈值,即语音模板之间不相似,说明输入的语音数据有可能为真实语音,当前的语音识别模型可能不适用于当前用户。将当前的语音识别模型切换为另一个语音识别模型,将最近一次接收到的语音数据输入切换后的语音识别模型,根据切换后的语音识别模型对应的置信度阈值判断输入的语音数据是否是合法语音,同时将切换后的语音识别模型作为下一次输入的语音数据的语音识别模型。第二语音识别模型的语音识别方法与第一语音识别模型的语音识别方法相同。
在一种可能的实现方式中,对语音模型进行切换后,将与所有语音模板对应的语音数据输入切换后的语音识别模型,计算切换后的语音识别模型输出非法语音的个数。若切换后的语音识别模型输出非法语音的个数小于预设数量,则将切换后的语音识别模型作为当前语音识别模型。在所有语音模板对应的语音数据输入切换后的语音识别模型的输出结果中,获取最近一次语音数据输入切换后的语音识别模型的输出结果,根据该输出结果判断用户输入的语音数据是否是合法语音。同时将切换后的语音识别模型作为用户下一次输入的语音数据的语音识别模型。若切换后的语音识别模型输出非法语音的数量与预设的语音识别模型输出非法语音的数量相同,则仍然将预设的语音识别模型作为当前语音识别模型,将用户输入的语音数据判定为非法语音。
在一种可能的实现方式中,若切换后的语音识别模型输出非法语音的个数与预设的语音识别模型输出非法语音的数量相同,则根据存储器中每个语音识别模型的语音识别结果,重新切换新的语音识别模型。可选的,将所有语音模板对应的语音数据依次输入存储器中的每个语音识别模型,计算每个语音识别模型输出非法语音的个数,将输出非法语音个数最少的语音识别模型作为切换后的语音识别模型,重新进行语音识别。例如,若当前的语音模板数量为3个,存储器中存储有5个语音识别模型,分别为:语音识别模型A、语音识别模型B、语音识别模型C、语音识别模型D和语音识别模型E,语音识别模型A为预设的语音识别模型,即语音识别模型A连续3次将语音数据识别为非法语音。当判定至少两个语音模板之间不相似时,每个语音识别模型均对3个语音模板对应的语音数据进行处理,统计每个语音识别模型的输出结果中非法语音的数量。若语音识别模型B的输出结果中有2个非法语音,语音识别模型C的输出结果中有1个非法语音,语音识别模型D的输出结果中有1个非法语音,语音识别模型E的输出结果中有0个非法语音,即语音识别模型E将最近一次的语音数据识别为合法语音,则将当前的语音识别模型切换为语音识别模型E,用户下一次输入语音数据时,采用语音识别模型E判定语音数据是否是合法语音。
上述实施例中,将获取的语音数据输入预设的语音识别模型,以判断该语音数据是否为合法语音,若为合法语音,则验证通过,若为非法语音,生成与语音数据对应的语音模板,同时判断连续将语音数据识别为非法语音的次数是否达到预设非法识别次数,若达到预设非法识别次数,计算语音模板之间的相似度。由于重放语音之间的相似度较高,用户每次输入的真实语音的相似度较低,若相似度小于第一阈值,说明输入的语音数据可能为真实语音,预设的语音识别模型可能不适用于当前用户的语音数据,则将当前的语音识别模型切换为其他的语音识别模型,重新进行语音识别,防止将真实语音误识别为非法语音,提高用户体验。
如图11所示,本申请第三实施例提供的语音防伪方法包括:
S301:获取语音数据。
S302:采用预设的语音识别模型对语音数据进行识别,判断识别结果是否为合法语音。
S303:若识别结果为合法语音,验证通过。
S301-S303与第一实施例中的S101-S103相同,在此不再赘述。
S304:若识别结果为非法语音,判断连续将语音数据识别为非法语音的次数是否达到预设非法识别次数。
在一种可能的实现方式中,设定计数器的初始值为0,若输出结果为非法语音,将计数器加1,若达到预设非法识别次数或者输出结果为合法语音,将计数器重新置为0。当输出结果为非法语音时,判断计数器的值是否达到预设非法识别次数。
S305:若未达到预设非法识别次数,输出非法语音提示,执行S301。
具体地,若计数器未达到预设非法识别次数,输出非法语音提示,等待用户再次输入语音数据。
S306:若达到预设非法识别次数,生成与被识别为非法语音数据的连续多个语音数据对应的语音模板。
具体地,若输出结果为非法语音,且连续将语音数据识别为非法语音的次数达到预设非法识别次数,则说明终端设备连续多次将语音数据识别为非法语音,生成与被识别为非法语音的连续多个语音数据对应的语音模板。例如,若预设非法识别次数为2,预设的语音识别模型的输出结果为非法语音,且达到预设非法识别次数,说明终端设备连续两次将语音数据识别为非法语音,生成与两次语音数据一一对应的两个语音模板。每个语音数据生成语音模板的方法与第一实施例相同,在此不再赘述。
S307:对语音模板进行相似度计算,判断相似度是否小于第一阈值。
S308:若相似度大于或者等于第一阈值,输出非法语音提示,执行S301。
S309:若相似度是否小于第一阈值,调整所述预设的语音识别模型的识别参数,重新进行语音识别。
S307-S309与第一实施例中的S107-S109相同,在此不再赘述。
上述实施例中,将获取的语音数据输入预设的语音识别模型,以判断该语音数据是否为合法语音,若为合法语音,则验证通过,若为非法语音,判断连续将语音数据识别为非法语音的次数是否达到预设非法识别次数,若达到预设非法识别次数,生成与被识别为非法语音数据的连续多个语音数据对应的语音模板,对语音模板进行相似度计算。由于重放语音之间的相似度较高,用户每次输入的真实语音的相似度较低,若相似度是否小于第一阈值,说明输入的语音数据可能为真实语音,可能当前的语音识别参数不合适,调整当前的语音识别模型的识别参数,重新进行语音识别,以防止将真实语音误识别为非法语音,提高用户体验。
在一些应用场景下,终端设备会出现经常性的将用户的真实语音识别为非法语音的情况,例如,图7所示的智能音箱经常性的将用户的真实语音识别为非法语音。下面以该场景为例对本申请实施例提供的语音防伪方法进行描述。
如图12所示,本申请第四实施例提供的语音防伪方法包括:
S401:获取语音数据。
S402:采用预设的预设的语音识别模型对语音数据进行识别,判断识别结果是否为合法语音。
S403:若识别结果为合法语音,验证通过。
S404:若识别结果为非法语音,生成与所述语音数据对应的语音模板,并存储语音模板。
S401-S404与第一实施例中的S101-S104相同,在此不再赘述。
S405:判断是否达到预设周期。
具体地,如图7所示,统计现有的智能音箱将合法语音识别为非法语音的频率,设定合适的调整周期,例如,设定调整周期为3天。设定计时器的初始值为0,并开始计时,在生成语音模板后,判断当前计时是否达到调整周期。
S406:若未达到预设周期,输出非法语音提示,执行S401。
S407:若达到预设周期,统计存储的语音模板的数量,判断预设周期内的语音模板的数量是否满足第一预设条件。
具体地,设定第一计数器的初始值为0,第一计数器用于统计输入的语音数据的数量,每输入一次语音数据,将第一计数器加1。设定第二计数器的初始值为0,第二计数器用于统计存储的语音模板的数量,每生成一个语音模板,将第二计数器加1。当达到预设周期时,第一计数器和第二计数器均重新置为0。
在一种可能的实现方式中,第一预设条件包括下列三种情形,即满足下列任一种情形,即满足第一预设条件。
预设周期内的语音模板的数量大于第二阈值;
所述预设周期内的语音模板的数量在所有输入语音数据的数量中的百分比大于第三阈值;
预设周期内的语音模板的数量大于第二阈值,且所述预设周期内的语音模板的数量在所有输入语音数据的数量中的百分比大于第三阈值。
例如,设定第二阈值为5,根据第二计数器的值得到在预设周期内内生成的语音模板数量大于5个,则满足第一预设条件。
又例如,设定第三阈值为1/10,根据第一计数器得到在预设周期内输入的语音数据的数量为30,根据第二计数器得到生成的语音模板的数量为5个,输入的语音数据被识别为非法语音的次数为5,则语音模板的数量在所有输入语音数据的数量中的百分比为1/6,大于第三阈值,满足第一预设条件。同时,在达到调整周期时,重新开始计时。
S408:若预设周期内的语音模板的数量不满足第一预设条件,输出非法语音提示,执行S401。
具体地,若不满足第一预设条件,说明终端设备将语音数据识别为非法语音的概率较小,进一步说明终端设备将真实语音识别为非法语音的概率较小,说明当前的预设的语音识别模型的语音识别准确度较高,将输入的语音数据判定为非法语音,并输出非法语音提示,等待用户再次输入语音数据。
S409:若预设周期内的语音模板的数量满足第一预设条件,计算相似语音模板的数量。
具体地,若满足第一预设条件,说明终端设备将语音数据识别为非法语音的概率较大,根据语音模板对应的谱位图计算任意两个语音模板之间的相似度,相似度大于第一阈值的两个语音模板相似,两两比较语音模板是否相似,计算相似语音模板的数量。
S410:根据相似语音模板的数量判断是否满足第二预设条件。
在一种可能的实现方式中,第二预设条件包括下列三种情形,即满足下列任一种情形,即满足第二预设条件。
相似语音模板的数量小于第五阈值;
所述相似语音模板的数量在所有相似度计算的次数中的百分比小于第四阈值;
相似语音模板的数量小于第五阈值,且所述相似语音模板的数量在所有相似度计算的次数中的百分比小于第四阈值。
例如,设定第五阈值为3,在预设周期内生成的语音模板的数量为10个,计算每两个语音模板之间的相似度,若相似语音模板的数量为2个,则小于第五阈值,满足第二预设条件。
又例如,设定第四阈值为1/5,在预设周期内生成的语音模板的数量为10个,计算每两个语音模板之间的相似度,则需要计算45次,若相似语音模板的数量为5个,则相似语音模板的数量在所有相似度计算的次数中的百分比为1/9,小于第四阈值,满足第二预设条件。
S411:若相似语音模板的数量不满足第二预设条件,输出非法语音提示,执行S401。
具体地,若相似语音模板的数量不满足第二预设条件,即相似语音模板的数量大于第五阈值和/或所述相似语音模板的数量在所有相似度计算的次数中的百分比大于第四阈值,说明语音模板之间相似度较高,说明输入的语音数据为重复语音,仍然输出非法语音,等待用户重新输入语音数据。
S412:若相似语音模板的数量满足第二预设条件,调整所述预设的语音识别模型的识别参数,重新进行语音识别。
具体地,若相似语音模板的数量满足第二预设条件,说明语音模板之间相似度不高,输入的语音数据可能为合法语音,调整语音识别模型的识别参数,重新识别语音数据。
其中调整语音识别模型的识别参数,重新进行语音识别的方法与本申请第一实施例中的S109相同,在此不再赘述。
上述实施例中,将获取的语音数据输入预设的语音识别模型,以判断该语音数据是否为合法语音,若为合法语音,则验证通过,若为非法语音,生成与语音数据对应的语音模板,同时判断是否达到预设周期,若达到预设周期,统计存储的语音模板的数量,判断预设周期内的语音模板的数量是否满足第一预设条件。若满足第一预设条件,说明语音识别过程中识别为非法语音的概率较高,计算相似语音模板的数量,根据相似语音模板的数量判断是否满足第二预设条件。若相似语音模板的数量满足第二预设条件,说明输入的语音数据之间的相似度不高,输入的语音数据可能为真实语音,调整语音识别模型的识别参数,重新进行语音识别,防止将真实语音误识别为非法语音,提高用户体验。
如图13所示,本申请第五实施例提供的语音防伪方法,其与第三实施例的区别在于,若相似语音模板的数量不满足预设条件,则执行
S512:将当前的语音识别模型切换为其他的语音识别模型。
其中,S512与本申请第二实施例中S209相同,在此不再赘述。
上述实施例中,将获取的语音数据输入预设的语音识别模型,以判断该语音数据是否为合法语音,若为合法语音,则验证通过,若为非法语音,生成与语音数据对应的语音模板,同时判断是否达到预设周期,若达到预设周期,统计存储的语音模板的数量,判断预设周期内的语音模板的数量是否满足第一预设条件。若满足第一预设条件,说明语音识别过程中识别为非法语音的概率较高,计算相似语音模板的数量,根据相似语音模板的数量判断是否满足第二预设条件。若相似语音模板的数量满足第二预设条件,说明输入的语音数据之间的相似度不高,输入的语音数据可能为真实语音,预设的语音识别模型可能不适用于当前用户的语音数据,则将当前的语音识别模型切换为其他的语音识别模型,防止将真实语音误识别为非法语音,提高用户体验。
应理解,上述实施例中各的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
对应于上文实施例所述的语音防伪方法,图14示出了本申请实施例提供的语音防伪装置的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
参照图14,该语音防伪装置包括:
计算模块10,用于对存储的语音模板进行相似度计算;其中,每一个语音模板是根据预设的语音识别模型每次识别出的非法语音数据生成的;
调整模块20,用于若相似度计算结果满足预设条件,则调整所述预设的语音识别模型的识别参数或者将当前的语音识别模型切换为其他的语音识别模型。
在一种可能的实现方式中,所述计算模块10具体用于:
当所述语音识别模型连续两次识别出非法语音数据时,对存储的两个语音模板进行相似度计算,其中,所述两个语音模板是根据所述连续两次识别出的非法语音数据生成的,每个语音模板对应一个非法语音数据;
相应的,所述调整模块20具体用于:
若两个语音模板的相似度小于第一阈值,则调整所述语音识别模型的识别参数或者将当前的语音识别模型切换为其他的语音识别模型。
在一种可能的实现方式中,所述计算模块10具体用于:
当达到预设周期时,统计存储的语音模板的数量;
当所述预设周期内的语音模板的数量大于第二阈值和/或所述预设周期内的语音模板的数量在所有输入语音数据的数量中的百分比大于第三阈值时,对存储的语音模板进行两两相似度计算;
相应的,所述调整模块20具体用于:
若根据每两个语音模板之间的相似度计算出的相似语音模板的数量小于第五阈值和/或所述相似语音模板的数量在所有相似度计算的次数中的百分比小于第四阈值,则调整所述语音识别模型的识别参数或者将当前的语音识别模型切换为其他的语音识别模型。
在一种可能的实现方式中,所述语音防伪装置还包括:
获取模块,用于获取语音数据;
识别模块,用于采用所述预设的语音识别模型对所述语音数据进行识别;
模板生成模块,用于若识别结果为非法语音数据,则生成与所述非法语音数据对应的语音模板,并存储所述语音模板。
在一种可能的实现方式中,所述模板生成模块具体用于:
将所述非法语音数据对应的语音信号转换为语音频谱;
生成与所述语音频谱对应的二维矩阵,所述二维矩阵中的元素表示预设帧的语音在预设频带的能量;
根据所述二维矩阵生成所述语音模板。
在一种可能的实现方式中,所述模板生成模块还用于:
对所述二维矩阵进行归一化;
将归一化后的二维矩阵中大于能量阈值的元素置为第一预设值,将所述归一化后的二维矩阵中小于或者等于所述能量阈值的元素置为第二预设值,得到所述语音模板。
在一种可能的实现方式中,所述计算模块10还用于:
根据所述归一化后的二维矩阵计算每两个语音模板中第一预设值的匹配数量;
根据所述第一预设值的匹配数量计算每两个语音模板之间的相似度。
在一种可能的实现方式中,所述调整模块20还用于:
采用识别参数调整后的语音识别模型或者切换后的新的语音识别模型对所述语音数据进行重新识别。
在一种可能的实现方式中,所述调整模块20还用于:
按照预设规则降低所述预设的语音识别模型的置信度阈值。
在一种可能的实现方式中,所述语音防伪装置还包括:
若相似度计算结果满足预设条件,输出非法语音提示。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在移动终端上运行时,使得移动终端执行时实现可实现上述各个方法实施例中的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/网络设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/网络设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (13)
1.一种语音防伪方法,其特征在于,包括:
对存储的语音模板进行相似度计算;其中,每一个语音模板是根据预设的语音识别模型每次识别出的非法语音数据生成的;
若相似度计算结果满足预设条件,则调整所述预设的语音识别模型的识别参数或者将当前的语音识别模型切换为其他的语音识别模型。
2.如权利要求1所述的语音防伪方法,其特征在于,所述对存储的语音模板进行相似度计算包括:
当所述语音识别模型连续两次识别出非法语音数据时,对存储的两个语音模板进行相似度计算,其中,所述两个语音模板是根据所述连续两次识别出的非法语音数据生成的,每个语音模板对应一个非法语音数据;
相应的,若相似度计算结果满足预设条件,则调整所述语音识别模型的识别参数或者将当前的语音识别模型切换为其他的语音识别模型包括:
若两个语音模板的相似度小于第一阈值,则调整所述语音识别模型的识别参数或者将当前的语音识别模型切换为其他的语音识别模型。
3.如权利要求1所述的语音防伪方法,其特征在于,所述对存储的语音模板进行相似度计算包括:
当达到预设周期时,统计存储的语音模板的数量;
当所述预设周期内的语音模板的数量大于第二阈值和/或所述预设周期内的语音模板的数量在所有输入语音数据的数量中的百分比大于第三阈值时,对存储的语音模板进行两两相似度计算;
相应的,若相似度计算结果满足预设条件,则调整所述语音识别模型的识别参数或者将当前的语音识别模型切换为其他的语音识别模型包括:
若根据每两个语音模板之间的相似度计算出的相似语音模板的数量小于第五阈值和/或所述相似语音模板的数量在所有相似度计算的次数中的百分比小于第四阈值,则调整所述语音识别模型的识别参数或者将当前的语音识别模型切换为其他的语音识别模型。
4.如权利要求1所述的语音防伪方法,其特征在于,所述对存储的语音模板进行相似度计算之前,所述方法还包括:
获取语音数据;
采用所述预设的语音识别模型对所述语音数据进行识别;
若识别结果为非法语音数据,则生成与所述非法语音数据对应的语音模板,并存储所述语音模板。
5.如权利要求4所述的语音防伪方法,其特征在于,所述生成与所述非法语音数据对应的语音模板,包括:
将所述非法语音数据对应的语音信号转换为语音频谱;
生成与所述语音频谱对应的二维矩阵,所述二维矩阵中的元素表示预设帧的语音在预设频带的能量;
根据所述二维矩阵生成所述语音模板。
6.如权利要求5所述的语音防伪方法,其特征在于,所述根据所述二维矩阵生成所述语音模板,包括:
对所述二维矩阵进行归一化处理;
将归一化处理后的二维矩阵中大于能量阈值的元素设置为第一预设值,将所述归一化处理后的二维矩阵中小于或者等于所述能量阈值的元素设置为第二预设值,将设置后的二维矩阵作为所述语音模板。
7.如权利要求6所述的语音防伪方法,其特征在于,所述对存储的语音模板进行相似度计算,包括:
计算每两个语音模板中所述第一预设值的匹配数量;
根据所述第一预设值的匹配数量确定每两个语音模板之间的相似度。
8.如权利要求1所述的语音防伪方法,其特征在于,调整所述预设的语音识别模型的识别参数或者将当前的语音识别模型切换为其他的语音识别模型之后,所述方法还包括:
采用识别参数调整后的语音识别模型或者切换后的新的语音识别模型对所述语音数据进行重新识别。
9.如权利要求1所述的语音防伪方法,其特征在于,所述调整所述预设的语音识别模型的识别参数,包括:
按照预设规则降低所述预设的语音识别模型的置信度阈值。
10.如权利要求1所述的语音防伪方法,其特征在于,所述方法还包括:
若相似度计算结果不满足预设条件,输出非法语音提示。
11.一种语音防伪装置,其特征在于,包括:
计算模块,用于对存储的语音模板进行相似度计算;其中,每一个语音模板是根据预设的语音识别模型每次识别出的非法语音数据生成的;
调整模块,用于若相似度计算结果满足预设条件,则调整所述预设的语音识别模型的识别参数或者将当前的语音识别模型切换为其他的语音识别模型。
12.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至10任一项所述的方法。
13.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至10任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911183043.7A CN112863523B (zh) | 2019-11-27 | 2019-11-27 | 语音防伪方法、装置、终端设备及存储介质 |
PCT/CN2020/124766 WO2021103913A1 (zh) | 2019-11-27 | 2020-10-29 | 语音防伪方法、装置、终端设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911183043.7A CN112863523B (zh) | 2019-11-27 | 2019-11-27 | 语音防伪方法、装置、终端设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112863523A CN112863523A (zh) | 2021-05-28 |
CN112863523B true CN112863523B (zh) | 2023-05-16 |
Family
ID=75985702
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911183043.7A Active CN112863523B (zh) | 2019-11-27 | 2019-11-27 | 语音防伪方法、装置、终端设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112863523B (zh) |
WO (1) | WO2021103913A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116011460A (zh) * | 2023-02-13 | 2023-04-25 | 安徽龙鼎信息科技有限公司 | 一种基于自然语言处理的物流运力匹配方法和系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1588538A (zh) * | 2004-09-29 | 2005-03-02 | 上海交通大学 | 用于嵌入式自动语音识别系统的训练方法 |
GB201514943D0 (en) * | 2015-08-21 | 2015-10-07 | Validsoft Uk Ltd | Replay attack detection |
CN108039176A (zh) * | 2018-01-11 | 2018-05-15 | 广州势必可赢网络科技有限公司 | 一种防录音攻击的声纹认证方法、装置及门禁系统 |
CN108806695A (zh) * | 2018-04-17 | 2018-11-13 | 平安科技(深圳)有限公司 | 自更新的反欺诈方法、装置、计算机设备和存储介质 |
CN108882242A (zh) * | 2018-06-08 | 2018-11-23 | 国家计算机网络与信息安全管理中心 | 基于声纹识别和意图理解技术的反诈骗系统的自学习方法 |
CN109547466A (zh) * | 2018-12-17 | 2019-03-29 | 北京车和家信息技术有限公司 | 基于机器学习提高风险感知能力的方法及装置、计算机设备和存储介质 |
CN109934114A (zh) * | 2019-02-15 | 2019-06-25 | 重庆工商大学 | 一种手指静脉模板生成与更新算法及系统 |
CN110148425A (zh) * | 2019-05-14 | 2019-08-20 | 杭州电子科技大学 | 一种基于完整局部二进制模式的伪装语音检测方法 |
CN110491391A (zh) * | 2019-07-02 | 2019-11-22 | 厦门大学 | 一种基于深度神经网络的欺骗语音检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050125226A1 (en) * | 2003-10-29 | 2005-06-09 | Paul Magee | Voice recognition system and method |
-
2019
- 2019-11-27 CN CN201911183043.7A patent/CN112863523B/zh active Active
-
2020
- 2020-10-29 WO PCT/CN2020/124766 patent/WO2021103913A1/zh active Application Filing
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1588538A (zh) * | 2004-09-29 | 2005-03-02 | 上海交通大学 | 用于嵌入式自动语音识别系统的训练方法 |
GB201514943D0 (en) * | 2015-08-21 | 2015-10-07 | Validsoft Uk Ltd | Replay attack detection |
CN108039176A (zh) * | 2018-01-11 | 2018-05-15 | 广州势必可赢网络科技有限公司 | 一种防录音攻击的声纹认证方法、装置及门禁系统 |
CN108806695A (zh) * | 2018-04-17 | 2018-11-13 | 平安科技(深圳)有限公司 | 自更新的反欺诈方法、装置、计算机设备和存储介质 |
CN108882242A (zh) * | 2018-06-08 | 2018-11-23 | 国家计算机网络与信息安全管理中心 | 基于声纹识别和意图理解技术的反诈骗系统的自学习方法 |
CN109547466A (zh) * | 2018-12-17 | 2019-03-29 | 北京车和家信息技术有限公司 | 基于机器学习提高风险感知能力的方法及装置、计算机设备和存储介质 |
CN109934114A (zh) * | 2019-02-15 | 2019-06-25 | 重庆工商大学 | 一种手指静脉模板生成与更新算法及系统 |
CN110148425A (zh) * | 2019-05-14 | 2019-08-20 | 杭州电子科技大学 | 一种基于完整局部二进制模式的伪装语音检测方法 |
CN110491391A (zh) * | 2019-07-02 | 2019-11-22 | 厦门大学 | 一种基于深度神经网络的欺骗语音检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112863523A (zh) | 2021-05-28 |
WO2021103913A1 (zh) | 2021-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109558512B (zh) | 一种基于音频的个性化推荐方法、装置和移动终端 | |
US20200357386A1 (en) | Method for detecting keyword in speech signal, terminal, and storage medium | |
CN108702354B (zh) | 基于传感器信号的活跃度确定 | |
WO2019089432A1 (en) | System and method associated with user authentication based on an acoustic-based echo-signature | |
CN110574103A (zh) | 一种语音控制方法、可穿戴设备及终端 | |
CN110544488A (zh) | 一种多人语音的分离方法和装置 | |
CN105429969B (zh) | 一种用户身份验证方法与设备 | |
CN112820299B (zh) | 声纹识别模型训练方法、装置及相关设备 | |
CN112735388B (zh) | 网络模型训练方法、语音识别处理方法及相关设备 | |
CN110287918B (zh) | 活体识别方法及相关产品 | |
CN109065060B (zh) | 一种语音唤醒方法及终端 | |
CN113190646B (zh) | 一种用户名样本的标注方法、装置、电子设备及存储介质 | |
Su et al. | Towards device independent eavesdropping on telephone conversations with built-in accelerometer | |
CN110276328B (zh) | 指纹识别方法及相关产品 | |
CN106055958B (zh) | 一种解锁方法及装置 | |
JP2022552862A (ja) | 表示方法及び電子機器 | |
CN111835522A (zh) | 一种音频处理方法及装置 | |
CN113643707A (zh) | 一种身份验证方法、装置和电子设备 | |
CN110728993A (zh) | 一种变声识别方法及电子设备 | |
CN112863523B (zh) | 语音防伪方法、装置、终端设备及存储介质 | |
CN112001442B (zh) | 特征检测方法、装置、计算机设备及存储介质 | |
CN107895108B (zh) | 一种操作管理方法和移动终端 | |
CN113870862A (zh) | 声纹识别模型训练方法、声纹识别方法及相关设备 | |
CN117423341A (zh) | 声纹识别方法、声纹模型训练方法、装置、设备及介质 | |
CN109948311B (zh) | 一种屏幕解锁方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |