CN114639375B - 基于音频切片调节的智能语音识别安全防御方法及装置 - Google Patents

基于音频切片调节的智能语音识别安全防御方法及装置 Download PDF

Info

Publication number
CN114639375B
CN114639375B CN202210499339.5A CN202210499339A CN114639375B CN 114639375 B CN114639375 B CN 114639375B CN 202210499339 A CN202210499339 A CN 202210499339A CN 114639375 B CN114639375 B CN 114639375B
Authority
CN
China
Prior art keywords
audio
slice
speed
target
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210499339.5A
Other languages
English (en)
Other versions
CN114639375A (zh
Inventor
李超豪
王滨
王星
闫琛
王伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Hikvision Digital Technology Co Ltd
Original Assignee
Hangzhou Hikvision Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Hikvision Digital Technology Co Ltd filed Critical Hangzhou Hikvision Digital Technology Co Ltd
Priority to CN202210499339.5A priority Critical patent/CN114639375B/zh
Publication of CN114639375A publication Critical patent/CN114639375A/zh
Application granted granted Critical
Publication of CN114639375B publication Critical patent/CN114639375B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Image Processing (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

本申请提供一种基于音频切片调节的智能语音识别安全防御方法及装置,该方法包括:获取待保护音频数据;对所述待保护音频数据进行切分,并确定目标候选音频切片;从所述目标候选音频切片中确定出目标音频切片,并确定目标倍速值;依据所述目标音频切片的起止时间,利用所述目标倍速值对所述待保护音频数据中与所述起止时间对应的部分进行倍速操作,并输出倍速操作后的音频数据。该方法可以实现高隐蔽高保真的音频安全防御效果。

Description

基于音频切片调节的智能语音识别安全防御方法及装置
技术领域
本申请涉及语音识别安全领域,尤其涉及一种基于音频切片调节的智能语音识别安全防御方法及装置。
背景技术
随着语音识别技术的发展,智能语音识别系统逐渐成为物联网配备的重要智能组件之一,使得语音交互成为物联网人机交互中的重要场景。智能语音识别系统可用于语音智能翻译、语音控制助手等场景,其通过自动转录输入的音频文件,大幅提升用户的生活和工作效率。
对于一个输入音频,智能语音识别系统首先会对其进行信号预处理,减少原始音频中的噪声并去除无关的频率分量。然后经过处理的音频信号会被进一步分割为长度更短的音频帧。接着,智能语音识别系统从这些音频帧中提取声学特征,如梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients,简称MFCC)等,并基于预先训练好的语音识别模型将提取的声学特征映射为概率最高的文本序列。
然而,智能语音识别系统在提升人们生活和工作便利的同时,也被攻击者用于非法智能监听等恶意行为,对合法用户的隐私与财产安全造成极大威胁。
发明内容
有鉴于此,本申请提供一种基于音频切片调节的智能语音识别安全防御方法及装置。
具体地,本申请是通过如下技术方案实现的:
根据本申请实施例的第一方面,提供一种基于音频切片调节的智能语音识别安全防御方法,包括:
获取待保护音频数据;
对所述待保护音频数据进行切分,并确定目标候选音频切片;其中,对于任一所述目标候选音频切片,该目标候选音频切片对应的第一测试音频的语音识别结果与初始语音识别结果不一致,音频切片对应的第一测试音频通过利用第一倍速值对该音频切片进行倍速操作,并将倍速操作后的音频切片与所述待保护音频数据中的其余未经过倍速操作的部分按原顺序拼接结合得到,所述初始语音识别结果为所述待保护音频数据的语音识别结果;
从所述目标候选音频切片中确定出目标音频切片,并确定目标倍速值;其中,目标测试音频的语音识别结果与所述初始语音识别结果不一致,所述目标测试音频通过利用所述目标倍速值对所述目标音频切片进行倍速操作,并将倍速操作后的目标音频切片与所述待保护音频数据中的其余未经过倍速操作的部分按原顺序拼接结合得到,所述目标倍速值的变化率小于等于所述第一倍速值的变化率,所述目标倍速值和所述第一倍速值均归属于预设倍速值取值范围;
依据所述目标音频切片的起止时间,利用所述目标倍速值对所述待保护音频数据中与所述起止时间对应的部分进行倍速操作,并输出倍速操作后的音频数据。
根据本申请实施例的第二方面,提供一种基于音频切片调节的智能语音识别安全防御装置,包括:
获取单元,用于获取待保护音频数据;
切分单元,用于对所述待保护音频数据进行切分,并确定目标候选音频切片;其中,对于任一所述目标候选音频切片,该目标候选音频切片对应的第一测试音频的语音识别结果与初始语音识别结果不一致,音频切片对应的第一测试音频通过利用第一倍速值对该音频切片进行倍速操作,并将倍速操作后的音频切片与所述待保护音频数据中的其余未经过倍速操作的部分按原顺序拼接结合得到,所述初始语音识别结果为所述待保护音频数据的语音识别结果;
确定单元,用于从所述目标候选音频切片中确定出目标音频切片,并确定目标倍速值;其中,目标测试音频的语音识别结果与所述初始语音识别结果不一致,所述目标测试音频通过利用所述目标倍速值对所述目标音频切片进行倍速操作,并将倍速操作后的目标音频切片与所述待保护音频数据中的其余未经过倍速操作的部分按原顺序拼接结合得到,所述目标倍速值的变化率小于等于所述第一倍速值的变化率,所述目标倍速值和所述第一倍速值均归属于预设倍速值取值范围;
防御单元,用于依据所述目标音频切片的起止时间,利用所述目标倍速值对所述待保护音频数据中与所述起止时间对应的部分进行倍速操作,并输出倍速操作后的音频数据。
根据本申请实施例的第三方面,提供一种电子设备,该电子设备包括:
处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令;所述处理器用于执行机器可执行指令,以实现上述方法。
本申请实施例的基于音频切片调节的智能语音识别安全防御方法,通过依据人耳对不同播放速度的音频的理解能力设定倍速值取值范围,对于获取到的待保护音频数据,可以通过对待保护音频数据进行切分,并确定满足音频数据保护要求的目标候选音频切片,进而,可以从目标候选音频切片中确定出目标音频切片,确定目标倍速值,依据目标音频切片的起止时间,利用目标倍速值对待保护音频数据中与目标音频切片对应的部分进行倍速操作,并输出倍速操作后的音频数据,以得到人耳能够正常理解,且智能语音识别模型会错误识别的音频数据,在无需额外硬件的情况下,通过在软件层面对音频进行预处理即可实现对非法智能语音识别系统的安全防御功能,部署方便,可拓展性强,且无需对音频内容进行修改,实现了高隐蔽高保真的安全防御效果,此外,由于仅对待保护音频数据中的部分片段进行倍速操作,减少了对待保护音频数据的改动,降低了音频数据保护对原始音频数据的可听性与可理解性的影响。
附图说明
图1为本申请一示例性实施例示出的一种基于音频切片调节的智能语音识别安全防御方法的流程示意图;
图2为本申请一示例性实施例示出的一种基于音频切片调节的智能语音识别安全防御方法的流程示意图;
图3为本申请一示例性实施例示出的一种基于二分法的最小变化率倍速值选取的流程示意图;
图4为本申请一示例性实施例示出的一种基于音频切片调节的智能语音识别安全防御装置的结构示意图;
图5为本申请一示例性实施例示出的一种电子设备的硬件结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
为了使本领域技术人员更好地理解本申请实施例提供的技术方案,下面先对本申请实施例涉及的部分术语进行简单说明。
1、智能语音识别系统:指的是能够自动识别音频文件并输出转录文本的语音识别系统。
2、倍速操作:指的是在不改变音频音调的基础上,改变音频播放速度的操作。
3、倍速值:指经过倍速操作后音频的播放速度相较于原始音频播放速度的比率。
为了使本申请实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本申请实施例中技术方案作进一步详细的说明。
请参见图1,为本申请实施例提供的一种基于音频切片调节的智能语音识别安全防御方法的流程示意图,如图1所示,该基于音频切片调节的智能语音识别安全防御方法可以包括以下步骤:
步骤S100、获取待保护音频数据。
示例性的,待保护音频数据可以包括但不限于音频验证码。
例如,可以在生成或传播音频验证码的过程中,将待生成的音频验证码(即用于生成音频验证码的音频数据)或待传播的音频验证码作为待保护音频数据。
步骤S110、对待保护音频数据进行切分,并确定目标候选音频切片;其中,对于任一目标候选音频切片,该目标候选音频切片对应的第一测试音频的语音识别结果与初始语音识别结果不一致,音频切片对应的第一测试音频通过利用第一倍速值对该音频切片进行倍速操作,并将倍速操作后的音频切片与待保护音频数据中的其余未经过倍速操作的部分按原顺序拼接结合得到,初始语音识别结果为待保护音频数据的语音识别结果。
本申请实施例中,可以通过对音频数据进行倍速操作,使音频数据倍速操作前后的语音识别结果不同的方式,实现对音频数据的保护。
需要说明的是,在本申请实施例中,对音频数据进行倍速操作使用的倍速值均为预设倍速取值范围内的倍速值,该预设倍速取值范围可以依据人耳对不同播放速度的音频的理解能力来设定,依据该预设倍速值取值范围内的任一倍速值对待保护音频数据进行倍速操作之后,人耳能理解倍速操作后的音频数据。
本申请实施例中,为了减少音频数据保护对原始音频数据的改动,可以通过对待保护音频数据的部分内容进行倍速操作。
示例性的,可以通过对待保护音频数据进行切分的方式,得到多个音频切片,并分别依据各音频切片在预设倍速值(本文中称为第一倍速值)下的测试音频(本文中称为第一测试音频)语音识别结果,以及,待保护视频数据的语音识别结果(本文中称为初始语音识别结果),确定满足音频数据保护要求的音频切片(本文中称为目标候选音频切片)。
示例性的,目标候选音频切片对应的第一测试音频的语音识别结果和原始音频数据(即待保护音频数据)的语音识别结果(即初始语音识别结果)不一致。
示例性的,音频数据的语音识别结果可以利用智能语音识别模型对音频数据进行语音识别得到。
示例性的,对于任一音频切片,该音频切片在第一倍速值下的测试音频(即音频切片对应的第一测试音频)通过利用第一倍速值对该音频切片进行倍速操作,并将倍速操作后的音频切片与所述待保护音频数据中的其余未经过倍速操作的部分按原顺序拼接结合得到。
示例性的,考虑到通常对音频切片进行倍速操作的倍速值越大,音频切片在该倍速值下的测试音频在倍速操作前后的识别结果不一致的概率通常越高,因此,上述第一倍速值可以为预设倍速值取值范围的上限。
步骤S120、从目标候选音频切片中确定出目标音频切片,并确定目标倍速值;其中,目标测试音频的语音识别结果与初始语音识别结果不一致,目标测试音频通过利用目标倍速值对目标音频切片进行倍速操作,并将倍速操作后的目标音频切片与待保护音频数据中的其余未经过倍速操作的部分按原顺序拼接结合得到,目标倍速值的变化率小于等于第一倍速值的变化率,目标倍速值和第一倍速值均归属于预设倍速值取值范围。
本申请实施例中,在按照上述方式确定了目标候选音频切片的情况下,可以从目标候选音频切片中确定出目标音频切片,并确定对该目标音频切片进行倍速操作的倍速值(本文中称为目标倍速值)。
示例性的,目标音频切片在目标倍速值下的测试音频(本文中称为目标测试音频)的语音识别结果与初始语音识别结果不一致。
示例性的,目标倍速值的变化率可以小于等于第一倍速值的变化率。
其中,对于任一倍速值,若该倍速值小于1,则该倍速值的变化率为1与该倍速值的比值;若该倍速值大于1,则该倍速值的变化率为该倍速值与1的比值。
在一个示例中,目标倍速值的变化率可以等于第一倍速值的变化率,即可以将第一倍速值作为最终使用的目标倍速值。
例如,可以将至少一个目标候选音频切片确定为目标音频切片,并将第一倍速值,作为目标音频切片的目标倍速值。
在另一个示例中,目标倍速值的变化率可以小于第一倍速值的变化率。
示例性的,对于任一目标候选音频切片,假设存在第二倍速值,该第二倍速值的变化率小于第一倍速值的变化率,且目标候选音频切片在第二倍速值下的测试音频的语音识别结果与初始语音识别结果不一致,则可以将该目标候选音频切片确定为目标音频切片,将该第二倍速值确定为目标倍速值。
步骤S130、依据目标音频切片的起止时间,利用目标倍速值对待保护音频数据中与目标音频切片的起止时间对应的部分进行倍速操作,并输出倍速操作后的音频数据。
本申请实施例中,在按照上述方式确定了目标音频切片和目标倍速值的情况下,可以依据目标音频切片的起止时间,利用目标倍速值对待保护音频数据中与目标音频切片对应的部分进行倍速操作,并输出倍速操作后的音频数据,实现对待保护音频数据的保护。
可见,在图1所示方法流程中,通过依据人耳对不同播放速度的音频的理解能力设定倍速值取值范围,对于获取到的待保护音频数据,可以通过对待保护音频数据进行切分,并确定满足音频数据保护要求的目标候选音频切片,进而,可以从目标候选音频切片中确定出目标音频切片,确定目标倍速值,依据目标音频切片的起止时间,利用目标倍速值对待保护音频数据中与目标音频切片对应的部分进行倍速操作,并输出倍速操作后的音频数据,以得到人耳能够正常理解,且智能语音识别模型会错误识别的音频数据,在无需额外硬件的情况下,通过在软件层面对音频进行预处理即可实现对非法智能语音识别系统的安全防御功能,部署方便,可拓展性强,且无需对音频内容进行修改,实现了高隐蔽高保真的安全防御效果,此外,由于仅对待保护音频数据中的部分片段进行倍速操作,减少了对待保护音频数据的改动,降低了音频数据保护对原始音频数据的可听性与可理解性的影响。
在一些实施例中,步骤S110中,对待保护音频数据进行切分,并确定目标候选音频切片,可以包括:
依据预设最小切片长度,以及,预设切片数量,对待保护音频数据进行至少一个层级的切分;其中,对于任一层级的音频数据切分,待保护音频数据或一个音频切片切分得到的下一层级的音频切片的数量小于等于预设切片数量,且音频切片长度大于等于最小切片长度;
将对应的第一测试音频的语音识别结果与初始语音识别结果不一致,且层级最低的音频切片,确定为目标候选音频切片。
示例性的,为了减少音频数据保护对音频数据的改动,在确定目标音频切片时,可以依据预设最小切片长度,尽量搜索更短的满足保护要求的音频切片作为目标音频切片。
示例性的,可以依据预设最小切片长度,以及预设切片数量,对待保护音频数据进行至少一个层级的切分。
示例性的,对于任一层级的音频数据切分,待保护音频数据或一个音频切片切分得到的下一层级的音频切片的数量小于等于预设切片数量,且音频切片长度大于等于最小切片长度。
即在对待保护音频数据进行切分得到的音频切片(可以称为初级音频切片)的长度需要大于等于最小切片长度,且得到的初级音频切片的数量需要小于等于预设切片数量。
对于任一初级音频切片,在该初级音频切片满足保护要求(即该初级音频切片对应的第一测试音频的语音识别结果与初始语音识别结果不一致),且该初级音频切片的长度超过预设最小切片长度的情况下,可以对该初级音频切片进行切分,得到至少一个下一层级的音频切片。
示例性的,在按照上述方式对待保护音频数据进行了至少一个层级的切分的情况下,可以将对应的第一测试音频的语音识别结果与初始语音识别结果不一致,且层级最低的音频切片,确定为目标候选音频切片。
例如,在按照上述方式完成了对待保护视频数据至少一个层级的切分之后,可以遍历最后一个层级的音频切片,确定该层级中是否存在满足保护要求的音频切片,即该层级中是否存在对应的第一测试音频的语音识别结果与初始识别结果不一致的音频切片;若存在,则将该层级的音频切片确定为目标候选音频切片;否则,将上一层级的音频切片,确定为目标候选音频切片。
在一个示例中,上述依据预设最小切片长度,以及,预设切片数量,对待保护音频数据进行至少一个层级的切分,可以包括:
在待保护音频数据的长度与预设切片数量的比值大于等于预设最小切片长度的情况下,将待保护音频数据等分为预设切片数量的初级音频切片;
将对应的第一测试音频的语音识别结果与初始语音识别结果不一致的初级音频切片,确定为初级候选音频切片;
在当前最低层级的候选音频切片的长度与预设切片数量的比值大于等于预设最小切片长度的情况下,分别对各当前最低层级的候选音频切片进行下一层级的切分,并确定下一层级的候选音频切片;
在当前最低层级的候选音频切片的长度与预设切片数量的比值小于预设最小切片长度的情况下,分别对各当前最低层级的候选音频切片进行预设最小切片长度的音频切片切分,并确定下一层级的候选音频切片;
在当前最低层级的候选音频切片的长度等于预设最小切片长度,或,当前最低层级的音频切片中不存在候选音频切片的情况下,结束音频数据切分。
示例性的,在依据预设最小切片长度以及预设切片数量,对待保护音频数据进行切分时,可以先确定待保护音频数据的长度与预设切片数量的比值是否小于预设最小切片长度,即待保护音频数据是否可以被切分为预设切片数量的音频切片。
在待保护音频数据的长度与预设切片数量的比值大于等于预设最小切片长度的情况下,可以将待保护音频数据等分为预设切片数量的音频切片(可以称为初级音频切片),并从初级音频切片中确定出满足保护要求的候选音频切片(可以称为初级候选音频切片)。
示例性的,在进行音频切分的过程中,对于当前确定的最低层级的候选音频切片,可以确定该当前最低层级的候选音频切片的长度与预设切片数量的比值是否小于预设最小切片长度。
在当前最低层级的候选音频切片的长度与预设切片数量的比值大于等于预设最小切片长度的情况下,分别对各当前最低层级的候选音频切片进行下一层级的切分,并确定下一层级的候选音频切片。
在当前最低层级的候选音频切片的长度与预设切片数量的比值小于预设最小切片长度的情况下,即一个当前最低层级的候选音频切片无法再被分割为预设切片数量的下一层级的音频切片,此时,对于任一当前最低层级的候选音频切片,可以将其切分为至少一个预设最小切片长度的音频切片,并确定得到的音频切片中的候选音频切片。
需要说明的是,在对候选音频切片进行预设最小切片长度的音频切片切分时,若切分后剩余的音频长度小于预设最小切片长度,则可以确定该候选音频切片切分完成,并从切分得到的预设最小切片长度的音频切片中确定下一层级的候选音频切片,上述剩余的音频长度小于预设最小切片长度的音频数据,可以不进行处理。
示例性的,在当前最低层级的候选音频切片的长度等于预设最小切片长度,或,当前最低层级的音频切片中不存在候选音频切片(即不存在满足保护要求的音频切片)的情况下,结束音频数据切分。
在一个示例中,上述依据预设最小切片长度,以及,预设切片数量,对待保护音频数据进行至少一个层级的切分,可以包括:
在待保护音频数据的长度与预设切片数量的比值小于预设最小切片长度的情况下,对待保护音频数据进行预设最小切片长度的音频切片切分,得到至少一个初级音频切片,并结束音频数据切分。
示例性的,在待保护音频数据的长度与预设切片数量的比值小于预设最小切片长度的情况下,即待保护音频数据无法被分割为预设切片数量的下一层级的音频切片,此时,可以对待保护音频数据进行预设最小切片长度的音频切片切分,得到至少一个预设最小切片长度的初级音频切片,并结束音频切分。
作为一种示例,上述将对应的第一测试音频的语音识别结果与初始语音识别结果不一致,且层级最低的音频切片,确定为目标候选音频切片,可以包括:
在最低层级的候选音频切片的长度等于预设最小切片长度的情况下,将最低层级的候选音频切片确定为目标候选音频切片;
在最低层级的音频切片中不存在候选音频切片的情况下,将上一层级的候选音频切片确定为目标候选音频切片。
示例性的,在按照上述方式完成了对待保护音频数据的至少一个层级的切分的情况下,在最低层级的候选音频切片的长度等于预设最小切片长度的情况下,将最低层级的候选音频切片确定为目标候选音频切片。
在最低层级的音频切片中不存在候选音频切片的情况下,可以将上一层级的候选音频切片确定为目标候选音频切片。
在一些实施例中,上述从目标候选音频切片中确定出目标音频切片,并确定目标倍速值,可以包括:
对于任一目标候选音频切片,利用指定搜索策略,在预设倍速值取值范围内进行候选倍速值搜索,并在达到预设跳出条件的情况下,确定目标候选倍速值;其中,该目标候选音频切片在目标候选倍速值下的测试音频的语音识别结果与初始语音识别结果不一致;该指定搜索策略包括:若目标语音识别结果与初始语音识别结果不一致,则在预设倍速值取值范围内向下调整当前使用的倍速值;若目标语音识别结果与所述初始语音识别结果一致,则在预设倍速值取值范围内向上调整当前使用的倍速值;目标语音识别结果为该目标候选音频切片在当前使用的倍速值下的测试音频的语音识别结果;
依据各目标候选音频切片的目标候选倍速值的变化率,从各目标候选音频切片的目标候选倍速值中,选择至少一个目标候选倍速值作为目标倍速值,并将对应的目标候选音频切片确定为目标音频切片。
示例性的,考虑到最终选择的倍速值越接近1,依据所选择的倍速值对音频数据进行倍速操作后得到的音频数据的可理解性会越高,因此,为了优化用户体验,在确定目标倍速值时,可以在保证目标倍速值满足保护要求的情况下,尽量搜索得到更接近1的目标倍速值,以便在提高音频数据的安全性的情况下,提高最终输出的音频数据的可理解性,优化用户体验。
示例性的,为了提高目标倍速值的搜索性能,对于任一目标候选音频切片,利用指定搜索策略,在预设倍速值取值范围内进行候选倍速值搜索,并在达到预设跳出条件的情况下,确定目标候选倍速值。
示例性的,对于任一目标候选音频切片,在利用指定搜索策略,在预设倍速值取值范围内进行候选倍速值搜索的过程中,对于当前选择的倍速值,若该目标候选音频切片在该倍速值下的测试音频的语音识别结果(本文中称为目标语音识别结果)与初始语音识别结果不一致,则可以在预设倍速值取值范围内向下调整当前选择的倍速值;若目标语音识别结果与初始语音识别结果一致,则可以在预设倍速值取值范围内向上调整当前选择的倍速值。
按照上述方式,利用指定搜索策略,在预设倍速值取值范围内进行候选倍速值搜索,并在达到预设跳出条件的情况下,将最终选择的使该目标候选音频切片对应的测试音频的语音识别结果与初始语音识别结果不一致的倍速值,确定为目标候选倍速值。
示例性的,在确定了各目标候选音频切片的目标候选倍速值的情况下,可以依据各目标候选音频切片的目标候选倍速值的变化率,从各目标候选音频切片的目标候选倍速值中,选择至少一个目标候选倍速值作为目标倍速值,并将对应的目标候选音频切片确定为目标音频切片。
示例性的,可以依据各目标候选音频切片的目标候选倍速值的变化率,对各目标候选音频切片的目标候选倍速值进行排序,例如,按照变化率从小到大的顺序或从大到小的顺序,并将变化率最小的M(M≥1)个目标候选倍速值,确定为目标倍速值,并将对应的目标候选音频切片确定为目标音频切片。
例如,以按照变化率从小到大的顺序对各目标候选音频切片的目标候选倍速值进行排序为例,可以选择前M个目标候选倍速值作为目标倍速值,并将对应的目标候选音频切片确定为目标音频切片。
示例性的,在M=1的情况下,可以选择从各目标候选音频切片的目标候选倍速值中,选择变化率最小的目标候选倍速值作为目标倍速值,并将对应的目标候选音频切片确定为目标音频切片。
在一个示例中,上述利用指定搜索策略,在预设倍速值取值范围内进行候选倍速值搜索,并在达到预设跳出条件的情况下,确定目标候选倍速值,可以包括:
在预设倍速值取值范围的下限大于等于1的情况下,将当前的倍速值取值范围的中值为倍速值搜索起点;
若目标语音识别结果与所述初始语音识别结果不一致,则依据预设调整间隔,向下调整当前的倍速值取值范围的上限,并将当前使用的倍速值更新为调整后的倍速值取值范围的中值,依据更新后的倍速值更新目标语音识别结果,并依据初始语音识别结果与更新后的目标语音识别结果的比较结果,继续调整倍速值取值范围;
若目标语音识别结果与初始语音识别结果一致,则依据预设调整间隔,向上调整当前的倍速值取值范围的下限,并将当前使用的倍速值更新为调整后的倍速值取值范围的中值,依据更新后的倍速值更新目标语音识别结果,依据初始语音识别结果与更新后的目标语音识别结果的比较结果,继续调整倍速值取值范围;
在调整后的倍速值取值范围的下限大于等于调整后的倍速值取值范围的上限的情况下,将调整后的倍速值取值范围的中值确定为该目标候选音频切片的目标候选倍速值。
示例性的,考虑到倍速值小于1的情况下,所选择的倍速值越大,其越接近1,倍速操作后的音频数据的可理解性越好;而倍速值大于1的情况下,所选择的倍速值越小,其越接近1,倍速操作后的音频数据的可理解性越好。
相应地,在预设倍速值取值范围的下限大于等于1的情况下,将当前的倍速值取值范围的中值为倍速值搜索起点,并确定该搜索起点是否满足保护要求,即该目标候选音频切片在当前使用的倍速值下的测试音频的语音识别结果(本文中称为目标语音识别结果)与初始语音识别结果是否一致。
若目标语音识别结果与初始语音识别结果不一致,为了操作后的音频数据的可理解性,可以依据预设调整间隔,向下调整当前的倍速值取值范围的上限,即降低倍速值取值范围的上限,例如,将倍速值取值范围的上限更新为当前的倍速值取值范围的中值与预设调整间隔的差值,并将当前的倍速值更新为调整后的倍速值取值范围的中值,依据更新后的倍速值更新目标语音识别结果,并比较初始语音识别结果和更新后的目标语音识别结果,依据初始语音识别结果与更新后的目标语音识别结果的比较结果,继续调整倍速值取值范围。
若初始语音识别结果与目标语音识别结果一致,则可以依据预设调整间隔,向上调整当前的倍速值取值范围的下限,如将倍速值取值范围的下限更新为当前的倍速值取值范围的中值与预设调整间隔之和,并将当前使用的倍速值更新为调整后的倍速值取值范围的中值,依据更新后的倍速值更新目标语音识别结果,依据初始语音识别结果与更新后的目标语音识别结果的比较结果,继续调整倍速值取值范围。
在调整后的倍速值取值范围的下限大于等于调整后的倍速值取值范围的上限的情况下,可以确定达到跳出条件,在该情况下,可以结束倍速值的搜索更新,将调整后的倍速值取值范围的中值确定为该目标候选音频切片的目标候选倍速值,其具体实现方式可以在下文中结合实例进行说明。
在另一个示例中,上述利用指定搜索策略,在预设倍速值取值范围内进行候选倍速值搜索,并在达到预设跳出条件的情况下,确定目标候选倍速值,可以包括:
在预设倍速值取值范围的上限小于等于1的情况下,将当前的倍速值取值范围的中值为倍速值搜索起点;
若目标语音识别结果与初始语音识别结果不一致,则依据预设调整间隔,向上调整当前的倍速值取值范围的下限,并将当前使用的倍速值更新为调整后的倍速值取值范围的中值,依据更新后的倍速值更新目标语音识别结果,并依据初始语音识别结果与更新后的目标语音识别结果的比较结果,继续调整倍速值取值范围;其中,目标语音识别结果为该目标候选音频切片在当前使用的倍速值下的测试音频的语音识别结果;
若目标语音识别结果与所述初始语音识别结果一致,则依据预设调整间隔,向下调整当前的倍速值取值范围的上限,并将当前使用的倍速值更新为调整后的倍速值取值范围的中值,依据更新后的倍速值更新所述目标语音识别结果,依据初始语音识别结果与更新后的目标语音识别结果的比较结果,继续调整倍速值取值范围;
在调整后的倍速值取值范围的下限大于等于调整后的倍速值取值范围的上限的情况下,将调整后的倍速值取值范围的中值确定为该目标候选音频切片的目标候选倍速值。
示例性的,考虑到在倍速值小于1的情况下,倍速值越小,其与原始待保护音频数据的播放速度相差越大,倍速操作后的音频数据的可理解性越差。
因此,对于倍速值取值范围的上限小于等于1的情况,其倍速值取值范围的上限或下限调整策略会与倍速值取值范围的下限大于等于1的情况相反。
即初始语音识别结果与目标语音识别结果不一致的情况下,可以向上调整当前的倍速值取值范围的下限;初始语音识别结果与目标语音识别结果一致的情况下,可以向下调整当前的倍速取值范围的上限。
示例性的,对于倍速值取值范围的上限小于等于1的情况,其倍速值更新策略与倍速值取值范围的下限大于等于1的情况相类似,本申请实施例在此不再赘述。
在另一个示例中,上述利用指定搜索策略,在预设倍速值取值范围内进行候选倍速值搜索,并在达到预设跳出条件的情况下,确定目标候选倍速值,可以包括:
在预设倍速值取值范围的下限小于1,且预设倍速值取值范围的上限大于1的情况下,将预设倍速值取值范围划分为第一子取值范围和第二子取值范围,其中,第一子取值范围的上限为1,第二子取值范围的下限为1;
利用指定搜索策略,分别在第一子取值范围内确定第一目标候选倍速值,以及,在第二子取值范围内确定第二目标候选倍速值;
将第一目标候选倍速值和第二目标候选倍速值中变化率较小者,确定为该目标候选音频切片的目标候选倍速值。
示例性的,在倍速值取值范围跨越1的情况下,即倍速值取值范围的上限大于1,且下限小于1的情况下,可以对倍速值取值范围进行分段搜索,得到目标候选倍速值。
示例性的,可以将倍速值取值范围划分为以1为上限的子取值范围(本文中称为第一子取值范围)和以1为下限的子取值范围(本文中称为第二子取值范围),并利用指定搜索策略,分别在第一子取值范围内确定目标倍速值(本文中称为第一目标候选倍速值),以及,在第二子取值范围内确定目标倍速值(本文中称为第二目标倍速值)。
示例性的,可以将第一目标候选倍速值和第二目标候选倍速值中变化率较小的倍速值,确定为目标倍速值。
示例性的,相应地,在第一目标候选倍速值的倒数大于第二目标候选倍速值的情况下,即第二目标候选倍速值的变化率更小,则可以将第二目标候选倍速值确定为目标候选倍速值。
在第一目标候选倍速值的倒数小于第二目标候选倍速值的情况下,即第一目标候选倍速值的变化率更小,则可以将第一目标候选倍速值确定为目标候选倍速值;
在第一目标候选倍速值的倒数等于第二目标候选倍速值的情况下,即第一目标候选倍速值的变化率与第二目标候选倍速值的变化率相同,则可以将第一目标候选倍速值或第二目标候选倍速值确定为目标候选倍速值。
为了使本领域技术人员更好地理解本申请实施例提供的技术方案,下面结合具体实例对本申请实施例提供的技术方案进行说明。
在该实施例中,针对非法智能语音识别系统带来的安全威胁,提出一种基于音频切片调节的智能语音识别安全防御方法。该方法通过搜索待保护音频中满足保护要求的切片(下文中称为音频敏感切片),然后再利用有效的最小变化率倍速值对待保护音频中的部分音频进行倍速操作,造成非法智能语音识别系统识别出错,实现对非法智能语音识别系统的有效干扰。
其中,基于音频切片调节的智能语音识别安全防御方法通过在音频(如音频验证码等)生成或传播等关键过程中对音频敏感切片进行最优调节,使经过调节的音频可以被合法用户正常理解,又能造成非法智能语音识别系统的识别错误,从而实现对播放音频的有效防护。
如图2所示,该实施例提供的基于音频切片调节的智能语音识别安全防御方法可以包括以下流程:
S1:对于给定原始音频,利用音频敏感切片选取模块,筛选原始音频中可以造成非法智能语音识别系统识别出错的最短音频敏感切片集合。
示例性的,对于原始音频(即上述待保护音频数据)的任一音频切片,均以可用最大倍速值(即以上述第一倍速值为最大倍速值为例,如3.0倍速值)对其进行倍速操作。然后,将该经过倍速操作的候选敏感切片与整体音频中其余不经过倍速操作的部分按原顺序拼接结合,生成测试音频。接着,将测试音频输入到测试智能语音识别模型中。若测试音频的识别结果(即上述目标识别结果)与原始音频的识别结果(即上述初始识别结果)不一致,则判断该音频切片为可用音频敏感切片,得到音频敏感切片集。
示例性的,音频敏感切片集中可以包括一个或多个音频敏感切片。
示例性的,对于得到的可用音频敏感切片集,可以以最小规定切片长度值d min(即上述预设最小切片长度)为下限,筛选最短音频敏感切片集。
若在搜索完成后,未求解出有效的音频敏感切片,则输出无解;若搜索出有效的最短音频敏感切片集,则进入S2。
需要说明的是,在该实施例中,上述有效的音频敏感切片为长度为d min的音频敏感切片,即在该实施例中,对于任一原始音频,在该原始音频存在长度为d min的音频敏感切片的情况下,确定可以采用后续流程进行音频数据保护;否则,确定不存在有效的音频敏感切片,不执行后续流程。
但应该理解的是,有效的音频敏感切片为长度为d min的音频敏感切片仅仅是本申请实施例提供的技术方案的一种具体示例,在实际应用中,有效的音频敏感切片的长度可以不做限定,即可以为长度大于等于d min的任一长度的音频敏感切片。
示例性的,在该实施例中,最短音频敏感切片集的筛选方法可以包括但不限于动态规划法、深度优先搜索法、广度优先搜索法、遍历搜索法等。
设定的最小规定长度值d min可以包括20毫秒或40毫秒等。
可选的倍速操作算法或工具可以包括但不限于FFmpeg、SoundTouch、WaveformSimilarity Overlap-Add(WSOLA)算法以及Phase Vocoder(PV-TSM)算法等。
可选的智能语音识别模型包括DeepSpeech或Kaldi等。
S2:对最短音频敏感切片集中的每一个音频敏感切片,利用基于二分法的最小变化率倍速值选取模块,选取其可造成非法智能语音识别系统识别出错的最小变化率倍速值(即上述目标候选倍速值)。
S3、比较各最短音频敏感切片的最小变化率倍速值,选取倍速值的变化率最小的最短音频敏感切片作为输出解,并依据该音频敏感切片的起止点及其最小变化率倍速值(即上述目标倍速值),生成输出音频。
示例性的,如图3所示,基于二分法的最小变化率倍速值选取,其具体步骤描述如下:
S2.1:设定倍速操作的倍速值区间(即上述倍速值取值范围)为[Low,High]。
S2.2:若Low≥High,则达到跳出条件并输出Mid,否则进入S2.3。
S2.3:令Mid=ROUND((Low+High)/2,2),即保留(Low+High)/2值的小数点后两位。其中,ROUND(*,2)函数代表取*的小数点后2位。
S2.4:设定输入音频敏感切片的倍速值为Mid,保持整体音频其余部分的播放速度不变,然后将倍速操作后的音频敏感切片与未倍速操作的其余部分按照按原顺序拼接结合,生成测试音频。
S2.5、若在Mid值下测试音频的语音识别结果与原始音频的语音识别结果不一致,则High=Mid-0.01;否则,即Mid值下测试音频的语音识别结果与原始音频的语音识别结果一致,则Low=Mid+0.01。在计算完成后返回S2.2。
下面结合优选实施例对上述流程进行详细说明。
S1、对于给定原始音频x 0,将其输入到音频敏感切片选取模块,筛选原始音频中可以造成非法智能语音识别系统识别出错的最短音频敏感切片集合。
示例性的,以最短音频敏感切片长度为20毫秒为例。
1.1、输入音频x 0
1.2、输入音频切分范围[a,b],初始化计数值i=1,待切分范围队列Q为空。
示例性的,a,b的初始值分为0和x 0的音频长度L。
1.3、对[a,b]内音频进行n段切分操作。
示例性的,以n=10为例,若(b-a)/n≥d min,则将[a,b]内音频等分为10个音频切片;若(b-a)/n<d min,则对[a,b]内音频进行d min长度的切分,得到至少一个d min长度的音频切片。
1.4、对第i个音频切片进行最大倍速操作,并保持整段音频其余部分播放速度不变,拼接合成测试音频x i
1.5、将x i输入到智能语音识别模型。
1.6、判断x i的语音识别结果是否与原始音频x 0的语音识别结果一致。若是,则跳转1.7;若不是,则跳转1.8。
1.7、执行如下操作:
1.7.1、将i+1赋值给i。
1.7.2、判断i是否大于n。若否,则返回1.4。若是,则进入1.7.3。
1.7.3、判断待切分范围队列Q 是否为空。若是,则输出无解;若否,则进入1.7.4。
1.7.4、取待切分范围队列Q中第一项候选敏感切片的起止位置赋值给a与b,将该候选敏感切片从Q中删除,且设置i=1。然后跳转至1.3。
1.8、执行如下操作:
1.8.1、判断第i个音频切片的长度是否等于 d min。若是,则将第i个音频切片作为最短音频敏感切片输出;若否,则进入S1.8.2。
1.8.2、将第个音频切片的起止位置按顺序存入待切分范围队列Q。
1.8.3、将i+1赋值给i。
1.8.4、判断i是否大于n。若否,则返回S1.4。若是,则进入S1.8.5。
1.8.5、取待切分范围队列Q中第一项候选敏感切片的起止位置赋值给a与b,将该候选敏感切片从Q中删除,且设置i=1。然后跳转1.3。
S2、对最短音频敏感切片集中的每一个音频敏感切片,利用基于二分法的最小变化率倍速值选取模块,选取其可造成非法智能语音识别系统识别出错的最小变化率倍速值(即上述目标候选倍速值)。
具体操作描述如下:
2.1:设定倍速操作的倍速值区间(即上述倍速值取值范围)为[Low,High]。
2.2:若Low≥High,则达到跳出条件并输出Mid,否则进入2.3。
2.3:令Mid=ROUND((Low+High)/2,2),即保留(Low+High)/2值的小数点后两位。其中,ROUND(*,2)函数代表取*的小数点后2位。
2.4:设定输入音频敏感切片的倍速值为Mid,保持整体音频其余部分的播放速度不变,然后将倍速操作后的音频敏感切片与未倍速操作的其余部分按照按原顺序拼接结合,生成测试音频。若在Mid值下测试音频的语音识别结果与原始音频的语音识别结果不一致,则High=Mid-0.01;否则若Mid值下测试音频的语音识别结果与原始音频的语音识别结果一致,则Low=Mid+0.01。在计算完成后返回2.2。
S3、比较各最短音频敏感切片的最小变化率倍速值,选取倍速值的变化率最小的最短音频敏感切片作为输出解,并依据该音频敏感切片的起止点及其最小变化率倍速值(即上述目标倍速值),生成输出音频。
以上对本申请提供的方法进行了描述。下面对本申请提供的装置进行描述:
请参见图4,为本申请实施例提供的一种基于音频切片调节的智能语音识别安全防御装置的结构示意图,如图4所示,该基于音频切片调节的智能语音识别安全防御装置可以包括:
获取单元410,用于获取待保护音频数据;
切分单元420,用于对所述待保护音频数据进行切分,并确定目标候选音频切片;其中,对于任一所述目标候选音频切片,该目标候选音频切片对应的第一测试音频的语音识别结果与初始语音识别结果不一致,音频切片对应的第一测试音频通过利用第一倍速值对该音频切片进行倍速操作,并将倍速操作后的音频切片与所述待保护音频数据中的其余未经过倍速操作的部分按原顺序拼接结合得到,所述初始语音识别结果为所述待保护音频数据的语音识别结果;
确定单元430,用于从所述目标候选音频切片中确定出目标音频切片,并确定目标倍速值;其中,目标测试音频的语音识别结果与所述初始语音识别结果不一致,所述目标测试音频通过利用所述目标倍速值对所述目标音频切片进行倍速操作,并将倍速操作后的目标音频切片与所述待保护音频数据中的其余未经过倍速操作的部分按原顺序拼接结合得到,所述目标倍速值的变化率小于等于所述第一倍速值的变化率,所述目标倍速值和所述第一倍速值均归属于预设倍速值取值范围;
防御单元440,用于依据所述目标音频切片的起止时间,利用所述目标倍速值对所述待保护音频数据中与所述起止时间对应的部分进行倍速操作,并输出倍速操作后的音频数据。
在一些实施例中,所述切分单元420对所述待保护音频数据进行切分,并确定目标候选音频切片,包括:
依据预设最小切片长度,以及,预设切片数量,对所述待保护音频数据进行至少一个层级的切分;其中,对于任一层级的音频数据切分,所述待保护音频数据或一个音频切片切分得到的下一层级的音频切片的数量小于等于所述预设切片数量,且音频切片长度大于等于所述最小切片长度;
将对应的第一测试音频的语音识别结果与所述初始语音识别结果不一致,且层级最低的音频切片,确定为目标候选音频切片。
在一些实施例中,所述切分单元420依据预设最小切片长度,以及,预设切片数量,对所述待保护音频数据进行至少一个层级的切分,包括:
在所述待保护音频数据的长度与所述预设切片数量的比值大于等于所述预设最小切片长度的情况下,将所述待保护音频数据切分为所述预设切片数量的初级音频切片;
将对应的第一测试音频的语音识别结果与所述初始语音识别结果不一致的初级音频切片,确定为初级候选音频切片;
在当前最低层级的候选音频切片的长度与所述预设切片数量的比值大于等于所述预设最小切片长度的情况下,分别对各当前最低层级的候选音频切片进行下一层级的切分,并确定下一层级的候选音频切片;
在当前最低层级的候选音频切片的长度与所述预设切片数量的比值小于所述预设最小切片长度的情况下,分别对各当前最低层级的候选音频切片进行所述预设最小切片长度的音频切片切分,并确定下一层级的候选音频切片;
在当前最低层级的候选音频切片的长度等于所述预设最小切片长度,或,当前最低层级的音频切片中不存在候选音频切片的情况下,结束音频数据切分。
在一些实施例中,所述切分单元420依据预设最小切片长度,以及,预设切片数量,对所述待保护音频数据进行至少一个层级的切分,包括:
在所述待保护音频数据的长度与所述预设切片数量的比值小于所述预设最小切片长度的情况下,对所述待保护音频数据进行所述预设最小切片长度的音频切片切分,得到至少一个初级音频切片,并结束音频数据切分。
在一些实施例中,所述切分单元将对应的第一测试音频的语音识别结果与所述初始语音识别结果不一致,且层级最低的音频切片,确定为目标候选音频切片,包括:
在最低层级的候选音频切片的长度等于所述预设最小切片长度的情况下,将最低层级的候选音频切片确定为目标候选音频切片;
在最低层级的音频切片中不存在候选音频切片的情况下,将上一层级的候选音频切片确定为目标候选音频切片。
在一些实施例中,所述确定单元430从所述目标候选音频切片中确定出目标音频切片,并确定目标倍速值,包括:
对于任一目标候选音频切片,利用指定搜索策略,在所述预设倍速值取值范围内进行候选倍速值搜索,并在达到预设跳出条件的情况下,确定目标候选倍速值;其中,该目标候选音频切片在目标候选倍速值下的测试音频的语音识别结果与所述初始语音识别结果不一致;所述指定搜索策略包括:若目标语音识别结果与所述初始语音识别结果不一致,则在所述预设倍速值取值范围内向下调整当前使用的倍速值;若目标语音识别结果与所述初始语音识别结果一致,则在所述预设倍速值取值范围内向上调整当前使用的倍速值;所述目标语音识别结果为该目标候选音频切片在当前使用的倍速值下的测试音频的语音识别结果;
依据各目标候选音频切片的目标候选倍速值的变化率,从各目标候选音频切片的目标候选倍速值中,选择至少一个目标候选倍速值作为目标倍速值,并将对应的目标候选音频切片确定为目标音频切片。
在一些实施例中,所述确定单元430对于任一目标候选音频切片,利用指定搜索策略,在所述预设倍速值取值范围内进行候选倍速值搜索,并在达到预设跳出条件的情况下,确定目标候选倍速值,包括:
在所述预设倍速值取值范围的下限大于等于1的情况下,将当前的倍速值取值范围的中值为倍速值搜索起点;
若目标语音识别结果与所述初始语音识别结果不一致,则依据预设调整间隔,向下调整当前的倍速值取值范围的上限,并将当前使用的倍速值更新为调整后的倍速值取值范围的中值,依据更新后的倍速值更新所述目标语音识别结果,并依据所述初始语音识别结果与更新后的目标语音识别结果的比较结果,继续调整倍速值取值范围;
若所述目标语音识别结果与所述初始语音识别结果一致,则依据所述预设调整间隔,向上调整当前的倍速值取值范围的下限,并将当前使用的倍速值更新为调整后的倍速值取值范围的中值,依据更新后的倍速值更新所述目标语音识别结果,依据所述初始语音识别结果与更新后的目标语音识别结果的比较结果,继续调整倍速值取值范围;
在调整后的倍速值取值范围的下限大于等于调整后的倍速值取值范围的上限的情况下,将调整后的倍速值取值范围的中值确定为该目标候选音频切片的目标候选倍速值。
在一些实施例中,所述确定单元430对于任一目标候选音频切片,利用指定搜索策略,在所述预设倍速值取值范围内进行候选倍速值搜索,并在达到预设跳出条件的情况下,确定目标候选倍速值,包括:
在所述预设倍速值取值范围的上限小于等于1的情况下,将当前的倍速值取值范围的中值为倍速值搜索起点;
若目标语音识别结果与所述初始语音识别结果不一致,则依据预设调整间隔,向上调整当前的倍速值取值范围的下限,并将当前使用的倍速值更新为调整后的倍速值取值范围的中值,依据更新后的倍速值更新所述目标语音识别结果,并依据所述初始语音识别结果与更新后的目标语音识别结果的比较结果,继续调整倍速值取值范围;
若所述目标语音识别结果与所述初始语音识别结果一致,则依据所述预设调整间隔,向下调整当前的倍速值取值范围的上限,并将当前使用的倍速值更新为调整后的倍速值取值范围的中值,依据更新后的倍速值更新所述目标语音识别结果,依据所述初始语音识别结果与更新后的目标语音识别结果的比较结果,继续调整倍速值取值范围;
在调整后的倍速值取值范围的下限大于等于调整后的倍速值取值范围的上限的情况下,将调整后的倍速值取值范围的中值确定为该目标候选音频切片的目标候选倍速值。
在一些实施例中,所述确定单元430对于任一目标候选音频切片,利用指定搜索策略,在所述预设倍速值取值范围内进行候选倍速值搜索,并在达到预设跳出条件的情况下,确定目标候选倍速值,包括:
在所述预设倍速值取值范围的下限小于1,且所述预设倍速值取值范围的上限大于1的情况下,将所述预设倍速值取值范围划分为第一子取值范围和第二子取值范围,其中,所述第一子取值范围的上限为1,所述第二子取值范围的下限为1;
利用指定搜索策略,分别在所述第一子取值范围内确定第一目标候选倍速值,以及,在所述第二子取值范围内确定第二目标候选倍速值;
将所述第一目标候选倍速值和所述第二目标候选倍速值中变化率较小者,确定为该目标候选音频切片的目标候选倍速值。
对应地,本申请还提供了图4所示装置的硬件结构。参见图5,该硬件结构可包括:处理器和机器可读存储介质,机器可读存储介质存储有能够被所述处理器执行的机器可执行指令;所述处理器用于执行机器可执行指令,以实现本申请上述示例公开的方法。
基于与上述方法同样的申请构思,本申请实施例还提供一种机器可读存储介质,所述机器可读存储介质上存储有若干机器可执行指令,所述机器可执行指令被处理器执行时,能够实现本申请上述示例公开的方法。
示例性的,上述机器可读存储介质可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,机器可读存储介质可以是:RAM(Radom Access Memory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (9)

1.一种基于音频切片调节的智能语音识别安全防御方法,其特征在于,包括:
获取待保护音频数据;
对所述待保护音频数据进行切分,并确定目标候选音频切片;其中,对于任一所述目标候选音频切片,该目标候选音频切片对应的第一测试音频的语音识别结果与初始语音识别结果不一致,音频切片对应的第一测试音频通过利用第一倍速值对该音频切片进行倍速操作,并将倍速操作后的音频切片与所述待保护音频数据中的其余未经过倍速操作的部分按原顺序拼接结合得到,所述初始语音识别结果为所述待保护音频数据的语音识别结果;
从所述目标候选音频切片中确定出目标音频切片,并确定目标倍速值;其中,目标测试音频的语音识别结果与所述初始语音识别结果不一致,所述目标测试音频通过利用所述目标倍速值对所述目标音频切片进行倍速操作,并将倍速操作后的目标音频切片与所述待保护音频数据中的其余未经过倍速操作的部分按原顺序拼接结合得到,所述目标倍速值的变化率小于等于所述第一倍速值的变化率,所述目标倍速值和所述第一倍速值均归属于预设倍速值取值范围;
依据所述目标音频切片的起止时间,利用所述目标倍速值对所述待保护音频数据中与所述起止时间对应的部分进行倍速操作,并输出倍速操作后的音频数据;
其中,所述对所述待保护音频数据进行切分,并确定目标候选音频切片,包括:
依据预设最小切片长度,以及,预设切片数量,对所述待保护音频数据进行至少一个层级的切分;其中,对于任一层级的音频数据切分,所述待保护音频数据或一个音频切片切分得到的下一层级的音频切片的数量小于等于所述预设切片数量,且音频切片长度大于等于所述最小切片长度;
将对应的第一测试音频的语音识别结果与所述初始语音识别结果不一致,且层级最低的音频切片,确定为目标候选音频切片。
2.根据权利要求1所述的方法,其特征在于,所述依据预设最小切片长度,以及,预设切片数量,对所述待保护音频数据进行至少一个层级的切分,包括:
在所述待保护音频数据的长度与所述预设切片数量的比值大于等于所述预设最小切片长度的情况下,将所述待保护音频数据切分为所述预设切片数量的初级音频切片;
将对应的第一测试音频的语音识别结果与所述初始语音识别结果不一致的初级音频切片,确定为初级候选音频切片;
在当前最低层级的候选音频切片的长度与所述预设切片数量的比值大于等于所述预设最小切片长度的情况下,分别对各当前最低层级的候选音频切片进行下一层级的切分,并确定下一层级的候选音频切片;
在当前最低层级的候选音频切片的长度与所述预设切片数量的比值小于所述预设最小切片长度的情况下,分别对各当前最低层级的候选音频切片进行所述预设最小切片长度的音频切片切分,并确定下一层级的候选音频切片;
在当前最低层级的候选音频切片的长度等于所述预设最小切片长度,或,当前最低层级的音频切片中不存在候选音频切片的情况下,结束音频数据切分。
3.根据权利要求1所述的方法,其特征在于,所述依据预设最小切片长度,以及,预设切片数量,对所述待保护音频数据进行至少一个层级的切分,包括:
在所述待保护音频数据的长度与所述预设切片数量的比值小于所述预设最小切片长度的情况下,对所述待保护音频数据进行所述预设最小切片长度的音频切片切分,得到至少一个初级音频切片,并结束音频数据切分。
4.根据权利要求2或3所述的方法,其特征在于,所述将对应的第一测试音频的语音识别结果与所述初始语音识别结果不一致,且层级最低的音频切片,确定为目标候选音频切片,包括:
在最低层级的候选音频切片的长度等于所述预设最小切片长度的情况下,将最低层级的候选音频切片确定为目标候选音频切片;
在最低层级的音频切片中不存在候选音频切片的情况下,将上一层级的候选音频切片确定为目标候选音频切片。
5.根据权利要求1所述的方法,其特征在于,所述从所述目标候选音频切片中确定出目标音频切片,并确定目标倍速值,包括:
对于任一目标候选音频切片,利用指定搜索策略,在所述预设倍速值取值范围内进行候选倍速值搜索,并在达到预设跳出条件的情况下,确定目标候选倍速值;其中,该目标候选音频切片在目标候选倍速值下的测试音频的语音识别结果与所述初始语音识别结果不一致;所述指定搜索策略包括:若目标语音识别结果与所述初始语音识别结果不一致,则在所述预设倍速值取值范围内向下调整当前使用的倍速值;若目标语音识别结果与所述初始语音识别结果一致,则在所述预设倍速值取值范围内向上调整当前使用的倍速值;所述目标语音识别结果为该目标候选音频切片在当前使用的倍速值下的测试音频的语音识别结果;依据各目标候选音频切片的目标候选倍速值的变化率,从各目标候选音频切片的目标候选倍速值中,选择至少一个目标候选倍速值作为目标倍速值,并将对应的目标候选音频切片确定为目标音频切片。
6.根据权利要求5所述的方法,其特征在于,所述对于任一目标候选音频切片,利用指定搜索策略,在所述预设倍速值取值范围内进行候选倍速值搜索,并在达到预设跳出条件的情况下,确定目标候选倍速值,包括:
在所述预设倍速值取值范围的下限大于等于1的情况下,将当前的倍速值取值范围的中值为倍速值搜索起点;
若目标语音识别结果与所述初始语音识别结果不一致,则依据预设调整间隔,向下调整当前的倍速值取值范围的上限,并将当前使用的倍速值更新为调整后的倍速值取值范围的中值,依据更新后的倍速值更新所述目标语音识别结果,并依据所述初始语音识别结果与更新后的目标语音识别结果的比较结果,继续调整倍速值取值范围;
若所述目标语音识别结果与所述初始语音识别结果一致,则依据所述预设调整间隔,向上调整当前的倍速值取值范围的下限,并将当前使用的倍速值更新为调整后的倍速值取值范围的中值,依据更新后的倍速值更新所述目标语音识别结果,依据所述初始语音识别结果与更新后的目标语音识别结果的比较结果,继续调整倍速值取值范围;
在调整后的倍速值取值范围的下限大于等于调整后的倍速值取值范围的上限的情况下,将调整后的倍速值取值范围的中值确定为该目标候选音频切片的目标候选倍速值。
7.根据权利要求5所述的方法,其特征在于,所述利用指定搜索策略,在所述预设倍速值取值范围内进行候选倍速值搜索,并在达到预设跳出条件的情况下,确定目标候选倍速值,包括:
在所述预设倍速值取值范围的上限小于等于1的情况下,将当前的倍速值取值范围的中值为倍速值搜索起点;
若目标语音识别结果与所述初始语音识别结果不一致,则依据预设调整间隔,向上调整当前的倍速值取值范围的下限,并将当前使用的倍速值更新为调整后的倍速值取值范围的中值,依据更新后的倍速值更新所述目标语音识别结果,并依据所述初始语音识别结果与更新后的目标语音识别结果的比较结果,继续调整倍速值取值范围;
若所述目标语音识别结果与所述初始语音识别结果一致,则依据所述预设调整间隔,向下调整当前的倍速值取值范围的上限,并将当前使用的倍速值更新为调整后的倍速值取值范围的中值,依据更新后的倍速值更新所述目标语音识别结果,依据所述初始语音识别结果与更新后的目标语音识别结果的比较结果,继续调整倍速值取值范围;
在调整后的倍速值取值范围的下限大于等于调整后的倍速值取值范围的上限的情况下,将调整后的倍速值取值范围的中值确定为该目标候选音频切片的目标候选倍速值。
8.根据权利要求5所述的方法,其特征在于,所述利用指定搜索策略,在所述预设倍速值取值范围内进行候选倍速值搜索,并在达到预设跳出条件的情况下,确定目标候选倍速值,包括:
在所述预设倍速值取值范围的下限小于1,且所述预设倍速值取值范围的上限大于1的情况下,将所述预设倍速值取值范围划分为第一子取值范围和第二子取值范围,其中,所述第一子取值范围的上限为1,所述第二子取值范围的下限为1;
利用指定搜索策略,分别在所述第一子取值范围内确定第一目标候选倍速值,以及,在所述第二子取值范围内确定第二目标候选倍速值;
将所述第一目标候选倍速值和所述第二目标候选倍速值中变化率较小者,确定为该目标候选音频切片的目标候选倍速值。
9.一种基于音频切片调节的智能语音识别安全防御装置,其特征在于,包括:
获取单元,用于获取待保护音频数据;
切分单元,用于对所述待保护音频数据进行切分,并确定目标候选音频切片;其中,对于任一所述目标候选音频切片,该目标候选音频切片对应的第一测试音频的语音识别结果与初始语音识别结果不一致,音频切片对应的第一测试音频通过利用第一倍速值对该音频切片进行倍速操作,并将倍速操作后的音频切片与所述待保护音频数据中的其余未经过倍速操作的部分按原顺序拼接结合得到,所述初始语音识别结果为所述待保护音频数据的语音识别结果;
确定单元,用于从所述目标候选音频切片中确定出目标音频切片,并确定目标倍速值;其中,目标测试音频的语音识别结果与所述初始语音识别结果不一致,所述目标测试音频通过利用所述目标倍速值对所述目标音频切片进行倍速操作,并将倍速操作后的目标音频切片与所述待保护音频数据中的其余未经过倍速操作的部分按原顺序拼接结合得到,所述目标倍速值的变化率小于等于所述第一倍速值的变化率,所述目标倍速值和所述第一倍速值均归属于预设倍速值取值范围;
防御单元,用于依据所述目标音频切片的起止时间,利用所述目标倍速值对所述待保护音频数据中与所述起止时间对应的部分进行倍速操作,并输出倍速操作后的音频数据;
其中,所述切分单元对所述待保护音频数据进行切分,并确定目标候选音频切片,包括:
依据预设最小切片长度,以及,预设切片数量,对所述待保护音频数据进行至少一个层级的切分;其中,对于任一层级的音频数据切分,所述待保护音频数据或一个音频切片切分得到的下一层级的音频切片的数量小于等于所述预设切片数量,且音频切片长度大于等于所述最小切片长度;
将对应的第一测试音频的语音识别结果与所述初始语音识别结果不一致,且层级最低的音频切片,确定为目标候选音频切片。
CN202210499339.5A 2022-05-09 2022-05-09 基于音频切片调节的智能语音识别安全防御方法及装置 Active CN114639375B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210499339.5A CN114639375B (zh) 2022-05-09 2022-05-09 基于音频切片调节的智能语音识别安全防御方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210499339.5A CN114639375B (zh) 2022-05-09 2022-05-09 基于音频切片调节的智能语音识别安全防御方法及装置

Publications (2)

Publication Number Publication Date
CN114639375A CN114639375A (zh) 2022-06-17
CN114639375B true CN114639375B (zh) 2022-08-23

Family

ID=81952885

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210499339.5A Active CN114639375B (zh) 2022-05-09 2022-05-09 基于音频切片调节的智能语音识别安全防御方法及装置

Country Status (1)

Country Link
CN (1) CN114639375B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110992934A (zh) * 2019-10-28 2020-04-10 浙江工业大学 面向语音识别系统黑盒攻击模型的防御方法及防御装置
CN111627412A (zh) * 2020-05-06 2020-09-04 Oppo(重庆)智能科技有限公司 音频变速方法、装置、电子设备和计算机可读存储介质
WO2021109695A1 (zh) * 2019-12-06 2021-06-10 支付宝(杭州)信息技术有限公司 一种对抗攻击的监测方法和装置
CN113470630A (zh) * 2021-06-28 2021-10-01 杨兵海 基于大数据的语音识别方法、系统、设备及存储介质
CN113872987A (zh) * 2021-10-18 2021-12-31 深圳追一科技有限公司 一种恶意攻击的防御方法、装置、存储介质和网关

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108172224B (zh) * 2017-12-19 2019-08-27 浙江大学 基于机器学习的防御无声指令控制语音助手的方法
CN109599109B (zh) * 2018-12-26 2022-03-25 浙江大学 针对白盒场景的对抗音频生成方法及系统
CN110312146B (zh) * 2019-06-06 2021-11-09 百度在线网络技术(北京)有限公司 音频处理方法、装置、电子设备和存储介质
US11222651B2 (en) * 2019-06-14 2022-01-11 Robert Bosch Gmbh Automatic speech recognition system addressing perceptual-based adversarial audio attacks
CN110379418B (zh) * 2019-06-28 2021-08-13 西安交通大学 一种语音对抗样本生成方法
US11768932B2 (en) * 2019-06-28 2023-09-26 Baidu Usa Llc Systems and methods for fast training of more robust models against adversarial attacks
CN111785274B (zh) * 2020-06-28 2023-12-05 宁波大学 一种针对语音识别系统的黑盒对抗样本生成方法
EP3989217B1 (en) * 2020-10-22 2023-09-27 Thomson Licensing Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium
CN113763968B (zh) * 2021-09-08 2024-05-07 北京百度网讯科技有限公司 用于识别语音的方法、装置、设备、介质和产品

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110992934A (zh) * 2019-10-28 2020-04-10 浙江工业大学 面向语音识别系统黑盒攻击模型的防御方法及防御装置
WO2021109695A1 (zh) * 2019-12-06 2021-06-10 支付宝(杭州)信息技术有限公司 一种对抗攻击的监测方法和装置
CN111627412A (zh) * 2020-05-06 2020-09-04 Oppo(重庆)智能科技有限公司 音频变速方法、装置、电子设备和计算机可读存储介质
CN113470630A (zh) * 2021-06-28 2021-10-01 杨兵海 基于大数据的语音识别方法、系统、设备及存储介质
CN113872987A (zh) * 2021-10-18 2021-12-31 深圳追一科技有限公司 一种恶意攻击的防御方法、装置、存储介质和网关

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Anti-Replay: A Fast and Lightweight Voice Replay;Zhuoyang Shi et al;《2021 IEEE 27th International Conference on Parallel and Distributed Systems (ICPADS)》;20211231;全文 *
基于定长窗分层检测的音频分割算法;王志明等;《计算机仿真》;20090915(第09期);全文 *
面向语音识别系统的黑盒对抗攻击方法;陈晋音等;《小型微型计算机系统》;20200515(第05期);全文 *

Also Published As

Publication number Publication date
CN114639375A (zh) 2022-06-17

Similar Documents

Publication Publication Date Title
KR100446627B1 (ko) 음성대화 인터페이스를 이용한 정보제공장치 및 그 방법
US7043439B2 (en) Machine interface
CN1196105C (zh) 给用户提供声音反馈的可扩展语音识别系统
Kiktova-Vozarikova et al. Feature selection for acoustic events detection
JP2007115143A (ja) 会話制御装置
US7010483B2 (en) Speech processing system
CN112825249A (zh) 语音处理方法和设备
CN113823323B (zh) 一种基于卷积神经网络的音频处理方法、装置及相关设备
CN112951211B (zh) 一种语音唤醒方法及装置
KR20180106817A (ko) 전자 장치 및 제어 방법
JP2020020872A (ja) 識別器、学習済モデル、学習方法
CN111428078A (zh) 音频指纹编码方法、装置、计算机设备及存储介质
CN114639375B (zh) 基于音频切片调节的智能语音识别安全防御方法及装置
JP3987927B2 (ja) 波形認識方法及び装置、並びにプログラム
JP2013512477A (ja) 車載オーディオ装置における語彙辞書の再編集
CN114627876B (zh) 基于音频动态调节的智能语音识别安全防御方法及装置
JPWO2008072459A1 (ja) 能動学習システム、能動学習方法、及び能動学習用プログラム
JP3264253B2 (ja) ドキュメント自動分類システム及び方法
JP7088796B2 (ja) 音声合成に用いる統計モデルを学習する学習装置及びプログラム
KR20220053498A (ko) 기계 학습 모델을 이용하여 복수의 신호 성분을 포함하는 오디오 신호 처리 장치
KR101888059B1 (ko) 문맥 기반 음성 모델 관리 장치 및 그 방법
JP4631251B2 (ja) メディア検索装置およびメディア検索プログラム
CN117292688B (zh) 一种基于智能语音鼠标的控制方法及智能语音鼠标
KR102621954B1 (ko) 관련 지식 유무에 따라 대화모델을 운용하는 대화 방법 및 시스템
JP7241636B2 (ja) 情報処理装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant