CN114627877A - 基于定向目标的智能语音识别安全防御方法、装置和设备 - Google Patents
基于定向目标的智能语音识别安全防御方法、装置和设备 Download PDFInfo
- Publication number
- CN114627877A CN114627877A CN202210499335.7A CN202210499335A CN114627877A CN 114627877 A CN114627877 A CN 114627877A CN 202210499335 A CN202210499335 A CN 202210499335A CN 114627877 A CN114627877 A CN 114627877A
- Authority
- CN
- China
- Prior art keywords
- speed
- target
- value sequence
- current
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000007123 defense Effects 0.000 title claims abstract description 11
- 230000002068 genetic effect Effects 0.000 claims description 34
- 230000008569 process Effects 0.000 claims description 33
- 238000013518 transcription Methods 0.000 claims description 15
- 230000035897 transcription Effects 0.000 claims description 15
- 238000012986 modification Methods 0.000 claims description 6
- 230000004048 modification Effects 0.000 claims description 6
- 230000007547 defect Effects 0.000 abstract description 4
- 230000003993 interaction Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 11
- 238000004590 computer program Methods 0.000 description 7
- 230000006399 behavior Effects 0.000 description 5
- 238000012544 monitoring process Methods 0.000 description 5
- 230000035772 mutation Effects 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000012248 genetic selection Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/173—Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提供了基于定向目标的智能语音识别安全防御方法、装置和设备。本实施例通过对原始音频数据进行分片倍速操作得到原始音频数据对应的至少一个候选输出音频,从候选输出音频中选择目标输出音频(目标输出音频的转录文本为定向目标转录文本)并输出,实现了对非法的目标智能语音识别系统的输出的定向控制,相应改变了对于非法的智能语音识别系统不可控的缺陷,增大非法的智能语音识别系统的输出与原始音频数据的差异性,大幅提升了语音交互的安全性。
Description
技术领域
本申请涉及语音识别,特别涉及基于定向目标的智能语音识别安全防御方法、装置和设备。
背景技术
智能语音识别系统可用于语音智能翻译、语音控制助手等,其通过自动转录输入的音频数据,大幅提升用户的生活和工作效率。
但是,在应用中,常出现智能语音识别系统被攻击者非法监听等恶意行为,对合法用户造成极大威胁,比如威胁合法用户的隐私与财产安全等。
发明内容
本申请提供了基于定向目标的智能语音识别安全防御方法、装置和设备,以实现对非法智能语音识别系统的输出进行定向控制,提升语音交互的安全性。
本申请提供的技术方案包括:
一种基于定向目标的智能语音识别安全防御方法,该方法包括:
获得原始音频数据和定向目标转录文本;所述定向目标转录文本不同于所述原始音频数据的转录文本,所述原始音频数据的转录文本是经由目标智能语音识别系统识别得到;
将所述原始音频数据分成n段切片;n大于1,每一段切片的长度大于或等于预设最小切片长度;
获得多个目标倍速值序列,依据每一目标倍速值序列中的倍速值,对所述原始音频数据中的切片进行倍速操作得到每一目标倍速值序列对应的候选输出音频;
输出目标输出音频;所述目标输出音频的转录文本为所述定向目标转录文本,所述目标输出音频为其中一个候选输出音频,各候选输出音频的转录文本是经由所述目标智能语音识别系统识别得到的。
一种基于定向目标的智能语音识别安全防御装置,该装置包括:
切片模块,用于获得原始音频数据和定向目标转录文本;所述定向目标转录文本不同于所述原始音频数据的转录文本,所述原始音频数据的转录文本是经由目标智能语音识别系统识别得到;以及,将所述原始音频数据分成n段切片;n大于1,每一段切片的长度大于或等于预设最小切片长度;
倍速改动模块,用于获得多个目标倍速值序列,依据每一目标倍速值序列中的倍速值,对所述原始音频数据中的切片进行倍速操作得到每一目标倍速值序列对应的候选输出音频;
输出模块,用于输出目标输出音频;所述目标输出音频的转录文本为所述定向目标转录文本,所述目标输出音频为其中一个候选输出音频,各候选输出音频的转录文本是经由所述目标智能语音识别系统识别得到的。
一种电子设备,该电子设备包括:处理器和机器可读存储介质;
所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令;
所述处理器用于执行机器可执行指令,以实现上述方法中的步骤。
由以上技术方案可以看出,本实施例中,通过对原始音频数据进行分片倍速操作得到原始音频数据对应的至少一个候选输出音频,并从候选输出音频中选择目标输出音频(目标输出音频的转录文本为定向目标转录文本)并输出,以实现诸如上述目标智能语音识别系统等非法系统即使监听到目标输出音频,其也只能识别为定向目标转录文本,实现了对非法的目标智能语音识别系统的输出的定向控制,相应改变了对于非法的智能语音识别系统不可控的缺陷,增大非法的智能语音识别系统的输出与原始音频数据的差异性,大幅提升了语音交互的安全性;
进一步地,在本实施例提供的上述方法可在软件层面实现,无需额外增加硬件,部署方便,可拓展性强;
进一步地,本实施例通过对诸如上述目标智能语音识别系统等非法系统的输出进行定向控制,以便根据输出的定向目标转录文本精准确定这些非法系统被用于监听等非法行为,并进一步在被输出的定向目标转录文本被应用时能及时根据该应用追溯到执行监听等非法行为的非法用户。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1为本申请实施例提供的方法流程图;
图2为本申请实施例提供的实施例流程图;确定目标倍速值序列的流程图;
图3为本申请实施例提供的确定当前可用倍速值序列的流程图;
图4为本申请实施例提供的确定候选倍速值序列的流程图;
图5为本申请实施例提供的装置结构图;
图6为本申请实施例提供的装置硬件结构图。
具体实施方式
为使本申请提供的方法更加容易理解,下面结合附图和实施例对本申请提供的方法进行详细描述:
参见图1,图1为本申请实施例提供的方法流程图。该流程应用于电子设备。
如图1所示,该流程可包括以下步骤:
步骤101,获得原始音频数据和定向目标转录文本。
可选地,在本实施例中,可通过被用于非法比如攻击或监听等的目标智能语音识别系统自动将原始音频数据识别出转录文本,此时得到的文本称为原始音频数据的转录文本。
可选地,为方便获得经由目标智能语音识别系统识别出的原始音频数据的转录文本,可预先获得目标智能语音识别系统的输入接口、输出接口,通过控制在输入接口输入上述原始音频数据,即可直接获得目标智能语音识别系统通过输出接口输出的原始音频数据的转录文本。需要说明的是,这里只是举例描述如何得到经由目标智能语音识别系统识别出的原始音频数据的转录文本,并非用于限定。
在本实施例中,上述步骤101中的定向目标转录文本不同于原始音频数据的转录文本,其可根据实际需求构造出的某一转录文本。
步骤102,将原始音频数据分成n段切片;n大于1,每一段切片的长度大于或等于预设最小切片长度。
在本实施例中,可在保证任一切片长度大于或等于预设最小切片长度的前提下,对原始音频数据随机进行切片,得到上述n段切片。需要说明的是,本实施例并不具体限定n的具体取值,其完全可基于实际需求自定义。
可选地,在本实施例中,不同切片的长度可不同或相同,本实施例并不具体限定。
在本实施例中,预设最小切片长度可根据实际需求设置,其可设置为目前常规的智能语音系统要求的最短音频长度比如20毫秒等,本实施例并不具体限定。
步骤103,获得多个目标倍速值序列,依据每一目标倍速值序列中的倍速值,对所述原始音频数据中的切片进行倍速操作得到每一目标倍速值序列对应的候选输出音频;
可选地,在本实施例中,每一目标倍速值序列包括与原始音频数据中每一段切片对应的倍速值。基于此,在步骤103中,针对每一目标倍速值序列,依据该目标倍速值序列中的每一倍速值,对所述原始音频数据中与该倍速值对应的切片进行倍速操作,将经过倍速操作后的切片按顺序拼接,得到该目标倍速值序列对应的候选输出音频。这里的顺序可为切片在原始音频数据中的顺序。
在本实施例中,上述倍速操作,指的是在不改变音调的基础上改变播放速度的操作。上述任一倍速值是指经过倍速操作后的播放速度相比执行倍速操作之前的速度的比例。
在本实施例中,上述获得多个目标倍速值序列的方式有很多,比如,随机生成多个倍速值序列作为目标倍速值序列,等等,本实施例并不具体限定。
在本实施例中,目标倍速值序列的数量可根据实际需求设置,比如当应用于遗传算法确定目标倍速值序列时,此时该目标倍速值序列的数量可为遗传算法应用的种群大小N。
步骤104,输出目标输出音频;所述目标输出音频的转录文本为所述定向目标转录文本,所述目标输出音频为其中一个候选输出音频,各候选输出音频的转录文本是经由所述目标智能语音识别系统识别得到的。
基于上面描述的预先获得目标智能语音识别系统的输入接口、输出接口,则可通过控制在输入接口输入各候选输出音频,即可直接获得目标智能语音识别系统通过输出接口输出的各候选输出音频的转录文本。
假若有至少一个候选输出音频的转录文本为上述定向目标转录文本,则可将该至少一个候选输出音频作为目标候选输出音频并输出。之后,即可对外传输上述目标输出音频,当目标输出音频被诸如上述目标智能语音识别系统等非法系统监听到后,其也只能输出上述定向目标转录文本,使得诸如上述目标智能语音识别系统等非法系统不仅输出错误文本,该错误文本还是被预先指定的定向目标转录文本,实现了对非法的目标智能语音识别系统的可控防御,相应改变了对于非法的智能语音识别系统不可控的缺陷。
至此,完成图1所示流程。
通过图1所示流程可以看出,本申请实施例通过对原始音频数据进行分片倍速操作得到原始音频数据对应的至少一个候选输出音频,并从候选输出音频中选择目标输出音频(目标输出音频的转录文本为定向目标转录文本)并输出,实现了目标输出音频可被合法用户正常理解,但又能造成非法的目标智能语音识别系统输出特定错误目标即上述的定向目标转录文本,实现对非法的目标智能语音识别系统的可控防御,相应改变了对于非法的智能语音识别系统不可控的缺陷,增大非法的智能语音识别系统的输出与原始音频数据的差异性,大幅提升了语音交互的安全性;
进一步地,在本实施例中,上述图1所示的流程可在软件层面实现,无需额外增加硬件,部署方便,可拓展性强。
进一步地,本实施例通过对诸如上述目标智能语音识别系统等非法系统的输出进行定向控制,以便根据输出的定向目标转录文本精准确定这些非法系统被用于监听等非法行为,并进一步在被输出的定向目标转录文本被应用比如被用作验证码等时,能及时根据该应用追溯到执行监听等非法行为的非法用户。
以上是在至少一个候选输出音频的转录文本为上述定向目标转录文本的前提下描述的。需要说明的是,在本实施例中,假若没有一个候选输出音频的转录文本为上述定向目标转录文本,则此时可继续执行迭代操作,具体可见图2所示的迭代过程。
参见图2,图2为本申请实施例提供的实施例流程图。该实施例是站在没有一个候选输出音频的转录文本为上述定向目标转录文本的前提下执行的。
如图2所示,该流程可包括以下步骤:
步骤201,依据上述多个目标倍速值序列确定当前可用倍速值序列。
在本实施例中,依据上述多个目标倍速值序列确定当前可用倍速值序列有很多实现方式,比如依据遗传选法确定,下文会通过图3所示流程举例描述,这里暂不赘述。
步骤202,将当前可用倍速值序列作为目标倍速值序列,返回执行上述步骤103中依据每一目标倍速值序列中的倍速值,对原始音频数据中的切片进行倍速操作得到每一目标倍速值序列对应的候选输出音频的操作。
至此,完成图2所示流程。
通过图2所示的迭代流程,最终会输出转录文本为上述定向目标转录文本的目标输出视频。
下面对上述步骤202中如何依据多个目标倍速值序列确定当前可用倍速值序列进行描述:
如上描述,在本实施例中,可基于遗传算法确定当前可用倍速值序列。其中,在基于遗传算法确定当前可用倍速值序列时,会先执行以下步骤a:针对每一候选输出音频,依据定向目标转录文本和该候选输出音频转录文本,确定该候选输出音频的适应度值。
可选地,本实施例可借助适应度函数比如Jaro-Winkler字符串相似度函数来确定候选输出音频的适应度值。以Jaro-Winkler字符串相似度函数为例,可将定向目标转录文本和该候选输出音频的转录文本输入至Jaro-Winkler字符串相似度函数,Jaro-Winkler字符串相似度函数的输出结果即为该候选输出音频的适应度值。需要说明的是,这里只是举例描述如何确定候选输出音频的适应度值,并非用于限定。之后执行如图3所示的流程:
如图3所示,该流程可包括以下步骤:
步骤301,将已得到的各候选输出音频作为历史种群中的历史子代。
假若遗传算法应用的种群大小为N,表示种群中包含的子代数量为N,这里,子代为上述的候选输出音频。基于此,在本步骤301中,可将已得到的各候选输出音频作为历史子代,此时该历史子代所在的种群记为历史中群。
步骤302,针对待确定的当前种群中的其中一个当前子代,按照遗传算法中的子代选择过程,选择历史中群中其中一个历史子代对应的目标倍速值序列作为该当前子代的当前可用倍速值序列。
在本实施例中,当前种群的大小也为N,即,其也包含N个当前子代。其中,针对其中一个当前子代,则如步骤302描述,按照遗传算法中的子代选择过程,选择历史中群中其中一个历史子代对应的目标倍速值序列作为该当前子代的当前可用倍速值序列。
可选地,在本实施例中,在按照遗传算法中的子代选择过程,选择历史中群中其中一个历史子代对应的目标倍速值序列作为该当前子代的当前可用倍速值序列可包括:从历史中群中选择自适应度值满足预设条件的历史子代,将满足预设条件的历史子代的目标倍速值序列确定为该当前子代的当前可用倍速值序列。可选地,在本实施例中,预设条件可根据实际需求设置,比如取值最大、取值为指定值,等等,本实施例并不具体限定。
步骤303,针对当前待确定的当前种群中的剩余每一当前子代,按照所述遗传算法中的子代交叉过程选择历史种群中其中一个历史子代对应的目标倍速值序列作为该当前子代的候选倍速值序列,并按照所述遗传算法中的子代变异过程对该当前子代的候选倍速值序列进行变异得到当前子代的当前可用倍速值序列。
如上描述,当前种群会包含N个当前子代,通过上述步骤302,确定出其中一个当前子代的当前可用倍速值序列,针对剩余的N-1个当前子代,则按照如上步骤303的描述执行。需要说明的是,步骤302和步骤303并没有固定的时间先后顺序,其也可同时进行。
可选地,在步骤303中,按照所述遗传算法中的子代交叉过程选择历史种群中其中一个历史子代对应的目标倍速值序列作为该当前子代的候选倍速值序列有很多实现方式,比如:针对每一当前子代,从历史种群中选择该当前子代相关联的两个历史子代,依据该两个历史子代中每一历史子代对应的目标倍速值序列被该当前子代选择的概率,以及该两个历史子代中每一历史子代对应的目标倍速值序列,确定该当前子代的候选倍速值序列。
在本实施例中,从从历史种群中选择该当前子代相关联的两个历史子代,有很多实现方式,比如可依据轮盘赌(RWS:RouletteWheelSelection)算法选择;或者随机选择,等等,本实施例并不具体限定。
在本实施例中,上述两个历史子代中每一历史子代对应的目标倍速值序列被该当前子代选择的概率可依据该两个历史子代的历史自适应度值确定,比如,针对该两个历史子代中的每一历史子代,计算该历史子代的自适应度值与该两个历史子代的自适应度值之和的比值,将该比值确定为该历史子代的目标倍速值序列被该当前子代选择的概率。
可选地,在本实施例中,当前子代的候选倍速值序列可通过图4所示的流程确定,这里暂不赘述。
在得到各当前子代的候选倍速值序列后,则如步骤303描述,则进一步按照遗传算法中的子代变异过程对当前子代的候选倍速值序列进行变异得到当前子代的当前倍速值序列。
可选地,在本实施例中,按照遗传算法中的子代变异过程对该当前子代的候选倍速值序列进行变异有很多实现方式,比如:针对当前子代的候选倍速值序列中的每一倍速值,将该倍速值与该倍速值对应的随机数进行叠加,依据叠加结果与Smax、 Smin确定更新该倍速值,最终会得到当前子代的当前倍速值序列。在本实施例中,随机数在 [-α*ρ,α*ρ]范围内。Smax、Smin、ρ、α为遗传算法的参数,Smax为最大倍速值,Smin为最小倍速值,ρ为变异概率,α为变异步长。
可选地,在本实施例中,依据叠加结果与Smax、 Smin确定更新该倍速值,包括:若叠加结果在[Smin,Smax]内,则将该倍速值更新为该叠加结果,若叠加结果小于Smin,则将该倍速值更新为Smin,若叠加结果大于Smax,则将该倍速值更新为Smax。
至此,完成图3所示流程。
最终通过图3所示流程实现了如何按照遗传算法并依据已得到的目标倍速值序列,确定当前可用倍速值序列。需要说明的是,上述只是举例如何确定当前子代的当前可用倍速值序列,并非用于限定。
可选地,在本实施例中,应用于遗传算法,遗传算法还具有以下参数:最大迭代次数G和迭代次数标志位g。基于此,在通过图3确定当前可用倍速值序列后,且在执行输出目标输出音频之前,可进一步执行以下步骤:
将迭代次数标志位g增加设定值(比如1等);
判断迭代次数标志位g在增加设定值后是否小于或等于最大迭代次数G,如果是,则继续执行输出目标输出音频的步骤,如果否,结束当前流程。
可选地,应用于遗传算法,在通过图3确定当前可用倍速值序列后,且在执行输出目标输出音频之前,还可进一步更新变异概率ρ,变异步长α。具体如何更新本实施例并不具体限定。
下面对如何确定上述当前子代的候选倍速值序列进行描述:
参见图4,图4为本申请实施例提供的候选倍速值序列确定流程图。如图4所示,该流程可包括:
步骤401,选择上述两个历史子代中第一历史子代的概率为基准概率。
这里,可将上述两个历史子代中的其中一个历史子代为第一历史子代,另一个为第二历史子代。这里只是为便于描述而进行的命名,并非用于限定。
步骤402,针对候选倍速值序列中每一待确定倍速值的位置,生成一个随机数,随机数在0到1之间;若随机数小于或等于所述基准概率,则确定该位置上的倍速值为所述第一历史子代对应的倍速值序列中相同位置上的倍速值,否则,确定该位置上的倍速值为所述第二历史子代对应的倍速值序列中相同位置上的倍速值。
可选地,在本实施例中,候选倍速值序列可包含n个候选倍速值,因此,每一候选倍速值可按照如上步骤402确定。最终会确定出整个候选倍速值序列。
至此,完成图4所示的流程。
通过图4所示流程实现了如何依据该两个历史子代的概率和该两个历史子代的历史倍速值序列确定该当前子代的候选倍速值序列。需要说明的是,图4所示流程只是一种举例,并非用于限定。
以上对本申请实施例提供的方法进行描述。下面对本申请实施例提供的装置进行描述:
参见图5,图5为本申请实施例提供的装置结构图。该装置包括:
切片模块,用于获得原始音频数据和定向目标转录文本;所述定向目标转录文本不同于所述原始音频数据的转录文本,所述原始音频数据的转录文本是经由目标智能语音识别系统识别得到;以及,将所述原始音频数据分成n段切片;n大于1,每一段切片的长度大于或等于预设最小切片长度;
倍速改动模块,用于获得多个目标倍速值序列,依据每一目标倍速值序列中的倍速值,对所述原始音频数据中的切片进行倍速操作得到每一目标倍速值序列对应的候选输出音频;
输出模块,用于输出目标输出音频;所述目标输出音频的转录文本为所述定向目标转录文本,所述目标输出音频为其中一个候选输出音频,各候选输出音频的转录文本是经由所述目标智能语音识别系统识别得到的。
可选地,若任一候选输出音频的转录文本不为所述定向目标转录文本,则倍速改动模块进一步依据所述多个目标倍速值序列确定当前可用倍速值序列;将所述当前可用倍速值序列作为目标倍速值序列,返回执行依据每一目标倍速值序列中的倍速值,对所述原始音频数据中的切片进行倍速操作得到每一目标倍速值序列对应的候选输出音频。
可选地,所述依据所述多个目标倍速值序列确定当前可用倍速值序列包括:
将已得到的所述候选输出音频作为历史种群中的历史子代;
针对当前待确定的当前种群中的其中一个当前子代,按照遗传算法中的子代选择过程,选择历史种群中其中一个历史子代对应的目标倍速值序列作为该当前子代的当前可用倍速值序列;
针对当前待确定的当前种群中的剩余每一当前子代,按照所述遗传算法中的子代交叉过程选择历史种群中其中一个历史子代对应的目标倍速值序列作为该当前子代的候选倍速值序列,并按照所述遗传算法中的子代变异过程对该当前子代的候选倍速值序列进行变异得到当前子代的当前可用倍速值序列。
可选地,所述按照遗传算法中的子代选择过程,选择历史中群中其中一个历史子代对应的目标倍速值序列作为该当前子代的当前可用倍速值序列包括:从历史种群中选择自适应度值满足所述预设条件的历史子代,将满足所述预设条件的历史子代的目标倍速值序列确定为该当前子代的当前可用倍速值序列。
可选地,所述按照所述遗传算法中的子代交叉过程选择历史种群中其中一个历史子代对应的目标倍速值序列作为该当前子代的候选倍速值序列包括:从历史种群中选择该当前子代相关联的两个历史子代,依据该两个历史子代中每一历史子代对应的目标倍速值序列被该当前子代选择的概率,以及该两个历史子代中每一历史子代对应的目标倍速值序列,确定该当前子代的候选倍速值序列。
可选地,所述按照所述遗传算法中的子代变异过程对该当前子代的候选倍速值序列进行变异得到当前子代的当前可用倍速值序列包括:针对该候选倍速值序列中的每一倍速值,将该倍速值与随机数进行叠加,依据叠加结果与Smax、 Smin更新该倍速值,最终得到当前子代的当前可用倍速值序列;所述随机数在 [-α*ρ,α*ρ]范围内,Smax、Smin、ρ、α为所述遗传算法的参数,Smax为最大倍速值,Smin为最小倍速值,ρ为变异概率,α为变异步长。
可选地,所述两个历史子代中的其中一个历史子代为第一历史子代,另一个为第二历史子代;
所述候选倍速值序列中每一候选倍速值是通过以下步骤确定:
选择所述两个历史子代中第一历史子代的概率为基准概率;
针对候选倍速值序列中每一待确定倍速值的位置,生成一个随机数,随机数在0到1之间;
若随机数小于或等于所述基准概率,则确定该位置上的倍速值为所述第一历史子代对应的倍速值序列中相同位置上的倍速值,否则,确定该位置上的倍速值为所述第二历史子代对应的倍速值序列中相同位置上的倍速值。
可选地,依据叠加结果与Smax、 Smin更新该倍速值包括:
若叠加结果在[Smin,Smax]内,则将该倍速值更新为该叠加结果,
若叠加结果小于Smin,则将该倍速值更新为Smin,
若叠加结果大于Smax,则将该倍速值更新为Smax。
可选地,所述遗传算法还具有以下参数:迭代次数标志位g和最大迭代次数G;
在依据所述多个目标倍速值序列确定当前可用倍速值序列后,且在执行输出目标输出音频之前,该方法进一步包括:将迭代次数标志位g增加设定值;判断迭代次数标志位g在增加设定值后是否小于或等于最大迭代次数G,如果是,则继续执行输出目标输出音频的步骤,如果否,结束当前流程。
至此,完成图5所示装置的结构描述。
对应地,本申请还提供了图5所示装置的硬件结构。参见图6,该硬件结构可包括:处理器和机器可读存储介质,机器可读存储介质存储有能够被所述处理器执行的机器可执行指令;所述处理器用于执行机器可执行指令,以实现本申请上述示例公开的方法。
基于与上述方法同样的申请构思,本申请实施例还提供一种机器可读存储介质,所述机器可读存储介质上存储有若干计算机指令,所述计算机指令被处理器执行时,能够实现本申请上述示例公开的方法。
示例性的,上述机器可读存储介质可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,机器可读存储介质可以是:RAM(Radom Access Memory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可以由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
而且,这些计算机程序指令也可以存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或者多个流程和/或方框图一个方框或者多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上,使得在计算机或者其它可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (9)
1.一种基于定向目标的智能语音识别安全防御方法,其特征在于,该方法包括:
获得原始音频数据和定向目标转录文本;所述定向目标转录文本不同于所述原始音频数据的转录文本,所述原始音频数据的转录文本是经由目标智能语音识别系统识别得到;
将所述原始音频数据分成n段切片;n大于1,每一段切片的长度大于或等于预设最小切片长度;
获得多个目标倍速值序列,依据每一目标倍速值序列中的倍速值,对所述原始音频数据中的切片进行倍速操作得到每一目标倍速值序列对应的候选输出音频;
输出目标输出音频;所述目标输出音频的转录文本为所述定向目标转录文本,所述目标输出音频为其中一个候选输出音频,各候选输出音频的转录文本是经由所述目标智能语音识别系统识别得到的。
2.根据权利要求1所述的方法,其特征在于,若任一候选输出音频的转录文本不为所述定向目标转录文本,则该方法进一步包括:
依据所述多个目标倍速值序列确定当前可用倍速值序列;
将所述当前可用倍速值序列作为目标倍速值序列,返回执行依据每一目标倍速值序列中的倍速值,对所述原始音频数据中的切片进行倍速操作得到每一目标倍速值序列对应的候选输出音频。
3.根据权利要求2所述的方法,其特征在于,所述依据所述多个目标倍速值序列确定当前可用倍速值序列包括:
将已得到的所述候选输出音频作为历史种群中的历史子代;
针对当前待确定的当前种群中的其中一个当前子代,按照遗传算法中的子代选择过程,选择历史种群中其中一个历史子代对应的目标倍速值序列作为该当前子代的当前可用倍速值序列;
针对当前待确定的当前种群中的剩余每一当前子代,按照所述遗传算法中的子代交叉过程选择历史种群中其中一个历史子代对应的目标倍速值序列作为该当前子代的候选倍速值序列,并按照所述遗传算法中的子代变异过程对该当前子代的候选倍速值序列进行变异得到当前子代的当前可用倍速值序列。
4.根据权利要求3所述的方法,其特征在于,
所述按照遗传算法中的子代选择过程,选择历史中群中其中一个历史子代对应的目标倍速值序列作为该当前子代的当前可用倍速值序列包括:从历史种群中选择自适应度值满足预设条件的历史子代,将满足所述预设条件的历史子代的目标倍速值序列确定为该当前子代的当前可用倍速值序列;
和/或,
所述按照所述遗传算法中的子代交叉过程选择历史种群中其中一个历史子代对应的目标倍速值序列作为该当前子代的候选倍速值序列包括:从历史种群中选择该当前子代相关联的两个历史子代,依据该两个历史子代中每一历史子代对应的目标倍速值序列被该当前子代选择的概率,以及该两个历史子代中每一历史子代对应的目标倍速值序列,确定该当前子代的候选倍速值序列;和/或,
所述按照所述遗传算法中的子代变异过程对该当前子代的候选倍速值序列进行变异得到当前子代的当前可用倍速值序列包括:针对该候选倍速值序列中的每一倍速值,将该倍速值与随机数进行叠加,依据叠加结果与Smax、 Smin更新该倍速值,最终得到当前子代的当前可用倍速值序列;所述随机数在 [-α*ρ,α*ρ]范围内,Smax、Smin、ρ、α为所述遗传算法的参数,Smax为最大倍速值,Smin为最小倍速值,ρ为变异概率,α为变异步长。
5.根据权利要求4所述的方法,其特征在于,所述两个历史子代中的其中一个历史子代为第一历史子代,另一个为第二历史子代;
所述候选倍速值序列中每一候选倍速值是通过以下步骤确定:
选择所述两个历史子代中第一历史子代的概率为基准概率;
针对候选倍速值序列中每一待确定倍速值的位置,生成一个随机数,随机数在0到1之间;
若随机数小于或等于所述基准概率,则确定该位置上的倍速值为所述第一历史子代对应的倍速值序列中相同位置上的倍速值,否则,确定该位置上的倍速值为所述第二历史子代对应的倍速值序列中相同位置上的倍速值。
6.根据权利要求4所述的方法,其特征在于,依据叠加结果与Smax、 Smin更新该倍速值包括:
若叠加结果在[Smin,Smax]内,则将该倍速值更新为该叠加结果,
若叠加结果小于Smin,则将该倍速值更新为Smin,
若叠加结果大于Smax,则将该倍速值更新为Smax。
7.根据权利要求2至6任一所述的方法,其特征在于,所述遗传算法还具有以下参数:迭代次数标志位g和最大迭代次数G;
在依据所述多个目标倍速值序列确定当前可用倍速值序列后,且在执行输出目标输出音频之前,该方法进一步包括:将迭代次数标志位g增加设定值;判断迭代次数标志位g在增加设定值后是否小于或等于最大迭代次数G,如果是,则继续执行输出目标输出音频的步骤,如果否,结束当前流程。
8.一种基于定向目标的智能语音识别安全防御装置,其特征在于,该装置包括:
切片模块,用于获得原始音频数据和定向目标转录文本;所述定向目标转录文本不同于所述原始音频数据的转录文本,所述原始音频数据的转录文本是经由目标智能语音识别系统识别得到;以及,将所述原始音频数据分成n段切片;n大于1,每一段切片的长度大于或等于预设最小切片长度;
倍速改动模块,用于获得多个目标倍速值序列,依据每一目标倍速值序列中的倍速值,对所述原始音频数据中的切片进行倍速操作得到每一目标倍速值序列对应的候选输出音频;
输出模块,用于输出目标输出音频;所述目标输出音频的转录文本为所述定向目标转录文本,所述目标输出音频为其中一个候选输出音频,各候选输出音频的转录文本是经由所述目标智能语音识别系统识别得到的。
9.一种电子设备,其特征在于,该电子设备包括:处理器和机器可读存储介质;
所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令;
所述处理器用于执行机器可执行指令,以实现权利要求1-7任一项的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210499335.7A CN114627877A (zh) | 2022-05-09 | 2022-05-09 | 基于定向目标的智能语音识别安全防御方法、装置和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210499335.7A CN114627877A (zh) | 2022-05-09 | 2022-05-09 | 基于定向目标的智能语音识别安全防御方法、装置和设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114627877A true CN114627877A (zh) | 2022-06-14 |
Family
ID=81905682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210499335.7A Pending CN114627877A (zh) | 2022-05-09 | 2022-05-09 | 基于定向目标的智能语音识别安全防御方法、装置和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114627877A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130243186A1 (en) * | 2012-03-13 | 2013-09-19 | Alexander Poston, JR. | Audio encryption systems and methods |
CN106303874A (zh) * | 2016-10-28 | 2017-01-04 | 东南大学 | 一种数字助听器的自适应验配方法 |
CN107493482A (zh) * | 2016-06-12 | 2017-12-19 | 杭州海康威视数字技术股份有限公司 | 一种视频回放方法及装置 |
CN108399451A (zh) * | 2018-02-05 | 2018-08-14 | 西北工业大学 | 一种结合遗传算法的混合粒子群优化算法 |
CN112381343A (zh) * | 2020-09-30 | 2021-02-19 | 北京工业大学 | 一种基于遗传-骨干粒子群混合算法的柔性作业车间调度方法 |
CN113096645A (zh) * | 2021-03-31 | 2021-07-09 | 闽江学院 | 电话语音的处理方法 |
-
2022
- 2022-05-09 CN CN202210499335.7A patent/CN114627877A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130243186A1 (en) * | 2012-03-13 | 2013-09-19 | Alexander Poston, JR. | Audio encryption systems and methods |
CN107493482A (zh) * | 2016-06-12 | 2017-12-19 | 杭州海康威视数字技术股份有限公司 | 一种视频回放方法及装置 |
CN106303874A (zh) * | 2016-10-28 | 2017-01-04 | 东南大学 | 一种数字助听器的自适应验配方法 |
CN108399451A (zh) * | 2018-02-05 | 2018-08-14 | 西北工业大学 | 一种结合遗传算法的混合粒子群优化算法 |
CN112381343A (zh) * | 2020-09-30 | 2021-02-19 | 北京工业大学 | 一种基于遗传-骨干粒子群混合算法的柔性作业车间调度方法 |
CN113096645A (zh) * | 2021-03-31 | 2021-07-09 | 闽江学院 | 电话语音的处理方法 |
Non-Patent Citations (2)
Title |
---|
李超豪: "物联网邻近交互安全关键技术研究", 《中国优秀博硕士学位论文全文数据库(博士) 信息科技辑》 * |
辛斌: "《面向复杂优化问题求解的智能优化方法》", 30 September 2017, 北京理工大学出版社 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3574430B1 (en) | Continuous learning for intrusion detection | |
US20230186097A1 (en) | Methods and apparatus to defend against adversarial machine learning | |
KR102361327B1 (ko) | 쉘 정렬을 이용하여 동형 암호문에 대한 정렬을 수행하는 전자 장치 및 그 동작 방법 | |
JP2013528837A (ja) | 非対称カオス暗号化 | |
AU2020103810A4 (en) | A method for detecting fake news using grammatic transformation on neural network computer readable medium | |
US8019593B2 (en) | Method and apparatus for generating features through logical and functional operations | |
CN111931057A (zh) | 一种自适应输出的序列推荐方法和系统 | |
Aghakhani et al. | VENOMAVE: Clean-label poisoning against speech recognition | |
CN104898821A (zh) | 一种信息处理的方法及电子设备 | |
KR101624421B1 (ko) | 이모티콘 추천 방법 및 이모티콘을 추천하는 사용자 단말 | |
CN114627877A (zh) | 基于定向目标的智能语音识别安全防御方法、装置和设备 | |
Mun et al. | Black-box audio adversarial attack using particle swarm optimization | |
Castelli et al. | A hybrid genetic algorithm for the repetition free longest common subsequence problem | |
Rathi et al. | Watermarking of deep recurrent neural network using adversarial examples to protect intellectual property | |
Cai et al. | VSVC: Backdoor attack against keyword spotting based on voiceprint selection and voice conversion | |
CN111460444B (zh) | 针对威胁检测系统的自动恶意软件签名生成 | |
CN111489787B (zh) | 一种CRISPR/Cas9靶向敲除定点DNA效率的预测方法 | |
Hranický et al. | On practical aspects of pcfg password cracking | |
KR102188115B1 (ko) | 생성적 적대 신경망을 기초로 암의 예후 예측에 사용되는 바이오 마커의 선정이 가능한 전자 장치 및 그 동작 방법 | |
GB2557710A (en) | Identifying contacts using speech recognition | |
CN114627858A (zh) | 基于粒子群算法的智能语音识别安全防御方法和装置 | |
US20220068163A1 (en) | Encryption processing device, encryption processing method, and computer program product | |
CN112700005B (zh) | 一种基于蒙特卡洛树搜索的异常事件处理方法和装置 | |
CN110120211B (zh) | 基于旋律结构的旋律生成方法及装置 | |
US20150326750A1 (en) | Data hiding method via revision records on a collaboration platform |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220614 |