CN109545199B - 一种音频处理方法、装置及可读存储介质 - Google Patents

一种音频处理方法、装置及可读存储介质 Download PDF

Info

Publication number
CN109545199B
CN109545199B CN201910018827.8A CN201910018827A CN109545199B CN 109545199 B CN109545199 B CN 109545199B CN 201910018827 A CN201910018827 A CN 201910018827A CN 109545199 B CN109545199 B CN 109545199B
Authority
CN
China
Prior art keywords
audio file
preset
feature vector
neural network
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910018827.8A
Other languages
English (en)
Other versions
CN109545199A (zh
Inventor
彭凝多
魏华强
李锐
唐博
彭恒进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Homwee Technology Co ltd
Original Assignee
Homwee Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Homwee Technology Co ltd filed Critical Homwee Technology Co ltd
Priority to CN201910018827.8A priority Critical patent/CN109545199B/zh
Publication of CN109545199A publication Critical patent/CN109545199A/zh
Application granted granted Critical
Publication of CN109545199B publication Critical patent/CN109545199B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明公开一种音频处理方法、装置及可读存储介质,涉及数据处理技术领域。一种音频处理方法包括:获取第一音频文件的第一特征向量;通过预先训练好的第一神经网络模型对第一特征向量进行反失真处理,获得第二特征向量;对第二特征向量进行编码,获得第二音频文件;其中,第二音频文件经播放设备向语音识别系统播放,语音识别系统对第二音频文件的识别结果和对第一音频文件的识别结果相同。因此,第二音频文件在不同环境、不同距离和不同音量的条件下播放,语音识别系统能够准确识别出第二音频文件中的内容,并且该内容与第一音频文件的内容相同。换言之,对于语音识别系统,第二音频文件不是失真的音频文件。

Description

一种音频处理方法、装置及可读存储介质
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种音频处理方法、装置及可读存储介质。
背景技术
随着语音识别技术的推广,现有技术中的语音识别系统能够识别出用户输入的语音消息中的内容。但是应用在实际场景中的语音识别系统,对于不同环境、不同距离和不同音量的音频,存在不能够准确识别出音频中的内容的现象。
发明内容
本申请在于提供一种音频处理方法、装置及可读存储介质,以改善语音识别系统能够正确识别失真音频。
为了解决上述技术问题,本申请实施例通过如下方式实现:
本申请实施例第一方面提供一种音频处理方法,包括:获取第一音频文件的第一特征向量;通过预先训练好的第一神经网络模型对所述第一特征向量进行反失真处理,获得第二特征向量;对所述第二特征向量进行编码,获得第二音频文件;其中,所述第二音频文件经播放设备向语音识别系统播放,所述语音识别系统对所述第二音频文件的识别结果和对所述第一音频文件的识别结果相同。因此,第二音频文件在不同环境、不同距离和不同音量的条件下播放,语音识别系统能够准确识别出第二音频文件中的内容,并且该内容与第一音频文件的内容相同。换言之,对于语音识别系统,第二音频文件不是失真的音频文件。
结合第一方面,本申请实施例提供第一方面的第一种可能的实施方式,通过以下步骤生成所述第一神经网络模型:获取多个原始音频文件的失真音频样本,所述失真音频样本为将所述原始音频文件在多种物理环境下播放并录音获得的音频样本;使用多个所述失真音频样本对预设第一神经网络的初始模型进行训练,直至所述预设第一神经网络的初始模型输出的音频文件与所述原始音频文件的差异值小于预设阈值时的神经网络模型为所述第一神经网络模型。因此,多个失真音频样本可以为训练集,预设第一神经网络的初始模型对训练集进行训练后,获得第一神经网络模型,其中,第一神经网络模型可以称为反向模拟模型。另一方面,在失真音频样本足够多,能够包含尽可能多的情况下,训练获得的第一神经网络模型能够含括尽可能多的处理失真的措施,即反失真处理的方式。从而在对第一特征向量进行反失真处理时,能够将第一特征向量高度还原成无损的第二特征向量。
结合第一方面或第一方面的第一种可能的实现方式,本申请实施例提供第一方面的第二种可能的实施方式,在获取第一音频文件的第一特征向量之前,所述方法还包括:获取初始音频文件及所述初始音频文件的初始特征向量;通过预设第二神经网络模型对所述初始特征向量进行加扰处理,获得加扰特征向量;确定语音识别系统对所述加扰特征向量的识别结果与预设识别结果的差异度;当所述差异度大于预设数值时,根据所述差异度对所述预设第二神经网络模型进行训练,直至所述语音识别系统识别所述预设第二神经网络模型输出的加扰特征向量的识别结果与所述预设识别结果的差异度小于或等于所述预设数值时的加扰特征向量为所述第一音频文件。因此,通过语音识别系统获得的识别结果为技术切入点,从而在结果侧对预设第二神经网络模型进行反馈调节,能够训练预设第二神经网络模型,使得预设第二神经网络模型输出的加扰特征向量能够被语音识别系统准确识别,并且该加扰特征向量对应的音频文件能够作为第一音频文件。
结合第一方面,本申请实施例提供第一方面的第三种可能的实施方式,在获取第一音频文件的第一特征向量之前,所述方法还包括:获取初始音频文件及所述初始音频文件的初始特征向量;通过预设第二神经网络模型对所述初始特征向量进行加扰处理,获得加扰特征向量;确定所述加扰特征向量与所述初始特征向量的差距值;当所述差距值大于预设差距值时,根据所述差距值对所述预设第二神经网络模型进行训练,直至所述预设第二神经网络模型输出的加扰特征向量小于或等于所述预设差距值时的加扰特征向量为所述第一音频文件。因此,通过确定差距值以及将差距值与预设差距值比较,即从预设第二神经网络的输入侧对预设第二神经网络模型进行调整,能够训练预设第二神经网络模型,使得预设第二神经网络模型输出的加扰特征向量能够被语音识别系统准确识别,并且该加扰特征向量能够作为第一音频文件。
结合第一方面或第一方面的第三种可能的实现方式,本申请实施例提供第一方面的第二种可能的实施方式,获取初始音频文件及所述初始音频文件的初始特征向量,包括:根据傅立叶变换器和梅尔滤波器处理所述初始音频文件,获得梅尔系数特征值向量;其中,所述梅尔系数特征值向量为所述初始特征向量。因此,通过使用傅立叶变换器能够使初始音频文件中振幅较低的成分相对高振幅成分得以拉高,以便观察掩盖在低幅噪声中的周期信号。通过使用梅尔滤波器能够初始音频文件的梅尔频率倒谱系数,根据梅尔频率倒谱系数能够将初始音频文件中高维的音频特征向量转化为低维的梅尔系数特征值向量,从而实现降维,以便于机器进行运算。
本申请实施例第二方面提供一种音频处理装置,包括:第一获取单元,用于获取第一音频文件的第一特征向量;处理单元,用于通过预先训练好的第一神经网络模型对所述第一特征向量进行反失真处理,获得第二特征向量;以及对所述第二特征向量进行编码,获得第二音频文件;其中,所述第二音频文件经播放设备向语音识别系统播放,所述语音识别系统对所述第二音频文件的识别结果和对所述第一音频文件的识别结果相同。
结合第二方面,本申请实施例提供第二方面的第一种可能的实施方式,所述装置还包括:第二获取单元,用于获取多个原始音频文件的失真音频样本,所述失真音频样本为将所述原始音频文件在多种物理环境下播放并录音获得的音频样本;所述处理单元还用于使用多个所述失真音频样本对预设第一神经网络的初始模型进行训练,直至所述预设第一神经网络的初始模型输出的音频文件与所述原始音频文件的差异值小于预设阈值时的神经网络模型为所述第一神经网络模型。
结合第二方面或第二方面的第一种可能的实现方式,本申请实施例提供第二方面的第二种可能的实施方式,所述装置还包括:所述第一获取单元还用于获取初始音频文件及所述初始音频文件的初始特征向量;所述处理单元还用于通过预设第二神经网络模型对所述初始特征向量进行加扰处理,获得加扰特征向量;确定语音识别系统对所述加扰特征向量的识别结果与预设识别结果的差异度;以及当所述差异度大于预设数值时,根据所述差异度对所述预设第二神经网络模型进行训练,直至所述语音识别系统识别所述预设第二神经网络模型输出的加扰特征向量的识别结果与所述预设识别结果的差异度小于或等于所述预设数值时的加扰特征向量为所述第一音频文件。
结合第二方面,本申请实施例提供第二方面的第三种可能的实施方式,所述装置还包括:所述第一获取单元还用于获取初始音频文件及所述初始音频文件的初始特征向量;所述处理单元还用于通过预设第二神经网络模型对所述初始特征向量进行加扰处理,获得加扰特征向量;确定所述加扰特征向量与所述初始特征向量的差距值;以及当所述差距值大于预设差距值时,根据所述差距值对所述预设第二神经网络模型进行训练,直至所述预设第二神经网络模型输出的加扰特征向量小于或等于所述预设差距值时的加扰特征向量为所述第一音频文件。
本申请实施例第三方面提供一种计算机可读存储介质,所述可读存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行如本申请实施例第一方面或第一方面的任意一种可能的实施方式所述的一种音频处理方法。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举本发明较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍。应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种音频处理方法的第一种步骤图。
图2为本申请实施例提供的一种音频处理方法的生成第一神经网络模型的步骤图。
图3为本申请实施例提供的一种音频处理方法的第二种步骤图。
图4为本申请实施例提供的一种音频处理装置的结构图。
图标:10-一种音频处理装置;100-第一获取单元;300-处理单元;500-第二获取单元。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
第一实施例
请参照图1、图2和图3所示,图1为本申请实施例提供的一种音频处理方法的第一种步骤图。图2为本申请实施例提供的一种音频处理方法的生成第一神经网络模型的步骤图。图3为本申请实施例提供的一种音频处理方法的第二种步骤图。
步骤S1000,获取初始音频文件及初始音频文件的初始特征向量。
为了使本领域技术人员能够更好地理解本申请实施例,下面先介绍在步骤S1000中的初始音频文件和初始特征向量的含义。初始音频文件或者本申请实施例中的音频文件,均为能够在物理环境中由播放设备播放,并能够被录音或者用户能够收听音频文件中的内容,即该音频文件处于物理层面中的。初始特征向量或者本申请实施例中的特征向量,处于数字层面中,用于机器(语音识别系统)进行识别或者机器通过处理特征向量从而对音频文件进行处理,特征向量中表示的内容需要经过编码后再经过播放设备播放,用户才能够得知特征向量中表示的内容。换言之,音频文件通过解码能够获得相应的特征向量,该特征向量用于机器进行处理。特征向量通过编码能够获得相应的音频文件,该音频文件能够由播放设备播放,从而用户能够收听音频文件并得知音频文件中的内容。
示例性地,初始音频文件可以是由用户输入的需要处理的音频文件。通过对初始音频文件进行解码,从而能够获得初始音频文件的初始特征向量。其中,初始特征向量可以为矩阵向量的格式,可理解为以矩阵向量的格式表示数据信息;机器(语音识别系统)能够对初始音频文件的初始特征向量进行处理。可理解的,在另一种可能的实施方式中,可以是获取用户输入的需要处理的初始特征向量。
可选地,对初始音频文件进行解码,可以是根据傅立叶变换器和梅尔滤波器处理初始音频文件,获得梅尔系数特征值向量;其中,梅尔系数特征值向量为所述初始特征向量。
示例性地,通过使用傅立叶变换器能够使初始音频文件中振幅较低的成分相对高振幅成分得以拉高,以便观察掩盖在低幅噪声中的周期信号。通过使用梅尔滤波器能够初始音频文件的梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCCs),根据梅尔频率倒谱系数能够将初始音频文件中高维的音频特征向量转化为低维的梅尔系数特征值向量,从而实现降维,以便于机器进行运算。
步骤S2000,通过预设第二神经网络模型对初始特征向量进行加扰处理,获得加扰特征向量。
示例性地,预设第二神经网络模型可以由深度神经网络构成,并且,为了简化该深度神经网络的结构,可以采用多层全联结神经网络。预设第二神经网络模型也可以为卷积神经网络,预设第二神经网络模型还可以为循环神经网络。进行加扰处理,可以是对初始特征向量进行加密,加密内容可以由用户指定,从而获得加扰特征向量,进而使得在语音识别系统识别加扰特征向量时,语音识别系统能够识别出用户指定的加密内容。可理解的,在语音识别系统识别加扰特征向量时,语音识别系统不仅能够识别出用户指定的加密内容,还能够识别加扰特征向量中的初始特征向量的内容。
因此,通过步骤S2000,能够实现对初始特征向量进行加密,从而改善在进行语音识别时,由于直接向语音识别系统说明需要识别的语音信息会存在的信息泄露情况。例如,现有技术中用户向语音识别系统说:“打开通讯录,查询某人的联系方式。”周围的人能够容易得知该用户要进行的语音识别操作,进而能够获取该用户的信息。通过本申请实施例,用户需要语音识别系统打开通讯录,查询某人的联系方式时,可以向语音识别系统说:“你好呀。”从而语音识别系统能够识别“你好呀”中的加密内容为打开通讯录,查询某人的联系方式;而周围的人不容易得知该用户要进行的语音识别操作。
步骤S3000,确定语音识别系统对加扰特征向量的识别结果与预设识别结果的差异度。
示例地,语音识别系统例如Kaldi、百度Deep Speech(深度语音识别系统)和科大讯飞等。可理解的,为了加快预设第二神经网络模型的运算速度,本申请实施例中的语音识别系统可设置为白盒子语音识别系统,即语音识别系统的模型代码已知。可理解的,本申请实施例中的语音识别系统也可以为黑盒子语音识别系统,即语音识别系统的模型代码未知。预设识别结果可以为语音识别系统识别初始特征向量的识别结果;预设识别结果也可以为能够被语音识别系统直接、准确识别的加密内容的语音消息;预设识别结果还可以为用户设定的识别结果,例如,用户设定的识别结果为语音识别系统能够正确识别出加扰特征向量的加密内容的准确率。差异度可以表征预设第二神经网络模型的损失函数,其中,损失函数用于衡量预设第二神经网络模型输出的加扰特征向量被语音识别系统准确识别的程度,换言之,损失函数用于表征加扰特征向量与预设识别结果的差距程度。
可选地,步骤S3000也可以为确定加扰特征向量与初始特征向量的差距值。
示例地,加扰特征向量和初始特征向量均可以为矩阵向量的格式,差距值可以包括加扰特征向量和初始特征向量的向量几何距离。
步骤S4000,当差异度大于预设数值时,根据差异度对预设第二神经网络模型进行训练,直至语音识别系统识别预设第二神经网络模型输出的加扰特征向量的识别结果与预设识别结果的差异度小于或等于预设数值时的加扰特征向量为第一音频文件。
示例地,由于在步骤S2000中对初始特征向量进行加扰处理,可以相当于在初始特征向量中增加加密内容,或者修改初始特征向量,从而使得语音识别系统能够识别加扰特征向量的加密内容,所以获得的加扰特征向量在通过语音识别系统识别时,大多存在识别结果为语音识别系统不能够正确识别出加扰特征向量的加密内容。可理解的,此时的差异度大于预设数值。所以,根据加扰特征向量的识别结果计算损失函数,并基于损失函数调整或再训练预设第二神经网络模型,从而使得预设第二神经网络模型输出的加扰特征向量能够被语音识别系统准确识别出加密内容,即语音识别系统识别加扰特征向量的识别结果与预设识别结果的差异度小于或等于预设数值。因此,通过语音识别系统获得的识别结果为技术切入点,从而在结果侧对预设第二神经网络模型进行反馈调节,能够训练预设第二神经网络模型,使得预设第二神经网络模型输出的加扰特征向量能够被语音识别系统准确识别,并且该加扰特征向量能够作为第一音频文件。
可选地,步骤S4000也可以为当差距值大于预设差距值时,根据差距值对预设第二神经网络模型进行训练,直至预设第二神经网络模型输出的加扰特征向量小于或等于预设差距值时的加扰特征向量为第一音频文件。
示例地,通过确定差距值以及将差距值与预设差距值比较,即从预设第二神经网络的输入侧对预设第二神经网络模型进行调整,能够训练预设第二神经网络模型,使得预设第二神经网络模型输出的加扰特征向量能够被语音识别系统准确识别,并且该加扰特征向量能够作为第一音频文件。
可理解的,上述步骤S3000和S4000能够结合成一体,即组合后的步骤S3000和S4000能够通过语音识别系统获得的识别结果为技术切入点,从而在结果侧对预设第二神经网络模型进行反馈调节。同时,还能够考虑到从预设第二神经网络的输入侧对预设第二神经网络模型进行调整。从而能够训练预设第二神经网络模型,使得预设第二神经网络模型输出的加扰特征向量能够被语音识别系统准确识别,并且该加扰特征向量能够作为第一音频文件。
步骤S5000,获取第一音频文件的第一特征向量。
示例地,获取第一音频文件可以是通过上述步骤获取的加扰特征向量,同时,该加扰特征向量为第一特征向量,即不需要对第一音频文件进行解码,换言之,对加扰特征向量进行解码,由于加扰特征向量的属性为特征向量,因此解码前的加扰特征向量与解码后的第一特征向量相同。可理解的,获取第一音频文件还可以是用户输入的加密音频文件。其中,加密音频文件可以基本内容和加密内容,并且通过播放设备播放该加密文件时,用户能够收听基本内容,而语音识别系统能够识别加密内容,甚至语音识别系统还能够识别基本内容。因此,用户输入的加密音频文件需要进行解码,获得加密音频文件的特征向量。其中,解码的具体方式可参照前述使用傅立叶变换器及梅尔滤波器进行解码,此处不再赘述。
步骤S6000,通过预先训练好的第一神经网络模型对第一特征向量进行反失真处理,获得第二特征向量。
示例地,预先训练好的第一神经网络模型可以包括深度神经网络结构,也可以包括特制的模拟公式。在为深度网络结构时,可使用且不限于全联结网络、卷积网络、自编码网络和循环网络等深度神经网络结构。并且结构的深度与参数个数均不受限制,例如,可采用5层以内,维度逐层减少的全联结神经网络结构。预先训练好的第一神经网络模型中可以包括针对多种失真音频样本的处理方式,在进行反失真处理时,根据这些处理方式能够对第一特征向量进行调制。
可选地,通过以下步骤S6200和步骤S6400生成第一神经网络模型。
步骤S6200,获取多个原始音频文件的失真音频样本,失真音频样本为将原始音频文件在多种物理环境下播放并录音获得的音频样本。
示例地,失真样本可以包括通过收集不同环境、不同距离、不同音量、不同内容的音频数据以及将该音频数据录音后对应的失真音频数据。
步骤S6400,使用多个失真音频样本对预设第一神经网络的初始模型进行训练,直至预设第一神经网络的初始模型输出的音频文件与原始音频文件的差异值小于预设阈值时的神经网络模型为第一神经网络模型。
示例地,多个失真音频样本可以为训练集,预设第一神经网络的初始模型对训练集进行训练后,获得第一神经网络模型,其中,第一神经网络模型可以称为反向模拟模型。其中,反向模拟模型的表述为训练第一神经网络模型输入的是失真音频样本,输出的是原音频,与正常的建模过程相反。另一方面,在失真音频样本足够多,能够包含尽可能多的情况下,训练获得的第一神经网络能够涵盖尽可能多的处理失真的措施,即反失真处理的方式。从而在对第一特征向量进行反失真处理时,能够将第一特征向量高度还原成无损的第二特征向量。
步骤S7000,对第二特征向量进行编码,获得第二音频文件;其中,第二音频文件经播放设备向语音识别系统播放,语音识别系统对第二音频文件的识别结果和对第一音频文件的识别结果相同。
示例地,对第二特征向量进行编码,获得无损音频格式的第二音频文件。第二音频文件在不同环境、不同距离和不同音量的条件下播放,语音识别系统能够准确识别出第二音频文件中的内容,并且该内容与第一音频文件的内容相同。换言之,对于语音识别系统,第二音频文件不是失真的音频文件。即通过播放设备播放第二音频文件时,其他用户听到的仅仅是第二音频文件中的基本内容(第一音频文件的内容),语音识别系统在通过麦克风或其他录音设备录制第二音频文件后,能够识别出第二音频文件中的加密内容(加扰特征向量的加密内容)。
第二实施例
请参照图4所示,图4为本申请实施例提供的一种音频处理装置10的结构图。一种音频处理装置10包括:第一获取单元100,用于获取第一音频文件的第一特征向量;处理单元300,用于通过预先训练好的第一神经网络模型对所述第一特征向量进行反失真处理,获得第二特征向量;以及对所述第二特征向量进行编码,获得第二音频文件;其中,所述第二音频文件经播放设备向语音识别系统播放,所述语音识别系统对所述第二音频文件的识别结果和对所述第一音频文件的识别结果相同。
可选地,一种音频处理装置10还包括:第二获取单元500,用于获取多个原始音频文件的失真音频样本,所述失真音频样本为将所述原始音频文件在多种物理环境下播放并录音获得的音频样本;处理单元300还用于使用多个所述失真音频样本对预设第一神经网络的初始模型进行训练,直至所述预设第一神经网络的初始模型输出的音频文件与所述原始音频文件的差异值小于预设阈值时的神经网络模型为所述第一神经网络模型。
可选地,一种音频处理装置10还包括:第一获取单元100还用于获取初始音频文件及所述初始音频文件的初始特征向量;处理单元300还用于通过预设第二神经网络模型对所述初始特征向量进行加扰处理,获得加扰特征向量;确定语音识别系统对所述加扰特征向量的识别结果与预设识别结果的差异度;以及当所述差异度大于预设数值时,根据所述差异度对所述预设第二神经网络模型进行训练,直至所述语音识别系统识别所述预设第二神经网络模型输出的加扰特征向量的识别结果与所述预设识别结果的差异度小于或等于所述预设数值时的加扰特征向量为所述第一音频文件。
可选地,一种音频处理装置10还包括:第一获取单元100还用于获取初始音频文件及所述初始音频文件的初始特征向量;处理单元300还用于通过预设第二神经网络模型对所述初始特征向量进行加扰处理,获得加扰特征向量;确定所述加扰特征向量与所述初始特征向量的差距值;以及当所述差距值大于预设差距值时,根据所述差距值对所述预设第二神经网络模型进行训练,直至所述预设第二神经网络模型输出的加扰特征向量小于或等于所述预设差距值时的加扰特征向量为所述第一音频文件。
可选地,一种音频处理装置10还包括:处理单元300还用于根据傅立叶变换器和梅尔滤波器处理所述初始音频文件,获得梅尔系数特征值向量;其中,所述梅尔系数特征值向量为所述初始特征向量。
第三实施例
本申请还提供一种计算机可读存储介质,所述可读存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行如本申请第一实施例中任意一种可能的实施方式所述的一种音频处理方法。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种音频处理方法,其特征在于,包括:
获取第一音频文件的第一特征向量,所述第一音频文件包括加密内容和基本内容,其中,所述基本内容能够直接被用户收听与被语音识别系统识别,所述加密内容能够被所述语音识别系统识别但无法直接被用户收听;
通过预先训练好的第一神经网络模型对所述第一特征向量进行反失真处理,获得第二特征向量;
对所述第二特征向量进行编码,获得第二音频文件;其中,在所述第二音频文件经播放设备播放后输入所述语音识别系统后,所述语音识别系统对所述第二音频文件的识别结果和对所述第一音频文件的识别结果相同,其中,所述语音识别系统对所述第一音频文件的所述识别结果包括所述加密内容和所述基本内容。
2.根据权利要求1所述的方法,其特征在于,通过以下步骤生成所述第一神经网络模型:
获取多个原始音频文件的失真音频样本,所述失真音频样本为将所述原始音频文件在多种物理环境下播放并录音获得的音频样本;
使用多个所述失真音频样本对预设第一神经网络的初始模型进行训练,直至所述预设第一神经网络的初始模型输出的音频文件与所述原始音频文件的差异值小于预设阈值时的神经网络模型为所述第一神经网络模型。
3.根据权利要求1或2所述的方法,其特征在于,在获取第一音频文件的第一特征向量之前,所述方法还包括:
获取初始音频文件及所述初始音频文件的初始特征向量;
通过预设第二神经网络模型对所述初始特征向量进行加扰处理,获得加扰特征向量;
确定语音识别系统对所述加扰特征向量的识别结果与预设识别结果的差异度;
当所述差异度大于预设数值时,根据所述差异度对所述预设第二神经网络模型进行训练,直至所述语音识别系统识别所述预设第二神经网络模型输出的加扰特征向量的识别结果与所述预设识别结果的差异度小于或等于所述预设数值时的加扰特征向量对应的音频文件为所述第一音频文件。
4.根据权利要求1所述的方法,其特征在于,在获取第一音频文件的第一特征向量之前,所述方法还包括:
获取初始音频文件及所述初始音频文件的初始特征向量;
通过预设第二神经网络模型对所述初始特征向量进行加扰处理,获得加扰特征向量;
确定所述加扰特征向量与所述初始特征向量的差距值;
当所述差距值大于预设差距值时,根据所述差距值对所述预设第二神经网络模型进行训练,直至所述预设第二神经网络模型输出的加扰特征向量小于或等于所述预设差距值时的加扰特征向量对应的音频文件为所述第一音频文件。
5.根据权利要求4所述的音频处理方法,其特征在于,获取所述初始音频文件的初始特征向量,包括:
根据傅立叶变换器和梅尔滤波器处理所述初始音频文件,获得梅尔系数特征值向量;其中,所述梅尔系数特征值向量为所述初始特征向量。
6.一种音频处理装置,其特征在于,包括:
第一获取单元,用于获取第一音频文件的第一特征向量,所述第一音频文件包括加密内容和基本内容,其中,所述基本内容能够直接被用户收听与被语音识别系统识别,所述加密内容能够被所述语音识别系统识别但无法直接被用户收听;
处理单元,用于通过预先训练好的第一神经网络模型对所述第一特征向量进行反失真处理,获得第二特征向量;以及对所述第二特征向量进行编码,获得第二音频文件;其中,所述第二音频文件经播放设备向所述语音识别系统播放,所述语音识别系统对所述第二音频文件的识别结果和对所述第一音频文件的识别结果相同,其中,所述语音识别系统对所述第一音频文件的所述识别结果包括所述加密内容和所述基本内容。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第二获取单元,用于获取多个原始音频文件的失真音频样本,所述失真音频样本为将所述原始音频文件在多种物理环境下播放并录音获得的音频样本;
所述处理单元还用于使用多个所述失真音频样本对预设第一神经网络的初始模型进行训练,直至所述预设第一神经网络的初始模型输出的音频文件与所述原始音频文件的差异值小于预设阈值时的神经网络模型为所述第一神经网络模型。
8.根据权利要求6或7所述的装置,其特征在于,所述装置还包括:
所述第一获取单元还用于获取初始音频文件及所述初始音频文件的初始特征向量;
所述处理单元还用于通过预设第二神经网络模型对所述初始特征向量进行加扰处理,获得加扰特征向量;确定语音识别系统对所述加扰特征向量的识别结果与预设识别结果的差异度;以及当所述差异度大于预设数值时,根据所述差异度对所述预设第二神经网络模型进行训练,直至所述语音识别系统识别所述预设第二神经网络模型输出的加扰特征向量的识别结果与所述预设识别结果的差异度小于或等于所述预设数值时的加扰特征向量对应的音频文件为所述第一音频文件。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:
所述第一获取单元还用于获取初始音频文件及所述初始音频文件的初始特征向量;
所述处理单元还用于通过预设第二神经网络模型对所述初始特征向量进行加扰处理,获得加扰特征向量;确定所述加扰特征向量与所述初始特征向量的差距值;以及当所述差距值大于预设差距值时,根据所述差距值对所述预设第二神经网络模型进行训练,直至所述预设第二神经网络模型输出的加扰特征向量小于或等于所述预设差距值时的加扰特征向量对应的音频文件为所述第一音频文件。
10.一种计算机可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1-5中任一权项所述的一种音频处理方法。
CN201910018827.8A 2019-01-09 2019-01-09 一种音频处理方法、装置及可读存储介质 Active CN109545199B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910018827.8A CN109545199B (zh) 2019-01-09 2019-01-09 一种音频处理方法、装置及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910018827.8A CN109545199B (zh) 2019-01-09 2019-01-09 一种音频处理方法、装置及可读存储介质

Publications (2)

Publication Number Publication Date
CN109545199A CN109545199A (zh) 2019-03-29
CN109545199B true CN109545199B (zh) 2022-06-21

Family

ID=65834735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910018827.8A Active CN109545199B (zh) 2019-01-09 2019-01-09 一种音频处理方法、装置及可读存储介质

Country Status (1)

Country Link
CN (1) CN109545199B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104810022A (zh) * 2015-05-11 2015-07-29 东北师范大学 一种基于音频断点的时域数字音频水印方法
CN106162624A (zh) * 2015-04-15 2016-11-23 宇龙计算机通信科技(深圳)有限公司 通话过程中隐私保护的方法、装置及移动终端
US20170110120A1 (en) * 2014-03-24 2017-04-20 Microsoft Technology Licensing, Llc Mixed speech recognition
CN106663446A (zh) * 2014-07-02 2017-05-10 微软技术许可有限责任公司 知晓用户环境的声学降噪
CN107481728A (zh) * 2017-09-29 2017-12-15 百度在线网络技术(北京)有限公司 背景声消除方法、装置及终端设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170110120A1 (en) * 2014-03-24 2017-04-20 Microsoft Technology Licensing, Llc Mixed speech recognition
CN106663446A (zh) * 2014-07-02 2017-05-10 微软技术许可有限责任公司 知晓用户环境的声学降噪
CN106162624A (zh) * 2015-04-15 2016-11-23 宇龙计算机通信科技(深圳)有限公司 通话过程中隐私保护的方法、装置及移动终端
CN104810022A (zh) * 2015-05-11 2015-07-29 东北师范大学 一种基于音频断点的时域数字音频水印方法
CN107481728A (zh) * 2017-09-29 2017-12-15 百度在线网络技术(北京)有限公司 背景声消除方法、装置及终端设备

Also Published As

Publication number Publication date
CN109545199A (zh) 2019-03-29

Similar Documents

Publication Publication Date Title
Kim et al. Audio classification based on MPEG-7 spectral basis representations
CN110310647B (zh) 一种语音身份特征提取器、分类器训练方法及相关设备
US7133826B2 (en) Method and apparatus using spectral addition for speaker recognition
CN113488058B (zh) 一种基于短语音的声纹识别方法
CN111161752A (zh) 回声消除方法和装置
CN108922559A (zh) 基于语音时频变换特征和整数线性规划的录音终端聚类方法
Ganapathy Multivariate autoregressive spectrogram modeling for noisy speech recognition
Li et al. Digital signal processing in audio and acoustical engineering
Jiang et al. Source microphone recognition aided by a kernel-based projection method
CN114596879B (zh) 一种虚假语音的检测方法、装置、电子设备及存储介质
Kong et al. Adversarial audio: A new information hiding method and backdoor for dnn-based speech recognition models
CN112632318A (zh) 一种音频推荐方法、装置、系统及存储介质
Turner et al. Attacking speaker recognition systems with phoneme morphing
Biagetti et al. Speaker identification in noisy conditions using short sequences of speech frames
Yadav et al. ASSD: Synthetic Speech Detection in the AAC Compressed Domain
CN109545199B (zh) 一种音频处理方法、装置及可读存储介质
Sampaio et al. Detection of AMR double compression using compressed-domain speech features
Frewat et al. Android voice recognition application with multi speaker feature
Mardhotillah et al. Speaker recognition for digital forensic audio analysis using support vector machine
Naini et al. Dual Attention Pooling Network for Recording Device Classification Using Neutral and Whispered Speech
Bui et al. A non-linear GMM KL and GUMI kernel for SVM using GMM-UBM supervector in home acoustic event classification
Verma et al. Cell-phone identification from recompressed audio recordings
Mansour et al. A comparative study in emotional speaker recognition in noisy environment
Hassan et al. Enhancing speaker identification through reverberation modeling and cancelable techniques using ANNs
Büker et al. Deep convolutional neural networks for double compressed AMR audio detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant