CN112116926A - 音频数据的处理方法及装置、模型训练方法及装置 - Google Patents

音频数据的处理方法及装置、模型训练方法及装置 Download PDF

Info

Publication number
CN112116926A
CN112116926A CN201910533494.2A CN201910533494A CN112116926A CN 112116926 A CN112116926 A CN 112116926A CN 201910533494 A CN201910533494 A CN 201910533494A CN 112116926 A CN112116926 A CN 112116926A
Authority
CN
China
Prior art keywords
audio
data
model
sample data
audio sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910533494.2A
Other languages
English (en)
Inventor
吴本谷
宋莎莎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Orion Star Technology Co Ltd
Original Assignee
Beijing Orion Star Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Orion Star Technology Co Ltd filed Critical Beijing Orion Star Technology Co Ltd
Priority to CN201910533494.2A priority Critical patent/CN112116926A/zh
Publication of CN112116926A publication Critical patent/CN112116926A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开一种音频数据的处理方法及装置、模型训练方法及装置,属于语音处理技术领域,该方法包括:获取音频数据,将音频数据输入到判别模型中,以判别音频数据是否为有效数据,若根据判别模型的输出结果确定音频数据为有效数据,则将音频数据输入到语音识别系统中进行语音识别,这样,先利用判别模型对获取到的音频数据的有效性进行判别,根据判别结果确定音频数据有效时再对音频数据进行语音识别,仅选择有效的音频数据进行语音识别,而不再是不加选择地对获取到的所有音频数据均进行语音识别,可有效降低吵杂环境中语音识别系统误识别无效音频数据的概率、提高用户体验,不对无效音频数据进行语音识别还可节省语音识别系统的软/硬件资源。

Description

音频数据的处理方法及装置、模型训练方法及装置
技术领域
本申请涉及语音处理技术领域,尤其涉及音频数据的处理方法及装置、模型训练方法及装置。
背景技术
随着语音识别技术的快速发展,语音识别已广泛地应用于像机器人、智能音响、智能电视等智能电子产品中。
实际应用中,在像超市、银行、商场这些比较嘈杂的环境中,经常会存在大量的不能看作是噪声但人耳却也无法清晰辨别其具体内容的音频数据,比如某商场中有A、B、C三人,A和B边走边谈话、且A和B刚好从C身边经过,那么对于C而言,其接收到的与谈话内容相关的音频数据不能称为噪声,但由于这些音频数据的声源是越来越远的,所以C也不能清晰辨别音频数据的具体内容,并且,通常情况下C也不会去关注这类音频数据,因为这类音频数据对C而言是没有意义的,属于无效音频数据。
然而,如果将上述场景中的C换成智能电子产品,由于智能电子产品中的语音识别系统是不加选择地对采集到的音频数据进行语音识别,所以当采集到的音频数据为无效音频数据时,语音识别系统仍然会对无效音频数据进行语音识别,其识别出的是不能构成完整语义、且对用户而言没有意义的文字信息,因此,现有的语音识别系统存在着误识别概率比较高的问题。
发明内容
本申请实施例提供一种音频数据的处理方法及装置、模型训练方法及装置,用以解决现有技术中语音识别系统因为识别了无效音频数据而导致误识别概率比较高的问题。
第一方面,本申请实施例提供的一种音频数据的处理方法,包括:
获取音频数据;
将所述音频数据输入到判别模型中,以判别所述音频数据是否为有效数据,所述判别模型是基于有效音频样本数据和无效音频样本数据进行训练得到的;
若根据所述判别模型的输出结果确定所述音频数据为有效数据,将所述音频数据输入到语音识别系统中进行语音识别。
本申请实施例中,在获取音频数据后,将音频数据输入到判别模型中,以判别音频数据是否为有效数据,若根据判别模型的输出结果确定音频数据为有效数据,则将音频数据输入到语音识别系统中进行语音识别,这样,先利用判别模型对获取到的音频数据的有效性进行判别,根据判别结果确定音频数据有效时再对音频数据进行语音识别,仅选择有效的音频数据进行语音识别,而不再是不加选择地对获取到的所有音频数据均进行语音识别,因此,可有效降低语音识别系统的误识别概率。
可选地,所述方法还包括:
若根据所述判别模型的输出结果确定所述音频数据为无效数据,则结束对所述音频数据的处理。
可选地,将所述音频数据输入到判别模型中之前,还包括:
对所述音频数据进行去噪处理,并将去噪处理后的音频数据确定为所述判别模型的输入。
第二方面,本申请实施例提供的一种模型训练方法,包括:
获取音频样本数据,所述音频样本数据包括有效音频样本数据和无效音频样本数据;
提取所述音频样本数据的音频特征;
以所述音频样本数据的音频特征为输入、且以用于表示所述音频样本数据有效性的标注信息为输出,对判别模型进行训练。
可选地,获取音频样本数据,包括:
获取多个有效音频样本数据;
将每个有效音频样本数据输入到生成模型中进行加扰处理,将加扰处理后的音频数据作为无效音频样本数据。
可选地,根据以下步骤训练所述生成模型:
将获取的每个有效音频样本数据输入到生成模型中进行加扰处理,得到无效音频样本数据,利用各有效音频样本数据和各无效音频样本数据对分类模型进行优化,确定优化后的分类模型的分类准确度;
若优化后的分类模型的分类准确度达到设定准确度,则对所述生成模型的加扰参数进行调整,将调整后的生成模型作为新的生成模型,返回将所述获取的每个有效音频样本数据输入到生成模型中进行加扰处理,得到无效音频样本数据的步骤;
若优化后的分类模型的分类准确度未达到设定准确度,则将当前的生成模型作为最终的生成模型。
第三方面,本申请实施例提供的一种音频数据的处理装置,包括:
获取模块,用于获取音频数据;
判别模块,用于将所述音频数据输入到判别模型中,以判别所述音频数据是否为有效数据,所述判别模型是基于有效音频样本数据和无效音频样本数据进行训练得到的;
处理模块,用于若根据所述判别模型的输出结果确定所述音频数据为有效数据,将所述音频数据输入到语音识别系统中进行语音识别。
可选地,所述处理模块,还用于:
若根据所述判别模型的输出结果确定所述音频数据为无效数据,则结束对所述音频数据的处理。
可选地,还包括,去噪模块,用于:
在将所述音频数据输入到判别模型中之前,对所述音频数据进行去噪处理,并将去噪处理后的音频数据确定为所述判别模型的输入。
第四方面,本申请实施例提供的一种模型训练装置,包括:
获取模块,用于获取音频样本数据,所述音频样本数据包括有效音频样本数据和无效音频样本数据;
提取模块,用于提取所述音频样本数据的音频特征;
训练模块,用于以所述音频样本数据的音频特征为输入、且以用于表示所述音频样本数据有效性的标注信息为输出,对判别模型进行训练。
可选地,所述获取模块具体用于:
获取多个有效音频样本数据;
将每个有效音频样本数据输入到生成模型中进行加扰处理,将加扰处理后的音频数据作为无效音频样本数据。
可选地,所述训练模块还用于根据以下步骤训练所述生成模型:
将获取的每个有效音频样本数据输入到生成模型中进行加扰处理,得到无效音频样本数据,利用各有效音频样本数据和各无效音频样本数据对分类模型进行优化,确定优化后的分类模型的分类准确度;
若优化后的分类模型的分类准确度达到设定准确度,则对所述生成模型的加扰参数进行调整,将调整后的生成模型作为新的生成模型,返回将所述获取的每个有效音频样本数据输入到生成模型中进行加扰处理,得到无效音频样本数据的步骤;
若优化后的分类模型的分类准确度未达到设定准确度,则将当前的生成模型作为最终的生成模型。
第五方面,本申请实施例提供的一种电子设备,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中:
存储器存储有可被至少一个处理器执行的指令,该指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面或第二方面中的方法。
第六方面,本申请实施例提供的一种计算机可读介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述第一方面或第二方面中的方法。
本申请的这些方面或其它方面在以下实施例的描述中会更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种计算装置的结构示意图;
图2为本申请实施例提供的一种音频数据的处理方法的流程图;
图3为本申请实施例提供的一种建立判别模型的方法的流程图;
图4为本申请实施例提供的一种训练生成模型的方法的流程图;
图5为本申请实施例提供的一种音频数据的处理装置的结构示意图;
图6为本申请实施例提供的一种模型训练装置的结构示意图。
具体实施方式
为了解决现有技术中语音识别系统因为识别了无效音频数据而导致误识别概率比较高的问题,本申请实施例提供了音频数据的处理方法及装置、模型训练方法及装置。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本申请提供的任一种方法均可以应用到多种计算装置中,图1给出了一种计算装置的结构示意图,这里,图1所示的计算装置10仅仅是一个示例,并不对本申请实施例的功能和使用范围带来任何限制。
如图1所示,计算装置10以通用计算设备的形式表现,计算装置10的组件可以包括但不限于:至少一个处理单元101、至少一个存储单元102、连接不同系统组件(包括存储单元102和处理单元101)的总线103。
总线103表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储单元102可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)1021和/或高速缓存存储器1022,还可以进一步包括只读存储器(ROM)1023。
存储单元102还可以包括具有一组(至少一个)程序模块1024的程序/实用工具1025,这样的程序模块1024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
计算装置10也可以与一个或多个外部设备104(例如键盘、指向设备等)通信,还可与一个或者多个使得用户能与计算装置10交互的设备通信,和/或与使得该计算装置10能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口105进行。并且,计算装置10还可以通过网络适配器106与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图1所示,网络适配器106通过总线103与用于计算装置10的其它模块通信。应当理解,尽管图1中未示出,可以结合计算装置10使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
本领域技术人员应当理解,图1仅仅是计算装置的举例,并不构成对计算装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件。
参照图2,图2为本申请实施例提供的一种音频数据的处理方法的流程图,在下文的介绍过程中,以将该方法应用在图1所示的计算装置10为例,该方法的具体实施流程如下:
S201:获取音频数据。
其中,音频数据可通过音频采集装置(如麦克风等)进行采集,在进行音频数据采集时,可以实时采集环境中的音频数据,也可以周期性采集环境中的音频数据。本发明实施例中不对音频数据的采集方式进行限定。
由于像超市、银行、商场这些比较嘈杂的环境中会存在大量的人耳无法清晰辨别其具体内容的无效音频,这类无效音频被送进语音识别系统(ASR)后会出现误识别的问题,因此,本申请实施例尤其适合对在像超市、银行、商场这些比较嘈杂的环境中采集的音频数据进行处理。
S202:对获取的音频数据进行去噪处理。
这里,对获取的音频数据进行去噪处理便于后续判别模型能够准确地判别音频数据的有效性。
S203:将去噪处理后的音频数据输入到判别模型中,以判别音频数据是否为有效数据,其中,判别模型是基于有效音频样本数据和无效音频样本数据进行训练得到的。
实际应用中,对无效音频数据而言,语音识别系统识别得到的可能是一些不能构成完整语义、且对用户没有意义的文字信息,因此,对无效音频数据的识别可认为是误识别,为了有效地解决在吵杂环境中语音识别系统的误识别问题,也为了提高用户体验以及减少对无效音频识别而导致的资源浪费,本申请技术方案希望做到语音识别系统不对无效音频样本数据进行语音识别。
S204:根据判别模型的输出结果判断音频数据是否为有效数据,若是,则进入S205;否则,进入S206。
假设有效音频样本数据用第一预设数值如“1”进行标注、无效音频样本数据用第二预设数值如“0”进行标注,那么,若判别模型的输出结果为“1”,则说明输入的音频数据为有效数据;若判别模型的输出结果为“0”,则说明输入的音频数据为无效数据。
S205:将音频数据输入到语音识别系统中进行语音识别。
S206:结束对音频数据的处理。
即不再将音频数据输入到语音识别系统中进行语音识别,此时,可以将音频数据删除以节省存储空间。
采用上述方案,先对获取到的音频数据进行去噪处理,再将去噪处理后的音频数据输入到判别模型中进行有效性判别,若根据判别结果确定音频数据为有效数据则对音频数据进行语音识别,若根据判别结果确定音频数据为无效数据则结束对音频数据的处理,这样,仅选择有效的音频数据进行语音识别,而不再是不加选择地对获取到的所有音频数据均进行语音识别,可有效降低吵杂环境中语音识别系统误识别无效音频数据的概率,提高吵杂环境中语音识别系统的用户体验,由于可以过滤掉无效音频数据而使语音识别系统不对无效音频数据进行语音识别,可节省语音识别系统的软/硬件资源。
在具体实施时,上述判别模型可以按照图3所示的流程建立,该流程包括以下步骤:
S301:获取音频样本数据,其中,音频样本数据包括有效音频样本数据和无效音频样本数据。
S302:提取音频样本数据的音频特征。
S303:以音频样本数据的音频特征为输入、且以用于表示音频样本数据有效性的标注信息为输出,对判别模型进行训练。
比如,用第一预设数值表示音频数据有效,用第二预设数值表示音频数据无效,即有效音频样本数据的标注信息为第一预设数值、无效音频样本数据的标注信息为第二预设数值。又如,使用不同的字符串作为标注信息来标识有效音频样本数据和无效音频样本数据。本发明实施例中不对用于标识音频样本数据有效性的标注信息的具体实现形式进行限定,只要能够区分有效音频样本数据和无效音频样本数据即可。
具体实施时,可将音频样本数据输入到判别模型中进行判别,若判别模型输出的结果与音频样本数据实际的标注信息不一致,则可调整判别模型的判别参数,将音频样本数据输入到调整判别参数之后的判别模型中重新进行判别,直至判别模型输出的结果与音频样本数据的实际标注信息一致。
需要说明的是,在输入判别模型时,可以将音频样本数据直接输入至判别模型中,在判别模型中进行音频样本数据的特征提取,以及基于提取到的特征进行判别的处理;也可以先提取音频样本数据的特征,再将提取到的特征输入至判别模型中进行判别的处理。具体采用哪种方式取决于判别模型的处理。本申请实施例中不对此进行限定。
另外,上述有效音频样本数据是在像超市、银行、商场这些比较嘈杂的环境中进行采集的,无效音频样本数据也可以在像超市、银行、商场这些比较嘈杂的环境中进行采集,但实际应用中想要从嘈杂的环境中采集到符合要求的无效音频样本数据需要耗费大量的人力和物力,成本比较高。
为了降低直接采集无效音频样本数据的成本,本申请提出一种基于采集的有效音频样本数据生成无效音频样本数据的方案,在该方案中,可将获取的每个有效音频样本数据输入到预先训练的生成模型中进行加扰处理,将加扰处理后的音频数据作为无效音频样本数据。
具体实施时,为了使加扰处理后的音频数据尽可能地逼近真实的无效音频样本数据,在每个有效音频样本数据中添加的干扰可以包括扰动和混响,当加扰处理后的音频数据与无效音频样本数据之间的相似度达到期望的相似度时,即可认为当前的扰动参数和混响参数设置达到最优,而训练生成模型的目的就是为了得到最优组合的扰动参数和混响参数。
具体地,可以根据图4所示的流程来训练生成模型,该流程包括以下步骤:
S401:将获取的每个有效音频样本数据输入到生成模型中进行加扰处理,将加扰处理后的音频数据作为无效音频样本数据。
其中,生成模型的加扰参数至少包括以下参数中的一种:扰动参数和混响参数。生成模型的扰动参数的初始值和混响参数的初始值可预先配置。
S402:利用各有效音频样本数据和各无效音频样本数据对分类模型进行优化,确定优化后的分类模型的分类准确度。
其中,分类模型用于辨别输入的音频样本数据的类别,即是有效音频样本数据还是无效音频样本数据,可采用神经网络、深度学习网络等算法构建。
S403:判断优化后的分类模型的分类准确度是否达到设定准确度,若是,则进入S404:若否,则进入S405。
实际应用中,无效音频数据和有效音频数据之间的相似度越高,分类模型越难以对其类别进行判别,导致分类模型的分类准确度越低,无效音频数据和有效音频数据之间的相似度越低,分类模型越容易对其类别进行判别,从而分类模型的分类准确度越高,即,分类模型的分类准确度可在一定程度上反映出无效音频数据和有效音频数据之间的相似程度,因此,具体实施时,可根据实际要求的无效音频数据和有效音频数据之间的相似度来确定分类模型要达到的设定准确度,这样,如果优化后的分类模型的分类准确度可以达到设定准确度,则说明生成模型生成的无效音频样本数据和有效音频数据之间的相似度还不够,而如果优化后的分类模型的分类准确度不能达到设定准确度,则说明生成模型生成的无效音频数据和有效音频数据之间的相似度已足够高,可认为生成模型生成的无效音频数据已经足够接近真实环境中可能存在的无效音频数据了。
S404:对生成模型的加扰参数进行调整,将调整后的生成模型作为新的生成模型,返回S401。
具体实施时,可按照设定幅度对生成模型的加扰参数进行调整,其中,调整可以是增大参数值的数值,也可以是减小参数值的数值,只要保证调整后的生成模型的损失函数的损失值减小即可。
下面举例说明生成模型的损失函数的损失值的计算,假设生成模型是通过神经网络进行训练的,可采用如下的损失函数计算损失值:
l(X,δ,Y)=lnet(f(t(x+δ)),y)+αlθ(x,δ),其中:
Figure BDA0002100458700000111
Figure BDA0002100458700000112
Figure BDA0002100458700000113
Figure BDA0002100458700000114
其中,X代表有效音频样本数据集,Y代表有效音频样本数据的标注信息,δ代表添加的扰动值,y代表每个有效音频样本数据中第x个音频帧对应的音素(在中文里面音素可理解为汉语拼音如“wo”、“ni”等都是音素),lnet(f(t(x+δ)),y)代表神经网络的损失函数,f(t(x+δ))代表神经网络,t(x+δ)代表混响函数,α代表可调参数,N是预先设置的汉明窗的大小,θx(k)代表每个有效音频样本数据中第x个音频帧经过傅立叶变换后在第k个频带上的掩码值,sx(k)代表每个有效音频样本数据中第x个音频帧经过傅立叶变换后在第k个频带上的频谱值,sδ(k)代表每个有效音频样本数据在添加扰动δ后第x个音频帧经过傅立叶变换后在第k个频带上的频谱值。
并且,为了不影响加扰处理后音频数据的清晰度,可要求有效音频样本数据添加扰动后的频率掩码小于添加扰动前的频率掩码,其中,有效音频样本数据添加扰动前的频率掩码可利用双斜率扩散函数计算得到。
S405:将当前的生成模型作为最终的生成模型。
具体的,若此时无论对分类模型参数进行任何优化,该分类模型都无法对有效音频样本数据、以及通过生成模型所生成的该有效音频样本数据对应的无效音频样本数据进行分类,则将当前的生成模型作为最终的生成模型。
在训练初期,无论生成模型的加扰参数如何调整分类模型的分类准确度都是比较容易达到设定准确度的,也就是说,训练初期生成模型是比较弱的而分类模型是比较强的,但随着训练次数的增加,生成模型中加扰参数的不断寻优,生成模型生成的无效音频数据开始慢慢接近真实环境中存在的无效音频数据,此时,调整分类模型的参数可能仍然可使其分类准确度达到设定准确度,但实际上分类模型的分类准确度已经下降了,也就是说,生成模型在慢慢变强而分类模型在慢慢变弱,到了训练后期,生成模型生成的无效音频数据已经足够接近真实环境中存在的无效音频数据,无论分类模型的分类参数如何进行调整其分类准确度都无法再达到设定准确度了,即,训练后期生成模型是比较强的而分类模型是比较弱的,则可将此时的生成模型作为最终的生成模型。在整个训练过程中,分类模型和生成模型之间一直是一种对抗关系。
下面结合一个具体实施例,对生成模型的训练过程进行详细说明。
首先,设定生成模型中加扰参数(包括扰动参数和/或混响参数)的初始值,以及分类模型中分类参数的初始值。
之后,将获取到的每个有效音频样本数据输入到生成模型中进行加扰处理,将加扰处理后的音频数据作为无效音频样本数据,将各有效音频样本数据和各无效音频样本数据逐个输入到分类模型中进行有效性判断,根据判断结果确定分类模型的分类准确度,若分类模型的分类准确度达到设定准确度,则按照生成模型的损失值减小的准则调整生成模型的加扰参数,将调整后的生成模型作为新的生成模型。
然后,再将每个有效音频样本数据输入到调整后的生成模型中进行加扰处理,将加扰处理后的音频数据作为新的无效音频样本数据,将各有效音频样本数据和各新的无效音频样本数据逐个输入到分类模型中进行有效性判断,根据判断结果确定分类模型的分类准确度。
若分类模型的分类准确度未达到设定准确度,则对分类模型的分类参数进行调整,将调整后的分类模型作为新的分类模型,重新将各有效音频样本数据和各无效音频样本数据逐个输入到分类模型中进行有效性判断,根据判断结果确定分类模型的分类准确度;
若分类模型的分类准确度达到设定准确度,则继续按照生成模型的损失值减小的准则调整生成模型的加扰参数,依次循环处理,直至若无论如何调整分类模型的分类准确度都无法达到设定准确度,则说明本轮生成的无效音频数据已足够接近真实环境中的无效音频数据,可将当前的生成模型作为最终的生成模型。
本申请实施例中,先不断优化生成模型的加扰参数来改变生成模型在有效音频样本数据中添加的干扰,使生成模型可有效模拟出真实场景下的无效音频样本数据,再利用生成模型对有效音频样本数据进行加扰处理得到无效音频样本数据,然后采用判别模型对有效音频样本数据和无效音频样本数据的音频特征进行学习,以有效地识别有效音频数据和无效音频数据,最后利用判别模型判别获取到的音频数据的有效性,并控制语音识别系统仅对判别模型识别出的有效的音频数据进行语音识别,这样,仅选择有效的音频数据进行语音识别,而不再是不加选择地对获取到的所有音频数据进行语音识别,因此,可有效地解决降低嘈杂环境中语音识别系统的误识别概率,并可减少对无效音频数据识别而导致的资源浪费、提升用户体验。
当本申请实施例中提供的方法以软件或硬件或软硬件结合实现的时候,电子设备中可以包括多个功能模块,每个功能模块可以包括软件、硬件或其结合。具体的,参见图5所示,为本申请实施例提供的一种音频数据的处理装置的结构示意图,包括获取模块501、判别模块502、处理模块503。
获取模块501,用于获取音频数据;
判别模块502,用于将所述音频数据输入到判别模型中,以判别所述音频数据是否为有效数据,所述判别模型是基于有效音频样本数据和无效音频样本数据进行训练得到的;
处理模块503,用于若根据所述判别模型的输出结果确定所述音频数据为有效数据,将所述音频数据输入到语音识别系统中进行语音识别。
可选地,所述处理模块503,还用于:
若根据所述判别模型的输出结果确定所述音频数据为无效数据,则结束对所述音频数据的处理。
可选地,还包括,去噪模块504,用于:
在将所述音频数据输入到判别模型中之前,对所述音频数据进行去噪处理,并将去噪处理后的音频数据确定为所述判别模型的输入。
参见图6所示,为本申请实施例提供的一种模型训练装置的结构示意图,包括获取模块601、提取模块602、训练模块603。
获取模块601,用于获取音频样本数据,所述音频样本数据包括有效音频样本数据和无效音频样本数据;
提取模块602,用于提取所述音频样本数据的音频特征;
训练模块603,用于以所述音频样本数据的音频特征为输入、且以用于表示所述音频样本数据有效性的标注信息为输出,对判别模型进行训练。
可选地,所述获取模块601具体用于:
获取多个有效音频样本数据;
将每个有效音频样本数据输入到生成模型中进行加扰处理,将加扰处理后的音频数据作为无效音频样本数据。
可选地,所述训练模块603还用于根据以下步骤训练所述生成模型:
将获取的每个有效音频样本数据输入到生成模型中进行加扰处理,得到无效音频样本数据,利用各有效音频样本数据和各无效音频样本数据对分类模型进行优化,确定优化后的分类模型的分类准确度;
若优化后的分类模型的分类准确度达到设定准确度,则对所述生成模型的加扰参数进行调整,将调整后的生成模型作为新的生成模型,返回将所述获取的每个有效音频样本数据输入到生成模型中进行加扰处理,得到无效音频样本数据的步骤;
若优化后的分类模型的分类准确度未达到设定准确度,则将当前的生成模型作为最终的生成模型。
本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,另外,在本申请各个实施例中的各功能模块可以集成在一个处理器中,也可以是单独物理存在,也可以两个或两个以上模块集成在一个模块中。各个模块相互之间的耦合可以是通过一些接口实现,这些接口通常是电性通信接口,但是也不排除可能是机械接口或其它的形式接口。因此,作为分离部件说明的模块可以是或者也可以不是物理上分开的,既可以位于一个地方,也可以分布到同一个或不同设备的不同位置上。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
本申请实施例还提供了一种计算机可读存储介质,存储为执行上述处理器所需执行的计算机可执行指令,其包含用于执行上述处理器所需执行的程序。
在一些可能的实施方式中,本申请提供的音频数据的处理方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在电子设备上运行时,所述程序代码用于使所述电子设备执行本说明书上述描述的根据本申请各种示例性实施方式的音频数据的处理方法中的步骤。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的用于音频数据的处理的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在计算设备上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种音频数据的处理方法,其特征在于,包括:
获取音频数据;
将所述音频数据输入到判别模型中,以判别所述音频数据是否为有效数据,所述判别模型是基于有效音频样本数据和无效音频样本数据进行训练得到的;
若根据所述判别模型的输出结果确定所述音频数据为有效数据,将所述音频数据输入到语音识别系统中进行语音识别。
2.如权利要求1所述的方法,其特征在于,还包括:
若根据所述判别模型的输出结果确定所述音频数据为无效数据,则结束对所述音频数据的处理。
3.如权利要求1所述的方法,其特征在于,将所述音频数据输入到判别模型中之前,还包括:
对所述音频数据进行去噪处理,并将去噪处理后的音频数据确定为所述判别模型的输入。
4.一种模型训练方法,其特征在于,包括:
获取音频样本数据,所述音频样本数据包括有效音频样本数据和无效音频样本数据;
提取所述音频样本数据的音频特征;
以所述音频样本数据的音频特征为输入、且以用于表示所述音频样本数据有效性的标注信息为输出,对判别模型进行训练。
5.如权利要求4所述的方法,其特征在于,获取音频样本数据,包括:
获取多个有效音频样本数据;
将每个有效音频样本数据输入到生成模型中进行加扰处理,将加扰处理后的音频数据作为无效音频样本数据。
6.如权利要求5所述的方法,其特征在于,根据以下步骤训练所述生成模型:
将获取的每个有效音频样本数据输入到生成模型中进行加扰处理,得到无效音频样本数据,利用各有效音频样本数据和各无效音频样本数据对分类模型进行优化,确定优化后的分类模型的分类准确度;
若优化后的分类模型的分类准确度达到设定准确度,则对所述生成模型的加扰参数进行调整,将调整后的生成模型作为新的生成模型,返回将所述获取的每个有效音频样本数据输入到生成模型中进行加扰处理,得到无效音频样本数据的步骤;
若优化后的分类模型的分类准确度未达到设定准确度,则将当前的生成模型作为最终的生成模型。
7.一种音频数据的处理装置,其特征在于,包括:
获取模块,用于获取音频数据;
判别模块,用于将所述音频数据输入到判别模型中,以判别所述音频数据是否为有效数据,所述判别模型是基于有效音频样本数据和无效音频样本数据进行训练得到的;
处理模块,用于若根据所述判别模型的输出结果确定所述音频数据为有效数据,将所述音频数据输入到语音识别系统中进行语音识别。
8.一种模型训练装置,其特征在于,包括:
获取模块,用于获取音频样本数据,所述音频样本数据包括有效音频样本数据和无效音频样本数据;
提取模块,用于提取所述音频样本数据的音频特征;
训练模块,用于以所述音频样本数据的音频特征为输入、且以用于表示所述音频样本数据有效性的标注信息为输出,对判别模型进行训练。
9.一种电子设备,其特征在于,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中:
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至3、或者4至6中任一权利要求所述的方法。
10.一种计算机可读介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令用于执行如权利要求1至3、或者4至6中任一权利要求所述的方法。
CN201910533494.2A 2019-06-19 2019-06-19 音频数据的处理方法及装置、模型训练方法及装置 Pending CN112116926A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910533494.2A CN112116926A (zh) 2019-06-19 2019-06-19 音频数据的处理方法及装置、模型训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910533494.2A CN112116926A (zh) 2019-06-19 2019-06-19 音频数据的处理方法及装置、模型训练方法及装置

Publications (1)

Publication Number Publication Date
CN112116926A true CN112116926A (zh) 2020-12-22

Family

ID=73795667

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910533494.2A Pending CN112116926A (zh) 2019-06-19 2019-06-19 音频数据的处理方法及装置、模型训练方法及装置

Country Status (1)

Country Link
CN (1) CN112116926A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113689843A (zh) * 2021-07-22 2021-11-23 北京百度网讯科技有限公司 声码器的选择及模型训练方法、装置、设备和存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514878A (zh) * 2012-06-27 2014-01-15 北京百度网讯科技有限公司 声学建模方法及装置和语音识别方法及装置
CN103811003A (zh) * 2012-11-13 2014-05-21 联想(北京)有限公司 一种语音识别方法以及电子设备
CN107293290A (zh) * 2017-07-31 2017-10-24 郑州云海信息技术有限公司 建立语音声学模型的方法和装置
CN107665708A (zh) * 2016-07-29 2018-02-06 科大讯飞股份有限公司 智能语音交互方法及系统
CN108227903A (zh) * 2016-12-21 2018-06-29 深圳市掌网科技股份有限公司 一种虚拟现实语言交互系统与方法
CN108335694A (zh) * 2018-02-01 2018-07-27 北京百度网讯科技有限公司 远场环境噪声处理方法、装置、设备和存储介质
CN109256136A (zh) * 2018-08-31 2019-01-22 三星电子(中国)研发中心 一种语音识别方法和装置
CN109558547A (zh) * 2018-11-20 2019-04-02 北京锐安科技有限公司 一种数据的过滤方法、装置、电子设备及存储介质
CN109620205A (zh) * 2018-12-26 2019-04-16 上海联影智能医疗科技有限公司 心电数据分类方法、装置、计算机设备和存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514878A (zh) * 2012-06-27 2014-01-15 北京百度网讯科技有限公司 声学建模方法及装置和语音识别方法及装置
CN103811003A (zh) * 2012-11-13 2014-05-21 联想(北京)有限公司 一种语音识别方法以及电子设备
CN107665708A (zh) * 2016-07-29 2018-02-06 科大讯飞股份有限公司 智能语音交互方法及系统
CN108227903A (zh) * 2016-12-21 2018-06-29 深圳市掌网科技股份有限公司 一种虚拟现实语言交互系统与方法
CN107293290A (zh) * 2017-07-31 2017-10-24 郑州云海信息技术有限公司 建立语音声学模型的方法和装置
CN108335694A (zh) * 2018-02-01 2018-07-27 北京百度网讯科技有限公司 远场环境噪声处理方法、装置、设备和存储介质
CN109256136A (zh) * 2018-08-31 2019-01-22 三星电子(中国)研发中心 一种语音识别方法和装置
CN109558547A (zh) * 2018-11-20 2019-04-02 北京锐安科技有限公司 一种数据的过滤方法、装置、电子设备及存储介质
CN109620205A (zh) * 2018-12-26 2019-04-16 上海联影智能医疗科技有限公司 心电数据分类方法、装置、计算机设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113689843A (zh) * 2021-07-22 2021-11-23 北京百度网讯科技有限公司 声码器的选择及模型训练方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
WO2020119448A1 (zh) 语音信息验证
US10515627B2 (en) Method and apparatus of building acoustic feature extracting model, and acoustic feature extracting method and apparatus
US10522136B2 (en) Method and device for training acoustic model, computer device and storage medium
CN107103903A (zh) 基于人工智能的声学模型训练方法、装置及存储介质
WO2021128741A1 (zh) 语音情绪波动分析方法、装置、计算机设备及存储介质
CN102568478B (zh) 一种基于语音识别的视频播放控制方法和系统
CN106683680A (zh) 说话人识别方法及装置、计算机设备及计算机可读介质
CN108364650B (zh) 语音识别结果的调整装置及方法
CN112735383A (zh) 语音信号的处理方法、装置、设备及存储介质
CN110349564A (zh) 一种跨语言语音识别方法和装置
JP2019211749A (ja) 音声の始点及び終点の検出方法、装置、コンピュータ設備及びプログラム
CN108335694B (zh) 远场环境噪声处理方法、装置、设备和存储介质
CN109087667B (zh) 语音流利度识别方法、装置、计算机设备及可读存储介质
WO2021135454A1 (zh) 一种伪冒语音的识别方法、设备及计算机可读存储介质
CN111128222B (zh) 语音分离方法、语音分离模型训练方法和计算机可读介质
CN111081223A (zh) 一种语音识别方法、装置、设备和存储介质
CN112489623A (zh) 语种识别模型的训练方法、语种识别方法及相关设备
CN118173094B (zh) 结合动态时间规整的唤醒词识别方法、装置、设备及介质
CN108806725A (zh) 语音区分方法、装置、计算机设备及存储介质
CN105845143A (zh) 基于支持向量机的说话人确认方法及其系统
CN113077812B (zh) 语音信号生成模型训练方法、回声消除方法和装置及设备
CN112992155B (zh) 一种基于残差神经网络的远场语音说话人识别方法及装置
CN113160823B (zh) 基于脉冲神经网络的语音唤醒方法、装置及电子设备
CN112037772B (zh) 基于多模态的响应义务检测方法、系统及装置
CN112116926A (zh) 音频数据的处理方法及装置、模型训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination