CN107346659B - 基于人工智能的语音识别方法、装置及终端 - Google Patents

基于人工智能的语音识别方法、装置及终端 Download PDF

Info

Publication number
CN107346659B
CN107346659B CN201710414207.7A CN201710414207A CN107346659B CN 107346659 B CN107346659 B CN 107346659B CN 201710414207 A CN201710414207 A CN 201710414207A CN 107346659 B CN107346659 B CN 107346659B
Authority
CN
China
Prior art keywords
voice data
recognized
energy
sub
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710414207.7A
Other languages
English (en)
Other versions
CN107346659A (zh
Inventor
陈明明
李先刚
孙珏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201710414207.7A priority Critical patent/CN107346659B/zh
Publication of CN107346659A publication Critical patent/CN107346659A/zh
Priority to US15/858,112 priority patent/US10573294B2/en
Application granted granted Critical
Publication of CN107346659B publication Critical patent/CN107346659B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0012Smoothing of parameters of the decoder interpolation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/937Signal energy in various frequency bands

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于人工智能的语音识别方法、装置及终端,其中,该方法包括:获取待识别的语音数据;利用训练后的子带能量归一化声学模型,对待识别的语音数据进行处理,确定待识别的语音数据中各时频单元对应的归一化能量特征;根据各时频单元对应的归一化能量特征,确定待识别的语音数据对应的文本数据。由此,实现了根据归一化能量特征,进行语音识别,提高了语音识别的准确性,优化了语音唤醒的效果,改善了用户体验。

Description

基于人工智能的语音识别方法、装置及终端
技术领域
本发明涉及音频技术领域,尤其涉及一种基于人工智能的语音识别方法、装置及终端。
背景技术
人工智能(Artificial Intelligence,简称AI),是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。
随着科学技术的进步,语音唤醒技术被广泛应用于移动终端、智能家居或语音交互系统中,为用户利用语音指令唤醒设备提供了方便。
目前,国内外主流的语音唤醒技术,通常利用滤波器组(filter bank,简称FB)特征进行语音识别。在安静近场的场景下,filter bank特征每一个子带的能量都非常明显,这种特征符合人耳听力的特征,因此可以很好的应用于语音识别领域。然而,在噪声场景和远场场景下,filter bank特征的各个子带的能量会出现失衡,这就导致了语音识别的准确性低,影响语音唤醒的效果。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种基于人工智能的语音识别方法,实现了根据归一化能量特征,进行语音识别,提高了语音识别的准确性,优化了语音唤醒的效果,改善了用户体验。
本发明的第二个目的在于提出一种基于人工智能的语音识别装置。
本发明的第三个目的在于提出一种终端。
本发明的第四个目的在于提出一种计算机可读存储介质。
本发明的第五个目的在于提出一种计算机程序产品。
为达上述目的,本发明第一方面实施例提出了一种基于人工智能的语音识别方法,包括:获取待识别的语音数据;利用训练后的子带能量归一化声学模型,对所述待识别的语音数据进行处理,确定所述待识别的语音数据中各时频单元对应的归一化能量特征;根据所述各时频单元对应的归一化能量特征,确定所述待识别的语音数据对应的文本数据。
本发明实施例的基于人工智能的语音识别方法,首先获取待识别的语音数据,然后利用训练后的子带能量归一化声学模型,对待识别的语音数据进行处理,确定待识别的语音数据中各时频单元对应的归一化能量特征,最后根据各时频单元对应的归一化能量特征,确定待识别的语音数据对应的文本数据。由此,实现了根据归一化能量特征,进行语音识别,提高了语音识别的准确性,优化了语音唤醒的效果,改善了用户体验。
为达上述目的,本发明第二方面实施例提出了一种基于人工智能的语音识别装置,包括:第一获取模块,用于获取待识别的语音数据;第一确定模块,用于利用训练后的子带能量归一化声学模型,对所述待识别的语音数据进行处理,确定所述待识别的语音数据中各时频单元对应的归一化能量特征;第二确定模块,用于根据所述各时频单元对应的归一化能量特征,确定所述待识别的语音数据对应的文本数据。
本发明实施例的基于人工智能的语音识别装置,首先获取待识别的语音数据,然后利用训练后的子带能量归一化声学模型,对待识别的语音数据进行处理,确定待识别的语音数据中各时频单元对应的归一化能量特征,最后根据各时频单元对应的归一化能量特征,确定待识别的语音数据对应的文本数据。由此,实现了根据归一化能量特征,进行语音识别,提高了语音识别的准确性,优化了语音唤醒的效果,改善了用户体验。
为达上述目的,本发明第三方面实施例提出了一种终端,包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,当所述处理器执行所述程序时实现如第一方面所述的基于人工智能的语音识别方法。
为达上述目的,本发明第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的基于人工智能的语音识别方法。
为达上述目的,本发明第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行如第一方面所述的基于人工智能的语音识别方法。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一个实施例的基于人工智能的语音识别方法的流程图;
图2A是现有技术中进行语音识别时采用的filter bank特征图;
图2B是本发明一个实施例的归一化能量特征图;
图3是本发明另一个实施例的基于人工智能的语音识别方法的流程图;
图4是本发明一个实施例的基于人工智能的语音识别装置的结构示意图;
图5是本发明另一个实施例的基于人工智能的语音识别装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
具体的,本发明各实施例针对现有的语音唤醒技术中,使用filter bank特征,在安静近场的场景下,可以取得很好的效果,但在噪声场景和远场场景下,filter bank特征的各个子带的能量会出现失衡,导致语音识别的准确性低,语音唤醒的效果差的问题,提出一种基于人工智能的语音识别方法。
本发明实施例提供的基于人工智能的语音识别方法,通过利用训练后的子带能量归一化声学模型,对待识别的语音数据进行处理,以确定待识别的语音数据中各时频单元对应的归一化能量(per-channel energy normalization,简称PCEN)特征,从而根据各时频单元对应的归一化能量特征,确定待识别的语音数据对应的文本数据,实现了根据归一化能量特征,进行语音识别,提高了语音识别的准确性,优化了语音唤醒的效果,改善了用户体验。
下面参考附图描述本发明实施例的基于人工智能的语音识别方法、装置及终端。
图1是本发明一个实施例的基于人工智能的语音识别方法的流程图。
如图1所示,该基于人工智能的语音识别方法包括:
步骤101,获取待识别的语音数据。
其中,本发明实施例提供的基于人工智能的语音识别方法的执行主体为本发明实施例提供的基于人工智能的语音识别装置,该装置可以被配置在任何终端中,以实现对语音数据的识别。
具体实现时,可以在基于人工智能的语音识别装置中,设置麦克风等语音采集设备,从而用户在需要通过语音唤醒终端,或与终端通过语音进行交互等情况下,可以向终端发送语音,基于人工智能的语音识别装置,即可通过语音采集设备,获取到待识别的语音数据。
其中,语音数据,可以是中文、英文等任意语言形式的数据。
步骤102,利用训练后的子带能量归一化声学模型,对待识别的语音数据进行处理,确定待识别的语音数据中各时频单元对应的归一化能量特征。
具体的,可以先获取待识别的语音数据中,各时频单元对应的滤波器组能量值,从而利用训练后的子带能量归一化声学模型,对待识别的语音数据中各时频单元对应的滤波器组能量值进行处理,以确定待识别的语音数据中各时频单元对应的归一化能量特征。
即,在步骤102之前,还可以包括:
对待识别的语音数据进行预处理,确定待识别的语音数据中各时频单元对应的滤波器组能量值。
相应的,步骤102,具体可以包括:
利用训练后的子带能量归一化声学模型,对待识别的语音数据中各时频单元对应的滤波器组能量值进行处理。
具体实现时,获取待识别语音数据后,可以通过预加重技术、分帧处理、加汉明窗、快速傅里叶变换、平方求能量、梅尔滤波、取对数等预处理过程,从待识别的语音数据中,获取各时频单元对应的滤波器组能量值。从而利用训练后的子带能量归一化声学模型,对各时频单元对应的滤波器组能量值进行处理,以确定待识别的语音数据中各时频单元对应的归一化能量特征。
具体的,确定了各时频单元对应的滤波器组能量值后,可以通过以下步骤102a-102c,确定待识别的语音数据中各时频单元对应的归一化能量特征。
步骤102a,确定第i帧语音数据中第j个时频单元对应的滤波器组能量值E(i,j)及各子带分别对应的平滑系数sj
具体的,对待识别的语音数据进行预处理,即可确定第i帧语音数据中第j个时频单元对应的滤波器组能量值E(i,j)。
通过训练生成子带能量归一化声学模型,即可确定各子带分别对应的平滑系数sj。其中,各子带分别对应的平滑系数sj通常为0到1之间的数值。
步骤102b,获取第i-1帧语音数据中第j个时频单元对应的平滑后的滤波器组能量值M(i-1,j)。
步骤102c,根据E(i,j)、sj及M(i-1,j),确定第i帧语音数据中第j个时频单元对应的平滑后的滤波器组能量值M(i,j)。
具体实现时,可以根据公式M(i,j)=(1-sj)M(i-1,j)+sjE(i,j),确定第i帧语音数据中第j个时频单元对应的平滑后的滤波器组能量值M(i,j)。
并根据
Figure BDA0001313241740000051
确定第i帧语音数据中第j个时频单元对应的归一化能量特征。
其中,为了防止公式中的分母为0,∈可以设置为一个极小值,比如,可以设置为10-6
Figure BDA0001313241740000052
可以看作一种前馈自动增益控制(automatic gain control,简称AGC),AGC的强度由α控制,α越大,AGC的强度越大。
σ和γ是一种平方根压缩的参数,用来控制PCEN最终输出值的范围,确保输出值在一个比较小的范围内。具体的,σ和γ可以根据需要设置,比如,可以根据经验,将σ设置为2,γ设置为0.5。
可以理解的是,当i为1时,第i-1帧语音数据中第j个时频单元对应的平滑后的滤波器组能量值M(i-1,j)可以设为零,即第1帧语音数据中第j个时频单元对应的平滑后的滤波器组能量值M(1,j)可以根据M(1,j)=sjE(1,j)确定。
步骤103,根据各时频单元对应的归一化能量特征,确定待识别的语音数据对应的文本数据。
可以理解的是,确定了各时频单元对应的归一化能量特征后,可以将各时频单元对应的归一化能量特征输入神经网络模型中,以确定待识别的语音数据对应的文本数据。从而通过对识别后的文本数据进行分析处理,即可确定待识别的语音数据对应的指令,进而实现对终端的唤醒或与用户交互等功能。
进一步的,在本发明实施例中,还可以包括神经网络模型的训练生成过程。具体的,可以先获取大量的训练语音数据及对应的训练文本数据,并确定大量语音数据中,各时频单元对应的归一化能量特征,从而利用训练语音数据对应的归一化能量特征及对应的训练文本数据,训练神经网络模型。
需要说明的是,在步骤103中,可以将各时频单元对应的归一化能量特征,输入神经网络模型中,以利用神经网络模型,确定待识别的语音数据对应的文本数据;或者,也可以利用其它语言模型,如隐马尔科夫模型、最大熵模型等,确定待识别的语音数据对应的文本数据,此处不作限制。
下面结合图2,对本发明实施例提供的基于人工智能的语音识别方法中,利用的归一化能量特征与现有的filter bank特征进行比较。其中,图2A为filter bank特征图,图2B为归一化能量特征图。
如图2所示,在第0-30帧语音段,及第100-150帧语音段中,图2B所示的子带的数值颜色基本相同,相比图2A所示的子带的数值颜色更均衡,因此,本发明实施例提供的基于人工智能的语音识别方法,相比现有技术,具有更高的准确性,用于语音唤醒时的效果更好。
本发明实施例的基于人工智能的语音识别方法,首先获取待识别的语音数据,然后利用训练后的子带能量归一化声学模型,对待识别的语音数据进行处理,确定待识别的语音数据中各时频单元对应的归一化能量特征,最后根据各时频单元对应的归一化能量特征,确定待识别的语音数据对应的文本数据。由此,实现了根据归一化能量特征,进行语音识别,提高了语音识别的准确性,优化了语音唤醒的效果,改善了用户体验。
通过上述分析可知,可以利用训练后的子带能量归一化声学模型,对待识别的语音数据进行处理,以确定待识别的语音数据中各时频单元对应的归一化能量特征,从而根据各时频单元对应的归一化能量特征,确定待识别的语音数据对应的文本数据。下面结合图3,对本申请实施例提供的基于人工智能的语音识别方法中,子带能量归一化声学模型的训练方法进行详细说明。
图3是本发明另一个实施例的基于人工智能的语音识别方法的流程图。
如图3所示,该方法包括:
步骤301,获取训练语音数据。
步骤302,利用训练语音数据,对初始子带能量归一化声学模型进行训练,确定训练后的子带能量归一化模型及各子带分别对应的平滑参数。
其中,初始子带能量归一化声学模型,是根据子带能量归一化算法确定的声学模型。
具体的,可以先获取训练语音数据与对应的正确文本数据,然后从训练语音数据中,通过预加重技术、分帧处理、加汉明窗、快速傅里叶变换、平方求能量、梅尔滤波、取对数等过程,获取滤波器组能量值,并预先设置各子带分别对应的初始平滑参数,从而利用从训练语音数据中获取的滤波器组能量值,及初始平滑参数,对初始子带能量归一化声学模型进行训练,得到训练后的子带能量归一化声学模型,及各子带分别对应的平滑参数。
相应的,在利用训练语音数据,对初始子带能量归一化声学模型进行训练前,还可以包括:
根据预设的规则,确定各子带分别对应的初始平滑参数。
具体的,各子带分别对应的初始平滑参数,可以根据需要确定。比如,可以根据经验确定,或者,可以根据语音数据的具体应用场景等确定。
具体训练时,可以将从训练语音数据中获取的滤波器组能量值,及初始平滑参数,输入初始子带能量归一化声学模型,生成对应的文本数据。通过将生成的文本数据,与训练语音数据对应的正确文本数据进行比较,即可根据生成的文本数据与训练语音数据对应的正确文本数据的差异,确定各子带分别对应的平滑系数的修正系数,从而对各子带分别对应的初始平滑系数进行修正,确定第一次修正后的子带能量归一化声学模型。
重复上述步骤,通过多次修正,直至各子带分别对应的平滑系数趋于平稳,即可得到训练后的子带能量归一化声学模型,及各子带分别对应的平滑参数。
通过利用训练后的子带能量归一化声学模型,及各子带分别对应的平滑参数,即可在获取待识别的语音数据后,确定待识别的语音数据中各时频单元对应的归一化能量特征,从而根据各时频单元对应的归一化能量特征,确定待识别的语音数据对应的文本数据。
本发明实施例的基于人工智能的语音识别方法,首先获取训练语音数据,然后利用训练语音数据,对初始子带能量归一化声学模型进行训练,确定训练后的子带能量归一化模型及各子带分别对应的平滑参数。由此,通过训练生成子带能量归一化声学模型,以确定待识别的语音数据中各时频单元对应的归一化能量特征,进而确定待识别的语音数据对应的文本数据,实现了利用归一化能量特征,进行语音识别,提高了语音识别的准确性,优化了语音唤醒的效果,改善了用户体验。
图4是本发明一个实施例的基于人工智能的语音识别装置的结构示意图。
如图4所示,该基于人工智能的语音识别装置包括:
第一获取模块41,用于获取待识别的语音数据;
第一确定模块42,用于利用训练后的子带能量归一化声学模型,对所述待识别的语音数据进行处理,确定所述待识别的语音数据中各时频单元对应的归一化能量特征;
第二确定模块43,用于根据所述各时频单元对应的归一化能量特征,确定所述待识别的语音数据对应的文本数据。
具体的,本实施例提供的基于人工智能的语音识别装置,可以被配置在任何终端中,用于执行如上述实施例所示的基于人工智能的语音识别方法,以实现对语音数据的识别。
在本申请实施例一种可能的实现形式中,该装置,还包括:
第五确定模块44,用于对所述待识别的语音数据进行预处理,确定所述待识别的语音数据中各时频单元对应的滤波器组能量值。
进一步的,上述第一确定模块42,具体用于:
所述利用训练后的子带能量归一化声学模型,对所述待识别的语音数据中各时频单元对应的滤波器组能量值进行处理。
在本申请实施例另一种可能的实现形式中,第一确定模块42,还用于:
确定第i帧语音数据中第j个时频单元对应的滤波器组能量值E(i,j)及各子带分别对应的平滑参数sj
获取第i-1帧语音数据中第j个时频单元对应的平滑后的滤波器组能量值M(i-1,j);
根据所述E(i,j)、sj及M(i-1,j),确定所述第i帧语音数据中第j个时频单元对应的平滑后的滤波器组能量值M(i,j)。
需要说明的是,前述对基于人工智能的语音识别方法实施例的解释说明也适用于该实施例的基于人工智能的语音识别装置,此处不再赘述。
本发明实施例的基于人工智能的语音识别装置,首先获取待识别的语音数据,然后利用训练后的子带能量归一化声学模型,对待识别的语音数据进行处理,确定待识别的语音数据中各时频单元对应的归一化能量特征,最后根据各时频单元对应的归一化能量特征,确定待识别的语音数据对应的文本数据。由此,实现了根据归一化能量特征,进行语音识别,提高了语音识别的准确性,优化了语音唤醒的效果,改善了用户体验。
图5是本发明另一个实施例的基于人工智能的语音识别装置的结构示意图。
如图5所示,该基于人工智能的语音识别装置,还可以包括:
第二获取模块51,用于获取训练语音数据。
第三确定模块52,用于利用所述训练语音数据,对初始子带能量归一化声学模型进行训练,确定训练后的子带能量归一化模型及各子带分别对应的平滑参数。
第四确定模块53,用于根据预设的规则,确定各子带分别对应的初始平滑参数。
需要说明的是,前述对基于人工智能的语音识别方法实施例的解释说明也适用于该实施例的基于人工智能的语音识别装置,此处不再赘述。
本发明实施例的基于人工智能的语音识别装置,首先获取训练语音数据,然后利用训练语音数据,对初始子带能量归一化声学模型进行训练,确定训练后的子带能量归一化模型及各子带分别对应的平滑参数。由此,通过训练生成子带能量归一化声学模型,以确定待识别的语音数据中各时频单元对应的归一化能量特征,进而确定待识别的语音数据对应的文本数据,实现了利用归一化能量特征,进行语音识别,提高了语音识别的准确性,优化了语音唤醒的效果,改善了用户体验。
为达上述目的,本发明第三方面实施例提出了一种终端,包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,当上述处理器执行所述程序时实现如前述实施例中的基于人工智能的语音识别方法。
为达上述目的,本发明第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,当该程序被处理器执行时实现如前述实施例中的基于人工智能的语音识别方法。
为达上述目的,本发明第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行如前述实施例中的基于人工智能的语音识别方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于人工智能的语音识别方法,其特征在于,包括:
获取待识别的语音数据;
利用训练后的子带能量归一化声学模型,对所述待识别的语音数据进行处理,确定所述待识别的语音数据中各时频单元对应的归一化能量特征;
根据所述各时频单元对应的归一化能量特征,确定所述待识别的语音数据对应的文本数据;
所述利用训练后的子带能量归一化声学模型,对所述待识别的语音数据进行处理之前,还包括:
获取训练语音数据;
利用所述训练语音数据,对初始子带能量归一化声学模型进行训练,确定训练后的子带能量归一化模型及各子带分别对应的平滑参数,其中,所述利用所述训练语音数据,对初始子带能量归一化声学模型进行训练,包括:将从所述训练语音数据中获取的滤波器组能量值及初始平滑参数输入初始子带能量归一化声学模型,生成对应的文本数据,根据生成的文本数据与所述训练语音数据对应的正确文本数据的差异确定各子带分别对应的平滑系数的修正系数,以对各子带分别对应的初始平滑系数进行修正,确定修正后的子带能量归一化声学模型。
2.如权利要求1所述的方法,其特征在于,所述利用所述训练语音数据,对初始子带能量归一化声学模型进行训练之前,还包括:
根据预设的规则,确定各子带分别对应的初始平滑参数。
3.如权利要求1-2任一所述的方法,其特征在于,所述利用训练后的子带能量归一化声学模型,对所述待识别的语音数据进行处理之前,还包括:
对所述待识别的语音数据进行预处理,确定所述待识别的语音数据中各时频单元对应的滤波器组能量值;
所述利用训练后的子带能量归一化声学模型,对所述待识别的语音数据进行处理,包括:
所述利用训练后的子带能量归一化声学模型,对所述待识别的语音数据中各时频单元对应的滤波器组能量值进行处理。
4.如权利要求3所述的方法,其特征在于,所述确定所述待识别的语音数据中各时频单元对应的归一化能量特征,包括:
确定第i帧语音数据中第j个时频单元对应的滤波器组能量值E(i,j)及各子带分别对应的平滑参数sj
获取第i-1帧语音数据中第j个时频单元对应的平滑后的滤波器组能量值M(i-1,j);
根据所述E(i,j)、sj及M(i-1,j),确定所述第i帧语音数据中第j个时频单元对应的平滑后的滤波器组能量值M(i,j)。
5.一种基于人工智能的语音识别装置,其特征在于,包括:
第一获取模块,用于获取待识别的语音数据;
第一确定模块,用于利用训练后的子带能量归一化声学模型,对所述待识别的语音数据进行处理,确定所述待识别的语音数据中各时频单元对应的归一化能量特征;
第二确定模块,用于根据所述各时频单元对应的归一化能量特征,确定所述待识别的语音数据对应的文本数据;
第二获取模块,用于获取训练语音数据;
第三确定模块,用于利用所述训练语音数据,对初始子带能量归一化声学模型进行训练,确定训练后的子带能量归一化模型及各子带分别对应的平滑参数,其中,所述第三确定模块,具体用于将从所述训练语音数据中获取的滤波器组能量值及初始平滑参数输入初始子带能量归一化声学模型,生成对应的文本数据,根据生成的文本数据与所述训练语音数据对应的正确文本数据的差异确定各子带分别对应的平滑系数的修正系数,以对各子带分别对应的初始平滑系数进行修正,确定修正后的子带能量归一化声学模型。
6.如权利要求5所述的装置,其特征在于,还包括:
第四确定模块,用于根据预设的规则,确定各子带分别对应的初始平滑参数。
7.如权利要求5-6任一所述的装置,其特征在于,还包括:
第五确定模块,用于对所述待识别的语音数据进行预处理,确定所述待识别的语音数据中各时频单元对应的滤波器组能量值;
所述第一确定模块,具体用于:
所述利用训练后的子带能量归一化声学模型,对所述待识别的语音数据中各时频单元对应的滤波器组能量值进行处理。
8.如权利要求7所述的装置,其特征在于,所述第一确定模块,还用于:
确定第i帧语音数据中第j个时频单元对应的滤波器组能量值E(i,j)及各子带分别对应的平滑参数sj
获取第i-1帧语音数据中第j个时频单元对应的平滑后的滤波器组能量值M(i-1,j);
根据所述E(i,j)、sj及M(i-1,j),确定所述第i帧语音数据中第j个时频单元对应的平滑后的滤波器组能量值M(i,j)。
9.一种终端,包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-4中任一所述的基于人工智能的语音识别方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一所述的基于人工智能的语音识别方法。
CN201710414207.7A 2017-06-05 2017-06-05 基于人工智能的语音识别方法、装置及终端 Active CN107346659B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710414207.7A CN107346659B (zh) 2017-06-05 2017-06-05 基于人工智能的语音识别方法、装置及终端
US15/858,112 US10573294B2 (en) 2017-06-05 2017-12-29 Speech recognition method based on artificial intelligence and terminal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710414207.7A CN107346659B (zh) 2017-06-05 2017-06-05 基于人工智能的语音识别方法、装置及终端

Publications (2)

Publication Number Publication Date
CN107346659A CN107346659A (zh) 2017-11-14
CN107346659B true CN107346659B (zh) 2020-06-23

Family

ID=60254470

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710414207.7A Active CN107346659B (zh) 2017-06-05 2017-06-05 基于人工智能的语音识别方法、装置及终端

Country Status (2)

Country Link
US (1) US10573294B2 (zh)
CN (1) CN107346659B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108022587B (zh) * 2017-12-15 2021-03-05 深圳市声扬科技有限公司 语音识别方法、装置、计算机设备和存储介质
CN110797008B (zh) * 2018-07-16 2024-03-29 阿里巴巴集团控股有限公司 一种远场语音识别方法、语音识别模型训练方法和服务器
WO2020111676A1 (ko) 2018-11-28 2020-06-04 삼성전자 주식회사 음성 인식 장치 및 방법
KR20200063984A (ko) * 2018-11-28 2020-06-05 삼성전자주식회사 음성 인식 장치 및 방법
CN111276134B (zh) * 2020-01-22 2023-03-31 北京声智科技有限公司 语音识别方法、装置和计算机可读存储介质
CN111445900A (zh) * 2020-03-11 2020-07-24 平安科技(深圳)有限公司 一种语音识别的前端处理方法、装置及终端设备
CN111696524B (zh) * 2020-04-21 2023-02-14 厦门快商通科技股份有限公司 一种叠字语音识别方法及系统
CN112233656A (zh) * 2020-10-09 2021-01-15 安徽讯呼信息科技有限公司 一种人工智能语音唤醒方法
CN112331186B (zh) * 2020-11-19 2022-03-25 思必驰科技股份有限公司 语音唤醒方法及装置
CN113782005B (zh) * 2021-01-18 2024-03-01 北京沃东天骏信息技术有限公司 语音识别方法及装置、存储介质及电子设备
CN113035174A (zh) * 2021-03-25 2021-06-25 联想(北京)有限公司 语音识别处理方法、装置、设备及系统
CN117711417B (zh) * 2024-02-05 2024-04-30 武汉大学 一种基于频域自注意力网络的语音质量增强方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102820031A (zh) * 2012-08-06 2012-12-12 西北工业大学 一种利用切割—分层构筑法的语音识别方法
CN102982801A (zh) * 2012-11-12 2013-03-20 中国科学院自动化研究所 一种用于鲁棒语音识别的语音特征提取方法
CN106782593A (zh) * 2017-02-27 2017-05-31 重庆邮电大学 一种用于声学回声消除的多带结构自适应滤波器切换方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6308155B1 (en) * 1999-01-20 2001-10-23 International Computer Science Institute Feature extraction for automatic speech recognition
US20080167862A1 (en) * 2007-01-09 2008-07-10 Melodis Corporation Pitch Dependent Speech Recognition Engine
US20110035215A1 (en) * 2007-08-28 2011-02-10 Haim Sompolinsky Method, device and system for speech recognition
WO2013019562A2 (en) * 2011-07-29 2013-02-07 Dts Llc. Adaptive voice intelligibility processor
CN102522081B (zh) * 2011-12-29 2015-08-05 北京百度网讯科技有限公司 一种检测语音端点的方法及系统
US9060052B2 (en) * 2013-03-13 2015-06-16 Accusonus S.A. Single channel, binaural and multi-channel dereverberation
US10360901B2 (en) * 2013-12-06 2019-07-23 Nuance Communications, Inc. Learning front-end speech recognition parameters within neural network training

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102820031A (zh) * 2012-08-06 2012-12-12 西北工业大学 一种利用切割—分层构筑法的语音识别方法
CN102982801A (zh) * 2012-11-12 2013-03-20 中国科学院自动化研究所 一种用于鲁棒语音识别的语音特征提取方法
CN106782593A (zh) * 2017-02-27 2017-05-31 重庆邮电大学 一种用于声学回声消除的多带结构自适应滤波器切换方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Spectral entropy based feature for robust ASR;Hemant Misra et al.;《ICASSP 2004》;20040830;第193-196页 *
Subband feature extraction using lapped orthogonal transform for speech recognition;Z.Tufekci et al.;《2001 IEEE International Conference on Acoustics, Speech, and Signal Processing. Proceedings》;20020807;第149-152页 *

Also Published As

Publication number Publication date
CN107346659A (zh) 2017-11-14
US20180350346A1 (en) 2018-12-06
US10573294B2 (en) 2020-02-25

Similar Documents

Publication Publication Date Title
CN107346659B (zh) 基于人工智能的语音识别方法、装置及终端
CN107481728B (zh) 背景声消除方法、装置及终端设备
DE112015004785B4 (de) Verfahren zum Umwandeln eines verrauschten Signals in ein verbessertes Audiosignal
CN106782501B (zh) 基于人工智能的语音特征提取方法和装置
CN109616100B (zh) 语音识别模型的生成方法及其装置
DE112014003337T5 (de) Sprachsignaltrennung und Synthese basierend auf auditorischer Szenenanalyse und Sprachmodellierung
WO2018223727A1 (zh) 识别声纹的方法、装置、设备及介质
CN103778920A (zh) 数字助听器中语音增强和频响补偿相融合方法
JP7314279B2 (ja) 音質の推定および制御を使用した音源分離のための装置および方法
CN110111769B (zh) 一种电子耳蜗控制方法、装置、可读存储介质及电子耳蜗
CN105448302B (zh) 一种环境自适应的语音混响消除方法和系统
CN104867499A (zh) 一种用于助听器的分频段维纳滤波去噪方法和系统
US20070150263A1 (en) Speech modeling and enhancement based on magnitude-normalized spectra
CN114333865A (zh) 一种模型训练以及音色转换方法、装置、设备及介质
Chabot-Leclerc et al. The role of auditory spectro-temporal modulation filtering and the decision metric for speech intelligibility prediction
Min et al. Mask estimate through Itakura-Saito nonnegative RPCA for speech enhancement
CN111696573B (zh) 声源信号处理方法及装置、电子设备和存储介质
WO2016077557A1 (en) Adaptive interchannel discriminitive rescaling filter
CN109741761B (zh) 声音处理方法和装置
CN110797008B (zh) 一种远场语音识别方法、语音识别模型训练方法和服务器
WO2023086311A1 (en) Control of speech preservation in speech enhancement
CN115497451A (zh) 语音处理方法、装置、电子设备和存储介质
JP7184236B2 (ja) 声紋を認識する方法、装置、設備、および記憶媒体
CN103971697A (zh) 基于非局部均值滤波的语音增强方法
CN111508500B (zh) 一种语音情绪识别方法、系统、装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant