CN106875943A - 一种用于大数据分析的语音识别系统 - Google Patents

一种用于大数据分析的语音识别系统 Download PDF

Info

Publication number
CN106875943A
CN106875943A CN201710054305.4A CN201710054305A CN106875943A CN 106875943 A CN106875943 A CN 106875943A CN 201710054305 A CN201710054305 A CN 201710054305A CN 106875943 A CN106875943 A CN 106875943A
Authority
CN
China
Prior art keywords
acoustic feature
voice
module
voice messaging
identification result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710054305.4A
Other languages
English (en)
Inventor
刘春明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Cloud Letter To Mdt Infotech Ltd
Original Assignee
Shanghai Cloud Letter To Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Cloud Letter To Mdt Infotech Ltd filed Critical Shanghai Cloud Letter To Mdt Infotech Ltd
Priority to CN201710054305.4A priority Critical patent/CN106875943A/zh
Publication of CN106875943A publication Critical patent/CN106875943A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

针对大数据分析中语音识别的识别率不高的问题,本发明公开的一种用于大数据分析的语音识别系统,包括:语音信息分类模块,原始语音处理模块,声学特征识别提取模块,基础元数据集,声学特征匹配模块,识别纠错模块,结果输出模块。本发明提高了计算机对语音识别各阶段数据的清洗纠错能力,使对语音识别的处理结果更加准确。

Description

一种用于大数据分析的语音识别系统
技术领域
本发明涉及语音识别技术领域,特别涉及一种用于大数据分析的语音识别系统。
背景技术
在近年来,语音识别技术取得显著进步,已经从实验室走向市场。在实际应用中,例如智能助理Siri,通过识别用户的语音输入信息,自动完成和用户的交互。
目前,进行语音识别时,环境噪声对语音识别的识别率影响很大,同时,对原始语音信息的处理方法也会对识别结果有一定的影响,除此之外,不同的人还有发音习惯上的差别,使用单一声学特征进行识别会是语音识别的识别率受到明显影响。
同时,不同的方言有相似的发音特征和发音习惯,发音者的情绪也会影响语速和语句长短,这都会影响声学特征的识别精度。
由于语音识别的识别率不够高,导致使用语音进行大数据分析面临较大的困难。
发明内容
为解决以上问题,本发明提供一种用于大数据分析的语音识别系统,用以解决语音识别的识别率不高的问题,包括:
语音信息分类模块,用于对原始语音信息进行分类,得到分类后的原始语音信息;原始语音处理模块,用于对分类后的原始语音信息进行语音增强和滤波,得到处理后的语音信息;声学特征识别提取模块,用于对处理后的语音信息中的声学特征进行识别提取;基础元数据集,用于存储针对不同语音信息分类的声学特征及与其对应的文本信息;声学特征匹配模块,用于将提取的声学特征与基础元数据集中与相应的语音信息分类对应的声学特征进行匹配,识别出第一语音识别结果;识别纠错模块,用于对识别出的第一语音识别结果进行清洗纠错,得到第二语音识别结果;结果输出模块,用于将第二语音识别结果作为语音识别结果进行输出。
优选的,所述语音信息分类模块,用于根据语音特征对对原始语音信息进行分类,所述语音特征包括:语音的时长、语音包含的音素数量。
优选的,所述原始语音处理模块,包括用于对分类后的原始语音信息进行语音增强,得到语音增强后的原始语音信息,所用增强方法为减谱法,所用减谱公式为:
其中,PS(ω)为输出语音信息的功率谱,Py(ω)为原始语音信息的功率谱,Pn1(ω)为发声前的寂静段的功率谱,Pn2(ω)为发声结束后的寂静段的功率谱,t1为发声前的寂静段结束时的时间点,t2为发声结束后的寂静段开始时的时间点,t为当前所要处理的语音信息的时间点。
优选的,所述原始语音处理模块,包括用于对语音增强后的原始语音信息进行滤波,所用滤波方法为通过带通滤波器进行滤波。
优选的,所述声学特征包括:
Mel频段倒谱系数和过零峰值幅度。
优选的,所述声学特征识别提取模块,用于对处理后的语音信息中的声学特征进行识别提取,包括,对处理后的语音信息进行预加重、分帧和加窗,加窗所用的窗函数为:
其中,w(n)为窗函数的值,N为帧长,n为采样点;
对声学特征进行识别提取使用基于Levenberg-Marquardt算法的神经网络进行识别提取。
优选的,所述基础元数据集,所用存储方法为,先存储一类语音信息分类的声学特征及与其对应的文本信息,作为参考数据,对于其他语音信息分类的声学特征,根据声学特征出现的概率使用不同的存储方式,出现概率高的声学特征进行完整存储,出现概率低的声学特征仅存储其与参考数据的不同部分。
优选的,所述声学特征匹配模块,用于将提取的声学特征与基础元数据集中与相应的语音信息分类对应的声学特征进行匹配,识别出第一语音识别结果,所用识别方法为通过HMM-GMM模型或RNN-GMM模型进行识别。
优选的,所述识别纠错模块,用于通过语言模型对第一语音识别结果进行清洗纠错,得到第二语音识别结果,包括:结合语义模型对第一语音识别结果进行清洗纠错。
本发明的一些有益效果可以包括:
本发明的提供的系统,可以显著降低环境噪声对语音识别的识别率的影响,通过对语音的分类还能改善方言和语速对语音识别的识别率的影响,本发明通过优化对原始语音信息的处理和使用多种声学特征,使语音识别的识别率有较大提高,再结合语言模型的使用,大大提高了语音识别的识别率。本发明提高了计算机对语音识别的识别能力,尤其适用于语音类型较丰富的大数据分析,使对语音识别的处理结果更加准确。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种用于大数据分析的语音识别系统的示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
图1为本发明实施例中一种用于大数据分析的语音识别系统的示意图,如图1所示,包括:
语音信息分类模块,用于对原始语音信息进行分类,得到分类后的原始语音信息;原始语音处理模块,用于对分类后的原始语音信息进行语音增强和滤波,得到处理后的语音信息;声学特征识别提取模块,用于对处理后的语音信息中的声学特征进行识别提取;基础元数据集,用于存储针对不同语音信息分类的声学特征及与其对应的文本信息;声学特征匹配模块,用于将提取的声学特征与基础元数据集中与相应的语音信息分类对应的声学特征进行匹配,识别出第一语音识别结果;识别纠错模块,用于对识别出的第一语音识别结果进行清洗纠错,得到第二语音识别结果;结果输出模块,用于将第二语音识别结果作为语音识别结果进行输出。
在一个实施例中,语音信息分类模块,用于根据语音特征对对原始语音信息进行分类,其中语音特征包括:语音的时长、语音包含的音素数量。通过语音包含的音素数量与语音的时长之比判断语速,进而通过语速进行分类。在另一个实施例中,语音信息分类模块所用的语音特征包括基频包络和共振峰模式,通过对基频包络和共振峰模式的识别将语音分入普通话类或不同的方言分类。通过语音信息分类模块的处理,能够通过对语音的分类来改善方言和语速对语音识别的识别率的影响。
在一个实施例中,原始语音处理模块,包括用于对分类后的原始语音信息进行语音增强,得到语音增强后的原始语音信息,所用增强方法为减谱法,所用减谱公式为:
其中,PS(ω)为输出语音信息的功率谱,Py(ω)为原始语音信息的功率谱,Pn1(ω)为发声前的“寂静段”的功率谱,“寂静段”为原始语音信息当中被识别为没有发音的时间段,可通过现有技术对其识别,Pn2(ω)为发声结束后的“寂静段”的功率谱,t1为发声前的“寂静段”结束时的时间点,t2为发声结束后的“寂静段”开始时的时间点,t为当前所要处理的语音信息的时间点(其值为当前所要处理的语音信息的开始的时间点和结束的时间点的算术平均值)。在另一个实施例中,减谱公式还可以表示为:
其中,αi为值在0到1之间的权重系数,且∑iαi=1,Pni(ω)为某一“寂静段”的功率谱。通过考虑2个或更多的“寂静段”的功率谱,同时考虑各“寂静段”与当前所要处理的语音信息的时间点的靠近关系,可以更准确的估计当前所要处理的语音信息中包含的环境噪声。
在一个实施例中,原始语音处理模块,包括用于对语音增强后的原始语音信息进行滤波,所用滤波方法为通过带通滤波器进行滤波。包括对语音增强后的原始语音信息进行滤波,所用滤波方法为通过带通滤波器进行滤波。该带通滤波器的上、下截至频率分别是4500Hz和60Hz,采样频率是10kHz。通过这种滤波器滤波,即可以防止混叠干扰,又能抑制50Hz的电源工频干扰,使后续处理的效果更准确。
在一个实施例中,所述声学特征包括:Mel频段倒谱系数(MFCC)和过零峰值幅度(ZCPA),对于每个语音信息分类都存有对应的声学特征。
在一个实施例中,采用的声学特征LPCC、DPSCC、MFCC和ZCPA,在对某一音素进行识别时,首先将语音分配到一个语音信息分类中,然后分别使用与该语音信息分类相匹配的LPCC、DPSCC、MFCC和ZCPA作为声学特征进行识别,并根据预设给LPCC、DPSCC、MFCC和ZCPA的权重系数,对某一音素的识别结果进行加权判断,得到该音素的识别结果。通过将语音进行分类,并使用与相应语音信息分类对应的多个声学特征,可以使得进行语音识别的时候,既可以减少方言对识别率的影响,又有较好的抗环境噪声能力,还有修正使用单一声学特征进行识别时造成的识别错误的能力,能够提高语音识别的精度。
在一个实施例中,声学特征识别提取模块,用于对处理后的语音信息中的声学特征进行识别提取,包括,对处理后的语音信息进行预加重、分帧和加窗,加窗所用的窗函数为:
其中,w(n)为窗函数的值,N为帧长,n为采样点。
对声学特征进行识别提取使用基于Levenberg-Marquardt算法的神经网络进行识别提取。在使用基于Levenberg-Marquardt算法的神经网络时,根据输入声学特征和输出文本的形式确定输入层和输出层的节点数,再用黄金分割优选法确定隐含层的节点数,再使用标记的数据集对该神经网络进行训练和优化。
该窗函数与标准MFCC提取过程中使用的汉明(Hamming)窗相比,能够在保持窗函数主瓣宽度基本不变的情况下,更有效的抑制旁瓣,可以有效的减小对原始语音信息处理过程中引入的误差,使对MFCC等声学特征的提取更加准确。使用基于Levenberg-Marquardt算法的神经网络较常用的BP网络收敛更快,且稳定性足够。
在一个实施例中,基础元数据集,所用存储方法为,先存储普通话分类的声学特征及与其对应的文本信息,作为参考数据,对于其他方言分类的声学特征,根据声学特征出现的概率使用不同的存储方式,出现概率高于预置阈值1/5000的声学特征进行完整存储,出现概率不高于1/5000的声学特征仅存储其与普通话的数据中的不同部分。通过这种存储方法,既可以减少所需要的存储空间,还可以减少音速与声学特征匹配的时间,提高语音识别的速度。
在一个实施例中,基础元数据集,由神经网络对标记的训练集进行增强学习获取。使用通过这种方式获取的基础元数据集中的声学特征进行语音识别有较好的抗干扰能力。
在一个实施例中,声学特征匹配模块,用于将提取的声学特征与基础元数据集中与相应的语音信息分类对应的声学特征进行匹配,识别出第一语音识别结果,所用识别方法为通过HMM-GMM模型或RNN-GMM模型进行识别。在一个实施例中,通过HMM-GMM模型对提取的声学特征进行识别,所用方法为:
其中,为所识别出的语句;W为表示一个语句;P(W)表示语句W出现的概率;λi为预先设置的不同音素识别方法的权重系数,其值大于0;Pi(X|W)为使用音素识别方法i时,由语句W识别为语音X的概率。不同的音素识别方法,可以是使用单一声学特征进行识别,也可以是使用多个声学特征的组合进行识别。使用多个声学特征的组合进行识别的一个例子是,使用MFCC和ZCPA作为声学特征进行识别,两种声学特征的权重分别为0.4和0.6。通过HMM-GMM模型或RNN-GMM模型进行识别,可以方便的组合多种音素识别方法,使语音识别结果的可靠性更高。
在一个实施例中,识别纠错模块,用于通过语言模型对第一语音识别结果进行清洗纠错,得到第二语音识别结果,包括:结合语义模型对第一语音识别结果进行清洗纠错。在得到第一识别结果后,通过预设的语义模型对识别出的结果进行检查,当第一语音识别结果满足预设的语义模型时,将第一语音识别结果确认为第二语音识别结果;当第一语音识别结果不满足预设的语义模型时,根据预设的纠错模板对第一语音识别结果进行纠错,并将纠错过的结果确定为第二语音识别结果。通过语义模型对(识别出的)文本信息进行纠错可通过现有技术实现。通过使用语义模型对语音识别的结果进行纠错,可以使语音识别结果的可靠性进一步提高,使对语音识别的处理结果更加准确。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.一种用于大数据分析的语音识别系统,其特征在于,包括:
语音信息分类模块,用于对原始语音信息进行分类,得到分类后的原始语音信息;
原始语音处理模块,用于对分类后的原始语音信息进行语音增强和滤波,得到处理后的语音信息;
声学特征识别提取模块,用于对处理后的语音信息中的声学特征进行识别提取;
基础元数据集,用于存储针对不同语音信息分类的声学特征及与其对应的文本信息;
声学特征匹配模块,用于将提取的声学特征与基础元数据集中与相应的语音信息分类对应的声学特征进行匹配,识别出第一语音识别结果;
识别纠错模块,用于对识别出的第一语音识别结果进行清洗纠错,得到第二语音识别结果;
结果输出模块,用于将第二语音识别结果作为语音识别结果进行输出。
2.根据权利要求1所述的系统,其特征在于,包括:
所述语音信息分类模块,用于根据语音特征对对原始语音信息进行分类,所述语音特征包括:语音的时长、语音包含的音素数量。
3.根据权利要求2所述的系统,其特征在于,包括:
所述原始语音处理模块,包括用于对分类后的原始语音信息进行语音增强,得到语音增强后的原始语音信息,所用增强方法为减谱法,所用减谱公式为:
P S ( ω ) = m a x { 0 , P y ( ω ) - t 2 - t t 2 - t 1 ( P n 1 ( ω ) ) 2 + t - t 1 t 2 - t 1 ( P n 2 ( ω ) ) 2 }
其中,PS(ω)为输出语音信息的功率谱,Py(ω)为原始语音信息的功率谱,Pn1(ω)为发声前的寂静段的功率谱,Pn2(ω)为发声结束后的寂静段的功率谱,t1为发声前的寂静段结束时的时间点,t2为发声结束后的寂静段开始时的时间点,t为当前所要处理的语音信息的时间点。
4.根据权利要求3所述的系统,其特征在于,包括:
所述原始语音处理模块,包括用于对语音增强后的原始语音信息进行滤波,所用滤波方法为通过带通滤波器进行滤波。
5.根据权利要求1所述的系统,其特征在于,包括:
所述声学特征包括:
Mel频段倒谱系数和过零峰值幅度。
6.根据权利要求1所述的系统,其特征在于,包括:
所述声学特征识别提取模块,用于对处理后的语音信息中的声学特征进行识别提取,包括,对处理后的语音信息进行预加重、分帧和加窗,加窗所用的窗函数为:
w ( n ) = 0.47 - 0.42 c o s ( 2 π ( n - 1 ) N - 1 ) + 0.11 s i n ( π ( n - 1 ) N - 1 ) , 1 ≤ n ≤ N 0 n = e l s e
其中,w(n)为窗函数的值,N为帧长,n为采样点;
对声学特征进行识别提取使用基于Levenberg-Marquardt算法的神经网络进行识别提取。
7.根据权利要求1所述的系统,其特征在于,包括:
所述基础元数据集,所用存储方法为,先存储一类语音信息分类的声学特征及与其对应的文本信息,作为参考数据,对于其他语音信息分类的声学特征,根据声学特征出现的概率使用不同的存储方式,出现概率高的声学特征进行完整存储,出现概率低的声学特征仅存储其与参考数据的不同部分。
8.根据权利要求1所述的系统,其特征在于,包括:
所述声学特征匹配模块,用于将提取的声学特征与基础元数据集中与相应的语音信息分类对应的声学特征进行匹配,识别出第一语音识别结果,所用识别方法为通过HMM-GMM模型或RNN-GMM模型进行识别。
9.根据权利要求1所述的系统,其特征在于,包括:
所述识别纠错模块,用于通过语言模型对第一语音识别结果进行清洗纠错,得到第二语音识别结果,包括:结合语义模型对第一语音识别结果进行清洗纠错。
CN201710054305.4A 2017-01-22 2017-01-22 一种用于大数据分析的语音识别系统 Pending CN106875943A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710054305.4A CN106875943A (zh) 2017-01-22 2017-01-22 一种用于大数据分析的语音识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710054305.4A CN106875943A (zh) 2017-01-22 2017-01-22 一种用于大数据分析的语音识别系统

Publications (1)

Publication Number Publication Date
CN106875943A true CN106875943A (zh) 2017-06-20

Family

ID=59158993

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710054305.4A Pending CN106875943A (zh) 2017-01-22 2017-01-22 一种用于大数据分析的语音识别系统

Country Status (1)

Country Link
CN (1) CN106875943A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107293296A (zh) * 2017-06-28 2017-10-24 百度在线网络技术(北京)有限公司 语音识别结果纠正方法、装置、设备及存储介质
CN107808659A (zh) * 2017-12-02 2018-03-16 宫文峰 智能语音信号模式识别系统装置
CN109346065A (zh) * 2018-11-14 2019-02-15 深圳航天科创智能科技有限公司 一种语音识别方法及系统
CN110931028A (zh) * 2018-09-19 2020-03-27 北京搜狗科技发展有限公司 一种语音处理方法、装置和电子设备
CN111354352A (zh) * 2018-12-24 2020-06-30 中国科学院声学研究所 一种用于音频检索的模板自动清洗方法及系统
CN111402870A (zh) * 2019-01-02 2020-07-10 中国移动通信有限公司研究院 一种语音识别方法、装置及设备
CN111613212A (zh) * 2020-05-13 2020-09-01 携程旅游信息技术(上海)有限公司 语音识别方法、系统、电子设备和存储介质
WO2020238045A1 (zh) * 2019-05-29 2020-12-03 平安科技(深圳)有限公司 智能语音识别方法、装置及计算机可读存储介质
WO2021104102A1 (zh) * 2019-11-25 2021-06-03 科大讯飞股份有限公司 语音识别纠错方法、相关设备及可读存储介质
CN113643690A (zh) * 2021-10-18 2021-11-12 深圳市云创精密医疗科技有限公司 针对患者不规则声音的高精密医疗设备的语言识别方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1979638A (zh) * 2005-12-02 2007-06-13 中国科学院自动化研究所 一种语音识别结果纠错方法
CN101542591A (zh) * 2006-09-25 2009-09-23 维里逊商务网络服务有限公司 用于提供语音识别的方法和系统
CN102436812A (zh) * 2011-11-01 2012-05-02 展讯通信(上海)有限公司 会议记录装置及利用该装置对会议进行记录的方法
CN103377652A (zh) * 2012-04-25 2013-10-30 上海智臻网络科技有限公司 一种用于进行语音识别的方法、装置和设备
CN104340144A (zh) * 2013-08-09 2015-02-11 福特全球技术公司 多车辆设置
CN105244023A (zh) * 2015-11-09 2016-01-13 上海语知义信息技术有限公司 课堂教学中教师情绪的提醒系统及方法
CN105786204A (zh) * 2014-12-26 2016-07-20 联想(北京)有限公司 信息处理方法和电子设备
CN105895087A (zh) * 2016-03-24 2016-08-24 海信集团有限公司 一种语音识别方法及装置
CN105976818A (zh) * 2016-04-26 2016-09-28 Tcl集团股份有限公司 指令识别的处理方法及装置
CN106340295A (zh) * 2015-07-06 2017-01-18 无锡天脉聚源传媒科技有限公司 一种语音识别结果的接受方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1979638A (zh) * 2005-12-02 2007-06-13 中国科学院自动化研究所 一种语音识别结果纠错方法
CN101542591A (zh) * 2006-09-25 2009-09-23 维里逊商务网络服务有限公司 用于提供语音识别的方法和系统
CN102436812A (zh) * 2011-11-01 2012-05-02 展讯通信(上海)有限公司 会议记录装置及利用该装置对会议进行记录的方法
CN103377652A (zh) * 2012-04-25 2013-10-30 上海智臻网络科技有限公司 一种用于进行语音识别的方法、装置和设备
CN104340144A (zh) * 2013-08-09 2015-02-11 福特全球技术公司 多车辆设置
CN105786204A (zh) * 2014-12-26 2016-07-20 联想(北京)有限公司 信息处理方法和电子设备
CN106340295A (zh) * 2015-07-06 2017-01-18 无锡天脉聚源传媒科技有限公司 一种语音识别结果的接受方法及装置
CN105244023A (zh) * 2015-11-09 2016-01-13 上海语知义信息技术有限公司 课堂教学中教师情绪的提醒系统及方法
CN105895087A (zh) * 2016-03-24 2016-08-24 海信集团有限公司 一种语音识别方法及装置
CN105976818A (zh) * 2016-04-26 2016-09-28 Tcl集团股份有限公司 指令识别的处理方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
宋玉凤: ""减谱法在语音增强中的应用"", 《信息化研究》 *
陶智: ""基于减谱法的语音增强和噪声消除的研究"", 《苏州大学学报》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107293296B (zh) * 2017-06-28 2020-11-20 百度在线网络技术(北京)有限公司 语音识别结果纠正方法、装置、设备及存储介质
CN107293296A (zh) * 2017-06-28 2017-10-24 百度在线网络技术(北京)有限公司 语音识别结果纠正方法、装置、设备及存储介质
CN107808659A (zh) * 2017-12-02 2018-03-16 宫文峰 智能语音信号模式识别系统装置
CN110931028A (zh) * 2018-09-19 2020-03-27 北京搜狗科技发展有限公司 一种语音处理方法、装置和电子设备
CN110931028B (zh) * 2018-09-19 2024-04-26 北京搜狗科技发展有限公司 一种语音处理方法、装置和电子设备
CN109346065A (zh) * 2018-11-14 2019-02-15 深圳航天科创智能科技有限公司 一种语音识别方法及系统
CN111354352B (zh) * 2018-12-24 2023-07-14 中国科学院声学研究所 一种用于音频检索的模板自动清洗方法及系统
CN111354352A (zh) * 2018-12-24 2020-06-30 中国科学院声学研究所 一种用于音频检索的模板自动清洗方法及系统
CN111402870A (zh) * 2019-01-02 2020-07-10 中国移动通信有限公司研究院 一种语音识别方法、装置及设备
CN111402870B (zh) * 2019-01-02 2023-08-15 中国移动通信有限公司研究院 一种语音识别方法、装置及设备
WO2020238045A1 (zh) * 2019-05-29 2020-12-03 平安科技(深圳)有限公司 智能语音识别方法、装置及计算机可读存储介质
WO2021104102A1 (zh) * 2019-11-25 2021-06-03 科大讯飞股份有限公司 语音识别纠错方法、相关设备及可读存储介质
CN111613212B (zh) * 2020-05-13 2023-10-31 携程旅游信息技术(上海)有限公司 语音识别方法、系统、电子设备和存储介质
CN111613212A (zh) * 2020-05-13 2020-09-01 携程旅游信息技术(上海)有限公司 语音识别方法、系统、电子设备和存储介质
CN113643690A (zh) * 2021-10-18 2021-11-12 深圳市云创精密医疗科技有限公司 针对患者不规则声音的高精密医疗设备的语言识别方法

Similar Documents

Publication Publication Date Title
CN106875943A (zh) 一种用于大数据分析的语音识别系统
US10176811B2 (en) Neural network-based voiceprint information extraction method and apparatus
CN103928023B (zh) 一种语音评分方法及系统
CN104200804B (zh) 一种面向人机交互的多类信息耦合的情感识别方法
CN110211565A (zh) 方言识别方法、装置及计算机可读存储介质
US10235991B2 (en) Hybrid phoneme, diphone, morpheme, and word-level deep neural networks
CN104050965A (zh) 具有情感识别功能的英语语音发音质量评价系统及方法
Samantaray et al. A novel approach of speech emotion recognition with prosody, quality and derived features using SVM classifier for a class of North-Eastern Languages
CN105374352A (zh) 一种语音激活方法及系统
Levitan et al. Combining Acoustic-Prosodic, Lexical, and Phonotactic Features for Automatic Deception Detection.
CN109767756A (zh) 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法
Fulmare et al. Understanding and estimation of emotional expression using acoustic analysis of natural speech
Selvaraj et al. Human speech emotion recognition
CN107886968A (zh) 语音评测方法及系统
Pao et al. Combining acoustic features for improved emotion recognition in mandarin speech
Přibil et al. GMM-based speaker age and gender classification in Czech and Slovak
KR20210071713A (ko) 스피치 스킬 피드백 시스템
Revathy et al. Performance comparison of speaker and emotion recognition
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
Nandwana et al. A new front-end for classification of non-speech sounds: a study on human whistle
Anila et al. Emotion recognition using continuous density HMM
CN106875935A (zh) 语音智能识别清洗方法
CN107886938A (zh) 虚拟现实引导催眠语音处理方法及装置
Sztahó et al. Speech activity detection and automatic prosodic processing unit segmentation for emotion recognition
CN111210845A (zh) 一种基于改进自相关特征的病理语音检测装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170620