CN106875943A - 一种用于大数据分析的语音识别系统 - Google Patents
一种用于大数据分析的语音识别系统 Download PDFInfo
- Publication number
- CN106875943A CN106875943A CN201710054305.4A CN201710054305A CN106875943A CN 106875943 A CN106875943 A CN 106875943A CN 201710054305 A CN201710054305 A CN 201710054305A CN 106875943 A CN106875943 A CN 106875943A
- Authority
- CN
- China
- Prior art keywords
- speech
- voice
- acoustic features
- information
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007405 data analysis Methods 0.000 title claims abstract description 9
- 238000012545 processing Methods 0.000 claims abstract description 19
- 238000012937 correction Methods 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 238000004140 cleaning Methods 0.000 claims abstract description 10
- 238000000034 method Methods 0.000 claims description 21
- 238000001228 spectrum Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 6
- 238000012897 Levenberg–Marquardt algorithm Methods 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 5
- 230000007613 environmental effect Effects 0.000 description 4
- 241001672694 Citrus reticulata Species 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
针对大数据分析中语音识别的识别率不高的问题,本发明公开的一种用于大数据分析的语音识别系统,包括:语音信息分类模块,原始语音处理模块,声学特征识别提取模块,基础元数据集,声学特征匹配模块,识别纠错模块,结果输出模块。本发明提高了计算机对语音识别各阶段数据的清洗纠错能力,使对语音识别的处理结果更加准确。
Description
技术领域
本发明涉及语音识别技术领域,特别涉及一种用于大数据分析的语音识别系统。
背景技术
在近年来,语音识别技术取得显著进步,已经从实验室走向市场。在实际应用中,例如智能助理Siri,通过识别用户的语音输入信息,自动完成和用户的交互。
目前,进行语音识别时,环境噪声对语音识别的识别率影响很大,同时,对原始语音信息的处理方法也会对识别结果有一定的影响,除此之外,不同的人还有发音习惯上的差别,使用单一声学特征进行识别会是语音识别的识别率受到明显影响。
同时,不同的方言有相似的发音特征和发音习惯,发音者的情绪也会影响语速和语句长短,这都会影响声学特征的识别精度。
由于语音识别的识别率不够高,导致使用语音进行大数据分析面临较大的困难。
发明内容
为解决以上问题,本发明提供一种用于大数据分析的语音识别系统,用以解决语音识别的识别率不高的问题,包括:
语音信息分类模块,用于对原始语音信息进行分类,得到分类后的原始语音信息;原始语音处理模块,用于对分类后的原始语音信息进行语音增强和滤波,得到处理后的语音信息;声学特征识别提取模块,用于对处理后的语音信息中的声学特征进行识别提取;基础元数据集,用于存储针对不同语音信息分类的声学特征及与其对应的文本信息;声学特征匹配模块,用于将提取的声学特征与基础元数据集中与相应的语音信息分类对应的声学特征进行匹配,识别出第一语音识别结果;识别纠错模块,用于对识别出的第一语音识别结果进行清洗纠错,得到第二语音识别结果;结果输出模块,用于将第二语音识别结果作为语音识别结果进行输出。
优选的,所述语音信息分类模块,用于根据语音特征对对原始语音信息进行分类,所述语音特征包括:语音的时长、语音包含的音素数量。
优选的,所述原始语音处理模块,包括用于对分类后的原始语音信息进行语音增强,得到语音增强后的原始语音信息,所用增强方法为减谱法,所用减谱公式为:
其中,PS(ω)为输出语音信息的功率谱,Py(ω)为原始语音信息的功率谱,Pn1(ω)为发声前的寂静段的功率谱,Pn2(ω)为发声结束后的寂静段的功率谱,t1为发声前的寂静段结束时的时间点,t2为发声结束后的寂静段开始时的时间点,t为当前所要处理的语音信息的时间点。
优选的,所述原始语音处理模块,包括用于对语音增强后的原始语音信息进行滤波,所用滤波方法为通过带通滤波器进行滤波。
优选的,所述声学特征包括:
Mel频段倒谱系数和过零峰值幅度。
优选的,所述声学特征识别提取模块,用于对处理后的语音信息中的声学特征进行识别提取,包括,对处理后的语音信息进行预加重、分帧和加窗,加窗所用的窗函数为:
其中,w(n)为窗函数的值,N为帧长,n为采样点;
对声学特征进行识别提取使用基于Levenberg-Marquardt算法的神经网络进行识别提取。
优选的,所述基础元数据集,所用存储方法为,先存储一类语音信息分类的声学特征及与其对应的文本信息,作为参考数据,对于其他语音信息分类的声学特征,根据声学特征出现的概率使用不同的存储方式,出现概率高的声学特征进行完整存储,出现概率低的声学特征仅存储其与参考数据的不同部分。
优选的,所述声学特征匹配模块,用于将提取的声学特征与基础元数据集中与相应的语音信息分类对应的声学特征进行匹配,识别出第一语音识别结果,所用识别方法为通过HMM-GMM模型或RNN-GMM模型进行识别。
优选的,所述识别纠错模块,用于通过语言模型对第一语音识别结果进行清洗纠错,得到第二语音识别结果,包括:结合语义模型对第一语音识别结果进行清洗纠错。
本发明的一些有益效果可以包括:
本发明的提供的系统,可以显著降低环境噪声对语音识别的识别率的影响,通过对语音的分类还能改善方言和语速对语音识别的识别率的影响,本发明通过优化对原始语音信息的处理和使用多种声学特征,使语音识别的识别率有较大提高,再结合语言模型的使用,大大提高了语音识别的识别率。本发明提高了计算机对语音识别的识别能力,尤其适用于语音类型较丰富的大数据分析,使对语音识别的处理结果更加准确。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种用于大数据分析的语音识别系统的示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
图1为本发明实施例中一种用于大数据分析的语音识别系统的示意图,如图1所示,包括:
语音信息分类模块,用于对原始语音信息进行分类,得到分类后的原始语音信息;原始语音处理模块,用于对分类后的原始语音信息进行语音增强和滤波,得到处理后的语音信息;声学特征识别提取模块,用于对处理后的语音信息中的声学特征进行识别提取;基础元数据集,用于存储针对不同语音信息分类的声学特征及与其对应的文本信息;声学特征匹配模块,用于将提取的声学特征与基础元数据集中与相应的语音信息分类对应的声学特征进行匹配,识别出第一语音识别结果;识别纠错模块,用于对识别出的第一语音识别结果进行清洗纠错,得到第二语音识别结果;结果输出模块,用于将第二语音识别结果作为语音识别结果进行输出。
在一个实施例中,语音信息分类模块,用于根据语音特征对对原始语音信息进行分类,其中语音特征包括:语音的时长、语音包含的音素数量。通过语音包含的音素数量与语音的时长之比判断语速,进而通过语速进行分类。在另一个实施例中,语音信息分类模块所用的语音特征包括基频包络和共振峰模式,通过对基频包络和共振峰模式的识别将语音分入普通话类或不同的方言分类。通过语音信息分类模块的处理,能够通过对语音的分类来改善方言和语速对语音识别的识别率的影响。
在一个实施例中,原始语音处理模块,包括用于对分类后的原始语音信息进行语音增强,得到语音增强后的原始语音信息,所用增强方法为减谱法,所用减谱公式为:
其中,PS(ω)为输出语音信息的功率谱,Py(ω)为原始语音信息的功率谱,Pn1(ω)为发声前的“寂静段”的功率谱,“寂静段”为原始语音信息当中被识别为没有发音的时间段,可通过现有技术对其识别,Pn2(ω)为发声结束后的“寂静段”的功率谱,t1为发声前的“寂静段”结束时的时间点,t2为发声结束后的“寂静段”开始时的时间点,t为当前所要处理的语音信息的时间点(其值为当前所要处理的语音信息的开始的时间点和结束的时间点的算术平均值)。在另一个实施例中,减谱公式还可以表示为:
其中,αi为值在0到1之间的权重系数,且∑iαi=1,Pni(ω)为某一“寂静段”的功率谱。通过考虑2个或更多的“寂静段”的功率谱,同时考虑各“寂静段”与当前所要处理的语音信息的时间点的靠近关系,可以更准确的估计当前所要处理的语音信息中包含的环境噪声。
在一个实施例中,原始语音处理模块,包括用于对语音增强后的原始语音信息进行滤波,所用滤波方法为通过带通滤波器进行滤波。包括对语音增强后的原始语音信息进行滤波,所用滤波方法为通过带通滤波器进行滤波。该带通滤波器的上、下截至频率分别是4500Hz和60Hz,采样频率是10kHz。通过这种滤波器滤波,即可以防止混叠干扰,又能抑制50Hz的电源工频干扰,使后续处理的效果更准确。
在一个实施例中,所述声学特征包括:Mel频段倒谱系数(MFCC)和过零峰值幅度(ZCPA),对于每个语音信息分类都存有对应的声学特征。
在一个实施例中,采用的声学特征LPCC、DPSCC、MFCC和ZCPA,在对某一音素进行识别时,首先将语音分配到一个语音信息分类中,然后分别使用与该语音信息分类相匹配的LPCC、DPSCC、MFCC和ZCPA作为声学特征进行识别,并根据预设给LPCC、DPSCC、MFCC和ZCPA的权重系数,对某一音素的识别结果进行加权判断,得到该音素的识别结果。通过将语音进行分类,并使用与相应语音信息分类对应的多个声学特征,可以使得进行语音识别的时候,既可以减少方言对识别率的影响,又有较好的抗环境噪声能力,还有修正使用单一声学特征进行识别时造成的识别错误的能力,能够提高语音识别的精度。
在一个实施例中,声学特征识别提取模块,用于对处理后的语音信息中的声学特征进行识别提取,包括,对处理后的语音信息进行预加重、分帧和加窗,加窗所用的窗函数为:
其中,w(n)为窗函数的值,N为帧长,n为采样点。
对声学特征进行识别提取使用基于Levenberg-Marquardt算法的神经网络进行识别提取。在使用基于Levenberg-Marquardt算法的神经网络时,根据输入声学特征和输出文本的形式确定输入层和输出层的节点数,再用黄金分割优选法确定隐含层的节点数,再使用标记的数据集对该神经网络进行训练和优化。
该窗函数与标准MFCC提取过程中使用的汉明(Hamming)窗相比,能够在保持窗函数主瓣宽度基本不变的情况下,更有效的抑制旁瓣,可以有效的减小对原始语音信息处理过程中引入的误差,使对MFCC等声学特征的提取更加准确。使用基于Levenberg-Marquardt算法的神经网络较常用的BP网络收敛更快,且稳定性足够。
在一个实施例中,基础元数据集,所用存储方法为,先存储普通话分类的声学特征及与其对应的文本信息,作为参考数据,对于其他方言分类的声学特征,根据声学特征出现的概率使用不同的存储方式,出现概率高于预置阈值1/5000的声学特征进行完整存储,出现概率不高于1/5000的声学特征仅存储其与普通话的数据中的不同部分。通过这种存储方法,既可以减少所需要的存储空间,还可以减少音速与声学特征匹配的时间,提高语音识别的速度。
在一个实施例中,基础元数据集,由神经网络对标记的训练集进行增强学习获取。使用通过这种方式获取的基础元数据集中的声学特征进行语音识别有较好的抗干扰能力。
在一个实施例中,声学特征匹配模块,用于将提取的声学特征与基础元数据集中与相应的语音信息分类对应的声学特征进行匹配,识别出第一语音识别结果,所用识别方法为通过HMM-GMM模型或RNN-GMM模型进行识别。在一个实施例中,通过HMM-GMM模型对提取的声学特征进行识别,所用方法为:
其中,为所识别出的语句;W为表示一个语句;P(W)表示语句W出现的概率;λi为预先设置的不同音素识别方法的权重系数,其值大于0;Pi(X|W)为使用音素识别方法i时,由语句W识别为语音X的概率。不同的音素识别方法,可以是使用单一声学特征进行识别,也可以是使用多个声学特征的组合进行识别。使用多个声学特征的组合进行识别的一个例子是,使用MFCC和ZCPA作为声学特征进行识别,两种声学特征的权重分别为0.4和0.6。通过HMM-GMM模型或RNN-GMM模型进行识别,可以方便的组合多种音素识别方法,使语音识别结果的可靠性更高。
在一个实施例中,识别纠错模块,用于通过语言模型对第一语音识别结果进行清洗纠错,得到第二语音识别结果,包括:结合语义模型对第一语音识别结果进行清洗纠错。在得到第一识别结果后,通过预设的语义模型对识别出的结果进行检查,当第一语音识别结果满足预设的语义模型时,将第一语音识别结果确认为第二语音识别结果;当第一语音识别结果不满足预设的语义模型时,根据预设的纠错模板对第一语音识别结果进行纠错,并将纠错过的结果确定为第二语音识别结果。通过语义模型对(识别出的)文本信息进行纠错可通过现有技术实现。通过使用语义模型对语音识别的结果进行纠错,可以使语音识别结果的可靠性进一步提高,使对语音识别的处理结果更加准确。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (9)
1.一种用于大数据分析的语音识别系统,其特征在于,包括:
语音信息分类模块,用于对原始语音信息进行分类,得到分类后的原始语音信息;
原始语音处理模块,用于对分类后的原始语音信息进行语音增强和滤波,得到处理后的语音信息;
声学特征识别提取模块,用于对处理后的语音信息中的声学特征进行识别提取;
基础元数据集,用于存储针对不同语音信息分类的声学特征及与其对应的文本信息;
声学特征匹配模块,用于将提取的声学特征与基础元数据集中与相应的语音信息分类对应的声学特征进行匹配,识别出第一语音识别结果;
识别纠错模块,用于对识别出的第一语音识别结果进行清洗纠错,得到第二语音识别结果;
结果输出模块,用于将第二语音识别结果作为语音识别结果进行输出。
2.根据权利要求1所述的系统,其特征在于,包括:
所述语音信息分类模块,用于根据语音特征对对原始语音信息进行分类,所述语音特征包括:语音的时长、语音包含的音素数量。
3.根据权利要求2所述的系统,其特征在于,包括:
所述原始语音处理模块,包括用于对分类后的原始语音信息进行语音增强,得到语音增强后的原始语音信息,所用增强方法为减谱法,所用减谱公式为:
其中,PS(ω)为输出语音信息的功率谱,Py(ω)为原始语音信息的功率谱,Pn1(ω)为发声前的寂静段的功率谱,Pn2(ω)为发声结束后的寂静段的功率谱,t1为发声前的寂静段结束时的时间点,t2为发声结束后的寂静段开始时的时间点,t为当前所要处理的语音信息的时间点。
4.根据权利要求3所述的系统,其特征在于,包括:
所述原始语音处理模块,包括用于对语音增强后的原始语音信息进行滤波,所用滤波方法为通过带通滤波器进行滤波。
5.根据权利要求1所述的系统,其特征在于,包括:
所述声学特征包括:
Mel频段倒谱系数和过零峰值幅度。
6.根据权利要求1所述的系统,其特征在于,包括:
所述声学特征识别提取模块,用于对处理后的语音信息中的声学特征进行识别提取,包括,对处理后的语音信息进行预加重、分帧和加窗,加窗所用的窗函数为:
其中,w(n)为窗函数的值,N为帧长,n为采样点;
对声学特征进行识别提取使用基于Levenberg-Marquardt算法的神经网络进行识别提取。
7.根据权利要求1所述的系统,其特征在于,包括:
所述基础元数据集,所用存储方法为,先存储一类语音信息分类的声学特征及与其对应的文本信息,作为参考数据,对于其他语音信息分类的声学特征,根据声学特征出现的概率使用不同的存储方式,出现概率高的声学特征进行完整存储,出现概率低的声学特征仅存储其与参考数据的不同部分。
8.根据权利要求1所述的系统,其特征在于,包括:
所述声学特征匹配模块,用于将提取的声学特征与基础元数据集中与相应的语音信息分类对应的声学特征进行匹配,识别出第一语音识别结果,所用识别方法为通过HMM-GMM模型或RNN-GMM模型进行识别。
9.根据权利要求1所述的系统,其特征在于,包括:
所述识别纠错模块,用于通过语言模型对第一语音识别结果进行清洗纠错,得到第二语音识别结果,包括:结合语义模型对第一语音识别结果进行清洗纠错。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710054305.4A CN106875943A (zh) | 2017-01-22 | 2017-01-22 | 一种用于大数据分析的语音识别系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710054305.4A CN106875943A (zh) | 2017-01-22 | 2017-01-22 | 一种用于大数据分析的语音识别系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106875943A true CN106875943A (zh) | 2017-06-20 |
Family
ID=59158993
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710054305.4A Pending CN106875943A (zh) | 2017-01-22 | 2017-01-22 | 一种用于大数据分析的语音识别系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106875943A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107293296A (zh) * | 2017-06-28 | 2017-10-24 | 百度在线网络技术(北京)有限公司 | 语音识别结果纠正方法、装置、设备及存储介质 |
CN107808659A (zh) * | 2017-12-02 | 2018-03-16 | 宫文峰 | 智能语音信号模式识别系统装置 |
CN109346065A (zh) * | 2018-11-14 | 2019-02-15 | 深圳航天科创智能科技有限公司 | 一种语音识别方法及系统 |
CN110931028A (zh) * | 2018-09-19 | 2020-03-27 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和电子设备 |
CN111354352A (zh) * | 2018-12-24 | 2020-06-30 | 中国科学院声学研究所 | 一种用于音频检索的模板自动清洗方法及系统 |
CN111402870A (zh) * | 2019-01-02 | 2020-07-10 | 中国移动通信有限公司研究院 | 一种语音识别方法、装置及设备 |
CN111613212A (zh) * | 2020-05-13 | 2020-09-01 | 携程旅游信息技术(上海)有限公司 | 语音识别方法、系统、电子设备和存储介质 |
WO2020238045A1 (zh) * | 2019-05-29 | 2020-12-03 | 平安科技(深圳)有限公司 | 智能语音识别方法、装置及计算机可读存储介质 |
WO2021104102A1 (zh) * | 2019-11-25 | 2021-06-03 | 科大讯飞股份有限公司 | 语音识别纠错方法、相关设备及可读存储介质 |
CN113643690A (zh) * | 2021-10-18 | 2021-11-12 | 深圳市云创精密医疗科技有限公司 | 针对患者不规则声音的高精密医疗设备的语言识别方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1979638A (zh) * | 2005-12-02 | 2007-06-13 | 中国科学院自动化研究所 | 一种语音识别结果纠错方法 |
CN101542591A (zh) * | 2006-09-25 | 2009-09-23 | 维里逊商务网络服务有限公司 | 用于提供语音识别的方法和系统 |
CN102436812A (zh) * | 2011-11-01 | 2012-05-02 | 展讯通信(上海)有限公司 | 会议记录装置及利用该装置对会议进行记录的方法 |
CN103377652A (zh) * | 2012-04-25 | 2013-10-30 | 上海智臻网络科技有限公司 | 一种用于进行语音识别的方法、装置和设备 |
CN104340144A (zh) * | 2013-08-09 | 2015-02-11 | 福特全球技术公司 | 多车辆设置 |
CN105244023A (zh) * | 2015-11-09 | 2016-01-13 | 上海语知义信息技术有限公司 | 课堂教学中教师情绪的提醒系统及方法 |
CN105786204A (zh) * | 2014-12-26 | 2016-07-20 | 联想(北京)有限公司 | 信息处理方法和电子设备 |
CN105895087A (zh) * | 2016-03-24 | 2016-08-24 | 海信集团有限公司 | 一种语音识别方法及装置 |
CN105976818A (zh) * | 2016-04-26 | 2016-09-28 | Tcl集团股份有限公司 | 指令识别的处理方法及装置 |
CN106340295A (zh) * | 2015-07-06 | 2017-01-18 | 无锡天脉聚源传媒科技有限公司 | 一种语音识别结果的接受方法及装置 |
-
2017
- 2017-01-22 CN CN201710054305.4A patent/CN106875943A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1979638A (zh) * | 2005-12-02 | 2007-06-13 | 中国科学院自动化研究所 | 一种语音识别结果纠错方法 |
CN101542591A (zh) * | 2006-09-25 | 2009-09-23 | 维里逊商务网络服务有限公司 | 用于提供语音识别的方法和系统 |
CN102436812A (zh) * | 2011-11-01 | 2012-05-02 | 展讯通信(上海)有限公司 | 会议记录装置及利用该装置对会议进行记录的方法 |
CN103377652A (zh) * | 2012-04-25 | 2013-10-30 | 上海智臻网络科技有限公司 | 一种用于进行语音识别的方法、装置和设备 |
CN104340144A (zh) * | 2013-08-09 | 2015-02-11 | 福特全球技术公司 | 多车辆设置 |
CN105786204A (zh) * | 2014-12-26 | 2016-07-20 | 联想(北京)有限公司 | 信息处理方法和电子设备 |
CN106340295A (zh) * | 2015-07-06 | 2017-01-18 | 无锡天脉聚源传媒科技有限公司 | 一种语音识别结果的接受方法及装置 |
CN105244023A (zh) * | 2015-11-09 | 2016-01-13 | 上海语知义信息技术有限公司 | 课堂教学中教师情绪的提醒系统及方法 |
CN105895087A (zh) * | 2016-03-24 | 2016-08-24 | 海信集团有限公司 | 一种语音识别方法及装置 |
CN105976818A (zh) * | 2016-04-26 | 2016-09-28 | Tcl集团股份有限公司 | 指令识别的处理方法及装置 |
Non-Patent Citations (2)
Title |
---|
宋玉凤: ""减谱法在语音增强中的应用"", 《信息化研究》 * |
陶智: ""基于减谱法的语音增强和噪声消除的研究"", 《苏州大学学报》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107293296B (zh) * | 2017-06-28 | 2020-11-20 | 百度在线网络技术(北京)有限公司 | 语音识别结果纠正方法、装置、设备及存储介质 |
CN107293296A (zh) * | 2017-06-28 | 2017-10-24 | 百度在线网络技术(北京)有限公司 | 语音识别结果纠正方法、装置、设备及存储介质 |
CN107808659A (zh) * | 2017-12-02 | 2018-03-16 | 宫文峰 | 智能语音信号模式识别系统装置 |
CN110931028A (zh) * | 2018-09-19 | 2020-03-27 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和电子设备 |
CN110931028B (zh) * | 2018-09-19 | 2024-04-26 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和电子设备 |
CN109346065A (zh) * | 2018-11-14 | 2019-02-15 | 深圳航天科创智能科技有限公司 | 一种语音识别方法及系统 |
CN111354352B (zh) * | 2018-12-24 | 2023-07-14 | 中国科学院声学研究所 | 一种用于音频检索的模板自动清洗方法及系统 |
CN111354352A (zh) * | 2018-12-24 | 2020-06-30 | 中国科学院声学研究所 | 一种用于音频检索的模板自动清洗方法及系统 |
CN111402870A (zh) * | 2019-01-02 | 2020-07-10 | 中国移动通信有限公司研究院 | 一种语音识别方法、装置及设备 |
CN111402870B (zh) * | 2019-01-02 | 2023-08-15 | 中国移动通信有限公司研究院 | 一种语音识别方法、装置及设备 |
WO2020238045A1 (zh) * | 2019-05-29 | 2020-12-03 | 平安科技(深圳)有限公司 | 智能语音识别方法、装置及计算机可读存储介质 |
WO2021104102A1 (zh) * | 2019-11-25 | 2021-06-03 | 科大讯飞股份有限公司 | 语音识别纠错方法、相关设备及可读存储介质 |
CN111613212B (zh) * | 2020-05-13 | 2023-10-31 | 携程旅游信息技术(上海)有限公司 | 语音识别方法、系统、电子设备和存储介质 |
CN111613212A (zh) * | 2020-05-13 | 2020-09-01 | 携程旅游信息技术(上海)有限公司 | 语音识别方法、系统、电子设备和存储介质 |
CN113643690A (zh) * | 2021-10-18 | 2021-11-12 | 深圳市云创精密医疗科技有限公司 | 针对患者不规则声音的高精密医疗设备的语言识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106875943A (zh) | 一种用于大数据分析的语音识别系统 | |
WO2019179034A1 (zh) | 语音识别方法、服务器及计算机可读存储介质 | |
CN107221318B (zh) | 英语口语发音评分方法和系统 | |
US10074363B2 (en) | Method and apparatus for keyword speech recognition | |
US10410623B2 (en) | Method and system for generating advanced feature discrimination vectors for use in speech recognition | |
US8532991B2 (en) | Speech models generated using competitive training, asymmetric training, and data boosting | |
CN103617799B (zh) | 一种适应于移动设备的英语语句发音质量检测方法 | |
CN102222499B (zh) | 声音判别系统、声音判别方法以及声音判别用程序 | |
US20090313016A1 (en) | System and Method for Detecting Repeated Patterns in Dialog Systems | |
Mouaz et al. | Speech recognition of moroccan dialect using hidden Markov models | |
CN104050965A (zh) | 具有情感识别功能的英语语音发音质量评价系统及方法 | |
CN103928023A (zh) | 一种语音评分方法及系统 | |
CN106548775B (zh) | 一种语音识别方法和系统 | |
CN110265063A (zh) | 一种基于固定时长语音情感识别序列分析的测谎方法 | |
CN110867193A (zh) | 一种段落英语口语评分方法及系统 | |
CN106297769B (zh) | 一种应用于语种识别的鉴别性特征提取方法 | |
Grewal et al. | Isolated word recognition system for English language | |
CN112489692A (zh) | 语音端点检测方法和装置 | |
Hasija et al. | Recognition of children Punjabi speech using tonal non-tonal classifier | |
Zolnay et al. | Extraction methods of voicing feature for robust speech recognition. | |
JP2996019B2 (ja) | 音声認識装置 | |
JP3735209B2 (ja) | 話者認識装置及び方法 | |
CN114155882B (zh) | 一种基于语音识别的“路怒”情绪判断方法和装置 | |
US20050246172A1 (en) | Acoustic model training method and system | |
CN106875935A (zh) | 语音智能识别清洗方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170620 |