CN110473547B - 一种语音识别方法 - Google Patents
一种语音识别方法 Download PDFInfo
- Publication number
- CN110473547B CN110473547B CN201910630131.0A CN201910630131A CN110473547B CN 110473547 B CN110473547 B CN 110473547B CN 201910630131 A CN201910630131 A CN 201910630131A CN 110473547 B CN110473547 B CN 110473547B
- Authority
- CN
- China
- Prior art keywords
- signal
- voice
- frame
- scene
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012545 processing Methods 0.000 claims abstract description 24
- 238000013507 mapping Methods 0.000 claims abstract description 6
- 238000005070 sampling Methods 0.000 claims description 19
- 238000001914 filtration Methods 0.000 claims description 13
- 230000005236 sound signal Effects 0.000 claims description 7
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000007499 fusion processing Methods 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 claims 22
- 230000002596 correlated effect Effects 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 abstract description 8
- 230000008901 benefit Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 239000003814 drug Substances 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Circuit For Audible Band Transducer (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本发明提供了一种语音识别的方法,包括:获取待识别的第一语音信号,并对第一语音信号进行回声消除处理,获得相应的第二语音信号,且第二语音信号中包括第三语音信号;识别第三语音信号,确定相应的场景信息;根据所确定的场景信息,并基于预设映射表得到与场景信息对应的预设领域;根据所得到的预设领域,从预先存储的语音模型数据库中调取出相应的语音识别模型;基于所调取出的语音识别模型对第二语音信号进行识别,获得相应的语音识别结果。用以通过识别第三语音信号,确定相应的场景信息,有利于提高对语音信号的识别率。
Description
技术领域
本发明涉及语音识别技术领域,特别涉及一种语音识别方法。
背景技术
根据现有技术,在对一段语音信息进行识别的过程中,一般会将语音信息中的噪声和背景音等干扰识别的因素进行过滤和删除,但是由于噪音和背景音实际上包含了语音信息所发生的场景信息,使得在识别时,由于缺乏相关的场景信息,只是通过识别语音信息,不能确定其语音信息所属的领域,导致识别率变差。
发明内容
本发明提供一种语音识别方法,用以通过识别第三语音信号,确定相应的场景信息,有利于提高对语音信号的识别率。
本发明提供一种语音识别的方法,包括:
获取待识别的第一语音信号,并对所述第一语音信号进行回声消除处理,获得相应的第二语音信号,且所述第二语音信号中包括第三语音信号;
识别所述第三语音信号,确定相应的场景信息;
根据所确定的所述场景信息,并基于预设映射表得到与所述场景信息对应的预设领域;
根据所得到的所述预设领域,从预先存储的语音模型数据库中调取出相应的语音识别模型;
基于所调取出的所述语音识别模型对所述第二语音信号进行识别,获得相应的语音识别结果。
在一种可能实现的方式中,
所述第三语音信号包括相关的场景噪音和/或场景背景音。
在一种可能实现的方式中,
在获取待识别的第一语音信号的过程中,需将其中所产生的输出信号进行输出,来获取最终的待识别的第一语音信号,其步骤包括:
步骤11:对标准参考信号进行自适应滤波处理,获得相应的第一滤波信号;
步骤12:求解所述第一语音信号和所述第一滤波信号之间的差值,获得第一误差信号;
对所述标准参考信号进行增益处理,获得第三处理信号;
步骤13:对所述第三处理信号分别进行失真处理,得到对应的第四处理信号;并对所述第四处理信号进行自适应滤波处理,获得相应的第二滤波信号;
步骤14:求解所述第一误差信号与所述第二滤波信号之间的差值,并获得第二误差信号;
步骤15:将所述第一误差信号和所述第二误差信号进行融合处理,得到对应的输出信号,将所述输出信号输出,获得最终的待识别的第一语音信号。
在一种可能实现的方式中,
对所述第一语音信号进行回声消除处理,获得相应的第二语音信号的步骤包括:
步骤21:获取第一语音信号中的第一信号;
步骤22:利用回声消除算法生成与所述第一信号波形相反的第二信号,利用所述第二信号与所述第一信号叠加处理,得到相应的第二语音信号。
在一种可能实现的方式中,
所述语音识别模型是预先训练好的,且是基于卷积神经网络获取到的,
在基于所述语音识别模型对所述第二语音信号进行识别的过程中,根据所述第二语音信号中的第一帧和所述第一帧之前的预设时间段内的第二帧,对所述第二语音信号中的第一帧进行识别。
在一种可能实现的方式中,
对所述第二语音信号中的第一帧进行识别的过程中,需对第一帧中的语音帧进行提取,其包括:
采集第一帧中每个频率采样点对应的能量;
判断第一音帧对应的帧类型,当频率采样点的能量处于第一预设范围时,判断当前第一帧为语音帧,且标定语音帧对应的第一位置;
当频率采样点的能量处于第二预设范围时,判断当前第一帧为噪声帧,且标定噪声帧对应的第二位置;
当频率采样点的能量处于第三预设范围时,判断当前第一帧为次语音帧,且标定次语音帧对应的第三位置;
当频率采样点的能量处于第四预设范围时,判断当前第一帧为次噪音帧,且标定次噪音帧对应的第四位置;
且提取所述第二语音信号中所述第一帧处于第一预设范围时的语音帧,并将所提取的所述语音帧组成语音集合,来对所述语音集合进行识别。
在一种可能实现的方式中,
在识别所述第三语音信号之前,还包括:提取所述第二语音信号中的第三语音信号,其所提取的所述第三语音信号是对应的声音波形。
在一种可能实现的方式中,
所述通过识别所述第三语音信号,确定相应的场景信息的步骤包括:
步骤31:提取所述第三语音信号中的场景噪声信号,并对所述场景噪声信号进行识别,获得相应的第一场景结果;
步骤32:提取所述第三语音信号中的场景背景音信号,并对所述场景背景音信号进行识别,获得相应的第二场景结果;
步骤33:对所获得的第一场景结果和第二场景结果进行拟合处理,获得最终的第三场景结果,所述第三场景结果即为所确定的相应的场景信息。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种语音识别方法的流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
在一实施例中,为了解决现有技术中,在语音识别过程中,将噪音及背景音作为干扰识别的因素进行过滤和删除,而噪音和背景音实际上包含了语音发生的场景信息,识别领域需要用户设置,不够智能,并且产品只能针对固定的领域,导致应用范围被限制,有时候为了提升应用范围,设置了很多领域,又导致性能变差,如果用户对领域不熟悉,很容易设置错误,导致识别率变差。因此,通过对噪声和背景音自动提取场景信息,就变得尤为重要。
因此,本发明实施例提供了一种语音识别的方法,如图1所示,包括:
步骤1:获取待识别的第一语音信号,并对第一语音信号进行回声消除处理,获得相应的第二语音信号,且第二语音信号中包括第三语音信号;
第三语音信号包括相关的场景噪音和/或场景背景音。
步骤2:识别第三语音信号,确定相应的场景信息;
场景信息包括:医院、马路、法院、公园、家庭或书房中的任一种或多种场景信息。
步骤3:根据所确定的场景信息,并基于预设映射表得到与场景信息对应的预设领域;
上述预设领域可以是,医疗领域、法律领域、交通领域、生活领域等。
步骤4:根据所得到的预设领域,从预先存储的语音模型数据库中调取出相应的语音识别模型;
语音识别模型是预先训练的模型,可以是基于卷积神经网络获取到的,例如可以通过获取与至少一个与第二语音信号相关的多段待识别音频样本,并使用多段待识别音频样本,对至少一个设定深度学习模型进行训练,获得与第二语音信号对应的至少一个语音识别模型;
且,语音识别模型可以是基于语音辅助算法生成的,语音辅助算法是根据音高、音强、音长、音色等得到的。
其好处是,对语音识别模型进行训练,可以提高识别预设语音的精度。
在基于语音识别模型对第二语音信号进行识别的过程中,根据第二语音信号中的第一帧和第一帧之前的预设时间段内的第二帧,对第二语音信号中的第一帧进行识别。
步骤5:基于所调取出的语音识别模型对第二语音信号进行识别,获得相应的语音识别结果。
例如,当所识别的第三语音信号是与医院相关的场景信息时,在场景与预设领域映射表中查找到与医院相关的场景信息的预设领域为医疗领域,从预先存储的语音模型数据库中调取出与医疗领域相应的语音识别模型,例如当对第二语音信号如“药品”进行识别时,获得相应的语音识别结果为“药品”,而不是“要拼”,因此,通过获取到预设领域,可以提高语音识别识别率,进一步使得获得的识别结果更加准确。
步骤3中涉及到的映射表可以是如下表:
上述技术方案的有益效果是:通过识别第三语音信号,确定相应的场景信息,有利于提高对语音信号的识别率。
本发明提供一种语音识别的方法,
在获取待识别的第一语音信号的过程中,需将其中所产生的输出信号进行输出,来获取最终的待识别的第一语音信号,其步骤包括:
步骤11:对标准参考信号进行自适应滤波处理,获得相应的第一滤波信号;
步骤12:求解第一语音信号和第一滤波信号之间的差值,获得第一误差信号;
对标准参考信号进行增益处理,获得第三处理信号;
步骤13:对第三处理信号分别进行失真处理,得到对应的第四处理信号;并对第四处理信号进行自适应滤波处理,获得相应的第二滤波信号;
步骤14:求解第一误差信号与第二滤波信号之间的差值,并获得第二误差信号;
步骤15:将第一误差信号和第二误差信号进行融合处理,得到对应的输出信号,将输出信号输出,获得最终的待识别的第一语音信号。
上述标准参考信号,是预先设定好的,是为了提供标准参考参数,以方便获得第一误差信号。
上述技术方案的有益效果是:通过经将获取的输出信号进行输出,可以避免其输出信号对所获取的第一语音信号造成干扰。
本发明提供一种语音识别的方法,
对第一语音信号进行回声消除处理,获得相应的第二语音信号的步骤包括:
步骤21:获取第一语音信号中的第一信号;
步骤22:利用回声消除算法生成与第一信号波形相反的第二信号,利用第二信号与第一信号叠加处理,得到相应的第二语音信号。
上述第一信号是回声信号,上述第二信号是与回声信号相反的信号。
上述叠加处理,如下表所示(其中第一信号和与第一信号对应的第二信号都用数值表示):
第一信号 | 1 | 2 | 1 | 1 | 0 | -1 |
地位信号 | -1 | -2 | -1 | -1 | 0 | 1 |
其好处就是为了将第一信号和第二信号抵消。
上述技术方案的有益效果是:通过采用步骤21-22,对第一语音信号进行回声消除处理,提高语音识别的清晰度。
本发明提供一种语音识别的方法,
对第二语音信号中的第一帧进行识别的过程中,需对第一帧中的语音帧进行提取,其包括:
采集第一帧中每个频率采样点对应的能量;
判断第一音帧对应的帧类型,当频率采样点的能量处于第一预设范围时,判断当前第一帧为语音帧,且标定语音帧对应的第一位置;
当频率采样点的能量处于第二预设范围时,判断当前第一帧为噪声帧,且标定噪声帧对应的第二位置;
当频率采样点的能量处于第三预设范围时,判断当前第一帧为次语音帧,且标定次语音帧对应的第三位置;
当频率采样点的能量处于第四预设范围时,判断当前第一帧为次噪音帧,且标定次噪音帧对应的第四位置;
且提取第二语音信号中第一帧处于第一预设范围时的语音帧,并将所提取的语音帧组成语音集合,来对语音集合进行识别。
采集第一帧中每个频率采样点对应的能量的原理是:声音是一种能量波,因此也有频率和振幅的特征,频率对应于时间轴线,振幅对应于电平轴线,由于波是无限光滑的,可以将弦线看成由无数点组成,由于存储空间是相对有限的,数字编码过程中,必须对弦线的点进行采样,其中采样的过程就是抽取某点的频率值,并获得该点对应的能量。其好处是,通过对第一音频的采样可以有效地判断出当前帧所处的状态,再通过阈值的对比,可以及时了解当前帧对应的帧类型。
例如将不同帧类型对应的采样点的能量进行归一化处理得到对应的分贝值,假设当分贝大于500分贝时,判断此帧为噪声帧,当分贝大于300分贝且小于500分贝时,判断此帧为次噪声帧,当分贝大于100分贝且小于300分贝时,判断此帧为次语音帧,当分贝小于100分贝时,判断此帧为语音帧。其中,需要说明的是上述第一阈值小于第三阈值,第三阈值小于第四阈值,第四阈值小于第三阈值。
且上述标定的第一位置、第二位置、第三位置个第四位置都是为了方便在对第一帧进行标定结束后,只提取第一位置的语音帧,方便可以及时获取到要提取的位置,节省提取时间。
上述技术方案的有益效果是:在识别出其所属场景的基础上,确定其中的语音帧,并将语音帧提取集合到语音集合中,可以提高识别率,还可以节省识别时间。
本发明提供一种语音识别的方法,
在识别第三语音信号之前,还包括:提取第二语音信号中的第三语音信号,其所提取的第三语音信号是对应的声音波形。
上述技术方案的有益效果是:通过对第三语音信号进行提取,便于后续对第三语音信号的识别。
本发明提供一种语音识别的方法,
通过识别第三语音信号,确定相应的场景信息的步骤包括:
步骤31:提取第三语音信号中的场景噪声信号,并对场景噪声信号进行识别,获得相应的第一场景结果;
步骤32:提取第三语音信号中的场景背景音信号,并对场景背景音信号进行识别,获得相应的第二场景结果;
步骤33:对所获得的第一场景结果和第二场景结果进行拟合处理,获得最终的第三场景结果,第三场景结果即为所确定的相应的场景信息。
如,当上述场景噪声信号,可以是掺杂多人交流,且和电器折扣相关的噪声信号,获得第一场景信息为电器折扣店铺;
对应的场景背景音,可以是“苏宁之歌”的背景音时,获得相应的第二场景结果为苏宁店铺;
获取最终的第三场景结果即为苏宁易购店铺。
上述技术方案的有益效果是:通过对所识别场景噪声信号和场景背景音信号的结果进行拟合处理,提高获取场景信息的准确性。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (7)
1.一种语音识别的方法,其特征在于,包括:
获取待识别的第一语音信号,并对所述第一语音信号进行回声消除处理,获得相应的第二语音信号,且所述第二语音信号中包括第三语音信号;
识别所述第三语音信号,确定相应的场景信息;
根据所确定的所述场景信息,并基于预设映射表得到与所述场景信息对应的预设领域;
根据所得到的所述预设领域,从预先存储的语音模型数据库中调取出相应的语音识别模型;
基于所调取出的所述语音识别模型对所述第二语音信号进行识别,获得相应的语音识别结果;
在获取待识别的第一语音信号的过程中,需将其中所产生的输出信号进行输出,来获取最终的待识别的第一语音信号,其步骤包括:
步骤11:对标准参考信号进行自适应滤波处理,获得相应的第一滤波信号;
步骤12:求解所述第一语音信号和所述第一滤波信号之间的差值,获得第一误差信号;
对所述标准参考信号进行增益处理,获得第三处理信号;
步骤13:对所述第三处理信号分别进行失真处理,得到对应的第四处理信号;并对所述第四处理信号进行自适应滤波处理,获得相应的第二滤波信号;
步骤14:求解所述第一误差信号与所述第二滤波信号之间的差值,并获得第二误差信号;
步骤15:将所述第一误差信号和所述第二误差信号进行融合处理,得到对应的输出信号,将所述输出信号输出,获得最终的待识别的第一语音信号。
2.如权利要求1所述的方法,其特征在于,所述第三语音信号包括相关的场景噪音和/或场景背景音。
3.如权利要求1所述的方法,其特征在于,对所述第一语音信号进行回声消除处理,获得相应的第二语音信号的步骤包括:
步骤21:获取第一语音信号中的第一信号;
步骤22:利用回声消除算法生成与所述第一信号波形相反的第二信号,利用所述第二信号与所述第一信号叠加处理,得到相应的第二语音信号。
4.如权利要求1所述的方法,其特征在于,
所述语音识别模型是预先训练好的,且是基于卷积神经网络获取到的,
在基于所述语音识别模型对所述第二语音信号进行识别的过程中,根据所述第二语音信号中的第一帧和所述第一帧之前的预设时间段内的第二帧,对所述第二语音信号中的第一帧进行识别。
5.如权利要求4所述的方法,其特征在于,对所述第二语音信号中的第一帧进行识别的过程中,需对第一帧中的语音帧进行提取,其包括:
采集第一帧中每个频率采样点对应的能量;
判断第一音帧对应的帧类型,当频率采样点的能量处于第一预设范围时,判断当前第一帧为语音帧,且标定语音帧对应的第一位置;
当频率采样点的能量处于第二预设范围时,判断当前第一帧为噪声帧,且标定噪声帧对应的第二位置;
当频率采样点的能量处于第三预设范围时,判断当前第一帧为次语音帧,且标定次语音帧对应的第三位置;
当频率采样点的能量处于第四预设范围时,判断当前第一帧为次噪音帧,且标定次噪音帧对应的第四位置;
且提取所述第二语音信号中所述第一帧处于第一预设范围时的语音帧,并将所提取的所述语音帧组成语音集合,来对所述语音集合进行识别。
6.如权利要求1所述的方法,其特征在于,在识别所述第三语音信号之前,还包括:提取所述第二语音信号中的第三语音信号,其所提取的所述第三语音信号是对应的声音波形。
7.如权利要求1所述的方法,其特征在于,所述通过识别所述第三语音信号,确定相应的场景信息的步骤包括:
步骤31:提取所述第三语音信号中的场景噪声信号,并对所述场景噪声信号进行识别,获得相应的第一场景结果;
步骤32:提取所述第三语音信号中的场景背景音信号,并对所述场景背景音信号进行识别,获得相应的第二场景结果;
步骤33:对所获得的第一场景结果和第二场景结果进行拟合处理,获得最终的第三场景结果,所述第三场景结果即为所确定的相应的场景信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910630131.0A CN110473547B (zh) | 2019-07-12 | 2019-07-12 | 一种语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910630131.0A CN110473547B (zh) | 2019-07-12 | 2019-07-12 | 一种语音识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110473547A CN110473547A (zh) | 2019-11-19 |
CN110473547B true CN110473547B (zh) | 2021-07-30 |
Family
ID=68508220
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910630131.0A Active CN110473547B (zh) | 2019-07-12 | 2019-07-12 | 一种语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110473547B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111049997B (zh) * | 2019-12-25 | 2021-06-11 | 携程计算机技术(上海)有限公司 | 电话背景音乐检测模型方法、系统、设备及介质 |
CN111243627B (zh) * | 2020-01-13 | 2022-09-27 | 云知声智能科技股份有限公司 | 一种语音情感识别方法及装置 |
CN111343410A (zh) * | 2020-02-14 | 2020-06-26 | 北京字节跳动网络技术有限公司 | 一种静音提示方法、装置、电子设备及存储介质 |
CN111429878B (zh) * | 2020-03-11 | 2023-05-26 | 云知声智能科技股份有限公司 | 一种自适应语音合成方法及装置 |
CN111464541A (zh) * | 2020-04-01 | 2020-07-28 | 重庆德信建信息技术有限公司 | 基于生物识别的电子政务多功能智能硬件终端和工作方法 |
CN111559675A (zh) * | 2020-05-22 | 2020-08-21 | 云知声智能科技股份有限公司 | 语音控制电梯的方法 |
CN115359803B (zh) * | 2022-10-21 | 2022-12-27 | 中诚华隆计算机技术有限公司 | 一种基于芯片实现的语音降噪优化方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102097095A (zh) * | 2010-12-28 | 2011-06-15 | 天津市亚安科技电子有限公司 | 一种语音端点检测方法及装置 |
CN103956169A (zh) * | 2014-04-17 | 2014-07-30 | 北京搜狗科技发展有限公司 | 一种语音输入方法、装置和系统 |
CN105225665A (zh) * | 2015-10-15 | 2016-01-06 | 桂林电子科技大学 | 一种语音识别方法及语音识别装置 |
CN105760361A (zh) * | 2016-01-26 | 2016-07-13 | 北京云知声信息技术有限公司 | 一种语言模型建立方法及装置 |
CN105869629A (zh) * | 2016-03-30 | 2016-08-17 | 乐视控股(北京)有限公司 | 语音识别方法及装置 |
CN109545196A (zh) * | 2018-12-29 | 2019-03-29 | 深圳市科迈爱康科技有限公司 | 语音识别方法、装置及计算机可读存储介质 |
CN109697977A (zh) * | 2017-10-23 | 2019-04-30 | 三星电子株式会社 | 语音识别方法和设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4244514B2 (ja) * | 2000-10-23 | 2009-03-25 | セイコーエプソン株式会社 | 音声認識方法および音声認識装置 |
US8812321B2 (en) * | 2010-09-30 | 2014-08-19 | At&T Intellectual Property I, L.P. | System and method for combining speech recognition outputs from a plurality of domain-specific speech recognizers via machine learning |
-
2019
- 2019-07-12 CN CN201910630131.0A patent/CN110473547B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102097095A (zh) * | 2010-12-28 | 2011-06-15 | 天津市亚安科技电子有限公司 | 一种语音端点检测方法及装置 |
CN103956169A (zh) * | 2014-04-17 | 2014-07-30 | 北京搜狗科技发展有限公司 | 一种语音输入方法、装置和系统 |
CN105225665A (zh) * | 2015-10-15 | 2016-01-06 | 桂林电子科技大学 | 一种语音识别方法及语音识别装置 |
CN105760361A (zh) * | 2016-01-26 | 2016-07-13 | 北京云知声信息技术有限公司 | 一种语言模型建立方法及装置 |
CN105869629A (zh) * | 2016-03-30 | 2016-08-17 | 乐视控股(北京)有限公司 | 语音识别方法及装置 |
CN109697977A (zh) * | 2017-10-23 | 2019-04-30 | 三星电子株式会社 | 语音识别方法和设备 |
CN109545196A (zh) * | 2018-12-29 | 2019-03-29 | 深圳市科迈爱康科技有限公司 | 语音识别方法、装置及计算机可读存储介质 |
Non-Patent Citations (2)
Title |
---|
Subband minimum classification error beamforming for speech recognition in reverberant environments;Yuan-Fu Liao;《2010 IEEE International Conference on Acoustics, Speech and Signal Processing》;20100628;全文 * |
基于短时能量与GMM的超短波智能语音识别系统应用研究;顾乐乐;《万方数据知识服务平台》;20160914;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110473547A (zh) | 2019-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110473547B (zh) | 一种语音识别方法 | |
CN111816218B (zh) | 语音端点检测方法、装置、设备及存储介质 | |
CN103236260A (zh) | 语音识别系统 | |
KR100745977B1 (ko) | 음성 구간 검출 장치 및 방법 | |
CN102483926B (zh) | 在处理语音信号中通过把语音作为目标和忽略噪声以降噪的系统及方法 | |
CN107767859B (zh) | 噪声环境下人工耳蜗信号的说话人可懂性检测方法 | |
DE60004331T2 (de) | Sprecher-erkennung | |
CN105161093A (zh) | 一种判断说话人数目的方法及系统 | |
CN104835498A (zh) | 基于多类型组合特征参数的声纹识别方法 | |
CN107305774A (zh) | 语音检测方法和装置 | |
CN105448303A (zh) | 语音信号的处理方法和装置 | |
CN110189746B (zh) | 一种应用于地空通信的话音识别方法 | |
CN108922541A (zh) | 基于dtw和gmm模型的多维特征参数声纹识别方法 | |
CN111081223B (zh) | 一种语音识别方法、装置、设备和存储介质 | |
CN106372653A (zh) | 一种基于堆栈式自动编码器的广告识别方法 | |
CN107464563B (zh) | 一种语音交互玩具 | |
CN111583936A (zh) | 一种智能语音电梯控制方法及装置 | |
CN112786057B (zh) | 一种声纹识别方法、装置、电子设备及存储介质 | |
CN103730112A (zh) | 语音多信道模拟与采集方法 | |
CN111489763B (zh) | 一种基于gmm模型的复杂环境下说话人识别自适应方法 | |
CN108198558B (zh) | 一种基于csi数据的语音识别方法 | |
CN105845143A (zh) | 基于支持向量机的说话人确认方法及其系统 | |
CN109102818B (zh) | 一种基于信号频率概率密度函数分布的去噪音频采样算法 | |
Beritelli et al. | A pattern recognition system for environmental sound classification based on MFCCs and neural networks | |
CN107993666B (zh) | 语音识别方法、装置、计算机设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |