CN111681646A - 端到端架构的通用场景中文普通话语音识别方法 - Google Patents

端到端架构的通用场景中文普通话语音识别方法 Download PDF

Info

Publication number
CN111681646A
CN111681646A CN202010690798.2A CN202010690798A CN111681646A CN 111681646 A CN111681646 A CN 111681646A CN 202010690798 A CN202010690798 A CN 202010690798A CN 111681646 A CN111681646 A CN 111681646A
Authority
CN
China
Prior art keywords
speech
voice
model
chinese
mandarin
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010690798.2A
Other languages
English (en)
Inventor
沈宜
代龙翔
张家亮
贾宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Wanglian Anrui Network Technology Co ltd
Original Assignee
Chengdu 30kaitian Communication Industry Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu 30kaitian Communication Industry Co ltd filed Critical Chengdu 30kaitian Communication Industry Co ltd
Priority to CN202010690798.2A priority Critical patent/CN111681646A/zh
Publication of CN111681646A publication Critical patent/CN111681646A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Machine Translation (AREA)

Abstract

本发明的端到端架构的通用场景中文普通话语音识别方法是一种综合性的语音识别方法。该方法中,在前端加入了深度模型的语音增强模型针对于强噪音环境和背景音较大的场景的干扰进行过滤掉,在后端使用的是现在流行的端到端语音识别模型,其中分为语音识别声学模型和语音识别语言模型,语音识别声学模型使用的是混合CTC和注意力联合解码方式,具有更精准的解码和更清晰的语义逻辑;语音识别语言模型模型使用的是双向循环神经网络模型,该模型常适用于文本处理,处理上下文密切相关语意。由此本发明的端到端架构的通用场景中文普通话语音识别方法具有较强鲁棒性,具有抗噪音的特性;并且在语音识别完成后能够正确纠错,可以对语音内容进行完整提取。

Description

端到端架构的通用场景中文普通话语音识别方法
技术领域
本发明涉及语音音频识别技术领域,尤其是一种端到端架构的通用场景中文普通话语音识别方法。
背景技术
随着现代多媒体信息的膨胀式爆发,各种各样的新闻、短视频、语音消息都在网络上流行起来。随着手机,新闻客户端,自媒体的普及,这些音视频数据需要越来越多的人和物资进行管理,并将这些数据进行审核处理。人工处理这些数据会带来低效率和较多的物力成本。目前虽然自动语音识别以及普及开来,但目前还没有完全效应用到音频检测和管理上。
从互联网需求来说如何有效地识别出大规模音频内容中的特定内容,成为目前网络信息音频管理亟待解决的十分重要问题。而从技术的方面对于目前语音识别效果来说遇到高背景噪音的情况就会使得语音识别效果变的非常差,急需要对于模型进行鲁棒性增强,模型具有抗噪音的特性。同时现在端到端系统识别的在数据量较少的情况下语音识别效果一般,对数据量需求还是非常大的。在语音识别完成后需要进行处理纠错,目前可以正确纠错的模型较少。在识别完成音频内容后,如何自动提取相关关键的实体信息,对于某些信息是否能提取完整也是一个比较有挑战的问题。
发明内容
本发明所要解决的技术问题是:针对上述存在的问题,提供一种端到端架构的通用场景中文普通话语音识别方法。
本发明采用的技术方案如下:
一种端到端架构的通用场景中文普通话语音识别方法,包括如下步骤:
S1,分别训练语音增强模型和语音识别模型;所述语音识别模型包括语音识别声学模型和语音识别语言模型,其中,所述语音识别声学模型使用的是混合CTC和注意力机制的模型,所述语音识别语言模型使用的是双向循环神经网络模型;
S2,提取整段待测语音,按照语音活性检测方切分成若干固定时长的语音段落,包括无语音段落和有语音段落,并对所有语音段落进行序号标记;同时计算出所有语音段落的信噪比,并通过计算出的信噪比进行判断:将信噪比低于设定阀值的语音段落输入语音增强模型,否则执行步骤S4;
S3,语音增强模型对输入其中的语音段落进行降噪后,执行步骤S4;
S4,对步骤S2中信噪比不低于设定阈值的语音段落,以及步骤S3中进行降噪后的语音段落进行语音预处理,提取每个语音段落的MFCC特征参数;然后将MFCC特征参数输入语音识别模型;
S5,语音识别模型中,先经过语音识别声学模型对MFCC特征参数进行识别,得到词序列token;然后经过语音识别语言模型对词序列token进行解码纠正,得到每个语音段落的语音文本;
S6,按照所有语音段落的序号标记合并每个语音段落的语音文本,得到整段待测语音的整个文本。
进一步的,步骤S1中,训练语音识别声学模型的数据集是中文普通话语音数据集,训练语音识别语言模型的数据集是中文普通话文本数据集,训练语音增强模型的数据集为中文普通话带噪音语音数据集。
进一步的,所述中文普通话录音数据集是指对获取的中文普通话录音进行音频编码一致和采样率一致处理后得到的数据集。
进一步的,所述中文普通话文本数据集的构建方法为,利用中文普通话录音文本建立中文普通话文本数据集:编写脚本自动去除中文普通话录音文本中的非法字符和非中文字符,其中,对于数字文本自动转成对应中文文本。
进一步的,所述中文普通话带噪音语音数据集的构建方法为,利用中文普通话语音数据集建立中文普通话带噪音语音数据集:将中文普通话语音数据集中的中文普通话语音和多种噪音按照两种分贝混合叠加成带噪音语音。
进一步的,步骤S1中训练语音增强模型的方法为:将中文普通话带噪音语音数据集中每句话提取为多个语音帧,通过频域变换、去相位和提取参数后,导入全连接神经网络模型训练得到语音增强模型。
进一步的,步骤S1中训练语音识别声学模型的方法为:将中文普通话语音数据集中的中文普通话语音切分成固定时长的语音段落,并提取每个语音段落的MFCC特征参数,然后将MFCC特征参数经过特征归一化处理计算后输入混合CTC和注意力机制的模型进行训练;其中,模型的目标函数通过多目标学习求解得到,该目标函数由CTC的目标函数和注意力机制的目标函数联合组成,两者之间通过设定的比例分配学习权重,在训练过程中,按照两个目标函数的权重分别进行调优,同时使用同步机制同步学习数据迭代更新,完成训练后得到语音识别声学模型。
进一步的,步骤S1中训练语音识别语言模型的方法为:将中文普通话文本数据集中的中文普通话文本转换成多个词向量,并将词向量导入双向循环神经网络模型,训练达到设定的目标或者训练轮次后,得到语音识别语言模型。
进一步的,所述双向循环神经网络模型是指双向RNN和LSTM模型。
进一步的,步骤S2中,按照语音活性检测方切分成的若干语音段落为2~10秒不等长的语音段落。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
本发明的端到端架构的通用场景中文普通话语音识别方法是一种综合性的语音识别方法。该方法中,在前端加入了深度模型的语音增强模型针对于强噪音环境和背景音较大的场景的干扰进行过滤掉,在后端使用的是现在流行的端到端语音识别模型,其中分为语音识别声学模型和语音识别语言模型,语音识别声学模型使用的是混合CTC和注意力联合解码方式,具有更精准的解码和更清晰的语义逻辑;语音识别语言模型模型使用的是双向循环神经网络模型,该模型常适用于文本处理,处理上下文密切相关语意。由此本发明的端到端架构的通用场景中文普通话语音识别方法具有较强鲁棒性,具有抗噪音的特性;并且在语音识别完成后能够正确纠错,可以对语音内容进行完整提取。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明端到端架构的通用场景中文普通话语音识别方法得原理图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,即所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下结合实施例对本发明的特征和性能作进一步的详细描述。
如图1所示,本实施例提供的一种端到端架构的通用场景中文普通话语音识别方法,包括如下步骤:
S1,分别训练语音增强模型和语音识别模型;所述语音识别模型包括语音识别声学模型和语音识别语言模型,其中,所述语音识别声学模型使用的是混合CTC和注意力机制的模型,所述语音识别语言模型使用的是双向循环神经网络模型;
1、数据集
步骤S1中,训练语音识别声学模型的数据集是中文普通话语音数据集,训练语音识别语言模型的数据集是中文普通话文本数据集,训练语音增强模型的数据集为中文普通话带噪音语音数据集;
(1)中文普通话语音数据集是指对获取的中文普通话录音进行音频编码一致和采样率一致处理后得到的数据集;音频编码一致处理可以去除语音乱码,校验语音数据编码的可靠性,音频编码一致和采样率一致处理可以便于后续处理。采样率一致处理是指,自动对于非16bits,16khz采样率的语音数据进行降采样率调整,以满足16bits同时16khz采样率的语音数据标准。其中,中文普通话录音是指政治访谈采访类场景的语音数据、新闻对话场景的语音数据,以及其他各种场景的语音数据;
(2)所述中文普通话文本数据集的构建方法为,利用中文普通话录音文本建立中文普通话文本数据集:编写脚本自动去除中文普通话录音文本中的非法字符和非中文字符,其中,对于数字文本自动转成对应中文文本。其中,中文普通话录音文本是指上述中文普通话录音对应的文本数据,即政治访谈采访类场景的语音文本数据、新闻对话场景的语音文本数据,以及其他各种场景的语音文本数据。
(3)所述中文普通话带噪音语音数据集的构建方法为,利用中文普通话语音数据集建立中文普通话带噪音语音数据集:将中文普通话语音数据集中的中文普通话语音和多种噪音按照两种分贝混合叠加成带噪音语音。
2、训练语音增强模型
步骤S1中训练语音增强模型的方法为:将中文普通话带噪音语音数据集中每句话提取为多个语音帧,通过频域变换、去相位和提取参数后,导入全连接神经网络模型训练得到语音增强模型。
3、训练语音识别模型
(1)训练语音识别声学模型
步骤S1中训练语音识别声学模型的方法为:将中文普通话语音数据集中的中文普通话语音切分成固定时长(如25ms)的语音段落,并提取每个语音段落的MFCC特征参数,然后将MFCC特征参数经过特征归一化(CMVN)处理计算后输入混合CTC和注意力机制的模型进行训练;其中,模型的目标函数通过多目标学习求解得到,该目标函数由CTC的目标函数和注意力机制的目标函数联合组成,两者之间通过设定的比例分配学习权重,在训练过程中,按照两个目标函数的权重分别进行调优,同时使用同步机制同步学习数据迭代更新,完成训练后得到语音识别声学模型。
其中,提取MFCC特征参数的过程依次为:分帧、预加重、加窗、STFT、使用梅尔滤波器滤波、幅度谱取对数、幅度谱加入离散余弦变换提取为MFCC特征参数。
(2)训练语音识别语言模型
步骤S1中训练语音识别语言模型的方法为:将中文普通话文本数据集中的中文普通话文本转换成多个词向量,并将词向量导入双向循环神经网络模型,训练达到设定的目标或者训练轮次后,得到语音识别语言模型。所述双向循环神经网络模型是指双向RNN和LSTM模型。
S2,提取整段待测语音,按照语音活性检测方切分成若干语音段落,包括无语音段落和有语音段落,并对所有语音段落进行序号标记;同时计算出所有语音段落的信噪比,并通过计算出的信噪比进行判断:将信噪比低于设定阀值的语音段落输入语音增强模型,否则执行步骤S4;
其中,按照语音活性检测方切分成的若干语音段落为2~10秒不等长的语音段落。
其中,对于所有语音段落进行序号标记的方法,可以是对所有语音段落按语音顺序重命名。
S3,语音增强模型对输入其中的语音段落进行降噪后,执行步骤S4;
S4,对步骤S2中信噪比不低于设定阈值的语音段落,以及步骤S3中进行降噪后的语音段落进行语音预处理,提取每个语音段落的MFCC特征参数;然后将MFCC特征参数输入语音识别模型;
其中,提取MFCC特征参数的过程与步骤S1中一样,依次为:分帧、预加重、加窗、STFT、使用梅尔滤波器滤波、幅度谱取对数、幅度谱加入离散余弦变换提取为MFCC特征参数。
S5,语音识别模型中,先经过语音识别声学模型对MFCC特征参数进行识别,得到词序列token;然后经过语音识别语言模型对词序列token进行解码纠正,得到每个语音段落的语音文本;
S6,按照所有语音段落的序号标记合并每个语音段落的语音文本,得到整段待测语音的整个文本。
通过上述过程可知,本发明的端到端架构的通用场景中文普通话语音识别方法是一种综合性的语音识别方法。该方法中,在前端加入了深度模型的语音增强模型针对于强噪音环境和背景音较大的场景的干扰进行过滤掉,在后端使用的是现在流行的端到端语音识别模型,其中分为语音识别声学模型和语音识别语言模型,语音识别声学模型使用的是混合CTC和注意力联合解码方式,具有更精准的解码和更清晰的语义逻辑;语音识别语言模型模型使用的是双向循环神经网络模型,该模型常适用于文本处理,处理上下文密切相关语意。由此本发明的端到端架构的通用场景中文普通话语音识别方法具有较强鲁棒性,具有抗噪音的特性;并且在语音识别完成后能够正确纠错,可以对语音内容进行完整提取。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种端到端架构的通用场景中文普通话语音识别方法,其特征在于,包括如下步骤:
S1,分别训练语音增强模型和语音识别模型;所述语音识别模型包括语音识别声学模型和语音识别语言模型,其中,所述语音识别声学模型使用的是混合CTC和注意力机制的模型,所述语音识别语言模型使用的是双向循环神经网络模型;
S2,提取整段待测语音,按照语音活性检测方切分成若干固定时长的语音段落,包括无语音段落和有语音段落,并对所有语音段落进行序号标记;同时计算出所有语音段落的信噪比,并通过计算出的信噪比进行判断:将信噪比低于设定阀值的语音段落输入语音增强模型,否则执行步骤S4;
S3,语音增强模型对输入其中的语音段落进行降噪后,执行步骤S4;
S4,对步骤S2中信噪比不低于设定阈值的语音段落,以及步骤S3中进行降噪后的语音段落进行语音预处理,提取每个语音段落的MFCC特征参数;然后将MFCC特征参数输入语音识别模型;
S5,语音识别模型中,先经过语音识别声学模型对MFCC特征参数进行识别,得到词序列token;然后经过语音识别语言模型对词序列token进行解码纠正,得到每个语音段落的语音文本;
S6,按照所有语音段落的序号标记合并每个语音段落的语音文本,得到整段待测语音的整个文本。
2.根据权利要求1所述的端到端架构的通用场景中文普通话语音识别方法,其特征在于,步骤S1中,训练语音识别声学模型的数据集是中文普通话语音数据集,训练语音识别语言模型的数据集是中文普通话文本数据集,训练语音增强模型的数据集为中文普通话带噪音语音数据集。
3.根据权利要求2所述的端到端架构的通用场景中文普通话语音识别方法,其特征在于,所述中文普通话录音数据集是指对获取的中文普通话录音进行音频编码一致和采样率一致处理后得到的数据集。
4.根据权利要求3所述的端到端架构的通用场景中文普通话语音识别方法,其特征在于,所述中文普通话文本数据集的构建方法为,利用中文普通话录音文本建立中文普通话文本数据集:编写脚本自动去除中文普通话录音文本中的非法字符和非中文字符,其中,对于数字文本自动转成对应中文文本。
5.根据权利要求3所述的端到端架构的通用场景中文普通话语音识别方法,其特征在于,所述中文普通话带噪音语音数据集的构建方法为,利用中文普通话语音数据集建立中文普通话带噪音语音数据集:将中文普通话语音数据集中的中文普通话语音和多种噪音按照两种分贝混合叠加成带噪音语音。
6.根据权利要求2所述的端到端架构的通用场景中文普通话语音识别方法,其特征在于,步骤S1中训练语音增强模型的方法为:将中文普通话带噪音语音数据集中每句话提取为多个语音帧,通过频域变换、去相位和提取参数后,导入全连接神经网络模型训练得到语音增强模型。
7.根据权利要求2所述的端到端架构的通用场景中文普通话语音识别方法,其特征在于,步骤S1中训练语音识别声学模型的方法为:将中文普通话语音数据集中的中文普通话语音切分成固定时长的语音段落,并提取每个语音段落的MFCC特征参数,然后将MFCC特征参数经过特征归一化处理计算后输入混合CTC和注意力机制的模型进行训练;其中,模型的目标函数通过多目标学习求解得到,该目标函数由CTC的目标函数和注意力机制的目标函数联合组成,两者之间通过设定的比例分配学习权重,在训练过程中,按照两个目标函数的权重分别进行调优,同时使用同步机制同步学习数据迭代更新,完成训练后得到语音识别声学模型。
8.根据权利要求2所述的端到端架构的通用场景中文普通话语音识别方法,其特征在于,步骤S1中训练语音识别语言模型的方法为:将中文普通话文本数据集中的中文普通话文本转换成多个词向量,并将词向量导入双向循环神经网络模型,训练达到设定的目标或者训练轮次后,得到语音识别语言模型。
9.根据权利要求1或8所述的端到端架构的通用场景中文普通话语音识别方法,其特征在于,所述双向循环神经网络模型是指双向RNN和LSTM模型。
10.根据权利要求1所述的端到端架构的通用场景中文普通话语音识别方法,其特征在于,步骤S2中,按照语音活性检测方切分成的若干语音段落为2~10秒不等长的语音段落。
CN202010690798.2A 2020-07-17 2020-07-17 端到端架构的通用场景中文普通话语音识别方法 Pending CN111681646A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010690798.2A CN111681646A (zh) 2020-07-17 2020-07-17 端到端架构的通用场景中文普通话语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010690798.2A CN111681646A (zh) 2020-07-17 2020-07-17 端到端架构的通用场景中文普通话语音识别方法

Publications (1)

Publication Number Publication Date
CN111681646A true CN111681646A (zh) 2020-09-18

Family

ID=72457732

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010690798.2A Pending CN111681646A (zh) 2020-07-17 2020-07-17 端到端架构的通用场景中文普通话语音识别方法

Country Status (1)

Country Link
CN (1) CN111681646A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113411454A (zh) * 2021-06-17 2021-09-17 商客通尚景科技(上海)股份有限公司 一种实时通话语音分析的智能质检方法
CN117153196A (zh) * 2023-10-30 2023-12-01 深圳鼎信通达股份有限公司 Pcm语音信号处理方法、装置、设备及介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109448751A (zh) * 2018-12-29 2019-03-08 中国科学院声学研究所 一种基于深度学习的双耳语音增强方法
CN109473097A (zh) * 2017-09-08 2019-03-15 北京君林科技股份有限公司 一种智能语音设备及其控制方法
CN110556100A (zh) * 2019-09-10 2019-12-10 苏州思必驰信息科技有限公司 端到端语音识别模型的训练方法及系统
CN110875035A (zh) * 2019-10-24 2020-03-10 广州多益网络股份有限公司 新型多任务联合的语音识别训练架构和方法
CN110970031A (zh) * 2019-12-16 2020-04-07 苏州思必驰信息科技有限公司 语音识别系统及方法
CN111009236A (zh) * 2019-11-20 2020-04-14 武汉水象电子科技有限公司 一种基于dblstm+ctc声学模型的语音识别方法
CN111128137A (zh) * 2019-12-30 2020-05-08 广州市百果园信息技术有限公司 一种声学模型的训练方法、装置、计算机设备和存储介质
CN111199727A (zh) * 2020-01-09 2020-05-26 厦门快商通科技股份有限公司 语音识别模型训练方法、系统、移动终端及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109473097A (zh) * 2017-09-08 2019-03-15 北京君林科技股份有限公司 一种智能语音设备及其控制方法
CN109448751A (zh) * 2018-12-29 2019-03-08 中国科学院声学研究所 一种基于深度学习的双耳语音增强方法
CN110556100A (zh) * 2019-09-10 2019-12-10 苏州思必驰信息科技有限公司 端到端语音识别模型的训练方法及系统
CN110875035A (zh) * 2019-10-24 2020-03-10 广州多益网络股份有限公司 新型多任务联合的语音识别训练架构和方法
CN111009236A (zh) * 2019-11-20 2020-04-14 武汉水象电子科技有限公司 一种基于dblstm+ctc声学模型的语音识别方法
CN110970031A (zh) * 2019-12-16 2020-04-07 苏州思必驰信息科技有限公司 语音识别系统及方法
CN111128137A (zh) * 2019-12-30 2020-05-08 广州市百果园信息技术有限公司 一种声学模型的训练方法、装置、计算机设备和存储介质
CN111199727A (zh) * 2020-01-09 2020-05-26 厦门快商通科技股份有限公司 语音识别模型训练方法、系统、移动终端及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱频频主编: "智能客户服务技术与应用", 中国铁道出版社, pages: 119 - 120 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113411454A (zh) * 2021-06-17 2021-09-17 商客通尚景科技(上海)股份有限公司 一种实时通话语音分析的智能质检方法
CN117153196A (zh) * 2023-10-30 2023-12-01 深圳鼎信通达股份有限公司 Pcm语音信号处理方法、装置、设备及介质
CN117153196B (zh) * 2023-10-30 2024-02-09 深圳鼎信通达股份有限公司 Pcm语音信号处理方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
US11158324B2 (en) Speaker separation model training method, two-speaker separation method and computing device
CN111128223B (zh) 一种基于文本信息的辅助说话人分离方法及相关装置
CN110827801B (zh) 一种基于人工智能的自动语音识别方法及系统
Hori et al. A new approach to automatic speech summarization
CN109712612B (zh) 一种语音关键词检测方法及装置
CN111028842B (zh) 触发语音交互响应的方法及设备
US8285542B2 (en) Adapting a language model to accommodate inputs not found in a directory assistance listing
CN111667835A (zh) 语音识别方法、活体检测方法、模型训练方法及装置
CN110808030B (zh) 语音唤醒方法、系统、存储介质及电子设备
CN111681646A (zh) 端到端架构的通用场景中文普通话语音识别方法
CN111951796A (zh) 语音识别方法及装置、电子设备、存储介质
CN112509568A (zh) 一种语音唤醒方法及装置
CN113782026A (zh) 一种信息处理方法、装置、介质和设备
Lee et al. Intra‐and Inter‐frame Features for Automatic Speech Recognition
CN107886940B (zh) 语音翻译处理方法及装置
CN116665675B (zh) 语音转写方法、系统、电子设备和存储介质
CN113160796B (zh) 一种广播音频的语种识别方法、装置、设备及存储介质
CN115762500A (zh) 语音处理方法、装置、设备及存储介质
CN114203180A (zh) 会议纪要的生成方法、装置、电子设备及存储介质
CN114155841A (zh) 语音识别方法、装置、设备及存储介质
Chootrakool et al. LOTUS-SOC: A social media speech corpus for Thai LVCSR in noisy environments
CN113256262A (zh) 会议纪要的自动生成方法、系统、存储介质及电子设备
CN114023327B (zh) 基于语音识别的文本修正方法、装置、设备及介质
CN111048065A (zh) 文本纠错数据生成方法及相关装置
CN113793591B (zh) 语音合成方法及相关装置和电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220601

Address after: 518000 22nd floor, building C, Shenzhen International Innovation Center (Futian science and Technology Plaza), No. 1006, Shennan Avenue, Xintian community, Huafu street, Futian District, Shenzhen, Guangdong Province

Applicant after: Shenzhen wanglian Anrui Network Technology Co.,Ltd.

Address before: Floor 4-8, unit 5, building 1, 333 Yunhua Road, high tech Zone, Chengdu, Sichuan 610041

Applicant before: CHENGDU 30KAITIAN COMMUNICATION INDUSTRY Co.,Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20200918

RJ01 Rejection of invention patent application after publication