CN112466279A

CN112466279A - 一种英语口语发音自动纠正方法和装置

Info

Publication number: CN112466279A
Application number: CN202110139760.0A
Authority: CN
Inventors: 王志彬
Original assignee: Shenzhen Acadsoc Information Co ltd
Current assignee: Shenzhen Acadsoc Information Co ltd
Priority date: 2021-02-02
Filing date: 2021-02-02
Publication date: 2021-03-09
Anticipated expiration: 2041-02-02
Also published as: CN112466279B

Abstract

本发明实施例提供了一种英语口语发音自动纠正方法和装置，将采集到的音频文件转化成数字信号，并进行降噪处理和特征提取，得到反映语音信号特征的关键特征参数，利用预训练的声学模型、语言模型及所有英文单词和短语组成的字典语料库建立识别网络，在所述识别网络中搜索与所述特征矢量序列匹配度最高的词串，将用法有误的单词和/或短语提取，利用语法和时态算法规则进行修正，采用所述声学模型生成对应的特征向量，并从预设语音素材库中匹配与其对应的语音素材，利用所述语音素材和所述特征向量反编码得到目标音频文件。反映语音信号特征的关键特征参数能够直接获得音素序列，提高语音识别度，能帮助语音合成更准确的音频，提高人声相似度。

Description

一种英语口语发音自动纠正方法和装置

技术领域

本发明涉及学习工具技术领域，特别是涉及一种英语口语发音自动纠正方法和一种英语口语发音自动纠正装置。

背景技术

传统英语教育采用一对一或者一对多教学模式，该模式以“教师、教材、课堂”三者为中心，重理论，轻实践。学生一直停留在“背语法、记单词”落后教育上，限制了学生的思维和创新，更忽视了学生自身的思想态度和综合运用的能力，使得学生整体厌学、老师教学苦痛，最后形成中国式哑巴英语。

目前市场上提供的帮助英语学习和辅导的软件大多为中英文翻译、语音识别等，对于发出的声音直接进行识别和判断，其语音识别率不准确，在正常的英语环境沟通和学习中，无法纠正语法错误，也无法在学习过程中发现问题，这会让交流更加困难，学习也会产生错误的认知。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种英语口语发音自动纠正方法和相应的一种英语口语发音自动纠正装置。

为了解决上述问题，本发明实施例公开了一种英语口语发音自动纠正方法，包括：

采集英语口语发音的音频文件；

将所述音频文件转化成数字信号，并对所述数字信号进行降噪处理和特征提取，得到反映语音信号特征的关键特征参数，形成特征矢量序列；

利用预训练的声学模型、语言模型及所有英文单词和短语组成的字典语料库建立识别网络，在所述识别网络中搜索与所述特征矢量序列匹配度最高的词串，生成第一文本信号；

将所述第一文本信号中用法有误的单词和/或短语提取，利用语法和时态算法规则进行修正，得到校正后的第二文本信号；

采用所述声学模型生成所述第二文本信号对应的特征向量，并从预设语音素材库中匹配与所述第二文本信号对应的语音素材，利用所述语音素材和所述特征向量反编码得到目标音频文件。

进一步的，所述利用预训练的声学模型、语言模型及所有英文单词和短语组成的字典语料库建立识别网络，在所述识别网络中搜索与所述特征矢量序列匹配度最高的词串，生成第一文本信号的步骤，包括：

通过所述声学模型中的深度神经网络将所述特征矢量序列中的帧识别成状态信息；

通过所述声学模型中的隐马尔可夫模型将所述状态信息组合成音素序列，并将所述音素序列组合成单词序列；

通过所述语言模型中的循环神经网络将所述单词序列按照英语语法规则组合成句子，得到第一文本信号。

进一步的，所述将所述音频文件转化成数字信号，并对所述数字信号进行降噪处理和特征提取，得到反映语音信号特征的关键特征参数，形成特征矢量序列的步骤，包括：

将所述音频文件转化成第一数字信号；

识别所述第一数字信号中人声频率波段，滤除非人声频率波段得到第二数字信号；

使用由频谱衍生出来的梅尔频率倒谱系数处理所述第二数字信号，提取反映语音信号特征的关键特征参数，形成与音素有关的特征矢量序列。

进一步的，所述将所述第一文本信号中用法有误的单词和/或短语提取，利用语法和时态算法规则进行修正，得到校正后的第二文本信号的步骤，包括：

对所述第一文本信号进行预处理得到预处理文本；

通过移动窗口的方式对所述预处理文本进行语法错误纠正，得到第二文本信号。

进一步的，所述对所述第一文本信号进行预处理得到预处理文本的步骤，包括：

将所述第一文本信号中的所有单词与所述字典语料库中的单词进行字符匹配，对所述第一文本信号中未匹配到的单词进行标记得到标记单词，用所述字典语料库中与所述标记单词字符匹配度最高的单词替换所述标记单词；

和/或，

采用最大熵的词性标注算法对所述第一文本信号中的每个单词进行词性标注；

和/或，

采用概率上下文无关文法的生成式句法分析模型，将所述第一文本信号中的短语抽离，进行单独分析，剔除无关单词；

和或，

采用预设神经网络的句法分析器，构建所述第一文本信号中单词的依存关系，得到具有单词间关系类型搭配的依存分析结果。

进一步的，所述通过移动窗口的方式对所述预处理文本进行语法错误纠正，得到第二文本信号的步骤，包括：

在所述预处理文本中选定初始单词；

通过移动窗口获得与所述初始单词前后相关的短语，并利用回退算法对所述短语进行语法检查及纠正，得到第二文本信号；其中，所述语法检查包括：冠词及定冠词错误、名词度数错误、介词错误、主谓不一致和/或动词错误。

进一步的，所述通过移动窗口获得与所述初始单词前后相关的短语，并利用回退算法对所述短语进行语法检查及纠正，得到第二文本信号的步骤，包括：

在所述字典语料库中查找出与所述初始单词的主谓变化或时态变化对应的变体；

利用所述初始单词和所述变体在所述字典语料库中的频率比值，对所述预处理文本进行纠正，得到所述第二文本信号。

本发明实施例公开了一种英语口语发音自动纠正装置，包括：

采集模块，用于采集英语口语发音的音频文件；

特征提取模块，用于将所述音频文件转化成数字信号，并对所述数字信号进行降噪处理和特征提取，得到反映语音信号特征的关键特征参数，形成特征矢量序列；

语音识别模块，用于利用预训练的声学模型、语言模型及所有英文单词和短语组成的字典语料库建立识别网络，在所述识别网络中搜索与所述特征矢量序列匹配度最高的词串，生成第一文本信号；

语音校正模块，用于将所述第一文本信号中用法有误的单词和/或短语提取，利用语法和时态算法规则进行修正，得到校正后的第二文本信号；

语音合成模块，用于采用所述声学模型生成所述第二文本信号对应的特征向量，并从预设语音素材库中匹配与所述第二文本信号对应的语音素材，利用所述语音素材和所述特征向量反编码得到目标音频文件。

进一步的，所述语音识别模块包括：

第一识别子模块，用于通过所述声学模型中的深度神经网络将所述特征矢量序列中的帧识别成状态信息；

第二识别子模块，用于通过所述声学模型中的隐马尔可夫模型将所述状态信息组合成音素序列，并将所述音素序列组合成单词序列；

第三识别子模块，用于通过所述语言模型中的循环神经网络将所述单词序列按照英语语法规则组合成句子，得到第一文本信号。

进一步的，所述特征提取模块包括：

信号转化子模块，用于将所述音频文件转化成第一数字信号；

降噪子模块，用于识别所述第一数字信号中人声频率波段，滤除非人声频率波段得到第二数字信号；

特征提取子模块，用于使用由频谱衍生出来的梅尔频率倒谱系数处理所述第二数字信号，提取反映语音信号特征的关键特征参数，形成与音素有关的特征矢量序列。

进一步的，所述语音校正模块包括：

预处理子模块，用于对所述第一文本信号进行预处理得到预处理文本；

修正子模块，用于通过移动窗口的方式对所述预处理文本进行语法错误纠正，得到第二文本信号。

进一步的，所述预处理子模块包括：

错误检查单元，用于将所述第一文本信号中的所有单词与所述字典语料库中的单词进行字符匹配，对所述第一文本信号中未匹配到的单词进行标记得到标记单词，用所述字典语料库中与所述标记单词字符匹配度最高的单词替换所述标记单词；

和/或，

词性标注单元，用于采用最大熵的词性标注算法对所述第一文本信号中的每个单词进行词性标注；

和/或，

句法分析单元，用于采用概率上下文无关文法的生成式句法分析模型，将所述第一文本信号中的短语抽离，进行单独分析，剔除无关单词；

和或，

依存分析单元，用于采用预设神经网络的句法分析器，构建所述第一文本信号中单词的依存关系，得到具有单词间关系类型搭配的依存分析结果。

进一步的，所述修正子模块包括：

初始化单元，用于在所述预处理文本中选定初始单词；

修正单元，用于通过移动窗口获得与所述初始单词前后相关的短语，并利用回退算法对所述短语进行语法检查及纠正，得到第二文本信号；其中，所述语法检查包括：冠词及定冠词错误、名词度数错误、介词错误、主谓不一致和/或动词错误。

进一步的，所述修正单元包括：

变体查找子单元，用于在所述字典语料库中查找出与所述初始单词的主谓变化或时态变化对应的变体；

修正子单元，用于利用所述初始单词和所述变体在所述字典语料库中的频率比值，对所述预处理文本进行纠正，得到所述第二文本信号。

本发明实施例公开了一种电子设备，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上述的英语口语发音自动纠正方法的步骤。

本发明实施例公开了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上述的英语口语发音自动纠正方法的步骤。

本发明实施例包括以下优点：对获取的信号进行特征提取，反映语音信号特征的关键特征参数能够直接获得音素序列，并利用训练好的识别网络能够精准的识别出语音文字，采用语法和时态规则对识别文字进行校正，提高语音识别度，利用特征向量与语音素材库同时反编码的方式，能帮助语音合成更准确的音频，提高人声相似度。

附图说明

图1是本发明的一种英语口语发音自动纠正方法一实施例的步骤流程图；

图2是本发明的一种英语口语发音自动纠正方法一实施例的步骤流程图；

图3是本发明的一种英语口语发音自动纠正方法一实施例的步骤流程图；

图4是本发明的一种英语口语发音自动纠正方法一实施例的步骤流程图；

图5是本发明的一种英语口语发音自动纠正装置实施例的结构框图；

图6是本发明的一种英语口语发音自动纠正装置实施例的结构框图；

图7是本发明的一种英语口语发音自动纠正装置实施例的结构框图；

图8是本发明的一种英语口语发音自动纠正装置实施例的结构框图；

图9是本发明的一种英语口语发音自动纠正计算机设备。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例的核心构思之一在于，提供了一种英语口语发音自动纠正方法，包括：采集英语口语发音的音频文件；将所述音频文件转化成数字信号，并对所述数字信号进行降噪处理和特征提取，得到反映语音信号特征的关键特征参数，形成特征矢量序列；利用预训练的声学模型、语言模型及所有英文单词和短语组成的字典语料库建立识别网络，在所述识别网络中搜索与所述特征矢量序列匹配度最高的词串，生成第一文本信号；将所述第一文本信号中用法有误的单词和/或短语提取，利用语法和时态算法规则进行修正，得到校正后的第二文本信号；采用所述声学模型生成所述第二文本信号对应的特征向量，并从预设语音素材库中匹配与所述第二文本信号对应的语音素材，利用所述语音素材和所述特征向量反编码得到目标音频文件。对获取的信号进行特征提取，反映语音信号特征的关键特征参数能够直接获得音素序列，并利用训练好的识别网络能够精准的识别出语音文字，采用语法和时态规则对识别文字进行校正，提高语音识别度，利用特征向量与语音素材库同时反编码的方式，能帮助语音合成更准确的音频，提高人声相似度。

参照图1，示出了本发明的一种英语口语发音自动纠正方法实施例的步骤流程图，具体可以包括如下步骤：

S100，采集英语口语发音的音频文件；

S200，将所述音频文件转化成数字信号，并对所述数字信号进行降噪处理和特征提取，得到反映语音信号特征的关键特征参数，形成特征矢量序列；

S300，利用预训练的声学模型、语言模型及所有英文单词和短语组成的字典语料库建立识别网络，在所述识别网络中搜索与所述特征矢量序列匹配度最高的词串，生成第一文本信号；

S400，将所述第一文本信号中用法有误的单词和/或短语提取，利用语法和时态算法规则进行修正，得到校正后的第二文本信号；

S500，采用所述声学模型生成所述第二文本信号对应的特征向量，并从预设语音素材库中匹配与所述第二文本信号对应的语音素材，利用所述语音素材和所述特征向量反编码得到目标音频文件。

参照上述步骤S100所示，采集英语口语发音的音频文件。本申请基于移动设备的录音功能对人声的英语口语发音进行采集，或通过上传预先录入的英语口语发音的音频文件。

参照上述步骤S200所示，将所述音频文件转化成数字信号，并对所述数字信号进行降噪处理和特征提取，得到反映语音信号特征的关键特征参数，形成特征矢量序列。所述音频文件为语音信号，将上述语音信号转化成数字信号，并对所述数字信号进行降噪处理，将所述数字信号中非人声的部分去除，减少后期处理的数据量，提高识别的准确度和效率。对所述降噪后的数字信号进行特征提取，所述数字信号由帧组成，提取数字信号中反映语音信号特征的关键特征参数，形成特征矢量序列，上述特征矢量序列为音素序列，具体的，单词的发音由音素构成。对英语语种，一种常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集。

参照上述步骤S300所示，利用预训练的声学模型、语言模型及所有英文单词和短语组成的字典语料库建立识别网络，在所述识别网络中搜索与所述特征矢量序列匹配度最高的词串，生成第一文本信号；通过英语的声学模型和语言模型对数字信号解码处理后，匹配最准确的发音内容，得到文本形式的语音文字内容。语言模型的作用是结合英语语法和时态的知识，描述单词之间的关系，从而提高识别率，减少搜索范围。

具体的，字典语料库是在英文语言环境中收集和提取的包括英文单词、英文短语、英文句式、英文文章等。收集的来源包括英文字典、词典、短语文章、英文报刊、英文电台、英文论文和自然语言处理大会训练集等。字典语料库可以提供单词、词组、词性以及单词与词性的混合搜索，本申请利用语料库训练语言模型参数、抽取错误语法规则，以及后续的语法自动检查及纠正提供搜索保障。

参照上述步骤S400所示，将所述第一文本信号中用法有误的单词和/或短语提取，利用语法和时态算法规则进行修正，得到校正后的第二文本信号；采用语法和时态规则对识别文字进行校正，提高语音识别度。

参照上述步骤S500所示，采用所述声学模型生成所述第二文本信号对应的特征向量，并从预设语音素材库中匹配与所述第二文本信号对应的语音素材，利用所述语音素材和所述特征向量反编码得到目标音频文件。具体的，将修正后的文本发音内容切割成单词或短语，并建立具体的音素、词性、韵律等特征向量，根据时长模型来计算每个文本向量发音的长短，结合声学模型生成每个向量对应的声学特征，最后查询匹配语音素材库，通过声码器反编码生成WAV格式的音频文件。能修正语音识别后的内容，提高语音识别度，能帮助语音合成更准确的音频，提高人声相似度。

参照图2，在本实施例中，所述利用预训练的声学模型、语言模型及所有英文单词和短语组成的字典语料库建立识别网络，在所述识别网络中搜索与所述特征矢量序列匹配度最高的词串，生成第一文本信号的步骤S300，包括：

S310通过所述声学模型中的深度神经网络将所述特征矢量序列中的帧识别成状态信息；

S320通过所述声学模型中的隐马尔可夫模型将所述状态信息组合成音素序列，并将所述音素序列组合成单词序列；

S330通过所述语言模型中的循环神经网络将所述单词序列按照英语语法规则组合成句子，得到第一文本信号。

参照上述步骤，音频是经由数字信息转换后，变成一帧一帧的信号组成，若干帧对应一个音素，若干音素对应一个单词。要识别语音对应的单词，只要知道对应的帧状态，通过声学模型获得概率匹配，通过训练获得合适的模型参数以拟合好的语句匹配效果。通过声学模型中的DNN把帧识别成状态；通过声学模型中的HMM把状态组合成音素；通过声学模型中的HMM把音素组合成单词；通过语言模型中的RNN把单词按英语语法规则组合成句子。

所述声学模型是采用深度神经网络（Deep Neural Networks，DNN）与隐马尔可夫模型（Hidden Markov Model，HMM）进行建模（DNN-HMM）；其中隐马尔可夫模型的作用是将语音信号的观测特征与句子的语音建模单元联系起来，刻画一个音素内部子状态变化，来解决特征序列到多个语音基本单元之间对应关系的问题，继而输出语音与文本的不定长关系。再根据开源的深度网络训练语音库的特征参数训练出声学模型参数，识别时将语音的特征参数同声学模型进行匹配，从而将信号转变成音素，其中，单词的发音由音素构成。对英语语种，一种常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集。本申请中的声学模型采用更先进更准确的“深度神经网络与隐马尔可夫模型”(DNN-HMM)进行建模，优于传统的“高斯混合模型与隐马尔可夫模型”(GMM+HMM)，采用DNN替换了GMM来对输入语音信号的观察概率进行建模。DNN不需要对声学特征所服从的分布进行假设；DNN的输入可以采用连续的拼接帧，因而可以更好地利用上下文的信息；DNN的训练过程可以采用随机优化算法来实现，而不是采用传统的批优化算法，因此当训练数据规模较大时也能进行非常高效的训练，显然，训练数据规模越大，所得到的声学模型就越精确，也就越有利于提高语音识别的性能；在发音模式分类上，DNN这种区分式模型也要比GMM这种产生式模型更加合适。具体的，对DNN-HMM训练之前，需要先得到每一帧语音在DNN上的目标输出值(标签)。标签可以通过GMM-HMM在训练语料上进行Viterbi强制对齐得到。利用标签和输入特征训练DNN模型，用DNN模型替换GMM进行观察概率的计算，保留转移概率和初始概率等其他部分。

语言模型是采用循环神经网络(Recurrent Neural Network，RNN）进行建模，对训练文本数据库进行语法、时态分析，经过基于统计模型训练得到语言模型。语言模型的作用是结合英语语法和时态的知识，描述单词之间的关系，从而提高识别率，减少搜索范围。RNN擅长序列任务，缓解了内存需求问题，其内存需求只取决于字词的数量规模。

上述语音解码的过程就是针对输入的语音信号，根据己经训练好的声学模型、语言模型及所有英文单词和短语组成的字典语料库建立一个识别网络，搜索在该网络中最大概率输出该信号的词串，生成文本形式的语音文字内容，即第一文本信号。

参照图3，在本实施例中，所述将所述音频文件转化成数字信号，并对所述数字信号进行降噪处理和特征提取，得到反映语音信号特征的关键特征参数，形成特征矢量序列的步骤S200，包括：

S210，将所述音频文件转化成第一数字信号；

S220，识别所述第一数字信号中人声频率波段，滤除非人声频率波段得到第二数字信号；

S230，使用由频谱衍生出来的梅尔频率倒谱系数处理所述第二数字信号，提取反映语音信号特征的关键特征参数，形成与音素有关的特征矢量序列。

参照上述步骤所示，把生成的音频文件进行数字信号转换，进行降噪处理，识别信号中人声波段频率，滤除掉其中的不重要的信息以及其他背景噪声。进行特征提取，使用由频谱衍生出来的梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)处理降噪后所有的数字信号帧，提取反映语音信号特征的关键特征参数，形成特征矢量序列。

参照图4，在本实施例中，所述将所述第一文本信号中用法有误的单词和/或短语提取，利用语法和时态算法规则进行修正，得到校正后的第二文本信号的步骤S400，包括：

S410，对所述第一文本信号进行预处理得到预处理文本；预处理包括

但不限于拼写错误检查、词性标注、句法分析和依存分析。

S420，通过移动窗口的方式对所述预处理文本进行语法错误纠正，得到第二文本信号。

在本实施例中，所述对所述第一文本信号进行预处理得到预处理文本的步骤S410，包括：

将所述第一文本信号中的所有单词与所述字典语料库中的单词进行字符匹配，对所述第一文本信号中未匹配到的单词进行标记得到标记单词，用所述字典语料库中与所述标记单词字符匹配度最高的单词替换所述标记单词；具体的，错误检查会检索第一文本信号中所有单词是否存在于字典语料库中，未记录的将进行标记，并匹配字符相近的单词。

和/或，

采用最大熵的词性标注算法对所述第一文本信号中的每个单词进行词性标注；具体的，词性标注是将第一文本信号中的每个词都指派一个的词性，采用最大熵的词性标注计算法，确定每个词是名词、形容词、动词、冠词、连词、代词、副词、数词、介词、感叹词中的类型。

和/或，

采用概率上下文无关文法的生成式句法分析模型，将所述第一文本信号中的短语抽离，进行单独分析，剔除无关单词；具体的，句法分析采用概率上下文无关文法（Probabilistic Context Free Grammar，PCFG）的生成式句法分析模型，将句中短语抽离，进行单独分析，降低无关词汇干扰，提供模块性能。

和/或，

采用预设神经网络的句法分析器，构建所述第一文本信号中单词的依存关系，得到具有单词间关系类型搭配的依存分析结果。具体的，依存分析采用神经网络（Neural-network）的句法分析器，用于精确的构建给定句子中词汇的依存关系，通过精准的依存分析结果，可以获得单词之间诸如主谓关系等一系列类型的搭配，从而有效跳过单词间的距离，进行错误的检查和纠正。

在本实施例中，所述通过移动窗口的方式对所述预处理文本进行语法错误纠正，得到第二文本信号的步骤S420，包括：

在所述预处理文本中选定初始单词；

通过移动窗口获得与所述初始单词前后相关的短语，并利用回退算法对所述短语进行语法检查及纠正，得到第二文本信号；其中，所述语法检查包括：冠词及定冠词错误、名词度数错误、介词错误、主谓不一致和/或动词错误。具体的，分析英文句中的错误分为冠词及定冠词错误、名词度数错误、介词错误、主谓不一致和动词错误这五种错误。在一句话中，给定某个单词后，可以通过移动窗口的方式获得与单词前后相关的短语，本申请利用移动窗口的方式获取单词前后相关的短语，最后利用回退算法进行语法检查并纠正。回退算法是为了判断指定的单词是否应该被替换，通过判断该替换单词和它的变体在字典语料库中的频率的比值来确认，再输出修正后的文本发音内容，即上述第二文本信号。

在本实施例中，所述通过移动窗口获得与所述初始单词前后相关的短语，并利用回退算法对所述短语进行语法检查及纠正，得到第二文本信号的步骤，包括：

在英语语言的实际生活运用和学习场景实施例中，现有市面上的英语语音识别只单一的针对内容提取，不关心表述的内容是否正确和标准，如果用户讲述的是语法错误的内容，识别后输出得到的内容在语法上也一样是错误的。例如，用户读一句“How is you”,普通语音识别出来的内容也会是“How is you”，在正常的英语环境沟通和学习中，无法纠正语法错误，也无法在学习过程中发现问题。另外通过输入英语语句，来合成完整语音的语音合成技术，也只会对内容进行单一的生成音频，使音频生成需要的特征向量出现严重偏差，导致合成的发音长短、音色、音速都不标准，甚至是读音都是完全错误的情况发生，这会让交流更加困难，学习也会产生错误的认知。本申请相比现有单一的语音识别和语音合成技术，不同在于利用预训练的声学模型、语言模型及所有英文单词和短语组成的字典语料库建立识别网络，结合英语语法和时态的知识，描述单词之间的关系，从而提高识别率，减少搜索范围，语言校正模块能修正语音识别后的内容，提高语音识别度，语音合成模块采用语音素材和所述特征向量反编码的方式，能帮助语音合成更准确的音频，提高人声相似度。

在一具体实施例中，一种英语口语发音自动纠正方法，包括：

使用移动设备的录音功能采集人声的英语口语发音；

把生成的音频文件输入语音识别模块，进行数字信号转换，根据人声的特征提取后，把非人声频率波段进行降噪处理；

通过英语声学模型和语言模型对数字信号解码处理后，匹配最准确的发音内容，得到文本形式的语音文字内容；

把语音文字内容输入语言校正模块检验后，将用法有误和待修正的单词和短语提取处理；

提取后的单词和短语根据语法和时态算法规则进行修正，再输出修正后的文本发音内容。

将修正后的文本发音内容输入语音合成模块，将文本切割成单词或短语，并建立具体的音素、词性、韵律等特征向量，根据时长模型来计算每个文本向量发音的长短，

结合声学模型生成每个向量对应的声学特征，最后查询匹配语音素材库，通过声码器反编码生成音频文件，例如WAV格式的音频文件，并进行播放。

本申请提出的英语口语发音自动纠正方法，具有语音识别功能，把生成的音频文件输入语音识别模块，进行数字信号转换，根据人声的特征提取后，把非人声频率波段进行降噪处理，将语音直接转换成文字，通过英语声学模型和语言模型对数字信号解码处理后，匹配最准确的发音内容，得到文本形式的语音文字内容。其语言校正功能，把语音文字内容输入语言校正模块检验后，将用法有误和待修正的单词和短语提取处理，根据语法和时态算法规则进行修正，再输出修正后的文本发音内容。其语音合成模块，将修正后的文本发音内容输入语音合成模块，将文本切割成单词或短语，并建立具体的音素、词性、韵律等特征向量，根据时长模型来计算每个文本向量发音的长短，结合声学模型生成每个向量对应的声学特征，最后查询匹配语音素材库，通过声码器反编码生成WAV格式的音频文件。解决了现有产品语音识别无法生成语法和时态正确的文本内容，语音合成的音频会有发音长短、音色、音速都不标准的问题。对获取的信号进行特征提取，反映语音信号特征的关键特征参数能够直接获得音素序列，并利用训练好的识别网络能够精准的识别出语音文字，采用语法和时态规则对识别文字进行校正，提高语音识别度，利用特征向量与语音素材库同时反编码的方式，能帮助语音合成更准确的音频，提高人声相似度。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图5，示出了本发明的一种英语口语发音自动纠正装置实施例的结构框图，具体可以包括如下模块：

采集模块100，用于采集英语口语发音的音频文件；

特征提取模块200，用于将所述音频文件转化成数字信号，并对所述数字信号进行降噪处理和特征提取，得到反映语音信号特征的关键特征参数，形成特征矢量序列；

语音识别模块300，用于利用预训练的声学模型、语言模型及所有英文单词和短语组成的字典语料库建立识别网络，在所述识别网络中搜索与所述特征矢量序列匹配度最高的词串，生成第一文本信号；

语音校正模块400，用于将所述第一文本信号中用法有误的单词和/或短语提取，利用语法和时态算法规则进行修正，得到校正后的第二文本信号；

语音合成模块500，用于采用所述声学模型生成所述第二文本信号对应的特征向量，并从预设语音素材库中匹配与所述第二文本信号对应的语音素材，利用所述语音素材和所述特征向量反编码得到目标音频文件。

参照图6在本实施例中，所述语音识别模块300包括：

第一识别子模块310，用于通过所述声学模型中的深度神经网络将所述特征矢量序列中的帧识别成状态信息；

第二识别子模块320，用于通过所述声学模型中的隐马尔可夫模型将所述状态信息组合成音素序列，并将所述音素序列组合成单词序列；

第三识别子模块330，用于通过所述语言模型中的循环神经网络将所述单词序列按照英语语法规则组合成句子，得到第一文本信号。

参照图7，在本实施例中，所述特征提取模块200包括：

信号转化子模块210，用于将所述音频文件转化成第一数字信号；

降噪子模块220，用于识别所述第一数字信号中人声频率波段，滤除非人声频率波段得到第二数字信号；

特征提取子模块230，用于使用由频谱衍生出来的梅尔频率倒谱系数处理所述第二数字信号，提取反映语音信号特征的关键特征参数，形成与音素有关的特征矢量序列。

参照图8，在本实施例中，所述语音校正模,400包括：

预处理子模块410，用于对所述第一文本信号进行预处理得到预处理文本；

修正子模块420，用于通过移动窗口的方式对所述预处理文本进行语法错误纠正，得到第二文本信号。

在本实施例中，所述预处理子模,410包括：

和/或，

在本实施例中，所述修正子模块420包括：

初始化单元，用于在所述预处理文本中选定初始单词；

在本实施例中，所述修正单元包括：

目前市场上提供的帮助英语学习和辅导的软件大多为中英文翻译、语音识别等，对于发出的声音直接进行识别和判断，缺少对发音出来的内容进行优化修正并播放标准音频的功能，本申请语音识别后，优化发音内容的语法和时态的正确运用，最后智能合成标准音频。通过采集日常英语口语的发音，利用语音识别和音频合成的算法优化相结合的方式，输出并播放优化后语法合理、发音标准的语音，解决学习和生活中使用英语交流不顺畅、发音不准确的问题。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

参照图9，示出了本发明的一种英语口语发音自动纠正计算机设备，具体可以包括如下：

上述计算机设备12以通用计算设备的形式表现，计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件（包括系统存储器28和处理单元16）的总线18。

总线18表示几类总线18结构中的一种或多种，包括存储器总线18或者存储器控制器，外围总线18，图形加速端口，处理器或者使用多种总线18结构中的任意总线18结构的局域总线18。举例来说，这些体系结构包括但不限于工业标准体系结构（ISA）总线18，微通道体系结构（MAC）总线18，增强型ISA总线18、音视频电子标准协会（VESA）局域总线18以及外围组件互连（PCI）总线18。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器（RAM）30和/或高速缓存存储器32。计算机设备12可以进一步包括其他移动/不可移动的、易失性/非易失性计算机体统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质（通常称为“硬盘驱动器”）。尽管图9中未示出，可以提供用于对可移动非易失性磁盘（如“软盘”）读写的磁盘驱动器，以及对可移动非易失性光盘（例如CD-ROM，DVD-ROM或者其他光介质）读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质界面与总线18相连。存储器可以包括至少一个程序产品，该程序产品具有一组（例如至少一个）程序模块42，这些程序模块42被配置以执行本发明各实施例的功能。

具有一组（至少一个）程序模块42的程序/实用工具40，可以存储在例如存储器中，这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其他程序模块42以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14（例如键盘、指向设备、显示器24、摄像头等）通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其他计算设备进行通信的任何设备（例如网卡，调制解调器等等）通信。这种通信可以通过输入/输出（I/O）界面22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络（例如局域网（LAN）），广域网（WAN）和/或公共网络（例如因特网）通信。如图所示，网络适配器20通过总线18与计算机设备12的其他模块通信。应当明白，尽管图9中未示出，可以结合计算机设备12使用其他硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元16、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统34等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的英语口语发音自动纠正方法。

也即，上述处理单元16执行上述程序时实现：采集英语口语发音的音频文件；将所述音频文件转化成数字信号，并对所述数字信号进行降噪处理和特征提取，得到反映语音信号特征的关键特征参数，形成特征矢量序列；利用预训练的声学模型、语言模型及所有英文单词和短语组成的字典语料库建立识别网络，在所述识别网络中搜索与所述特征矢量序列匹配度最高的词串，生成第一文本信号；将所述第一文本信号中用法有误的单词和/或短语提取，利用语法和时态算法规则进行修正，得到校正后的第二文本信号；采用所述声学模型生成所述第二文本信号对应的特征向量，并从预设语音素材库中匹配与所述第二文本信号对应的语音素材，利用所述语音素材和所述特征向量反编码得到目标音频文件。

在本发明实施例中，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请所有实施例提供的英语口语发音自动纠正方法：

也即，给程序被处理器执行时实现：采集英语口语发音的音频文件；将所述音频文件转化成数字信号，并对所述数字信号进行降噪处理和特征提取，得到反映语音信号特征的关键特征参数，形成特征矢量序列；利用预训练的声学模型、语言模型及所有英文单词和短语组成的字典语料库建立识别网络，在所述识别网络中搜索与所述特征矢量序列匹配度最高的词串，生成第一文本信号；将所述第一文本信号中用法有误的单词和/或短语提取，利用语法和时态算法规则进行修正，得到校正后的第二文本信号；采用所述声学模型生成所述第二文本信号对应的特征向量，并从预设语音素材库中匹配与所述第二文本信号对应的语音素材，利用所述语音素材和所述特征向量反编码得到目标音频文件。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机克顿信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦可编程只读存储器（EPOM或闪存）、光纤、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言——诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行或者完全在远程计算机或者服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网（LAN）或广域网（WAN）——连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的英语口语发音自动纠正方法及装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种英语口语发音自动纠正方法，其特征在于，包括：

采集英语口语发音的音频文件；

提取所述第一文本信号中用法有误的单词和/或短语，利用语法和时态算法规则进行修正，得到校正后的第二文本信号；

2.根据权利要求1所述的方法，其特征在于，所述利用预训练的声学模型、语言模型及所有英文单词和短语组成的字典语料库建立识别网络，在所述识别网络中搜索与所述特征矢量序列匹配度最高的词串，生成第一文本信号的步骤，包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述音频文件转化成数字信号，并对所述数字信号进行降噪处理和特征提取，得到反映语音信号特征的关键特征参数，形成特征矢量序列的步骤，包括：

将所述音频文件转化成第一数字信号；

4.根据权利要求1所述的方法，其特征在于，所述将所述第一文本信号中用法有误的单词和/或短语提取，利用语法和时态算法规则进行修正，得到校正后的第二文本信号的步骤，包括：

对所述第一文本信号进行预处理得到预处理文本；

5.根据权利要求4所述的方法，其特征在于，所述对所述第一文本信号进行预处理得到预处理文本的步骤，包括：

和/或，

6.根据权利要求5所述的方法，其特征在于，所述通过移动窗口的方式对所述预处理文本进行语法错误纠正，得到第二文本信号的步骤，包括：

在所述预处理文本中选定初始单词；

7.根据权利要求6所述的方法，其特征在于，所述通过移动窗口获得与所述初始单词前后相关的短语，并利用回退算法对所述短语进行语法检查及纠正，得到第二文本信号的步骤，包括：

8.一种英语口语发音自动纠正装置，其特征在于，包括：

采集模块，用于采集英语口语发音的音频文件；

9.根据权利要求8所述的装置，其特征在于，所述语音识别模块包括：

10.根据权利要求8所述的装置，其特征在于，所述特征提取模块包括：

11.根据权利要求8所述的装置，其特征在于，所述语音校正模块包括：

12.根据权利要求11所述的装置，其特征在于，所述预处理子模块包括：

和/或，

13.根据权利要求12所述的装置，其特征在于，所述修正子模块包括：

初始化单元，用于在所述预处理文本中选定初始单词；

14.根据权利要求13所述的装置，其特征在于，所述修正单元包括：

15.电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的英语口语发音自动纠正方法的步骤。

16.计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的英语口语发音自动纠正方法的步骤。