CN111370001B

CN111370001B - 一种发音的纠正方法、智能终端及存储介质

Info

Publication number: CN111370001B
Application number: CN201811605128.5A
Authority: CN
Inventors: 王鹏
Original assignee: TCL Technology Group Co Ltd
Current assignee: TCL Technology Group Co Ltd
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2023-10-10
Anticipated expiration: 2038-12-26
Also published as: CN111370001A

Abstract

本发明公开了一种发音的纠正方法、智能终端及存储介质，方法包括：将用户的读音与用户语音数据库进行对比分析，提取出用户的读音中发音异常的音节；从预设的数据库中找出与所提取的发音异常的音节相匹配的语音进行播放。本发明通过将用户的读音与标准的发音进行对比分析，提取出发音异常的音节，有助于改善用户的发音标准性，此外，本发明还根据发音异常音节找出对应的文字，以供用户反复练习，提高用户的发音标准性。

Description

一种发音的纠正方法、智能终端及存储介质

技术领域

本发明涉及语音识别技术领域，具体涉及一种发音的纠正方法、智能终端及存储介质。

背景技术

随着人与人之间语言交流沟通准确的必要性，以及外语口语交流的普遍性，或者某些人天生具有发音缺陷比如口吃。人们对自己发音是否标准越来越重视，但是由于口音或说话习惯导致某些词语或语句发音异常，或者在学习一门外语的时候发音异常却不知如何改善。传统的发音训练方法都是由用户自己挑选训练语料，而不能根据用户的发音特点找到相应的训练素材进行针对性的训练。并且用户无法感受自己的发音是否标准，从而不知如何纠正改进。

因此，现有技术还有待于改进和发展。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种发音的纠正方法、智能终端及存储介质，旨在解决现有技术中用户无法知晓自己的发音是否标准以及不知如何改正等问题。

本发明解决技术问题所采用的技术方案如下：

一种发音的纠正方法，其中，所述方法包括：

将用户的读音与用户语音数据库进行对比分析，提取出用户的读音中发音异常的音节；

所述的发音的纠正方法，其中，所述将用户的读音与用户语音数据库进行对比分析，提取出用户的读音中发音异常的音节之前，还包括：

建立用户语音数据库。

所述的发音的纠正方法，其中，建立用户语音数据库的步骤，包括：

采集用户的语音数据，并对采集到的语音数据进行声纹特征提取；

对所提取的声纹特征信息进行拟合处理，基于拟合处理结果建立用户语音数据库。

所述的发音的纠正方法，其中，所述对所提取的声纹特征信息进行拟合处理，基于拟合处理结果建立用户语音数据库的步骤，包括：

将提取的声纹特征信息输入至网络模型中训练，输出用户的标准发音；

将用户的标准发音保存，并建立用户的语音数据库。

所述的发音的纠正方法，其中，所述网络模型是利用编码器-解码器结构的长短期记忆循环神经网络进行训练而成的。

所述的发音的纠正方法，其中，所述将用户的读音与用户语音数据库进行对比分析，提取出用户的读音中发音异常的音节的步骤，包括：

将用户的读音与语音数据库中对应的标准发音分别按照音节进行分割；

将每一个音节的标准发音与用户的读音输入至预设的发音对比模型中，得到标准发音与用户的读音之间的相似度低于预设阈值的音节；

对标准发音与用户的读音之间的相似度低于预设阈值的音节进行提取。

所述的发音的纠正方法，其中，所述将每一个音节的标准发音与用户的读音输入至预设的发音对比模型中，得到标准发音与用户的读音之间的相似度低于预设阈值的音节的步骤，包括：

将每一个音节的标准发音与用户的读音输入至预设的发音对比模型中，得到每一个音节的标准发音与用户的读音相似度；

将每一个音节的标准发音与用户的读音相似度与预设的阈值进行比较；

若某个音节的标准发音与用户的读音之间的相似度大于阈值，则判定发音标准；

若某个音节的标准发音与用户的读音之间的相似度小于阈值，则判定发音异常。

所述的发音的纠正方法，其中，所述从预设的数据库中找出与所提取的发音异常的音节进行播放的步骤，包括：

将找出的发音异常的音节输入至预设的数据库中；

将发音异常的音节与预设的数据库中的语音进行匹配，找出与发音异常的音节相匹配的语音；

将找出的语音进行播放。

一种智能终端，其中，包括：处理器、与处理器通信连接的存储介质，所述存储介质适于存储多条指令；所述处理器适于调用所述存储介质中的指令，以执行实现上述任一项所述的发音的纠正方法的步骤。

一种存储介质，其上存储有多条指令，其中，所述指令适于由处理器加载并执行，以执行实现上述任一项所述的发音的纠正方法的步骤。

本发明的有益效果：本发明通过将用户的读音与标准的发音进行对比分析，提取出发音异常的音节，有助于改善用户的发音标准性，此外，本发明还根据发音异常音节找出对应的文字，以供用户反复练习，提高用户的发音标准性。

附图说明

图1是本发明的发音的纠正方法的较佳实施例的流程图。

图2是本发明的智能终端的功能原理图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的发音的纠正方法，可以应用于终端中。其中，终端可以但不限于是各种个人计算机、笔记本电脑、手机、平板电脑、车载电脑和便携式可穿戴设备。本发明的终端采用多核处理器。其中，终端的处理器可以为中央处理器(Central Processing Unit，CPU)，图形处理器(Graphics Processing Unit，GPU)、视频处理单元(Video ProcessingUnit，VPU)等中的至少一种。

本发明提供一种发音的纠正方法，具体如图1所示，所述方法包括：

步骤S100、将用户的读音与用户语音数据库进行对比分析，提取出用户的读音中发音异常的音节。

具体实施时，本发明是通过将用户的读音与预先训练得到的语音数据库中的标准发音来进行比对，从而就可以找出用户读音中哪些是异常的发音，并进一步地将发音异常的音节进行提取，从而有利于对用户的异常发音进行纠正。具体地，本实施例需要预先采集用户的读音，并创建一语音数据库。优选地，本实施例中所采集到的用户的读音可以为用户对某段文字材料的朗读读音，例如，给用户提供一条文字材料，用户对该文字材料进行朗读，在朗读的过程中对用户的读音进行采集，也可以是用户的日常对话的语音以及通话录音等。当采集到用户的读音后，从用户的读音中提取出语音特征参数，并将语音特征参数输入字至预设的声纹识别模型中进行识别，从而获取到用户的读音的声纹特征信息。

优选地，本实施例中预先需要利用用户的语音建立一个声纹识别模型。具体地，预先采集用户的语音，并对用户的语音进行预处理(所述预处理包括但不限于去噪处理)，然后将预处理后的语音进行特征参数，将提取的特征参数输入至高斯混合模型进行训练，获得声纹识别模型。

例如，提取的特征参数为梅尔频率倒谱系数(MFCC)。梅尔频率倒谱系数(MFCC)：

Mel(f)＝2595*log(1+f/700)

其中，f为频率。

优选地，本实施例将用户的每一条语音进行分帧，然后提取每一帧语音的梅尔频率倒谱系数并且保存，该梅尔频率倒谱系数即为输入至高斯混合模型进行训练的输入信息。

在本实施例中，声纹识别模型是利用高斯模型进行训练的，高斯模型是一种参数化的生成性模型，是由多个高斯分布线性叠加而成，因此能够通过高斯模型来描述数据集的分布情况。本实施例中高斯模型训练的目的是为了得到用户的高斯模型参数组，公式为：

最后训练出能够完全表达用户声纹信息的特征参数α,μ,以及协方差矩阵。以上三个参数就能够拟合出用户声纹特征的分布情况。然后再将提取的声纹特征信息输入至网络模型中进行网络训练，输出用户的标准发音，将得到的标准发音进行保存，建立用户的语音数据库。该语音数据库就可以用于与用户的读音进行比对，从而判断用户的发音是否标准。本实施例中标准的发音指的是用户的发音没有错误，且符合语言规范，每一个音节的发音均与正确的发音一致。

进一步地，如果用户采集的语音是用户朗读某段文字材料的读音时，还可以在识别出用户的读音的声纹特征后，将提取到的声纹特征输入至文字转语音模型中进行声学参数建模以及韵律建模训练，从而输出该文字材料的标准发音，并建立用户的语音数据库。优选地，为了更好地将文字材料转换为标准发音，本实施例中的需要对文字材料进行预处理，包括分词、词性标注、韵律结构预测等。考虑到文字材料的前后的相关性以及针对文字发音的连续性，本实施中文字转语音模型是利用编码器-解码器结构的长短期记忆循环神经网络进行训练而成的。值得说明的是，本实施例中所输出的文字材料的标准发音时基于用户的声纹特征与文字材料拟合而成的，因此标准发音中是具有用户的声纹特征的，这样可以更有利于后续步骤中与用户的读音进行对比，从而准确确认出用户的发音是否标准。

进一步地，本实施例将用户的读音与语音数据库中对应的标准发音分别按照音节进行分割；例如，S_x＝(s_x1,s_x2,...,s_xn)表示用户的读音按照音节分割后的信息，S_t＝(s_t1,s_t2,...,s_tn)表示标准发音按照音节分割后的信息。然后将每一个音节的标准发音与用户的读音输入至预设的发音对比模型中，得到标准发音与用户的读音之间的相似度低于预设阈值的音节；对标准发音与用户的读音之间的相似度低于预设阈值的音节进行提取。由于在本实施例中，对于标准发音以及用户读音的对比是以音节为单位进行分析的，从而可以更加准确地判断某个音节是否标准。

优选地，本实施例中的发音对比模型旨在找出用户的读音中发音异常的音节。具体地，将每一个音节的标准发音与用户的读音输入至预设的发音对比模型中，得到每一个音节的标准发音与用户的读音相似度；将每一个音节的标准发音与用户的读音相似度与预设的阈值进行比较；若某个音节的标准发音与用户的读音之间的相似度大于阈值，则判定发音标准；若某个音节的标准发音与用户的读音之间的相似度小于阈值，则判定发音异常。

优选地，本实施例中的发音对比模型是在传统的编码器-解码器结构上进行了改进，为两个编码器和一个解码器并且添加注意力机制。第一个编码器的输入为S_x,经过多层循环神经网络进行编码后的输出为h_x＝(h_x1,h_x2,...,h_xn)；第二个编码器的输入为S_t,经过多层循环神经网络进行编码后的输出为h_t＝(h_t1,h_t2,...,h_tn)。然后在注意力机制中计算h_x和h_t的相似性矩A，

A＝match_score(h_x,h_t)。

然后将相似性矩阵A送进解码器进行解码训练，最后反馈出两组发音信息相似性低于阈值β的音节V＝(v₁,v₂,...,v_k)。v₁表示训练出的第一个发音异常的音节，其中k为找到的发音异常音节的数量。

值得说明的是，当将用户的读音与语音数据库中对应的标准发音分别按照音节进行分割后，用户读音的某个音节并未在语音数据库中的标准发音中找到相应的音节，也就是说，该音节不存在语音数据库中，此时也判定该音节的发音异常。

步骤S200、从预设的数据库中找出与所提取的发音异常的音节相匹配的语音进行播放。

具体实施时，本实施例中将找出的发音异常的音节输入至预设的数据库中；将发音异常的音节与预设的数据库中的语音进行匹配，找出与发音异常的音节相匹配的语音；将找出的语音进行播放，当语音播放时，用户可以根据播放语音进行训练发音。具体地，本实施例可以先将确定出的发音异常的音节输入至预设的语音转文字模型中，得到所述发音异常的音节对应的文字；根据所述文字从预设的数据库中找出包含所述文字的语音，然后将该语音进行播放。优选地，本实施例中预设的数据库中包含多份语音材料，语音材料中包括有发音训练材料以及文字材料，这些发音训练材料可以是根据用户的读音进行网络训练而成，因此发音训练材料中的读音都是标准发音的。当然，该发音训练材料还可以用户自主编辑，比如增加、删减等操作，以便及时更新该数据库。进一步地，在对发音训练材料进行播放时，可以在播放语音材料的同时将文字材料进行显示，用以辅助纠正用户的异常发音，当然，在播放的同时还可以着重对用户发音异常的音节进行提醒，以使用户对异常的发音进行反复训练。在本实施中，由于通过将找出的发音异常的音节输入至语音转文字模型中就可以找到对应的文字，因此就可以精准地位根据发音异常音节找到所对应的发音练习材料，从而实现定向训练。当然，在一些语种情况下，也可以是一对多的关系，即一个音节对应多个文字，以方便不同语种的用户使用。

优选地，本实施例中的语音转文字模块即为上述文字转语音模块的逆过程。考虑到每次都是利用单音节进行文字转换，所以不采用前后相关性较强的循环神经网络，而用具有较强表达特征信息能力的卷积神经网络，单音节信息先进入一个多层卷积网络，卷积网络由卷积层，池化层和全联接层构成，通过卷积网络提取出音节的表征信息，然后将表征信息送入转换模块，转换模块是一个多分类器，同时还需要将字典信息也输入给转换模块，从而在字典中训练找到输入音节对应的所有文字，进行输出，从而输出该音节对应的文字。为了方便用户对发音训练，本实施例中根据输出的文字从数据库中查找找出包含所述文字的文字段落；并将所述文字段落显示，用户就可以根据显示的文字段落进行朗读训练。

本实施例中通过找到发音异常音节就能够为后期为用户提供针对性发音训练做准备。针对性训练分为两部分：原文反馈训练和同音字加强训练。原文反馈训练：将利用文字材料与用户读音的声纹特征拟合的标准文字发音反馈给用户，让用户感知本段文字材料的标准发音，并且根据通过发音对比模型找到的发音异常音节，将这些音节对应的文字进行多次重复反馈给用户听，从而利用这些发音异常文字纠正用户发音。同音字加强训练：通过发音对比模块能够找到本段文字发音异常的音节，由于一个音节可以对应多个不同的文字，利用语音转文字模型就可以获取除本段文字之外其它同音字，提供给用户进行训练。

本发明通过将用户的读音与标准的发音进行对比分析，提取出发音异常的音节，有助于改善用户的发音标准性，此外，本发明还根据发音异常音节找出对应的文字，以供用户反复练习，提高用户的发音标准性。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

基于上述实施例，本发明还提供了一种智能终端，其原理框图可以如图2所示。该智能终端包括通过系统总线连接的处理器、存储器、网络接口、显示屏和温度传感器。其中，该智能终端的处理器用于提供计算和控制能力。该智能终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该智能终端的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种发音的纠正方法。该智能终端的显示屏可以是液晶显示屏或者电子墨水显示屏，该智能终端的温度传感器是预先在智能终端内部设置，用于检测内部设备的当前运行温度。

本领域技术人员可以理解，图2中示出的原理框图，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的智能终端的限定，具体的智能终端可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种智能终端，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时至少可以实现以下步骤：

从预设的数据库中找出与所提取的发音异常的音节相匹配的语音进行播放。

在其中一个实施例中，该处理器执行计算机程序时还可以实现以下步骤：建立用户语音数据库。具体地，首先采集用户的语音数据，并对采集到的语音数据进行声纹特征提取；将提取的声纹特征信息输入至网络模型中训练，输出用户的标准发音；将用户的标准发音保存，并建立用户的语音数据库。较佳地，当采集到的用户的语音数据为用户朗读某段文字材料的读音时，可以先对用户朗读的文字材料进行预处理；将预处理后的文字材料与提取到的声纹特征输入至文字转语音模型中进行声学参数建模以及韵律建模训练；输出所述文字材料对应的标准发音，建立用户的语音数据库。

在其中一个实施例中，该处理器执行计算机程序时还可以实现以下步骤：将用户的读音与语音数据库中的标准发音分别按照音节进行分割；将每一个音节的标准发音与用户的读音输入至预设的发音对比模型中，得到标准发音与用户的读音之间的相似度低于预设阈值的音节；对标准发音与用户的读音之间的相似度低于预设阈值的音节进行提取。

在其中一个实施例中，该处理器执行计算机程序时还可以实现以下步骤：将标准发音与用户的读音分别按照音节进行分割；将每一个音节的标准发音与用户的读音输入至预设的发音对比模型中，得到标准发音与用户的读音之间的相似度低于预设阈值的音节；对标准发音与用户的读音之间的相似度低于预设阈值的音节进行提取。

在其中一个实施例中，该处理器执行计算机程序时还可以实现以下步骤：将每一个音节的标准发音与用户的读音输入至预设的发音对比模型中，得到每一个音节的标准发音与用户的读音相似度；将每一个音节的标准发音与用户的读音相似度与预设的阈值进行比较；若某个音节的标准发音与用户的读音之间的相似度大于阈值，则判定发音标准；若某个音节的标准发音与用户的读音之间的相似度小于阈值，则判定发音异常。

在其中一个实施例中，该处理器执行计算机程序时还可以实现以下步骤：将找出的发音异常的音节输入至预设的数据库中；将发音异常的音节与预设的数据库中的语音进行匹配，找出与发音异常的音节相匹配的语音；将找出的语音进行播放。在播放语音的同时还可以将对应的文字材料进行显示，用以辅助纠正用户的异常发音，当然，在播放的同时还可以着重对用户发音异常的音节进行提醒，以使用户对异常的发音进行反复训练。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

综上所述，本发明提供了一种发音的纠正方法、智能终端及存储介质，方法包括：将用户的读音与用户语音数据库进行对比分析，提取出用户的读音中发音异常的音节；从预设的数据库中找出与所提取的发音异常的音节相匹配的语音进行播放。本发明通过将用户的读音与标准的发音进行对比分析，提取出发音异常的音节，有助于改善用户的发音标准性，此外，本发明还根据发音异常音节找出对应的文字，以供用户反复练习，提高用户的发音标准性。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种发音的纠正方法，其特征在于，所述方法包括：

将用户的读音与该用户语音数据库进行对比分析，提取出用户的读音中发音异常的音节；

从预设的数据库中找出与所提取的发音异常的音节相匹配的语音进行播放；

所述将用户的读音与该用户语音数据库进行对比分析，提取出用户的读音中发音异常的音节的步骤，包括：

2.根据权利要求1所述的发音的纠正方法，其特征在于，所述将用户的读音与该用户语音数据库进行对比分析，提取出用户的读音中发音异常的音节之前，还包括：

建立该用户语音数据库。

3.根据权利要求2所述的发音的纠正方法，其特征在于，建立该用户语音数据库的步骤，包括：

对所提取的声纹特征信息进行拟合处理，基于拟合处理结果建立该用户语音数据库。

4.根据权利要求3所述的发音的纠正方法，其特征在于，所述对所提取的声纹特征信息进行拟合处理，基于拟合处理结果建立该用户语音数据库的步骤，包括：

将用户的标准发音保存，并建立用户的语音数据库。

5.根据权利要求4所述的发音的纠正方法，其特征在于，所述网络模型是利用编码器-解码器结构的长短期记忆循环神经网络进行训练而成的。

6.根据权利要求1所述的发音的纠正方法，其特征在于，所述将每一个音节的标准发音与用户的读音输入至预设的发音对比模型中，得到标准发音与用户的读音之间的相似度低于预设阈值的音节的步骤，包括：

7.根据权利要求1所述的发音的纠正方法，其特征在于，所述从预设的数据库中找出与所提取的发音异常的音节相匹配的语音进行播放的步骤，包括：

将找出的发音异常的音节输入至预设的数据库中；

将找出的语音进行播放。

8.一种智能终端，其特征在于，包括：处理器、与处理器通信连接的存储介质，所述存储介质适于存储多条指令；所述处理器适于调用所述存储介质中的指令，以执行实现上述权利要求1-7任一项所述的发音的纠正方法的步骤。

9.一种存储介质，其上存储有多条指令，其特征在于，所述指令适于由处理器加载并执行，以执行实现上述权利要求1-7任一项所述的发音的纠正方法的步骤。