CN110047466A

CN110047466A - 一种开放性创建语音朗读标准参考模型的方法

Info

Publication number: CN110047466A
Application number: CN201910304950.6A
Authority: CN
Inventors: 邝翠珊
Original assignee: Shenzhen Shuzixinghe Technology Co Ltd
Current assignee: Shenzhen Shuzixinghe Technology Co Ltd
Priority date: 2019-04-16
Filing date: 2019-04-16
Publication date: 2019-07-23
Anticipated expiration: 2039-04-16
Also published as: CN110047466B

Abstract

本发明是一种开放性创建语音朗读标准参考模型的方法，用户经过程序测试和系统审核成为专家用户，获得开放性创建朗读语音的标准参考模型的权限和操作，从而让特定的英语文本获得多个标准参考模型，用户进行英语朗读时，其语音特征就可以和多个和用户匹配的标准参考模型比对计算分值，通过对分值进行归一优化，减小因用户朗读单个字母、词的语音特性受上下文的影响改变了重音、音调、音量和发音速度等造成的等评分误差。

Description

一种开放性创建语音朗读标准参考模型的方法

技术领域

本发明涉及语音识朗读打分技术领域，尤其涉及一种开放性创建英语朗读打分标准参考模型的方法。

背景技术

现今学术界专家一致认为语音技术是近期信息技术领域十大重要的科技发展技术之一，语音识别的应用领域非常广泛，在英语文本朗读打分上也得到了大量研究和应用，研究出采用对数似然度打分对数后验概率打分、段分类打分、段时长打分或其改进算法等打分的技术方案。

现有的英语朗读识别及打分系统，具有代表性的是由卡奈基梅隆大学用Ja v a语言开发的一种大词汇量、连续的语音识别系统s P h i n x 4 ；, 由它的前端(Fron-tEnd) 、解码器(Deeoder) 、知识库(Li n即i st)三部分共同实现对， sph i n x 4提供的多个标准参考模型，使得程序打分和现实专家打分差距明显的缩小，显而易见语音标准参考模型对英语朗读打分的重要性，限定被朗读英语文本的内容，尚可保证一定的准确率，有限数量的标准参考模型也难以适应较大范围的英语文本、朗读重音、音调、音量和发音速度多样性变化，英语朗读打分往往会语音标准参考模型样本的影响，造成先验概率值分布不均匀，误差较大，因标准参考模型的数量和质量在一定程度上限制了英语语音识别打分的精准程度和英语朗读自动打分练习、测试更为广泛的普及。

发明内容

针对以上背景技术的存在的问题，本发明是一种开放性创建语音朗读标准参考模型的方法，用户经过程序测试和系统审核成为专家用户，获得开放性创建朗读语音的标准参考模型的权限和操作，从而让特定的英语文本获得多个标准参考模型，用户进行英语朗读时，系统获取的语音特征就可以和多个和用户匹配的标准参考模型比对获得分值，通过对所述分值进行归一优化，减小因用户朗读单个字母、词的语音特性受上下文的影响改变了重音、音调、音量和发音速度等造成的等评分误差，从而满足用户英语语音朗读训练、测评的针对性、个性化要求，提高英语朗读的学习效率，具体实施如下：

出于对系统的稳定性、兼容性、用户体验、成本等方面的的综合考虑，本发明采用服务器程序模块和客户端程序模块。

服务器模块从使用角色上来区分包括设置学员用户模块、专家模块、系统管理用户模块。

1、配置服务器及数据库，创建英语语音标准参考模型分类：播音朗读、感情朗读、柔声朗读、颤音朗读……..，创建储存语音标准参考模型分类相关的数据库表格。

2、在数据库上分别创建用于存储被朗读文本内容、文本分类的类别、与文本对应的标准参考模板等等相关的表格。

3、设置用户系统，包含普通用户类、专家类、系统管理类等用户系统，并配置相应的诸如用户注册，用户界面、用户管理等关于用户的程序及存储信息的数据库表格。

4、对语音文件在系统的存储本发明采用两种：A、对用于计算特征创建标准参考模板的语音使用AppendChunk函数，AppendChunk包含在 Field 对象中，原型为：HRESULTAppendChunk (const _variant_t & Data );把语音转换成二进制数据赋值给VARIANT类型的变量，存放于数据库相对应的表格，方便读取、调用、修改等操作，普通用户进行朗读打分时，在其界面上创建配套的调用模块，将分值最高所用到的标准参考模型对应的语音文件从数据调出，用户点击事件里播放该原始语音；B、对用户用于练习测试的朗读语音，直接储存于服务器（客户端设备）特定路径的目录下，并在数据库相对于的表格中记录和所述语音相关的信息，诸如用户名，文件路径及名称，日期等。

5、预先在系统中内置一定数量的标准参考模型，普通用户在用户界面，通过录音设备在系统里朗读升级为专家用户的测试内容，并经过系统内置的各种标准参考模型采用多标准参考模型比对优化的方法打分，所有分值在一定数值之上，经提交申请，并经过系统审核后，升级成专家用户。

6、在专家用户界面，创立编辑标准参考模型的用户界面，设置任务栏并在内容中排序显示可创建语音标准参考模型任务相关的文本，创建各种相关功模块包含：专家通过录音设备或传感器进行朗读，删除、储存等编辑、确认后提交给系统程序进行自动化先期验证，即和系统内置的评分系统进行打分，系统验证通过后触发系统激活专家用户界面上的提交按钮，专家用户确认并提交所述创建的内容给系统管理用户。

7、系统后台收到专家用户创建并提交的新语音标准参考模型后，进行质量审查，并将审查状态记载到相应创建语音标准参考模型的记录到数据库，供相应的专家用户查看其用户名下提交记录的审批状态，合格的语音标准参考模型通过审核，开放到普通用户进行语音自动化打分所依赖的语音标准参考模型的语音库中，即将其记录的状态设置为可用状态，具体实施例：整数数据类型记录，数值0为未审、1为审查通过是可用标准参考模型、2为审查不通过。

8、普通用户，进行朗读标准文本的英语测试时，经过个性化语音标准参考模板的设置，即没有经过个性化所述设置时，系统自动弹出或跳转到标准参考模型测试窗口，所述窗口包含数个待被朗读的文本，用户朗读文本提交后，系统对其语音分别和系统中内置的标准参考模型进行打分，将分值较高所采纳的标准参考模型设定到用户默认的测试朗读水平的标准参考模型组。

9、系统内没有英语文本对应的标准参考模型时候，则使用语音引擎或第三方语音api接口，通过pos提交，形成语音文件，再分析计算特征形成标准参考模型。具体实施例：a、服务器系统上安装语音引擎；b、通过 CreateObject("SAPI.SpVoice")方法创建并返回一个对语音引擎对象；c、通过接口函数中的Speak命令将指定的接收到文本转化成语音并播放出来；d、通过录音或数据转化储存语音文件。当然也可以通过百度等第三方提供的文本转语音接口函数来实现语音文件的创建并计算标准参考模型。

10、本发明打分功能采用多标准参考模型比对优化法，即通过程序的内置循环，采用不同的标准参考模型对目标音素及其语音进行观察，并计算出相应的得分，所述得分分别与预设计算的阀值比对筛选出高匹配性的标准参考模型列，并和系统核心标准参考模型进行加权归一综合，获得最终得分，所述英语朗读语音的识别和打分的具体实施例：

步骤1、在系统中设置标准参考模型的种类，其中包含系统平台本身设置的高标准高质量的核心标准参考模型,,,....，由专家用户创立经过系统平台审核通过的一般标准参考模型 , , ,.....等。

步骤2、本发明申请自动评分系统采用了基于音素的对数后验概率评分，即是通过语音特征比对可能存在的概率，是基于隐马尔可夫统计模型的转移概率方法为依据的，已知待评分语音的一组音素观察序列y=( , , ,…..) ,标准参考模型中多组状态序列s = ( , , ,…..),那么模型s产生观察序列y 的概率为 ,解码过程中运用Viterbi算法,将音素对齐后,选择最可能与观察序列y 对应的状态序列S ,由此计算得到基于隐马尔可夫统计模型的对数后验概率的算法：音素在第 i段语音每一帧下的后验概率取对数然后累计叠加就可以得到音素在第 i段语音下的对数后验概率打分计算式：

其中表示音素所对应的第i 段语音的起始时间、Z代表语音中因素总个数、为给定音素 q下观察矢量的概率分布音素总数，这样包含所有音素段语音的对数后验概率的分数均值为：

其中为第k个音素持续的帧数。

步骤3、通过步骤2的算法，将待测评的音素及其语音的特征分别和系统中核心参考模型及通过审核的指定符合要求的专家创建的标准参考模型进行打分运算。并通过程序语音中do .....loop等语法，依次算出最终得分，依据加法平均值乘一个系统设定的阀值系数r,筛选出分值大于阀值的有效的模型基准观察的得分数合格的参考模型列：,,，.......\ , , ，.......。

步骤4、根据上述步骤的运算，对步骤3所得的列依次加权算出最终得分：

其中g、h分别为加权系数，m、n分别为核心标准参考模型、一般标准参考模型的数量，y为被测目标语音，分别为y音素集合在m、n语音模型下被观察并计算出的得分。

客户端程序主要是方便用户找到入口，减轻服务器的计算压力，作为服务功能模块的镜像，从服务器模块中，截取和用户相关的功能，其必要数据从服务器下载和用户相关的数据，分包括设置学员用户模块、专家模块，其实施步骤和创建参照本发明服务器模块的技术方案。

附图说明

图1 为是本发明的基于文本朗读语音打分总体框架，结合图1值得补充说明的是：专家用户同样可以作为一般用户进行英语朗读打分，进行有效的练习和测试。

在本说明书中所述的 “实施例”等，指的是结合该实施例描述的具体特征、要素或者特点包括在本申请概括性描述的实施例中。在说明书中多个地方出现同种表述并非限定特指的是同一个实施例。也就是说，结合任一实施例描述一个具体特征、要素或者特点时，所要主张的是结合其他实施例来实现这种特征、要素或者特点被包含于本发明申请保护的权利要求范围中；实施例是参照本发明逻辑架构及思路的多个解释性实施例对本发明进行了描述，但本发明的保护范围并不局限于此，本领域技术人员在本发明技术方案框架下可以设计出很多其他的修改和实施方式，可以对技术方案的要点变换组合/或布局进行多种非本质性变型和改进，对于本领域技术人员来说，其他的用途也将是明显的，可轻易想到实施的非实质性变化或替换，这些修改和实施方式将落在本申请公开的原则范围和精神之内。

Claims

1.一种开放性针对现有文本创建语音朗读标准参考模型的方法，其特征包含的步骤及要素：

S1.配置服务器及数据库，创建英语语音标准参考模型分类：播音朗读、感情朗读、柔声朗读、颤音朗读……..，创建储存语音标准参考模型分类相关的数据库表格；创建被朗读文本内容、文本分类的类别、与文本对应的标准参考模板等等相关的表格；

S2.设置用户系统，包含普通用户类、专家类、系统管理类等用户系统，并配置相应的诸如用户注册，用户界面、用户管理等关于用户的程序及存储信息的数据库表格；

S3.预先在系统中内置一定数量的标准参考模型，创建各种相关功能：普通用户的用户界面，用户通过录音设备在系统里朗读升级为专家用户的测试内容，并经过系统内置的各种标准参考模型采用多标准参考模型比对优化的方法打分，所有分值在一定数值之上，经提交申请，并经过系统审核后，升级成专家用户;

S4.在专家用户界面，创立编辑标准参考模型的用户界面，设置任务栏并在内容中排序显示可创建语音标准参考模型任务相关的文本，创建各种相关功模块包含：专家通过录音设备或传感器进行朗读，删除、储存等编辑、确认后提交给系统程序进行自动化先期验证，即和系统内置的评分系统进行打分，系统验证通过后触发系统激活专家用户界面上的提交按钮，专家用户确认并提交所述创建的内容给系统管理用户；

S5.系统后台收到专家用户创建并提交的新语音标准参考模型后，进行质量审查，并将审查状态记载到相应创建语音标准参考模型的记录到数据库，供相应的专家用户查看其用户名下提交记录的审批状态，合格的语音标准参考模型通过审核，开放到普通用户进行语音自动化打分所依赖的语音标准参考模型的模型库中，将其记录的状态设置为可用状态。

2.根据权利要求1所述一种开放性针对现有文本创建语音朗读标准参考模型的方法，其特征还包含的步骤及要素：A、对用于计算标准参考模板的语音，把语音转换成二进制数据赋值给VARIANT类型的变量，存放于数据库相对应的表格，方便读取、调用、修改等操作，普通用户进行朗读打分时在其界面上创建配套的调用模块，将分值最高所依赖的标准参考模型对应的语音文件从数据调出，用户点击事件里设置播放该原始语音模块；B、对用户用于练习测试的朗读语音，直接储存于服务器（客户端设备）特定路径的目录下，并在数据库相对于的表格中记录和所述语音相关的信息，诸如用户名，文件路径及名称，日期等。

3.根据权利要求1所述一种开放性针对现有文本创建语音朗读标准参考模型的方法，其特征还包含的步骤及要素：普通用户进行朗读标准文本的英语测试时，经过个性化语音标准参考模板的设置，即没有经过个性化所述设置时，系统自动弹出或跳转到标准参考模型测试窗口，所述窗口包含数个待被朗读的文本，用户朗读文本提交后，系统对其语音特征分别和系统中内置的标准参考模型进行打分，将分值较高所采纳的标准参考模型设定到用户默认的测试朗读水平的标准参考模型组。

4.根据权利要求1所述一种开放性针对现有文本创建语音朗读标准参考模型的方法，其特征还包含的步骤及要素：系统内没有英语文本对应的标准参考模型时候，则使用语音引擎或第三方语音api接口，通过pos提交，形成语音文件，再分析计算特征形成标准参考模型；具体步骤：a、服务器系统上安装语音引擎；b、通过 CreateObject("SAPI.SpVoice")方法创建并返回一个对语音引擎对象；c、通过接口函数中的Speak命令将指定的接收到文本转化成语音并播放出来；d、通过录音或数据转化储存语音文件，或百度等第三方提供的文本转语音接口函数来实现语音文件的创建并计算标准参考模型。

5.一种基于文本内容英语朗读打分多标准参考模型比对优化的方法，其特征包含的步骤及要素：通过程序的内置循环，采用不同的标准参考模型对目标音素及其语音进行观察，并计算出相应的得分，所述分值分别与预设计算的阀值比对筛选出高匹配性的标准参考模型列，并和系统核心标准参考模型进行加权归一化综合，获得最终得分；

步骤1、在系统中设置标准参考模型的种类，其中包含系统平台本身设置的高标准高质量的核心标准参考模型, , ,....，由专家用户创立经过系统平台审核通过的一般标准参考模型 , , ,.....等；

步骤2、已知待评分语音的一组观察序列y=( , , ,…..) ,标准参考模型中多组状态序列s = ( , , ,…..),那么模型s产生观察序列y 的概率为 ,解码过程中运用Viterbi算法,将音素对齐后,选择最可能与观察序列y 对应的状态序列S ,由此计算得到基于隐马尔可夫统计模型的对数后验概率的算法：音素在第 i段语音每一帧下的后验概率取对数然后累计叠加就可以得到音素在第 i段语音下的对数后验概率打分计算公式：

其中为第k个音素持续的帧数；

步骤3、通过步骤2的算法，将待测评的音素及其语音的特征分别和系统中核心参考模型及通过审核的指定符合要求的专家创建的标准参考模型进行打分运算,并通过程序语音中do .....loop等语法，依次算出最终得分，依据加法平均值乘一个系统设定的阀值系数r,筛选出分值大于阀值的有效的模型基准观察的得分数合格的参考模型列： , ,，.......\ , , ，.......；