CN110047466B - 一种开放性创建语音朗读标准参考模型的方法 - Google Patents

一种开放性创建语音朗读标准参考模型的方法 Download PDF

Info

Publication number
CN110047466B
CN110047466B CN201910304950.6A CN201910304950A CN110047466B CN 110047466 B CN110047466 B CN 110047466B CN 201910304950 A CN201910304950 A CN 201910304950A CN 110047466 B CN110047466 B CN 110047466B
Authority
CN
China
Prior art keywords
standard reference
reference model
voice
user
reading standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910304950.6A
Other languages
English (en)
Other versions
CN110047466A (zh
Inventor
邝翠珊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Digital Galaxy Technology Co ltd
Original Assignee
Shenzhen Digital Galaxy Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Digital Galaxy Technology Co ltd filed Critical Shenzhen Digital Galaxy Technology Co ltd
Priority to CN201910304950.6A priority Critical patent/CN110047466B/zh
Publication of CN110047466A publication Critical patent/CN110047466A/zh
Application granted granted Critical
Publication of CN110047466B publication Critical patent/CN110047466B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]

Abstract

本发明是一种开放性创建语音朗读标准参考模型的方法,用户经过程序测试和系统审核成为专家用户,获得开放性创建朗读语音的标准参考模型的权限和操作,从而让特定的英语文本获得多个标准参考模型,用户进行英语朗读时,其语音特征就可以和多个和用户匹配的标准参考模型比对计算分值,通过对分值进行归一优化,减小因用户朗读单个字母、词的语音特性受上下文的影响改变了重音、音调、音量和发音速度等造成的等评分误差。

Description

一种开放性创建语音朗读标准参考模型的方法
技术领域
本发明涉及语音识朗读打分技术领域,尤其涉及一种开放性创建英语朗读打分标准参考模型的方法。
背景技术
现今学术界专家一致认为语音技术是近期信息技术领域十大重要的科技发展技术之一,语音识别的应用领域非常广泛,在英语文本朗读打分上也得到了大量研究和应用,研究出采用对数似然度打分 对数后验概率打分、 段分类打分、段时长打分或其改进算法等打分的技术方案。
现有的英语朗读识别及打分系统,具有代表性的是由卡奈基梅隆大学用Ja v a语言开发的一种大词汇量 、连续的语音识别系统s P h i n x 4 ;, 由它的前端(Fron-tEnd) 、 解码器(Deeoder) 、知识库(Li n即i st)三部分共同实现对, sph i n x 4提供的多个语音朗读标准参考模型 ,使得程序打分和现实专家打分差距明显的缩小,显而易见语音朗读标准参考模型对英语朗读打分的重要性,限定被朗读英语文本的内容,尚可保证一定的准确率,有限数量的语音朗读标准参考模型也难以适应较大范围的英语文本、朗读重音、音调、音量和发音速度多样性变化,英语朗读打分往往会语音朗读标准参考模型样本的影响,造成先验概率值分布不均匀,误差较大,因语音朗读标准参考模型的数量和质量在一定程度上限制了英语语音识别打分的精准程度和英语朗读自动打分练习、测试更为广泛的普及。
发明内容
针对以上背景技术的存在的问题,本发明是一种开放性创建语音朗读标准参考模型的方法,用户经过程序测试和系统审核成为专家用户,获得开放性创建朗读语音的标准参考模型的权限和操作,从而让特定的英语文本获得多个语音朗读标准参考模型,用户进行英语朗读时,系统获取的语音特征就可以和多个和用户匹配的语音朗读标准参考模型比对获得分值,通过对所述分值进行归一优化,减小因用户朗读单个字母、词的语音特性受上下文的影响改变了重音、音调、音量和发音速度等造成的等评分误差,从而满足用户英语语音朗读训练、测评的针对性、个性化要求,提高英语朗读的学习效率,具体实施如下:
出于对系统的稳定性、兼容性、用户体验、成本等方面的的综合考虑,本发明采用服务器程序模块和客户端程序模块。
服务器模块从使用角色上来区分包括设置学员用户模块、专家模块、系统管理用户模块。
1、配置服务器及数据库,创建语音朗读标准参考模型分类:播音朗读、感情朗读、柔声朗读、颤音朗读……,创建储存语音朗读标准参考模型分类相关的数据库表格。
2、在数据库上分别创建用于存储被朗读文本内容、文本分类的类别、与文本对应的标准参考模板等等相关的表格。
3、设置用户系统,包含普通用户类、专家类、系统管理类等用户系统,并配置相应的诸如用户注册,用户界面、用户管理等关于用户的程序及存储信息的数据库表格。
4、对语音文件在系统的存储本发明采用两种:A、对用于计算特征创建标准参考模板的语音使用AppendChunk函数,AppendChunk包含在 Field 对象中,原型为:HRESULTAppendChunk (const _variant_t & Data );把语音转换成二进制数据赋值给VARIANT类型的变量,存放于数据库相对应的表格,方便读取、调用、修改等操作,普通用户进行朗读打分时,在其界面上创建配套的调用模块,将分值最高所用到的语音朗读标准参考模型对应的语音文件从数据库调出,用户点击事件里设置播放所述语音文件模块;B、对用户用于练习测试的朗读语音,直接储存于服务器特定路径的目录下,并在数据库相对应的表格中记录所述语音相关的信息,诸如用户名,文件路径及名称,日期等。
5、预先在系统中内置一定数量的语音朗读标准参考模型,普通用户在用户界面,通过录音设备在系统里朗读升级为专家用户的测试内容,
通过程序的内置循环,采用不同的语音朗读标准参考模型对目标音素及其语音进行观察,并计算出相应的得分,所述得分分别与预设计算的阀值比对筛选出高匹配性的语音朗读标准参考模型列,并和系统核心语音朗读标准参考模型进行加权归一化综合,获得最终得分,所有得分在一定数值之上,经提交申请,并经过系统审核后,升级成专家用户。
6、在专家用户界面,创立编辑语音朗读标准参考模型的用户界面,设置任务栏并在内容中排序显示可创建语音朗读标准参考模型任务相关的文本,创建各种相关功模块包含:专家通过录音设备或传感器进行朗读,删除、储存等编辑、确认后提交给系统程序进行自动化先期验证,即和系统内置的评分系统进行打分,系统验证通过后触发系统激活专家用户界面上的提交按钮,专家用户确认并提交所述创建的内容给系统管理用户。
7、系统后台收到专家用户创建并提交的新语音朗读标准参考模型后,进行质量审查,并将审查状态记载到相应创建语音朗读标准参考模型的记录到数据库,供相应的专家用户查看其用户名下提交记录的审批状态,合格的语音朗读标准参考模型通过审核,开放到普通用户进行语音自动化打分所依赖的语音朗读标准参考模型的语音库中,即将其记录的状态设置为可用状态,具体实施例: 整数数据类型记录,数值0为未审、1为审查通过是可用语音朗读标准参考模型、2为审查不通过。
8、普通用户,进行朗读标准文本的英语测试时,经过个性化语音标准参考模板的设置,即没有经过个性化所述设置时,系统自动弹出或跳转到语音朗读标准参考模型测试窗口,所述窗口包含数个待被朗读的文本,用户朗读文本提交后,系统对其语音分别和系统中内置的语音朗读标准参考模型进行打分,将分值较高所采纳的语音朗读标准参考模型设定到用户默认的测试朗读水平的语音朗读标准参考模型组。
9、系统内没有英语文本对应的语音朗读标准参考模型时候,则使用语音引擎或第三方语音api接口,通过pos提交 ,形成语音文件,再分析计算特征形成语音朗读标准参考模型。具体实施例:a、服务器系统上安装语音引擎;b、通过CreateObject("SAPI.SpVoice")方法创建并返回一个对语音引擎对象;c、通过接口函数中的Speak命令将指定的接收到文本转化成语音并播放出来;d、通过录音或数据转化储存语音文件。当然也可以通过百度等第三方提供的文本转语音接口函数来实现语音文件的创建并计算语音朗读标准参考模型。
10、本发明打分功能采用多语音朗读标准参考模型比对优化法,即通过程序的内置循环,采用不同的语音朗读标准参考模型对目标音素及其语音进行观察,并计算出相应的得分,所述得分分别与预设计算的阀值比对筛选出高匹配性的语音朗读标准参考模型列,并和系统核心语音朗读标准参考模型进行加权归一综合,获得最终得分,所述英语朗读语音的识别和打分的具体实施例:
步骤1、在系统中设置语音朗读标准参考模型的种类,其中包含系统核心语音朗读标准参考模型
Figure DEST_PATH_DEST_PATH_IMAGE001
,
Figure DEST_PATH_DEST_PATH_IMAGE002
,
Figure DEST_PATH_DEST_PATH_IMAGE003
,....,由专家用户创立经过系统平台审核通过的语音朗读标准参考模型
Figure DEST_PATH_DEST_PATH_IMAGE004
,
Figure DEST_PATH_DEST_PATH_IMAGE005
,
Figure DEST_PATH_DEST_PATH_IMAGE006
,.....等。
步骤2、本发明申请自动评分系统采用了基于音素的对数后验概率评分,即是通过语音特征比对可能存在的概率,是基于隐马尔可夫统计模型的转移概率方法为依据的,已知待评分语音的一组音素观察序列y=(
Figure DEST_PATH_DEST_PATH_IMAGE007
,
Figure DEST_PATH_DEST_PATH_IMAGE008
,
Figure DEST_PATH_DEST_PATH_IMAGE009
,…
Figure DEST_PATH_DEST_PATH_IMAGE010
) ,语音朗读标准参考模型中多组状态序列s = (
Figure DEST_PATH_DEST_PATH_IMAGE011
,
Figure DEST_PATH_DEST_PATH_IMAGE012
,
Figure DEST_PATH_DEST_PATH_IMAGE013
,…
Figure DEST_PATH_DEST_PATH_IMAGE014
),那么模型s产生观察序列y 的概率为
Figure DEST_PATH_DEST_PATH_IMAGE015
,解码过程中运用Viterbi算法,将音素对齐后,选择最可能与观察序列y 对应的状态序列S ,由此计算得到对数后验概率的算法:音素
Figure DEST_PATH_DEST_PATH_IMAGE016
在第 i段语音每一帧下的后验概率取对数 然后累计叠加 就可以得到音素
Figure DEST_PATH_496993DEST_PATH_IMAGE016
在第 i段语音下的对数后验概率打分计算式:
Figure DEST_PATH_DEST_PATH_IMAGE017
其中
Figure DEST_PATH_DEST_PATH_IMAGE018
表示音素
Figure DEST_PATH_931517DEST_PATH_IMAGE016
所对应的第i 段语音的起始时间、Z代表语音中音素总个数、
Figure DEST_PATH_DEST_PATH_IMAGE019
为给定音素 q下观察矢量
Figure DEST_PATH_DEST_PATH_IMAGE020
的概率分布音素总数,这样包含所有音素段语音的对数后验概率的分数均值为:
Figure DEST_PATH_DEST_PATH_IMAGE021
其中
Figure DEST_PATH_DEST_PATH_IMAGE022
为第k个音素持续的帧数。
步骤3、通过步骤2的算法,将待测评的音素及其语音的特征分别和系统核心语音朗读标准参考模型及由专家用户创立经过系统平台审核通过的语音朗读标准参考模型进行打分运算。并通过程序语法中do .....loop等语法,依次算出最终得分,依据加法平均值乘一个系统设定的阀值系数r,筛选出分值大于阀值的有效的模型基准观察的得分数合格的参考模型列:
Figure DEST_PATH_DEST_PATH_IMAGE023
,
Figure DEST_PATH_DEST_PATH_IMAGE024
,
Figure DEST_PATH_DEST_PATH_IMAGE025
,.......\
Figure DEST_PATH_DEST_PATH_IMAGE026
,
Figure DEST_PATH_DEST_PATH_IMAGE027
,
Figure DEST_PATH_DEST_PATH_IMAGE028
,.......。
步骤4、根据上述步骤的运算,对步骤3所得的列依次加权算出最终得分:
Figure DEST_PATH_DEST_PATH_IMAGE029
其中g、h分别为加权系数,m、n分别为系统核心语音朗读标准参考模型、由专家用户创立经过系统平台审核通过的语音朗读标准参考模型,y为被测目标语音,
Figure DEST_PATH_DEST_PATH_IMAGE030
分别为y音素集合在m、n语音模型下被观察并计算出的得分。
客户端程序主要是方便用户找到入口,减轻服务器的计算压力,作为服务功能模块的镜像,从服务器模块中,截取和用户相关的功能,其必要数据从服务器下载和用户相关的数据,分包括设置学员用户模块、专家模块,其实施步骤和创建参照本发明服务器模块的技术方案。
附图说明
图1 为是本发明的基于文本朗读语音打分总体框架,结合图1值得补充说明的是:专家用户同样可以作为一般用户进行英语朗读打分,进行有效的练习和测试。
在本说明书中所述的 “实施例”等,指的是结合该实施例描述的具体特征、要素或者特点包括在本申请概括性描述的实施例中。在说明书中多个地方出现同种表述并非限定特指的是同一个实施例。也就是说,结合任一实施例描述一个具体特征、要素或者特点时,所要主张的是结合其他实施例来实现这种特征、要素或者特点被包含于本发明申请保护的权利要求范围中; 实施例是参照本发明逻辑架构及思路的多个解释性实施例对本发明进行了描述,但本发明的保护范围并不局限于此,本领域技术人员在本发明技术方案框架下可以设计出很多其他的修改和实施方式,可以对技术方案的要点变换组合/或布局进行多种非本质性变型和改进,对于本领域技术人员来说,其他的用途也将是明显的,可轻易想到实施的非实质性变化或替换,这些修改和实施方式将落在本申请公开的原则范围和精神之内。

Claims (5)

1.一种开放性针对现有文本创建语音朗读标准参考模型的方法,其特征包含的步骤及要素:
S1.配置服务器及数据库,创建语音朗读标准参考模型分类:播音朗读、感情朗读、柔声朗读、颤音朗读……,创建储存语音朗读标准参考模型分类相关的数据库表格;创建被朗读文本内容、文本分类的类别、与文本对应的语音朗读标准参考模型等等相关的表格;
S2.设置用户系统,包含普通用户类、专家类、系统管理类等用户系统,并配置相应的诸如用户注册、用户界面、用户管理等关于用户的程序及存储信息的数据库表格;
S3.预先在系统中内置一定数量的语音朗读标准参考模型,创建各种相关功能:普通用户的用户界面,用户通过录音设备在系统里朗读升级为专家用户的测试内容,通过程序的内置循环,采用不同的语音朗读标准参考模型对目标音素及其语音进行观察,并计算出相应的得分,所述得分分别与预设计算的阀值比对筛选出高匹配性的语音朗读标准参考模型列,并和系统核心语音朗读标准参考模型进行加权归一化综合,获得最终得分,所有得分在一定数值之上,经提交申请,并经过系统审核后,升级成专家用户;
S4.在专家用户界面,创立编辑语音朗读标准参考模型的用户界面,设置任务栏并在内容中排序显示可创建语音朗读标准参考模型任务相关的文本,创建各种相关功模块包含:专家通过录音设备或传感器进行朗读,删除、储存等编辑、确认后提交给系统程序进行自动化先期验证,即和系统内置的评分系统进行打分,系统验证通过后触发系统激活专家用户界面上的提交按钮,专家用户确认并提交所述创建的内容给系统管理用户;
S5.系统后台收到专家用户创建并提交的新语音朗读标准参考模型后,进行质量审查,并将审查状态记载到相应创建语音朗读标准参考模型的记录到数据库,供相应的专家用户查看其用户名下提交记录的审批状态,合格的语音朗读标准参考模型通过审核,开放到普通用户进行语音自动化打分所依赖的语音朗读标准参考模型的模型库中,将其记录的状态设置为可用状态。
2.根据权利要求1所述一种开放性针对现有文本创建语音朗读标准参考模型的方法,其特征还包含的步骤及要素:A、对用于计算语音朗读标准参考模型的语音,把语音转换成二进制数据赋值给VARIANT类型的变量,存放于数据库相对应的表格,方便读取、调用、修改等操作,普通用户进行朗读打分时在其界面上创建配套的调用模块,将分值最高所依赖的语音朗读标准参考模型对应的语音文件从数据库调出,用户点击事件里设置播放所述语音文件的模块;B、对用户用于练习测试的朗读语音,直接储存于服务器特定路径的目录下,并在数据库相对应的表格中记录所述语音相关的信息,诸如用户名,文件路径及名称,日期。
3.根据权利要求1所述一种开放性针对现有文本创建语音朗读标准参考模型的方法,其特征还包含的步骤及要素:普通用户进行朗读标准文本的英语测试时,经过个性化语音朗读标准参考模型的设置,即没有经过个性化所述设置时,系统自动弹出或跳转到语音朗读标准参考模型测试窗口,所述窗口包含数个待被朗读的文本,用户朗读文本提交后,系统对其语音特征分别和系统中内置的语音朗读标准参考模型进行打分,将分值较高所采纳的语音朗读标准参考模型设定到用户默认的测试朗读水平的语音朗读标准参考模型组。
4.根据权利要求1所述一种开放性针对现有文本创建语音朗读标准参考模型的方法,其特征还包含的步骤及要素:系统内没有英语文本对应的语音朗读标准参考模型时候,则使用语音引擎或第三方语音api接口,通过pos提交,形成语音文件,再分析计算特征形成语音朗读标准参考模型。
5.根据权利要求1所述一种开放性针对现有文本创建语音朗读标准参考模型的方法,其特征包含的步骤及要素:基于权利要求1的S5步骤中普通用户进行语音自动化打分,采用一种基于文本内容英语朗读打分多语音朗读标准参考模型比对优化的方法:
步骤1、在系统中设置语音朗读标准参考模型的种类,其中包含系统核心语音朗读标准参考模型
Figure 530984DEST_PATH_IMAGE001
,
Figure 988510DEST_PATH_IMAGE002
,
Figure 865200DEST_PATH_IMAGE003
,....,由专家用户创立经过系统平台审核通过的语音朗读标准参考模型
Figure 422083DEST_PATH_IMAGE004
,
Figure 17012DEST_PATH_IMAGE005
,
Figure 779694DEST_PATH_IMAGE006
,.....等;
步骤2、已知待评分语音的一组观察序列y=(
Figure 651835DEST_PATH_IMAGE007
,
Figure 973095DEST_PATH_IMAGE008
,
Figure 320900DEST_PATH_IMAGE009
,…
Figure 526753DEST_PATH_IMAGE010
) ,语音朗读标准参考模型中多组状态序列s = (
Figure 378035DEST_PATH_IMAGE011
,
Figure 637240DEST_PATH_IMAGE012
,
Figure 82128DEST_PATH_IMAGE013
,…
Figure 216306DEST_PATH_IMAGE014
),那么模型s产生观察序列y 的概率为
Figure 328618DEST_PATH_IMAGE015
,解码过程中运用Viterbi算法,将音素对齐后,选择最可能与观察序列y 对应的状态序列S ,由此得到对数后验概率的算法:音素
Figure 991681DEST_PATH_IMAGE016
在第 i段语音每一帧下的后验概率取对数然后累计叠加就可以得到音素
Figure 48498DEST_PATH_IMAGE016
在第 i段语音下的对数后验概率打分计算公式:
Figure 596154DEST_PATH_IMAGE017
其中
Figure 189072DEST_PATH_IMAGE018
表示音素
Figure 163981DEST_PATH_IMAGE016
所对应的第i 段语音的起始时间、Z代表语音中音素总个数、
Figure 708095DEST_PATH_IMAGE019
为给定音素 q下观察矢量
Figure 184076DEST_PATH_IMAGE020
的概率分布音素总数,这样包含所有音素段语音的对数后验概率的分数均值为:
Figure 739822DEST_PATH_IMAGE021
其中
Figure 275846DEST_PATH_IMAGE022
为第k个音素持续的帧数;
步骤3、通过步骤2的算法,将待测评的音素及其语音的特征分别和系统核心语音朗读标准参考模型及由专家用户创立经过系统平台审核通过的语音朗读标准参考模型进行打分运算,并通过程序依次算出最终得分,依据加法平均值乘一个系统设定的阀值系数r,筛选出分值大于阀值的有效的模型基准观察的得分数合格的参考模型列:
Figure 182622DEST_PATH_IMAGE023
,
Figure 444319DEST_PATH_IMAGE024
,
Figure 510364DEST_PATH_IMAGE025
,.......\
Figure 827075DEST_PATH_IMAGE026
,
Figure 345781DEST_PATH_IMAGE027
,
Figure 38931DEST_PATH_IMAGE028
,.......;
步骤4、根据上述步骤的运算,对步骤3所得的列依次加权算出最终得分:
Figure 428324DEST_PATH_IMAGE029
其中g、h分别为加权系数,m、n分别为系统核心语音朗读标准参考模型、由专家用户创立经过系统平台审核通过的语音朗读标准参考模型的数量,y为被测目标语音,
Figure 542036DEST_PATH_IMAGE030
分别为y音素集合在m、n语音模型下被观察并计算出的得分。
CN201910304950.6A 2019-04-16 2019-04-16 一种开放性创建语音朗读标准参考模型的方法 Active CN110047466B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910304950.6A CN110047466B (zh) 2019-04-16 2019-04-16 一种开放性创建语音朗读标准参考模型的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910304950.6A CN110047466B (zh) 2019-04-16 2019-04-16 一种开放性创建语音朗读标准参考模型的方法

Publications (2)

Publication Number Publication Date
CN110047466A CN110047466A (zh) 2019-07-23
CN110047466B true CN110047466B (zh) 2021-04-13

Family

ID=67277507

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910304950.6A Active CN110047466B (zh) 2019-04-16 2019-04-16 一种开放性创建语音朗读标准参考模型的方法

Country Status (1)

Country Link
CN (1) CN110047466B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110442872B (zh) * 2019-08-06 2022-12-16 鼎富智能科技有限公司 一种文本要素完整性审核方法及装置
CN111326177B (zh) * 2020-02-10 2023-03-28 北京声智科技有限公司 一种语音评测方法、电子设备及计算机可读存储介质
CN111739527B (zh) * 2020-06-01 2023-06-27 广东小天才科技有限公司 语音识别方法及电子设备、计算机可读存储介质
CN113053409B (zh) * 2021-03-12 2024-04-12 科大讯飞股份有限公司 音频测评方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0595541A1 (en) * 1992-10-30 1994-05-04 AT&T Corp. Speech recognition system
CN101739868A (zh) * 2008-11-19 2010-06-16 中国科学院自动化研究所 一种用于口语测试的文本朗读水平自动评估诊断方法
CN102103857A (zh) * 2009-12-21 2011-06-22 盛大计算机(上海)有限公司 演唱打分系统
CN103985391A (zh) * 2014-04-16 2014-08-13 柳超 无需标准读音的音素级的低功耗口语评价及缺陷诊断方法
CN106611048A (zh) * 2016-12-20 2017-05-03 李坤 一种具有在线语音测评及语音交互功能的语言学习系统
US9786300B2 (en) * 2006-02-28 2017-10-10 Avaya, Inc. Single-sided speech quality measurement
CN107945788A (zh) * 2017-11-27 2018-04-20 桂林电子科技大学 一种文本相关的英语口语发音错误检测与质量评分方法
US10147428B1 (en) * 2018-05-30 2018-12-04 Green Key Technologies Llc Computer systems exhibiting improved computer speed and transcription accuracy of automatic speech transcription (AST) based on a multiple speech-to-text engines and methods of use thereof

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0595541A1 (en) * 1992-10-30 1994-05-04 AT&T Corp. Speech recognition system
US9786300B2 (en) * 2006-02-28 2017-10-10 Avaya, Inc. Single-sided speech quality measurement
CN101739868A (zh) * 2008-11-19 2010-06-16 中国科学院自动化研究所 一种用于口语测试的文本朗读水平自动评估诊断方法
CN102103857A (zh) * 2009-12-21 2011-06-22 盛大计算机(上海)有限公司 演唱打分系统
CN103985391A (zh) * 2014-04-16 2014-08-13 柳超 无需标准读音的音素级的低功耗口语评价及缺陷诊断方法
CN106611048A (zh) * 2016-12-20 2017-05-03 李坤 一种具有在线语音测评及语音交互功能的语言学习系统
CN107945788A (zh) * 2017-11-27 2018-04-20 桂林电子科技大学 一种文本相关的英语口语发音错误检测与质量评分方法
US10147428B1 (en) * 2018-05-30 2018-12-04 Green Key Technologies Llc Computer systems exhibiting improved computer speed and transcription accuracy of automatic speech transcription (AST) based on a multiple speech-to-text engines and methods of use thereof

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"application reference models and building blocks for management and control";Michael Rosemann;《handbook on enterprise architecture》;20031231;全文 *
"基于Speech SDK开发中英文混合朗读程序";曾爱国;《计算机与信息技术》;20081231;全文 *

Also Published As

Publication number Publication date
CN110047466A (zh) 2019-07-23

Similar Documents

Publication Publication Date Title
CN110047466B (zh) 一种开放性创建语音朗读标准参考模型的方法
CN112017644B (zh) 一种声音变换系统、方法及应用
US9177558B2 (en) Systems and methods for assessment of non-native spontaneous speech
Shobaki et al. The OGI kids’ speech corpus and recognizers
US6366883B1 (en) Concatenation of speech segments by use of a speech synthesizer
Kawahara et al. Benchmark test for speech recognition using the Corpus of Spontaneous Japanese
US6389395B1 (en) System and method for generating a phonetic baseform for a word and using the generated baseform for speech recognition
CN110148427A (zh) 音频处理方法、装置、系统、存储介质、终端及服务器
CN101105939B (zh) 发音指导方法
Hazen Automatic language identification using a segment-based approach
CN111402862B (zh) 语音识别方法、装置、存储介质及设备
CN106935239A (zh) 一种发音词典的构建方法及装置
Anguera et al. Audio-to-text alignment for speech recognition with very limited resources.
Lööf et al. Cross-language bootstrapping for unsupervised acoustic model training: Rapid development of a Polish speech recognition system
Keshet Automatic speech recognition: A primer for speech-language pathology researchers
KR20020067870A (ko) 음성인식 기술을 이용한 영어 발음 학습 방법 및 시스템
Chen et al. Automatic pronunciation assessment for Mandarin Chinese
Martinčić-Ipšić et al. Croatian large vocabulary automatic speech recognition
GB2313530A (en) Speech Synthesizer
Rahim et al. Robust numeric recognition in spoken language dialogue
Sigurgeirsson et al. Manual speech synthesis data acquisition-from script design to recording speech
JP2021085943A (ja) 音声合成装置及びプログラム
Oyo et al. A preliminary speech learning tool for improvement of African English accents
Dutta et al. A comparison of three spectral features for phone recognition in sub-optimal environments
KR102274764B1 (ko) 통계정보를 제공하는 사용자 맞춤형 발음 평가 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant