CN117393002A - 基于人工智能的朗读质量测评方法及相关装置 - Google Patents
基于人工智能的朗读质量测评方法及相关装置 Download PDFInfo
- Publication number
- CN117393002A CN117393002A CN202311689472.8A CN202311689472A CN117393002A CN 117393002 A CN117393002 A CN 117393002A CN 202311689472 A CN202311689472 A CN 202311689472A CN 117393002 A CN117393002 A CN 117393002A
- Authority
- CN
- China
- Prior art keywords
- comment data
- tested
- recognition
- calibration
- frame group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001303 quality assessment method Methods 0.000 title claims abstract description 31
- 238000013473 artificial intelligence Methods 0.000 title claims description 32
- 238000000034 method Methods 0.000 claims abstract description 37
- 238000004458 analytical method Methods 0.000 claims description 30
- 239000011159 matrix material Substances 0.000 claims description 28
- 239000013598 vector Substances 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 14
- 238000009432 framing Methods 0.000 claims description 11
- 238000013519 translation Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 8
- 238000013441 quality evaluation Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 6
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B19/00—Teaching not covered by other main groups of this subclass
- G09B19/06—Foreign languages
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Electrically Operated Instructional Devices (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及语音分析技术领域,提供了基于人工智能的朗读质量测评方法及相关装置,该方法包括对待测评语音数据进行发音测评和语音特征测评,采用该方法能够实现对待测评语音数据的全面测评,提高朗读质量测评的精度,进而提高外语学习者的学习体验。
Description
技术领域
本申请涉及语音分析技术领域,尤其涉及一种基于人工智能的朗读质量测评方法及相关装置。
背景技术
在学习外语时,进行朗读质量的测评是一个重要环节,朗读质量测评的准确性对于学习者提高外语水平至关重要,而现有的朗读质量测评方法通常是首先对朗读数据进行语音识别,得到朗读数据的识别文本,然后将识别文本与朗读数据对应的标准识别文本进行比较,来实现对朗读数据的质量进行测评,这种朗读质量测评方法过于片面,只考虑了用户在学习外语过程中的发音是否准确。
发明内容
本申请提供一种基于人工智能的朗读质量测评方法及相关装置,以解决上述背景技术中提到的问题。
第一方面,本申请提供一种基于人工智能的朗读质量测评方法,包括:
获取待测评语音数据,并将所述待测评语音数据输入预设的语音分析模型,得到所述待测评语音数据的识别文本集;其中,所述识别文本集包括多个识别文本,各个所述识别文本对应的语言类型互不相同;
基于所述识别文本集对所述待测评语音数据进行分析,得到所述待测评语音数据的第一评分值和第一校准信息;
在预设的标准语音数据库中获取与所述待测评语音数据匹配的标准语音数据;
通过预设的时间窗口分别对所述待测评语音数据和所述标准语音数据进行分帧操作,得到第一帧组序列和第二帧组序列;
对所述第一帧组序列和所述第二帧组序列进行分析,得到所述待测评语音数据的第二评分值和第二校准信息;
基于所述第一评分值、所述第一校准信息、所述第二评分值和所述第二校准信息生成所述待测评语音数据的评分表,并将所述评分表发送至用户的终端设备。
第二方面,本申请提供一种基于人工智能的朗读质量测评装置,包括:
第一获取模块,用于获取待测评语音数据,并将所述待测评语音数据输入预设的语音分析模型,得到所述待测评语音数据的识别文本集;其中,所述识别文本集包括多个识别文本,各个所述识别文本对应的语言类型互不相同;
第一分析模块,用于基于所述识别文本集对所述待测评语音数据进行分析,得到所述待测评语音数据的第一评分值和第一校准信息;
第二获取模块,用于在预设的标准语音数据库中获取与所述待测评语音数据匹配的标准语音数据;
分帧模块,用于通过预设的时间窗口分别对所述待测评语音数据和所述标准语音数据进行分帧操作,得到第一帧组序列和第二帧组序列;
第二分析模块,用于对所述第一帧组序列和所述第二帧组序列进行分析,得到所述待测评语音数据的第二评分值和第二校准信息;
生成模块,用于基于所述第一评分值、所述第一校准信息、所述第二评分值和所述第二校准信息生成所述待测评语音数据的评分表,并将所述评分表发送至用户的终端设备。
第三方面,本申请提供一种终端设备,所述终端设备包括处理器、存储器以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中,所述计算机程序被所述处理器执行时,实现如上所述的基于人工智能的朗读质量测评方法。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其中,所述计算机程序被处理器执行时,实现如上所述的基于人工智能的朗读质量测评方法。
本申请提供了基于人工智能的朗读质量测评方法及相关装置,其中,所述方法包括获取待测评语音数据,并将所述待测评语音数据输入预设的语音分析模型,得到所述待测评语音数据的识别文本集;其中,所述识别文本集包括多个识别文本,各个所述识别文本对应的语言类型互不相同;基于所述识别文本集对所述待测评语音数据进行分析,得到所述待测评语音数据的第一评分值和第一校准信息;在预设的标准语音数据库中获取与所述待测评语音数据匹配的标准语音数据;通过预设的时间窗口分别对所述待测评语音数据和所述标准语音数据进行分帧操作,得到第一帧组序列和第二帧组序列;对所述第一帧组序列和所述第二帧组序列进行分析,得到所述待测评语音数据的第二评分值和第二校准信息;基于所述第一评分值、所述第一校准信息、所述第二评分值和所述第二校准信息生成所述待测评语音数据的评分表,并将所述评分表发送至用户的终端设备。该方法能够实现对所述待测评语音数据的全面测评,提高了朗读质量测评的精度,进而提高外语学习者的学习体验。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的基于人工智能的朗读质量测评方法的流程示意图;
图2为本申请实施例提供的基于人工智能的朗读质量测评装置的结构示意性框图;
图3为本申请实施例提供的终端设备的结构示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
在学习外语时,进行朗读质量的测评是一个重要环节,朗读质量测评的准确性对于学习者提高外语水平至关重要,而现有的朗读质量测评方法通常是首先对朗读数据进行语音识别,得到朗读数据的识别文本,然后将识别文本与朗读数据对应的标准识别文本进行比较,来实现对朗读数据的质量进行测评,这种朗读质量测评方法过于片面,只考虑了用户在学习外语过程中的发音是否准确。为此,本申请实施例提供一种基于人工智能的朗读质量测评方法及相关装置,以解决上述问题。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述实施例及实施例中的特征可以相互结合。
请参阅图1,图1为本申请实施例提供的基于人工智能的朗读质量测评方法的流程示意图,如图1所示,本申请实施例提供的基于人工智能的朗读质量测评方法包括步骤S100至步骤600。
步骤S100、获取待测评语音数据,并将所述待测评语音数据输入预设的语音分析模型,得到所述待测评语音数据的识别文本集;其中,所述识别文本集包括多个识别文本,各个所述识别文本对应的语言类型互不相同。
其中,所述语音分析模型包括语音识别模块和语音翻译模块,所述语音识别模块包括第一输入层、第一特征提取层、第一音素识别层、第一语义分析层、第一文本生成层和第一输出层,所述第一输入层用于接收所述待测评语音数据,所述第一特征提取层用于提取所述待测评语音数据的第一特征,所述第一音素识别层用于基于所述第一特征获取所述待测评语音数据的第一音素序列,所述第一语义分析层用于基于所述第一音素序列生成所述待测评语音数据的第一语义信息,所述第一文本生成层用于基于所述第一语义信息生成所述待测评语音数据的第一文本,所述第一输出层用于输出所述第一文本,所述语音翻译模块包括第二输入层、第二特征提取层、第二音素识别层、语义翻译层、第二文本生成层和第二输出层,所述第二输入层用于接收所述待测评语音数据,所述第二特征提取层用于提取所述待测评语音数据的第二特征,所述第二音素识别层用于基于所述第二特征获取所述待测评语音数据的第二音素序列,所述语义翻译层用于基于所述第二音素序列对所述待测评语音数据进行翻译,得到所述待测评语音数据翻译后的第二语义信息,所述第二文本生成层用于基于所述第二语义信息生成所述待测评语音数据的第二文本,所述第二输出层用于输出所述第二文本。
需要说明的是,所述语音识别模块为一个,所述语音翻译模块可以为一个或多个,当所述语音翻译模块的个数为多个时,各个所述语音翻译模块对应的语言类型互不相同,可以理解地,所述第一文本为所述待测评语音数据对应的语言类型的文本,所述第二文本为将所述待测评语音数据对应的语言类型翻译为其它类型的语言时对应的文本。
步骤S200、基于所述识别文本集对所述待测评语音数据进行分析,得到所述待测评语音数据的第一评分值和第一校准信息。
其中,所述第一校准信息为对外语学习者的发音进行校准的信息。
需要说明的是,步骤S200包括步骤S210至步骤S240。
步骤S210、在预设的标准识别文本数据库中获取与所述识别文本集匹配的标准识别文本集。
需要说明的是,在预设的标准识别文本数据库中获取与所述识别文本集匹配的标准识别文本集时,首先在用户的终端设备的显示屏上获取所述待测评语音数据对应的标准文本,然后基于所述标准文本在预设的标准识别文本数据库中获取与所述标准文本匹配的标准识别文本集。可以理解地,所述标准识别文本集中的文本个数与所述识别文本集中的文本个数相同,所述标准识别文本集中的文本的语言类型与所述识别文本集中的文本的语言类型相同。
步骤S220、针对所述识别文本集中的每个识别文本,在所述标准识别文本集中确定与所述识别文本匹配的标准识别文本,并获取所述识别文本与所述标准识别文本之间的第一相似度,及基于所述识别文本和所述标准识别文本确定所述待测评语音数据的第一校准序列;其中,所述第一校准序列包括多个第一校准点。
可以理解地,针对任一所述识别文本,在所述标准识别文本集中,与所述识别文本匹配的标准识别文本的语言类型与所述识别文本的语言类型相同。
可以理解地,所述第一校准点为在所述待测评朗读数据对应的标准文本中,需要进行发音校准的文字。
需要说明的是,基于所述识别文本和所述标准识别文本确定所述待测评语音数据的第一校准序列是将所述识别文本中的文字和所述标准识别文本中的文字逐一进行对照,以确定所述识别文本中的异常文字,并在所述标准识别文本中对所述异常文字对应的标准文字进行标注,得到所述第一校准序列。
步骤S230、基于所有所述第一相似度生成所述第一评分值。
需要说明的是,基于所有所述第一相似度生成所述第一评分值时,首先计算所有所述相似度的平均相似度,然后在预设的平均相似度-第一评分值关系表中获取所述平均相似度对应的所述第一评分值。可以理解地,所述平均相似度越大,所述第一评分值也越大。
步骤S240、基于所有所述第一校准序列生成所述第一校准信息。
需要说明的是,基于所有所述第一校准序列生成所述第一校准信息时,首先在所有所述第一校准序列中删除重复的所述第一校准点,然后将剩余的所述第一校准点进行整合,得到所述第一校准信息。
可以理解地,步骤S100至步骤S200是对所述待测评语音数据的发音进行测评的过程,由于步骤S100至步骤S200在对所述待测评语音数据的发音进行测评时,不仅对所述待测评语音数据进行了语音识别,而且对所述待识别语音数据进行了翻译,并根据对所述待测评语音数据的识别结果和对所述待测评语音数据的翻译结果对所述待测评语音数据的发音进行测评,因此,与仅仅对所述待测评语音数据进行语音识别的方法来对所述待测评语音数据进行发音测评的方法相比,采用步骤S100至步骤200的方法对所述待测评语音数据进行发音测评时,得到的测评结果更加精确。
步骤S300、在预设的标准语音数据库中获取与所述待测评语音数据匹配的标准语音数据。
需要说明的是,在预设的标准语音数据库中获取与所述待测评语音数据匹配的标准语音数据时,首先在用户的终端设备的显示屏上获取所述待测评语音数据对应的标准文本,然后基于所述标准文本在预设的标准语音数据库中获取与所述待测评语音数据匹配的标准语音数据。
步骤S400、通过预设的时间窗口分别对所述待测评语音数据和所述标准语音数据进行分帧操作,得到第一帧组序列和第二帧组序列。
其中,所述第一帧组序列包括多个第一帧组,所述第二帧组序列包括多个第二帧组。
步骤S500、对所述第一帧组序列和所述第二帧组序列进行分析,得到所述待测评语音数据的第二评分值和第二校准信息。
需要说明的是,步骤S500包括步骤S510至步骤S560。
步骤S510、针对所述第一帧组序列的每个第一帧组,对所述第一帧组进行声学特征分析,得到所述第一帧组对应的第一声学特征向量;其中,所述第一声学特征向量包括但不限于第一基频值、第一能量值和第一共振峰。
其中,获取所述第一基频值的方法包括但不限于自相关法、互相关法和基于变换的方法,获取所述第一能量值的方法是计算第一帧组的音频信号的振幅平方和,获取所述第一共振峰的方法包括但不限于线性预测编码(LPC)分析法和倒谱法。
步骤S520、基于各个所述第一声学特征向量对应的所述第一帧组在所述第一帧组序列中的排序,将各个所述第一声学特征向量由上往下依次排列,得到第一特征矩阵。
步骤S530、针对所述第二帧组序列的每个第二帧组,对所述第二帧组进行声学特征分析,得到所述第二帧组对应的第二声学特征向量;其中,所述第二声学特征向量包括第二基频值、第二能量值和第二共振峰。
其中,获取所述第二基频值的方法包括但不限于自相关法、互相关法和基于变换的方法,获取所述第二能量值的方法是计算第二帧组的音频信号的振幅平方和,获取所述第二共振峰的方法包括但不限于线性预测编码(LPC)分析法和倒谱法。
步骤S540、基于各个所述第二声学特征向量对应的所述第二帧组在所述第二帧组序列中的排序,将各个所述第二声学特征向量由上往下依次排列,得到第二特征矩阵。
步骤S550、获取所述第一特征矩阵和所述第二特征矩阵的第二相似度,并基于所述第二相似度生成所述第二评分值。
可以理解地,所述第二相似度越大,所述第二评分值也越大。
步骤S560、基于所述第一特征矩阵和所述第二特征矩阵生成所述第二校准信息。
可以理解地,步骤S300至步骤S500是对所述待测评语音数据的语音特征(如:语速、语调、语气、流利度和音高)进行测评的方法。
步骤S600、基于所述第一评分值、所述第一校准信息、所述第二评分值和所述第二校准信息生成所述待测评语音数据的评分表,并将所述评分表发送至用户的终端设备。
可以理解地,所述评分表包括对所述待测评语音数据进行测评时给出的目标评分值和校准信息,所述目标评分值可以为所述第一评分值和所述第二评分值之和,所述标准信息包括第一校准信息和第二校准信息,所述第一校准信息为发音校准信息,所述第二校准信息为语音特征的校准信息。
本实施例提供的基于人工智能的朗读质量测评方法,不但对所述待测评语音数据的发音质量进行测评,而且对所述待测评语音数据的语音特征进行了测评,与传统的语音测评方法相比,该方法能够实现对所述待测评语音数据的全面测评,提高了朗读质量测评的精度,进而提高外语学习者的学习体验。
在一些实施例中,在将所述待测评语音数据输入预设的语音分析模型之前,所述方法还包括以下步骤:
采用Symlet小波函数对所述待测评语音数据进行小波变换,得到与所述待测评语音数据匹配的小波系数集;
获取与所述待测评语音数据匹配的小波系数阈值,并针对所述小波系数集内的每个小波系数,将所述小波系数与所述小波系数阈值进行比较,并在所述小波系数小于所述小波系数阈值时,将所述小波系数设为零,得到目标小波系数集;
基于所述目标小波系数集进行小波逆转换,以去除所述待测评语音数据的噪音。
其中,所述小波系数阈值可以根据噪音的去除精度人为设置。
该实施例提供的方法在将所述待测评语音数据输入预设的语音分析模型之前,去除所述待测评语音数据中的噪音,这有助于进一步提高朗读质量的测评精度。
在一些实施例中,步骤S560基于所述第一特征矩阵和所述第二特征矩阵生成所述第二校准信息,包括步骤S561至步骤S563。
步骤S561、基于所述第一特征矩阵和所述第二特征矩阵生成第二校准序列;其中,所述第二校准序列包括多个第二校准点。
需要说明的是,基于所述第一特征矩阵和所述第二特征矩阵生成第二校准序列的方法是,首先针对所述第一特征矩阵中的每个所述第一声学特征向量,在所述第二特征矩阵中提取与所述第一声学特征向量对应的第二声学特征向量,并分析所述第一声学特征向量与所述第二声学特征向量是否一致,若所述第一声学特征向量与所述第二声学特征向量不一致,将所述第二声学特征向量在所述待测评语音数据的标准文本中对应的文字确定为第二校准点,然后基于每个所述第二校准点在所述待测评语音数据的标准文本中的先后顺序将所有所述第二校准点进行排列,得到所述第二校准序列。
可以理解地,所述第二校准点是在所述待测评语音数据的标准文本中需要进行语音特征校准的文字,语音特征校准包括但不限于提高或降低语速、提高或降低声音的响度、利用降调或升调。
步骤S562、针对所述第二校准序列中的每个第二校准点,基于所述第一特征矩阵获取所述第二校准点对应的第一基频值、第一能量值和第一共振峰,并基于所述第二特征矩阵获取所述第二校准点对应的第二基频值、第二能量值和第二共振峰,及基于所述第二校准点对应的第一基频值、第一能量值、第一共振峰和所述第二校准点对应的第二基频值、第二能量值、第二共振峰,生成所述第二校准点对应的声学校准信息。
步骤S563、基于各个所述声学校准信息对应的所述第二校准点在所述待测评语音数据中的排序,将各个所述声学校准信息进行排列,得到所述第二校准信息。
采用该实施例提供的方法能够对所述待测评语音数据的语音特征和所述待测评语音数据对应的标准语音数据的语音特征进行详细而全面地比较与分析,从而提高对所述待测评语音数据的语音特征进行测评的精度,进而提高朗读质量测评的精度。
请参阅图2,图2为本申请实施例提供的基于人工智能的朗读质量测评装置100的结构示意性框图,如图2所示,本申请实施例提供的基于人工智能的朗读质量测评装置100,包括:
第一获取模块110,用于获取待测评语音数据,并将所述待测评语音数据输入预设的语音分析模型,得到所述待测评语音数据的识别文本集;其中,所述识别文本集包括多个识别文本,各个所述识别文本对应的语言类型互不相同。
第一分析模块120,用于基于所述识别文本集对所述待测评语音数据进行分析,得到所述待测评语音数据的第一评分值和第一校准信息。
第二获取模块130,用于在预设的标准语音数据库中获取与所述待测评语音数据匹配的标准语音数据。
分帧模块140,用于通过预设的时间窗口分别对所述待测评语音数据和所述标准语音数据进行分帧操作,得到第一帧组序列和第二帧组序列。
第二分析模块150,用于对所述第一帧组序列和所述第二帧组序列进行分析,得到所述待测评语音数据的第二评分值和第二校准信息。
生成模块160,用于基于所述第一评分值、所述第一校准信息、所述第二评分值和所述第二校准信息生成所述待测评语音数据的评分表,并将所述评分表发送至用户的终端设备。
需要说明的是,所属技术领域的技术人员可以清楚了解到,为了描述的方便和简洁,上述描述的装置和各个模块的具体工作过程,可以参考前述基于人工智能的朗读质量测评方法实施例中的对应过程,在此不再赘述。
上述实施例提供的基于人工智能的朗读质量测评装置100可以实现为一种计算机程序的形式,该计算机程序可以在如图3所示的终端设备200上运行。
请参阅图3,图3为本申请实施例提供的终端设备200的结构示意性框图,终端设备200包括处理器201和存储器202,处理器201和存储器202通过系统总线203连接,其中,存储器202可以包括非易失性存储介质和内存储器。
非易失性存储介质可存储计算机程序。该计算机程序包括程序指令,该程序指令被处理器201执行时,可使得处理器201执行上述任一种基于人工智能的朗读质量测评方法。
处理器201用于提供计算和控制能力,支撑整个终端设备200的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器201执行时,可使得处理器201执行上述任一种基于人工智能的朗读质量测评方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所涉及的终端设备200的限定,具体的终端设备200可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器201可以是中央处理单元 (Central Processing Unit,CPU),该处理器201还可以是其他通用处理器、数字信号处理器 (Digital SignalProcessor,DSP)、专用集成电路 (Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一些实施例中,处理器201用于运行存储在存储器中的计算机程序,以实现如下步骤:
获取待测评语音数据,并将所述待测评语音数据输入预设的语音分析模型,得到所述待测评语音数据的识别文本集;其中,所述识别文本集包括多个识别文本,各个所述识别文本对应的语言类型互不相同;
基于所述识别文本集对所述待测评语音数据进行分析,得到所述待测评语音数据的第一评分值和第一校准信息;
在预设的标准语音数据库中获取与所述待测评语音数据匹配的标准语音数据;
通过预设的时间窗口分别对所述待测评语音数据和所述标准语音数据进行分帧操作,得到第一帧组序列和第二帧组序列;
对所述第一帧组序列和所述第二帧组序列进行分析,得到所述待测评语音数据的第二评分值和第二校准信息;
基于所述第一评分值、所述第一校准信息、所述第二评分值和所述第二校准信息生成所述待测评语音数据的评分表,并将所述评分表发送至用户的终端设备。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的终端设备200的具体工作过程,可以参考前述基于人工智能的朗读质量测评方法的对应过程,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被一个或多个处理器执行时使所述一个或多个处理器实现如本申请实施例提供的基于人工智能的朗读质量测评方法。
其中,所述计算机可读存储介质可以是前述实施例终端设备200的内部存储单元,例如终端设备200的硬盘或内存。所述计算机可读存储介质也可以是终端设备200的外部存储设备,例如终端设备200配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (9)
1.一种基于人工智能的朗读质量测评方法,其特征在于,包括:
获取待测评语音数据,并将所述待测评语音数据输入预设的语音分析模型,得到所述待测评语音数据的识别文本集;其中,所述识别文本集包括多个识别文本,各个所述识别文本对应的语言类型互不相同;
基于所述识别文本集对所述待测评语音数据进行分析,得到所述待测评语音数据的第一评分值和第一校准信息;
在预设的标准语音数据库中获取与所述待测评语音数据匹配的标准语音数据;
通过预设的时间窗口分别对所述待测评语音数据和所述标准语音数据进行分帧操作,得到第一帧组序列和第二帧组序列;
对所述第一帧组序列和所述第二帧组序列进行分析,得到所述待测评语音数据的第二评分值和第二校准信息;
基于所述第一评分值、所述第一校准信息、所述第二评分值和所述第二校准信息生成所述待测评语音数据的评分表,并将所述评分表发送至用户的终端设备。
2.根据权利要求1所述的基于人工智能的朗读质量测评方法,其特征在于,在将所述待测评语音数据输入预设的语音分析模型之前,所述方法还包括:
采用Symlet小波函数对所述待测评语音数据进行小波变换,得到与所述待测评语音数据匹配的小波系数集;
获取与所述待测评语音数据匹配的小波系数阈值,并针对所述小波系数集内的每个小波系数,将所述小波系数与所述小波系数阈值进行比较,并在所述小波系数小于所述小波系数阈值时,将所述小波系数设为零,得到目标小波系数集;
基于所述目标小波系数集进行小波逆转换,以去除所述待测评语音数据的噪音。
3.根据权利要求1所述的基于人工智能的朗读质量测评方法,其特征在于,所述语音分析模型包括语音识别模块和语音翻译模块;
其中,所述语音识别模块包括第一输入层、第一特征提取层、第一音素识别层、第一语义分析层、第一文本生成层和第一输出层,所述第一输入层用于接收所述待测评语音数据,所述第一特征提取层用于提取所述待测评语音数据的第一特征,所述第一音素识别层用于基于所述第一特征获取所述待测评语音数据的第一音素序列,所述第一语义分析层用于基于所述第一音素序列生成所述待测评语音数据的第一语义信息,所述第一文本生成层用于基于所述第一语义信息生成所述待测评语音数据的第一文本,所述第一输出层用于输出所述第一文本;
所述语音翻译模块包括第二输入层、第二特征提取层、第二音素识别层、语义翻译层、第二文本生成层和第二输出层,所述第二输入层用于接收所述待测评语音数据,所述第二特征提取层用于提取所述待测评语音数据的第二特征,所述第二音素识别层用于基于所述第二特征获取所述待测评语音数据的第二音素序列,所述语义翻译层用于基于所述第二音素序列对所述待测评语音数据进行翻译,得到所述待测评语音数据翻译后的第二语义信息,所述第二文本生成层用于基于所述第二语义信息生成所述待测评语音数据的第二文本,所述第二输出层用于输出所述第二文本。
4.根据权利要求1所述的基于人工智能的朗读质量测评方法,其特征在于,所述基于所述识别文本集对所述待测评语音数据进行分析,得到所述待测评语音数据的第一评分值和第一校准信息,包括:
在预设的标准识别文本数据库中获取与所述识别文本集匹配的标准识别文本集;
针对所述识别文本集中的每个识别文本,在所述标准识别文本集中确定与所述识别文本匹配的标准识别文本,并获取所述识别文本与所述标准识别文本之间的第一相似度,及基于所述识别文本和所述标准识别文本确定所述待测评语音数据的第一校准序列;其中,所述第一校准序列包括多个第一校准点;
基于所有所述第一相似度生成所述第一评分值;
基于所有所述第一校准序列生成所述第一校准信息。
5.根据权利要求1所述的基于人工智能的朗读质量测评方法,其特征在于,所述对所述第一帧组序列和所述第二帧组序列进行分析,得到所述待测评语音数据的第二评分值和第二校准信息,包括:
针对所述第一帧组序列的每个第一帧组,对所述第一帧组进行声学特征分析,得到所述第一帧组对应的第一声学特征向量;其中,所述第一声学特征向量包括第一基频值、第一能量值和第一共振峰;
基于各个所述第一声学特征向量对应的所述第一帧组在所述第一帧组序列中的排序,将各个所述第一声学特征向量由上往下依次排列,得到第一特征矩阵;
针对所述第二帧组序列的每个第二帧组,对所述第二帧组进行声学特征分析,得到所述第二帧组对应的第二声学特征向量;其中,所述第二声学特征向量包括第二基频值、第二能量值和第二共振峰;
基于各个所述第二声学特征向量对应的所述第二帧组在所述第二帧组序列中的排序,将各个所述第二声学特征向量由上往下依次排列,得到第二特征矩阵;
获取所述第一特征矩阵和所述第二特征矩阵的第二相似度,并基于所述第二相似度生成所述第二评分值;
基于所述第一特征矩阵和所述第二特征矩阵生成所述第二校准信息。
6.根据权利要求5所述的基于人工智能的朗读质量测评方法,其特征在于,基于所述第一特征矩阵和所述第二特征矩阵生成所述第二校准信息,包括:
基于所述第一特征矩阵和所述第二特征矩阵生成第二校准序列;其中,所述第二校准序列包括多个第二校准点;
针对所述第二校准序列中的每个第二校准点,基于所述第一特征矩阵获取所述第二校准点对应的第一基频值、第一能量值和第一共振峰,并基于所述第二特征矩阵获取所述第二校准点对应的第二基频值、第二能量值和第二共振峰,及基于所述第二校准点对应的第一基频值、第一能量值、第一共振峰和所述第二校准点对应的第二基频值、第二能量值、第二共振峰,生成所述第二校准点对应的声学校准信息;
基于各个所述声学校准信息对应的所述第二校准点在所述待测评语音数据中的排序,将各个所述声学校准信息进行排列,得到所述第二校准信息。
7.一种基于人工智能的朗读质量测评装置,其特征在于,包括:
第一获取模块,用于获取待测评语音数据,并将所述待测评语音数据输入预设的语音分析模型,得到所述待测评语音数据的识别文本集;其中,所述识别文本集包括多个识别文本,各个所述识别文本对应的语言类型互不相同;
第一分析模块,用于基于所述识别文本集对所述待测评语音数据进行分析,得到所述待测评语音数据的第一评分值和第一校准信息;
第二获取模块,用于在预设的标准语音数据库中获取与所述待测评语音数据匹配的标准语音数据;
分帧模块,用于通过预设的时间窗口分别对所述待测评语音数据和所述标准语音数据进行分帧操作,得到第一帧组序列和第二帧组序列;
第二分析模块,用于对所述第一帧组序列和所述第二帧组序列进行分析,得到所述待测评语音数据的第二评分值和第二校准信息;
生成模块,用于基于所述第一评分值、所述第一校准信息、所述第二评分值和所述第二校准信息生成所述待测评语音数据的评分表,并将所述评分表发送至用户的终端设备。
8.一种终端设备,其特征在于,所述终端设备包括处理器、存储器以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中,所述计算机程序被所述处理器执行时,实现如权利要求1至6中任一项所述的基于人工智能的朗读质量测评方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,其中,所述计算机程序被处理器执行时,实现如权利要求1至6中任一项所述的基于人工智能的朗读质量测评方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311689472.8A CN117393002B (zh) | 2023-12-11 | 2023-12-11 | 基于人工智能的朗读质量测评方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311689472.8A CN117393002B (zh) | 2023-12-11 | 2023-12-11 | 基于人工智能的朗读质量测评方法及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117393002A true CN117393002A (zh) | 2024-01-12 |
CN117393002B CN117393002B (zh) | 2024-03-05 |
Family
ID=89472513
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311689472.8A Active CN117393002B (zh) | 2023-12-11 | 2023-12-11 | 基于人工智能的朗读质量测评方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117393002B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007147783A (ja) * | 2005-11-24 | 2007-06-14 | Yamaha Corp | 語学学習装置 |
JP2010224563A (ja) * | 1997-11-17 | 2010-10-07 | Nuance Communications Inc | 発音矯正装置、発音矯正方法および記録媒体 |
CN109545244A (zh) * | 2019-01-29 | 2019-03-29 | 北京猎户星空科技有限公司 | 语音评测方法、装置、电子设备及存储介质 |
CN111639217A (zh) * | 2020-05-12 | 2020-09-08 | 广东小天才科技有限公司 | 一种口语评级方法、终端设备及存储介质 |
CN112349300A (zh) * | 2020-11-06 | 2021-02-09 | 北京乐学帮网络技术有限公司 | 一种语音评测方法及装置 |
CN115985342A (zh) * | 2022-12-29 | 2023-04-18 | 科大讯飞股份有限公司 | 发音检错方法、装置、电子设备和存储介质 |
-
2023
- 2023-12-11 CN CN202311689472.8A patent/CN117393002B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010224563A (ja) * | 1997-11-17 | 2010-10-07 | Nuance Communications Inc | 発音矯正装置、発音矯正方法および記録媒体 |
JP2007147783A (ja) * | 2005-11-24 | 2007-06-14 | Yamaha Corp | 語学学習装置 |
CN109545244A (zh) * | 2019-01-29 | 2019-03-29 | 北京猎户星空科技有限公司 | 语音评测方法、装置、电子设备及存储介质 |
CN111639217A (zh) * | 2020-05-12 | 2020-09-08 | 广东小天才科技有限公司 | 一种口语评级方法、终端设备及存储介质 |
CN112349300A (zh) * | 2020-11-06 | 2021-02-09 | 北京乐学帮网络技术有限公司 | 一种语音评测方法及装置 |
CN115985342A (zh) * | 2022-12-29 | 2023-04-18 | 科大讯飞股份有限公司 | 发音检错方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117393002B (zh) | 2024-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109599093B (zh) | 智能质检的关键词检测方法、装置、设备及可读存储介质 | |
US8818813B2 (en) | Methods and system for grammar fitness evaluation as speech recognition error predictor | |
CN108766415B (zh) | 一种语音测评方法 | |
US9489864B2 (en) | Systems and methods for an automated pronunciation assessment system for similar vowel pairs | |
US9087519B2 (en) | Computer-implemented systems and methods for evaluating prosodic features of speech | |
US8447603B2 (en) | Rating speech naturalness of speech utterances based on a plurality of human testers | |
US9262941B2 (en) | Systems and methods for assessment of non-native speech using vowel space characteristics | |
CN109979486B (zh) | 一种语音质量评估方法及装置 | |
CN103559892A (zh) | 口语评测方法及系统 | |
CN103594087A (zh) | 提高口语评测性能的方法及系统 | |
CN108597538B (zh) | 语音合成系统的评测方法和系统 | |
CN112397056B (zh) | 语音评测方法及计算机存储介质 | |
CN106157974A (zh) | 文本背诵质量评估装置和方法 | |
JP2006227587A (ja) | 発音評定装置、およびプログラム | |
CN115796653A (zh) | 一种面试发言评价方法及系统 | |
CN113486970B (zh) | 阅读能力评测方法及装置 | |
KR20210071713A (ko) | 스피치 스킬 피드백 시스템 | |
CN117393002B (zh) | 基于人工智能的朗读质量测评方法及相关装置 | |
JP2010060846A (ja) | 合成音声評価システム及び合成音声評価方法 | |
CN112185186B (zh) | 一种发音纠正方法、装置、电子设备及存储介质 | |
CN113658599A (zh) | 基于语音识别的会议记录生成方法、装置、设备及介质 | |
JP2006201491A (ja) | 発音評定装置、およびプログラム | |
CN111798867A (zh) | 英语语音分析和加强学习系统及方法 | |
KR20210059581A (ko) | 말하기의 자동 유창성 평가 방법 및 그 장치 | |
CN112992184B (zh) | 一种发音评测方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |