CN116631452B

CN116631452B - 一种基于人工智能的绘本录音播放阅读管理系统

Info

Publication number: CN116631452B
Application number: CN202310359771.9A
Authority: CN
Inventors: 曹广浩; 曹龙浩; 陈国升
Original assignee: Shenzhen Yatongqiao Culture Communication Co ltd
Current assignee: Shenzhen Yatongqiao Culture Communication Co ltd
Priority date: 2023-04-06
Filing date: 2023-04-06
Publication date: 2024-01-02
Anticipated expiration: 2043-04-06
Also published as: CN116631452A

Abstract

本发明属于人工智能绘本录音播放技术领域，具体公开提供的一种基于人工智能的绘本录音播放阅读管理系统，该系统包括：获取儿童朗读语句和教师朗读语句的匹配词组，以及各匹配词组对应各汉字的发音特征，分析儿童朗读语句的语音综合符合度系数和儿童朗读嘴型图像的符合度系数，进而分析儿童朗读语句的朗读准确性指数，对儿童朗读语句的朗读准确性指数进行等级评估，并进行对应等级的语音播报，帮助儿童更好地理解和掌握语言的韵律和语调，保证了儿童朗读语句表达意思的正确性和清晰性，提高了儿童表达的自然度和流畅度，对儿童的朗读效果进行评估，让儿童在阅读过程中获得更好的体验感和学习效果。

Description

一种基于人工智能的绘本录音播放阅读管理系统

技术领域

本发明属于绘本录音播放技术领域，涉及到一种基于人工智能的绘本录音播放阅读管理系统。

背景技术

随着人工智能技术的发展，智能阅读已经成为一种趋势。传统的阅读方式通常需要人们自己去阅读书本，而在绘本的阅读上，需要有朗读者为儿童朗读，这种方式的局限性在于，朗读者的朗读水平和语音口音对儿童的阅读体验有很大的影响，基于人工智能技术的绘本录音播放阅读管理系统可以有效地解决这些问题，使得孩子们可以更高效地进行绘本阅读。

绘本录音播放系统是一种基于儿童阅读和语言学习的教育辅助设备，该系统一般由一组绘本和一个录音播放器组成，儿童按照播放器上的提示跟读录音，其主要功能是为儿童提供优质的、有声有色的阅读环境，帮助儿童在阅读过程中边听边读，提高阅读和口语能力。

目前市场上推出的绘本辅助阅读设备有多种，如绘本故事机、绘本电子书等，基本可以满足儿童阅读要求，但是还存在一定的缺陷，其具体体现在：(1)目前绘本录音播放系统并没有对儿童朗读语句中的词组和各词组对应发声时长进行识别，使得儿童在阅读过程中无法学习语句的韵律和语调，进而无法保证儿童朗读语句表达意思的正确性和清晰性。

(2)目前绘本录音播放系统在识别儿童语句时没有对儿童朗读语句中各汉字的调度和响度进行识别，使得系统对儿童朗读语句的识别缺乏精确性，进而无法保障儿童练习朗读时咬字的清晰度。

(3)没有对儿童的朗读情况进行分析，儿童在听录音和看绘本时，只是机械性的跟读或单纯聆听故事，没有对朗读语句进行评级反馈，无法给儿童阅读带来体验感，无法为儿童阅读带来趣味性和互动性。

发明内容

鉴于此，为解决上述背景技术中所提出的问题，现提出一种基于人工智能的绘本录音播放阅读管理系统。

本发明的目的可以通过以下技术方案实现：本发明提供一种基于人工智能的绘本录音播放阅读管理系统，包括：绘本录音提取模块，用于采集儿童绘本朗读视频，从而对儿童绘本朗读视频中的声音进行声纹识别，筛选出儿童朗读语句。

语句词组匹配模块，用于提取绘本教学视频中教师朗读视频，从而提取教师朗读视频中教师朗读语句，分别对教师朗读语句和儿童朗读语句进行词组划分，进而根据儿童朗读语句中排序位置正确的词组数量和各词组的发声时长，分析儿童朗读语句的词组匹配度系数。

语句音调匹配模块，用于统计儿童朗读语句中音标准确的汉字数量，并提取儿童朗读语句中各音标准确的汉字对应的发音特征信息，发音特征信息包括声音的调度和响度，从而分析儿童朗读语句的音调匹配度系数。

语音综合符合度评估模块，用于根据儿童朗读语句的词组匹配度系数和音调匹配度系数，评估儿童朗读语句的语音综合符合度系数。

图像符合度评估模块，用于从儿童绘本朗读视频中提取儿童朗读语句中各匹配汉字对应的嘴型图像，与教师朗读视频中教师朗读语句对应各匹配汉字的嘴型图像进行匹配，进而分析儿童朗读嘴型图像的符合度系数。

朗读准确性评估模块，用于根据儿童朗读语句的语音综合符合度系数和儿童朗读嘴型图像的符合度系数，分析儿童朗读语句对应的朗读准确性指数。

绘本语音反馈中心，用于对儿童的朗读等级进行评估，进而进行语音播报。

于本发明一优选实施例，所述对教师朗读语句和儿童朗读语句进行词组划分具体为：根据设定的词组信息对教师朗读视频中教师朗读语句进行词组划分，得到教师朗读语句中各词组。

采用语音转文字技术对儿童绘本朗读视频中儿童朗读语句进行文本转换，识别儿童朗读语句对应文本中各汉字，根据儿童绘本朗读视频中儿童朗读语句，筛选儿童朗读语句中各汉字的开始发声时间和结束发声时间，将儿童朗读语句中各汉字的结束发声时间与其相邻汉字的开始发声时间进行对比，得到儿童朗读语句中各汉字与其相邻汉字的停顿时长，将各汉字与其相邻汉字的停顿时长与设定词组对应的停顿时长进行对比，若某汉字与其相邻汉字的停顿时长在词组的设定停顿时长范围内，则统计该汉字对应在设定词组停顿时长范围外的前几个相邻汉字，将其与该汉字组合成为一个词组，进而统计儿童朗读语句对应文本的各词组。

于本发明一优选实施例，所述分析儿童朗读语句的词组匹配度系数具体为：将儿童朗读语句对应文本的各词组与教师朗读语句中各词组进行对比，筛选儿童朗读语句与教师朗读语句匹配的各词组，将其记为各匹配词组。

对儿童朗读语句对应文本的各词组进行排序，提取儿童朗读语句中各匹配词组序号，同理提取教师朗读语句中各匹配词组序号，将儿童朗读语句中各匹配词组序号与教师朗读语句中对应匹配词组序号进行对比，筛选出序列号相同的各匹配词组，将其记为排序位置正确的词组，统计儿童朗读语句中排序位置正确的词组数量，记为y。

将儿童朗读语句中各匹配词组发声时长与设定的对应匹配词组发声时长对应的参考范围进行对比，若某匹配词组发声时长在设定的对应匹配词组发声时长对应的参考范围内，则将其记为发声时长正确的词组，统计儿童朗读语句中发声时长正确的词组数量，记为x。

分析儿童朗读语句的词组匹配度系数δ，其中X'表示为儿童朗读语句对应文本的词组数量，α₁、α₂分别表示为预设的儿童朗读语句中发声时长正确的词组数量和排序位置正确的词组数量对应的占比因子，Δx表示为预设的发声时长正确的词组数量对应的允许误差值，Δy表示为预设的排序位置正确的词组数量对应的允许误差值，e表示为自然常数。

于本发明一优选实施例，所述统计儿童朗读语句中音标准确的汉字数量具体为：将各匹配词组对应各汉字记为各匹配汉字，统计各匹配汉字的数量。

将儿童朗读语句中各匹配汉字对应的音标与设定的对应匹配汉字对应的参考音标范围进行对比，若某匹配汉字对应的音标在设定的对应匹配汉字对应的参考音标范围内，则将其记为音标准确的汉字，筛选出儿童朗读语句中音标准确的汉字，统计儿童朗读语句中音标准确的汉字数量。

于本发明一优选实施例，所述分析儿童朗读语句的音调匹配度系数具体为：将儿童朗读语句中各音标准确的汉字对应的调度与设定的对应汉字对应的参考调度范围进行对比，若某汉字对应的调度在设定的对应汉字对应的调度范围内，则将其记为调度准确的汉字，筛选出儿童朗读语句中调度准确的汉字，统计儿童朗读语句中调度准确的汉字数量，记为Ε。

将儿童朗读语句中各调度准确的汉字对应的响度与设定的对应汉字对应的参考响度范围进行对比，若某汉字对应的响度在设定的对应汉字对应的参考响度范围内，则将其记为响度准确的汉字，筛选出儿童朗读语句中响度准确的汉字，统计儿童朗读语句中响度准确的汉字数量，记为F。

分析儿童朗读语句的音调匹配度系数ε，其中β₁+β₂+β₃＝1，β₁、β₂、β₃分别表示为预设的儿童朗读语句中音标准确的汉字数量、音调准确的汉字数量和在响度范围内的汉字数量的占比权重因子，ρ表示为预设的音调匹配度修正因子，D表示为音标准确的汉字数量，G表示为儿童朗读语句中匹配汉字的数量。

于本发明一优选实施例，所述儿童朗读语句的语音综合符合度系数评估公式为其中/>表示为儿童朗读语句的语音综合符合度系数，λ₁、λ₂分别表示为预设的儿童朗读语句的词组匹配度系数和音调匹配度系数对应的占比权重因子。

于本发明一优选实施例，所述分析儿童朗读嘴型图像的符合度系数具体为：从教师朗读视频中提取各匹配汉字对应教师嘴型图像，从儿童绘本朗读视频中提取各匹配汉字对应儿童嘴型图像。

分别提取教师嘴型图像和儿童嘴型图像中的嘴型轮廓，获取教师嘴型轮廓长度和儿童嘴型轮廓长度，得到教师嘴型轮廓长度和儿童嘴型轮廓长度的比值，将各教师嘴型轮廓按照比值进行等比例缩小，进而将各匹配汉字对应的缩小后的教师嘴型轮廓面积与对应儿童嘴型轮廓面积进行重叠对比，得到各匹配汉字对应的教师与儿童嘴型轮廓重叠面积。

分析儿童朗读嘴型图像的符合度系数ξ，其中S_j表示为第j个匹配汉字对应的教师和儿童嘴型轮廓重叠面积，j表示为各匹配汉字的编号，j＝1,2,...,u，S_j'表示为第j个匹配汉字对应儿童嘴型轮廓面积，S_j”表示为第j个匹配汉字对应缩小后的教师嘴型轮廓面积，λ表示为预设的面积重叠度，Δλ表示为预设的面积重叠度允许误差，ψ表示为预设的重叠面积对应修正因子。

于本发明一优选实施例，所述分析儿童朗读语句的朗读准确性指数具体为：将儿童朗读语句对应文本的词组数量与匹配词组数量作差得到不匹配词组数量。

通过公式分析得到儿童朗读语句的朗读准确性指数η，其中C表示为不匹配词组数量，θ₁、θ₂、θ₃分别表示为预设的儿童朗读语句的语音综合符合度系数、嘴型图像的符合度系数和不匹配词组数量对应的占比权重因子。

于本发明一优选实施例，所述绘本语音反馈中心具体为：将儿童朗读语句的朗读准确性指数与预设的各等级准确性指数范围进行匹配，进而得到儿童朗读语句的朗读准确性指数等级，其中预设的各等级准确性指数范围包括高等级准确性指数范围、中等级准确性指数范围和低等级准确性指数范围。

若儿童朗读语句的朗读准确性指数处于高等级准确性指数范围，则执行优秀语音播报，若儿童朗读语句的朗读准确性指数处于中等级准确性指数范围，则执行良好语音播报，若儿童朗读语句的朗读准确性指数处于低等级准确性指数范围，则执行再试一次语音播报。

相较于现有技术，本发明的有益效果如下：(1)本发明在对儿童朗读语句识别分析时，对语句中各汉字与其相邻汉字的停顿时长进行捕捉识别，得到儿童朗读语句中的各词组，将其与教师朗读语句中各词组进行匹配，得到各匹配词组，根据各匹配词组的发声时长分析儿童朗读语句的词组匹配度系数，从而帮助儿童更好地理解和掌握语言的韵律和语调，帮助儿童理解语句的意义和语言表达方式。

(2)本发明在对儿童朗读语句识别分析时，对语句中各汉字的调度和响度进行识别，将其与教师朗读语句中各匹配汉字的调度和响度进行对比，分析儿童朗读语句的音调匹配度系数，提高儿童语言表达的自然度和流畅度，同时提高儿童朗读各汉字时发音的清晰度。

(3)本发明中儿童在听录音的同时可以观看教师的朗读嘴型图像，分析儿童朗读嘴型图像的符合度，评估儿童朗读语句的语音综合符合度系数，使用嘴型图像可以让儿童更加清晰地看到汉字发音所需的嘴部动作，儿童跟随教师嘴型图像模仿正确的发音，有助于他们更好地记忆和掌握汉字的发音。

(4)本发明根据儿童朗读语句的语音综合符合度系数和儿童朗读嘴型图像的符合度系数，对儿童的朗读等级进行评估，并进行语音播报，使学习更富有趣味性，并且能够让儿童感受到学习的效果，从而更有兴趣和热情地学习。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明系统各模块连接示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1所示，本发明提供了一种基于人工智能的绘本录音播放阅读管理系统，该系统包括：绘本录音提取模块、语句词组匹配模块、语句音调匹配模块、语音综合符合度评估模块、图像符合度评估模块、朗读准确性评估模块和绘本语音反馈中心。

上述中，绘本录音提取模块分别与语句词组匹配模块、语句音调匹配模块和图像符合度评估模块连接，语音综合符合度评估模块分别与语句词组匹配模块和语句音调匹配模块连接，朗读准确性评估模块分别与语音综合符合度评估模块、图像符合度评估模块和绘本语音反馈中心连接。

所述绘本录音提取模块，用于采集儿童绘本朗读视频，从而对儿童绘本朗读视频中的声音进行声纹识别，筛选出儿童朗读语句。

具体地，通过摄像头对儿童绘本朗读视频进行采集。

特别说明的是，上述声纹识别的具体实施方法为：提取绘本中存储的儿童声音，得到存储的儿童声音的声波，根据设定的儿童声音对应的声波允许波动误差值，得到儿童声音的适宜声波范围，将其作为参照声波范围。

提取儿童绘本朗读视频中所有声音的声波，将其与参照声波范围进行对比，将某声音的声波处于参照声波范围外，则将该声音对应声波作为不匹配声波，统计各不匹配声波，将各不匹配声波进行去噪处理，进而筛选出剩余声音，将其作为儿童朗读声音。

所述语句词组匹配模块，用于提取绘本教学视频中教师朗读视频，从而提取教师朗读视频中教师朗读语句，分别对教师朗读语句和儿童朗读语句进行词组划分，进而根据儿童朗读语句中排序位置正确的词组数量和各词组的发声时长，分析儿童朗读语句的词组匹配度系数。

在一个具体实施例中，对教师朗读语句和儿童朗读语句进行词组划分具体为：根据设定的词组信息对教师朗读视频中教师朗读语句进行词组划分，得到教师朗读语句中各词组。

需要说明的，上述所述某汉字的相邻汉字是指与该汉字相邻的下一个汉字。

进一步地，分析儿童朗读语句的词组匹配度系数具体为：将儿童朗读语句对应文本的各词组与教师朗读语句中各词组进行对比，筛选儿童朗读语句与教师朗读语句匹配的各词组，将其记为各匹配词组。

上述匹配词组发声时长对应的参考范围分析方式为：从教师朗读视频中提取教师朗读语句中各匹配词组发声时长，根据设定的各匹配词组发声时长允许波动误差值，得到各匹配词组发声时长对应的参考范围。

具体地，各匹配词组发声时长的获取方法为：从视频中提取各词组中第一个汉字开始发声时间与最后一个汉字结束发声时间，得到各词组对应的发声时长。

特别说明的，筛选儿童朗读语句与教师朗读语句匹配的各词组具体为：将教师朗读语句中各词组作为参照词组，将儿童朗读语句中第一个词组的第一个汉字与第一个参照词组的第一个汉字进行匹配，若匹配成功，则将儿童朗读语句中第一个词组的第二个汉字与第一个参照词组的第二个汉字进行匹配，依次类推，直到第一个词组中所有汉字与参照词组中对应汉字均匹配成功，将其记为匹配词组，并对该词组相邻的下一个词组按照同理方式与该参照词组相邻的下一个参照词组进行匹配；若匹配失败，则将儿童朗读语句中该汉字对应的词组记为不匹配词组，并将该词组相邻的下一个词组按照同理方式与各参照词组依次进行匹配。

本发明在对儿童朗读语句识别分析时，对语句中各汉字与其相邻汉字的停顿时长进行捕捉识别，得到儿童朗读语句中的各词组，将其与教师朗读语句中各词组进行匹配，得到各匹配词组，根据各匹配词组的发声时长分析儿童朗读语句的词组匹配度系数，从而帮助儿童更好地理解和掌握语言的韵律和语调，帮助儿童理解语句的意义和语言表达方式。

所述语句音调匹配模块，用于统计儿童朗读语句中音标准确的汉字数量，并提取儿童朗读语句中各音标准确的汉字对应的发音特征信息，发音特征信息包括声音的调度和响度，从而分析儿童朗读语句的音调匹配度系数。

在一个具体实施例中，统计儿童朗读语句中音标准确的汉字数量具体为：将各匹配词组对应各汉字记为各匹配汉字，统计各匹配汉字的数量。

特别说明的，上述各汉字对应的音标是基于声音频率得到。

上述匹配汉字对应的参考音标范围分析方式为：从教师朗读语句中提取各匹配汉字对应的音标，根据设定的各匹配汉字对应的音标允许波动误差值，得到各匹配汉字对应的参考音标范围。

进一步地，分析儿童朗读语句的音调匹配度系数具体为：将儿童朗读语句中各音标准确的汉字对应的调度与设定的对应汉字对应的参考调度范围进行对比，若某汉字对应的调度在设定的对应汉字对应的调度范围内，则将其记为调度准确的汉字，筛选出儿童朗读语句中调度准确的汉字，统计儿童朗读语句中调度准确的汉字数量，记为Ε。

所述各音标准确的汉字对应的参考调度范围分析方式为：提取教师朗读语句中音标准确的各汉字对应的调度，根据设定的汉字对应的调度允许波动误差值，得到各音标准确的汉字对应的参考调度范围。同理得到，各调度准确的汉字对应的参考响度范围。

特别说明的，上述各汉字对应的调度是基于声波震动频率得到，各汉字对应的响度是基于声波振幅得到。

本发明在对儿童朗读语句识别分析时，对语句中各汉字的调度和响度进行识别，将其与教师朗读语句中各匹配汉字的调度和响度进行对比，分析儿童朗读语句的音调匹配度系数，提高儿童语言表达的自然度和流畅度，同时提高儿童朗读各汉字时发音的清晰度。

所述语音综合符合度评估模块，用于根据儿童朗读语句的词组匹配度系数和音调匹配度系数，评估儿童朗读语句的语音综合符合度系数。

在一个具体实施例中，儿童朗读语句的语音综合符合度系数评估公式为其中/>表示为儿童朗读语句的语音综合符合度系数，λ₁、λ₂分别表示为预设的儿童朗读语句的词组匹配度系数和音调匹配度系数对应的占比权重因子。

所述图像符合度评估模块，用于从儿童绘本朗读视频中提取儿童朗读语句中各匹配汉字对应的嘴型图像，与教师朗读视频中教师朗读语句对应各匹配汉字的嘴型图像进行匹配，进而分析儿童朗读嘴型图像的符合度系数。

在一个具体实施例中，分析儿童朗读嘴型图像的符合度系数具体为：从教师朗读视频中提取各匹配汉字对应教师嘴型图像，从儿童绘本朗读视频中提取各匹配汉字对应儿童嘴型图像。

特别说明的，提取儿童嘴型图像中的嘴型轮廓具体方法为：将儿童朗读嘴型图像转换为灰度图像，并进行二值化处理，得到嘴型内部区域的掩码，利用Canny边缘检测算法对嘴型内部区域的掩码进行边缘检测，进而得到儿童嘴型轮廓，同理，按照儿童嘴型轮廓的提取方式得到教师嘴型轮廓。

上述二值化处理是一种常见的图像处理方法，可以将彩色或灰度图像转换为只包含黑色和白色两种颜色的二值图像，通过将图像中的像素值限制在两个值范围内强调目标的轮廓和特征。

上述Canny是一种常用的边缘检测算法，可以通过不同的阈值来提取轮廓。

本发明中儿童在听录音的同时可以观看教师的朗读嘴型图像，分析儿童朗读嘴型图像的符合度，评估儿童朗读语句的语音综合符合度系数，使用嘴型图像可以让儿童更加清晰地看到汉字发音所需的嘴部动作，儿童跟随教师嘴型图像模仿正确的发音，有助于他们更好地记忆和掌握汉字的发音。

所述朗读准确性评估模块，用于根据儿童朗读语句的语音综合符合度系数和儿童朗读嘴型图像的符合度系数，分析儿童朗读语句对应的朗读准确性指数。

在一个具体实施例中，分析儿童朗读语句的朗读准确性指数具体为：将儿童朗读语句对应文本的词组数量与匹配词组数量作差得到不匹配词组数量。

所述绘本语音反馈中心，用于对儿童的朗读等级进行评估，进而进行语音播报。

在一个具体实施例中，绘本语音反馈中心具体为：将儿童朗读语句的朗读准确性指数与预设的各等级准确性指数范围进行匹配，进而得到儿童朗读语句的朗读准确性指数等级，其中预设的各等级准确性指数范围包括高等级准确性指数范围、中等级准确性指数范围和低等级准确性指数范围。

本发明根据儿童朗读语句的语音综合符合度系数和儿童朗读嘴型图像的符合度系数，对儿童的朗读等级进行评估，并进行语音播报，使学习更富有趣味性，并且能够让儿童感受到学习的效果，从而更有兴趣和热情地学习。

以上内容仅仅是对本发明的构思所作的举例和说明，所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离发明的构思或者超越本发明所定义的范围，均应属于本发明的保护范围。

Claims

1.一种基于人工智能的绘本录音播放阅读管理系统，其特征在于，包括：

绘本录音提取模块，用于采集儿童绘本朗读视频，从而对儿童绘本朗读视频中的声音进行声纹识别，筛选出儿童朗读语句；

语句词组匹配模块，用于提取绘本教学视频中教师朗读视频，从而提取教师朗读视频中教师朗读语句，分别对教师朗读语句和儿童朗读语句进行词组划分，进而根据儿童朗读语句中排序位置正确的词组数量和各词组的发声时长，分析儿童朗读语句的词组匹配度系数；

语句音调匹配模块，用于统计儿童朗读语句中音标准确的汉字数量，并提取儿童朗读语句中各音标准确的汉字对应的发音特征信息，发音特征信息包括声音的调度和响度，从而分析儿童朗读语句的音调匹配度系数；

语音综合符合度评估模块，用于根据儿童朗读语句的词组匹配度系数和音调匹配度系数，评估儿童朗读语句的语音综合符合度系数；

图像符合度评估模块，用于从儿童绘本朗读视频中提取儿童朗读语句中各匹配汉字对应的嘴型图像，与教师朗读视频中教师朗读语句对应各匹配汉字的嘴型图像进行匹配，进而分析儿童朗读嘴型图像的符合度系数；

朗读准确性评估模块，用于根据儿童朗读语句的语音综合符合度系数和儿童朗读嘴型图像的符合度系数，分析儿童朗读语句对应的朗读准确性指数；

2.根据权利要求1所述的一种基于人工智能的绘本录音播放阅读管理系统，其特征在于：所述对教师朗读语句和儿童朗读语句进行词组划分具体为：

根据设定的词组信息对教师朗读视频中教师朗读语句进行词组划分，得到教师朗读语句中各词组；

采用语音转文字技术对儿童绘本朗读视频中儿童朗读语句进行文本转换，识别儿童朗读语句对应文本中各汉字，根据儿童绘本朗读视频中儿童朗读语句，筛选儿童朗读语句中各汉字的开始发声时间和结束发声时间，将儿童朗读语句中各汉字的结束发声时间与其相邻汉字的开始发声时间进行对比，得到儿童朗读语句中各汉字与其相邻汉字的停顿时长，将各汉字与其相邻汉字的停顿时长与设定词组对应的停顿时长范围进行对比，若某汉字与其相邻汉字的停顿时长在词组的设定停顿时长范围内，则统计该汉字对应在设定词组停顿时长范围外的前几个相邻汉字，将其与该汉字组合成为一个词组，进而统计儿童朗读语句对应文本的各词组。

3.根据权利要求1所述的一种基于人工智能的绘本录音播放阅读管理系统，其特征在于：所述分析儿童朗读语句的词组匹配度系数具体为：

将儿童朗读语句对应文本的各词组与教师朗读语句中各词组进行对比，筛选儿童朗读语句与教师朗读语句匹配的各词组，将其记为各匹配词组；

对儿童朗读语句对应文本的各词组进行排序，提取儿童朗读语句中各匹配词组序号，同理提取教师朗读语句中各匹配词组序号，将儿童朗读语句中各匹配词组序号与教师朗读语句中对应匹配词组序号进行对比，筛选出序列号相同的各匹配词组，将其记为排序位置正确的词组，统计儿童朗读语句中排序位置正确的词组数量，记为y；

将儿童朗读语句中各匹配词组发声时长与设定的对应匹配词组发声时长对应的参考范围进行对比，若某匹配词组发声时长在设定的对应匹配词组发声时长对应的参考范围内，则将其记为发声时长正确的词组，统计儿童朗读语句中发声时长正确的词组数量，记为x；

4.根据权利要求1所述的一种基于人工智能的绘本录音播放阅读管理系统，其特征在于：所述统计儿童朗读语句中音标准确的汉字数量具体为：

将各匹配词组对应各汉字记为各匹配汉字，统计各匹配汉字的数量；

5.根据权利要求4所述的一种基于人工智能的绘本录音播放阅读管理系统，其特征在于：所述分析儿童朗读语句的音调匹配度系数具体为：

将儿童朗读语句中各音标准确的汉字对应的调度与设定的对应汉字对应的参考调度范围进行对比，若某汉字对应的调度在设定的对应汉字对应的调度范围内，则将其记为调度准确的汉字，筛选出儿童朗读语句中调度准确的汉字，统计儿童朗读语句中调度准确的汉字数量，记为Ε；

将儿童朗读语句中各调度准确的汉字对应的响度与设定的对应汉字对应的参考响度范围进行对比，若某汉字对应的响度在设定的对应汉字对应的参考响度范围内，则将其记为响度准确的汉字，筛选出儿童朗读语句中响度准确的汉字，统计儿童朗读语句中响度准确的汉字数量，记为F；

6.根据权利要求5所述的一种基于人工智能的绘本录音播放阅读管理系统，其特征在于：所述儿童朗读语句的语音综合符合度系数评估公式为其中/>表示为儿童朗读语句的语音综合符合度系数，λ₁、λ₂分别表示为预设的儿童朗读语句的词组匹配度系数和音调匹配度系数对应的占比权重因子。

7.根据权利要求1所述的一种基于人工智能的绘本录音播放阅读管理系统，其特征在于：所述分析儿童朗读嘴型图像的符合度系数具体为：

从教师朗读视频中提取各匹配汉字对应教师嘴型图像，从儿童绘本朗读视频中提取各匹配汉字对应儿童嘴型图像；

分别提取教师嘴型图像和儿童嘴型图像中的嘴型轮廓，获取教师嘴型轮廓长度和儿童嘴型轮廓长度，得到教师嘴型轮廓长度和儿童嘴型轮廓长度的比值，将各教师嘴型轮廓按照比值进行等比例缩小，进而将各匹配汉字对应的缩小后的教师嘴型轮廓面积与对应儿童嘴型轮廓面积进行重叠对比，得到各匹配汉字对应的教师与儿童嘴型轮廓重叠面积；

8.根据权利要求7所述的一种基于人工智能的绘本录音播放阅读管理系统，其特征在于：所述分析儿童朗读语句的朗读准确性指数具体为：

将儿童朗读语句对应文本的词组数量与匹配词组数量作差得到不匹配词组数量；

9.根据权利要求1所述的一种基于人工智能的绘本录音播放阅读管理系统，其特征在于：所述绘本语音反馈中心具体为：

将儿童朗读语句的朗读准确性指数与预设的各等级准确性指数范围进行匹配，进而得到儿童朗读语句的朗读准确性指数等级，其中预设的各等级准确性指数范围包括高等级准确性指数范围、中等级准确性指数范围和低等级准确性指数范围；