CN109726300A

CN109726300A - 一种多媒体数据处理方法及装置

Info

Publication number: CN109726300A
Application number: CN201811641272.4A
Authority: CN
Inventors: 王思越; 李爽
Original assignee: Beijing Kingsoft Internet Security Software Co Ltd
Current assignee: Beijing Kingsoft Internet Security Software Co Ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2019-05-07

Abstract

本发明实施例公开了一种多媒体数据处理方法及装置，该方法包括：语音播放目标读物中的目标页面中的目标多媒体数据，目标读物中包括多个页面；当播放完目标多媒体数据时，开始计时，并在预设时长内获取目标用户针对目标多媒体数据的目标音频数据，目标音频数据为所述目标用户对所述目标多媒体数据进行跟读的数据；当计时时长达到预设时长时，确定目标音频数据的质量分数；当目标音频数据的质量分数达到质量分数阈值时，将目标页面的下一个页面确定为目标页面。采用本发明实施例，可使读物所提供的学习方式更加多样化。

Description

一种多媒体数据处理方法及装置

技术领域

本发明涉及数据处理的技术领域，尤其涉及一种多媒体数据处理方法及装置。

背景技术

随着用户对学习新知识的方式多样性的需求不断增加，各种期刊、杂志、绘本、漫画等读物应运而生，其中，所述读物中包括外文版的读物，用户可以通过网络阅览所述外文版的读物的网页版，但是在用户的阅览过程中，用户只能对读物中的文字和图片进行浏览以学习其中的内容，导致这些读物所提供的学习方式过于固定和单一。

发明内容

本发明实施例提供了一种多媒体数据处理方法及装置，可使读物所提供的学习方式更加多样化。

本发明实施例一方面提供了一种多媒体数据处理方法，包括：

语音播放目标读物中的目标页面中的目标多媒体数据，所述目标读物中包括多个页面；

当播放完所述目标多媒体数据时，开始计时，并在预设时长内获取目标用户针对所述目标多媒体数据的目标音频数据，所述目标音频数据为所述目标用户对所述目标多媒体数据进行跟读的数据；

当计时时长达到所述预设时长时，确定所述目标音频数据的质量分数；

当所述目标音频数据的质量分数达到质量分数阈值时，将所述目标页面的下一个页面确定为所述目标页面。

其中，所述方法还包括：

展示所述目标读物中的所有页面中的多媒体数据，所述所有页面包括所述目标页面；

当检测到所述目标读物中的最后一页的页面处于浏览完成状态时，将所述目标读物中的第一页的页面确定为所述目标页面。

其中，所述方法还包括：

当所述目标用户针对所述目标多媒体数据的目标音频数据的质量分数未达到所述质量分数阈值，则重新开始计时，并执行所述在预设时长内获取目标用户针对所述目标多媒体数据的目标音频数据的步骤。

其中，所述确定所述目标音频数据的质量分数，包括：

获取标准音频数据；

确定所述目标音频数据与所述标准音频数据的匹配度；

根据所述匹配度确定所述目标音频数据的所述质量分数。

其中，所述获取标准音频数据，包括：

对所述目标音频数据进行声音识别；

若识别出所述目标音频数据属于儿童声音类型，则从声音标准库中获取儿童对应的标准音频数据；

若若识别出所述目标音频数据属于成人声音类型，则从声音标准库中获取成人对应的标准音频数据。

其中，所述方法还包括：

当获取到所述目标用户针所述目标读物中的最后一页的页面对应的质量分数时，基于所述目标用户对所述目标读物中的每一页页面中的多媒体数据的音频数据以及质量分数合成音频读物，所述音频读物中包括所述目标读物中的每一页页面的多媒体数据，所述音频读物中的每一页页面对应有所述目标用户的音频数据以及质量分数。

其中，所述方法还包括：

当进入所述音频读物中的所述目标页面，播放所述目标页面对应的所述目标用户的所述目标音频数据。

本发明实施例另一方面提供了一种多媒体数据处理装置，包括：

语音模块，用于语音播放目标读物中的目标页面中的目标多媒体数据，所述目标读物中包括多个页面；

计时模块，用于当播放完所述目标多媒体数据时，开始计时，并在预设时长内获取目标用户针对所述目标多媒体数据的目标音频数据，所述目标音频数据为所述目标用户对所述目标多媒体数据进行跟读的数据；

分数确定模块，用于当计时时长达到所述预设时长时，确定所述目标音频数据的质量分数；

页面确定模块，用于当所述目标音频数据的质量分数达到质量分数阈值时，将所述目标页面的下一个页面确定为所述目标页面。

其中，所述多媒体数据处理装置还包括：

展示模块，用于展示所述目标读物中的所有页面中的多媒体数据，所述所有页面包括所述目标页面；

检测模块，用于当检测到所述目标读物中的最后一页的页面处于浏览完成状态时，将所述目标读物中的第一页的页面确定为所述目标页面。

其中，所述多媒体数据处理装置具体用于：

其中，所述分数确定模块，包括：

获取单元，用于获取标准音频数据；

匹配度确定单元，用于确定所述目标音频数据与所述标准音频数据的匹配度；

分数确定单元，用于根据所述匹配度确定所述目标音频数据的所述质量分数。

其中，所述获取单元，包括：

识别子单元，用于对所述目标音频数据进行声音识别；

第一获取子单元，用于若识别出所述目标音频数据属于儿童声音类型，则从声音标准库中获取儿童对应的标准音频数据；

第二获取子单元，用于若识别出所述目标音频数据属于成人声音类型，则从声音标准库中获取成人对应的标准音频数据。

其中，所述多媒体数据处理装置还包括：

生成模块，用于当获取到所述目标用户针所述目标读物中的最后一页的页面对应的质量分数时，基于所述目标用户对所述目标读物中的每一页页面中的多媒体数据的音频数据以及质量分数合成音频读物，所述音频读物中包括所述目标读物中的每一页页面的多媒体数据，所述音频读物中的每一页页面对应有所述目标用户的音频数据以及质量分数。

其中，所述生成模块具体用于：

本发明另一方面提供了一种多媒体数据处理装置，包括：处理器和存储器；

所述处理器和存储器相连，其中，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行如本发明实施例中一方面中的方法。

本发明实施例另一方面提供了一种计算机存储介质，该计算机存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令当被处理器执行时使该处理器执行上述一方面中的方法。

本发明实施例通过语音播放目标读物中的目标页面中的目标多媒体数据；当播放完目标多媒体数据时，开始计时，并在预设时长内获取目标用户针对目标多媒体数据的目标音频数据；当计时时长达到预设时长时，确定目标音频数据的质量分数；当目标音频数据的质量分数达到质量分数阈值时，将目标页面的下一个页面确定为目标页面。由此可见，通过语音播放目标读物中的文字内容，以使目标用户对语音播放的文字内容进行跟读学习，可使读物所提供的学习方式更加多样化。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种多媒体数据处理方法的流程示意图；

图2是本发明实施例提供的另一种多媒体数据处理方法的流程示意图；

图3是本发明实施例提供的另一种多媒体数据处理方法的流程示意图；

图4是本发明实施例提供的一种多媒体数据处理装置的结构示意图；

图5是本发明实施例提供的另一种多媒体数据处理装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例通过机器对目标读物中的文字内容进行语音播放，以使目标用户可以根据机器语音播放的文字内容进行跟读，比如上述目标读物中包含的文字内容为外文文字，通过让目标用户对机器阅读的外文语音进行外文跟读，可以纠正目标用户的外文发音。并且目标用户在对目标读物中的每一页内容进行跟读的过程中，机器会记录下目标用户的跟读录音，并对所述跟读录音进行评分，比如根据目标用户的跟读录音与机器中的标准音频的匹配度进行评分，只有在目标用户的跟读录音的评分分数达到预设分数阈值，才能使目标用户继续跟读读物中的下一页内容，可以提高目标用户的外文发音的准确性，同时提高目标用户对目标读物跟读学习的质量。其中，上述机器可以是手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(MID，mobile internet device)等终端中的任一种终端，为方便描述，以下统称为机器。上述目标读物可以是绘本、期刊、动画书，所述目标读物中包括任意一种语言的文字内容。

请参见图1，是本发明实施例提供的一种多媒体数据处理方法的流程示意图，如图1所示，所述方法可以包括：

步骤S101，语音播放目标读物中的目标页面中的目标多媒体数据，所述目标读物中包括多个页面；

具体的，机器对目标读物中的目标页面中的目标多媒体数据进行语音播放，所述目标读物可以是预先录入机器的读物，则所述目标多媒体数据的语音音频可以是预先录入机器中的音频；所述目标读物也可以是通过所述机器打开的一个读物文档，机器通过扫描并获取到读物中的每一个页面的文字内容，则所述目标多媒体数据的语音音频可以是即时生成的获取到的文字内容的语音音频。其中，所述目标读物可以是绘本，所述绘本为一类以绘画为主，并附有少量文字的书籍，也称为图画书，有助于使目标用户在阅览新故事、学习新知识的过程中全面构建精神世界，则可以通过机器对绘本(目标读物)中的某一页页面(目标页面)中的文字内容(目标多媒体数据)进行语音播放。其中，所述目标读物(比如绘本)为机器读物，即可以在机器中进行展示，供目标用户阅览。所述目标读物中包括若干个页面，每个页面中包括一些文字内容，所述文字内容可以是英文，比如所述目标读物共有30页，即包括30个页面。更多的，可以在跟读页面(比如目标页面)设置标准音频播放按钮，当机器语音播放完毕所述目标多媒体数据对应的语音音频，支持目标用户通过点击所述标准音频播放按钮，再次播放所述目标多媒体数据对应的语音音频，使得目标用户可以重复对所述目标多媒体数据对应的语音音频进行聆听和学习。

步骤S102，当播放完所述目标多媒体数据时，开始计时，并在预设时长内获取目标用户针对所述目标多媒体数据的目标音频数据，所述目标音频数据为所述目标用户对所述目标多媒体数据进行跟读的数据；

具体的，当机器播放完所述目标多媒体数据的语音音频时，开始计时。可以设置计时时长阈值(预设时长)，比如设置计时时长阈值为3分钟，在计时时长阈值内开始录音，期间获取目标用户对上述目标多媒体数据的语音音频进行跟读的录音音频(即目标音频数据)，到达设置的计时时长阈值时(比如设置的计时时长阈值为3分钟，当计时达到3分钟，则判定到达设置的计时时长阈值)，停止计时和录音，将获取到的目标用户的上述录音音频确定为所述目标音频数据。可以在跟读页面(比如目标页面)设置一个录音音频播放按钮，支持目标用户在完成目标页面的跟读学习的过程中，通过点击所述录音音频播放按钮，随时播放所述目标音频数据，使得目标用户可以对自身的跟读录音音频进行自我审查。

步骤S103，当计时时长达到所述预设时长时，确定所述目标音频数据的质量分数；

具体的，当计时时长到达所述计时时长阈值时，机器获取到了上述目标用户的录音音频，即目标音频数据，将所述目标音频数据与机器中录入的该目标音频数据对应的标准发音的音频数据进行匹配，并判定匹配度，根据所述匹配度确定所述目标音频数据的质量分数。比如当匹配出所述目标音频数据与机器中录入的该目标音频数据对应的标准发音的音频数据的匹配度为80％，则确定所述目标音频数据的质量分数为80分，所述质量分数的具体确定方法根据实际应用场景决定，此处不作限制。

步骤S104，当所述目标音频数据的质量分数达到质量分数阈值时，将所述目标页面的下一个页面确定为所述目标页面；

具体的，设定目标音频数据的质量分数阈值，当所述目标音频数据达到设定的质量分数阈值时，才能使目标用户对读物中的目标页面的下一个页面的内容进行跟读，即将所述目标页面的下一个页面确定为目标页面，使得目标用户继续进行步骤S101－步骤S103的操作，完成对所述目标页面的下一个页面的跟读学习。比如设定所述目标音频数据的质量分数阈值为80分，则当目标音频数据的质量分数不低于80分时，才能使得目标用户可以继续对目标页面的下一个页面的内容进行跟读学习。其中，上述质量分数可以通过小星星来表现，比如质量分数为20分，对应有1个小星星，质量分数为40分，对应有2个小星星，其中，所述质量分数的满分为100分，则小星星的总数对应有5个，当小星星的数量不低于4个(即质量分数为80分)，才能使得目标用户可以继续对目标页面的下一个页面的内容进行跟读学习。

本发明实施例通过语音播放目标读物中的目标页面中的目标多媒体数据；当播放完所述目标多媒体数据时，开始计时，并在预设时长内获取目标用户针对所述目标多媒体数据的目标音频数据；当计时时长达到所述预设时长时，确定所述目标音频数据的质量分数；当所述目标音频数据的质量分数达到质量分数阈值时，将所述目标页面的下一个页面确定为目标页面。由此可见，通过语音播放目标读物中的文字内容，以使目标用户对语音播放的文字内容进行跟读学习，可使读物所提供的学习方式更加多样化。

请参见图2，是本发明实施例提供的另一种多媒体数据处理方法的流程示意图。如图2所示，所述方法可以包括：

步骤S201，展示所述目标读物中的所有页面中的多媒体数据，所述所有页面包括所述目标页面；

具体的，展示目标读物中的每一个页面的多媒体数据，此处多媒体数据可以包括目标读物中的每一个页面的页面绘图和页面文字内容，可以通过翻页的形式，使得目标用户可以对所述目标读物中的所有页面进行预先阅览。

步骤S202，当检测到所述目标读物中的最后一页的页面处于浏览完成状态时，将所述目标读物中的第一页的页面确定为所述目标页面；

具体的，当检测到目标用户浏览到所述目标读物中的最后一页的页面，且检测到所述目标用户对所述最后一页的页面浏览完成，则将目标读物中的第一页的页面确定为所述目标页面。上述检测目标用户对所述最后一页的页面浏览完成的方法可以是在所述最后一页的页面上提供一个“阅览完成”的按钮，当获取到所述按钮“阅览完成”上的点击指令，则判定所述最后一页的页面处于浏览完成状态，并将所述目标读物中的第一页的页面确定为所述目标页面。

步骤S203，语音播放目标读物中的目标页面中的目标多媒体数据，所述目标读物中包括多个页面；

步骤S204，当播放完所述目标多媒体数据时，开始计时，并在预设时长内获取目标用户针对所述目标多媒体数据的目标音频数据，所述目标音频数据为所述目标用户对所述目标多媒体数据进行跟读的数据；

步骤S205，当计时时长达到所述预设时长时，确定所述目标音频数据的质量分数；

步骤S206，当所述目标音频数据的质量分数达到质量分数阈值时，将所述目标页面的下一个页面确定为所述目标页面。

其中，所述步骤S203－步骤S206的具体实现方式请参见图1对应的实施例中对步骤S101－步骤S104所作的描述。

当执行完所述步骤S206，即证明目标用户已经完成了所述目标读物中的第一页内容的跟读学习，则进入所述目标读物中的第二页内容的跟读学习，重新开始执行步骤S203，所述第二页内容的跟读学习过程与所述第一页跟读学习的过程一致，跟读学习的具体过程请参见步骤S203－步骤S206。根据所述跟读学习过程持续进行所述目标读物中的每一页内容的跟读学习，直到完成所述目标读物中的全部页面内容的跟读学习。

步骤S207，当所述目标用户针对所述目标多媒体数据的目标音频数据的质量分数未达到所述质量分数阈值，则重新开始计时，并执行所述在预设时长内获取目标用户针对所述目标多媒体数据的目标音频数据的步骤；

具体的，当检测到所述目标用户针对所述目标多媒体数据的目标音频数据的质量分数未达到所述质量分数阈值，比如设定的质量分数阈值为80分，而所述目标音频数据的质量分数为70分，则判定所述目标音频数据的质量分数未达到所述质量分数阈值。此时开始重新计时，且计时时长阈值仍然为上述预先设定的计时时长阈值，在所述计时时长阈值期间进行录音，重新获取目标用户针对所述目标多媒体数据的录音音频，即重新获取目标音频数据，当重新获取到所述目标音频数据，则重新开始执行上述步骤S204－步骤S206的操作。其中，当用户未对所述目标多媒体数据进行跟读时，也视为所述目标音频数据的质量分数未达到所述质量分数阈值。

通过对目标用户针对目标读物中的每一页内容跟读的录音音频打分，并且要求打分分数达到指定分数才能进行下一页内容的跟读学习，使得目标用户在保证跟读质量的条件下完成整个目标读物的跟读学习，可以提升目标用户的跟读学习效果。

参见图3，是本发明实施例提供的另一种多媒体数据处理方法的流程示意图。如图3所示，所述方法可以包括：

步骤S301，语音播放目标读物中的目标页面中的目标多媒体数据，所述目标读物中包括多个页面；

步骤S302，当播放完所述目标多媒体数据时，开始计时，并在预设时长内获取目标用户针对所述目标多媒体数据的目标音频数据，所述目标音频数据为所述目标用户对所述目标多媒体数据进行跟读的数据。

其中，所述步骤S301－步骤S302的具体实现方式请参见图1对应的实施例中对步骤S101－步骤S102所作的描述。

步骤S303，对所述目标音频数据进行声音识别，若识别出所述目标音频数据属于儿童声音类型，则从声音标准库中获取儿童对应的标准音频数据；

具体的，对上述获取到的目标音频数据进行声音识别，若识别出所述目标音频数据对应的声音属于儿童声音类型，即识别出录入上述目标音频数据的目标用户为儿童，则从机器中预先设定好的声音标准库中获取儿童对应的标准音频数据。

步骤S304，若识别出所述音频数据属于成人声音类型，则从声音标准库中获取成人对应的标准音频数据；

具体的，若通过上述声音识别操作，识别出所述目标音频数据对应的声音属于成人声音类型，即识别出录入上述目标音频数据的目标用户为成人，则从机器中预先设定好的声音标准库中获取成人对应的标准音频数据。

通过上述步骤S303与步骤S304中描述的两种标准音频数据的获取方法，可以针对不同人群进行不同标准的打分机制，比如将人群分为儿童与成人，可以对儿童对应的打分机制放宽松，对成人的打分机制放严格，如此可以使目标音频数据的打分更准确，适用性更强。

步骤S305，确定所述目标音频数据与所述标准音频数据的匹配度，根据所述匹配度确定所述目标音频数据的所述质量分数；

具体的，当识别出所述目标音频数据对应的声音属于儿童声音类型，则将所述目标音频数据与所述儿童对应的标准音频数据相匹配，并确定其匹配度；当识别出所述目标音频数据对应的声音属于成人声音类型，则将所述目标音频数据与所述成人对应的标准音频数据相匹配，并确定其匹配度。进一步地，根据确定的匹配度进一步确定所述目标音频数据的质量分数，比如当确定的匹配度为80％，则确定所述目标音频数据的质量分数为80分，匹配度与质量分数的具体关系根据实际应用场景决定，此处不作限制。

步骤S306，当所述目标音频数据的质量分数达到质量分数阈值时，将所述目标页面的下一个页面确定为所述目标页面；

其中，所述步骤S306的具体实现方式请参见图1对应的实施例中对步骤S104所作的描述。

步骤S307，当获取到所述目标用户针所述目标读物中的最后一页的页面对应的质量分数时，基于所述目标用户对所述目标读物中的每一页页面中的多媒体数据的音频数据以及质量分数合成音频读物，所述音频读物中包括所述目标读物中的每一页页面的多媒体数据，所述音频读物中的每一页页面对应有所述目标用户的音频数据以及质量分数；

具体的，当获取到所述目标用户针对所述目标读物中的最后一页的页面对应的质量分数时，则表明所述目标用户完成了对所述目标读物的全部页面的跟读学习。机器根据获取到的目标用户对所述目标读物中的每一页页面的多媒体数据的音频数据以及音频数据对应的质量分数合成音频读物。所述音频读物中包括所述目标读物的每一个页面的内容，包括绘画内容与文字内容，所述音频读物中的每一个页面中还对应显示有目标用户针对该页内容跟读的音频数据的质量分数，且所述音频读物中的每一个页面中还对应有一个音频播放按钮，当接收到目标用户点击所述播放按钮的指令时，对应播放所述目标用户针对该个页面的跟读录音的音频。

步骤S308，当进入所述音频读物中的所述目标页面，播放所述目标页面对应的所述目标用户的所述目标音频数据；

具体的，支持目标用户可以选择设置在阅览上述音频读物的过程中，自动播放每一个页面对应的目标音频数据。即当目标用户点开音频读物中的某个页面时，自动播放所述目标用户针对所述某个页面的录音音频(即目标音频数据)。

请参见图4，是本发明实施例提供的一种多媒体数据处理装置的结构示意图。如图4所示，该多媒体数据处理装置1可以包括：语音模块11、计时模块12、分数确定模块13、页面确定模块14；

语音模块11，用于语音播放目标读物中的目标页面中的目标多媒体数据，所述目标读物中包括多个页面；

计时模块12，用于当播放完所述目标多媒体数据时，开始计时，并在预设时长内获取目标用户针对所述目标多媒体数据的目标音频数据，所述目标音频数据为所述目标用户对所述目标多媒体数据进行跟读的数据；

分数确定模块13，用于当计时时长达到所述预设时长时，确定所述目标音频数据的质量分数；

页面确定模块14，用于当所述目标音频数据的质量分数达到质量分数阈值时，将所述目标页面的下一个页面确定为所述目标页面。

其中，所述语音模块11、计时模块12、分数确定模块13、页面确定模块14的具体功能实现方式请参见图1对应的实施例中的步骤S101-步骤S104，这里不再进行赘述。

参见图4，所述多媒体数据处理装置1还包括展示模块15、检测模块16；

展示模块15，用于展示所述目标读物中的所有页面中的多媒体数据，所述所有页面包括所述目标页面；

检测模块16，用于当检测到所述目标读物中的最后一页的页面处于浏览完成状态时，将所述目标读物中的第一页的页面确定为所述目标页面。

其中，所述展示模块15和所述检测模块16的具体功能实现方式请参见图2对应的实施例中的步骤S201-步骤S202，这里不再进行赘述。

其中，所述多媒体数据处理装置1具体用于：

参见图4，所述分数确定模块13，包括：获取单元131、匹配度确定单元132、分数确定单元133；

获取单元131，用于获取标准音频数据；

匹配度确定单元132，用于确定所述目标音频数据与所述标准音频数据的匹配度；

分数确定单元133，用于根据所述匹配度确定所述目标音频数据的所述质量分数。

其中，所述获取单元131的具体功能实现方式请参见图3对应的实施例中的步骤S303-步骤S304，所述匹配度确定单元132和所述分数确定单元133的具体功能实现方式请参见图3对应的实施例中的步骤S305，这里不再进行赘述。

参见图4，所述获取单元131，包括：识别子单元1311、第一获取子单元1312、第二获取子单元1313；

识别子单元1311，用于对所述目标音频数据进行声音识别；

第一获取子单元1312，用于若识别出所述目标音频数据属于儿童声音类型，则从声音标准库中获取儿童对应的标准音频数据；

第二获取子单元1313，用于若识别出所述目标音频数据属于成人声音类型，则从声音标准库中获取成人对应的标准音频数据。

其中，所述识别子单元1311、第一获取子单元1312、第二获取子单元1313的具体功能实现方式请参见图3对应的实施例中的步骤S303-步骤S304，这里不再进行赘述。

其中，所述多媒体数据处理装置1还包括生成模块17；

生成模块17，用于当获取到所述目标用户针所述目标读物中的最后一页的页面对应的质量分数时，基于所述目标用户对所述目标读物中的每一页页面中的多媒体数据的音频数据以及质量分数合成音频读物，所述音频读物中包括所述目标读物中的每一页页面的多媒体数据，所述音频读物中的每一页页面对应有所述目标用户的音频数据以及质量分数。

其中，所述生成模块17具体用于：

其中，所述生成模块17的具体功能实现方式请参见图3对应的实施例中的步骤S307，这里不再进行赘述。

请参见图5，是本发明实施例提供的另一种多媒体数据处理装置的结构示意图。参见图5，所述多媒体数据处理装置1000可以包括：处理器1001，网络接口1004和存储器1005，此外，所述多媒体数据处理装置1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatilememory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图5所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图5所示的多媒体数据处理装置1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

在一个实施例中，所述处理器1001还执行以下步骤：

在一个实施例中，所述处理器1001在执行所述确定所述目标音频数据的质量分数，具体执行以下步骤：

获取标准音频数据；

确定所述目标音频数据与所述标准音频数据的匹配度；

根据所述匹配度确定所述目标音频数据的所述质量分数。

在一个实施例中，所述处理器1001在执行所述获取标准音频数据，具体执行以下步骤：

对所述目标音频数据进行声音识别；

在一个实施例中，所述处理器1001还执行以下步骤：

应当理解，本发明实施例中所描述的多媒体数据处理装置1000可执行前文图1、图2、图3中任一个所对应实施例中对所述多媒体数据处理方法的描述，也可执行前文图4所对应实施例中对所述多媒体数据处理装置1的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本发明实施例还提供了一种计算机存储介质，且所述计算机存储介质中存储有前文提及的多媒体数据处理装置1所执行的计算机程序，且所述计算机程序包括程序指令，当所述处理器执行所述程序指令时，能够执行前文图1至图3任一个所对应实施例中对所述多媒体数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本发明所涉及的计算机存储介质实施例中未披露的技术细节，请参照本发明方法实施例的描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖范围。

Claims

1.一种多媒体数据处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述确定所述目标音频数据的质量分数，包括：

获取标准音频数据；

确定所述目标音频数据与所述标准音频数据的匹配度；

根据所述匹配度确定所述目标音频数据的所述质量分数。

5.根据权利要求4所述的方法，其特征在于，所述获取标准音频数据，包括：

对所述目标音频数据进行声音识别；

若识别出所述目标音频数据属于成人声音类型，则从声音标准库中获取成人对应的标准音频数据。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

8.一种多媒体数据处理装置，其特征在于，包括：

播放模块，用于语音播放目标读物中的目标页面中的目标多媒体数据，所述目标读物中包括多个页面；

获取模块，用于当播放完所述目标多媒体数据时，开始计时，并在预设时长内获取目标用户针对所述目标多媒体数据的目标音频数据，所述目标音频数据为所述目标用户对所述目标多媒体数据进行跟读的数据；

第一确定模块，用于当计时时长达到所述预设时长时，确定所述目标音频数据的质量分数；

第二确定模块，用于当所述目标音频数据的质量分数达到质量分数阈值时，将所述目标页面的下一个页面确定为所述目标页面。

9.一种多媒体数据处理装置，其特征在于，包括：处理器和存储器；

所述处理器和存储器相连，其中，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行如权利要求1-7任一项所述的方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。