CN110223718B

CN110223718B - 一种数据处理方法、装置及存储介质

Info

Publication number: CN110223718B
Application number: CN201910528253.9A
Authority: CN
Inventors: 谢军
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2019-06-18
Filing date: 2019-06-18
Publication date: 2021-07-16
Anticipated expiration: 2039-06-18
Also published as: CN110223718A

Abstract

本发明实施例公开了一种数据处理方法、装置及存储介质，其中，方法包括：采集视频数据；所述视频数据包含用户背诵时的图像数据和音频数据；对所述图像数据和音频数据分别进行分段处理，将分段处理后的图像数据和音频数据进行组合，得到至少两组数据；针对所述至少两组数据中的每组数据，判断相应组数据是否满足第一预设条件；当确定相应组数据满足第一预设条件时，基于采集时间在相应组数据之前的组数据以及采集时间在相应组数据之后的组数据，确定用户不熟悉的内容。

Description

一种数据处理方法、装置及存储介质

技术领域

本发明涉及数据处理技术，尤其涉及一种数据处理方法、装置及存储介质。

背景技术

目前，随着互联网和计算机技术的快速发展，越来越多的用户习惯使用电子设备如移动终端进行学习。比如，通常，用户可以通过移动终端上安装的应用程序进行单词或文章的背诵，当用户在背诵过程中遇到不熟悉的内容时，需要用户在应用程序中手动选择该内容是否熟悉。

上述方式中需要用户手动选择不熟悉的背诵内容，无法实现自动识别用户不熟悉的背诵内容。

发明内容

有鉴于此，本发明实施例期望提供一种数据处理方法、装置及存储介质。

为达到上述目的，本发明的技术方案是这样实现的：

本发明实施例提供一种数据处理方法，所述方法包括：

采集视频数据；所述视频数据包含用户背诵时的图像数据和音频数据；

对所述图像数据和音频数据分别进行分段处理，将分段处理后的图像数据和音频数据进行组合，得到至少两组数据；

针对所述至少两组数据中的每组数据，判断相应组数据是否满足第一预设条件；

当确定相应组数据满足第一预设条件时，基于采集时间在相应组数据之前的组数据以及采集时间在相应组数据之后的组数据，确定用户不熟悉的内容。

上述方案中，所述对所述图像数据和音频数据分别进行分段处理，将分段处理后的图像数据和音频数据进行组合，得到至少两组数据，包括：

确定至少两个时间锚点；

利用所述至少两个时间锚点，对所述图像数据进行分段处理，得到至少两个图像数据；利用所述至少两个时间锚点，对所述音频数据进行分段处理，得到至少两个音频数据；

将时间锚点相同的图像数据和音频数据进行组合，得到至少两组数据。

上述方案中，所述针对所述至少两组数据中的每组数据，判断相应组数据是否满足第一预设条件，包括：

针对所述至少两组数据中的每组数据，对相应组数据包含的图像数据进行特征提取，得到第一特征数据；对相应组数据包含的音频数据进行特征提取，得到第二特征数据；

确定所述第一特征数据满足第二预设条件且所述第二特征数据满足第三预设条件；

确定所述第一特征数据满足第二预设条件且所述第二特征数据满足第三预设条件时，确定相应组数据满足第一预设条件。

上述方案中，所述确定所述第一特征数据满足第二预设条件，包括：

基于所述第一特征数据，以及预设面部识别模型，得到用户表情；

将所述用户表情与预设表情相匹配，得到匹配结果；

当所述匹配结果表征所述用户表情与预设表情匹配时，确定所述第一特征数据满足第二预设条件。

上述方案中，所述确定所述第二特征数据满足第三预设条件，包括：

基于所述第二特征数据，以及预设语音识别模型，得到第一识别结果；

基于所述第一识别结果，统计用户背诵过程中的错误率；

确定统计的错误率大于预设阈值；

当确定统计的错误率大于预设阈值时，确定所述第二特征数据满足第三预设条件。

上述方案中，所述基于采集时间在相应组数据之前的组数据以及采集时间在相应组数据之后的组数据，确定用户不熟悉的内容，包括：

针对采集时间在相应组数据之前的第一组数据，基于所述第一组数据包含的音频数据对应的特征数据，以及预设语音识别模型，得到第二识别结果；

针对采集时间在相应组数据之后的第二组数据，基于所述第二组数据包含的音频数据对应的特征数据，以及预设语音识别模型，得到第三识别结果；

确定所述第二识别结果对应的第一文本内容与预设背诵文本内容相匹配且所述第三识别结果对应的第二文本内容与预设背诵文本内容相匹配；

基于所述第一文本内容、第二文本内容，确定用户不熟悉的内容。

上述方案中，所述方法还包括：

基于所述用户不熟悉的内容，生成提示消息；所述提示消息用于提示用户背诵出错；

输出所述提示消息。

本发明实施例提供一种数据处理装置，所述装置包括：

采集单元，用于采集视频数据；所述视频数据包含用户背诵时的图像数据和音频数据；

分段单元，用于对所述图像数据和音频数据分别进行分段处理，将分段处理后的图像数据和音频数据进行组合，得到至少两组数据；

判断单元，用于针对至少两组数据中的每组数据，判断相应组数据是否满足第一预设条件；

确定单元，用于当确定相应组数据满足第一预设条件时，基于采集时间在相应组数据之前的组数据以及采集时间在相应组数据之后的组数据，确定用户不熟悉的内容。

上述方案中，所述分段单元，具体用于：确定至少两个时间锚点；利用所述至少两个时间锚点，对所述图像数据进行分段处理，得到至少两个图像数据；利用所述至少两个时间锚点，对所述音频数据进行分段处理，得到至少两个音频数据；将时间锚点相同的图像数据和音频数据进行组合，得到至少两组数据。

上述方案中，所述判断单元，具体用于：针对所述至少两组数据中的每组数据，对相应组数据包含的图像数据进行特征提取，得到第一特征数据；对相应组数据包含的音频数据进行特征提取，得到第二特征数据；确定所述第一特征数据满足第二预设条件且所述第二特征数据满足第三预设条件；确定所述第一特征数据满足第二预设条件且所述第二特征数据满足第三预设条件时，确定相应组数据满足第一预设条件。

上述方案中，所述判断单元，具体用于：基于所述第一特征数据，以及预设面部识别模型，得到用户表情；将所述用户表情与预设表情相匹配，得到匹配结果；当所述匹配结果表征所述用户表情与预设表情匹配时，确定所述第一特征数据满足第二预设条件。

上述方案中，所述判断单元，具体用于：基于所述第二特征数据，以及预设语音识别模型，得到第一识别结果；基于所述第一识别结果，统计用户背诵过程中的错误率；确定统计的错误率大于预设阈值；当确定统计的错误率大于预设阈值时，确定所述第二特征数据满足第三预设条件。

上述方案中，所述确定单元，具体用于：针对采集时间在相应组数据之前的第一组数据，基于所述第一组数据包含的音频数据对应的特征数据，以及预设语音识别模型，得到第二识别结果；针对采集时间在相应组数据之后的第二组数据，基于所述第二组数据包含的音频数据对应的特征数据，以及预设语音识别模型，得到第三识别结果；确定所述第二识别结果对应的第一文本内容与预设背诵文本内容相匹配且所述第三识别结果对应的第二文本内容与预设背诵文本内容相匹配；基于所述第一文本内容、第二文本内容，确定用户不熟悉的内容。

上述方案中，所述装置还包括：提示单元，用于基于所述用户不熟悉的内容，生成提示消息；所述提示消息用于提示用户背诵出错；输出所述提示消息。

本发明实施例提供一种数据处理装置，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，

其中，所述处理器用于运行所述计算机程序时，执行上面所述任一项数据处理方法的步骤。

本发明实施例提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上面所述任一项数据处理方法的步骤。

本发明实施例所提供的数据处理方法、装置及存储介质，采集视频数据；所述视频数据包含用户背诵时的图像数据和音频数据；对所述图像数据和音频数据分别进行分段处理，将分段处理后的图像数据和音频数据进行组合，得到至少两组数据；针对所述至少两组数据中的每组数据，判断相应组数据是否满足第一预设条件；当确定相应组数据满足第一预设条件时，基于采集时间在相应组数据之前的组数据以及采集时间在相应组数据之后的组数据，确定用户不熟悉的内容。采用本发明实施例的技术方案，能够结合采集的图像数据和音频数据，自动识别出用户不熟悉的内容，无需用户手动选择不熟悉的内容。

附图说明

图1为本发明实施例数据处理方法的实现流程示意图；

图2a为本发明实施例用户心理状态的示意图；

图2b为本发明实施例用户心理状态与用户面部特征的对应关系的示意图；

图3为本发明实施例利用卷积神经网络对用户面部表情进行识别的示意图；

图4为本发明实施例数据处理装置的实现流程示意图一；

图5为本发明实施例数据处理装置的实现流程示意图二。

具体实施方式

为了能够更加详尽地了解本发明的特点与技术内容，下面结合附图对本发明的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本发明。

基于此，本发明实施例中，采集视频数据；所述视频数据包含用户背诵时的图像数据和音频数据；对所述图像数据和音频数据分别进行分段处理，将分段处理后的图像数据和音频数据进行组合，得到至少两组数据；针对所述至少两组数据中的每组数据，判断相应组数据是否满足第一预设条件；当确定相应组数据满足第一预设条件时，基于采集时间在相应组数据之前的组数据以及采集时间在相应组数据之后的组数据，确定用户不熟悉的内容。

本发明实施例提供一种数据处理方法，应用于终端，如图1所示，所述方法包括：

步骤101：采集视频数据；所述视频数据包含用户背诵时的图像数据和音频数据。

其中，所述图像数据可以是指由多帧脸部图像构成的数据；所述音频数据可以是指由多帧语音构成的数据。

实际应用时，可以利用所述终端的采集装置采集用户背诵时的图像数据和音频数据；所述采集装置可以是指能够支持采集二维图像和音频的装置，具体可以为普通摄像头等等。

这里，可以在用户背诵诗歌、语文课文等内容的过程中对用户的脸部和用户的声音进行采集，得到用户背诵时的图像数据和音频数据。

步骤102：对所述图像数据和音频数据分别进行分段处理，将分段处理后的图像数据和音频数据进行组合，得到至少两组数据。

实际应用时，在用户背诵诗歌、语文课文等内容的过程中，用户可能由于对背诵内容的不熟悉、记忆力较差等原因导致在背诵过程中出现“声音卡顿”、“声音小”、“背诵错误”等现象，同时，用户的面部可能会做出“疑惑”的表情，这样，可以结合用户背诵时的图像数据和音频数据对用户不熟悉的背诵内容进行识别。

基于此，在一实施例中，所述对所述图像数据和音频数据分别进行分段处理，将分段处理后的图像数据和音频数据进行组合，得到至少两组数据，包括：确定至少两个时间锚点；利用所述至少两个时间锚点，对所述图像数据进行分段处理，得到至少两个图像数据；利用所述至少两个时间锚点，对所述音频数据进行分段处理，得到至少两个音频数据；将时间锚点相同的图像数据和音频数据进行组合，得到至少两组数据。

这里，对所述图像数据和音频数据分别进行分段处理的过程可以包括以下几种情况：

第一种情况，获取用户背诵一个句子的时长；基于获取的时长，对所述图像数据和音频数据分别进行分段处理。

这里，假设用户背诵的内容包含四个句子，在用户背诵过程中，如果用户对第二个句子的内容不熟悉，则用户可能在背诵第二个句子时出现“声音的卡顿”并做出“疑惑”的表情，这样，当用户背诵完四个句子之后，可以生成提示信息；所述提示信息用于提示用户输入背诵一个句子的时长；接收用户输入的时长；基于接收的时长，对采集的图像数据和音频数据分别进行分段处理。

举例来说，假设用户输入的背诵一个句子的时长为10s，采集的图像数据和音频数据的总时长为1分钟，则每隔10s确定一个时间锚点，得到的时间锚点为10s、20s、30s、40s、50s；按照得到的时间锚点，对采集的图像数据进行分段处理，对采集的音频数据进行分段处理。

第二种情况，获取用户输入的段数；基于获取的段数，对所述图像数据和音频数据分别进行分段处理。

这里，假设用户对背诵的内容很自信，在用户背诵过程中出现“声音的卡顿”并做出“疑惑”的表情的概率就会较小；假设用户对背诵的内容不是很自信，在用户背诵过程中出现“声音的卡顿”并做出“疑惑”的表情的概率就会较大，这样，当用户将背诵内容背诵完成后，可以生成提示信息；所述提示信息用于提示用户根据自身对背诵内容的信心程度输入段数；接收用户输入的段数；基于接收的段数，对采集的图像数据和音频数据分别进行分段处理。

举例来说，假设用户可以根据对背诵内容的自信程度，从提示的段数中选取待输入的段数，比如，提示的段数包括3段，5段，10段；其中，3段表示用户对背诵的内容十分熟悉，5段表示用户对背诵的内容的把握程度一般，10段表示用户对背诵的内容的把握程度较差。当用户输入的段数为3段时，可以基于采集的图像数据的音频数据的总时长，以及获取的用户输入的段数，确定对应的时间锚点；基于确定的时间锚点，对采集的图像数据进行分段处理，对采集的音频数据进行分段处理。

这里，对所述图像数据和音频数据进行分段处理后，可以将时间锚点相同的图像数据和音频数据进行组合，得到至少两组数据，这样，可以结合相应组数据包含的图像数据和音频数据对用户不熟悉的背诵内容进行识别，以提高识别的准确度。

步骤103：针对所述至少两组数据中的每组数据，判断相应组数据是否满足第一预设条件。

这里，相应组数据满足第一预设条件的情况可以包括以下几种：

第一种情况，相应组数据包含的图像数据对应的用户表情为“疑惑”表情，相应组数据包含的音频数据对应的用户声音出现“卡顿”情况。

这里，结合相应组数据包含的图像数据和音频数据对用户不熟悉的背诵内容进行识别时，可以对相应组数据包含的图像数据进行图像识别，以确定相应图像数据对应的用户表情是否为“疑惑”表情；同时，对相应组数据包含的音频数据进行语音识别，以确定相应音频数据对应的用户声音是否出现“卡顿”情况，当确定相应组数据包含的图像数据对应的用户表情为“疑惑”表情，相应组数据包含的音频数据对应的用户声音出现“卡顿”情况时，确定相应组数据满足第一预设条件。

第二种情况，相应组数据包含的图像数据对应的用户表情为“疑惑”表情，相应组数据包含的音频数据对应的用户音量较低。

这里，结合相应组数据包含的图像数据和音频数据对用户不熟悉的背诵内容进行识别时，可以对相应组数据包含的图像数据进行图像识别，以确定相应图像数据对应的用户表情是否为“疑惑”表情；同时，对相应组数据包含的音频数据进行语音识别，以确定相应音频数据对应的用户音量是否较低，当确定相应组数据包含的图像数据对应的用户表情为“疑惑”表情，相应组数据包含的音频数据对应的用户音量较低时，确定相应组数据满足第一预设条件。

第三种情况，相应组数据包含的图像数据对应的用户表情为“疑惑”表情，相应组数据包含的音频数据对应的文本与背诵内容不匹配。

这里，结合相应组数据包含的图像数据和音频数据对用户不熟悉的背诵内容进行识别时，可以对相应组数据包含的图像数据进行图像识别，以确定相应图像数据对应的用户表情是否为“疑惑”表情；同时，对相应组数据包含的音频数据进行语音识别，以确定相应音频数据对应的文本是否与背诵内容不匹配，当确定相应组数据包含的图像数据对应的用户表情为“疑惑”表情，相应组数据包含的音频数据对应的文本与背诵内容不匹配时，确定相应组数据满足第一预设条件。

实际应用时，可以结合相应组数据包含的图像数据对应的特征数据和音频数据对应的特征数据，确定相应组数据是否满足上述的所述第一预设条件，以对用户不熟悉的背诵内容进行识别。

基于此，在一实施例中，所述针对所述至少两组数据中的每组数据，判断相应组数据是否满足第一预设条件，可以包括：针对所述至少两组数据中的每组数据，对相应组数据包含的图像数据进行特征提取，得到第一特征数据；对相应组数据包含的音频数据进行特征提取，得到第二特征数据；确定所述第一特征数据满足第二预设条件且所述第二特征数据满足第三预设条件；确定所述第一特征数据满足第二预设条件且所述第二特征数据满足第三预设条件时，确定相应组数据满足第一预设条件。

实际应用时，当确定相应组数据包含的图像数据对应的用户表情为“疑惑”表情时，可以确定所述第一特征数据满足第二预设条件。

基于此，在一实施例中，所述确定所述第一特征数据满足第二预设条件，可以包括：基于所述第一特征数据，以及预设面部识别模型，得到用户表情；将所述用户表情与预设表情相匹配，得到匹配结果；当所述匹配结果表征所述用户表情与预设表情匹配时，确定所述第一特征数据满足第二预设条件。

这里，所述预设表情可以为“疑惑”表情。图2a是用户的心理状态示意图，图2b是用户心理状态与用户面部特征的对应关系，如图2b所示，可看出，当用户对背诵的内容不熟悉时，会出现“疑惑”的心理状态，并且面部会做出疑惑表情，表现的面部特征可以包括眉目紧蹙，嘴角下移、头部倾斜或低头等等。

实际应用时，所述预设面部识别模型可以是利用训练数据，通过机器学习得到的；其中，机器学习可以包括深度学习，比如卷积神经网络。

这里，所述预设面部识别模型的具体构建过程可以包括：在用户背诵过程中，可以利用终端的采集装置采集用户的面部图像和音频，这样，可以得到包含面部图像和音频的视频流；用户可以根据自身对面部表情的判断，对所述视频流包含的每帧面部图像进行标注，如果用户判定相应帧的面部图像对应的表情为“疑惑”表情，则对相应帧的面部表情设置一个标签为“不熟悉”；如果用户判定相应帧的面部图像对应的表情为“理解”表情，则对相应帧的面部表情设置一个标签为“熟悉”，如此，得到所述训练数据。然后，在图3所示的卷积神经网络的输入层输入所述训练数据进行模型训练，通过卷积神经网络的至少一层特征提取层对所述训练数据进行输入到输出的映射，得到至少一个面部特征数据；每个面部特征数据对应一个面部表情。其中，所述特征提取层可以包括卷积层、池化层。这里，在图3所示的卷积神经网络的输入层输入所述训练数据之前，还可以对所述训练数据进行数据增强、归一化、亮度处理。

这里，基于所述第一特征数据，以及预设面部识别模型，可以得到一个面部特征数据，该面部特征数据与“疑惑”表情对应的面部特征数据相匹配时，确定所述第一特征数据满足第二预设条件。

实际应用，当确定相应组数据包含的音频数据对应的文本与背诵内容不匹配时，可以确定所述第二特征数据满足第三预设条件。也就是说，用户在背诵过程中出现背诵错误时，可以确定所述第二特征数据满足第三预设条件。

基于此，在一实施例中，所述确定所述第二特征数据满足第三预设条件，可以包括：基于所述第二特征数据，以及预设语音识别模型，得到第一识别结果；基于所述第一识别结果，统计用户背诵过程中的错误率；确定统计的错误率大于预设阈值；当确定统计的错误率大于预设阈值时，确定所述第二特征数据满足第三预设条件。

实际应用时，所述预设语音识别模型可以是利用训练数据，通过机器学习得到的；其中，机器学习可以包括深度学习，比如卷积神经网络。

具体地，可以对相应组数据包含的音频数据进行预加重、分帧加窗、端点检测、特征提取等处理，得到所述第二特征数据；在所述预设语音识别模型的输入层输入所述第二训练数据进行语音识别，通过预设语音识别模型的至少一层特征提取层对所述第二训练数据进行输入到输出的映射，得到所述第一识别结果。基于所述第一识别结果，统计用户背诵过程中的错误率；确定统计的错误率大于预设阈值，如20％；当确定统计的错误率大于预设阈值时，确定所述第二特征数据满足第三预设条件。其中，所述预设阈值可以根据实际背诵内容包含的汉字的数量确定。

实际应用时，确定相应组数据包含的音频数据对应的用户音量较低时，可以确定所述第二特征数据满足第三预设条件。也就是说，用户在背诵过程中背诵声音的较小或未发出声音时，可以确定所述第二特征数据满足第三预设条件。

基于此，在一实施例中，所述确定所述第二特征数据满足第三预设条件，可以包括：基于所述第二特征数据，确定用户的声音强度；确定声音强度是否小于预设阈值；当确定声音强度小于预设阈值时，确定所述第二特征数据满足第三预设条件。

举例来说，假设确定用户的声音强度小于预设阈值，如5分贝，则确定用户在背诵过程中背诵的声音较小或未发出声音，可以确定所述第二特征数据满足第三预设条件。

实际应用时，确定相应组数据包含的音频数据对应的用户声音出现“卡顿”情况时，可以确定所述第二特征数据满足第三预设条件。也就是说，用户在背诵过程中背诵出现断断续续的情况时，可以确定所述第二特征数据满足第三预设条件。

基于此，在一实施例中，所述确定所述第二特征数据满足第三预设条件，可以包括：基于所述第二特征数据，确定对应的语音平均幅值；确定所述语音平均幅值小于预设阈值；当确定所述语音平均幅值小于预设阈值时，确定所述第二特征数据满足第三预设条件。

举例来说，如果确定的语音平均幅值小于预设阈值，则可以确定用户在背诵过程中出现断断续续、支支吾吾的情况，也就是，确定所述第二特征数据满足第三预设条件。

步骤104：当确定相应组数据满足第一预设条件时，基于采集时间在相应组数据之前的组数据以及采集时间在相应组数据之后的组数据，确定用户不熟悉的内容。

这里，当确定相应组数据满足第一预设条件时，可以确定用户对相应组数据包含的音频数据对应的文本内容不熟悉。

实际应用时，为了能够确定出用户不熟悉的内容，考虑到相应组数据包含的音频数据无法得到匹配的背诵文本，这样，需要结合采集时间在相应组数据之前的组数据以及采集时间在相应组数据之后的组数据进行确定用户不熟悉的背诵文本。

基于此，在一实施例中，所述基于采集时间在相应组数据之前的组数据以及采集时间在相应组数据之后的组数据，确定用户不熟悉的内容，包括：针对采集时间在相应组数据之前的第一组数据，基于所述第一组数据包含的音频数据对应的特征数据，以及预设语音识别模型，得到第二识别结果；针对采集时间在相应组数据之后的第二组数据，基于所述第二组数据包含的音频数据对应的特征数据，以及预设语音识别模型，得到第三识别结果；确定所述第二识别结果对应的第一文本内容与预设背诵文本内容相匹配且所述第三识别结果对应的第二文本内容与预设背诵文本内容相匹配，基于所述第一文本内容、第二文本内容，确定用户不熟悉的内容。

这里，如果确定所述第二识别结果对应的第一文本内容与预设背诵文本内容不匹配，则可以针对采集时间在第一组数据之前的第三组数据，基于所述第三组数据包含的音频数据对应的特征数据，以及预设语音识别模型，得到第四识别结果；确定所述第四识别结果对应的第三文本内容与预设背诵文本内容相匹配且所述第三识别结果对应的第二文本内容与预设背诵文本内容相匹配；基于所述第三文本内容、第二文本内容，确定用户不熟悉的内容。

同样地，如果确定所述第三识别结果对应的第二文本内容与预设背诵文本内容不匹配，则可以针对采集时间在第二组数据之前的第四组数据，基于所述第四组数据包含的音频数据对应的特征数据，以及预设语音识别模型，得到第四识别结果；确定所述第二识别结果对应的第一文本内容与预设背诵文本内容相匹配且所述第四识别结果对应的第四文本内容与预设背诵文本内容相匹配；基于所述第一文本内容、第四文本内容，确定用户不熟悉的内容。

实际应用时，为了加深用户对不熟悉的内容的记忆，可以将确定的不熟悉的内容提示给用户。

基于此，在一实施例中，所述方法还包括：基于所述用户不熟悉的内容，生成提示消息；所述提示消息用于提示用户背诵出错；输出所述提示消息。

实际应用时，可以对用户不熟悉的内容进行提示，比如，可以通过所述终端的蜂鸣器输出提示消息如“背错句子为：哀哀父母，生我劬劳，要加深记忆哦”。还可以统计用户不熟悉的内容对应的语句数量，对用户不熟悉的内容对应的语句数量进行提示，比如，用户不熟悉的内容对应三个语句，则可以通过所述终端的蜂鸣器以固定频率的声波对用户提醒三次，以提示用户对三个语句不熟悉。

采用本发明实施例的技术方案，能够结合采集的图像数据和音频数据，自动识别出用户不熟悉的内容，无需用户手动选择不熟悉的内容。

另外，可以基于相应组数据包含的图像数据和音频数据，确定用户的面部是否做出“疑惑”的表情，且用户的声音是否出现“声音卡顿”现象，以识别用户不熟悉的背诵内容。还可以基于相应组数据包含的图像数据和音频数据，确定用户的面部是否做出“疑惑”的表情，且用户的声音是否出现“声音较小”现象，以识别用户不熟悉的背诵内容。还可以基于相应组数据包含的图像数据和音频数据，确定用户的面部是否做出“疑惑”的表情，且用户是否存在背诵错误的问题，以识别用户不熟悉的背诵内容。

为实现本发明实施例的方法，本发明实施例还提供一种数据处理装置，如图4所示，所述装置包括：

采集单元41，用于采集视频数据；所述视频数据包含用户背诵时的图像数据和音频数据；

分段单元42，用于对所述图像数据和音频数据分别进行分段处理，将分段处理后的图像数据和音频数据进行组合，得到至少两组数据；

判断单元43，用于针对至少两组数据中的每组数据，判断相应组数据是否满足第一预设条件；

确定单元44，用于当确定相应组数据满足第一预设条件时，基于采集时间在相应组数据之前的组数据以及采集时间在相应组数据之后的组数据，确定用户不熟悉的内容。

实际应用时，在用户背诵诗歌、语文课文等内容的过程中，用户可能由于对背诵内容的不熟悉、记忆力较差等原因导致在背诵过程中出现“声音的卡顿”现象，并且用户的面部可能会做出“疑惑”的表情，这样，可以结合用户背诵时的图像数据和音频数据对用户不熟悉的背诵内容进行识别。

基于此，在一实施例中，所述分段单元42，具体用于：确定至少两个时间锚点；利用所述至少两个时间锚点，对所述图像数据进行分段处理，得到至少两个图像数据；利用所述至少两个时间锚点，对所述音频数据进行分段处理，得到至少两个音频数据；将时间锚点相同的图像数据和音频数据进行组合，得到至少两组数据。

这里，对所述图像数据和音频数据分别进行分段处理的过程可以包括以下几种情况：第一种情况，获取用户背诵一个句子的时长；基于获取的时长，对所述图像数据和音频数据分别进行分段处理。第二种情况，获取用户输入的段数；基于获取的段数，对所述图像数据和音频数据分别进行分段处理。

实际应用时，可以结合相应组数据包含的图像数据对应的特征数据和音频数据对应的特征数据，确定相应组数据是否满足第一预设条件，以对用户不熟悉的背诵内容进行识别。

基于此，在一实施例中，所述判断单元43，具体用于：针对所述至少两组数据中的每组数据，对相应组数据包含的图像数据进行特征提取，得到第一特征数据；对相应组数据包含的音频数据进行特征提取，得到第二特征数据；确定所述第一特征数据满足第二预设条件且所述第二特征数据满足第三预设条件；确定所述第一特征数据满足第二预设条件且所述第二特征数据满足第三预设条件时，确定相应组数据满足第一预设条件。

这里，相应组数据满足第一预设条件的情况可以包括以下几种：第一种情况，相应组数据包含的图像数据对应的用户表情为“疑惑”表情，相应组数据包含的音频数据对应的用户声音出现“卡顿”情况。第二种情况，相应组数据包含的图像数据对应的用户表情为“疑惑”表情，相应组数据包含的音频数据对应的用户音量较低。第三种情况，相应组数据包含的图像数据对应的用户表情为“疑惑”表情，相应组数据包含的音频数据对应的文本与背诵内容不匹配。

基于此，在一实施例中，所述判断单元43，具体用于：基于所述第一特征数据，以及预设面部识别模型，得到用户表情；将所述用户表情与预设表情相匹配，得到匹配结果；当所述匹配结果表征所述用户表情与预设表情匹配时，确定所述第一特征数据满足第二预设条件。

基于此，在一实施例中，所述判断单元43，具体用于：基于所述第二特征数据，以及预设语音识别模型，得到第一识别结果；基于所述第一识别结果，统计用户背诵过程中的错误率；确定统计的错误率大于预设阈值；当确定统计的错误率大于预设阈值时，确定所述第二特征数据满足第三预设条件。

基于此，在一实施例中，所述判断单元43，具体用于：基于所述第二特征数据，确定用户的声音强度；确定声音强度是否小于预设阈值；当确定声音强度小于预设阈值时，确定所述第二特征数据满足第三预设条件。

基于此，在一实施例中，所述判断单元43，具体用于：基于所述第二特征数据，确定对应的语音平均幅值；确定所述语音平均幅值小于预设阈值；当确定所述语音平均幅值小于预设阈值时，确定所述第二特征数据满足第三预设条件。

基于此，在一实施例中，确定单元44，具体用于：针对采集时间在相应组数据之前的第一组数据，基于所述第一组数据包含的音频数据对应的特征数据，以及预设语音识别模型，得到第二识别结果；针对采集时间在相应组数据之后的第二组数据，基于所述第二组数据包含的音频数据对应的特征数据，以及预设语音识别模型，得到第三识别结果；确定所述第二识别结果对应的第一文本内容与预设背诵文本内容相匹配且所述第三识别结果对应的第二文本内容与预设背诵文本内容相匹配，基于所述第一文本内容、第二文本内容，确定用户不熟悉的内容。

基于此，在一实施例中，所述装置还包括：提示单元，用于基于所述用户不熟悉的内容，生成提示消息；所述提示消息用于提示用户背诵出错；输出所述提示消息。

实际应用时，所述采集单元41、分段单元42、判断单元43、确定单元44可由数据处理装置中的处理器实现；所述提示单元可由数据处理装置中的处理器结合通信接口实现。

需要说明的是：上述实施例提供的数据处理装置在进行数据处理时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的数据处理装置与数据处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本发明实施例还提供了一种数据处理装置，如图5所示，该数据处理装置50包括：通信接口51、处理器52、存储器53；其中，

通信接口51，能够与其它设备进行信息交互；

处理器52，与所述通信接口51连接，用于运行计算机程序时，执行上述智能设备侧一个或多个技术方案提供的方法。而所述计算机程序存储在存储器53上。

当然，实际应用时，数据处理装置50中的各个组件通过总线系统54耦合在一起。可理解，总线系统54用于实现这些组件之间的连接通信。总线系统54除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图5中将各种总线都标为总线系统54。

本申请实施例中的存储器53用于存储各种类型的数据以支持数据处理装置50的操作。这些数据的示例包括：用于在数据处理装置50上操作的任何计算机程序。

上述本申请实施例揭示的方法可以应用于所述处理器52中，或者由所述处理器52实现。所述处理器52可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过所述处理器52中的硬件的集成逻辑电路或者软件形式的指令完成。上述的所述处理器52可以是通用处理器、数字信号处理器(DSP，Digital SignalProcessor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。所述处理器52可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器53，所述处理器52读取存储器53中的信息，结合其硬件完成前述方法的步骤。

在示例性实施例中，数据处理装置50可以被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)、通用处理器、控制器、微控制器(MCU，Micro Controller Unit)、微处理器(Microprocessor)、或者其他电子元件实现，用于执行前述方法。

可以理解，本申请实施例的存储器53可以是易失性存储器或者非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，ferromagnetic random access memory)、快闪存储器(FlashMemory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，Random Access Memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，Synchronous Dynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random AccessMemory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random AccessMemory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本申请实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

需要说明的是：“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理模块中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本申请所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本申请所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

当确定相应组数据满足第一预设条件时，基于采集时间在相应组数据之前的组数据以及采集时间在相应组数据之后的组数据，确定用户不熟悉的内容；

其中，所述对所述图像数据和音频数据分别进行分段处理，将分段处理后的图像数据和音频数据进行组合，得到至少两组数据，包括：

确定至少两个时间锚点；

2.根据权利要求1所述的方法，其特征在于，所述针对所述至少两组数据中的每组数据，判断相应组数据是否满足第一预设条件，包括：

3.根据权利要求2所述的方法，其特征在于，所述确定所述第一特征数据满足第二预设条件，包括：

将所述用户表情与预设表情相匹配，得到匹配结果；

4.根据权利要求2所述的方法，其特征在于，所述确定所述第二特征数据满足第三预设条件，包括：

基于所述第一识别结果，统计用户背诵过程中的错误率；

确定统计的错误率大于预设阈值；

5.根据权利要求1所述的方法，其特征在于，所述基于采集时间在相应组数据之前的组数据以及采集时间在相应组数据之后的组数据，确定用户不熟悉的内容，包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

输出所述提示消息。

7.一种数据处理装置，其特征在于，所述装置包括：

确定单元，用于当确定相应组数据满足第一预设条件时，基于采集时间在相应组数据之前的组数据以及采集时间在相应组数据之后的组数据，确定用户不熟悉的内容；

所述分段单元，具体用于：确定至少两个时间锚点；利用所述至少两个时间锚点，对所述图像数据进行分段处理，得到至少两个图像数据；利用所述至少两个时间锚点，对所述音频数据进行分段处理，得到至少两个音频数据；将时间锚点相同的图像数据和音频数据进行组合，得到至少两组数据。

8.一种数据处理装置，其特征在于，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，

其中，所述处理器用于运行所述计算机程序时，执行权利要求1至6任一项所述方法的步骤。

9.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。